第八次資料處理概念與方法4-資料處理實作
資料科學(資料探勘)的步驟
「取得資料」→「資料前處理」→「資料轉換」→「資料分析」→「資料解釋」→『發現知識」 |
資料是資料科學中的基礎,要有好的資料,才能產生好的資料價值。
資料前處理可以分為以下幾種不同類型的工作:
資料清理 (Data Cleaning)
資料整合 (Data Integration)
資料轉換 (Data Transformation)
A.資料清理
是資料前處理的第一步,需要先將資料中的問題處理。主要的工作包涵:填補遺失值,處理 Outliers 及 Noise 問題,修正資料的不一致
在實務中,資料會有資料缺失(Imcomplete/Missing data)、雜訊(Noise)、離異值等等的問題。
範例:去除異常資料或不要的欄位
資料引用:108課綱高中資科科友出版社
B.資料整合(合併資料)
將不同資料集/資料表的資料進行合併.是為了解決多重資料來源的整合問題
C.資料轉換
讓資料的數值在分析時不容易產生誤判錯誤。主要是重點在資料數值要如何轉換
平滑化是用在資料中充滿大量的雜訊,讓資料看起來很亂的情況下。透過平滑化的方法,可以讓雜訊產生的干擾降低。
一般化是為了太過細節的資料,變得比較標準。
標準化則是要讓資料的數值縮減到一個區間內,避免讓某個屬性的影響被放大或縮小。
小結:以食譜為例
A.Data (資料)
B.Data Cleaning(資料清理)
C.Text and Categorical attributes(文本及分類屬性)
D.Feature Scaling(特徵縮放.等比例縮放)
E.Transformation pipelines(資料轉換管道)
小結
"做出完美食譜菜的關鍵在於選擇合適的食材!" "好的輸入資料才有好的資料探勘(科學)的輸出" |
*附錄:康軒課本(資料格式與資料內容的轉換)
程式說明
範例1-雲端試算表與OSEP之應用
雲端試算表-Google Sheet
範例2-COVID-19台灣疫情查詢
1.選擴充積木JSON
*JSON(JavaScript Object Notation)是一種開放的標準文件格式和資料交換格式
2.下載JSON資料
點選以下網址
複製下圖紅色框框的網址
3.貼至網址積木區內並將讀取的JSON積木打勾.確認有抓到資料
範例3-假牙合約醫療院所查詢系統
參考資料
https://sites.google.com/view/scminicourse/home?authuser=0
高中資訊科技-資料分析與機器學習
民生公共物聯網資料處理(以Python工具)
參考資料