資料處理概念與方法(2)-資料處理實作
資料處理方法與工具
資料前處理(以食譜為例)
A.Data (資料)
B.Data Cleaning(資料清理)
C.Text and Categorical attributes(文本及分類屬性)
D.Feature Scaling(特徵縮放.等比例縮放)
E.Transformation pipelines(資料轉換管道)
小結
"做出完美食譜菜的關鍵在於選擇合適的食材!"
補充說明:
資料是資料科學中的基礎,要有好的資料,才能產生好的資料價值。在實務中,資料會有資料缺失(Imcomplete/Missing data)、雜訊(Noise)、離異值等等的問題。
資料前處理的是在分析演算法之前,先對資料進行處理,讓資料在格式上比較標準一致。為的是讓演算法不會因為資料產生的瑕疵而誤判。
去除異常資料或不要的欄位
資料引用:108課綱高中資科科友出版社
資料整合是為了解決多重資料來源的整合問題。
資料轉換是為了讓資料的數值在分析時不容易產生誤判錯誤。主要是重點在資料數值要如何轉換
平滑化是用在資料中充滿大量的雜訊,讓資料看起來很亂的情況下。透過平滑化的方法,可以讓雜訊產生的干擾降低。
一般化是為了太過細節的資料,變得比較標準。
標準化則是要讓資料的數值縮減到一個區間內,避免讓某個屬性的影響被放大或縮小。
資料引用:108課綱高中資科科友出版社
*附錄:康軒課本(資料格式與資料內容的轉換)
複習:資料儲存方式
範例
(1)資料表
(2)CSV(Comma-Separated Values,CSV,逗號分隔值,有時也稱為字元分隔值)
(3)JSON(JavaScript Object Notation)是一種開放的標准文件格式和資料交換格式
資料引用:108課綱高中資科科友出版社
實作1-認識JSON資料格式及轉換
1.範例
行政院環境保護署/ 空氣品質指標(AQI)
行政院環境保護署/ 紫外線
2.轉換
PM2.5 開放資料入口網站/ EDIMAX AirBox 空氣盒子
https://pm25.lass-net.org/data/last-all-airbox.json
線上轉換工具
https://coding.tools/tw/json-formatter
資料處理實作
實作2-康軒課本範例(以試算表工具)
實作3-物聯網資料處理(以Scratch擴充積木OSEP開源工具)
測試版
https://estea8968.github.io/osep_web_serial/app/
高中資訊科技-資料分析與機器學習
民生公共物聯網資料處理(以Python工具)
參考資料