資料處理概念與方法(2)-資料處理實作


資料處理方法與工具

資料前處理(以食譜為例)

A.Data (資料)

B.Data Cleaning(資料清理)

 

C.Text and Categorical attributes(文本及分類屬性)

D.Feature Scaling(特徵縮放.等比例縮放)

E.Transformation pipelines(資料轉換管道)

小結


"做出完美食譜菜的關鍵在於選擇合適的食材!"

補充說明:

資料是資料科學中的基礎,要有好的資料,才能產生好的資料價值。在實務中,資料會有資料缺失(Imcomplete/Missing data)、雜訊(Noise)、離異值等等的問題。

資料前處理的是在分析演算法之前,先對資料進行處理,讓資料在格式上比較標準一致。為的是讓演算法不會因為資料產生的瑕疵而誤判

去除異常資料或不要的欄位

資料引用:108課綱高中資科科友出版社

資料整合是為了解決多重資料來源的整合問題。

資料轉換是為了讓資料的數值在分析時不容易產生誤判錯誤。主要是重點在資料數值要如何轉換

平滑化是用在資料中充滿大量的雜訊,讓資料看起來很亂的情況下。透過平滑化的方法,可以讓雜訊產生的干擾降低。

一般化是為了太過細節的資料,變得比較標準。

標準化則是要讓資料的數值縮減到一個區間內,避免讓某個屬性的影響被放大或縮小。

 

資料引用:108課綱高中資科科友出版社

*附錄:康軒課本(資料格式與資料內容的轉換)

複習:資料儲存方式

範例

(1)資料表

(2)CSV(Comma-Separated Values,CSV,逗號分隔值,有時也稱為字元分隔值)

(3)JSON(JavaScript Object Notation)是一種開放的標准文件格式和資料交換格式

資料引用:108課綱高中資科科友出版社

實作1-認識JSON資料格式及轉換

1.範例

行政院環境保護署/ 空氣品質指標(AQI)

https://data.epa.gov.tw/api/v2/aqx_p_432?api_key=e8dd42e6-9b8b-43f8-991e-b3dee723a52d&limit=1000&sort=ImportDate desc&format=json

行政院環境保護署/ 紫外線

https://data.epa.gov.tw/api/v2/uv_s_01?offset=0&limit=33&api_key=da156bd2-ff2b-478e-a03b-5c3c0205c184

2.轉換

PM2.5 開放資料入口網站/ EDIMAX AirBox 空氣盒子

https://pm25.lass-net.org/data/last-all-airbox.json

線上轉換工具

https://coding.tools/tw/json-formatter


資料處理實作

實作2-康軒課本範例(以試算表工具)

資料下載

實作3-物聯網資料處理(以Scratch擴充積木OSEP開源工具)

程式下載

OSEP官網

測試版

https://estea8968.github.io/osep_web_serial/app/


高中資訊科技-資料分析與機器學習

民生公共物聯網資料處理(以Python工具)

參考資料

20221022中研院研習民生物聯網資料

民生公共物聯網資料應用網站(開源系統)