第八次資料處理概念與方法4-資料處理實作


資料科學(資料探勘)的步驟

「取得資料」→「資料前處理」→「資料轉換」→「資料分析」→「資料解釋」→『發現知識」

資料是資料科學中的基礎,要有好的資料,才能產生好的資料價值。

資料前處理可以分為以下幾種不同類型的工作:

資料清理 (Data Cleaning)
資料整合 (Data Integration)
資料轉換 (Data Transformation)

A.資料清理

是資料前處理的第一步,需要先將資料中的問題處理。主要的工作包涵:填補遺失值,處理 Outliers 及 Noise 問題,修正資料的不一致

在實務中,資料會有資料缺失(Imcomplete/Missing data)、雜訊(Noise)、離異值等等的問題。

範例:去除異常資料或不要的欄位

資料引用:108課綱高中資科科友出版社

B.資料整合(合併資料)

將不同資料集/資料表的資料進行合併.是為了解決多重資料來源的整合問題

C.資料轉換

資料的數值在分析時不容易產生誤判錯誤。主要是重點在資料數值要如何轉換

平滑化是用在資料中充滿大量的雜訊,讓資料看起來很亂的情況下。透過平滑化的方法,可以讓雜訊產生的干擾降低。

一般化是為了太過細節的資料,變得比較標準。

標準化則是要讓資料的數值縮減到一個區間內,避免讓某個屬性的影響被放大或縮小。

小結:以食譜為例

A.Data (資料)

B.Data Cleaning(資料清理)

 

C.Text and Categorical attributes(文本及分類屬性)

D.Feature Scaling(特徵縮放.等比例縮放)

E.Transformation pipelines(資料轉換管道)

小結

"做出完美食譜菜的關鍵在於選擇合適的食材!"

"好的輸入資料才有好的資料探勘(科學)的輸出"

*附錄:康軒課本(資料格式與資料內容的轉換)


 資料處理數位工具實作-Scratch

實作1-Scratch擴充積木-OSEP開源工具

程式說明

OSEP官網

教學講義

範例下載

範例1-雲端試算表與OSEP之應用

雲端試算表-Google Sheet

KTV歌單 google 試算表

範例2-COVID-19台灣疫情查詢

1.選擴充積木JSON

*JSON(JavaScript Object Notation)是一種開放的標準文件格式和資料交換格式

2.下載JSON資料

點選以下網址

複製下圖紅色框框的網址

 

3.貼至網址積木區內並將讀取的JSON積木打勾.確認有抓到資料

範例3-假牙合約醫療院所查詢系統

參考資料

https://sites.google.com/view/scminicourse/home?authuser=0


高中資訊科技-資料分析與機器學習

民生公共物聯網資料處理(以Python工具)

參考資料

20221022中研院研習民生物聯網資料

民生公共物聯網資料應用網站(開源系統)