資料處理概念與方法


資料處理(Data Process)概念

Q:為何大量的資料需要使用電腦來處理?它具備有哪些特性(Characteristics)?

提示:

解說:

資料與資訊的意義 (The meanings of materials and information)

實作1-110北北基續招資訊

台北市續招學校名單

實作2-高中(職)升大學(科大資訊)

110年公私立高中錄取台大人數與醫牙電資人數統計表

110年公私立高中錄取清華大學與陽明交通大學人數統計

111學年度四技二專統一入學測驗各科試題與參考答案公布

110學年度 四技二專日間部聯合登記分發各校系科組錄取高低分統計表(一般生) 各校錄取分數


資料處理(Data Process)方法

(1)資料科學(Data Science)

資料科學與人工智慧

資料科學的目的

從資料中找關係

 

從資料中找關係

資料科學的步驟

「取得資料」→「資料前處理」→「資料轉換」→「資料分析」→「資料解釋」→『發現知識」

資料科學應用範圍

資料引用:108課綱高中資科科友出版社

資料科學小結

「從資料開始,透過一連串的過程發現隱藏在資料中的規則,利用這些規則完成一些有趣的應用。」

相關研究

https://chriskang028.medium.com/a-step-by-step-guide-for-beginner-i-a1cb41bb87c1


(2)資料探勘

1.取得資料

隨著開放資料的議題興起,現在也有越來越多的官方或非官方組織將其資料公開讓大家使用。

實作1-開放資料收集與讀取(利用試算表及記事本)

說明:資料儲存方式

範例1

(1)資料表

(2)CSV(Comma-Separated Values,CSV,逗號分隔值,有時也稱為字元分隔值)

範例2

(1)資料表

(2)CSV(Comma-Separated Values,CSV,逗號分隔值,有時也稱為字元分隔值)

(3)JSON值

資料引用:108課綱高中資科科友出版社

2.資料前處理(以食譜為例)

0.Data (資料)

1.Data Cleaning(資料清理)

 

2.Text and Categorical attributes(文本及分類屬性)

3.Feature Scaling(特徵縮放)

4.Transformation pipelines(轉換管道)

小結


"做出完美食譜菜的關鍵在於選擇合適的食材!"

補充說明:

1.資料是資料科學中的基礎,要有好的資料,才能產生好的資料價值。在實務中,資料會有資料缺失(Imcomplete/Missing data)、雜訊(Noise)、離異值等等的問題。

2.資料整合是為了解決多重資料來源的整合問題

3.資料前處理泛指的是在分析演算法之前,先對資料進行處理,讓資料在格式上比較標準一致。為的是讓演算法不會因為資料產生的瑕疵而誤判

異常資料

資料引用:108課綱高中資科科友出版社

4.資料前處理可以分為以下幾種不同類型的工作:

資料清理 (Data Cleaning):資料清理是資料前處理的第一步,需要先將資料中的問題處理。主要的工作包涵:填補遺失值等,修正資料的不一致。


資料整合 (Data Integration):資料整合也有人稱為是合併資料,將不同資料集/資料表的資料進行合併

資料轉換 (Data Transformation);資料轉換是為了讓資料的數值在分析時不容易產生誤判錯誤。主要是重點在資料數值要如何轉換

資料來源:

https://blog.v123582.tw/2020/12/04/%E8%B3%87%E6%96%99%E5%89%8D%E8%99%95%E7%90%86%E5%BF%85%E9%A0%88%E8%A6%81%E5%81%9A%E7%9A%84%E4%BA%8B-%E8%B3%87%E6%96%99%E6%B8%85%E7%90%86%E8%88%87%E5%9E%8B%E6%85%8B%E8%AA%BF%E6%95%B4/?fbclid=IwAR2kyvImTFgnjb86lMwHRqetj5D5PiPfDNGIMhkuTcf5o62Tf8eBydhesys


實作3-利用試算表進行資料處理與分析

範例書

基本資料處理與分析

Python爬蟲基礎架構圖


大數據(Big Data)時代

解說:

大數據,又叫「巨量資料」,就是利用軟體演算方法,在大量的資料中找出你所需的資訊.物聯網顧名思義,就是日常生活中,原本各自獨立運作的設備,通通用網路串聯起來;達到控制的目的

資料時代席捲而來的不只是資訊界,而是一場全面性的革新。巨量資料帶來的是各個領域的改變,像是 FinTech (金融+科技)Growth Hacking (行銷+科技)Health Care(醫學+科技)等等都是隨著資料時代下在跨領域整合下而興起的趨勢。換句話說,巨量資料/資料思維,需要的是一種跨域的宏觀視野

實作4-資料(數據)視覺化

教學影片

(1)

 

 

(2)

(3)

思考問題

數據(資料)視覺化你覺得有何好處?