資料處理概念與方法-資料整理與整合
資料與資訊的意義 (The meanings of materials and information)
資料VS資訊之差異
Q1:什麼是資料?什麼是資訊? 日常生活中有哪些訊息是屬於資料、資訊,可以各舉個例子嗎?
大數據(Big Data)時代
解說:
大數據,又叫「巨量資料」,就是利用軟體演算方法,在大量的資料中找出你所需的資訊.物聯網顧名思義,就是日常生活中,原本各自獨立運作的設備,通通用網路串聯起來;達到控制的目的
資料時代席捲而來的不只是資訊界,而是一場全面性的革新。巨量資料帶來的是各個領域的改變,像是 FinTech (金融+科技)、Growth Hacking (行銷+科技)、Health Care(醫學+科技)等等都是隨著資料時代下在跨領域整合下而興起的趨勢。換句話說,巨量資料/資料思維,需要的是一種跨域的宏觀視野
實作1-資料(數據)視覺化-數據看台灣
教學影片3
(1)
(2)
TIMER
評量
題目:進入下列網站資料以視覺化(圖.表)台灣各縣市施打COVID-19疫苗狀況.請問在每日新增接種人數的統計圖中.在2021.ju(6月).09(日) 台灣接種人數第一名的縣市為何?
資料前處理
1.資料是資料科學中的基礎,要有好的資料,才能產生好的資料價值。在實務中,資料會有資料缺失(Imcomplete/Missing data)、雜訊(Noise)、離異值等等的問題。
2.資料整合是為了解決多重資料來源的整合問題
3.資料前處理泛指的是在分析演算法之前,先對資料進行處理,讓資料在格式上比較標準一致。為的是讓演算法不會因為資料產生的瑕疵而誤判。
4.資料前處理可以分為以下幾種不同類型的工作:
資料清理 (Data Cleaning):資料清理是資料前處理的第一步,需要先將資料中的問題處理。主要的工作包涵:填補遺失值等,修正資料的不一致。
資料整合 (Data Integration):資料整合也有人稱為是合併資料,將不同資料集/資料表的資料進行合併
資料轉換 (Data Transformation);資料轉換是為了讓資料的數值在分析時不容易產生誤判錯誤。主要是重點在資料數值要如何轉換
參考資料
http://ithelp.ithome.com.tw/articles/10184716
資料如何存在電腦裡?
原始的資料格式
1.CSV
CSV(Comma Seperated Values)逗號分隔值,是一種常見的資料格式,使用逗號將不同欄位做為分隔。可以使用一般的文字編輯器以原始格式開啟,也可以使用 excel 或 number 等試算表軟體以表格方式開啟。一般格式如下,第一列會記錄格式,第二列開始記錄資料:
優點
結構單純
人機皆可讀
檔案小
缺點
未限定編碼(big5, utf-8 … )
值內有逗點「,」可能造成欄位判斷錯誤
第一行不一定是欄位名稱
換行問題
2.JSON
JSON(JSON stands for JavaScript Object Notation)JavaScript 物件格式,是一種延伸自 JavaScript 物件來儲存和交換簡單結構的輕量級純文字資料交換格式。一般格式如下,每一筆資料都會用 "{資料屬性:資料數值}" 的格式紀錄,也可以是巢狀資料。
優點
可以存放結構較複雜的資料
大部份瀏覽器都支援
缺點
檔案較大(不過比XML小)
不一定適合轉換成表格型式
3.XML:
XML(eXtensible Markup Language)可延伸標記式語言,是一種標記式語言,處理包含各種資訊的資料等。
優點
可以存放結構較複雜的資料
大多瀏覽器可幫忙排版成較易讀格式
缺點
檔案較大(因為欄位名稱會一直重覆多次)
不一定適合轉換成表格型式
參考資料
http://ithelp.ithome.com.tw/articles/10184716
資料來源與取得
隨著開放資料的議題興起,現在也有越來越多的官方或非官方組織將其資料公開讓大家使用。
實作2-開放資料下載與資料格式認識(利用試算表)
實作3-利用試算表進行資料前處理