資料處理概念與方法-資料整理與整合
資料與資訊的意義 (The meanings of materials and information)
資料VS資訊之差異
Q2什麼是資料?什麼是資訊? 日常生活中有哪些訊息是屬於資料、資訊,可以各舉個例子嗎?
資料變黃金-大數據物聯網
大數據,又叫「巨量資料」,就是利用軟體演算方法,在大量的資料中找出你所需的資訊.物聯網顧名思義,就是日常生活中,原本各自獨立運作的設備,通通用網路串聯起來;達到控制的目的
資料時代席捲而來的不只是資訊界,而是一場全面性的革新。巨量資料帶來的是各個領域的改變,像是 FinTech (金融+科技)、Growth Hacking (行銷+科技)、Health Care(醫學+科技)等等都是隨著資料時代下在跨領域整合下而興起的趨勢。換句話說,巨量資料/資料思維,需要的是一種跨域的宏觀視野
Q1 你知道日常生活中有哪些大數據的應用,可以各舉個例子嗎?
活動設計1-資料變黃金-物聯網
參考資料
http://ithelp.ithome.com.tw/articles/10184716
活動設計2-數據分析與資料庫系統
運動VS數據分析
升學VS資訊
104年基北區高中職 校群科招生資訊查詢-資料庫系統
資料前處理
資料是資料科學中的基礎,要有好的資料,才能產生好的資料價值。在實務中,資料會有資料缺失(Imcomplete/Missing data)、雜訊(Noise)、離異值等等的問題。資料前處理泛指的是在分析演算法之前,先對資料進行處理,讓資料在格式上比較標準一致。為的是讓演算法不會因為資料產生的瑕疵而誤判。
資料前處理可以分為以下幾種不同類型的工作:
資料清理 (Data Cleaning):資料清理是資料前處理的第一步,需要先將資料中的問題處理。主要的工作包涵:填補遺失值等,修正資料的不一致。
資料整合 (Data Integration):資料整合也有人稱為是合併資料,將不同資料集/資料表的資料進行合併
資料轉換 (Data Transformation);資料轉換是為了讓資料的數值在分析時不容易產生誤判錯誤。主要是重點在資料數值要如何轉換
參考資料
http://ithelp.ithome.com.tw/articles/10184716
活動設計3-利用試算表進行資料前處理
資料如何存在電腦裡?
原始的資料格式
1.CSV
CSV(Comma Seperated Values)逗號分隔值,是一種常見的資料格式,使用逗號將不同欄位做為分隔。可以使用一般的文字編輯器以原始格式開啟,也可以使用 excel 或 number 等試算表軟體以表格方式開啟。一般格式如下,第一列會記錄格式,第二列開始記錄資料:
優點
結構單純
人機皆可讀
檔案小
缺點
未限定編碼(big5, utf-8 … )
值內有逗點「,」可能造成欄位判斷錯誤
第一行不一定是欄位名稱
換行問題
2.JSON
JSON(JSON stands for JavaScript Object Notation)JavaScript 物件格式,是一種延伸自 JavaScript 物件來儲存和交換簡單結構的輕量級純文字資料交換格式。一般格式如下,每一筆資料都會用 "{資料屬性:資料數值}" 的格式紀錄,也可以是巢狀資料。
優點
可以存放結構較複雜的資料
大部份瀏覽器都支援
缺點
檔案較大(不過比XML小)
不一定適合轉換成表格型式
3.XML:
XML(eXtensible Markup Language)可延伸標記式語言,是一種標記式語言,處理包含各種資訊的資料等。
優點
可以存放結構較複雜的資料
大多瀏覽器可幫忙排版成較易讀格式
缺點
檔案較大(因為欄位名稱會一直重覆多次)
不一定適合轉換成表格型式
參考資料
http://ithelp.ithome.com.tw/articles/10184716
資料來源與取得
隨著開放資料的議題興起,現在也有越來越多的官方或非官方組織將其資料公開讓大家使用。
活動設計3-開放資料下載與資料格式認識(利用試算表)
這邊分享幾個常見的公開資料單位:
政府資料開放平台
Google Public Data
行政院主計總處