#大數據分析筆記
數據分析是(大)數據流程的一環節,不過在大數據下,原有的數據分析方法就不適用了,如統計學。

統計學本身是數據量少於母體(population)下,所發展出來的數字解析方法。隨著數字量增加到大數據時,原本統計學的基礎設定和假設被破壞,自然後面推導的結果也就不適用,並且還需要更多方向的推導。

簡單來說統計學的本質和架構沒錯,但既然是數據分析,就得將理論從數學推導後的結果,再用各種數字去驗證。後者常被忽略或用個案代表,以示成功。1/ #統計 #數據分析 #大數據 #AI #bigdata #dataanalysis

#大數據分析筆記
數據流程說明

1. 定義問題
2. 搜集數據

>第一點決定要搜集的數據有哪些,那麼搜集就得有搜集方法,包含來源、規則、儲存。

3. 處理數據

>包含清洗數據和優化數據,是目前數據科學的核心,也是有商業化的部份。

4. 分析數據

>分析數據的方法可以歸納為測定、建模、模擬、驗證、預測。這和目前網路公開的大數據分析內容不同,其中各種演算法是將上述的方法類別落實。

此處還要注意「數據特質」!例如分析數據的數據是常見可做四則運算的數字,就能適用實數系發展出來的數學和變數變換。

數字可能是排序用,不能做四則運算,那就要用另一種分析方法。

數據不是數字,就會落在「計數」,產生「頻率」的分析方法上。

5. 解讀數據

2/ #統計 #數據分析 #大數據 #大數據分析 ##AI #bigdata #dataanalysis