斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇筆記下關於資料探索與視覺化的簡介。
課程相關資訊
[連結]:https://hiskio.com/courses/527/lectures/29162
本篇範圍:Chapter 5 ( 利用 Google Data Studio 打造比價儀錶板 )
請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。
內容
1. 資料探索是讓分析者得以先初步認識資料,實務上會透過傳統的統計方法或是視覺化的圖像
2. 統計值、分布情況、異常值、特徵與關聯
3. 一般化→量化→視覺化
4. 資料描述:認識欄位、類型、連續資料與否和範圍、資料間的關係
5. 資料量:決定使用層級工具
6. 統計量分析:最大最小值 ( 決定範圍 );眾數、中位數和平均數 ( 決定數值中心 );變異數、標準差、斜方差和分位數 ( 決定分布狀態 )
7. 相關性分析
8. 利用圖表、點線面…等,來幫助人們理解資料:因為資訊經過設計,可以讓資訊的意義更容易被傳遞