斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇筆記下「資料清理與資料整併」的介紹。
課程相關資訊
[連結]:https://hiskio.com/courses/527/lectures/26089
本篇範圍:Chapter 4 ( 資料很髒很亂怎麼辦?資料清理與資料整併 )
請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。
筆記
1. 資料科學簡言之為:從資料中找關係
2. 取得資料:從原始資料到決定存放資料庫的過程
3. 資料前處理:收集回來的資料整理成適合使用的樣子,並過濾掉雜訊和錯誤訊息,甚至於既有的資料集做整併
4. 資料前處理佔有將近 80% 的工作量
5. 所謂的清理缺失、錯誤的資料,指的是將原始資料中的遺漏和缺失值,轉為能讓模型得以存取的數學模式