斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇筆記下如何將爬取下來的資料,跟 Database 做互動的一些細節。
課程相關資訊
[連結]:https://hiskio.com/courses/527/lectures/30377
本篇範圍:Chapter 4 ( 資料很髒很亂怎麼辦?資料清理與資料整併 )
請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。
重點整理
1. (關聯式)資料庫就像是一個集中式的檔案倉庫,你可以將資料存放在資料表內。一個資料庫內會有多張的資料表。
2. 資料表間可以存在關聯,透過外鍵來連結
3. 資料表需要進行正規化,來避免資料間的冗餘
4. 資料庫管理系統 DBMS 和資料庫中,是使用 SQL 語言來進行的