斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇講述何謂友善或是惡意爬蟲。
課程相關資訊
[連結]:https://hiskio.com/courses/527/lectures/30365
本篇範圍:Chapter 2 ( 開啟第一個網頁爬蟲 – 自動化收集商品資料 )
請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。
筆記
1. 在撰寫爬蟲程式時,不要被對方網站判定為惡意爬蟲是很重要的
2. 在 Web 2.0 的時代 ( 2000~2010 ) ,網站是以「流量」為思考核心 – 越多人看才能創造更多收益機會
3. 到了 Web 3.0,是以「資料」為主的時代,更關注流量的品質和個人的行為
4. 常見的「惡意行為」包括: DoS or DDOS、非人為廣告點擊、異常流量、商業機密洩漏
5. 讓爬蟲「友善一點」的方法:robots.txt ( 設定哪些頁面可抓取 / 不能抓取 )、間隔時間控制
6. 公開的數據 = 可以用的商用數據?另外「公開」這件事存在這模糊空間
7. 資料爬蟲是技術,背後會有商業行為和法律問題