斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇主要是記錄下「利用 Requests 模擬請求和攔截回應」。
課程相關資訊
[連結]:https://hiskio.com/courses/527/lectures/26083
本篇範圍:Chapter 2 ( 開啟第一個網頁爬蟲 – 自動化收集商品資料 )
請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。
筆記
1. 用 python 中的 request 函式庫,來模擬瀏覽器的傳送和回應
2. requests 會包含「向誰請求」和「請求內容」,有時還會包含對應的參數
3. GET 會將所有資訊包在網址內;POST 則是會在封包之中
4. 加上 headers 在一定程度上,可以不被網站發現是爬蟲,而是使用瀏覽器瀏覽。因為會帶上發送方的資訊。
5. 攔截到的原始碼,需要進行解析