[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 從網頁溝通架構到爬蟲運作原理

章節連結

斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇主要是記錄下「網頁溝通架構時和爬蟲運作原理」。
python


課程相關資訊

[連結]:https://hiskio.com/courses/527/lectures/26082

本篇範圍:Chapter 2 ( 開啟第一個網頁爬蟲 – 自動化收集商品資料 )

請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。


筆記

1. 使用者在瀏覽器上輸入網址 → 瀏覽器發送請求到伺服器 → 伺服器回傳回應的資料 → 瀏覽器將畫面處理成你所看到的內容
2. 以上便是基於 Request 和 Response 的 HTTP 規範
3. HTTP Request 隱含著「向誰請求」&「請求什麼」兩種資訊,瀏覽器中會有 GET & POST 兩種方法
4. 以 https://www.google.com/here?test=123 當作例子: https 為 protocol; google 為 domain; www 為 subdomain; com 為 Top Level Domain ( TLD ); here 為 path; ? 後方的為 parameter
5. 回傳的資料中,API 為僅有資料結構的字串;View 則是一段 HTML 原始碼,需透過瀏覽器解析
6. HTML 是一個樹狀結構,瀏覽器解析成 DOM 後,才能理解頁面內容
7. 網頁中包含 HTML, CSS, JavaScript 三者
8. 對於爬蟲而言,最簡易的方式就是找到 HTML 中的 class, id 內,是否有你需要的資料。簡言之,這些 id, class 都是很有用的定位點
9. 爬蟲回來的資料,是需要進行解析和清理的


系列文章

  • [筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料科學與網頁爬蟲
  • [筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 網頁爬蟲的起源和處理策略
  • [筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Requests 模擬請求和攔截回應
  • [筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 BeautifulSoup 來解析網頁原始碼
  • [筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Python 與爬蟲環境準備
  • [筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Python 的基本語法
  • 按讚加入粉絲團

    延伸閱讀