斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇筆記下以「模擬 API 取得資料的方式」來爬取 Pchome 24H 的搜尋頁面結果。
課程相關資訊
[連結]:https://hiskio.com/courses/527/lectures/30374
本篇範圍:Chapter 3 ( 由前端 JavaScript 產生的資料,動態網站爬蟲實現 )
請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。
筆記
1. 由於 pchome 的搜尋結果頁的 api,是將搜尋的參數代在網址列的 query 中,所以無需要另外將上 param
2. 取得這些 json 資料之後,可以透過迴圈的方式來取得內部的資訊。
1 2 3 4 5 6 7 8 |
import requests from bs4 import BeautifulSoup url = 'https://ecshweb.pchome.com.tw/search/v3.3/all/results?q=apple%20iphone%2013%20256G&page=1&sort=sale/dc' sourceRaw = requests.get(url).text import json result = json.loads(sourceRaw) print('json result', result) |