斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇筆記下模擬 API 取得資料的方式。
課程相關資訊
[連結]:https://hiskio.com/courses/527/lectures/30373
本篇範圍:Chapter 3 ( 由前端 JavaScript 產生的資料,動態網站爬蟲實現 )
請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。
筆記
1. 藉由開發者工具中的 Network/XHR 項目中,觀察那些回傳的資料是我們所需要的
2. 若回傳的資料為 json 格式的字串,可以透過 import json 的工具來解析
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
# Prerequisites # 1. download the latest version of python3 # 2. use the following scripts to create a virtual env # python -m venv <folder_name> # 3. Enter the virtual env # source <folder_name>/Scripts/activate import requests from bs4 import BeautifulSoup url = 'https://fhy.wra.gov.tw/fhy/api/ReservoirInfoApi/DryAreaGetAll' sourceRaw = requests.get(url).text print('sourceRaw', sourceRaw) import json result = json.loads(sourceRaw) print('json result', result) |