[筆記] Python 爬蟲初探 BeautifulSoup @地瓜大的飛翔旅程

章節連結

課程名稱
課程相關文章
指令

Python 用於網路爬蟲算是相對容易的。這回筆記下如何運用 BeautifulSoup 搭配解析器來成功爬取需要的資料。

課程名稱

Python 網頁爬蟲入門實戰：https://bit.ly/2U6wElg
對於爬蟲初學者而言，算是滿不錯的搭配教材。如有需要，你可以搭配「Python：網路爬蟲與資料分析入門實戰」這本書來看。

課程相關文章

[筆記] Python 爬蟲實戰 – PPT 表特版和圖片下載

[筆記] Python 爬蟲 PTT 八卦版

[筆記] Python 爬蟲 BeautifulSoup 的進階運用

指令

import requests 
from bs4 import BeautifulSoup

res = requests.get('https://jwlin.github.io/py-scraping-analysis-book/ch1/connect.html')
soup = BeautifulSoup(res.text,'html.parser') #解析成純文字，運用'html.parser'解析器
#輸出爬取的HTML網頁
#print(soup)

#輸出頁面的特定值
#BeautifulSoup 一樣提供 CSS Selector，也就是用 .select() 的方法。
print(soup.find('h1')) #包含 <h1></h1> 標籤
print(soup.find('h1').text) # 純文字
print(soup.select('h1')) #.select() 方法