Python 用於網路爬蟲算是相對容易的。這回筆記下如何運用 BeautifulSoup 搭配解析器來成功爬取需要的資料。
課程名稱
Python 網頁爬蟲入門實戰:https://bit.ly/2U6wElg
對於爬蟲初學者而言,算是滿不錯的搭配教材。如有需要,你可以搭配「Python:網路爬蟲與資料分析入門實戰」這本書來看。
課程相關文章
指令
1 2 3 4 5 6 7 8 9 10 11 12 13 |
import requests from bs4 import BeautifulSoup res = requests.get('https://jwlin.github.io/py-scraping-analysis-book/ch1/connect.html') soup = BeautifulSoup(res.text,'html.parser') #解析成純文字,運用'html.parser'解析器 #輸出爬取的HTML網頁 #print(soup) #輸出頁面的特定值 #BeautifulSoup 一樣提供 CSS Selector,也就是用 .select() 的方法。 print(soup.find('h1')) #包含 <h1></h1> 標籤 print(soup.find('h1').text) # 純文字 print(soup.select('h1')) #.select() 方法 |