地瓜大的飛翔旅程

點數旅行留學信用卡程式學習

Facebook Twitter Feed GitHub LinkedIn YouTube Instagram

Primary Menu

Skip to content

熱門文章目錄 Popular Posts
懶人包 Dummies
工程師之路 Learning Programming
關於作者 About
- Impressum
- Privacy Policy

Search

Secondary Menu

Skip to content

旅店 Hotel
亞洲 Asia
歐洲 Europe
美洲 America
指南 Guide
食記 Food
雜學 Trivia

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 BeautifulSoup 來解析網頁原始碼

Posted on2021-09-172021-09-06AuthorANDY LIEN

章節連結

課程相關資訊
筆記
程式碼
系列文章

斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術，但隨著反爬蟲的技術也是越來越精進，所以想說藉由「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇主要是記錄如何「利用 BeautifulSoup 來解析網頁原始碼」。

課程相關資訊

[連結]：https://hiskio.com/courses/527/lectures/26085

本篇範圍：Chapter 2 ( 開啟第一個網頁爬蟲 – 自動化收集商品資料 )

請注意：本系列文章為個人對應課程的消化吸收後，所整理出來的內容。換言之，並不一定會包含全部的課程內容，也有可能會添加其他資源來說明。

筆記

1. 攔截回的回應，僅是網頁的原始碼。BeautifulSoup 是將原始碼解讀成樹狀結構，方便後續取用的工具。若你有曾經使用過 jQuery 的話，那上手的難度應該不高
2. 在 python 中載入，一般而言僅需要用 from bs4 import BeautifulSoup 即可。這代表的是僅需要使用 BeautifulSoup 中的 bs4 函式，是一種按需載入的寫法
3. 解析出了樹狀結構，可以用

<解析出的樹狀結構位置>.name：該項目的標籤名稱
<解析出的樹狀結構位置>[”]：該項目的屬性，如 class, id…等
<解析出的樹狀結構位置>.text：該項目的文字

4. 用 find, find_all 可以找到部分、全部的同類標籤；搭配上 class, id 等條件可以縮小範圍
5. class 在 python 是保留字，所以要使用 class_
6. 實務上，你可以搭配瀏覽器的工具 ( 如 Google Chrome 的 Elements 中的點選指標，你可以快速跳到畫面上的圖示於瀏覽器的所在位置 )，接著來思考一下如何透過相關的 HTML 屬性和標籤來達成定位效果

程式碼

python-course-demo1

import requests
from bs4 import BeautifulSoup

rawRes = requests.get('https://sample.v123582.repl.co')
resText = rawRes.text
soup = BeautifulSoup(resText,'html.parser')

print('=== Original HTML ===')
print(soup.html)
print('=== Title ===')
print(soup.title)
print(soup.title.name)
print(soup.title.text)
print('=== Paragraph ===')
print('First p tag')
print(soup.p)
print('Second p tag')
print(soup.find_all('p')[1])
print('all link tags with class link')
print(soup.find_all('a', class_='link'))

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

import requests

from bs4 import BeautifulSoup

rawRes = requests.get('https://sample.v123582.repl.co')

resText = rawRes.text

soup = BeautifulSoup(resText,'html.parser')

print('=== Original HTML ===')

print(soup.html)

print('=== Title ===')

print(soup.title)

print(soup.title.name)

print(soup.title.text)

print('=== Paragraph ===')

print('First p tag')

print(soup.p)

print('Second p tag')

print(soup.find_all('p')[1])

print('all link tags with class link')

print(soup.find_all('a', class_='link'))

系列文章

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料科學與網頁爬蟲

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料清理與整理

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料探索與視覺化的生態系

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料探索和視覺化

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 觀察 API 並透過 Python 取得資料 – Pchome 24H 購物為例

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 觀察 API 並透過 Python 取得資料

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 網頁爬蟲的起源和處理策略

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 網站架設與前後端運作原理

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 用 jQuery DataTable 來讓表格動起來

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 爬取動態的電商網站 ( 蝦皮購物 )

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 為什麼抓不到動態資料

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 把全部的資料爬回來 ( 2 )

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 把全部的資料爬回來 ( 1 )

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 從網頁溝通架構到爬蟲運作原理

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 將資料存成外部 csv xlsx 檔案

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 將資料存到資料庫系統中

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 將資料串接上 Google Data Studio

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 存資料庫到後端

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 存到 MySQL 資料庫實作

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 在靜態網站中獲取資訊 2

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 在靜態網站中獲取資訊

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 友善與惡意爬蟲

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Requests 模擬請求和攔截回應

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Pandas 實現資料前處理

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Flask 架設自己的網站 (3)

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Flask 架設自己的網站 (2)

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Flask 架設自己的網站 (1)

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 儲存到 Google Spreadsheet

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Selenium 的簡介

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Selenium 套件和環境設置

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Python 與爬蟲環境準備

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Python 的基本語法

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Pandas 操作範例

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – ngrok

按讚加入粉絲團

延伸閱讀

[筆記] Open Graph 設定與利用 opengraph.dev 檢查
[筆記] 程式必修課！離散數學與演算法 – 127
[筆記] 程式必修課！離散數學與演算法 – 126
[筆記] 解決 Chart.js Canvas 元素造成的水平滾軸問題
[筆記] CSS Grid 的 items-stretch 實現卡片等高佈局

Categories程式語言 Programming Language, 筆記 Notes, 網頁開發 Web DevelopmentTagsHiSKIO, hiskioCourcePythonCrawler

文章導覽

← Previous Previous post: [筆記] UI 設計入門：畫出有程式邏輯的設計稿 – 33 – 切圖命名與格式

Next → Next post: [筆記] Echarts 利用 visualMap 讓折線圖實現分段不同顏色

Google 站內搜尋

GA4瀏覽人氣

線上人數：2
昨日人氣：674
本月人氣：47,900
上月人氣：21,885
本年人氣：339,495
累積人氣：2,016,405

GA4熱門文章

[指南] 國際電話撥打、接聽是否收費？簡易規則講解(瀏覽：62,811)
[筆記] 解決 Windows 10 以後版本的中文無法正常輸入 IME 已停用問題(瀏覽：38,871)
[指南] Charles Schwab 嘉信理財 W-8BEN 表格更新 2021(瀏覽：11,946)
[指南] 台灣麻將規則整理既介紹(瀏覽：10,326)
[指南] Windows 更改預設顯示器若選項無法選取該怎麼辦(瀏覽：5,010)
[指南] 台灣境內銀行外幣帳戶轉帳究竟要不要手續費(瀏覽：4,819)
[金融] 日本手機號碼應用之一 – 旅人可申請的 ANA Pay(瀏覽：4,628)
[指南] 日本實體手機門號可海外收簡訊 190PadSIM 申請(瀏覽：4,304)

Google 熱門關鍵字

在國外接電話要錢嗎(1360/7582/4.3)
國外接電話要錢嗎(789/2055/2.3)
人在國外接電話(501/1645/2.8)
國際電話誰付錢(467/1996/2.6)
traditional chinese ime is not ready yet解決方法(464/1813/4.7)
在國外接電話費用(463/2740/5.0)
國外接電話(460/2278/5.0)
在國外接電話(436/1535/3.9)
traditional chinese ime is not ready yet(410/3494/11.7)
ana pay 教學(373/2524/6.0)
國際電話誰付費(333/1084/2.5)
t card開卡(302/779/2.4)
接國際電話(295/1079/3.3)
接國際電話要錢嗎(261/6922/6.4)
國外接電話費用(250/1164/5.1)
ana pay(222/6078/8.9)
接聽國際電話(205/506/1.5)
接國外電話要付錢嗎(191/4860/4.8)
維珍航空註冊教學(187/384/2.2)
ime已停用(171/11342/8.7)
ana pay申請教學(169/737/5.3)
ime is not ready yet解決方法(157/439/3.9)
br71(154/16900/8.4)
國際電話誰付錢(146/453/2.5)
國外接電話(137/543/6.2)
國際電話付費(135/371/2.9)
接國際電話要付費嗎(134/2723/5.9)
國際電話誰付費(128/411/2.4)
traditional chinese ime is not ready yet 解決(120/346/3.8)
國際電話付費(114/282/2.8)

好站推薦

優雅筆寄
 網站狂人
 嘿!部落!

CC授權標示

本著作係採用創用 CC 姓名標示-相同方式分享 4.0 國際授權條款授權.

分類

分類

Copyright © 2025 地瓜大的飛翔旅程. All Rights Reserved. 隱私權政策 | Catch Responsive by Catch Themes

熱門文章目錄 Popular Posts
懶人包 Dummies
工程師之路 Learning Programming
關於作者 About
- Impressum
- Privacy Policy

旅店 Hotel
亞洲 Asia
歐洲 Europe
美洲 America
指南 Guide
食記 Food
雜學 Trivia

Blogimove部落格搬家技術服務