地瓜大的飛翔旅程

點數旅行留學信用卡程式學習

Facebook Twitter Feed GitHub LinkedIn YouTube Instagram

Primary Menu

Skip to content

熱門文章目錄 Popular Posts
懶人包 Dummies
工程師之路 Learning Programming
關於作者 About
- Impressum
- Privacy Policy

Search

Secondary Menu

Skip to content

旅店 Hotel
亞洲 Asia
歐洲 Europe
美洲 America
指南 Guide
食記 Food
雜學 Trivia

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 在靜態網站中獲取資訊

Posted on2021-09-232021-09-07AuthorANDY LIEN

章節連結

課程相關資訊
筆記
程式碼
系列文章

斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術，但隨著反爬蟲的技術也是越來越精進，所以想說藉由「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇主要是記錄如何「在靜態網站中獲取資訊」。

課程相關資訊

[連結]：https://hiskio.com/courses/527/lectures/26085

本篇範圍：Chapter 2 ( 開啟第一個網頁爬蟲 – 自動化收集商品資料 )

請注意：本系列文章為個人對應課程的消化吸收後，所整理出來的內容。換言之，並不一定會包含全部的課程內容，也有可能會添加其他資源來說明。

筆記

1. 先挑選你的目標頁面和你要爬取的東西
2. 利用開發者工具，來快速鎖定目標
3. 由於程式碼的 class, id 名稱中，有可能會包含亂數生成的字眼。這些字眼有機會會隨著時間、版本更新而變動，造成你的爬蟲無法穩定有效：可以使用如同 css 選取器的規則 h1[class*=’config__title__’] 的形式。左邊例子意思為：抓取 h1 標籤，其中包含 config__title__ 字樣、或是使用 regex 的方法

程式碼

python-course-demo2

// 解決當解析網址列時的語言編碼問題，讓 python 可讀取 utf-8
import sys
import codecs
sys.stdout = codecs.getwriter('utf-8')(sys.stdout.detach())

import requests 
from bs4 import BeautifulSoup 

rawRes = requests.get('https://tw.buy.yahoo.com/gdsale/Apple-iPhone-12-mini-256G-5-4%E5%90%8B-%E7%B4%AB%E8%89%B2-%E6%99%BA%E6%85%A7%E5%9E%8B%E6%89%8B%E6%A9%9F-9486262.html') 
resText = rawRes.text 
soup = BeautifulSoup(resText,'html.parser')

merchantTitle = soup.select('h1[class*="HeroInfo__title___"]')[0].text
merchantPriceRaw = soup.find('div',class_='HeroInfo__mainPrice___1xP9H').text
merchantPrice = float(merchantPriceRaw[1:].replace(',',''))

print(merchantTitle)
// 原始值
print(merchantPriceRaw)
// 字串長度篩選
print(merchantPriceRaw[1:])
// 最終資料
print(merchantPrice)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

// 解決當解析網址列時的語言編碼問題，讓 python 可讀取 utf-8

import sys

import codecs

sys.stdout = codecs.getwriter('utf-8')(sys.stdout.detach())

import requests

from bs4 import BeautifulSoup

rawRes = requests.get('https://tw.buy.yahoo.com/gdsale/Apple-iPhone-12-mini-256G-5-4%E5%90%8B-%E7%B4%AB%E8%89%B2-%E6%99%BA%E6%85%A7%E5%9E%8B%E6%89%8B%E6%A9%9F-9486262.html')

resText = rawRes.text

soup = BeautifulSoup(resText,'html.parser')

merchantTitle = soup.select('h1[class*="HeroInfo__title___"]')[0].text

merchantPriceRaw = soup.find('div',class_='HeroInfo__mainPrice___1xP9H').text

merchantPrice = float(merchantPriceRaw[1:].replace(',',''))

print(merchantTitle)

// 原始值

print(merchantPriceRaw)

// 字串長度篩選

print(merchantPriceRaw[1:])

// 最終資料

print(merchantPrice)

系列文章

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料科學與網頁爬蟲

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料清理與整理

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料探索與視覺化的生態系

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 資料探索和視覺化

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 觀察 API 並透過 Python 取得資料 – Pchome 24H 購物為例

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 觀察 API 並透過 Python 取得資料

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 網頁爬蟲的起源和處理策略

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 網站架設與前後端運作原理

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 用 jQuery DataTable 來讓表格動起來

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 爬取動態的電商網站 ( 蝦皮購物 )

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 為什麼抓不到動態資料

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 把全部的資料爬回來 ( 2 )

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 把全部的資料爬回來 ( 1 )

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 從網頁溝通架構到爬蟲運作原理

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 將資料存成外部 csv xlsx 檔案

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 將資料存到資料庫系統中

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 將資料串接上 Google Data Studio

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 存資料庫到後端

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 存到 MySQL 資料庫實作

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 在靜態網站中獲取資訊 2

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 友善與惡意爬蟲

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Requests 模擬請求和攔截回應

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Pandas 實現資料前處理

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Flask 架設自己的網站 (3)

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Flask 架設自己的網站 (2)

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 Flask 架設自己的網站 (1)

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 利用 BeautifulSoup 來解析網頁原始碼

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – 儲存到 Google Spreadsheet

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Selenium 的簡介

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Selenium 套件和環境設置

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Python 與爬蟲環境準備

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Python 的基本語法

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – Pandas 操作範例

[筆記] 超新手也能用 Python 爬蟲打造貨比千家的比價網站 – ngrok

按讚加入粉絲團

延伸閱讀

[筆記] NotebookLM 錦囊妙計：掌握九大應用場景的創意用法 – 4
[筆記] NotebookLM 錦囊妙計：掌握九大應用場景的創意用法 – 2
[筆記] vite-plugin-top-level-await 在 Vite 8 可不必使用
[筆記] NotebookLM 錦囊妙計：掌握九大應用場景的創意用法 – 1
[筆記] Claude Code 代理人開發全攻略 – 14

Categories程式語言 Programming Language, 筆記 Notes, 網頁開發 Web DevelopmentTagsHiSKIO, hiskioCourcePythonCrawler

文章導覽

← Previous Previous post: [筆記] UI 設計入門：畫出有程式邏輯的設計稿 – 35 – 原型設計的種類與技巧

Next → Next post: [指南] Fast or Slow – 由 Wordfence 維護的網站測速工具

Google 站內搜尋

GA4瀏覽人氣

線上人數：3
昨日人氣：1,418
本月人氣：59,879
上月人氣：52,694
本年人氣：339,495
累積人氣：2,383,625

GA4熱門文章

[指南] 國際電話撥打、接聽是否收費？簡易規則講解(瀏覽：77,809)
[筆記] 解決 Windows 10 以後版本的中文無法正常輸入 IME 已停用問題(瀏覽：44,368)
[指南] Charles Schwab 嘉信理財 W-8BEN 表格更新 2021(瀏覽：12,479)
[指南] 台灣麻將規則整理既介紹(瀏覽：10,713)
[金融] 日本手機號碼應用之一 – 旅人可申請的 ANA Pay(瀏覽：6,465)
[指南] 中華電信光世代小烏龜路由器後台帳號密碼統整(瀏覽：6,447)
[指南] Charles Schwab 嘉信綁定 Wise 帳戶 – 2024(瀏覽：5,842)
[指南] Windows 更改預設顯示器若選項無法選取該怎麼辦(瀏覽：5,686)

好站推薦

優雅筆寄
 網站狂人
 嘿!部落!

CC授權標示

本著作係採用創用 CC 姓名標示-相同方式分享 4.0 國際授權條款授權.

分類

分類

Copyright © 2026 地瓜大的飛翔旅程. All Rights Reserved. 隱私權政策 | Catch Responsive by Catch Themes

熱門文章目錄 Popular Posts
懶人包 Dummies
工程師之路 Learning Programming
關於作者 About
- Impressum
- Privacy Policy

旅店 Hotel
亞洲 Asia
歐洲 Europe
美洲 America
指南 Guide
食記 Food
雜學 Trivia

Blogimove部落格搬家技術服務