斷斷續續地在網路和書籍上學習有關 Python 的爬蟲技術,但隨著反爬蟲的技術也是越來越精進,所以想說藉由 「超新手也能用 Python 爬蟲打造貨比千家的比價網站」這門課來看看能否解決相關的疑惑。這篇筆記下「Pandas」的介紹。
課程相關資訊
[連結]:https://hiskio.com/courses/527/lectures/26090
本篇範圍:Chapter 4 ( 資料很髒很亂怎麼辦?資料清理與資料整併 )
請注意:本系列文章為個人對應課程的消化吸收後,所整理出來的內容。換言之,並不一定會包含全部的課程內容,也有可能會添加其他資源來說明。
筆記
- 1. Pandas 是一個用於資料分析的函式庫,你可以用 import 的方式載入,一般會命名成 pd
- 2. Pandas 提供了兩種主要的資料結構 – 用於一維環境的 Series 和二維環境的 DataFrame
- 3. 你可以從內部資料轉換,或是外部導入
- 4. DataFrame 的資料選取方式簡介:
- 使用欄位名稱選取:如 df[‘A’],代表選取 A 欄位
- 用 location 選擇行和列 [ <row>:<column>]
- 根據條件選
- 5. 資料合併和重組 – Concat ( 上下拼接 )、merge ( 用欄位左右拼接 )、Join ( 用索引左右拼接,索引相同的段落會留下來 )