PYTHON 幫助

使用 BeautifulSoup 在 Python 中的 Web 抓取

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

更新:2026年1月18日

透過 Beautiful Soup 和IronPDF的結合，Python 開發人員現在可以建立動態 PDF 並簡化網頁抓取。開發者可以使用 Beautiful Soup 輕鬆準確地從網頁資源中提取所有數據，Beautiful Soup 因其解析 HTML 和 XML 文件的能力而聞名。同時， IronPDF是一款功能強大的工具，具有流暢的整合性和強大的功能，可用於以程式設計方式產生 PDF 文件。

這兩個強大的工具結合起來，使開發人員能夠以無與倫比的效率自動執行創建發票、歸檔內容和生成報告等流程。在本入門性研究中，我們將深入探討 Beautiful Soup Python 函式庫和IronPDF的細微差別，重點介紹它們各自的優點以及它們結合時的革命性潛力。讓我們一起探索Python開發者充分利用網路爬蟲和PDF創建功能所帶來的機會。

Beautiful Soup Python（開發者使用指南）：圖 1 - Beautiful Soup 首頁

HTML/XML解析

Beautiful Soup 非常擅長解析 HTML 標籤和 XML 文檔，將它們轉換為可操作的解析樹，以便進行探索。它能夠很好地處理錯誤的 HTML 元素，因此開發人員可以處理不完整的數據，而無需擔心解析問題。

在 HTML 頁面上尋找特定項目

Beautiful Soup 的使用者友善導覽技術使用戶可以輕鬆在 HTML 頁面上找到特定項目。開發者可以使用諸如 find_all 和 select 之類的技術來瀏覽樹狀結構，並根據標籤、屬性或 CSS 選擇器精確定位元素。

存取標籤特徵和內容

Beautiful Soup 提供了簡單的方法來檢索解析樹中已定位到的元素的特徵和內容。開發者可以取得與標籤關聯的任何自訂屬性，以及 href 屬性和其他屬性，例如 class 和 id。為了進行進一步處理，它們還可以存取元素的內部 HTML 元素或文字內容。

搜尋和篩選

Beautiful Soup 具有強大的搜尋和篩選功能，使開發人員能夠根據不同的標準找到組件。他們還可以使用正規表示式來匹配更複雜的模式。他們可以搜尋特定標籤，並根據特徵或 CSS 類別篩選項目。您可以使用 requests 庫進一步簡化此流程，以取得要解析的網頁。這種靈活性使得從 HTML/XML 文件中提取特定資料變得更加容易。

瀏覽解析樹

在文件結構中，開發人員可以在解析樹中向上、向下和左右移動。 Beautiful Soup 允許存取父元素、兄弟元素和子元素，從而可以更詳細地探索文件層次結構。

資料擷取

Beautiful Soup 的一個基本功能是從 HTML 和 XML 文字中提取資料。開發人員可以輕鬆地從網頁中提取文字、連結、照片、表格和其他內容項目。透過整合導航、過濾和遍歷演算法，他們可以從複雜的文檔中提取某些資料點或整個內容區塊。

處理編碼和實體

Beautiful Soup 會自動處理字符編碼和 HTML 網頁實體，確保即使有編碼問題或特殊字符，文字資料也能被準確處理。此功能無需進行實體解碼或手動編碼轉換，即可更輕鬆地處理來自各種來源的網路素材。

解析樹修改

Beautiful Soup 不僅方便提取，還允許開發者動態地修改解析樹。根據需要，他們可以重GroupDocs結構，新增、刪除或更改標籤和屬性，或新增元素。此功能允許在文件內執行資料清理、內容增強和結構變更等操作。

建立和配置 Beautiful Soup for Python

選擇解析器

Beautiful Soup 需要解析器來處理 HTML 或 XML 文件。它預設使用 Python 內建的 html.parser。為了提高效率或更好地相容於特定文檔，您可以指定不同的解析器，例如 lxml 或 html5lib。在建構 BeautifulSoup 物件的過程中，您可以提供解析器：

from bs4 import BeautifulSoup

# Specify the parser (e.g., 'lxml' or 'html5lib')
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'lxml')

from bs4 import BeautifulSoup

# Specify the parser (e.g., 'lxml' or 'html5lib')
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'lxml')

PYTHON

設定解析選項

Beautiful Soup 提供了一些選項來改變解析的操作方式。例如，您可以關閉將 HTML 實體轉換為 Unicode 字元的功能，或啟用更嚴格的解析選項。建立 BeautifulSoup 物件時，這些設定將作為參數提供。以下範例示範如何關閉實體轉換：

from bs4 import BeautifulSoup

# Disable entity conversion
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', convert_entities=False)

from bs4 import BeautifulSoup

# Disable entity conversion
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', convert_entities=False)

PYTHON

編碼檢測

Beautiful Soup 會自動嘗試確定文件的編碼。但有時，尤其是在內容不清晰或有編碼問題時，您可能需要明確說明編碼方式。建立 BeautifulSoup 物件時，您可以選擇定義編碼：

from bs4 import BeautifulSoup

# Specify the encoding (e.g., 'utf-8')
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')

from bs4 import BeautifulSoup

# Specify the encoding (e.g., 'utf-8')
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')

PYTHON

輸出格式

預設情況下，Beautiful Soup 會在解析後的內容中加入換行符和縮進，使其更易於閱讀。另一方面，在建構 BeautifulSoup 物件時，您可以給 formatter 選項來變更輸出格式。舉例來說，要關閉美化列印功能：

from bs4 import BeautifulSoup

# Disable pretty-printing
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', formatter=None)

from bs4 import BeautifulSoup

# Disable pretty-printing
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', formatter=None)

PYTHON

`NavigableString` 和 `Tag` 子類

您可以更改 Beautiful Soup 用於 NavigableString 和 Tag 物件的類別。這有助於擴展 Beautiful Soup 的功能或將其與其他庫整合。在建構 BeautifulSoup 物件時，您可以將 NavigableString 和 Tag 的子類別作為參數傳入。

入門

IronPDF是什麼？

IronPDF是一個功能強大的.NET函式庫，可用於以 C#、 .NET和其他.NET語言以程式設計方式產生、編輯和修改 PDF 文件。由於它為開發者提供了一套豐富的動態創建高品質 PDF 的功能集，因此對於許多應用程式來說，這是一個很受歡迎的選擇。

Beautiful Soup Python(開發者使用方法)：圖 2 - IronPDF主頁

IronPDF的特點

PDF 產生：透過IronPDF，開發人員可以將 HTML 標籤、文字、圖片和其他文件格式轉換為 PDF，或從頭開始建立 PDF 文件。此功能對於動態建立報表、發票、收據和其他文件非常有用。 -將 HTML 轉換為 PDF： IronPDF可讓開發人員輕鬆地將 HTML 結構(包括JavaScript和 CSS 樣式)轉換為 PDF 文件。這樣就可以從 HTML 範本、網頁和動態建立的內容建立 PDF 檔案。 -編輯和操作 PDF 文件： IronPDF為現有的 PDF 文件提供廣泛的編輯和操作功能。為了按照自己的規格修改 PDF 文件，開發人員可以合併多個 PDF 文件，將它們分成不同的文檔，提取頁面，並添加書籤、註釋和浮水印等等。

安裝

必須先安裝IronPDF和 Beautiful Soup。可以使用 Python 的套件管理器 pip 來完成此操作。

pip install beautifulsoup4 
pip install ironpdf

pip install beautifulsoup4 
pip install ironpdf

SHELL

導入庫

然後，使用所需的程式庫匯入您的 Python 腳本。

from bs4 import BeautifulSoup
from ironpdf import IronPdf

from bs4 import BeautifulSoup
from ironpdf import IronPdf

PYTHON

使用 Beautiful Soup 進行網頁抓取

使用 Beautiful Soup 從網站提取資訊。假設我們希望從網頁中檢索文章的標題和內容。

# HTML content of the article
html_content = """
<html>
<head>
<title>Hello</title>
</head>
<body>
<h1>IronPDF</h1>
<p>This is a sample content of the article.</p>
</body>
</html>
"""
# Create a BeautifulSoup object
soup = BeautifulSoup(html_content, 'html.parser')

# Extract title and content
title = soup.find('title').text
content = soup.find('h1').text + soup.find('p').text

print('Title:', title)
print('Content:', content)

# HTML content of the article
html_content = """
<html>
<head>
<title>Hello</title>
</head>
<body>
<h1>IronPDF</h1>
<p>This is a sample content of the article.</p>
</body>
</html>
"""
# Create a BeautifulSoup object
soup = BeautifulSoup(html_content, 'html.parser')

# Extract title and content
title = soup.find('title').text
content = soup.find('h1').text + soup.find('p').text

print('Title:', title)
print('Content:', content)

PYTHON

使用IronPDF生成 PDF

現在讓我們利用IronPDF建立一個包含擷取資料的 PDF 文件。

from ironpdf import IronPdf, ChromePdfRenderer

# Initialize IronPDF
# Create a new PDF document
renderer = ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(
    "<html><head><title>{}</title></head><body><h1>{}</h1><p>{}</p></body></html>".format(title, title, content)
)

# Save the PDF document to a file
pdf.SaveAs("sample_article.pdf")

from ironpdf import IronPdf, ChromePdfRenderer

# Initialize IronPDF
# Create a new PDF document
renderer = ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(
    "<html><head><title>{}</title></head><body><h1>{}</h1><p>{}</p></body></html>".format(title, title, content)
)

# Save the PDF document to a file
pdf.SaveAs("sample_article.pdf")

PYTHON

該腳本將獲取範例文章的標題和正文，抓取其中的內容，並將 HTML 資料儲存為名為 sample_article.pdf 的 PDF 文件，該文件將保存在當前目錄中。

Beautiful Soup Python(開發者使用方法)：圖 3 - 上述程式碼的範例輸出