PYTHON帮助

使用 Python 中的 BeautifulSoup 进行网站抓取

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

已更新:2026年1月18日

Python开发人员现在可以创建动态PDF并简化网络抓取，这要归功于Beautiful Soup和IronPDF的结合。开发人员可以轻松且准确地从网络资源中提取所有数据，Beautiful Soup以其解析HTML和XML文件的技能而闻名。同时，IronPDF是一个强大的工具，具有顺畅的集成和强大的功能，可以用来以编程方式生成PDF文档。

结合这两个强大的工具，开发人员可以自动化生成发票、归档内容和生成报告等流程，以无与伦比的效率完成。我们将在此入门的研究中深入探讨Beautiful Soup Python库和IronPDF的细微差别，突显它们各自的优点及其结合时的革命性潜力。跟随我们一同探索充分利用网络抓取和PDF创建为Python开发人员带来的机遇。

Beautiful Soup Python（开发者使用指南）：图 1 - Beautiful Soup 主页

HTML/XML解析

Beautiful Soup非常擅长解析HTML标签和XML文档，将它们转换成可操作的解析树，以便于探索。它能宽容地处理不正确的HTML元素，因此开发人员可以在不必担心解析问题的情况下处理不完整的数据。

在HTML页面上查找特定项目

Beautiful Soup的用户友好导航技术使在HTML页面上查找特定项目变得简单。开发者可以使用诸如 find_all 和 select 之类的技术来浏览树状结构，并根据标签、属性或 CSS 选择器精确定位元素。

访问标签特性和内容

一旦在解析树中定位到某个元素，Beautiful Soup提供便捷的方法来检索其特性和内容。开发者可以获取与标签关联的任何自定义属性，以及 href 属性和其他属性，例如 class 和 id。为了进一步处理，他们还可以访问元素内部的HTML元素或文本内容。

搜索和过滤

Beautiful Soup具有强大的搜索和过滤功能，使开发人员可以根据不同的标准定位组件。他们还可以使用正则表达式来实现更复杂的匹配模式。他们可以搜索特定标签，并根据特性或CSS类过滤项目。您可以使用 requests 库进一步简化此过程，以获取要解析的网页。这种灵活性有助于从HTML/XML文档中提取特定数据。

导航解析树

在文档结构内，开发人员可以在解析树中上下或左右移动。 Beautiful Soup提供了对父元素、兄弟元素和子元素的访问权限，从而更容易详细地探索文档层次结构。

数据提取

Beautiful Soup的基本功能是能够从HTML和XML文本中提取数据。从网页中很容易地提取文本、链接、图片、表格和其他内容项。通过集成导航、过滤和遍历算法，他们可以从复杂的文档中提取某些数据点或整个内容片段。

处理编码和实体

Beautiful Soup自动处理字符编码和HTML网页实体，确保即使编码出现问题或有特殊字符，也能准确处理文本数据。通过消除对实体解码或手动编码转换的需求，这一功能使得处理来自不同来源的网络材料更加容易。

解析树修改

Beautiful Soup不仅能够提取数据，还允许开发人员动态更改解析树。在需要时，他们可以重组文档结构，添加、删除或更改标签和属性，或增加新元素。这一功能使在文档内执行操作成为可能，例如数据清理、内容增强和结构变更。

为Python创建和配置Beautiful Soup

选择解析器

为处理HTML或XML文档，Beautiful Soup需要一个解析器。它默认使用 Python 内置的 html.parser。为了提高效率或更好地兼容特定文档，您可以指定不同的解析器，例如 lxml 或 html5lib。在构建 BeautifulSoup 对象的过程中，您可以提供解析器：

from bs4 import BeautifulSoup

# Specify the parser (e.g., 'lxml' or 'html5lib')
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'lxml')

from bs4 import BeautifulSoup

# Specify the parser (e.g., 'lxml' or 'html5lib')
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'lxml')

PYTHON

设置解析选项

Beautiful Soup提供了一些选项来更改解析操作的方式。例如，您可以关闭将HTML实体转换为Unicode字符的功能，或者启动更严格的解析选项。创建 BeautifulSoup 对象时，这些设置将作为参数提供。以下是如何关闭实体转换的示例：

from bs4 import BeautifulSoup

# Disable entity conversion
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', convert_entities=False)

from bs4 import BeautifulSoup

# Disable entity conversion
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', convert_entities=False)

PYTHON

编码检测

Beautiful Soup自动尝试确定文档的编码。但在某些情况下，尤其是内容不明确或存在编码问题时，可能需要明确指定编码。创建 BeautifulSoup 对象时，您可以选择定义编码：

from bs4 import BeautifulSoup

# Specify the encoding (e.g., 'utf-8')
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')

from bs4 import BeautifulSoup

# Specify the encoding (e.g., 'utf-8')
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')

PYTHON

输出格式化

默认情况下，Beautiful Soup会在解析内容中添加换行和缩进，以便于阅读。另一方面，在构造 BeautifulSoup 对象时，您可以给 formatter 选项来更改输出格式。作为示例，要关闭格式美化：

from bs4 import BeautifulSoup

# Disable pretty-printing
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', formatter=None)

from bs4 import BeautifulSoup

# Disable pretty-printing
html_content = "<html>Your HTML content here</html>"
soup = BeautifulSoup(html_content, 'html.parser', formatter=None)

PYTHON

`NavigableString` 和 `Tag` 子类

您可以更改 Beautiful Soup 用于 NavigableString 和 Tag 对象的类。这可以帮助扩展Beautiful Soup的能力或与其他库集成。在构造 BeautifulSoup 对象时，您可以将 NavigableString 和 Tag 的子类作为参数传入。

开始

什么是 IronPDF？

IronPDF是一个强大的.NET库，用于在C#、VB.NET和其他.NET语言中以编程方式生成、编辑和修改PDF文档。由于其为开发人员提供了丰富的功能集，以动态生成高质量的PDF，因此它是许多应用的流行选择。

Beautiful Soup Python（开发者使用方法）：图 2 - IronPDF主页

IronPDF的功能

PDF 生成：借助IronPDF，开发人员可以将 HTML 标签、文本、图片和其他文件格式转换为 PDF，或者从头开始创建 PDF 文档。这一功能对于动态创建报告、发票、收据和其他文件非常有用。 -将 HTML 转换为 PDF： IronPDF允许开发人员轻松地将 HTML 结构（包括JavaScript和 CSS 样式）转换为 PDF 文档。这使得可以从HTML模板、网页和动态创建的材料中生成PDF。 -编辑和操作 PDF 文档： IronPDF为现有的 PDF 文档提供广泛的编辑和操作功能。开发人员可以合并多个PDF文件，将它们分割成独立文件，提取页面，并添加书签、注释和水印等内容以根据其规格更改PDF。

安装

首先必须安装IronPDF和Beautiful Soup。可以使用Python的包管理器Pip来实现这一步。

pip install beautifulsoup4 
pip install ironpdf

pip install beautifulsoup4 
pip install ironpdf

SHELL

导入库

然后，使用所需的库导入您的Python脚本。

from bs4 import BeautifulSoup
from ironpdf import IronPdf

from bs4 import BeautifulSoup
from ironpdf import IronPdf

PYTHON

使用Beautiful Soup进行网络抓取

利用Beautiful Soup从网站提取信息。假设我们希望从网页中检索一篇文章的标题和内容。

# HTML content of the article
html_content = """
<html>
<head>
<title>Hello</title>
</head>
<body>
<h1>IronPDF</h1>
<p>This is a sample content of the article.</p>
</body>
</html>
"""
# Create a BeautifulSoup object
soup = BeautifulSoup(html_content, 'html.parser')

# Extract title and content
title = soup.find('title').text
content = soup.find('h1').text + soup.find('p').text

print('Title:', title)
print('Content:', content)

# HTML content of the article
html_content = """
<html>
<head>
<title>Hello</title>
</head>
<body>
<h1>IronPDF</h1>
<p>This is a sample content of the article.</p>
</body>
</html>
"""
# Create a BeautifulSoup object
soup = BeautifulSoup(html_content, 'html.parser')

# Extract title and content
title = soup.find('title').text
content = soup.find('h1').text + soup.find('p').text

print('Title:', title)
print('Content:', content)

PYTHON

使用IronPDF生成PDF

现在让我们利用IronPDF来创建一个包含提取数据的PDF文档。

from ironpdf import IronPdf, ChromePdfRenderer

# Initialize IronPDF
# Create a new PDF document
renderer = ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(
    "<html><head><title>{}</title></head><body><h1>{}</h1><p>{}</p></body></html>".format(title, title, content)
)

# Save the PDF document to a file
pdf.SaveAs("sample_article.pdf")

from ironpdf import IronPdf, ChromePdfRenderer

# Initialize IronPDF
# Create a new PDF document
renderer = ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(
    "<html><head><title>{}</title></head><body><h1>{}</h1><p>{}</p></body></html>".format(title, title, content)
)

# Save the PDF document to a file
pdf.SaveAs("sample_article.pdf")

PYTHON

该脚本将获取示例文章的标题和正文，抓取其中的内容，并将 HTML 数据存储为名为 sample_article.pdf 的 PDF 文件，该文件将保存在当前目录中。

Beautiful Soup Python（开发者使用指南）：图 3 - 上述代码的示例输出