从PDF中提取文本
作为 IronPDF 广泛的 PDF 创建和编辑功能集合的一部分,IronPDf 还可通过其内容提取方法对 PDF 文档内容进行细粒度处理。
在所有 PdfDocument
对象中都有 extractAllText
方法。extractAllText
返回的 String
包含 PDF 中每一页上的所有文本。
该方法可以方便地从包含许多页面的 PDF 中执行文档级文本提取。提取页面级文本 (即只从一组特定的网页中获取),请使用 extractTextFromPage
方法。
下面的代码片段将从 PDF 文档的第一页提取文本。
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
如何用 Java 从 PDF 中提取文本
- 安装 Java 库,从 PDF 中提取文本
- 在 Java 中导入目标 PDF 文档或从 URL 进行渲染
- 利用
提取所有文本
从 PDF 中提取文本的方法 - 使用
extractTextFromPage
方法对特定页面进行提取 - 提取文本而不影响原始 PDF