从PDF中提取文本
作为 IronPDF 广泛的 PDF 创建和编辑功能集合的一部分,IronPDF 还可通过其内容提取方法促进对 PDF 文档内容的细粒度处理。
所有 PdfDocument
对象都提供了 extractAllText
方法。 extractAllText
返回的 String
包含 PDF 中每一页上的所有文本。
此方法是从包含多页的PDF文档中提取文本的便捷方式。 提取页面级别的文本(即,仅从一组特定的页面中翻译)使用 extractTextFromPage
方法。
以下简短的代码片段用于提取PDF文档第一页的文本。
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA
如何用 Java 从 PDF 中提取文本
- 安装用于 PDF 文本提取的 IronPDF Java 库
- 在 Java 中导入目标 PDF 文档或从 URL 进行渲染
- 利用
提取所有文本
从 PDF 中提取文本的方法 - 使用
extractTextFromPage
方法对特定页面进行提取 - 提取文本而不影响原始 PDF