从PDF中提取文本
作为 IronPDF 广泛的 PDF 创建和编辑功能集合的一部分,IronPDF 还可通过其内容提取方法促进对 PDF 文档内容的细粒度处理。
所有PdfDocument
对象上可用的方法是extractAllText
。 extractAllText
返回的String
包含PDF中每一页的所有文本。
此方法是从包含多页的PDF文档中提取文本的便捷方式。 要在页面级别提取文本(即只从特定页面集中提取),请使用extractTextFromPage
方法。
以下简短的代码片段用于提取PDF文档第一页的文本。
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA
如何用 Java 从 PDF 中提取文本
- 安装 IronPDF Java 库以进行 PDF 文本提取
- 在 Java 中导入目标 PDF 文档或从 URL 进行渲染
- 利用
extractAllText
方法从PDF中提取文本 - 使用
extractTextFromPage
方法在特定页面上执行提取 - 提取文本而不影响原始 PDF