从PDF中提取文本

作为 IronPDF 广泛的 PDF 创建和编辑功能集合的一部分,IronPDF 还可通过其内容提取方法促进对 PDF 文档内容的细粒度处理。

所有 PdfDocument 对象都提供了 extractAllText 方法。 extractAllText 返回的 String 包含 PDF 中每一页上的所有文本。

此方法是从包含多页的PDF文档中提取文本的便捷方式。 提取页面级别的文本(即,仅从一组特定的页面中翻译)使用 extractTextFromPage 方法。

以下简短的代码片段用于提取PDF文档第一页的文本。

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA