从PDF中提取文本

作为 IronPDF 广泛的 PDF 创建和编辑功能集合的一部分,IronPDf 还可通过其内容提取方法对 PDF 文档内容进行细粒度处理。

在所有 PdfDocument 对象中都有 extractAllText 方法。extractAllText 返回的 String 包含 PDF 中每一页上的所有文本。

该方法可以方便地从包含许多页面的 PDF 中执行文档级文本提取。提取页面级文本 (即只从一组特定的网页中获取),请使用 extractTextFromPage 方法。

下面的代码片段将从 PDF 文档的第一页提取文本。

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA