从PDF中提取文本

作为 IronPDF 广泛的 PDF 创建和编辑功能集合的一部分,IronPDF 还可通过其内容提取方法促进对 PDF 文档内容的细粒度处理。

所有PdfDocument对象上可用的方法是extractAllTextextractAllText返回的String包含PDF中每一页的所有文本。

此方法是从包含多页的PDF文档中提取文本的便捷方式。 要在页面级别提取文本(即只从特定页面集中提取),请使用extractTextFromPage方法。

以下简短的代码片段用于提取PDF文档第一页的文本。

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA