從 PDF 中提取文字

作為IronPDF廣泛的PDF創建和編輯功能的一部分,IronPDF還通過其內容提取方法促進了PDF文檔內容的細粒度處理。

所有PdfDocument對象都有extractAllText方法。extractAllText 返回的 String 包含了PDF每一頁的所有文本。

此方法是一種方便的方法,可以從包含多頁的PDF中執行文檔級別的文本提取。要在頁面級別提取文本 (即僅從一組特定的頁面開始),請使用 extractTextFromPage 方法即可。

以下簡短的程式碼片段從 PDF 文件的第一頁提取文本。

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA