從 PDF 中提取文字

作為IronPDF廣泛的PDF創建和編輯功能的一部分,IronPDF還透過其內容提取方法促進對PDF文件內容的細粒度處理。

所有 PdfDocument 物件都有 extractAllText 方法。 extractAllText 返回的 String 包含 PDF 中每個頁面上的所有文本。

此方法是一種方便的方式,可從包含多頁的PDF文檔中進行文檔級別的文字提取。 要在頁面層級上提取文本(即,僅從特定的一組頁面),使用 extractTextFromPage 方法代替。

下面的簡短代碼片段用於提取PDF文件第一頁的文本。

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA