從 PDF 中提取文字
作為IronPDF廣泛的PDF創建和編輯功能的一部分,IronPDF還透過其內容提取方法促進對PDF文件內容的細粒度處理。
所有 PdfDocument
物件都有 extractAllText
方法。 extractAllText
返回的 String
包含 PDF 中每個頁面上的所有文本。
此方法是一種方便的方式,可從包含多頁的PDF文檔中進行文檔級別的文字提取。 要在頁面層級上提取文本(即,僅從特定的一組頁面),使用 extractTextFromPage
方法代替。
下面的簡短代碼片段用於提取PDF文件第一頁的文本。
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA
如何在 Java 中從 PDF 提取文本
- 安裝 IronPDF Java 函式庫以進行 PDF 文字提取
- 在 Java 中導入目標 PDF 文件或從 URL 渲染
- 利用
提取所有文本
從 PDF 中提取文本的方法 - 使用
從頁面提取文本
對特定頁面執行提取的方法 - 在不影響原始 PDF 的情況下提取文字