從 PDF 中提取文字
作為IronPDF廣泛的PDF創建和編輯功能的一部分,IronPDF還通過其內容提取方法促進了PDF文檔內容的細粒度處理。
所有PdfDocument
對象都有extractAllText
方法。extractAllText
返回的 String
包含了PDF每一頁的所有文本。
此方法是一種方便的方法,可以從包含多頁的PDF中執行文檔級別的文本提取。要在頁面級別提取文本 (即僅從一組特定的頁面開始),請使用 extractTextFromPage
方法即可。
以下簡短的程式碼片段從 PDF 文件的第一頁提取文本。
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
如何在 Java 中從 PDF 提取文本
- 安裝 Java 庫以從 PDF 提取文本
- 在 Java 中導入目標 PDF 文件或從 URL 渲染
- 利用
提取所有文本
從 PDF 中提取文本的方法 - 使用
從頁面提取文本
對特定頁面執行提取的方法 - 提取文本而不影響原始 PDF