從 PDF 中提取文字
作為IronPDF廣泛的PDF創建和編輯功能的一部分,IronPDF還透過其內容提取方法促進對PDF文件內容的細粒度處理。
在所有PdfDocument
對象上都提供extractAllText
方法。 extractAllText
返回的 String
包含 PDF 中每一頁的所有文字。
此方法是一種方便的方式,可從包含多頁的PDF文檔中進行文檔級別的文字提取。 若要在頁面層級提取文本(即僅從特定的一組頁面),請改用extractTextFromPage
方法。
下面的簡短代碼片段用於提取PDF文件第一頁的文本。
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA
如何在 Java 中從 PDF 提取文本
- 安裝 IronPDF Java 庫以進行 PDF 文字提取
- 在 Java 中導入目標 PDF 文件或從 URL 渲染
- 利用
extractAllText
方法從 PDF 中提取文本 - 使用
extractTextFromPage
方法對特定頁面執行提取 - 在不影響原始 PDF 的情況下提取文字