PDFからテキストを抽出

IronPDFのPDF作成・編集機能の広範なコレクションの一部として、IronPDFはコンテンツ抽出メソッドによりPDFドキュメントのコンテンツのきめ細かな処理を促進します。

すべてのPdfDocumentオブジェクトで利用可能なメソッドはextractAllTextです。 extractAllTextが返すStringは、PDFのすべてのページに含まれるすべてのテキストを保持します。

このメソッドは、多くのページを含むPDFからテキストをドキュメントレベルで抽出するための便利な方法です。 特定のページセット(例えば、特定のページのみ)からテキストを抽出するには、extractTextFromPage メソッドを代わりに使用してください。

以下の簡単なコードスニペットは、PDF ドキュメントの最初のページからテキストを抽出します。

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA