PDFからテキストを抽出

IronPDFの広範なPDF作成および編集機能の一環として、IronPDFはコンテンツ抽出メソッドを通じて、PDFドキュメントの内容を詳細に処理する機能も提供します。

すべての PdfDocument オブジェクトで利用可能なメソッドに extractAllText があります。 extractAllTextが返すStringには、PDFの全ページに含まれるすべてのテキストが保持されています。

このメソッドは、多くのページを含むPDFからテキストをドキュメントレベルで抽出するための便利な方法です。 ページレベルでテキストを抽出する (すなわち、特定のページセットからだけ)では、extractTextFromPage メソッドを代わりに使用してください。

以下の簡単なコードスニペットは、PDF ドキュメントの最初のページからテキストを抽出します。

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA