PDFからテキストを抽出
IronPDFのPDF作成・編集機能の広範なコレクションの一部として、IronPDFはコンテンツ抽出メソッドによりPDFドキュメントのコンテンツのきめ細かな処理を促進します。
すべてのPdfDocument
オブジェクトで利用可能なメソッドはextractAllText
です。 extractAllText
が返すString
は、PDFのすべてのページに含まれるすべてのテキストを保持します。
このメソッドは、多くのページを含むPDFからテキストをドキュメントレベルで抽出するための便利な方法です。 特定のページセット(例えば、特定のページのみ)からテキストを抽出するには、extractTextFromPage
メソッドを代わりに使用してください。
以下の簡単なコードスニペットは、PDF ドキュメントの最初のページからテキストを抽出します。
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JavaでPDFからテキストを抽出する方法
- PDFテキスト抽出用のIronPDF Javaライブラリをインストール
- Javaで特定のPDFドキュメントをインポートまたはURLからレンダリング
extractAllText
メソッドを使用してPDFからテキストを抽出する- 特定のページで抽出を行うために
extractTextFromPage
メソッドを使用します。 - 元のPDFに影響を与えることなくテキストを抽出