ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
Python PDFライブラリ
from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
このガイドでは、IronPDFを使用してPythonでPDFドキュメントからテキストを逐次的に抽出する方法の詳細を説明します。 Python環境のセットアップから、PDFテキスト抽出のための最初のPythonプログラムの実行まで、すべてをカバーします。
Pythonを使用してPDFファイルからテキストを抽出するためのPDFライブラリをダウンロードしてインストールします。
お好みのIDEでPythonプロジェクトを作成します。
指定されたPDFファイルを読み込み、テキスト内容を取得します。
組み込みライブラリの関数を使用してPDFをループし、テキストを順次抽出します。
IronPDFは、PythonでPDFファイルを操作できる便利なツールです。 PDFファイルの読み取り、作成、および編集をより便利にする役立つアシスタントと考えてください。 PDFドキュメントからコンテンツを抽出したり、新しい情報を追加したり、ウェブページをPDF形式に変換したりする場合、IronPDFは包括的なソリューションを提供します。 有料のソフトウェアパッケージですが、購入を決定する前に試用版を利用して探索することができます。
スクリプトに取り掛かる前に、Python環境をセットアップすることが重要です。 このステップバイステップガイドは、環境を設定し、Visual Studio Codeで新しいPythonプロジェクトを作成し、IronPDFライブラリの環境設定を行うのに役立ちます。
Pythonのダウンロードとインストール: もしPythonをインストールしていない場合は、最新のリリースを次のサイトからダウンロードしてください: 公式Pythonウェブサイト. 特定のオペレーティングシステムに合わせたインストール手順に従ってください。
Pythonのインストールを確認する:ターミナルまたはコマンドプロンプトを開き、python --version と入力します。 このコマンドは、インストールされているPythonのバージョンを表示し、インストールが成功したことを確認するはずです。
Pipの更新: PipはPythonのパッケージインストーラです。 最新の状態にするには、pip install --upgrade pipを実行してください。
Visual Studio Codeをダウンロード: お持ちでない場合は、それをからダウンロードしてください。公式ウェブサイト.
Python拡張機能のインストール: Visual Studio Codeを開き、拡張機能マーケットプレイスに移動します。 MicrosoftによるPython拡張機能を検索してインストールします。
新しいフォルダーの作成: Pythonプロジェクトを格納する新しいフォルダーを作成します。 それに適した名前を付けて、例えば PDF_Text_Extractor としてください。
フォルダーをVS Codeで開く: フォルダーをVisual Studio Codeにドラッグするか、ファイル > フォルダーを開くメニューオプションを使用してフォルダーを開きます。
Pythonファイルを作成する: VS Codeエクスプローラーパネルで右クリックし、New Fileを選択します。 ファイルの名前を main.py またはそれに類似したものにしてください。 このファイルにはあなたのPythonプログラムが格納されます。
Visual Studio Codeで新しいPythonファイルを作成
IronPDFは、PDFからテキストコンテンツを取得するために不可欠です。 インストール方法は次のとおりです:
VS Codeでターミナルを開く: VS Codeでターミナルを開くには、ターミナル > 新しいターミナルに移動します。
IronPDFのインストール: ターミナルで以下のコマンドを実行して、最新バージョンのIronPDFをインストールします:
`pip install ironpdf`
このプロセスは、必要なモジュールと共に、IronPDFライブラリを取得してインストールします。
IronPDFパッケージをインストール
以上で完了です。! Python環境の設定が完了し、Visual Studio Codeで新しいプロジェクトを作成し、IronPDFライブラリをインストールしました。
続行する前に、IronPDFライセンスキーを適用してください。
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
「YOUR-LICENSE-KEY-HERE」を実際のIronPDFライセンスキーに置き換えてください。 このライセンスは、プロジェクトのすべてのライブラリ機能をアンロックすることを可能にします。
既存のPDFファイルをPythonプログラムにロードする必要があります。 IronPDFのPdfDocument.FromFile
メソッドを使用してこれを実現できます。
pdfFileObj = PdfDocument.FromFile("content.pdf")
pdfFileObj = PdfDocument.FromFile("content.pdf")
「content.pdf」は、読みたいPDFファイルを指します。 このロードされたPDFファイルは、PDFリーダーまたはPDFファイルオブジェクト pdfFileObj
として使用される pdfFileObj
変数に保存されます。
PDFファイルからすべてのテキストデータを一度に取得したい場合は、ExtractAllText
メソッドを使用できます。
all_text = pdfFileObj.ExtractAllText()
all_text = pdfFileObj.ExtractAllText()
ExtractAllText
メソッドは、ここではデモンストレーションの目的で使用されています。 このメソッドはPDFファイルからすべてのテキストを抽出し、それを all_text
という変数に保存します。
IronPDFは、ExtractTextFromPage
メソッドを使用して特定のページからテキストを抽出することができます。 このメソッドは、一部のページからのみテキストが必要な場合に便利です。
page_2_text = pdfFileObj.ExtractTextFromPage(1)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
ここでは、インデックス1に対応する2ページ目からテキストを抽出しています。
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
「extracted_text.txt」という名前のファイルを開いて、テキストデータを保存します。 Pythonの組み込み関数open
はこのために使用され、ファイルモードを「書き込み」に設定します。(「w」は日本語でもそのまま使用されます。). open
関数に引数として encoding='utf-8'
を追加するだけです。 この機能は、あなたが直面しているようなUnicode文字をテキストドキュメントが処理できるようにするはずです。
for i in range(0, pdfFileObj.get_Pages().Count):
for i in range(0, pdfFileObj.get_Pages().Count):
上記のコードは、IronPDFのget_Pages
を使用してPDFファイル内の各ページをループ処理します。()「.Count」を使用して総ページ数を取得します。
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
各ページについて、ExtractTextFromPage
メソッドがすべてのテキストを取得するために使用され、その後 Python の split
メソッドを使用して行に分割されます。 これにより、繰り返し処理できる行のリストが生成されます。
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
ここで、コードは行のリスト内の各行を繰り返し、コンソールに出力し、改行文字を追加してファイルに書き込みます。(以下の内容を日本語に翻訳してください:
\nという表現の"\n"は改行を表す記号として理解しました。では、具体的な文章を提供してください。)行ごとに改行して、このテキストを適切にフォーマットします。
以下が包括的な実装です:
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
Visual Studio Codeのターミナルで以下のコマンドを書いてPythonファイルを実行します:
python main.py
この結果はターミナル上に表示されます:
抽出されたテキスト
これはPDFファイルから取得されたテキストです。また、ディレクトリに作成されたテキストドキュメントがあることも確認できます。
TXTファイルに保存された抽出テキスト
このテキストファイルには、取得されたテキスト形式が順次表示されています。
抽出されたテキストファイルの内容
結論として、PDFファイルからテキストを抽出するためにIronPDFとPythonを使用することは、ドキュメント全体、特定のページ、さらには行ごとにテキストを抽出する場合でも、強力で簡単なアプローチです。この抽出されたテキストをテキストファイルに保存するという付加的なメリットにより、データを効率的に管理し、将来の処理に活用することができます。 IronPDFは、PDFの処理において非常に価値のあるツールであり、単なるテキスト抽出を超えたさまざまな機能を提供します。 またPythonでPDFをテキストに変換IronPDFを使用する。
さらに、インタラクティブなPDFを作成し、記入および提出します。インタラクティブなフォーム, マージ以下のコンテンツを日本語に翻訳してください:分割するPDFファイル、テキストと画像の抽出PDFファイル内のテキスト検索PDFを画像にラスタライズするフォントサイズの変更、境界線や背景色の変更、PDFファイルの変換は、すべてIronPDFツールキットが支援できるタスクです。
IronPDFはオープンソースのPythonライブラリではありません。 IronPDFをプロジェクトで使用することを検討している場合、パッケージのライセンスは$liteLicenseから開始します。 ただし、投資に対してご不明な点がある場合は、IronPDFが提供する無料試用その機能を徹底的に調査するために。
バージョン:2024.12
> `pip install ironpdf`
pip install 製品名-製品バージョン-py37-none-win_amd64.whi
ご質問がありますか? お問い合わせ 弊社の開発チームと共に。
IronPDFを実際のプロジェクトに無料で配備したいですか?
あなたのトライアルキーはメールの中にあります。
お問い合わせは、
support@ironsoftware.com
無料で始めましょう
クレジットカードは不要です
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
30日間のフル機能製品をお試しください。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
クレジットカードやアカウント作成は不要です。
あなたのトライアルキーはメールの中にあります。
お問い合わせは、
support@ironsoftware.com
無料で始めましょう
クレジットカードは不要です
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
30日間のフル機能製品をお試しください。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
完全に機能する製品、キーを即座に取得
9つの .NET API製品 オフィス文書用