IRONPDFの使用

C# PDFをテキストに変換 (コード例)

ジョルディ・バルディア

2022年7月17日

更新済み 2024年2月8日

共有:

この記事では、.NET開発者がPDFファイルをTXT形式に変換してより効率的にアクセスするプロセスを説明します。

C#を使用してPDFをテキストファイルに変換する方法

PDFをテキストに変換するC#ライブラリをダウンロード
Visual Studioで新しいプロジェクトを作成する
プロジェクトにライブラリをインストール
PdfDocument.FromFile 関数を使用してPDFドキュメントを開く
出力テキストを表示

チュートリアルのトピック

IronPDF
プログラムによってPDFファイルを作成する手順
ステップ1: C#プロジェクトを作成
ステップ 2: IronPDFライブラリをインストールする
- 方法 1: NuGet パッケージマネージャー
- 方法2: NuGet パッケージマネージャーコンソール
方法 3: DLLファイルの使用
ステップ 3: IronPDF 名前空間を追加
ステップ 4: PDF をテキストに変換
出力
結論
IronPDF

IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。

機能

HTML to PDF: HTML、CSS、JavaScriptを利用してPDFを生成。
PDFの編集: 既存のPDFドキュメントにテキスト、画像、ページ番号、さらにはカスタムヘッダーやフッターを追加。
PDFの読み取り: PDFファイルからテキスト、画像、メタデータを抽出。
セキュリティ: パスワード保護や暗号化オプションでPDFドキュメントを保護。

利点

使いやすさ: シンプルなAPIで時間を節約。
高品質: 正確で美しいPDFドキュメントを生成。
柔軟性: 様々なプラットフォームや言語で利用可能。

対応ライセンス

IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。

技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。

IronPDFは、PDF生成のための.NETライブラリです。それはネイティブの .NET ライブラリであり、外部DLLや他のツールに依存しません。 IronPDFは、PDFドキュメントを扱うために必要なすべての機能を提供するC#と.NETで書かれたクロスプラットフォームライブラリです。ドキュメントのレンダリング、フォームの編集、テキストの抽出、ファイルの暗号化、およびその他の機能が含まれています。これらすべての操作は、Windows Forms、WPF、ASP.NET MVCなどのさまざまなプラットフォームで広範にテストされてきた直感的なAPIを通じて実行できます。

現在リリースされているIronPDFでは、次の機能に簡単にアクセスできます:

PDF生成
PDF暗号化
PDFフォームフィールドテンプレートと検証ロジックを使用して
テキスト抽出PDFから(OCR (光学式文字認識))
記入可能なフォーム

読み取り専用アクセスドキュメント内部へ(ビュー、ナビゲーション、注釈):

アクセス先メタデータおよびドキュメントのプロパティ (タイトル、キーワード、著者、件名):

IronPDFには、さらに役立つヘルパークラスが含まれています。HTMLドキュメントを完全にフォーマットされたPDFファイルに変換するテキスト抽出を使用して。 IronPDFは、PDFをテキストファイルに変換する非常にシンプルなAPIを提供します。

まず、IronPDFライブラリを使用してPDFドキュメントをテキストファイルに変換する方法について説明します。

PDFドキュメントをテキストファイルに変換する手順

最初のステップは、Visual StudioでC#プロジェクトを作成することです。ニーズに応じて任意のC#アプリケーションテンプレートを選択できます。簡便化のために、このチュートリアルではコンソールアプリケーションテンプレートを使用します。既存のC#プロジェクトを使用してPDFファイルをTXTファイルに変換することができます。

ステップ1：C＃プロジェクトを作成

Visual StudioでC#プロジェクトを作成するか、既存のプロジェクトを開きます。最新バージョンのVisual Studioを推奨します。スムーズに動作します。次の手順に従って、Visual StudioでC#プロジェクトを作成してください。

Visual Studioを開きます。
C#コンソールアプリケーションテンプレートを選択するか、既存のプロジェクトを開いてください。
プロジェクトに適切な名前をつけてください。
.NET Framework のバージョン 6.0 を選択してください。これは最新かつ最も安定した .NET のフレームワークですが、必要に応じて他の .NET Framework を選択することもできます。

ステップ 2: IronPDFライブラリをインストールする

IronPDF には、インストールが簡単であるため開発時間が短縮され、混乱を減らす機能も備わっています。 IronPDFライブラリは複数のインストール方法を提供しています：

NuGet パッケージマネージャーの使用
NuGet パッケージマネージャーコンソールを使用
DLLファイルによる

方法 1: NuGet パッケージマネージャー

NuGet パッケージマネージャーを使用するには、指定された手順に従ってパッケージマネージャータブを開いてください。

C#プロジェクトを開き、「ツール」>「NuGetパッケージマネージャー」>「ソリューションのNuGetパッケージの管理」をクリックします。

C# PDFをテキストに変換（コード例）、図0: NuGetパッケージマネージャーへ移動

NuGetパッケージマネージャーに移動

Browseタブに移動し、IronPDFを検索してください。
検索結果からIronPDFを選択し、「Install」をクリックします。これにより、IronPDF ライブラリがインストールされ、プロジェクトで IronPDF ライブラリを利用できるようになります。

NuGetパッケージマネージャーの検索結果からのIronPdfパッケージ

方法2: NuGet パッケージマネージャーコンソール

Package Manager Console で IronPDF ライブラリをインストールするのが最も簡単な方法です。以下の簡単な手順に従ってください:

パッケージマネージャーコンソールを開きます。
次の行をコンソールに書き込み、Enterキーを押してください。これですぐにIronPDFライブラリがインストールされます。

Install-Package IronPdf

C# PDFをテキストに変換する（コード例）、図2：NuGetパッケージマネージャーコンソールUIに表示されているインストール進行状況

NuGet パッケージマネージャーコンソール UI に表示されるインストールの進行状況

方法3: DLLファイルの使用

ダウンロードできますIronPDF DLLファイルIron Softwareのウェブサイトからダウンロードが完了したら、それをプロジェクトの参考として使用してください。

ウェブサイトに訪問してくださいIronPDFインストールガイド詳細なインストールガイドについては、こちらをご覧ください。

IronPDFライブラリのインストールが完了しました。以下の手順に従ってPDFファイルをテキストファイルに変換することができます。

ステップ 3: IronPDF 名前空間を追加

IronPDFを使用するには、すべてのコードファイルにIronPDFの名前空間を追加する必要があります。関連するすべてのコードファイルの先頭に次のコード行を書いてください。これにより、プログラム内でIronPDFの機能を使用できるようになります。

using IronPdf;

using IronPdf;

Imports IronPdf

ステップ4: PDFドキュメントをテキストファイルに変換

PDFファイルをTXTファイルに変換するか、テキストのみを抽出する必要があります。では、以下のサンプルコードをコードファイルに書き込んでください：

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);

Imports IronPdf
Imports System.Drawing

' Extracting image and text content from PDF Document

' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)

まず、IronPDFを使用してPDFドキュメントを開きます。FromFile関数以下の内容を日本語に翻訳してください:

Iron SoftwareのIronPDFは、PDFの生成および操作を簡単かつ効率的に行うためのソリューションを提供します。IronPDF for .NET、IronPDF for Java、IronPDF for Python、IronPDF for Node.jsの各バージョンを使用すると、異なるプログラミング環境において一貫した機能とパフォーマンスを提供します。

IronOCRは、画像やスキャンされたPDFからのテキスト抽出を容易にします。特に、IronOCR for .NETは、OCR機能をアプリケーションに統合するための強力なツールセットを提供します。

IronXLは、データの読取り・書込みを効率化するためのライブラリです。特にIronXL for .NETとIronXL for Pythonは、エクセルの処理を容易にし、生産性を向上させます。

IronBarcodeは、バーコードの生成と読み取りに特化したライブラリです。IronBarcode for .NETは、バーコードを迅速かつ正確に処理するためのツールを提供します。

IronQRは、QRコードの生成と読み取りを支援するライブラリで、IronQR for .NETを使用することで、簡単にアプリケーションに統合できます。

IronZIPは、圧縮ファイルの生成および解凍を簡単に行うためのライブラリです。IronZIP for .NETは、高性能な圧縮および解凍機能を提供します。

IronWordを使用すると、Wordドキュメントの生成と操作が容易になります。IronWord for .NETは、Wordファイルの操作を効率化するためのツールセットを提供します。

IronPrintは、簡単にドキュメントの印刷を行うためのライブラリです。IronPrint for .NETは、印刷ジョブを管理し、スムーズな印刷プロセスをサポートします。

IronWebscraperは、ウェブスクレイピングを行うためのライブラリで、IronWebscraper for .NETを使用すると、Webデータの収集が容易になります。

Iron Suiteは、上記全てのライブラリを含む総合パッケージです。特にIron Suite for .NETおよびIron Suite Unlimitedは、多様な開発ニーズに対応するための包括的なソリューションを提供します。

ライセンスオプションも豊富で、Lite License、Plus License、Professional License、Unlimited Licenseのいずれかを選択できます。PdfDocumentクラス. パラメーターには、ファイル名とパスワードを渡してください。(何かあれば). その後, そのExtractAllText関数`。PDF ファイルからすべてのテキストを抽出し、それを allText という変数に格納します。コンソールに出力される以下の内容を翻訳します：

以下の内容をコンソールに表示します

出力

C＃ PDFからテキストへ変換 (コード例)、図3: PDFドキュメントから抽出されたテキスト

PDF ドキュメントから抽出されたテキスト

これはIronPDFによって抽出された出力テキストです。 IronPDFの精度が非常に正確であることを示すために、PDFファイルと同じテキストを使用しています。

結論

この記事では、IronPDF .NET PDFライブラリを使用してPDFファイルからテキストを簡単に抽出する方法を紹介します。これは数行のコードを書くことで達成され、高い精度で実現されました。また、IronPDFには、HTMLからPDFへの変換、PDFの書式設定ツールなど、PDF編集に不可欠な多くの基本的なPDF機能を備えています。 IronPDFはAdobe Acrobatへの依存も排除します。

IronPDFは開発目的で無料で利用でき、また無料試用本番テスト用。 IronPDFは、ニーズに応じて様々な価格プランを提供しています。 IronPDFの価格は競合他社に比べてかなり低く設定されています。価格は個人から大企業まで様々で、その優れたパフォーマンスから魅力的な購入対象となっています。

C# PDFをテキストに変換 (コード例)、図 4: Iron Softwareのスイートの価格プラン

Iron Softwareのスイートの価格プラン

さらに、Iron Softwareは、5つのIron Softwareパッケージを2つの価格で提供しています。ご訪問くださいIron Softwareのライセンス詳細詳細については。

ジョルディ・バルディア

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ジョルディは、Iron Softwareでのスキルを活かしていないときには、ゲームプログラミングをしており、Python、C#、C++に最も堪能です。彼は製品テスト、製品開発、研究の責任を共有しており、継続的な製品改善に大きな価値をもたらしています。この多様な経験は彼を常に挑戦的で魅力的に保ち、彼はIron Softwareで働く一番好きな側面の一つだと言っています。ジョルディはフロリダ州マイアミで育ち、フロリダ大学でコンピューターサイエンスと統計学を学びました。

< 以前
C# でバイト配列をPDFに保存（コード例)

次へ >
複数ページを1つのPDFファイルにスキャンする方法