フッターコンテンツにスキップ
IRONPDFの使用

IronPDFとOCRNetを使ってC#でPDFファイルを作成しスキャンする

Using IronPDF and OCRNet to Create and Scan PDF Files in C#:イメージ1 - OCRNet処理の流れ

ディープラーニングの時代において、OCRNetは、印刷または手書きのテキストを機械可読形式に変換する光学式文字認識のための堅牢なディープラーニングフレームワークとして登場しました。 本稿では、開発者が堅牢な文書処理ソリューションを開発するために、IronPdfとともにOCRNetの機能をどのように活用できるかを紹介します。 OCRNetモデルは、シーンのテキスト検出と文字認識に優れており、動的環境におけるユーザーとテキストコンテンツとのシームレスなインタラクションを可能にします。

スキャンした文書、道路標識、デジタル・ディスプレイのいずれを処理する場合でも、提案するOCRシステムは、機械学習とコンピュータ・ビジョンの技術がどのように連携して光学式文字認識を可能にするかを示している。 視覚障害のあるユーザーに対しては、OCRNetは支援ツールとして機能し、日常的なシナリオに対して音声フィードバックを提供することで、視覚障害者がソリューションを提供できるよう支援します。 学習されたモデルは光学式文字認識結果を提供し、アプリケーションがテキストを処理する方法を変えます。

今IronPDFを始めましょう。
green arrow pointer

OCRNetとは何ですか、光学式文字認識はどのように機能しますか?

OCRNetは、異なるフォントスタイルの英数字を認識することができる光学式文字認識(OCR)への堅牢なディープラーニングアプローチです。 変革的な人工知能がコンピュータと情報科学の分野を発展させる中、OCRNetモデルは最適化されたニューラルネットワークアーキテクチャを利用し、入力画像から空間的特徴を捉えます。 OCRNetに搭載されている学習済みモデルは、驚くべき精度で光学式文字認識を実現します。

OCRNetの背後にある認識フレームワークは、特徴学習を強化し、画像ベースのシーケンス認識タスクを処理するために、ゲート型リカレントユニット(GRU)を組み込んでいます。 このハイブリッドモデルは、コンピュータサイエンスとコンピュータエンジニアリングの国際会議での発表で検証されたコネクショニスト時間分類技術により、注目すべき精度を達成しています。 機械学習の継続的な進歩により、OCRNetの光学式文字認識機能は向上し続けています。

OCRシステムの動作の主な構成要素には、以下のようなものがあります:

  • テキスト検出: 学習済みモデルを使用して、さまざまなソースからキャプチャされた画像内のテキストコンテンツ領域を識別します。
  • シーンテキスト検出:光学式文字認識で、複雑な背景ピクセルや動的環境内のテキストを見つける
  • 英数字文字認識:学習済みモデルを使用して、高い検証精度で英数字を認識する。
  • パターン認識:学習済みモデルによる軽量なシーンテキスト認識のための画像処理技術の応用

提案するシステムは、リカレント・ニューラル・ネットワークとアテンション・メカニズムを活用し、エッジ・コンピューティング・シナリオのためのRaspberry Piプラットフォームへの展開を含む、ハードウェア構成全体にわたる移植性を促進する。 コンピュータ・ビジョンと機械学習は、これらの学習済みモデルを支援します。

IronPDFはどのようにプロフェッショナルなPDFドキュメントを作成できますか?

IronPDFは、プログラムでPDFを生成するための包括的なツールを.NET開発者に提供します。 このライブラリは、HTML、URL、さまざまなコンテンツフォーマットを洗練されたPDFドキュメントにレンダリングすることをサポートしています。

using IronPdf;
// Create PDF document with IronPDF
var renderer = new ChromePdfRenderer();
var pdf = renderer.RenderHtmlAsPdf(@"
    <h1>OCR.net Document Report</h1>
    <p>Scene text integration for computer vision.</p>
    <p>Text detection results for dataset and model analysis.</p>");
pdf.SaveAs("document-for-ocr.pdf");
// Export pages as images for OCR.net upload
pdf.RasterizeToImageFiles("page-*.png", DPI: 300);
using IronPdf;
// Create PDF document with IronPDF
var renderer = new ChromePdfRenderer();
var pdf = renderer.RenderHtmlAsPdf(@"
    <h1>OCR.net Document Report</h1>
    <p>Scene text integration for computer vision.</p>
    <p>Text detection results for dataset and model analysis.</p>");
pdf.SaveAs("document-for-ocr.pdf");
// Export pages as images for OCR.net upload
pdf.RasterizeToImageFiles("page-*.png", DPI: 300);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

IronPDFの出力例

Using IronPDF and OCRNet to Create and Scan PDF Files in C#:画像2 - IronPDF PDF出力を画像としてレンダリングした例

RasterizeToImageFiles()メソッドは、PDF ページを OCR.net の光学式文字検出に最適な 300 DPI の高解像度 PNG 画像に変換します。 これらをOCR.netにアップロードし、学習済みのモデルを使用してテキストコンテンツを抽出します。

OCR.netはどのようにPDF画像からテキストを抽出しますか?

テキストを抽出するには、IronPDFで作成した画像をOCR.net にアップロードしてください。 テキスト認識パイプラインは、さまざまなフォントスタイルにわたって正規化された出力でテキストを処理し、印刷されたテキストと手書きのテキストの両方を処理します。 OCR.net は、動的環境でテキストを識別します。

OCR.netオンラインを使用する:

1.https://ocr.net/に移動する 2.IronPDFからエクスポートしたPNG/JPG画像(最大2MB)をアップロードしてください。 3.60以上のオプションからドキュメント言語を選択 4.出力を選択してください:テキストまたは検索可能なPDF 5.OCR.net学習済みモデルで処理するには、"今すぐ変換"をクリックしてください。

Using IronPDF and OCRNet to Create and Scan PDF Files in C#:画像3 - OCR.Netを使用して、生成されたPDF画像にOCRを実行する

OCR技術は、テキストを音声に変換することで視覚障害者をサポートし、アクセシビリティのためのコミュニティサービスを提供します。 コンピュータと情報科学における国際会議の研究は、OCR システムの機能を進化させ続けています。 画像処理におけるコンピュータ・サイエンスの技術革新により、さまざまなフォント・スタイルでより優れたテキスト検出が可能になりました。

完全なIronPDFとOCR.netのワークフローを構築するには?

IronPDFとOCR.netを組み合わせることで、エンド・ツー・エンドのドキュメントソリューションが生まれます。 これは、適切なハードウェアのセットアップとONNXモデルの統合によるトレーニング精度の最適化を示しています。

using IronPdf;
using System.IO;
// Step 1: Export scanned PDF for OCR.net processing
var scannedPdf = PdfDocument.FromFile("scanned-input.pdf");
scannedPdf.RasterizeToImageFiles("scan-page-*.png", DPI: 300);
// Upload to OCR.net for text extraction
// Step 2: Read OCR.net extracted text
string ocrText = File.ReadAllText("ocr-net-output.txt");
// Step 3: Create searchable PDF with textual content
var renderer = new ChromePdfRenderer();
var searchablePdf = renderer.RenderHtmlAsPdf($@"
    <h1>OCR.net: Loss Plot Comparison Results</h1>
    <div style='white-space: pre-wrap;'>{ocrText}</div>");
searchablePdf.SaveAs("searchable-document.pdf");
using IronPdf;
using System.IO;
// Step 1: Export scanned PDF for OCR.net processing
var scannedPdf = PdfDocument.FromFile("scanned-input.pdf");
scannedPdf.RasterizeToImageFiles("scan-page-*.png", DPI: 300);
// Upload to OCR.net for text extraction
// Step 2: Read OCR.net extracted text
string ocrText = File.ReadAllText("ocr-net-output.txt");
// Step 3: Create searchable PDF with textual content
var renderer = new ChromePdfRenderer();
var searchablePdf = renderer.RenderHtmlAsPdf($@"
    <h1>OCR.net: Loss Plot Comparison Results</h1>
    <div style='white-space: pre-wrap;'>{ocrText}</div>");
searchablePdf.SaveAs("searchable-document.pdf");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

出力

Using IronPDF and OCRNet to Create and Scan PDF Files in C#:イメージ4 - IronPDFとOCR.NETの完全なワークフローの出力例

これは、OCR.netが光学式文字認識ワークフローのためにIronPDFとどのように統合するかを示しています。 OCR.netからの損失プロット比較データとモデル分析は、生成されたドキュメントに埋め込まれます。 データセットとモデルの分析により、テキストコンテンツ抽出のためのテキスト検出ワークフローを実現します。

OCR.netは、文書処理に関連する競合のために、国際会議標準の画像キャプチャコンテンツを扱います。 ディープラーニングの時代には、OCRシステムの実装により、道路標識やデジタルディスプレイからのシーンテキストを、テキスト検出の訓練精度で処理できるようになりました。 ハードウェア設計の進歩により、多様なプラットフォームへのOCR.netの展開が可能になる一方、損失プロットの比較により光学式文字認識が検証されます。

結論

OCR.netとIronPDFの組み合わせは、.NETアプリケーションで光学式文字認識とPDF管理を実現します。 堅牢なディープラーニングフレームワークは、英数字文字認識、シーンテキスト検出、テキスト認識、テキストコンテンツ抽出を処理し、視覚障害ユーザーに利益をもたらします。

提案されたOCRシステムは、機械学習におけるコンピュータと情報科学の進歩が、いかに実用的なコンピュータ工学ツールを生み出すかを示している。 機能学習からRaspberry Piプラットフォームでのハードウェアセットアップまで、OCR.netは開発者が必要とする認識フレームワークを提供します。 ゲーテッド・リカレント・ユニットにより、訓練されたモデルは、動的な環境と異なるフォント・スタイルにわたって、光学式文字検出の顕著な精度を達成することができます。

無料トライアルを開始してIronPDFがどのようにOCR.netドキュメントのワークフローを向上させるかをお試しいただくか、ライセンスを購入して本番環境に導入してください。

よくある質問

OCR.netとは何ですか?IronPDFとどのように連携するのですか?

OCR.netは光学式文字認識のためのツールで、.NETアプリケーションのPDFテキスト認識機能を強化するためにIronPDFと統合することができます。スキャンした文書からテキストを正確に検出し、編集可能な形式に変換することができます。

IronPDF を使ってC# .NETアプリケーションにOCRを実装するにはどうすればいいですか?

C# .NETアプリケーションにOCRを実装するには、OCR.netと一緒にIronPDFを使用することができます。この組み合わせにより、PDF内の画像からテキストを読み取り、検索や編集可能なテキストに変換することができます。

IronPDFを使用したPDF作成の利点は何ですか?

IronPdfはHTMLからPDFへの変換、ドキュメントのマージ、注釈の追加など、PDF作成のための強力な機能を提供します。OCR.netと組み合わせると、PDFからのテキスト認識と抽出が可能になり、機能性が向上します。

IronPdfはスキャンしたPDFドキュメントを扱えますか?

はい、IronPdfはスキャンしたPDFドキュメントを扱うことができます。OCR.netと一緒に使えば、スキャンした画像からテキストを認識して抽出し、編集可能な文書にすることができます。

IronPDFとOCR.netを使ってPDF内の画像をテキストに変換することは可能ですか?

IronPDFとOCR.netを使えば、PDF内の画像をテキストに変換することができます。光学式文字認識機能により、画像ベースのテキストを抽出し、編集可能な形式に変換することができます。

OCR.NETでIronPDFを使用するためのコード例を教えてください。

このチュートリアルでは、C# .NETでOCR.netとIronPDFを統合する方法を示す詳細なコード例を提供します。これらの例はテキスト認識とPDF作成機能のセットアップをガイドします。

IronPdfはどのようにPDFファイルのテキスト検出をサポートしていますか?

IronPDFはOCR.netとの統合によりテキスト検出をサポートします。OCR.netはスキャンされたPDFとネイティブのPDFの両方からテキストを識別・抽出し、検索・編集可能にします。

PDFテキスト認識におけるOCRの役割とは?

OCR(光学式文字認識)は、編集不可能なスキャンテキストをIronPDFのようなツールを使って編集、検索、索引付けが可能なデジタルテキストに変換することで、PDFテキスト認識において重要な役割を果たします。

IronPdfをPDF作成とテキスト認識の両方に使えますか?

はい、IronPDFはPDF作成とテキスト認識の両方に使用できます。様々なソースからPDFを作成し、OCR.netと組み合わせることで、PDF内のテキストを抽出・認識することができます。

OCR.netはどのようにIronPDFの機能を改善できますか?

OCR.netは、PDF内の画像からテキストを認識・抽出する機能を追加することで、IronPDFを強化します。この統合により、ユーザーはスキャンしたソースから完全に検索可能で編集可能なPDF文書を作成することができます。

カーティス・チャウ
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。