Wie man eingebetteten Text und Bilder aus PDFs in C# extrahiert

Eingebetteten Text und Bilder aus PDFs in C# extrahieren

This article was translated from English: Does it need improvement?
Translated
View the article in English

Extrahieren Sie sowohl Textinhalte als auch Bilder aus PDF-Dokumenten in C# mit einfachen Methodenaufrufen. Abrufen von eingebetteten Inhalten zur Bearbeitung, Analyse oder Wiederverwendung in anderen Anwendungen.

Bei der Text- und Bildextraktion werden Textinhalte und grafische Elemente aus PDF-Dokumenten extrahiert. Zugriff und Wiederverwendung von Inhalten zum Bearbeiten, Suchen, Konvertieren von Text in andere Formate oder Speichern von Bildern zur Wiederverwendung. Ob Sie PDFs in C# für die Datenanalyse analysieren, Inhalte in durchsuchbare Formate konvertieren oder visuelle Elemente für die Archivierung extrahieren möchten, IronPDF bietet umfassende Extraktionswerkzeuge.

Extrahieren Sie Text und Bilder mit IronPDF. Speichern Sie die extrahierten Bilder auf der Festplatte oder konvertieren Sie sie in ein anderes Format, bevor Sie sie in neue Dokumente einbetten. Diese Flexibilität unterstützt Arbeitsabläufe, die eine Umwandlung von Inhalten erfordern, wie z. B. die Konvertierung von PDFs in HTML oder die Wiederverwendung von extrahierten Bildern.

als-Überschrift:2(Schnellstart: Extrahieren von Text und Bildern mit IronPDF)

Extrahieren von Text und Bildern aus PDFs in nur wenigen Codezeilen. Dieser Quickstart demonstriert, wie eingebettete Inhalte aus PDF-Dokumenten für die Wiederverwendung und Analyse von Inhalten abgerufen werden können. Extrahieren Sie Text zur Bearbeitung oder speichern Sie Bilder zur weiteren Verwendung mit der optimierten Lösung von IronPDF.

Nuget IconLegen Sie jetzt mit NuGet los, um PDFs zu erstellen:

  1. Installieren Sie IronPDF mit dem NuGet-Paketmanager.

    PM > Install-Package IronPdf

  2. Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

    var pdf = new IronPdf.PdfDocument("sample.pdf");  
    string text = pdf.ExtractAllText();  
    var images = pdf.ExtractAllImages();
  3. Bereitstellen zum Testen in Ihrer Live-Umgebung

    Beginnen Sie noch heute mit der Nutzung von IronPDF in Ihrem Projekt – mit einer kostenlosen Testversion.
    arrow pointer


Wie kann ich Text aus PDFs extrahieren?

Extrahieren von Text sowohl aus neu gerenderten als auch aus bestehenden PDF-Dokumenten. Verwenden Sie die Methode ExtractAllText, um eingebetteten Text aus dem Dokument zu extrahieren. Die Methode gibt eine Zeichenkette zurück, die den gesamten Text in der PDF-Datei enthält. Die Seiten werden durch vier aufeinanderfolgende Zeilenumbrüche getrennt. Dieses Beispiel verwendet ein Beispiel-PDF, das von der Wikipedia-Website gerendert wurde.

Bei der Arbeit mit PDFs, die internationale Sprachen und UTF-8-Zeichen enthalten, sorgt IronPDF für die richtige Kodierung und Zeichendarstellung. Dies gewährleistet die korrekte Darstellung von nicht-lateinischen Schriftzeichen und Sonderzeichen.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs  
$vbLabelText   $csharpLabel
Seitenansicht der Wikipedia-Seite und des extrahierten Klartextes, die den Textextraktionsprozess zeigen

Wie kann ich Text mit präzisen Koordinaten extrahieren?

Abrufen der Koordinaten von Textzeilen und Zeichen innerhalb jeder PDF-Seite. Wählen Sie eine Seite in der PDF-Datei aus und rufen Sie die Eigenschaften Zeilen und Zeichen auf. Die Koordinaten umfassen die Werte Oben, Rechts, Unten und Links, die die Textposition darstellen. Diese Funktion bewahrt das räumliche Layout und ermöglicht die Analyse der Textposition.

Für Entwickler, die PDF-Dateien in C# mit Positionsbewusstsein lesen müssen, bietet die Koordinatenextraktion Daten zur Beibehaltung der Dokumentstruktur und zur Implementierung einer erweiterten Textanalyse.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs  
$vbLabelText   $csharpLabel
Geteilter Bildschirm mit Wikipedia-Hauptseite und extrahierter Textdatei mit Y-Koordinaten, die den geparsten Inhalt anzeigen

Wie kann ich Bilder aus PDFs extrahieren?

Verwenden Sie die Methode ExtractAllImages, um alle eingebetteten Bilder aus dem Dokument zu extrahieren. Die Methode gibt Bilder als eine Liste von AnyBitmap-Objekten zurück. Aus demselben Dokument haben wir Bilder extrahiert und in den Ordner "images" exportiert. Diese Funktion unterstützt die Archivierung von Bildern, die Migration von Inhalten und die Rasterung von PDF-Seiten in Bilder zur weiteren Verarbeitung.

Extrahierte Bilder behalten ihre ursprüngliche Qualität und können in verschiedenen Formaten wie PNG, JPEG und BMP gespeichert werden. Für Cloud-Speicher-Workflows können Sie diese Funktion mit Azure Blob Storage für die Bildverwaltung integrieren.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs  
$vbLabelText   $csharpLabel
Datei-Explorer zeigt 19 extrahierte PNG-Bilder in der Miniaturansicht, nachdem das Bildextraktionswerkzeug ausgeführt wurde

Was sind die verschiedenen Methoden zur Bildextraktion?

Neben der Methode ExtractAllImages können Sie mit den Methoden ExtractAllBitmaps und ExtractAllRawImages Bildinformationen extrahieren. Während ExtractAllBitmaps eine Liste von AnyBitmap zurückgibt, extrahiert ExtractAllRawImages alle Bilder und gibt sie als rohe Byte-Arrays (byte[]) zurück.

Die Methode ExtractAllRawImages eignet sich gut für die Verarbeitung von Bilddaten im Speicher oder die Integration mit Systemen, die Byte-Array-Eingaben erfordern. Für Szenarien, bei denen es um den Export von PDFs in Memory Streams geht, bietet das Raw Byte Array Format optimale Flexibilität.


Wie extrahiere ich Inhalte aus bestimmten PDF-Seiten?

Extrahieren von Text und Bildern aus einzelnen oder mehreren angegebenen Seiten. Verwenden Sie die Methoden ExtractTextFromPage und ExtractTextFromPages zur Textextraktion aus einer oder mehreren Seiten. Für Bilder verwenden Sie die Methoden ExtractImagesFromPage und ExtractImagesFromPages.

Diese granulare Kontrolle hilft bei der Arbeit mit umfangreichen Dokumenten, bei denen nur bestimmte Abschnitte relevante Inhalte enthalten. Sie unterstützt auch Funktionen zum Teilen von PDFs und Extrahieren einzelner Seiten zur separaten Verarbeitung.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs  
$vbLabelText   $csharpLabel

Wann sollte ich von bestimmten Seiten statt von allen Seiten extrahieren?

Auszug aus bestimmten Seiten, wenn:

  • Arbeit mit großen PDF-Dateien, die in bestimmten Abschnitten relevante Daten enthalten
  • Implementierung von Arbeitsabläufen, die Seiten unabhängig voneinander behandeln
  • Erstellung von Anwendungen, die eine inkrementelle Anzeige oder Verarbeitung von Inhalten erfordern
  • Optimierung der Speichernutzung durch Verarbeitung nur der benötigten Seiten
  • Erstellen von seitenbezogenen Such- oder Indizierungsfunktionen

Welche Leistungsaspekte sollte ich kennen?

Berücksichtigen Sie diese Leistungsfaktoren bei der Extraktion von PDF-Inhalten:

  • Speichernutzung: Extrahieren Sie einzelne Seiten aus großen Dokumenten, um den Speicherverbrauch zu minimieren
  • Bearbeitungszeit: Verwenden Sie gegebenenfalls parallele Verarbeitung für mehrseitige Extraktionen
  • Dateigröße: Größere PDFs mit hochauflösenden Bildern benötigen mehr Verarbeitungszeit
  • Speicherplatz: Planen Sie ausreichend Speicherplatz für die Extraktion zahlreicher hochauflösender Bilder ein
  • Threading: IronPDF unterstützt Multi-Threading-Operationen für eine verbesserte Leistung auf Multi-Core-Systemen

Für eine optimale Leistung mit In-Memory-PDFs sollten Sie Memory-Stream-Operationen verwenden, um den Festplatten-E/A-Overhead zu reduzieren.

Häufig gestellte Fragen

Wie kann ich in C# Text aus PDF-Dokumenten extrahieren?

Verwenden Sie die ExtractAllText-Methode von IronPDF, um eingebetteten Text aus PDF-Dokumenten zu extrahieren. Die Methode gibt eine Zeichenkette zurück, die den gesamten Text in der PDF-Datei enthält, wobei die Seiten durch vier aufeinanderfolgende Zeilenumbrüche getrennt sind. IronPDF behält die korrekte Kodierung für internationale Sprachen und UTF-8-Zeichen bei.

Kann ich Bilder aus PDF-Dateien programmgesteuert extrahieren?

Ja, IronPDF bietet die Methode ExtractAllImages, um grafische Elemente aus PDF-Dokumenten zu extrahieren. Sie können die extrahierten Bilder auf der Festplatte speichern oder sie in andere Formate konvertieren, bevor Sie sie in neue Dokumente einbetten.

Was sind die wichtigsten Anwendungsfälle für die Extraktion von PDF-Inhalten?

Die Extraktionswerkzeuge von IronPDF unterstützen verschiedene Arbeitsabläufe, darunter das Parsen von PDF-Dateien für die Datenanalyse, die Konvertierung von Inhalten in durchsuchbare Formate, die Extraktion visueller Elemente für die Archivierung und die Wiederverwendung von Inhalten für die Bearbeitung oder Umwandlung in andere Formate wie HTML.

Wie viele Codezeilen sind nötig, um PDF-Inhalte zu extrahieren?

Mit IronPDF können Sie Text und Bilder in nur wenigen Codezeilen extrahieren. Laden Sie einfach Ihr PDF-Dokument und rufen Sie ExtractAllText() für die Textextraktion oder ExtractAllImages() für die Bildextraktion auf.

Kann ich Inhalte aus bestimmten Seiten anstatt aus dem gesamten Dokument extrahieren?

Ja, IronPDF ermöglicht es Ihnen, bestimmte Seiten festzulegen, aus denen Text und Bilder extrahiert werden sollen, so dass Sie genau steuern können, welche Inhalte aus Ihren PDF-Dokumenten abgerufen werden sollen.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen
Bereit anzufangen?
Nuget Downloads 17,012,929 | Version: 2025.12 gerade veröffentlicht