Extract Embedded Text and Images from PDFs in C

Aktualisiert:15. Februar 2026

Translated

View the article in English

Extrahieren Sie sowohl Textinhalte als auch Bilder aus PDF-Dokumenten in C# mit einfachen Methodenaufrufen. Abrufen von eingebetteten Inhalten zur Bearbeitung, Analyse oder Wiederverwendung in anderen Anwendungen.

Ihr Unternehmen gibt zu viel Geld für Jahresabonnements für PDF-Sicherheit und Compliance aus. Ziehen Sie IronSecureDoc in Betracht, das Lösungen für die Verwaltung von SaaS-Diensten wie digitales Signieren, Schwärzen, Verschlüsselung und Schutz gegen eine einmalige Zahlung anbietet. Erkunden Sie die IronSecureDoc-Dokumentation

Bei der Text- und Bildextraktion werden Textinhalte und grafische Elemente aus PDF-Dokumenten extrahiert. Zugriff und Wiederverwendung von Inhalten zum Bearbeiten, Suchen, Konvertieren von Text in andere Formate oder Speichern von Bildern zur Wiederverwendung. Ob Sie PDFs in C# für die Datenanalyse analysieren, Inhalte in durchsuchbare Formate konvertieren oder visuelle Elemente für die Archivierung extrahieren möchten, IronPDF bietet umfassende Extraktionswerkzeuge.

Extrahieren Sie Text und Bilder mit IronPDF. Speichern Sie die extrahierten Bilder auf der Festplatte oder konvertieren Sie sie in ein anderes Format, bevor Sie sie in neue Dokumente einbetten. Diese Flexibilität unterstützt Arbeitsabläufe, die eine Umwandlung von Inhalten erfordern, wie z. B. die Konvertierung von PDFs in HTML oder die Wiederverwendung von extrahierten Bildern.

Schnellstart: Text und Bilder mit IronPDF extrahieren

Extrahieren von Text und Bildern aus PDFs in nur wenigen Codezeilen. Dieser Quickstart demonstriert, wie eingebettete Inhalte aus PDF-Dokumenten für die Wiederverwendung und Analyse von Inhalten abgerufen werden können. Extrahieren Sie Text zur Bearbeitung oder speichern Sie Bilder zur weiteren Verwendung mit der optimierten Lösung von IronPDF.

Installieren Sie IronPDF mit NuGet Package Manager
PM > Install-Package IronPdf

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

var pdf = new IronPdf.PdfDocument("sample.pdf");  
string text = pdf.ExtractAllText();  
var images = pdf.ExtractAllImages();

Bereitstellen zum Testen in Ihrer Live-Umgebung

Beginnen Sie noch heute, IronPDF in Ihrem Projekt zu verwenden, mit einer kostenlosen Testversion

Minimaler Arbeitsablauf (5 Schritte)

Download der IronPdf C# Bibliothek
Bereiten Sie das PDF-Dokument für die Text- und Bilderextraktion vor
Verwenden Sie die Methode `ExtractAllText`, um Text zu extrahieren
Verwenden Sie die Methode `ExtractAllImages`, um Bilder zu extrahieren
Wählen Sie die bestimmten Seiten aus, von denen Sie Text und Bilder extrahieren möchten

Wie kann ich Text aus PDFs extrahieren?

Extrahieren von Text sowohl aus neu gerenderten als auch aus bestehenden PDF-Dokumenten. Verwenden Sie die Methode ExtractAllText, um eingebetteten Text aus dem Dokument zu extrahieren. Die Methode gibt eine Zeichenkette zurück, die den gesamten Text in der PDF-Datei enthält. Die Seiten werden durch vier aufeinanderfolgende Zeilenumbrüche getrennt. Dieses Beispiel verwendet ein Beispiel-PDF, das von der Wikipedia-Website gerendert wurde.

Bei der Arbeit mit PDFs, die internationale Sprachen und UTF-8-Zeichen enthalten, sorgt IronPDF für die richtige Kodierung und Zeichendarstellung. Dies gewährleistet die korrekte Darstellung von nicht-lateinischen Schriftzeichen und Sonderzeichen.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs

using IronPdf;
using System.IO;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text
string text = pdf.ExtractAllText();

// Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text);

$vbLabelText $csharpLabel

Wie kann ich Text mit präzisen Koordinaten extrahieren?

Abrufen der Koordinaten von Textzeilen und Zeichen innerhalb jeder PDF-Seite. Wählen Sie eine Seite aus der PDF-Datei aus und greifen Sie auf die Eigenschaften Lines und Characters zu. Die Koordinaten enthalten die Werte Top, Right, Bottom und Left, die die Textposition darstellen. Diese Funktion bewahrt das räumliche Layout und ermöglicht die Analyse der Textposition.

Für Entwickler, die PDF-Dateien in C# mit Positionsbewusstsein lesen müssen, bietet die Koordinatenextraktion Daten zur Beibehaltung der Dokumentstruktur und zur Implementierung einer erweiterten Textanalyse.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs

using IronPdf;
using System.IO;
using System.Linq;

// Open PDF from file
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text by lines
var lines = pdf.Pages[0].Lines;

// Extract text by characters
var characters = pdf.Pages[0].Characters;

File.WriteAllLines("lines.txt", lines.Select(l => $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"));

$vbLabelText $csharpLabel

Wie kann ich Bilder aus PDFs extrahieren?

Verwenden Sie die Methode ExtractAllImages, um alle eingebetteten Bilder aus dem Dokument zu extrahieren. Die Methode gibt Bilder als Liste von AnyBitmap-Objekten zurück. Aus demselben Dokument haben wir Bilder extrahiert und in den Ordner "images" exportiert. Diese Funktion unterstützt die Archivierung von Bildern, die Migration von Inhalten und die Rasterung von PDF-Seiten in Bilder zur weiteren Verarbeitung.

Extrahierte Bilder behalten ihre ursprüngliche Qualität und können in verschiedenen Formaten wie PNG, JPEG und BMP gespeichert werden. Für Cloud-Speicher-Workflows können Sie diese Funktion mit Azure Blob Storage für die Bildverwaltung integrieren.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs

using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract images
var images = pdf.ExtractAllImages();

for(int i = 0; i < images.Count; i++)
{
    // Export the extracted images
    images[i].SaveAs($"images/image{i}.png");
}

$vbLabelText $csharpLabel

Was sind die verschiedenen Methoden zur Bildextraktion?

Neben der Methode ExtractAllImages können Sie die Methoden ExtractAllBitmaps und ExtractAllRawImages verwenden, um Bildinformationen zu extrahieren. Während ExtractAllBitmaps eine Liste von AnyBitmap zurückgibt, extrahiert ExtractAllRawImages alle Bilder und gibt sie als rohe Byte-Arrays (byte[]) zurück.

Die Methode ExtractAllRawImages eignet sich gut für die Verarbeitung von Bilddaten im Speicher oder für die Integration in Systeme, die Byte-Array-Eingaben benötigen. Für Szenarien, bei denen es um den Export von PDFs in Memory Streams geht, bietet das Raw Byte Array Format optimale Flexibilität.

Wie extrahiere ich Inhalte aus bestimmten PDF-Seiten?

Extrahieren von Text und Bildern aus einzelnen oder mehreren angegebenen Seiten. Verwenden Sie die Methoden ExtractTextFromPage und ExtractTextFromPages zur Textextraktion von einer oder mehreren Seiten. Für Bilder verwenden Sie die Methoden ExtractImagesFromPage und ExtractImagesFromPages.

Diese granulare Kontrolle hilft bei der Arbeit mit umfangreichen Dokumenten, bei denen nur bestimmte Abschnitte relevante Inhalte enthalten. Sie unterstützt auch Funktionen zum Teilen von PDFs und Extrahieren einzelner Seiten zur separaten Verarbeitung.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs

using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text from page 1
string textFromPage1 = pdf.ExtractTextFromPage(0);

int[] pages = new[] { 0, 2 };

// Extract text from pages 1 & 3
string textFromPage1_3 = pdf.ExtractTextFromPages(pages);

$vbLabelText $csharpLabel

Wann sollte ich von bestimmten Seiten statt von allen Seiten extrahieren?

Auszug aus bestimmten Seiten, wenn:

Arbeit mit großen PDF-Dateien, die in bestimmten Abschnitten relevante Daten enthalten
Implementierung von Arbeitsabläufen, die Seiten unabhängig voneinander behandeln
Erstellung von Anwendungen, die eine inkrementelle Anzeige oder Verarbeitung von Inhalten erfordern
Optimierung der Speichernutzung durch Verarbeitung nur der benötigten Seiten
Erstellen von seitenbezogenen Such- oder Indizierungsfunktionen

Welche Leistungsaspekte sollte ich kennen?

Berücksichtigen Sie diese Leistungsfaktoren bei der Extraktion von PDF-Inhalten:

Speichernutzung: Extrahieren Sie einzelne Seiten aus großen Dokumenten, um den Speicherverbrauch zu minimieren
Bearbeitungszeit: Verwenden Sie gegebenenfalls parallele Verarbeitung für mehrseitige Extraktionen
Dateigröße: Größere PDFs mit hochauflösenden Bildern benötigen mehr Verarbeitungszeit
Speicherplatz: Planen Sie ausreichend Speicherplatz für die Extraktion zahlreicher hochauflösender Bilder ein
Threading: IronPDF unterstützt Multi-Threading-Operationen für eine verbesserte Leistung auf Multi-Core-Systemen

Für eine optimale Leistung mit In-Memory-PDFs sollten Sie Memory-Stream-Operationen verwenden, um den Festplatten-E/A-Overhead zu reduzieren.

Häufig gestellte Fragen

Wie kann ich in C# Text aus PDF-Dokumenten extrahieren?

Verwenden Sie die ExtractAllText-Methode von IronPDF, um eingebetteten Text aus PDF-Dokumenten zu extrahieren. Die Methode gibt eine Zeichenkette zurück, die den gesamten Text in der PDF-Datei enthält, wobei die Seiten durch vier aufeinanderfolgende Zeilenumbrüche getrennt sind. IronPDF behält die korrekte Kodierung für internationale Sprachen und UTF-8-Zeichen bei.

Kann ich Bilder aus PDF-Dateien programmgesteuert extrahieren?

Ja, IronPDF bietet die Methode ExtractAllImages, um grafische Elemente aus PDF-Dokumenten zu extrahieren. Sie können die extrahierten Bilder auf der Festplatte speichern oder sie in andere Formate konvertieren, bevor Sie sie in neue Dokumente einbetten.

Was sind die wichtigsten Anwendungsfälle für die Extraktion von PDF-Inhalten?

Die Extraktionswerkzeuge von IronPDF unterstützen verschiedene Arbeitsabläufe, darunter das Parsen von PDF-Dateien für die Datenanalyse, die Konvertierung von Inhalten in durchsuchbare Formate, die Extraktion visueller Elemente für die Archivierung und die Wiederverwendung von Inhalten für die Bearbeitung oder Umwandlung in andere Formate wie HTML.

Wie viele Codezeilen sind nötig, um PDF-Inhalte zu extrahieren?

Mit IronPDF können Sie Text und Bilder in nur wenigen Codezeilen extrahieren. Laden Sie einfach Ihr PDF-Dokument und rufen Sie ExtractAllText() für die Textextraktion oder ExtractAllImages() für die Bildextraktion auf.

Kann ich Inhalte aus bestimmten Seiten anstatt aus dem gesamten Dokument extrahieren?

Ja, IronPDF ermöglicht es Ihnen, bestimmte Seiten festzulegen, aus denen Text und Bilder extrahiert werden sollen, so dass Sie genau steuern können, welche Inhalte aus Ihren PDF-Dokumenten abgerufen werden sollen.

Curtis Chau

Jetzt mit dem Ingenieurteam chatten

Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Bereit anzufangen?

Nuget Downloads 17,803,474 | Version: 2026.3 gerade veröffentlicht

Lizenzen anzeigen

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronPdf
Führen Sie eine Probe aus Sehen Sie zu, wie Ihr HTML-Code in eine PDF-Datei umgewandelt wird.

Lizenzen anzeigen

Kunden-Highlight:

Entwickler im Rampenlicht:

Webinare:

Starten Sie jetzt Ihre kostenlose 30-Tage-Testphase

Auf dieser Seite

Extract Embedded Text and Images from PDFs in C

Installieren Sie IronPDF mit NuGet Package Manager

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

Bereitstellen zum Testen in Ihrer Live-Umgebung

Minimaler Arbeitsablauf (5 Schritte)

Wie kann ich Text aus PDFs extrahieren?

Wie kann ich Text mit präzisen Koordinaten extrahieren?

Wie kann ich Bilder aus PDFs extrahieren?

Was sind die verschiedenen Methoden zur Bildextraktion?

Wie extrahiere ich Inhalte aus bestimmten PDF-Seiten?

Wann sollte ich von bestimmten Seiten statt von allen Seiten extrahieren?

Welche Leistungsaspekte sollte ich kennen?

Häufig gestellte Fragen

Wie kann ich in C# Text aus PDF-Dokumenten extrahieren?

Kann ich Bilder aus PDF-Dateien programmgesteuert extrahieren?

Was sind die wichtigsten Anwendungsfälle für die Extraktion von PDF-Inhalten?

Wie viele Codezeilen sind nötig, um PDF-Inhalte zu extrahieren?

Kann ich Inhalte aus bestimmten Seiten anstatt aus dem gesamten Dokument extrahieren?

Scrollst du immer noch?

Iron Support Team

Starten Sie jetzt Ihre kostenlose 30-Tage-Testphase

Auf dieser Seite

Extract Embedded Text and Images from PDFs in C

Installieren Sie IronPDF mit NuGet Package Manager

Kopieren Sie diesen Codeausschnitt und führen Sie ihn aus.

Bereitstellen zum Testen in Ihrer Live-Umgebung

Minimaler Arbeitsablauf (5 Schritte)

Wie kann ich Text aus PDFs extrahieren?

Wie kann ich Text mit präzisen Koordinaten extrahieren?

Wie kann ich Bilder aus PDFs extrahieren?

Was sind die verschiedenen Methoden zur Bildextraktion?

Wie extrahiere ich Inhalte aus bestimmten PDF-Seiten?

Wann sollte ich von bestimmten Seiten statt von allen Seiten extrahieren?

Welche Leistungsaspekte sollte ich kennen?

Häufig gestellte Fragen

Wie kann ich in C# Text aus PDF-Dokumenten extrahieren?

Kann ich Bilder aus PDF-Dateien programmgesteuert extrahieren?

Was sind die wichtigsten Anwendungsfälle für die Extraktion von PDF-Inhalten?

Wie viele Codezeilen sind nötig, um PDF-Inhalte zu extrahieren?

Kann ich Inhalte aus bestimmten Seiten anstatt aus dem gesamten Dokument extrahieren?

Scrollst du immer noch?

Holen Sie sich Ihre KOSTENLOSE

Nächster Schritt: Kostenlosen 30-Tage-Test starten

Nächster Schritt: Kostenlosen 30-Tage-Test starten

Von Millionen von Ingenieur*innen weltweit vertraut

Iron Support Team