Wie man eingebetteten Text und Bilder aus PDFs in C# extrahiert

How to Extract Embedded Text and Images from PDFs

This article was translated from English: Does it need improvement?
Translated
View the article in English
role="alert"> Ihr Unternehmen gibt zu viel für jährliche Abonnements für PDF-Sicherheit und Compliance aus. Erwägen Sie IronSecureDoc, das Lösungen für die Verwaltung von SaaS-Diensten wie digitales Signieren, Schwärzung, Verschlüsselung und Schutz bietet, alles für eine einmalige Zahlung. Entdecken Sie die IronSecureDoc Dokumentation

Das Extrahieren von eingebettetem Text und Bildern umfasst das Abrufen von Textinhalten und grafischen Elementen innerhalb des Dokuments. Dieser Prozess ermöglicht es Benutzern, auf Inhalte zuzugreifen und diese für die Bearbeitung, Suche oder Umwandlung des Textes in andere Formate zu nutzen und Bilder zur Wiederverwendung oder Analyse zu speichern.

Um Text und Bilder aus einem PDF zu extrahieren, verwenden Sie IronPdf. Das extrahierte Bild kann auf der Festplatte gespeichert oder in ein anderes Bildformat umgewandelt und im neu gerenderten Dokument eingebettet werden.

als-Überschrift:2(Schnellstart: Text und Bilder mit IronPDF extrahieren)

Extrahieren Sie mühelos Text und Bilder aus PDFs mit IronPDF in nur wenigen Codezeilen. Diese Schnellstart-Anleitung stattet Entwickler mit den notwendigen Werkzeugen aus, um eingebettete Inhalte aus PDF-Dokumenten abzurufen, was die Neunutzung und Analyse von Inhalten erleichtert. Egal, ob Sie Text zur Bearbeitung extrahieren oder Bilder zur weiteren Nutzung speichern, IronPDF bietet eine nahtlose und kostengünstige Lösung. Beginnen Sie noch heute mit der IronPdf-Bibliothek und erleben Sie nahtloses PDF-Content-Management.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronPDF with NuGet Package Manager

    PM > Install-Package IronPdf

  2. Copy and run this code snippet.

    var pdf = new IronPdf.PdfDocument("sample.pdf");
    string text = pdf.ExtractAllText();
    var images = pdf.ExtractAllImages();
  3. Deploy to test on your live environment

    Start using IronPDF in your project today with a free trial
    arrow pointer
class="hsg-featured-snippet">

Minimaler Arbeitsablauf (5 Schritte)

  1. Laden Sie die IronPdf C# Bibliothek herunter
  2. Bereiten Sie das PDF-Dokument für die Text- und Bilderextraktion vor
  3. Verwenden Sie die ExtractAllText-Methode, um Text zu extrahieren
  4. Verwenden Sie die ExtractAllImages-Methode, um Bilder zu extrahieren
  5. Geben Sie die bestimmten Seiten an, von denen Text und Bilder extrahiert werden sollen


Text-Extraktionsbeispiel

Textextraktion kann sowohl bei neu gerenderten als auch bei vorhandenen PDF-Dokumenten durchgeführt werden. Verwenden Sie die ExtractAllText-Methode, um den eingebetteten Text aus dem Dokument zu extrahieren. Die Methode gibt eine Zeichenkette zurück, die den gesamten Text im angegebenen PDF enthält. Seiten werden durch vier aufeinanderfolgende neue Zeilenzeichen getrennt. Lassen Sie uns ein Beispiel-PDF verwenden, das ich von der Wikipedia-Website gerendert habe.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs
using IronPdf;
using System.IO;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text
string text = pdf.ExtractAllText();

// Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text);
Imports IronPdf
Imports System.IO

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text
Private text As String = pdf.ExtractAllText()

' Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text)
$vbLabelText   $csharpLabel
class="content-img-align-center">
class="center-image-wrapper"> Extrahierter Text

Text nach Zeile und Zeichen extrahieren

Innerhalb jeder PDF-Seite ist es möglich, die Koordinaten von Textzeilen und Zeichen abzurufen. Wählen Sie zuerst eine Seite aus dem PDF aus und greifen Sie auf die Eigenschaften Lines und Characters zu. Die Koordinaten sind als Oben, Rechts, Unten und Links-Werte angeordnet, die die Position des Textes darstellen.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs
using IronPdf;
using System.IO;
using System.Linq;

// Open PDF from file
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text by lines
var lines = pdf.Pages[0].Lines;

// Extract text by characters
var characters = pdf.Pages[0].Characters;

File.WriteAllLines("lines.txt", lines.Select(l => $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"));
Imports IronPdf
Imports System.IO
Imports System.Linq

' Open PDF from file
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text by lines
Private lines = pdf.Pages(0).Lines

' Extract text by characters
Private characters = pdf.Pages(0).Characters

File.WriteAllLines("lines.txt", lines.Select(Function(l) $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"))
$vbLabelText   $csharpLabel
class="content-img-align-center">
class="center-image-wrapper"> Extrahierter Text nach Zeile und Zeichen

Bilder extrahieren Beispiel

Verwenden Sie die ExtractAllImages-Methode, um alle im Dokument eingebetteten Bilder zu extrahieren. Die Methode gibt die Bilder als Liste von AnyBitmap-Objekten zurück. Unter Verwendung desselben Dokuments aus unserem vorherigen Beispiel haben wir die Bilder extrahiert und in den 'images'-Ordner exportiert.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs
using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract images
var images = pdf.ExtractAllImages();

for(int i = 0; i < images.Count; i++)
{
    // Export the extracted images
    images[i].SaveAs($"images/image{i}.png");
}
Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract images
Private images = pdf.ExtractAllImages()

For i As Integer = 0 To images.Count - 1
	' Export the extracted images
	images(i).SaveAs($"images/image{i}.png")
Next i
$vbLabelText   $csharpLabel
class="content-img-align-center">
class="center-image-wrapper"> Extrahierte Bilder

Zusätzlich zu der oben gezeigten ExtractAllImages-Methode kann der Benutzer die Methoden ExtractAllBitmaps und ExtractAllRawImages verwenden, um Bildinformationen aus dem Dokument zu extrahieren. Während die ExtractAllBitmaps-Methode eine Liste von AnyBitmap zurückgibt, extrahiert die ExtractAllRawImages-Methode alle Bilder aus einem PDF-Dokument und gibt sie als Rohdaten in Form von Byte-Arrays (byte[]) zurück.


Text und Bilder auf bestimmten Seiten extrahieren

Sowohl Text- als auch Bilderextraktion kann auf einer einzelnen oder mehreren angegebenen Seiten durchgeführt werden. Verwenden Sie die Methoden ExtractTextFromPage und ExtractTextFromPages, um Text von einer einzelnen Seite oder mehreren Seiten respektive zu extrahieren. Zum Extrahieren von Bildern verwenden Sie die Methoden ExtractImagesFromPage und ExtractImagesFromPages.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs
using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text from page 1
string textFromPage1 = pdf.ExtractTextFromPage(0);

int[] pages = new[] { 0, 2 };

// Extract text from pages 1 & 3
string textFromPage1_3 = pdf.ExtractTextFromPages(pages);
Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text from page 1
Private textFromPage1 As String = pdf.ExtractTextFromPage(0)

Private pages() As Integer = { 0, 2 }

' Extract text from pages 1 & 3
Private textFromPage1_3 As String = pdf.ExtractTextFromPages(pages)
$vbLabelText   $csharpLabel

Häufig gestellte Fragen

Wie kann ich eingebetteten Text aus einem PDF in .NET C# extrahieren?

Sie können die Methode ExtractAllText aus der IronPdf-Bibliothek verwenden, um eingebetteten Text aus einem PDF zu extrahieren. Diese Methode gibt einen String zurück, der den Text enthält, getrennt durch vier aufeinanderfolgende Leerzeilen für jede Seite.

Welche Schritte sind erforderlich, um Bilder aus einem PDF mit C# zu extrahieren?

Um Bilder aus einem PDF in C# zu extrahieren, laden Sie zuerst die IronPdf-Bibliothek über NuGet herunter. Verwenden Sie dann die Methode ExtractAllImages, die eine Liste von AnyBitmap-Objekten zurückgibt, die die Bilder darstellen.

Kann ich Text von bestimmten Seiten eines PDF-Dokuments extrahieren?

Ja, Sie können die Methoden ExtractTextFromPage und ExtractTextFromPages in IronPdf verwenden, um Text von bestimmten Seiten oder mehreren Seiten eines PDF-Dokuments zu extrahieren.

Was ist der Zweck der Extraktion von Text nach Zeilen- und Zeichenkoordinaten?

Die Extraktion von Text nach Zeilen- und Zeichenkoordinaten ermöglicht es, die genaue Position von Text innerhalb einer PDF-Seite abzurufen. Dies kann mit den **Lines**- und **Characters**-Eigenschaften in IronPdf erreicht werden, die Top-, Right-, Bottom- und Left-Werte bereitstellen.

Wie extrahiere ich Bilder im Rohformat aus einem PDF?

Um Bilder im Rohformat zu extrahieren, verwenden Sie die Methode ExtractAllRawImages in IronPdf. Diese Methode gibt die Bilder als Byte-Arrays zurück, sodass Sie auf die ursprünglichen Bilddaten zugreifen können.

Was sind die Vorteile der Verwendung von IronPdf zur Extraktion von Text und Bildern?

Die Verwendung von IronPdf zur Extraktion von Text und Bildern aus PDFs ist kosteneffizient, da es eine Lösung mit Einmalzahlung bietet. Es hilft bei der Umnutzung von Inhalten zum Bearbeiten, Suchen, Konvertieren in andere Formate und zur Wiederverwendung von Bildern zu Analysezwecken.

Wie kann ich beginnen, IronPdf zur Extraktion von PDF-Inhalten zu verwenden?

Um mit der Verwendung von IronPdf zu beginnen, laden Sie die IronPdf C#-Bibliothek von NuGet herunter und folgen Sie der Anleitung, um Ihr PDF-Dokument vorzubereiten und Methoden wie ExtractAllText und ExtractAllImages zur Inhaltsextraktion zu verwenden.

Ist es möglich, sowohl Text als auch Bilder von einer einzelnen PDF-Seite zu extrahieren?

Ja, IronPdf ermöglicht es Ihnen, sowohl Text als auch Bilder von einer einzelnen PDF-Seite mit den Methoden ExtractTextFromPage und ExtractImagesFromPage zu extrahieren.

Welche Methoden stehen zur Verfügung, um Bilder von mehreren Seiten zu extrahieren?

Sie können die Methode ExtractImagesFromPages in IronPdf verwenden, um Bilder von mehreren Seiten eines PDF-Dokuments zu extrahieren.

Ist IronPdf mit .NET 10 zum Extrahieren von Text und Bildern kompatibel?

Ja – IronPdf unterstützt .NET 10 sowie ältere moderne Versionen wie .NET 9, 8, 7, 6, Core, Standard und Framework. Sie können alle Methoden wie ExtractAllText , ExtractAllImages , ExtractTextFromPage und ExtractImagesFromPages in einem .NET-10-Projekt ohne Workarounds oder Kompatibilitätsanpassungen verwenden.

Chaknith Bin
Software Ingenieur
Chaknith arbeitet an IronXL und IronBarcode. Er hat umfassende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Einblicke aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentationen und einem insgesamt besseren Erlebnis bei.
Bereit anzufangen?
Nuget Downloads 16,154,058 | Version: 2025.11 gerade veröffentlicht