PDF-Dateien in C# lesen

VB C#

using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;

// Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");

// Get all text to put in a search index
string text = pdf.ExtractAllText();

// Get all Images
var allImages = pdf.ExtractAllImages();

// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
    int pageNumber = index + 1;
    text = pdf.ExtractTextFromPage(index);
    List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
    //...
}

Imports IronPdf
Imports IronSoftware.Drawing
Imports System.Collections.Generic

' Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private pdf = PdfDocument.FromFile("encrypted.pdf", "password")

' Get all text to put in a search index
Private text As String = pdf.ExtractAllText()

' Get all Images
Private allImages = pdf.ExtractAllImages()

' Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim pageNumber As Integer = index + 1
	text = pdf.ExtractTextFromPage(index)
	Dim images As List(Of AnyBitmap) = pdf.ExtractBitmapsFromPage(index)
	'...
Next index

Install-Package IronPdf

PDF-Dateien in C# lesen

Die PdfDocument.ExtractAllText-Methode aus der IronPDF-C#-PDF-Bibliothek eignet sich perfekt für einfache PDF-Textlesungsaufgaben. Diese Methode behandelt Leerzeichen und Kodierungsunterschiede innerhalb von PDF-Quelldokumenten ohne Probleme.

PdfDocument.ExtractTextFromPage liest den Text von bestimmten Seiten einer PDF-Datei. Im folgenden Beispiel sehen wir es, wie es iterativ verwendet wird, um Textinhalte aus einem bestimmten Seitenbereich abzurufen.

IronPDF kann auch Rohbilder aus PDFs extrahieren. Verwenden Sie hierfür eine der Methoden aus der unten stehenden Klasse PdfDocument:

ExtractAllImages: Gibt alle in einer PDF-Datei eingebetteten Bilder als IronSoftware.Drawing.AnyBitmap-Objekte zurück.
ExtractAllRawImages: Ruft alle eingebetteten Bilder als Liste von Rohbytes ab (byte[]).
ExtractImagesFromPage: extrahiert die auf einer indizierten Seite enthaltenen Bilder.
ExtractImagesFromPages: wie ExtractImagesFromPage, jedoch aus einem bestimmten Seitenbereich oder einer Liste einzelner Seiten.
ExtractRawImagesFromPage und ExtractRawImagesFromPages: funktionieren genauso wie die beiden vorherigen Methoden, geben die extrahierten Bilder jedoch als Byte-Arrays statt als IronSoftware.Drawing.AnyBitmap-Objekte zurück.

Wie man PDF-Dateien in C# liest

Runterladen der IronPDF-Bibliothek für C#
Bilder oder Text aus PDF extrahieren
Lesen und Finden von Wörtern in bestimmten Dokumenten
PDF-Ausgabe des Originaldokuments anzeigen

Learn more about ExtractTextFromPage Method

Auf GitHub ansehen

Code

https://github.com/iron-software/IronPdf.Examples/tree/main/examples/reading-pdf-text

ZIP herunterladen

Verwandtes Tutorial
Verwandte Anleitung
Klassendokumentation
Sprachpakete herunterladen
IronPDF DLL herunterladen

Bereit anzufangen?

Nuget Downloads 19,014,616 | Version: 2026.5 just released

Lizenzen anzeigen

Scrollst du immer noch?

Sie brauchen schnell einen Beweis? PM > Install-Package IronPdf
Führen Sie eine Probe aus Sehen Sie zu, wie Ihr HTML-Code in eine PDF-Datei umgewandelt wird.