Zum Fußzeileninhalt springen
IRONPDF NUTZEN
Wie man Text aus PDFs mit IronPDF extrahiert

Wie man Daten aus PDF in C# extrahiert

role="alert"> Ihr Unternehmen gibt zu viel für jährliche Abonnements für PDF-Sicherheit und -Compliance aus. Erwägen Sie IronSecureDoc, das Lösungen für die Verwaltung von SaaS-Diensten wie digitale Signatur, Schwärzung, Verschlüsselung und Schutz bietet, alles gegen eine einmalige Zahlung. Erfahren Sie mehr über IronSecureDoc

Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. Dieser Artikel erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, um Text und Bilder aus PDF-Dokumenten zu extrahieren.

class="hsg-featured-snippet">

Wie man Daten aus einem PDF in C# extrahiert

  1. Laden Sie die C#-Bibliothek zum Extrahieren von Daten aus PDF herunter
  2. Erstellen Sie ein neues Projekt in Visual Studio
  3. Installieren Sie die Bibliothek in Ihrem Projekt
  4. Extrahieren Sie die Daten von bestimmten Seiten und extrahieren Sie spezifische Daten aus dem PDF
  5. Sehen Sie sich die Daten-Ausgabe aus dem PDF-Dokument an

IronPDF: C# PDF-Bibliothek

IronPDF ist eine .NET-Bibliothek, die zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien verwendet werden kann. Sie bietet eine benutzerfreundliche API für Entwickler, die in ihren Anwendungen verwendet werden kann. Sie ist weltweit eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien. Mit IronPDF können Sie eine einfache und schnelle Lösung für PDFs erstellen. Your text will be customized for each document, Ihr Layout wird für ein leichtes Lesen eingerichtet und Ihre Grafiken werden mit Hilfe des begleitenden .NET-Programms gestaltet.

Die IronPDF-Bibliothek verfügt über eine fantastische Funktion zum Extrahieren von Daten aus PDF-Dateien. Dieser Artikel wird sich damit befassen, wie man Daten mit IronPDF extrahieren kann. Zuerst muss ein C#-Projekt erstellt oder geöffnet werden. Kommen wir zum nächsten Abschnitt.

Erstellen oder Öffnen eines C#-Projekts in Visual Studio

Dieses Tutorial empfiehlt die Verwendung der neuesten Version von Visual Studio.

Sobald Visual Studio geöffnet ist, befolgen Sie die unten stehenden Schritte, um ein neues C#-Projekt zu erstellen. Wenn ein bestehendes Projekt verwendet werden soll, dann überspringen Sie diese nächsten Schritte und fahren direkt mit dem nächsten Abschnitt fort.

  • Öffnen Sie Visual Studio
  • Klicken Sie auf die Schaltfläche "Create a new project".

Wie man Daten aus PDFs in C# extrahiert, Abbildung 1: Visual Studio-Öffnungs-UI Visual Studio-Öffnungs-UI

  • Wählen Sie die "C# Console Application" aus den Vorlagen.

Wie man Daten aus PDFs in C# extrahiert, Abbildung 2: Ein neues Projekt erstellen Ein neues Projekt erstellen

  • Geben Sie dem Projekt einen Namen und klicken Sie auf die Schaltfläche Next.
  • Wählen Sie ein .NET-Framework entsprechend den Anforderungen Ihres Projekts aus und klicken Sie auf die Schaltfläche Create.

Wie man Daten aus PDFs in C# extrahiert, Abbildung 3: .NET-Framework-Auswahl .NET Framework-Auswahl

Visual Studio wird jetzt ein neues C# .NET-Projekt generieren.

Die IronPDF-Bibliothek installieren

Die IronPDF-Bibliothek kann auf unterschiedliche Weise installiert werden.

Verwendung der Paket-Manager-Konsole

  • Öffnen Sie die Paket-Manager-Konsole, indem Sie zu Tools > NuGet Package Manager > Package Manager Console gehen.
  • Führen Sie den folgenden Befehl aus, um die IronPDF-Bibliothek zu installieren:
Install-Package IronPdf

Wie man Daten aus PDFs in C# extrahiert, Abbildung 4: Installationsfortschritt im Package Manager Console-Tab Installationsfortschritt im Package Manager Console-Tab

Nach der Installation sehen Sie die IronPDF-Abhängigkeit im dependencies-Abschnitt des Solution Explorers, wie unten gezeigt.

Wie man Daten aus PDFs in C# extrahiert, Abbildung 5: IronPdf-Paket im Solution Explorer referenzieren IronPdf-Paket im Solution Explorer referenzieren

Verwendung des NuGet Package Managers

Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der integrierten NuGet Package Manager-UI von Visual Studio.

  • Gehen Sie zu den Tools im Hauptmenü. Fahren Sie im Dropdown-Menü mit der Maus über "NuGet Package Manager" und wählen Sie "Manage NuGet Packages for Solution...".

Wie man Daten aus PDFs in C# extrahiert, Abbildung 6: Zum NuGet Package Manager navigieren Zu NuGet Package Manager navigieren

  • Dadurch wird das Fenster des NuGet-Paket-Managers geöffnet. Gehen Sie zur Registerkarte Durchsuchen, schreiben Sie IronPdf in die Suchleiste und drücken Sie Enter.
  • Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die "Install"-Schaltfläche, um die Installation zu starten.

Wie man Daten aus PDFs in C# extrahiert, Abbildung 7: Das IronPdf-Paket mit dem NuGet Package Manager installieren Das IronPdf-Paket aus dem NuGet-Paket-Manager installieren

Daten aus PDF-Dateien extrahieren

Werfen wir einen Blick auf den folgenden Code, der zeigt, wie man mit IronPDF Daten extrahiert:

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing

Public Class PDFExtractor
	Public Sub ExtractDataFromPDF()
		' Open a 128-bit encrypted PDF file by providing the filename and password
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Extract all text from the PDF document
			Dim allText As String = pdf.ExtractAllText()
	
			' Extract all images from the PDF document
			Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
	
			' Iterate over each page in the PDF document
			For index = 0 To pdf.PageCount - 1
				Dim pageNumber As Integer = index + 1
	
				' Extract text from the specific page
				Dim text As String = pdf.ExtractTextFromPage(index)
	
				' Extract images from the specific page
				Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
	
				' Code to process the extracted text and images
				'...
			Next index
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

In diesem Codebeispiel:

  1. Die FromFile-Methode wird verwendet, um das Eingabe-PDF-Dokument zu laden, das verschlüsselt ist und ein Passwort erfordert.
  2. Die ExtractAllText-Methode extrahiert den gesamten Textinhalt aus dem PDF.
  3. Die ExtractAllImages-Methode ruft alle eingebetteten Bilder ab.
  4. Eine Schleife durchläuft jede Seite des Dokuments, um Text und Bilder von dieser spezifischen Seite mit ExtractTextFromPage und ExtractImagesFromPage zu extrahieren.

Abschluss

IronPDF ermöglicht es Entwicklern, mit Leichtigkeit Text und Bilder aus PDF-Dateien zu extrahieren. Mit ExtractAllText und ExtractAllImages kann der gesamte Inhalt einer PDF-Datei sofort extrahiert werden. Alternativ können diese Methoden auch verwendet werden, um Inhalte von spezifischen Seiten zu extrahieren. Der vorhergehende Code zeigte, wie man beide Methoden verwendet, um Text und Bilder von einer Reihe von Seiten zu lesen.

Additionally, IronPDF offers features like rendering charts, adding barcodes, enhancing security with passwords, watermarking, and handling PDF forms programmatically.

IronPDF ist während der Entwicklung kostenlos verfügbar, bei kommerzieller Nutzung ist eine Zahlung erforderlich. Ein kostenloser Test von IronPDF ist für die Produktion ohne Zahlung verfügbar.

Purchase the full suite of Iron Software's document libraries for the cost of two IronPDF Lite Licenses.

Laden Sie IronPDF jetzt herunter, um heute noch mit dem Extrahieren von Daten aus PDFs zu beginnen!

Häufig gestellte Fragen

Wie kann ich Text aus einem PDF in C# extrahieren?

Sie können die Methode ExtractAllText von IronPDF verwenden, um den gesamten Text aus einem PDF-Dokument zu extrahieren. Diese Methode vereinfacht den Prozess, indem sie einen einfachen Zugriff auf den Textinhalt des PDFs ermöglicht.

Wie ist der Prozess zur Extrahierung von Bildern aus einem PDF mit C#?

Mit IronPDF können Sie Bilder aus einem PDF extrahieren, indem Sie die Methode ExtractAllImages verwenden. Diese Methode ruft effizient alle eingebetteten Bilder aus der PDF-Datei ab.

Wie installiere ich eine PDF-Manipulationsbibliothek in einem C#-Projekt?

Um IronPDF in einem C#-Projekt zu installieren, können Sie die Paket-Manager-Konsole mit dem Befehl Install-Package IronPdf verwenden oder über die NuGet-Paket-Manager-Benutzeroberfläche in Visual Studio navigieren, um das Paket zu installieren.

Ist es möglich, mit C# verschlüsselte PDFs zu behandeln?

Ja, IronPDF ermöglicht es Ihnen, verschlüsselte PDF-Dateien zu öffnen und zu manipulieren, indem Sie die Methode FromFile verwenden, bei der Sie den Dateinamen und das Passwort zur Verfügung stellen können, um auf den Inhalt zuzugreifen.

Kann ich Daten von bestimmten Seiten eines PDFs in C# extrahieren?

IronPDF ermöglicht es Ihnen, über jede Seite eines PDF-Dokuments zu iterieren und Methoden wie ExtractTextFromPage und ExtractImagesFromPage zu verwenden, um Daten von bestimmten Seiten zu extrahieren.

Welche zusätzlichen Funktionen bietet die C# PDF-Bibliothek?

Neben der Datenextraktion bietet IronPDF Funktionen wie das Rendern von Diagrammen, das Hinzufügen von Barcodes, das Erhöhen der Dokumentensicherheit mit Passwörtern, das Watermarking und die programmatische Bearbeitung von PDF-Formularen.

Wie kann ich HTML in PDF in C# konvertieren?

Mit der Methode RenderHtmlAsPdf von IronPDF können Sie HTML-Strings in PDFs umwandeln, was besonders nützlich ist, um PDF-Dokumente aus Webinhalten zu erstellen.

Gibt es eine Testversion für die C# PDF-Bibliothek?

IronPDF kann während der Entwicklung kostenlos verwendet werden, sodass Sie seine Fähigkeiten testen können. Für die produktive Nutzung ist eine kommerzielle Lizenz erforderlich, aber eine kostenlose Testversion ist ebenfalls verfügbar.

Wie kann ich die C#-Bibliothek für die Datenextraktion aus PDFs verwenden?

Um mit der Verwendung von IronPDF für die Datenextraktion zu beginnen, laden Sie die Bibliothek herunter, erstellen oder öffnen Sie ein C#-Projekt in Visual Studio, installieren Sie IronPDF und folgen Sie den Codebeispielen, um effizient Text und Bilder aus PDFs zu extrahieren.

.NET 10-Kompatibilität: Kann ich die Datenextraktionsfunktionen von IronPDF mit .NET 10 verwenden?

Ja – IronPDF wird vollständig unter .NET 10 unterstützt, einschließlich seiner Datenextraktionsfunktionen wie Text- und Bildextraktion. Sie können IronPDF ohne spezielle Konfiguration in .NET 10-Projekten verwenden. Es unterstützt .NET 10, .NET 9, .NET 8 und frühere Versionen sowie .NET Standard und .NET Framework. (ironpdf.com)

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen