Zum Fußzeileninhalt springen
IRONPDF NUTZEN
Wie man Text aus PDFs mit IronPDF extrahiert

Wie man Daten aus PDF in C# extrahiert

Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. Dieser Artikel erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, um Text und Bilder aus PDF-Dokumenten zu extrahieren.

IronPDF: C# PDF-Bibliothek

IronPDF ist eine .NET-Bibliothek, die zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien verwendet werden kann. Sie bietet eine benutzerfreundliche API für Entwickler, die in ihren Anwendungen verwendet werden kann. Sie ist weltweit eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien. Mit IronPDF können Sie eine einfache und schnelle Lösung für PDFs erstellen. Ihr Text wird für jedes Dokument angepasst, Ihr Layout wird für ein leichtes Lesen eingerichtet und Ihre Grafiken werden mit Hilfe des begleitenden .NET-Programms gestaltet.

Die IronPDF-Bibliothek verfügt über eine fantastische Funktion zum Extrahieren von Daten aus PDF-Dateien. Dieser Artikel wird sich damit befassen, wie man Daten mit IronPDF extrahieren kann. Zuerst muss ein C#-Projekt erstellt oder geöffnet werden. Kommen wir zum nächsten Abschnitt.

Erstellen oder Öffnen eines C#-Projekts in Visual Studio

Dieses Tutorial empfiehlt die Verwendung der neuesten Version von Visual Studio.

Sobald Visual Studio geöffnet ist, befolgen Sie die unten stehenden Schritte, um ein neues C#-Projekt zu erstellen. Wenn ein bestehendes Projekt verwendet werden soll, dann überspringen Sie diese nächsten Schritte und fahren direkt mit dem nächsten Abschnitt fort.

  • Öffnen Sie Visual Studio
  • Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".

So extrahieren Sie Daten aus PDFs in C#, Abbildung 1: Visual Studio öffnet die Benutzeroberfläche Visual Studio Benutzeroberfläche öffnen

  • Wählen Sie die "C# Console Application" aus den Vorlagen.

So extrahieren Sie Daten aus PDFs in C#, Abbildung 2: Erstellen Sie ein neues Projekt Ein neues Projekt erstellen

  • Geben Sie dem Projekt einen Namen und klicken Sie auf die Schaltfläche Next.
  • Wählen Sie ein .NET-Framework entsprechend den Anforderungen Ihres Projekts aus und klicken Sie auf die Schaltfläche Create.

Wie man Daten aus PDFs in C# extrahiert, Abbildung 3: .NET Framework -Auswahl .NET Framework-Auswahl

Visual Studio wird jetzt ein neues C# .NET-Projekt generieren.

Die IronPDF-Bibliothek installieren

Die IronPDF-Bibliothek kann auf unterschiedliche Weise installiert werden.

Verwendung der Paket-Manager-Konsole

  • Öffnen Sie die Paket-Manager-Konsole, indem Sie zu Tools > NuGet Package Manager > Package Manager Console gehen.
  • Führen Sie den folgenden Befehl aus, um die IronPDF-Bibliothek zu installieren:
Install-Package IronPdf

So extrahieren Sie Daten aus PDFs in C#, Abbildung 4: Installationsfortschritt in der Registerkarte Installationsfortschritt im Package Manager Console-Tab

Nach der Installation wird die IronPDF Abhängigkeit im Abschnitt dependencies des Projektmappen-Explorers angezeigt, wie unten dargestellt.

So extrahieren Sie Daten aus PDFs in C#, Abbildung 5: Referenzieren Sie das IronPDF Paket im Projektmappen-Explorer IronPDF-Paket im Solution Explorer referenzieren

Verwendung des NuGet Package Managers

Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der integrierten NuGet Package Manager-UI von Visual Studio.

  • Gehen Sie zu den Tools im Hauptmenü. Fahren Sie im Dropdown-Menü mit der Maus über "NuGet Package Manager" und wählen Sie "Manage NuGet Packages for Solution...".

So extrahieren Sie Daten aus PDFs in C#, Abbildung 6: Navigieren Sie zum NuGet Paketmanager Zu NuGet Package Manager navigieren

  • Dadurch wird das Fenster des NuGet-Paket-Managers geöffnet. Gehen Sie zum Tab "Durchsuchen", geben Sie IronPdf in das Suchfeld ein und drücken Sie die Eingabetaste.
  • Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die "Install"-Schaltfläche, um die Installation zu starten.

So extrahieren Sie Daten aus PDFs in C#, Abbildung 7: Installieren Sie das IronPDF Paket über den NuGet Paketmanager Das IronPDF-Paket aus dem NuGet-Paket-Manager installieren

Daten aus PDF-Dateien extrahieren

Werfen wir einen Blick auf den folgenden Code, der zeigt, wie man mit IronPDF Daten extrahiert:

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing

Public Class PDFExtractor
	Public Sub ExtractDataFromPDF()
		' Open a 128-bit encrypted PDF file by providing the filename and password
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Extract all text from the PDF document
			Dim allText As String = pdf.ExtractAllText()
	
			' Extract all images from the PDF document
			Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
	
			' Iterate over each page in the PDF document
			For index = 0 To pdf.PageCount - 1
				Dim pageNumber As Integer = index + 1
	
				' Extract text from the specific page
				Dim text As String = pdf.ExtractTextFromPage(index)
	
				' Extract images from the specific page
				Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
	
				' Code to process the extracted text and images
				'...
			Next index
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

In diesem Codebeispiel:

  1. Die Methode FromFile wird verwendet, um das Eingabe-PDF-Dokument zu laden, das verschlüsselt ist und ein Passwort erfordert.
  2. Die Methode ExtractAllText extrahiert den gesamten Textinhalt aus der PDF-Datei.
  3. Die Methode ExtractAllImages ruft alle eingebetteten Bilder ab.
  4. Eine Schleife durchläuft jede Seite des Dokuments, um Text und Bilder von dieser spezifischen Seite mithilfe von ExtractTextFromPage und ExtractImagesFromPage zu extrahieren.

Abschluss

IronPDF ermöglicht es Entwicklern, mit Leichtigkeit Text und Bilder aus PDF-Dateien zu extrahieren. Mit ExtractAllText und ExtractAllImages kann der gesamte Inhalt einer PDF-Datei sofort extrahiert werden. Alternativ können diese Methoden auch verwendet werden, um Inhalte von spezifischen Seiten zu extrahieren. Der vorhergehende Code zeigte, wie man beide Methoden verwendet, um Text und Bilder von einer Reihe von Seiten zu lesen.

Zusätzlich bietet IronPDF Funktionen wie Diagrammerstellung, Hinzufügen von Barcodes, Sicherheitsverbesserungen mit Passwörtern, Wasserzeichen und die Verwaltung von PDF-Formularen programmatisch.

IronPDF ist während der Entwicklung kostenlos verfügbar, bei kommerzieller Nutzung ist eine Zahlung erforderlich. Ein kostenloser Test von IronPDF ist für die Produktion ohne Zahlung verfügbar.

Kaufen Sie das [vollständige Angebot der Dokumentbibliotheken von Iron Software](Iron Suite) zum Preis von zwei IronPDF Lite-Lizenzen.

Laden Sie IronPDF jetzt herunter, um heute noch mit dem Extrahieren von Daten aus PDFs zu beginnen!

Häufig gestellte Fragen

Wie kann ich Text aus einem PDF in C# extrahieren?

Sie können die Methode ExtractAllText von IronPDF verwenden, um den gesamten Text aus einem PDF-Dokument zu extrahieren. Diese Methode vereinfacht den Prozess, indem sie einen einfachen Zugriff auf den Textinhalt des PDFs ermöglicht.

Wie ist der Prozess zur Extrahierung von Bildern aus einem PDF mit C#?

Mit IronPDF können Sie Bilder aus einem PDF extrahieren, indem Sie die Methode ExtractAllImages verwenden. Diese Methode ruft effizient alle eingebetteten Bilder aus der PDF-Datei ab.

Wie installiere ich eine PDF-Manipulationsbibliothek in einem C#-Projekt?

Um IronPDF in einem C#-Projekt zu installieren, können Sie die Paket-Manager-Konsole mit dem Befehl Install-Package IronPDF verwenden oder über die NuGet-Paket-Manager-Benutzeroberfläche in Visual Studio navigieren, um das Paket zu installieren.

Ist es möglich, mit C# verschlüsselte PDFs zu behandeln?

Ja, IronPDF ermöglicht es Ihnen, verschlüsselte PDF-Dateien zu öffnen und zu manipulieren, indem Sie die Methode FromFile verwenden, bei der Sie den Dateinamen und das Passwort zur Verfügung stellen können, um auf den Inhalt zuzugreifen.

Kann ich Daten von bestimmten Seiten eines PDFs in C# extrahieren?

IronPDF ermöglicht es Ihnen, über jede Seite eines PDF-Dokuments zu iterieren und Methoden wie ExtractTextFromPage und ExtractImagesFromPage zu verwenden, um Daten von bestimmten Seiten zu extrahieren.

Welche zusätzlichen Funktionen bietet die C# PDF-Bibliothek?

Neben der Datenextraktion bietet IronPDF Funktionen wie das Rendern von Diagrammen, das Hinzufügen von Barcodes, das Erhöhen der Dokumentensicherheit mit Passwörtern, das Watermarking und die programmatische Bearbeitung von PDF-Formularen.

Wie kann ich HTML in PDF in C# konvertieren?

Mit der Methode RenderHtmlAsPdf von IronPDF können Sie HTML-Strings in PDFs umwandeln, was besonders nützlich ist, um PDF-Dokumente aus Webinhalten zu erstellen.

Gibt es eine Testversion für die C# PDF-Bibliothek?

IronPDF kann während der Entwicklung kostenlos verwendet werden, sodass Sie seine Fähigkeiten testen können. Für die produktive Nutzung ist eine kommerzielle Lizenz erforderlich, aber eine kostenlose Testversion ist ebenfalls verfügbar.

Wie kann ich die C#-Bibliothek für die Datenextraktion aus PDFs verwenden?

Um mit der Verwendung von IronPDF für die Datenextraktion zu beginnen, laden Sie die Bibliothek herunter, erstellen oder öffnen Sie ein C#-Projekt in Visual Studio, installieren Sie IronPDF und folgen Sie den Codebeispielen, um effizient Text und Bilder aus PDFs zu extrahieren.

.NET 10-Kompatibilität: Kann ich die Datenextraktionsfunktionen von IronPDF mit .NET 10 verwenden?

Ja – IronPDF wird vollständig unter .NET 10 unterstützt, einschließlich seiner Datenextraktionsfunktionen wie Text- und Bildextraktion. Sie können IronPDF ohne spezielle Konfiguration in .NET 10-Projekten verwenden. Es unterstützt .NET 10, .NET 9, .NET 8 und frühere Versionen sowie .NET Standard und .NET Framework. (ironpdf.com)

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen

Iron Support Team

Wir sind 24 Stunden am Tag, 5 Tage die Woche online.
Chat
E-Mail
Rufen Sie mich an