Jak wyodrębnić dane z pliku PDF w języku C#
Pobieranie danych z plików PDF ma kluczowe znaczenie dla oszczędności czasu związanego z ręcznym wprowadzaniem danych. W tym artykule wyjaśniono, w jaki sposób programiści mogą wykorzystać bibliotekę IronPDF do wyodrębniania tekstu i obrazów z dokumentów PDF.
Jak wyodrębnić dane z pliku PDF w języku C#
- Pobierz bibliotekę Extract Data from PDF C#
- Utwórz nowy projekt w Visual Studio
- Zainstaluj bibliotekę w swoim projekcie
- Wyodrębnij dane z określonych stron i wyodrębnij konkretne elementy z pliku PDF
- Wyświetl dane wyjściowe z dokumentu PDF
IronPDF: biblioteka PDF dla języka C
IronPDF to biblioteka .NET, która może służyć do tworzenia, edycji i konwersji plików PDF. Zapewnia łatwy w użyciu interfejs API, z którego programiści mogą korzystać w swoich aplikacjach. Jest to jedna z najpopularniejszych bibliotek do tworzenia, edycji i konwersji plików PDF na całym świecie. Dzięki IronPDF możesz stworzyć proste i szybkie rozwiązanie do obsługi plików PDF. Tekst zostanie dostosowany do każdego dokumentu, układ zostanie skonfigurowany tak, aby ułatwić czytanie, a grafika zostanie zaprojektowana przy pomocy dołączonego programu .NET.
Biblioteka IronPDF posiada fantastyczną funkcję do wyodrębniania danych z plików PDF. W tym artykule przyjrzymy się, jak wyodrębniać dane za pomocą IronPDF. Najpierw należy utworzyć lub otworzyć projekt C#. Przejdźmy do następnej sekcji.
Utwórz lub otwórz projekt C# w programie Visual Studio
W tym samouczku zaleca się korzystanie z najnowszej wersji programu Visual Studio.
Po uruchomieniu programu Visual Studio wykonaj poniższe czynności, aby utworzyć nowy projekt w języku C#. Jeśli masz już gotowy projekt, z którego chcesz skorzystać, pomiń poniższe kroki i przejdź bezpośrednio do następnej sekcji.
- Otwórz Visual Studio
- Kliknij przycisk "Utwórz nowy projekt".
Interfejs użytkownika programu Visual Studio
- Wybierz "Aplikacja konsolowa C#" z szablonów.
Utwórz nowy projekt
- Nadaj nazwę projektowi i kliknij przycisk Dalej.
- Wybierz .NET Framework zgodnie z wymaganiami projektu i kliknij przycisk Utwórz.
Wybór platformy .NET Framework
Visual Studio wygeneruje teraz nowy projekt C# .NET.
Zainstaluj bibliotekę IronPDF
Bibliotekę IronPDF można zainstalować na wiele sposobów.
Korzystanie z konsoli menedżera pakietów
- Otwórz konsolę menedżera pakietów, przechodząc do menu Narzędzia > Menedżer pakietów NuGet > Konsola menedżera pakietów.
- Uruchom następujące polecenie, aby zainstalować bibliotekę IronPDF:
Install-Package IronPdf
Postęp instalacji w zakładce Konsola menedżera pakietów
Po instalacji w sekcji dependencies Eksploratora rozwiązań pojawi się zależność IronPDF, jak pokazano poniżej.
Odwołaj się do pakietu IronPdf w Eksploratorze rozwiązań
Korzystanie z menedżera pakietów NuGet
Innym sposobem instalacji biblioteki IronPDF jest użycie zintegrowanego interfejsu użytkownika menedżera pakietów NuGet w Visual Studio.
- Przejdź do sekcji Narzędzia w menu głównym. Najedź kursorem na "NuGet Package Manager" w menu rozwijanym i wybierz opcję "Manage NuGet Packages for Solution...".
Przejdź do menedżera pakietów NuGet
- Spowoduje to otwarcie okna Menedżera pakietów NuGet. Przejdź do zakładki Przeglądaj, wpisz
IronPdfw polu wyszukiwania i naciśnij Enter. - Wybierz IronPDF z wyników wyszukiwania i kliknij przycisk "Zainstaluj", aby rozpocząć instalację.
Zainstaluj pakiet IronPdf z menedżera pakietów NuGet
Pobieranie danych z plików PDF
Przyjrzyjmy się poniższemu kodowi pokazującemu, jak wyodrębnić dane za pomocą IronPDF:
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
public class PDFExtractor
{
public void ExtractDataFromPDF()
{
// Open a 128-bit encrypted PDF file by providing the filename and password
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Extract all text from the PDF document
string allText = pdf.ExtractAllText();
// Extract all images from the PDF document
IEnumerable<Image> allImages = pdf.ExtractAllImages();
// Iterate over each page in the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
int pageNumber = index + 1;
// Extract text from the specific page
string text = pdf.ExtractTextFromPage(index);
// Extract images from the specific page
IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);
// Code to process the extracted text and images
//...
}
}
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
public class PDFExtractor
{
public void ExtractDataFromPDF()
{
// Open a 128-bit encrypted PDF file by providing the filename and password
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Extract all text from the PDF document
string allText = pdf.ExtractAllText();
// Extract all images from the PDF document
IEnumerable<Image> allImages = pdf.ExtractAllImages();
// Iterate over each page in the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
int pageNumber = index + 1;
// Extract text from the specific page
string text = pdf.ExtractTextFromPage(index);
// Extract images from the specific page
IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);
// Code to process the extracted text and images
//...
}
}
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing
Public Class PDFExtractor
Public Sub ExtractDataFromPDF()
' Open a 128-bit encrypted PDF file by providing the filename and password
Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
' Extract all text from the PDF document
Dim allText As String = pdf.ExtractAllText()
' Extract all images from the PDF document
Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
' Iterate over each page in the PDF document
For index = 0 To pdf.PageCount - 1
Dim pageNumber As Integer = index + 1
' Extract text from the specific page
Dim text As String = pdf.ExtractTextFromPage(index)
' Extract images from the specific page
Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
' Code to process the extracted text and images
'...
Next index
End Using
End Sub
End Class
W tym przykładzie kodu:
- Metoda
FromFilesłuży do ładowania wejściowego dokumentu PDF, który jest zaszyfrowany i wymaga hasła. - Metoda
ExtractAllTextwyodrębnia całą treść tekstową z pliku PDF. - Metoda
ExtractAllImagespobiera wszystkie osadzone obrazy. - Pętla iteruje po każdej stronie dokumentu, aby wyodrębnić tekst i obrazy z tej konkretnej strony przy użyciu
ExtractTextFromPageiExtractImagesFromPage.
Wnioski
IronPDF pozwala programistom z łatwością wyodrębniać tekst i obrazy z plików PDF. Korzystając z ExtractAllText i ExtractAllImages, można natychmiast wyodrębnić całą zawartość pliku PDF. Alternatywnie, metody te można wykorzystać do wyodrębnienia treści z konkretnej strony. Poprzedni kod pokazał, jak używać obu metod do odczytywania tekstu i obrazów z szeregu stron.
Ponadto IronPDF oferuje funkcje takie jak renderowanie wykresów, dodawanie BarCode'ów, zwiększanie bezpieczeństwa za pomocą haseł, znakowanie wodne oraz programowe przetwarzanie formularzy PDF.
IronPDF jest dostępny bezpłatnie na etapie rozwoju, natomiast za użytkowanie komercyjne wymagana jest opłata. Dostępna jest bezpłatna wersja próbna IronPDF do użytku produkcyjnego bez konieczności dokonywania płatności.
Kup pełny pakiet bibliotek dokumentów Iron Software za cenę dwóch licencji IronPDF Lite.
Pobierz IronPDF już teraz, aby jeszcze dziś rozpocząć wyodrębnianie danych z plików PDF!
Często Zadawane Pytania
Jak wyodrębnić tekst z pliku PDF w języku C#?
Możesz użyć metody ExtractAllText biblioteki IronPDF, aby wyodrębnić cały tekst z dokumentu PDF. Metoda ta upraszcza ten proces, umożliwiając łatwy dostęp do treści tekstowej pliku PDF.
Jak wygląda proces wyodrębniania obrazów z pliku PDF przy użyciu języka C#?
Dzięki IronPDF można wyodrębnić obrazy z pliku PDF, korzystając z metody ExtractAllImages. Metoda ta pozwala na sprawne pobranie wszystkich obrazów osadzonych w pliku PDF.
Jak zainstalować bibliotekę do obsługi plików PDF w projekcie C#?
Aby zainstalować IronPDF w projekcie C#, można użyć konsoli menedżera pakietów, wpisując polecenie Install-Package IronPdf, lub przejść do interfejsu użytkownika menedżera pakietów NuGet w programie Visual Studio w celu zainstalowania pakietu.
Czy w języku C# można obsługiwać zaszyfrowane pliki PDF?
Tak, IronPDF umożliwia otwieranie i edycję zaszyfrowanych plików PDF za pomocą metody FromFile, w której można podać nazwę pliku i hasło, aby uzyskać dostęp do zawartości.
Czy w języku C# mogę wyodrębnić dane z określonych stron pliku PDF?
IronPDF umożliwia iterację po każdej stronie dokumentu PDF i wykorzystanie metod takich jak ExtractTextFromPage oraz ExtractImagesFromPage do wyodrębniania danych z określonych stron.
Jakie dodatkowe funkcje oferuje biblioteka C# PDF?
Oprócz ekstrakcji danych IronPDF oferuje takie funkcje, jak renderowanie wykresów, dodawanie BARCODE-ów, zwiększanie bezpieczeństwa dokumentów za pomocą haseł, znaków wodnych oraz programowe przetwarzanie formularzy PDF.
Jak mogę przekonwertować HTML na PDF w języku C#?
Możesz użyć metody RenderHtmlAsPdf biblioteki IronPDF do konwersji ciągów HTML na pliki PDF, co jest szczególnie przydatne do tworzenia dokumentów PDF na podstawie treści internetowych.
Czy dostępna jest wersja próbna biblioteki C# PDF?
IronPDF jest bezpłatny podczas fazy rozwoju, co pozwala na przetestowanie jego możliwości. Do użytku produkcyjnego wymagana jest licencja komercyjna, ale dostępna jest również bezpłatna wersja próbna.
Jak mogę zacząć korzystać z biblioteki C# do wyodrębniania danych z plików PDF?
Aby rozpocząć korzystanie z IronPDF do wyodrębniania danych, pobierz bibliotekę, utwórz lub otwórz projekt C# w Visual Studio, zainstaluj IronPDF i postępuj zgodnie z przykładami kodu, aby efektywnie wyodrębniać tekst i obrazy z plików PDF.
Zgodność z .NET 10: Czy mogę korzystać z funkcji ekstrakcji danych IronPDF w środowisku .NET 10?
Tak — IronPDF jest w pełni obsługiwany w środowisku .NET 10, w tym jego funkcje ekstrakcji danych, takie jak wyodrębnianie tekstu i obrazów. Można używać IronPDF w projektach .NET 10 bez specjalnej konfiguracji. Obsługuje on .NET 10, .NET 9, .NET 8 i wcześniejsze wersje, a także .NET Standard i .NET Framework. (ironpdf.com)




