Przejdź do treści stopki
KORZYSTANIE Z IRONPDF

Jak odczytywać pliki PDF w języku C#

Programowe przetwarzanie plików PDF ma kluczowe znaczenie w branżach takich jak finanse, opieka zdrowotna, prawo i edukacja, gdzie krytyczne informacje muszą być przetwarzane, analizowane i wyodrębniane z dokumentów PDF do celów takich jak analiza danych, zarządzanie dokumentami i automatyzacja. Pomimo swojego znaczenia zadanie to może stanowić wyzwanie.

IronPDF: biblioteka PDF dla języka C

IronPDF pozwala z łatwością radzić sobie z niezwykle trudnymi zadaniami. Umożliwia łatwą edycję tekstu w dokumencie PDF, podobnie jak w przypadku pracy z plikami tekstowymi w edytorze tekstu, a jednocześnie pozwala na eksportowanie plików w dowolnym systemie operacyjnym. Aplikacja IronPDF obejmuje cały proces przeglądania, modyfikowania i wyodrębniania treści z plików PDF.

Zrób właściwy krok z IronPDF

Tekst można szybko i łatwo odczytywać oraz zapisywać w formacie PDF na dowolnym komputerze wyposażonym w oprogramowanie IronPDF. Instalacja jest prostym zadaniem. To najlepszy sposób, aby nauczyć się odczytywać pliki PDF w języku C#. Możesz również pobrać IronPDF bezpłatnie do celów programistycznych. Jeśli zapoznasz się z IronPDF, zauważysz, że biblioteka zapewnia rozbudowaną funkcjonalność, która znacznie ułatwia korzystanie z plików PDF. W wolnym czasie zapoznaj się z klasami! Dostępnych jest kilka przykładów w języku C# wykorzystujących HTML do tworzenia plików PDF, dzięki którym można nauczyć się, jak uzyskać optymalny wynik podczas odczytywania plików PDF.

Otwieranie plików PDF za pomocą IronPDF

Krok 1: Zainstaluj pakiet IronPDF

Na początek musisz zainstalować pakiet IronPDF NuGet w swoim projekcie .NET. Można to zrobić, otwierając konsolę menedżera pakietów w Visual Studio i wpisując następujące polecenie:

Install-Package IronPdf

Krok 2: Zaimportuj bibliotekę IronPDF

Następnie należy zaimportować bibliotekę IronPDF do kodu, dodając następującą instrukcję na początku pliku:

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

Krok 3: Załaduj dokument PDF

Po zaimportowaniu biblioteki IronPDF można załadować dokument PDF do kodu, używając następującego kodu:

// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");

// Define the output path for the saved PDF
var outputPath = "Example.pdf";

// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);
// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");

// Define the output path for the saved PDF
var outputPath = "Example.pdf";

// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);
' Load the PDF document from file path
Dim pdf As PdfDocument = PdfDocument.FromFile("C:\dotnet.pdf")

' Define the output path for the saved PDF
Dim outputPath = "Example.pdf"

' Save the PDF document to the specified output path
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

Krok 4: Wyodrębnij tekst z pliku PDF

IronPDF oferuje szereg metod wyodrębniania tekstu z istniejącego pliku PDF. Na przykład można rozpocząć wyodrębnianie tekstu z pliku PDF i wyświetlić go w konsoli, korzystając z poniższego fragmentu kodu:

// Extract text from the loaded PDF document
string text = pdf.ExtractText();

// Print the extracted text to the console
Console.WriteLine(text);
// Extract text from the loaded PDF document
string text = pdf.ExtractText();

// Print the extracted text to the console
Console.WriteLine(text);
' Extract text from the loaded PDF document
Dim text As String = pdf.ExtractText()

' Print the extracted text to the console
Console.WriteLine(text)
$vbLabelText   $csharpLabel

Korzystając z powyższego kodu, można wyodrębnić tekst z pliku PDF.

Jak odczytywać pliki PDF w języku C#, rysunek 1: Wyodrębnianie tekstu z pliku PDF przy użyciu IronPDF Pobieranie tekstu z pliku PDF za pomocą IronPDF

Krok 5: Rasteryzacja pliku PDF do obrazów

Zrasteryzujmy plik PDF do obrazów za pomocą IronPDF. Najpierw zaimportuj wymagane biblioteki:

using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
Imports System.Linq
Imports IronPdf
Imports IronSoftware.Drawing
$vbLabelText   $csharpLabel

Następnie kod wykorzystuje metodę RasterizeToImageFiles do wyodrębnienia wszystkich stron dokumentu PDF do folderu w postaci plików graficznych. Wyodrębnione obrazy można zapisać jako pliki PNG lub JPG, a także można określić ich wymiary i zakres stron.

// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
' Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles("C:\image\folder\*.png")

' Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles("C:\image\folder\example_pdf_image_*.jpg", 100, 80)
$vbLabelText   $csharpLabel

Wreszcie, kod wykorzystuje metodę ToBitmap do wyodrębnienia wszystkich stron dokumentu PDF jako obiektów AnyBitmap, które mogą być dalej przetwarzane i modyfikowane w ramach kodu.

// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();
// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();
' Extract all pages as AnyBitmap objects for further processing
Dim pdfBitmaps() As AnyBitmap = pdf.ToBitmap()
$vbLabelText   $csharpLabel

Powyższy kod pokazuje, jak wyodrębnić zawartość pliku PDF za pomocą IronPDF i zapisać wyodrębnione dane jako pliki graficzne lub obiekty AnyBitmap do dalszego przetwarzania.

Krok 7: Manipulowanie stronami PDF

Dowiedzmy się, jak manipulować stronami dokumentu PDF, korzystając z IronPDF.

Kod najpierw usuwa strony drugą i trzecią z dokumentu PDF przy użyciu metody RemovePages:

// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);
// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);
' Remove pages two and three from the PDF document
pdf.RemovePages(1, 2)
$vbLabelText   $csharpLabel

Metoda RemovePages przyjmuje dwa argumenty: stronę początkową do usunięcia (w tym przypadku stronę 2, reprezentowaną jako 1, ponieważ numeracja stron zaczyna się od 0) oraz liczbę stron do usunięcia (w tym przypadku 2 strony).

Krok 6: Zapisz plik PDF

Na koniec możesz zapisać plik PDF w swoim systemie lokalnym, korzystając z metody SaveAs. Kod służący do zapisania pliku PDF wygląda następująco:

// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);
// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);
' Save the PDF document to a specified output path
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

Zgodność z IronPDF

IronPDF jest w pełni kompatybilny ze wszystkimi najnowszymi wersjami .NET Framework, w tym .NET Framework 7. Obsługuje również .NET Blazor i .NET MAUI, które są najnowszymi rozwiązaniami firmy Microsoft przeznaczonymi do tworzenia stron internetowych. Kompatybilność biblioteki z tymi frameworkami umożliwia programistom płynną integrację IronPDF z ich aplikacjami i korzystanie z jego zaawansowanych funkcji.

Jedną z głównych cech IronPDF jest możliwość odczytu plików PDF w środowiskach .NET Blazor i .NET MAUI. Ta funkcja umożliwia programistom szybkie i łatwe odczytywanie oraz wyodrębnianie danych z plików PDF i wykorzystywanie ich w aplikacjach .NET. Ta funkcja może być szczególnie pomocna podczas pracy z dużymi ilościami danych. Programiści nie potrzebują żadnej innej biblioteki, aby korzystać z IronPDF w swoim projekcie .NET.

Więcej informacji na temat współpracy IronPDF z .NET Blazor można znaleźć w tym samouczku, a informacje na temat integracji IronPDF z .NET MAUI na stronie internetowej IronPDF.

Wnioski

Podsumowując, programowe odczytywanie plików PDF ma kluczowe znaczenie w różnych branżach. IronPDF zapewnia kompleksowe rozwiązanie do realizacji tego zadania, oferując rozbudowaną funkcjonalność do odczytu, modyfikacji i wyodrębniania treści z plików PDF. IronPDF jest łatwy w instalacji i obsłudze, a wystarczy wykonać zaledwie kilka prostych kroków.

Biblioteka oferuje metody do wyodrębniania tekstu z dokumentów PDF, rasteryzacji pliku PDF do obrazu, manipulowania stronami oraz zapisywania plików PDF. Niezależnie od tego, czy dopiero zaczynasz przygodę z programowym przetwarzaniem plików PDF, czy jesteś doświadczonym programistą, IronPDF to idealne narzędzie, które pozwoli Ci przenieść swoje umiejętności na wyższy poziom.

Jeśli szukasz niezawodnego i wydajnego rozwiązania do odczytu plików PDF w języku C#, warto zapoznać się z IronPDF, zwłaszcza z opcjami licencji i informacjami o cenach oraz dostępną bezpłatną wersją próbną. Więcej planów oferowanych przez IronPDF można zobaczyć na poniższym obrazku. Możesz wybrać pakiet, który odpowiada Twoim potrzebom.

Jak odczytywać pliki PDF w języku C#, rysunek 2: Ceny licencji IronPDF Ceny licencji IronPDF

Często Zadawane Pytania

Jak odczytać pliki PDF w języku C#?

Aby korzystać z IronPDF, należy najpierw zainstalować go za pomocą menedżera pakietów NuGet w projekcie .NET. Następnie należy zaimportować bibliotekę i używać jej do ładowania i odczytywania dokumentów PDF, wyodrębniania tekstu i wyświetlania go w konsoli.

Które branże czerpią korzyści z programowego przetwarzania plików PDF?

Branże takie jak finanse, opieka zdrowotna, prawo i edukacja odnoszą znaczne korzyści z programowego przetwarzania plików PDF, ponieważ umożliwia ono wydajną analizę danych, zarządzanie dokumentami oraz automatyzację zadań przy użyciu narzędzi takich jak IronPDF.

Jak wyodrębnić dane z dokumentu PDF przy użyciu języka C#?

Korzystając z IronPDF, można wyodrębnić dane z dokumentu PDF, ładując plik PDF i wykorzystując metody takie jak ExtractText do programowego odczytu i przetwarzania treści.

Czy mogę konwertować pliki PDF na obrazy w języku C#?

Tak, dzięki IronPDF można konwertować pliki PDF na obrazy za pomocą metody RasterizeToImageFiles, co pozwala zapisywać strony jako pliki graficzne w formatach takich jak PNG lub JPG.

Czy IronPDF jest kompatybilny z najnowszymi frameworkami .NET Framework?

IronPDF jest kompatybilny ze wszystkimi najnowszymi frameworkami .NET, w tym .NET 7. Obsługuje również .NET Blazor i .NET MAUI, umożliwiając integrację z różnymi typami aplikacji.

Jak mogę modyfikować i zapisywać pliki PDF za pomocą języka C#?

Po wprowadzeniu zmian w pliku PDF za pomocą IronPDF można zapisać zmiany, korzystając z metody SaveAs i określając ścieżkę wyjściową dla zmodyfikowanego dokumentu.

Jakie kroki należy wykonać, aby użyć biblioteki PDF w projekcie .NET?

Aby używać IronPDF w projekcie .NET, zainstaluj bibliotekę za pomocą NuGet, zaimportuj ją do swojego projektu, a następnie korzystaj z jej funkcji do programowego ładowania, odczytywania i manipulowania dokumentami PDF.

Czy IronPDF wymaga innych bibliotek do przetwarzania plików PDF w środowisku .NET?

Nie, IronPDF jest samodzielną biblioteką, która nie wymaga dodatkowych bibliotek, co ułatwia jej integrację z projektem .NET w celu kompleksowego przetwarzania plików PDF.

Jakie są kluczowe funkcje IronPDF do przetwarzania plików PDF?

IronPDF oferuje takie funkcje, jak wyodrębnianie tekstu, rasteryzacja plików PDF do obrazów, manipulacja stronami oraz kompatybilność z najnowszymi .NET Frameworkami, co czyni go potężnym narzędziem do obsługi plików PDF w języku C#.

Czy IronPDF jest w pełni kompatybilny z .NET 10?

Tak, IronPDF obsługuje .NET 10 (wraz z poprzednimi wersjami, takimi jak .NET 9, 8, 7, 6) od razu po instalacji. Możesz tworzyć aplikacje przy użyciu IronPDF w .NET 10 bez konieczności specjalnej konfiguracji lub stosowania obejść.

Curtis Chau
Autor tekstów technicznych

Curtis Chau posiada tytuł licencjata z informatyki (Uniwersytet Carleton) i specjalizuje się w front-endowym rozwoju, z ekspertką w Node.js, TypeScript, JavaScript i React. Pasjonuje się tworzeniem intuicyjnych i estetycznie przyjemnych interfejsów użytkownika, Curtis cieszy się pracą z nowoczesnymi frameworkami i tworzeniem dobrze zorganizowanych, atrakcyjnych wizualnie podrę...

Czytaj więcej

Zespol wsparcia Iron

Jestesmy online 24 godziny, 5 dni w tygodniu.
Czat
Email
Zadzwon do mnie