C# Konwertuj PDF na tekst (Samouczek z przykładem kodu)
W tym artykule opisano proces konwersji plików PDF do formatu TXT przez programistów .NET w celu uzyskania bardziej efektywnego dostępu.
Jak przekonwertować plik PDF na plik tekstowy za pomocą języka C#
- Pobierz bibliotekę Convert PDF to Text C#
- Utwórz nowy projekt w Visual Studio
- Zainstaluj bibliotekę w swoim projekcie
- Otwórz dokument PDF za pomocą funkcji PdfDocument.FromFile
- Wyświetl wyodrębniony tekst wyjściowy
Tematy poruszane w samouczku
- IronPDF
- Kroki tworzenia plików PDF programowo
- Krok 1: Utwórz projekt w języku C#
- Krok 2: Zainstaluj bibliotekę IronPDF
- Metoda 1: Menedżer pakietów NuGet
- Metoda 2: Konsola menedżera pakietów NuGet
- Metoda 3: Korzystanie z pliku DLL
- Krok 3: Dodaj przestrzeń nazw IronPDF
- Krok 4: Konwersja pliku PDF na tekst
- Wynik
- Wnioski
IronPDF
IronPDF to biblioteka .NET do generowania plików PDF. Jest to natywna biblioteka .NET i nie opiera się na zewnętrznych bibliotekach DLL ani innych narzędziach. IronPDF to wieloplatformowa biblioteka napisana w języku C# i .NET, która oferuje wszystkie funkcje niezbędne do pracy z dokumentami PDF. Obejmuje renderowanie dokumentów, edycję formularzy, ekstrakcję tekstu, szyfrowanie plików oraz inne funkcje. Wszystkie te operacje można wykonać za pomocą intuicyjnego interfejsu API, który został dokładnie przetestowany na różnych platformach, takich jak Windows Forms, WPF, ASP.NET MVC itp.
Aktualna wersja IronPDF zapewnia łatwy dostęp do tych funkcji:
- Generowanie plików PDF
- Szyfrowanie plików PDF
- Pola formularzy PDF z szablonami i logiką walidacji
- Pobieranie tekstu z plików PDF (OCR)
- Formularze do wypełnienia
Dostęp tylko do odczytu do elementów wewnętrznych dokumentu (podgląd, nawigacja, adnotacje):
Dostęp do metadanych i właściwości dokumentu (tytuł, słowa kluczowe, autor, temat):
IronPDF zawiera również dodatkowe klasy pomocnicze, które ułatwiają konwersję dokumentów HTML na w pełni sformatowane pliki PDF z możliwością wyodrębniania tekstu. IronPDF udostępnia bardzo proste interfejsy API do konwersji plików PDF na pliki tekstowe.
Zacznijmy od tego, jak używać biblioteki IronPDF do konwersji dokumentu PDF na plik tekstowy.
Kroki konwersji dokumentu PDF na plik tekstowy
Pierwszym krokiem jest utworzenie projektu C# w programie Visual Studio. Możesz wybrać dowolny szablon aplikacji C# zgodnie ze swoimi potrzebami. Dla uproszczenia w tym samouczku zostanie użyty szablon aplikacji konsolowej. Możesz użyć istniejącego projektu C# do konwersji plików PDF na pliki TXT.
Krok 1: Utwórz projekt w języku C
Utwórz projekt C# w Visual Studio lub otwórz istniejący projekt. Aby zapewnić płynną pracę, zalecana jest najnowsza wersja programu Visual Studio. Wykonaj podane kroki, aby utworzyć projekt C# w Visual Studio.
- Otwórz program Visual Studio.
- Wybierz szablon aplikacji konsolowej C# lub otwórz istniejący projekt.
- Nadaj projektowi odpowiednią nazwę.
- Wybierz wersję .NET Framework 6.0. Jest to najnowsza i najbardziej stabilna wersja platformy .NET, ale możesz wybrać dowolną inną wersję .NET Framework w zależności od swoich potrzeb.
Krok 2: Zainstaluj bibliotekę IronPDF
IronPDF charakteryzuje się również łatwym procesem instalacji, co przyspiesza czas tworzenia oprogramowania, a także zmniejsza ryzyko nieporozumień. Biblioteka IronPDF oferuje wiele sposobów instalacji:
- Korzystanie z menedżera pakietów NuGet
- Korzystanie z konsoli menedżera pakietów NuGet
- Autor: DLL File
Metoda 1: Menedżer pakietów NuGet
Aby skorzystać z menedżera pakietów NuGet, wykonaj podane kroki, aby otworzyć kartę menedżera pakietów.
Otwórz projekt C# i kliknij Narzędzia > Menedżer pakietów NuGet > Zarządzaj pakietami NuGet dla rozwiązania.
Przejdź do menedżera pakietów NuGet
- Teraz przejdź do zakładki Przeglądaj i wyszukaj IronPDF.
- Wybierz IronPDF z wyników wyszukiwania i kliknij Zainstaluj. Spowoduje to zainstalowanie biblioteki IronPDF, umożliwiającej korzystanie z projektu z biblioteką IronPDF.
Pakiet IronPDF z wyników wyszukiwania menedżera pakietów NuGet
Metoda 2: Konsola menedżera pakietów NuGet
Najłatwiejszym sposobem jest instalacja biblioteki IronPDF za pomocą konsoli menedżera pakietów. Postępuj zgodnie z poniższymi prostymi wskazówkami:
- Otwórz konsolę menedżera pakietów.
- Wpisz poniższy wiersz w konsoli i naciśnij Enter. Spowoduje to natychmiastową instalację biblioteki IronPDF.
Install-Package IronPdf
Postęp instalacji pokazany w interfejsie użytkownika konsoli NuGet Package Manager
Metoda 3: Korzystanie z pliku DLL
Plik DLL IronPDF można pobrać ze strony internetowej Iron Software. Po zakończeniu pobierania należy wykorzystać go w swoim projekcie jako punkt odniesienia.
Więcej szczegółowych informacji na temat instalacji znajdziesz w instrukcji instalacji IronPDF.
Instalacja biblioteki IronPDF została zakończona. Poniższe kroki pomogą Ci przekonwertować plik PDF na plik tekstowy.
Krok 3: Dodaj przestrzeń nazw IronPDF
Aby korzystać z IronPDF, konieczne jest dodanie przestrzeni nazw IronPDF do każdego pliku kodu. Na początku każdego powiązanego pliku kodu należy wpisać poniższy wiersz kodu. Umożliwi to korzystanie z funkcji IronPDF w programie.
using IronPdf;
using IronPdf;
Imports IronPdf
Krok 4: Konwersja dokumentu PDF na plik tekstowy
Teraz musimy przekonwertować plik PDF na plik TXT lub wyodrębnić tylko tekst. Wpisz więc poniższy przykładowy kod do swojego pliku:
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}
Imports IronPdf
Imports System
Friend Class Program
Shared Sub Main()
' Extracting image and text content from PDF Document
' Open a 128-bit encrypted PDF
Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
' Get all text to put in a search index
Dim allText As String = pdf.ExtractAllText()
' Display the extracted text in the console
Console.WriteLine(allText)
End Using
End Sub
End Class
Najpierw otwórz dokument PDF za pomocą FromFile function z PdfDocument class. W parametrach należy podać nazwę pliku i hasło (jeśli istnieje). Następnie użyj ExtractAllText function, aby wyodrębnić cały tekst z pliku PDF i zapisać go w zmiennej o nazwie allText. Następnie wyświetl tekst wyjściowy w konsoli.
Wynik
Tekst wyodrębniony z dokumentu PDF
Oto tekst wyjściowy wyodrębniony przez IronPDF. Jest to ten sam tekst, co w pliku PDF, co pokazuje, że dokładność IronPDF jest bardzo wysoka.
Wnioski
W tym artykule pokazano, jak w prosty sposób wyodrębnić tekst z plików PDF przy użyciu biblioteki IronPDF .NET PDF. Osiągnięto to, pisząc zaledwie kilka linii kodu i zachowując wysoki poziom dokładności. Ponadto IronPDF oferuje wiele przydatnych funkcji, takich jak konwersja HTML do PDF, narzędzia do formatowania plików PDF oraz liczne inne podstawowe funkcje niezbędne do edycji plików PDF. IronPDF eliminuje również zależność od programu Adobe Acrobat.
IronPDF jest bezpłatny do celów programistycznych i oferuje również bezpłatną wersję próbną do testów produkcyjnych. IronPDF oferuje różne plany cenowe, które można dostosować do swoich potrzeb. Cena IronPDF jest stosunkowo znacznie niższa niż u konkurencji. Biorąc pod uwagę zróżnicowanie cenowe, od klientów indywidualnych po duże firmy, okazuje się to atrakcyjnym zakupem o imponującej wydajności.
Plany cenowe Suite Iron Software
Ponadto firma Iron Software oferuje Suite pięciu produktów Iron Software w cenie zaledwie dwóch. Więcej informacji można znaleźć w szczegółach licencji Iron Software.
Często Zadawane Pytania
Jak przekonwertować dokument PDF na tekst w aplikacji napisanej w języku C#?
Możesz użyć IronPDF do konwersji dokumentu PDF na tekst w aplikacji C#, korzystając z metody PdfDocument.FromFile do załadowania pliku PDF, a następnie wywołując metodę ExtractAllText w celu pobrania treści tekstowej.
Jak wygląda proces konfiguracji IronPDF w projekcie Visual Studio C#?
Aby skonfigurować IronPDF w projekcie Visual Studio C#, należy utworzyć nowy projekt, zainstalować IronPDF za pomocą menedżera pakietów NuGet, konsoli menedżera pakietów lub poprzez ręczne dodanie biblioteki DLL, a następnie dołączyć przestrzeń nazw IronPDF do plików kodu.
Czy IronPDF obsługuje zaszyfrowane pliki PDF?
Tak, IronPDF może otwierać i przetwarzać zaszyfrowane pliki PDF, umożliwiając wyodrębnianie z nich treści tekstowych.
Jakie są zalety konwersji plików PDF do formatu TXT?
Konwersja plików PDF do formatu TXT za pomocą IronPDF zapewnia lepszą dostępność i łatwiejszą obsługę danych tekstowych, co jest korzystne w przypadku aplikacji wymagających przetwarzania lub wyszukiwania tekstu.
W jaki sposób IronPDF zapewnia dokładność podczas wyodrębniania tekstu z plików PDF?
IronPDF zapewnia wysoką dokładność ekstrakcji tekstu poprzez zachowanie integralności tekstu w postaci, w jakiej pojawia się on w pliku PDF, zapewniając niezawodny wynik do dalszego przetwarzania.
Czy dostępna jest bezpłatna wersja próbna biblioteki IronPDF?
Tak, IronPDF oferuje bezpłatną wersję próbną do celów programistycznych i testowych, umożliwiającą ocenę funkcji i możliwości przed dokonaniem zakupu.
Co sprawia, że IronPDF jest odpowiednim wyborem do tworzenia oprogramowania wieloplatformowego?
IronPDF jest napisany w języku C# i .NET, co czyni go odpowiednim wyborem do tworzenia oprogramowania wieloplatformowego bez konieczności stosowania dodatkowych narzędzi zewnętrznych.
Czy IronPDF może być używany do innych celów niż wyodrębnianie tekstu?
Tak, IronPDF oferuje szereg funkcji wykraczających poza wyodrębnianie tekstu, w tym generowanie plików PDF, szyfrowanie dokumentów, obsługę formularzy oraz konwersję HTML do PDF.
W jakim stopniu IronPDF obsługuje .NET 10 w zakresie konwersji plików PDF na tekst?
IronPDF jest w pełni kompatybilny z .NET 10, obsługując go od razu bez specjalnej konfiguracji. Korzystając z IronPDF w .NET 10 do konwersji plików PDF na tekst, zyskujesz dzięki poprawie wydajności, takiej jak zmniejszone przydziały pamięci i ulepszenia w środowisku uruchomieniowym, które prowadzą do szybszego wyodrębniania danych i mniejszego zużycia pamięci.
Jakie platformy i typy projektów są obsługiwane podczas korzystania z IronPDF w środowisku .NET 10?
IronPDF for .NET 10 obsługuje szeroką gamę platform, w tym Windows (10+, Server), macOS, Linux oraz środowiska kontenerowe. Współpracuje z typami projektów, takimi jak Console, Desktop (WPF, MAUI), Web (MVC, Blazor), oraz obsługuje języki takie jak C#, F# i VB.NET.




