Przejdź do treści stopki
KORZYSTANIE Z IRONPDF
C# Wyodrębnianie tekstu z pliku PDF

C# Konwertuj PDF na tekst (Samouczek z przykładem kodu)

W tym artykule opisano proces konwersji plików PDF do formatu TXT przez programistów .NET w celu uzyskania bardziej efektywnego dostępu.

Tematy poruszane w samouczku

  • IronPDF
  • Kroki tworzenia plików PDF programowo
  • Krok 1: Utwórz projekt w języku C#
  • Krok 2: Zainstaluj bibliotekę IronPDF
    • Metoda 1: Menedżer pakietów NuGet
    • Metoda 2: Konsola menedżera pakietów NuGet
    • Metoda 3: Korzystanie z pliku DLL
  • Krok 3: Dodaj przestrzeń nazw IronPDF
  • Krok 4: Konwersja pliku PDF na tekst
    • Wynik
  • Wnioski

IronPDF

IronPDF to biblioteka .NET do generowania plików PDF. Jest to natywna biblioteka .NET i nie opiera się na zewnętrznych bibliotekach DLL ani innych narzędziach. IronPDF to wieloplatformowa biblioteka napisana w języku C# i .NET, która oferuje wszystkie funkcje niezbędne do pracy z dokumentami PDF. Obejmuje renderowanie dokumentów, edycję formularzy, ekstrakcję tekstu, szyfrowanie plików oraz inne funkcje. Wszystkie te operacje można wykonać za pomocą intuicyjnego interfejsu API, który został dokładnie przetestowany na różnych platformach, takich jak Windows Forms, WPF, ASP.NET MVC itp.

Aktualna wersja IronPDF zapewnia łatwy dostęp do tych funkcji:

Dostęp tylko do odczytu do elementów wewnętrznych dokumentu (podgląd, nawigacja, adnotacje):

Dostęp do metadanych i właściwości dokumentu (tytuł, słowa kluczowe, autor, temat):

IronPDF zawiera również dodatkowe klasy pomocnicze, które ułatwiają konwersję dokumentów HTML na w pełni sformatowane pliki PDF z możliwością wyodrębniania tekstu. IronPDF udostępnia bardzo proste interfejsy API do konwersji plików PDF na pliki tekstowe.

Zacznijmy od tego, jak używać biblioteki IronPDF do konwersji dokumentu PDF na plik tekstowy.

Kroki konwersji dokumentu PDF na plik tekstowy

Pierwszym krokiem jest utworzenie projektu C# w programie Visual Studio. Możesz wybrać dowolny szablon aplikacji C# zgodnie ze swoimi potrzebami. Dla uproszczenia w tym samouczku zostanie użyty szablon aplikacji konsolowej. Możesz użyć istniejącego projektu C# do konwersji plików PDF na pliki TXT.

Krok 1: Utwórz projekt w języku C

Utwórz projekt C# w Visual Studio lub otwórz istniejący projekt. Aby zapewnić płynną pracę, zalecana jest najnowsza wersja programu Visual Studio. Wykonaj podane kroki, aby utworzyć projekt C# w Visual Studio.

  1. Otwórz program Visual Studio.
  2. Wybierz szablon aplikacji konsolowej C# lub otwórz istniejący projekt.
  3. Nadaj projektowi odpowiednią nazwę.
  4. Wybierz wersję .NET Framework 6.0. Jest to najnowsza i najbardziej stabilna wersja platformy .NET, ale możesz wybrać dowolną inną wersję .NET Framework w zależności od swoich potrzeb.

Krok 2: Zainstaluj bibliotekę IronPDF

IronPDF charakteryzuje się również łatwym procesem instalacji, co przyspiesza czas tworzenia oprogramowania, a także zmniejsza ryzyko nieporozumień. Biblioteka IronPDF oferuje wiele sposobów instalacji:

  • Korzystanie z menedżera pakietów NuGet
  • Korzystanie z konsoli menedżera pakietów NuGet
  • Autor: DLL File

Metoda 1: Menedżer pakietów NuGet

Aby skorzystać z menedżera pakietów NuGet, wykonaj podane kroki, aby otworzyć kartę menedżera pakietów.

Otwórz projekt C# i kliknij Narzędzia > Menedżer pakietów NuGet > Zarządzaj pakietami NuGet dla rozwiązania.

C# Konwersja pliku PDF na tekst (przykład kodu), rysunek 0: Przejdź do menedżera pakietów NuGet Przejdź do menedżera pakietów NuGet

  • Teraz przejdź do zakładki Przeglądaj i wyszukaj IronPDF.
  • Wybierz IronPDF z wyników wyszukiwania i kliknij Zainstaluj. Spowoduje to zainstalowanie biblioteki IronPDF, umożliwiającej korzystanie z projektu z biblioteką IronPDF.

C# Konwersja pliku PDF na tekst (przykład kodu), rysunek 1: Pakiet IronPDF z wyników wyszukiwania menedżera pakietów NuGet Pakiet IronPDF z wyników wyszukiwania menedżera pakietów NuGet

Metoda 2: Konsola menedżera pakietów NuGet

Najłatwiejszym sposobem jest instalacja biblioteki IronPDF za pomocą konsoli menedżera pakietów. Postępuj zgodnie z poniższymi prostymi wskazówkami:

  • Otwórz konsolę menedżera pakietów.
  • Wpisz poniższy wiersz w konsoli i naciśnij Enter. Spowoduje to natychmiastową instalację biblioteki IronPDF.
Install-Package IronPdf

C# Konwersja pliku PDF na tekst (przykład kodu), rysunek 2: Postęp instalacji pokazany w interfejsie użytkownika konsoli NuGet Package Manager Postęp instalacji pokazany w interfejsie użytkownika konsoli NuGet Package Manager

Metoda 3: Korzystanie z pliku DLL

Plik DLL IronPDF można pobrać ze strony internetowej Iron Software. Po zakończeniu pobierania należy wykorzystać go w swoim projekcie jako punkt odniesienia.

Więcej szczegółowych informacji na temat instalacji znajdziesz w instrukcji instalacji IronPDF.

Instalacja biblioteki IronPDF została zakończona. Poniższe kroki pomogą Ci przekonwertować plik PDF na plik tekstowy.

Krok 3: Dodaj przestrzeń nazw IronPDF

Aby korzystać z IronPDF, konieczne jest dodanie przestrzeni nazw IronPDF do każdego pliku kodu. Na początku każdego powiązanego pliku kodu należy wpisać poniższy wiersz kodu. Umożliwi to korzystanie z funkcji IronPDF w programie.

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

Krok 4: Konwersja dokumentu PDF na plik tekstowy

Teraz musimy przekonwertować plik PDF na plik TXT lub wyodrębnić tylko tekst. Wpisz więc poniższy przykładowy kod do swojego pliku:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
Imports IronPdf
Imports System

Friend Class Program
	Shared Sub Main()
		' Extracting image and text content from PDF Document

		' Open a 128-bit encrypted PDF
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Get all text to put in a search index
			Dim allText As String = pdf.ExtractAllText()
	
			' Display the extracted text in the console
			Console.WriteLine(allText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Najpierw otwórz dokument PDF za pomocą FromFile function z PdfDocument class. W parametrach należy podać nazwę pliku i hasło (jeśli istnieje). Następnie użyj ExtractAllText function, aby wyodrębnić cały tekst z pliku PDF i zapisać go w zmiennej o nazwie allText. Następnie wyświetl tekst wyjściowy w konsoli.

Wynik

C# Konwersja pliku PDF na tekst (przykład kodu), rysunek 3: Tekst wyodrębniony z dokumentu PDF Tekst wyodrębniony z dokumentu PDF

Oto tekst wyjściowy wyodrębniony przez IronPDF. Jest to ten sam tekst, co w pliku PDF, co pokazuje, że dokładność IronPDF jest bardzo wysoka.

Wnioski

W tym artykule pokazano, jak w prosty sposób wyodrębnić tekst z plików PDF przy użyciu biblioteki IronPDF .NET PDF. Osiągnięto to, pisząc zaledwie kilka linii kodu i zachowując wysoki poziom dokładności. Ponadto IronPDF oferuje wiele przydatnych funkcji, takich jak konwersja HTML do PDF, narzędzia do formatowania plików PDF oraz liczne inne podstawowe funkcje niezbędne do edycji plików PDF. IronPDF eliminuje również zależność od programu Adobe Acrobat.

IronPDF jest bezpłatny do celów programistycznych i oferuje również bezpłatną wersję próbną do testów produkcyjnych. IronPDF oferuje różne plany cenowe, które można dostosować do swoich potrzeb. Cena IronPDF jest stosunkowo znacznie niższa niż u konkurencji. Biorąc pod uwagę zróżnicowanie cenowe, od klientów indywidualnych po duże firmy, okazuje się to atrakcyjnym zakupem o imponującej wydajności.

C# Konwersja pliku PDF na tekst (przykład kodu), rysunek 4: Plany cenowe Iron Suite Plany cenowe Suite Iron Software

Ponadto firma Iron Software oferuje Suite pięciu produktów Iron Software w cenie zaledwie dwóch. Więcej informacji można znaleźć w szczegółach licencji Iron Software.

Często Zadawane Pytania

Jak przekonwertować dokument PDF na tekst w aplikacji napisanej w języku C#?

Możesz użyć IronPDF do konwersji dokumentu PDF na tekst w aplikacji C#, korzystając z metody PdfDocument.FromFile do załadowania pliku PDF, a następnie wywołując metodę ExtractAllText w celu pobrania treści tekstowej.

Jak wygląda proces konfiguracji IronPDF w projekcie Visual Studio C#?

Aby skonfigurować IronPDF w projekcie Visual Studio C#, należy utworzyć nowy projekt, zainstalować IronPDF za pomocą menedżera pakietów NuGet, konsoli menedżera pakietów lub poprzez ręczne dodanie biblioteki DLL, a następnie dołączyć przestrzeń nazw IronPDF do plików kodu.

Czy IronPDF obsługuje zaszyfrowane pliki PDF?

Tak, IronPDF może otwierać i przetwarzać zaszyfrowane pliki PDF, umożliwiając wyodrębnianie z nich treści tekstowych.

Jakie są zalety konwersji plików PDF do formatu TXT?

Konwersja plików PDF do formatu TXT za pomocą IronPDF zapewnia lepszą dostępność i łatwiejszą obsługę danych tekstowych, co jest korzystne w przypadku aplikacji wymagających przetwarzania lub wyszukiwania tekstu.

W jaki sposób IronPDF zapewnia dokładność podczas wyodrębniania tekstu z plików PDF?

IronPDF zapewnia wysoką dokładność ekstrakcji tekstu poprzez zachowanie integralności tekstu w postaci, w jakiej pojawia się on w pliku PDF, zapewniając niezawodny wynik do dalszego przetwarzania.

Czy dostępna jest bezpłatna wersja próbna biblioteki IronPDF?

Tak, IronPDF oferuje bezpłatną wersję próbną do celów programistycznych i testowych, umożliwiającą ocenę funkcji i możliwości przed dokonaniem zakupu.

Co sprawia, że IronPDF jest odpowiednim wyborem do tworzenia oprogramowania wieloplatformowego?

IronPDF jest napisany w języku C# i .NET, co czyni go odpowiednim wyborem do tworzenia oprogramowania wieloplatformowego bez konieczności stosowania dodatkowych narzędzi zewnętrznych.

Czy IronPDF może być używany do innych celów niż wyodrębnianie tekstu?

Tak, IronPDF oferuje szereg funkcji wykraczających poza wyodrębnianie tekstu, w tym generowanie plików PDF, szyfrowanie dokumentów, obsługę formularzy oraz konwersję HTML do PDF.

W jakim stopniu IronPDF obsługuje .NET 10 w zakresie konwersji plików PDF na tekst?

IronPDF jest w pełni kompatybilny z .NET 10, obsługując go od razu bez specjalnej konfiguracji. Korzystając z IronPDF w .NET 10 do konwersji plików PDF na tekst, zyskujesz dzięki poprawie wydajności, takiej jak zmniejszone przydziały pamięci i ulepszenia w środowisku uruchomieniowym, które prowadzą do szybszego wyodrębniania danych i mniejszego zużycia pamięci.

Jakie platformy i typy projektów są obsługiwane podczas korzystania z IronPDF w środowisku .NET 10?

IronPDF for .NET 10 obsługuje szeroką gamę platform, w tym Windows (10+, Server), macOS, Linux oraz środowiska kontenerowe. Współpracuje z typami projektów, takimi jak Console, Desktop (WPF, MAUI), Web (MVC, Blazor), oraz obsługuje języki takie jak C#, F# i VB.NET.

Curtis Chau
Autor tekstów technicznych

Curtis Chau posiada tytuł licencjata z informatyki (Uniwersytet Carleton) i specjalizuje się w front-endowym rozwoju, z ekspertką w Node.js, TypeScript, JavaScript i React. Pasjonuje się tworzeniem intuicyjnych i estetycznie przyjemnych interfejsów użytkownika, Curtis cieszy się pracą z nowoczesnymi frameworkami i tworzeniem dobrze zorganizowanych, atrakcyjnych wizualnie podrę...

Czytaj więcej

Zespol wsparcia Iron

Jestesmy online 24 godziny, 5 dni w tygodniu.
Czat
Email
Zadzwon do mnie