Odczytywanie plików PDF w języku C#

Metoda PdfDocument.ExtractAllText z biblioteki PDF IronPDF w C# jest idealna do zadań związanych z podstawowym odczytywaniem tekstu z PDF. Metoda ta bez problemu radzi sobie z rozbieżnościami w zakresie spacji i kodowania w źródłowych dokumentach PDF.

PdfDocument.ExtractTextFromPage odczytuje tekst z konkretnych stron PDF. W poniższym przykładzie widzimy, jak jest on używany iteracyjnie do pobierania treści tekstowych z określonego zakresu stron.

IronPDF może również wyodrębniać surowe obrazy z plików PDF. Do tego użyj jednej z metod z klasy PdfDocument poniżej:

  • ExtractAllImages: zwraca wszystkie obrazy osadzone w PDF jako obiekty IronSoftware.Drawing.AnyBitmap.
  • ExtractAllRawImages: pobiera wszystkie osadzone obrazy jako listę surowych bajtów (byte[]).
  • ExtractImagesFromPage: wyodrębnia obrazy zawarte na indeksowanej stronie.
  • ExtractImagesFromPages: to samo co ExtractImagesFromPage, ale z określonego zakresu stron lub listy pojedynczych stron.
  • ExtractRawImagesFromPage i ExtractRawImagesFromPages: działa tak samo jak dwie poprzednie metody, ale zwraca wyodrębnione obrazy jako tablice bajtów zamiast obiektów IronSoftware.Drawing.AnyBitmap.

Dowiedz się więcej o metodzie ExtractTextFromPage

Gotowy, aby rozpocząć?
Nuget Pliki do pobrania 18,135,201 | Wersja: 2026.4 just released
Still Scrolling Icon

Wciąż przewijasz?

Czy chcesz szybko dowodu? PM > Install-Package IronPdf
Uruchom przykład i zobacz, jak Twój kod HTML zamienia się w plik PDF.