Odczytywanie plików PDF w języku C#

Metoda PdfDocument.ExtractAllText z biblioteki IronPDF C# PDF doskonale nadaje się do standardowych zadań odczytu tekstu z plików PDF. Metoda ta bez problemu radzi sobie z rozbieżnościami w zakresie spacji i kodowania w źródłowych dokumentach PDF.

PdfDocument.ExtractTextFromPage odczytuje tekst z określonych stron pliku PDF. W poniższym przykładzie widzimy, jak jest on używany iteracyjnie do pobierania treści tekstowych z określonego zakresu stron.

IronPDF może również wyodrębniać surowe obrazy z plików PDF. W tym celu należy użyć jednej z metod z klasy PdfDocument poniżej:

  • ExtractAllImages: zwraca wszystkie obrazy osadzone w pliku PDF jako obiekty IronSoftware.Drawing.AnyBitmap.
  • ExtractAllRawImages: pobiera wszystkie osadzone obrazy jako listę surowych bajtów (byte[]).
  • ExtractImagesFromPage: wyodrębnia obrazy zawarte na indeksowanej stronie.
  • ExtractImagesFromPages: tak samo jak ExtractImagesFromPage, ale z określonego zakresu stron lub listy poszczególnych stron.
  • ExtractRawImagesFromPage i ExtractRawImagesFromPages: działają tak samo jak dwie poprzednie metody, ale zwracają wyodrębnione obrazy jako tablice bajtów zamiast obiektów IronSoftware.Drawing.AnyBitmap.

Learn more about ExtractTextFromPage Method

Gotowy, aby rozpocząć?
Nuget Pliki do pobrania 18,926,724 | Wersja: 2026.5 just released
Still Scrolling Icon

Wciąż przewijasz?

Czy chcesz szybko dowodu? PM > Install-Package IronPdf
Uruchom przykład i zobacz, jak Twój kod HTML zamienia się w plik PDF.