Odczytywanie plików PDF w języku C#

Wyodrębnianie tekstu i obrazów może ułatwić migrację danych podczas przechodzenia z jednego formatu dokumentu na inny. Wyodrębniona zawartość może być zachowana w bardziej dostępnym i edytowalnym formacie, co zmniejsza ryzyko utraty danych.

Osadzone obrazy i tekst mogą być wyodrębniane niezależnie od dokumentu PDF. Wyodrębniony tekst będzie w formie normalnego ciągu znaków, podczas gdy wyodrębnione obrazy będą w formacie bufora obrazów i mogą zostać wyeksportowane lub dalej przetwarzane.

Użyj metody extractText, aby wyodrębniać tekst, oraz metody extractRawImages, aby wyodrębniać obrazy z dokumentu PDF.

Oto poprawiony i skomentowany przykład, jak można to zrobić:

W powyższym kodzie C#:

  • Używamy biblioteki IronPDF, aby załadować dokument PDF.
  • Wywoływana jest metoda ExtractText(), aby uzyskać tekst z PDF. Ten tekst jest wyprowadzany do konsoli.
  • Metoda ExtractImages() jest używana do wyodrębniania obrazów, które są przechowywane w tablicach bajtów. Każdy obraz jest następnie zapisywany w systemie plików z określoną nazwą pliku.

Aby uzyskać bardziej szczegółowe instrukcje dotyczące korzystania z tych metod, odwiedź Dokumentację IronPDF.

Poznaj więcej na temat odczytywania tekstu PDF za pomocą IronPDF

Gotowy, aby rozpocząć?
Wersja: 2026.4 just released
Still Scrolling Icon

Wciąż przewijasz?

Czy chcesz szybko dowodu?
Uruchom przykład i zobacz, jak Twój kod HTML zamienia się w plik PDF.