Odczytywanie plików PDF w języku C#
Wyodrębnianie tekstu i obrazów może ułatwić migrację danych podczas przechodzenia z jednego formatu dokumentu na inny. Wyodrębniona zawartość może być zachowana w bardziej dostępnym i edytowalnym formacie, co zmniejsza ryzyko utraty danych.
Osadzone obrazy i tekst mogą być wyodrębniane niezależnie od dokumentu PDF. Wyodrębniony tekst będzie w formie normalnego ciągu znaków, podczas gdy wyodrębnione obrazy będą w formacie bufora obrazów i mogą zostać wyeksportowane lub dalej przetwarzane.
Użyj metody extractText, aby wyodrębniać tekst, oraz metody extractRawImages, aby wyodrębniać obrazy z dokumentu PDF.
Oto poprawiony i skomentowany przykład, jak można to zrobić:
W powyższym kodzie C#:
- Używamy biblioteki IronPDF, aby załadować dokument PDF.
- Wywoływana jest metoda
ExtractText(), aby uzyskać tekst z PDF. Ten tekst jest wyprowadzany do konsoli. - Metoda
ExtractImages()jest używana do wyodrębniania obrazów, które są przechowywane w tablicach bajtów. Każdy obraz jest następnie zapisywany w systemie plików z określoną nazwą pliku.
Aby uzyskać bardziej szczegółowe instrukcje dotyczące korzystania z tych metod, odwiedź Dokumentację IronPDF.
Poznaj więcej na temat odczytywania tekstu PDF za pomocą IronPDF




