Odczytywanie plików PDF w języku C#
Metoda PdfDocument.ExtractAllText z biblioteki IronPDF C# PDF doskonale nadaje się do standardowych zadań odczytu tekstu z plików PDF. Metoda ta bez problemu radzi sobie z rozbieżnościami w zakresie spacji i kodowania w źródłowych dokumentach PDF.
PdfDocument.ExtractTextFromPage odczytuje tekst z określonych stron pliku PDF. W poniższym przykładzie widzimy, jak jest on używany iteracyjnie do pobierania treści tekstowych z określonego zakresu stron.
IronPDF może również wyodrębniać surowe obrazy z plików PDF. W tym celu należy użyć jednej z metod z klasy PdfDocument poniżej:
ExtractAllImages: zwraca wszystkie obrazy osadzone w pliku PDF jako obiektyIronSoftware.Drawing.AnyBitmap.ExtractAllRawImages: pobiera wszystkie osadzone obrazy jako listę surowych bajtów (byte[]).ExtractImagesFromPage: wyodrębnia obrazy zawarte na indeksowanej stronie.ExtractImagesFromPages: tak samo jakExtractImagesFromPage, ale z określonego zakresu stron lub listy poszczególnych stron.ExtractRawImagesFromPageiExtractRawImagesFromPages: działają tak samo jak dwie poprzednie metody, ale zwracają wyodrębnione obrazy jako tablice bajtów zamiast obiektówIronSoftware.Drawing.AnyBitmap.
Jak odczytywać pliki PDF w języku C#
- Pobierz bibliotekę IronPDF dla języka C#
- Wyodrębnianie obrazów lub tekstu z plików PDF
- Czytanie i wyszukiwanie słów w określonych dokumentach
- Wyświetl plik PDF wygenerowany na podstawie oryginalnego dokumentu

