Odczytywanie plików PDF w języku C#
Metoda PdfDocument.ExtractAllText z biblioteki PDF IronPDF w C# jest idealna do zadań związanych z podstawowym odczytywaniem tekstu z PDF. Metoda ta bez problemu radzi sobie z rozbieżnościami w zakresie spacji i kodowania w źródłowych dokumentach PDF.
PdfDocument.ExtractTextFromPage odczytuje tekst z konkretnych stron PDF. W poniższym przykładzie widzimy, jak jest on używany iteracyjnie do pobierania treści tekstowych z określonego zakresu stron.
IronPDF może również wyodrębniać surowe obrazy z plików PDF. Do tego użyj jednej z metod z klasy PdfDocument poniżej:
ExtractAllImages: zwraca wszystkie obrazy osadzone w PDF jako obiektyIronSoftware.Drawing.AnyBitmap.ExtractAllRawImages: pobiera wszystkie osadzone obrazy jako listę surowych bajtów (byte[]).ExtractImagesFromPage: wyodrębnia obrazy zawarte na indeksowanej stronie.ExtractImagesFromPages: to samo coExtractImagesFromPage, ale z określonego zakresu stron lub listy pojedynczych stron.ExtractRawImagesFromPageiExtractRawImagesFromPages: działa tak samo jak dwie poprzednie metody, ale zwraca wyodrębnione obrazy jako tablice bajtów zamiast obiektówIronSoftware.Drawing.AnyBitmap.
Jak odczytywać pliki PDF w języku C#
- Pobierz bibliotekę IronPDF dla języka C#
- Wyodrębnianie obrazów lub tekstu z plików PDF
- Czytanie i wyszukiwanie słów w określonych dokumentach
- Wyświetl plik PDF wygenerowany na podstawie oryginalnego dokumentu

