Wyciągnij tekst z PDF
W ramach obszernej kolekcji funkcji tworzenia i edycji plików PDF, IronPDF ułatwia również szczegółowe przetwarzanie treści dokumentów PDF dzięki metodom ekstrakcji treści.
Dostępna na wszystkich obiektach PdfDocument jest metoda extractAllText. String zwracane przez extractAllText zawiera cały tekst umieszczony na każdej stronie w PDF.
Ta metoda stanowi wygodny sposób na ekstrakcję tekstu na poziomie dokumentu z plików PDF zawierających wiele stron. Aby wyodrębnić tekst na poziomie strony (tj. tylko z określonego zestawu stron), zamiast tego użyj metody extractTextFromPage.
Poniższy krótki fragment kodu pobiera tekst z pierwszej strony dokumentu PDF.
Jak wyodrębnić tekst z pliku PDF w Javie
- Zainstaluj bibliotekę IronPDF for Java do wyodrębniania tekstu z plików PDF
- Importuj docelowy dokument PDF lub renderuj z adresu URL w Javie
- Użyj metody
extractAllText,aby wyodrębnić tekst z pliku PDF - Użyj metody
extractTextFromPage,aby przeprowadzić ekstrakcję na konkretnej stronie - Wyodrębnij tekst bez wpływu na oryginalny plik PDF


