Przejdź do treści stopki
KORZYSTANIE Z IRONPDF FOR JAVA

Jak odczytać plik PDF w Javie

W tym artykule omówimy, jak stworzyć czytnik plików PDF, aby programowo otwierać pliki PDF w aplikacji. Aby skutecznie wykonać to zadanie, IronPDF for Java jest jedną z takich bibliotek systemowych, która pomaga otwierać i odczytywać pliki PDF przy użyciu nazwy pliku w programach Java.

IronPDF

Biblioteka IronPDF - Java została zbudowana w oparciu o sprawdzoną platformę .NET Framework. To sprawia, że IronPDF jest wszechstronnym narzędziem do pracy z dokumentami PDF w porównaniu z innymi bibliotekami klasy, takimi jak Apache PDFBox. Zapewnia możliwość wyodrębniania i analizowania treści, ładowania tekstu oraz ładowania obrazów. Oferuje również opcje dostosowywania stron PDF, takie jak układ strony, marginesy, nagłówki i stopki, orientacja strony i wiele innych.

Oprócz tego IronPDF obsługuje również konwersję z innych formatów plików, zabezpieczanie plików PDF hasłem, podpisywanie cyfrowe, łączenie i dzielenie dokumentów PDF.

Jak odczytywać pliki PDF w Javie

Wymagania wstępne

Aby użyć IronPDF do stworzenia czytnika PDF w Javie, należy upewnić się, że na komputerze zainstalowane są następujące komponenty:

  1. JDK – Java Development Kit jest wymagany do tworzenia i uruchamiania programów w języku Java. Jeśli nie jest zainstalowany, pobierz go ze strony internetowej Oracle.
  2. IDE – zintegrowane środowisko programistyczne to oprogramowanie, które pomaga pisać, edytować i debugować programy. Pobierz dowolne środowisko IDE dla języka Java, np. Eclipse, NetBeans, IntelliJ.
  3. Maven — Maven to narzędzie do automatyzacji, które pomaga pobierać biblioteki z Central Repository. Pobierz go ze strony Maven.
  4. IronPDF – Na koniec, IronPDF jest potrzebny do odczytu pliku PDF w Javie. Należy to dodać jako zależność w projekcie Java Maven. Dodaj artefakt IronPDF wraz z zależnością slf4j do pliku pom.xml, tak jak pokazano w poniższym przykładzie:

<dependencies>

    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>

<dependencies>

    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>
XML

Dodawanie niezbędnych importów

Najpierw dodaj poniższy kod na początku pliku źródłowego Java, aby odwołać się do wszystkich wymaganych metod z biblioteki IronPDF:

import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
JAVA

Następnie skonfiguruj IronPDF przy użyciu ważnego klucza licencyjnego, aby móc korzystać z jego metod. Wywołaj metodę setLicenseKey w metodzie main.

License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
JAVA

Uwaga: Możesz uzyskać bezplatną licencję probną, aby tworzyć, czytać i drukować pliki PDF.

Odczytanie istniejącego pliku PDF w Javie

Aby odczytać pliki PDF, muszą one istnieć lub można je utworzyć. W tym artykule wykorzystamy już utworzony plik PDF. Kod jest prosty i składa się z dwóch kroków służących do wyodrębnienia tekstu z dokumentu:

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
JAVA

W powyższym kodzie fromFile otwiera dokument PDF. Metoda Paths.get pobiera katalog pliku i jest gotowa do wyodrębnienia zawartości z pliku. Następnie [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) odczytuje cały tekst w dokumencie.

Poniżej znajduje się wynik:

Jak odczytać plik PDF w Javie, rysunek 1: Odczyt tekstu z pliku PDF Odczytywanie tekstu z plików PDF

Odczyt tekstu z określonej strony

IronPDF może również odczytywać treść z określonej strony w pliku PDF. Metoda extractTextFromPage wykorzystuje obiekt PageSelection do akceptowania zakresu stron, z których zostanie odczytany tekst.

W poniższym przykładzie tekst pochodzi z drugiej strony dokumentu PDF. PageSelection.singlePage pobiera indeks strony, która ma zostać wyodrębniona (indeks zaczyna się od 0).

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
JAVA

Jak odczytać plik PDF w Javie, rysunek 2: Odczyt tekstu z pliku PDF Odczytywanie tekstu z plików PDF

Inne metody dostępne w klasie PageSelection, które można wykorzystać do wyodrębniania tekstu z różnych stron, to: [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), pageRange oraz [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

Odczyt tekstu z nowo wygenerowanego pliku PDF

Wyszukiwanie tekstu można również przeprowadzić na podstawie nowo wygenerowanego pliku PDF, utworzonego na podstawie pliku HTML lub adresu URL. Poniższy przykładowy kod generuje pliki PDF na podstawie adresu URL i wyodrębnia cały tekst ze strony internetowej.

// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
JAVA

Jak odczytać plik PDF w Javie, rysunek 3: Odczyt z nowego pliku Wczytaj z nowego pliku

IronPDF może być również używany do wyodrębniania obrazów z plików PDF.

Pełny kod wygląda następująco:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
JAVA

Podsumowanie

W tym artykule wyjaśniono, jak otwierać i odczytywać pliki PDF w Javie przy użyciu IronPDF.

IronPDF pomaga w łatwym tworzeniu plików PDF z HTML lub adresów URL oraz konwertowaniu z różnych formatów plików. Pomaga również w szybkim i łatwym wykonywaniu zadań związanych z plikami PDF.

Wypróbuj IronPDF przez 30 dni w ramach bezpłatnej wersji próbnej i przekonaj się, jak dobrze sprawdza się w praktyce. Zapoznaj się z opcjami licencji komercyjnych dla IronPDF, których ceny zaczynają się już od $799.

Często Zadawane Pytania

Jak stworzyć czytnik plików PDF w Javie?

Możesz stworzyć czytnik PDF w Javie przy użyciu IronPDF, wykorzystując metodę `fromFile` do ładowania dokumentów PDF, a następnie używając metod takich jak `extractAllText` do analizowania i manipulowania treścią.

Jakie kroki należy wykonać, aby zainstalować wymagania wstępne do korzystania z IronPDF w Javie?

Aby korzystać z IronPDF w Javie, należy zainstalować Java Development Kit (JDK), skonfigurować zintegrowane środowisko programistyczne (IDE), takie jak Eclipse lub IntelliJ, skonfigurować Maven do zarządzania zależnościami oraz dołączyć bibliotekę IronPDF do projektu.

Jak wyodrębnić tekst z pliku PDF w Javie?

Aby wyodrębnić tekst z pliku PDF w Javie przy użyciu IronPDF, można użyć metody `extractAllText`, aby pobrać cały tekst dokumentu, lub `extractTextFromPage`, aby wyodrębnić tekst z określonej strony.

Czy w Javie mogę wygenerować plik PDF z adresu URL?

Tak, dzięki IronPDF można wygenerować plik PDF z adresu URL za pomocą metody `renderUrlAsPdf`, która konwertuje treści internetowe do formatu PDF.

Czy IronPDF obsługuje dodawanie ochrony hasłem do plików PDF w Javie?

Tak, IronPDF obsługuje dodawanie ochrony hasłem do plików PDF, a także inne funkcje, takie jak podpisywanie cyfrowe oraz łączenie lub dzielenie dokumentów.

Jakie formaty plików IronPDF może konwertować do formatu PDF w Javie?

IronPDF umożliwia konwersję różnych formatów plików do formatu PDF, w tym HTML i innych formatów dokumentów, zapewniając elastyczne opcje tworzenia i edycji plików PDF.

Czy dostępna jest wersja próbna IronPDF for Java?

Tak, IronPDF oferuje 30-dniową bezpłatną wersję próbną, która pozwala przetestować jego funkcje i ocenić wydajność w aplikacjach Java przed zakupem licencji.

Jak mogę wyodrębnić tekst z określonej strony w dokumencie PDF przy użyciu biblioteki Java?

Korzystając z IronPDF, można wyodrębnić tekst z określonej strony w pliku PDF, stosując metodę `extractTextFromPage`, która wymaga podania numeru strony lub zakresu stron.

Darrius Serrant
Full Stack Software Engineer (WebOps)

Darrius Serrant posiada tytuł licencjata z informatyki z Uniwersytetu Miami i pracuje jako Full Stack WebOps Marketing Engineer w Iron Software. Już od młodych lat zainteresował się kodowaniem, postrzegając informatykę jako zarówno tajemniczą, jak i dostępną, co czyni ją doskonałym medium dla kreatywności ...

Czytaj więcej

Zespol wsparcia Iron

Jestesmy online 24 godziny, 5 dni w tygodniu.
Czat
Email
Zadzwon do mnie