Ir para o conteúdo do rodapé
USANDO O IRONPDF FOR JAVA

Como ler um arquivo PDF em Java

Este artigo irá explorar como criar um leitor de PDF para abrir um arquivo PDF em seu aplicativo de software de forma programática. Para realizar essa tarefa de forma eficaz, o IronPDF for Java é uma biblioteca de sistema que ajuda a abrir e ler arquivos PDF usando o nome do arquivo em programas Java.

IronPDF

A biblioteca IronPDF - Java é construída sobre a já consagrada .NET Framework. Isso torna o IronPDF uma ferramenta versátil para trabalhar com documentos PDF em comparação com outras bibliotecas de classes, como o Apache PDFBox. Ele oferece a funcionalidade de extrair e analisar conteúdo , carregar texto e carregar imagens. Ele também oferece opções para personalizar as páginas do PDF, como layout da página , margens, cabeçalho e rodapé , orientação da página e muito mais.

Além disso, o IronPDF também oferece suporte à conversão de outros formatos de arquivo, proteção de PDFs com senha, assinatura digital, mesclagem e divisão de documentos PDF.

Como ler arquivos PDF em Java

Pré-requisitos

Para usar o IronPDF para criar um leitor de PDF em Java, é necessário garantir que os seguintes componentes estejam instalados no computador:

  1. O JDK (Java Development Kit) é necessário para criar e executar programas Java. Caso não esteja instalado, faça o download no site da Oracle .
  2. IDE - Ambiente de Desenvolvimento Integrado é um software que auxilia na escrita, edição e depuração de um programa. Baixe qualquer IDE for Java, por exemplo, Eclipse, NetBeans ou IntelliJ.
  3. Maven - O Maven é uma ferramenta de automação que auxilia no download de bibliotecas do Repositório Central. Faça o download no site do Apache Maven .
  4. IronPDF - Por fim, o IronPDF é necessário para ler o arquivo PDF em Java. Isso precisa ser adicionado como uma dependência em seu projeto Java Maven. Inclua o artefato IronPDF juntamente com a dependência slf4j no arquivo pom.xml, conforme mostrado no exemplo abaixo:

<dependencies>

    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>

<dependencies>

    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>
XML

Adicionando as importações necessárias

Primeiramente, adicione o seguinte código no início do arquivo fonte Java para referenciar todos os métodos necessários do IronPDF:

import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
JAVA

Em seguida, configure o IronPDF com uma chave de licença válida para usar seus métodos. Invoque o método setLicenseKey no método principal.

License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
JAVA

Observação: você pode obter uma chave de licença de avaliação gratuita para criar, ler e imprimir PDFs.

Ler um arquivo PDF existente em Java

Para ler arquivos PDF , é necessário que existam arquivos PDF, ou que um seja criado. Este artigo utilizará um arquivo PDF já criado. O código é simples e consiste em um processo de duas etapas para extrair o texto do documento:

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
JAVA

No código acima, fromFile abre um documento PDF. O método Paths.get obtém o diretório do arquivo e está pronto para extrair o conteúdo do arquivo. Em seguida, [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText() lê todo o texto do documento.

O resultado é o seguinte:

Como ler um arquivo PDF em Java, Figura 1: Leitura da saída de texto do PDF Leitura de saída de texto em PDF

Ler texto de uma página específica

O IronPDF também consegue ler o conteúdo de uma página específica em um PDF. O método extractTextFromPage usa um objeto PageSelection para aceitar um intervalo de páginas a partir das quais o texto será lido.

No exemplo a seguir, o texto foi extraído da segunda página do documento PDF. PageSelection.singlePage obtém o índice da página que precisa ser extraída (índice começando em 0).

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
JAVA

Como ler um arquivo PDF em Java, Figura 2: Leitura da saída de texto do PDF Leitura de saída de texto em PDF

Outros métodos disponíveis na classe PageSelection que podem ser usados ​​para extrair texto de várias páginas incluem: [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage() ), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage() ), pageRange e [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages() ).

Ler texto de um arquivo PDF recém-gerado

A busca de texto também pode ser realizada a partir de um arquivo PDF recém-gerado, seja a partir de um arquivo HTML ou de uma URL. O código de exemplo a seguir gera PDFs a partir de URLs e extrai todo o texto do site.

// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
JAVA

Como ler um arquivo PDF em Java, Figura 3: Ler de um novo arquivo Ler de um novo arquivo

O IronPDF também pode ser usado para extrair imagens de arquivos PDF.

O código completo é o seguinte:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
JAVA

Resumo

Este artigo explicou como abrir e ler PDFs em Java usando o IronPDF.

O IronPDF ajuda a criar PDFs facilmente a partir de HTML ou URL e a converter entre diferentes formatos de arquivo. Também ajuda a realizar tarefas com PDFs de forma rápida e fácil.

Experimente o IronPDF gratuitamente por 30 dias e descubra como ele funciona para você em produção. Explore as opções de licenciamento comercial para o IronPDF , que começam a partir de apenas $799.

Perguntas frequentes

Como posso criar um leitor de PDF em Java?

Você pode criar um leitor de PDF em Java usando o IronPDF, utilizando o método `fromFile` para carregar documentos PDF e, em seguida, usando métodos como `extractAllText` para analisar e manipular o conteúdo.

Quais são os passos para instalar os pré-requisitos para usar o IronPDF em Java?

Para usar o IronPDF em Java, você precisa instalar o Java Development Kit (JDK), configurar um Ambiente de Desenvolvimento Integrado (IDE), como o Eclipse ou o IntelliJ, configurar o Maven para gerenciamento de dependências e incluir a biblioteca IronPDF em seu projeto.

Como extrair texto de um arquivo PDF em Java?

Para extrair texto de um arquivo PDF em Java usando o IronPDF, você pode usar o método `extractAllText` para recuperar o texto de todo o documento ou o método `extractTextFromPage` para extrair o texto de uma página específica.

Posso gerar um PDF a partir de uma URL em Java?

Sim, com o IronPDF, você pode gerar um PDF a partir de uma URL usando o método `renderUrlAsPdf`, que converte conteúdo da web em formato PDF.

O IronPDF permite adicionar proteção por senha a PDFs em Java?

Sim, o IronPDF permite adicionar proteção por senha a PDFs, além de outros recursos como assinatura digital e mesclagem ou divisão de documentos.

Quais formatos de arquivo o IronPDF pode converter para PDF em Java?

O IronPDF pode converter vários formatos de arquivo para PDF, incluindo HTML e outros formatos de documento, oferecendo opções flexíveis para geração e manipulação de PDFs.

Existe alguma versão de avaliação disponível para o IronPDF em Java?

Sim, o IronPDF oferece um período de teste gratuito de 30 dias, permitindo que você teste seus recursos e avalie seu desempenho em seus aplicativos Java antes de adquirir uma licença.

Como posso extrair texto de uma página específica em um documento PDF usando uma biblioteca Java?

Usando o IronPDF, você pode extrair texto de uma página específica de um PDF empregando o método `extractTextFromPage`, que requer a especificação do número da página ou do intervalo de páginas.

Darrius Serrant
Engenheiro de Software Full Stack (WebOps)

Darrius Serrant é bacharel em Ciência da Computação pela Universidade de Miami e trabalha como Engenheiro de Marketing WebOps Full Stack na Iron Software. Atraído por programação desde jovem, ele via a computação como algo misterioso e acessível ao mesmo tempo, tornando-a o meio ...

Leia mais

Equipe de suporte de ferro

Estamos online 24 horas por dia, 5 dias por semana.
Bater papo
E-mail
Liga para mim