Ir para o conteúdo do rodapé
USANDO O IRONPDF
Como extrair texto de PDFs usando o IronPDF

Como extrair dados de um PDF em C#

Extrair dados de PDFs é crucial para economizar tempo com a entrada manual de dados. Este artigo explica como os desenvolvedores podem usar a biblioteca IronPDF para extrair texto e imagens de documentos PDF.

IronPDF: Biblioteca PDF em C

IronPDF é uma biblioteca .NET que pode ser usada para criar, editar e converter arquivos PDF. Ela fornece uma API fácil de usar para que os desenvolvedores a utilizem em seus aplicativos. É uma das bibliotecas mais populares do mundo para criar, editar e converter arquivos PDF. Com o IronPDF, você pode criar uma solução simples e rápida para PDFs. Seu texto será personalizado para cada documento, seu layout será configurado para facilitar a leitura e seus gráficos serão projetados com a ajuda do programa .NET que acompanha o produto.

A biblioteca IronPDF possui um recurso fantástico para extrair dados de arquivos PDF. Este artigo abordará como extrair dados usando o IronPDF. Primeiro, é necessário criar ou abrir um projeto C#. Vamos passar para a próxima seção.

Criar ou abrir um projeto C# no Visual Studio

Este tutorial recomenda o uso da versão mais recente do Visual Studio.

Após abrir o Visual Studio, siga os passos abaixo para criar um novo projeto C#. Se já existir um projeto que você gostaria de usar, pule estas etapas e prossiga diretamente para a próxima seção.

  • Abra o Visual Studio
  • Clique no botão "Criar um novo projeto".

Como extrair dados de PDFs em C#, Figura 1: Interface de abertura do Visual Studio Interface de abertura do Visual Studio

  • Selecione "Aplicativo de console C#" nos modelos.

Como extrair dados de PDFs em C#, Figura 2: Criar um novo projeto Criar um novo projeto

  • Dê um nome ao projeto e clique no botão Próximo .
  • Selecione um .NET Framework de acordo com os requisitos do seu projeto e clique no botão Criar .

Como extrair dados de PDFs em C#, Figura 3: Seleção do .NET Framework Seleção do .NET Framework

O Visual Studio agora irá gerar um novo projeto C# .NET .

Instale a biblioteca IronPDF.

A biblioteca IronPDF pode ser instalada de diversas maneiras.

Usando o console do gerenciador de pacotes

  • Abra o Console do Gerenciador de Pacotes acessando Ferramentas > Gerenciador de Pacotes NuGet > Console do Gerenciador de Pacotes . Execute o seguinte comando para instalar a biblioteca IronPDF :
Install-Package IronPdf

Como extrair dados de PDFs em C#, Figura 4: Progresso da instalação na guia Console do Gerenciador de Pacotes Progresso da instalação na aba Console do Gerenciador de Pacotes

Após a instalação, você verá a dependência do IronPDF na seção dependencies do Solution Explorer, conforme mostrado abaixo.

Como extrair dados de PDFs em C#, Figura 5: Pacote IronPDF de referência no Solution Explorer Consulte o pacote IronPDF no Solution Explorer.

Usando o Gerenciador de Pacotes NuGet

Outra forma de instalar a biblioteca IronPDF é usando a interface de usuário do Gerenciador de Pacotes NuGet integrado ao Visual Studio.

  • Acesse a seção Ferramentas no menu principal. No menu suspenso, passe o cursor sobre "Gerenciador de Pacotes NuGet " e selecione "Gerenciar Pacotes NuGet para a Solução...".

Como extrair dados de PDFs em C#, Figura 6: Navegue até o Gerenciador de Pacotes NuGet Acesse o Gerenciador de Pacotes NuGet.

  • Isso abrirá a janela do Gerenciador de Pacotes NuGet . Vá para a aba Procurar, digite IronPdf na busca e pressione Enter.
  • Selecione IronPDF nos resultados da pesquisa e clique no botão "Instalar" para iniciar a instalação.

Como extrair dados de PDFs em C#, Figura 7: Instale o pacote IronPDF a partir do Gerenciador de Pacotes NuGet Instale o pacote IronPDF a partir do Gerenciador de Pacotes NuGet.

Extrair dados de arquivos PDF

Vejamos o seguinte código sobre como extrair dados usando o IronPDF:

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing

Public Class PDFExtractor
	Public Sub ExtractDataFromPDF()
		' Open a 128-bit encrypted PDF file by providing the filename and password
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Extract all text from the PDF document
			Dim allText As String = pdf.ExtractAllText()
	
			' Extract all images from the PDF document
			Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
	
			' Iterate over each page in the PDF document
			For index = 0 To pdf.PageCount - 1
				Dim pageNumber As Integer = index + 1
	
				' Extract text from the specific page
				Dim text As String = pdf.ExtractTextFromPage(index)
	
				' Extract images from the specific page
				Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
	
				' Code to process the extracted text and images
				'...
			Next index
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Neste exemplo de código:

  1. O método FromFile é usado para carregar o documento PDF de entrada, que está criptografado e requer uma senha.
  2. O método ExtractAllText extrai todo o conteúdo textual do PDF.
  3. O método ExtractAllImages recupera todas as imagens incorporadas.
  4. Um loop itera sobre cada página do documento para extrair texto e imagens dessa página específica usando ExtractTextFromPage e ExtractImagesFromPage.

Conclusão

O IronPDF permite que os desenvolvedores extraiam texto e imagens de arquivos PDF com facilidade. Usando ExtractAllText e ExtractAllImages, todo o conteúdo de um arquivo PDF pode ser extraído instantaneamente. Alternativamente, esses métodos podem ser usados ​​para extrair conteúdo de uma página específica. O código anterior demonstrou como usar ambos os métodos para ler texto e imagens de uma variedade de páginas.

Além disso, o IronPDF oferece recursos como renderização de gráficos , adição de códigos de barras , reforço da segurança com senhas , marcas d'água e manipulação programática de formulários PDF.

O IronPDF está disponível gratuitamente durante o desenvolvimento, sendo necessário pagamento para uso comercial. Uma versão de avaliação gratuita do IronPDF está disponível para uso em produção, sem custos.

Adquira o pacote completo de bibliotecas de documentos da Iron Software pelo preço de duas licenças do IronPDF Lite .

Baixe o IronPDF agora mesmo e comece a extrair dados de PDFs hoje mesmo!

Perguntas frequentes

Como posso extrair texto de um PDF em C#?

Você pode usar o método ExtractAllText do IronPDF para extrair todo o texto de um documento PDF. Esse método simplifica o processo, permitindo fácil acesso ao conteúdo textual do PDF.

Qual é o processo para extrair imagens de um PDF usando C#?

Com o IronPDF, você pode extrair imagens de um PDF utilizando o método ExtractAllImages . Este método recupera todas as imagens incorporadas no arquivo PDF de forma eficiente.

Como faço para instalar uma biblioteca de manipulação de PDF em um projeto C#?

Para instalar o IronPDF em um projeto C#, você pode usar o Console do Gerenciador de Pacotes com o comando Install-Package IronPDF ou navegar pela interface do Gerenciador de Pacotes NuGet no Visual Studio para instalar o pacote.

É possível manipular PDFs criptografados em C#?

Sim, o IronPDF permite abrir e manipular arquivos PDF criptografados usando o método FromFile , onde você pode fornecer o nome do arquivo e a senha para acessar o conteúdo.

É possível extrair dados de páginas específicas de um PDF em C#?

O IronPDF permite iterar sobre cada página de um documento PDF e usar métodos como ExtractTextFromPage e ExtractImagesFromPage para extrair dados de páginas específicas.

Que funcionalidades adicionais a biblioteca PDF em C# oferece?

Além da extração de dados, o IronPDF oferece recursos como renderização de gráficos, adição de códigos de barras, aprimoramento da segurança de documentos com senhas, marcas d'água e manipulação programática de formulários PDF.

Como posso converter HTML para PDF em C#?

Você pode usar o método RenderHtmlAsPdf do IronPDF para converter strings HTML em PDFs, o que é particularmente útil para criar documentos PDF a partir de conteúdo da web.

Existe alguma versão de avaliação disponível para a biblioteca PDF em C#?

O IronPDF pode ser usado gratuitamente durante o desenvolvimento, permitindo que você teste suas funcionalidades. Para uso em produção, é necessária uma licença comercial, mas também está disponível um período de avaliação gratuita.

Como posso começar a usar a biblioteca C# para extração de dados de PDFs?

Para começar a usar o IronPDF para extração de dados, baixe a biblioteca, crie ou abra um projeto C# no Visual Studio, instale o IronPDF e siga os exemplos de código para extrair texto e imagens de PDFs de forma eficiente.

Compatibilidade com .NET 10: Posso usar os recursos de extração de dados do IronPDF com o .NET 10?

Sim — o IronPDF é totalmente compatível com o .NET 10, incluindo seus recursos de extração de dados, como extração de texto e imagens. Você pode usar o IronPDF em projetos .NET 10 sem nenhuma configuração especial. Ele é compatível com .NET 10, .NET 9, .NET 8 e versões anteriores, além de .NET Standard e .NET Framework. (ironpdf.com)

Curtis Chau
Redator Técnico

Curtis Chau é bacharel em Ciência da Computação (Universidade Carleton) e se especializa em desenvolvimento front-end, com experiência em Node.js, TypeScript, JavaScript e React. Apaixonado por criar interfaces de usuário intuitivas e esteticamente agradáveis, Curtis gosta de trabalhar com frameworks modernos e criar manuais ...

Leia mais

Equipe de suporte de ferro

Estamos online 24 horas por dia, 5 dias por semana.
Bater papo
E-mail
Liga para mim