Ir para o conteúdo do rodapé
USANDO O IRONPDF
Extrair texto de um PDF em C#

Converter PDF em texto em C# (Exemplo de código)

Este artigo descreve o processo para desenvolvedores .NET converterem arquivos PDF em formato TXT para um acesso mais eficiente.

Tópicos abordados no tutorial

  • IronPDF
  • Passos para criar arquivos PDF programaticamente
  • Passo 1: Criar um projeto C#
  • Passo 2: Instale a biblioteca IronPDF
    • Método 1: Gerenciador de Pacotes NuGet
    • Método 2: Console do Gerenciador de Pacotes NuGet
    • Método 3: Utilizando o arquivo DLL
  • Etapa 3: Adicione o namespace IronPDF
  • Etapa 4: Converter PDF em texto
    • Saída
  • Conclusão

IronPDF

IronPDF é uma biblioteca .NET para geração de PDFs. É uma biblioteca nativa do .NET e não depende de DLLs externas ou outras ferramentas. IronPDF é uma biblioteca multiplataforma escrita em C# e .NET que oferece todas as funcionalidades necessárias para trabalhar com documentos PDF. Inclui renderização de documentos, edição de formulários, extração de texto, criptografia de arquivos, além de outros recursos. Todas essas operações podem ser realizadas por meio de uma API intuitiva que foi amplamente testada em diversas plataformas, como Windows Forms, WPF, ASP.NET MVC, etc.

A versão atual do IronPDF oferece acesso simplificado a esses recursos:

Acesso somente leitura ao conteúdo interno do documento (visualização, navegação, anotações):

Acesso aos metadados e às propriedades do documento (título, palavras-chave, autor, assunto):

O IronPDF também contém algumas classes auxiliares adicionais que ajudam na conversão de documentos HTML em arquivos PDF totalmente formatados, com extração de texto. O IronPDF oferece APIs muito simples para converter PDFs em arquivos de texto.

Vamos começar aprendendo como usar a biblioteca IronPDF para converter um documento PDF em um arquivo de texto.

Passos para converter um documento PDF em um arquivo de texto

O primeiro passo é criar um projeto C# no Visual Studio. Você pode escolher qualquer modelo de aplicativo C# de acordo com suas necessidades. Para simplificar, este tutorial usará o modelo de Aplicativo de Console. Você pode usar um projeto C# já existente para converter arquivos PDF em arquivos TXT.

Passo 1: Criar um projeto em C

Crie um projeto C# no Visual Studio ou abra um projeto existente. Recomenda-se a versão mais recente do Visual Studio para um funcionamento perfeito. Siga os passos indicados para criar um projeto C# no Visual Studio.

  1. Abra o Visual Studio.
  2. Selecione o modelo de Aplicativo de Console C# ou abra um projeto existente.
  3. Dê um nome apropriado ao projeto.
  4. Selecione a versão 6.0 do .NET Framework . Esta é a versão mais recente e estável do .NET Framework, mas você pode escolher qualquer outra .NET Framework de acordo com suas necessidades.

Passo 2: Instale a biblioteca IronPDF

O IronPDF também apresenta um processo de instalação fácil, o que acelera o tempo de desenvolvimento e reduz a confusão. A biblioteca IronPDF oferece várias maneiras de instalação:

  • Usando o Gerenciador de Pacotes NuGet
  • Usando o Console do Gerenciador de Pacotes NuGet
  • Por arquivo DLL

Método 1: Gerenciador de Pacotes NuGet

Para usar o Gerenciador de Pacotes NuGet , siga os passos indicados para abrir a aba Gerenciador de Pacotes.

Abra o projeto C# e clique em Ferramentas > Gerenciador de Pacotes NuGet > Gerenciar Pacotes NuGet para a solução .

C# Converter PDF para Texto (Exemplo de Código), Figura 0: Navegar até o Gerenciador de Pacotes NuGet Acesse o Gerenciador de Pacotes NuGet.

  • Agora vá para a aba Procurar e pesquise por IronPDF .
  • Selecione IronPDF nos resultados da pesquisa e clique em Instalar . Isso instalará a biblioteca IronPDF , permitindo que o projeto seja usado com ela.

Conversão de PDF para texto em C# (Exemplo de código), Figura 1: Pacote IronPDF obtido no resultado da pesquisa do Gerenciador de Pacotes NuGet O pacote IronPDF foi encontrado nos resultados da busca do Gerenciador de Pacotes NuGet.

Método 2: Console do Gerenciador de Pacotes NuGet

A instalação da biblioteca IronPDF através do Gerenciador de Pacotes é a maneira mais fácil. Siga estes passos simples:

  • Abra o Console do Gerenciador de Pacotes. Digite a seguinte linha no console e pressione Enter. Isso instalará imediatamente a biblioteca IronPDF .
Install-Package IronPdf

C# Converter PDF para Texto (Exemplo de Código), Figura 2: O progresso da instalação exibido na interface do usuário do Console do Gerenciador de Pacotes NuGet O progresso da instalação é exibido na interface do usuário do Console do Gerenciador de Pacotes NuGet.

Método 3: Utilizando um arquivo DLL

Você pode baixar o arquivo DLL do IronPDF no site da Iron Software . Após a conclusão do download, utilize-o como referência em seu projeto.

Consulte o guia de instalação do IronPDF para obter instruções de instalação mais detalhadas.

A instalação da biblioteca IronPDF já foi concluída. Os passos a seguir irão orientá-lo na conversão de um arquivo PDF em um arquivo de texto.

Etapa 3: Adicione o namespace IronPDF

Para usar o IronPDF, é necessário adicionar o namespace IronPDF a todos os arquivos de código. Escreva a seguinte linha de código no início de cada arquivo de código relacionado. Isso permitirá que você use os recursos do IronPDF em seu programa.

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

Passo 4: Converter o documento PDF em um arquivo de texto

Agora precisamos converter o arquivo PDF para um arquivo TXT ou extrair apenas o texto. Então, escreva o seguinte código de exemplo em seu arquivo de código:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
Imports IronPdf
Imports System

Friend Class Program
	Shared Sub Main()
		' Extracting image and text content from PDF Document

		' Open a 128-bit encrypted PDF
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Get all text to put in a search index
			Dim allText As String = pdf.ExtractAllText()
	
			' Display the extracted text in the console
			Console.WriteLine(allText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Primeiro, abra o documento PDF usando o FromFile function do PdfDocument class . Nos parâmetros, informe o nome do arquivo e a senha (se houver). Depois disso, use o ExtractAllText function para extrair todo o texto do arquivo PDF e armazená-lo em uma variável chamada allText. Em seguida, exiba o texto de saída no console.

Saída

C# Converter PDF para Texto (Exemplo de Código), Figura 3: O texto extraído do documento PDF O texto extraído do documento PDF

Este é o texto de saída extraído pelo IronPDF. É o mesmo texto que aparece no arquivo PDF, demonstrando a alta precisão do IronPDF .

Conclusão

Este artigo mostra como extrair facilmente texto de arquivos PDF usando a biblioteca IronPDF .NET PDF. Isso foi conseguido escrevendo apenas algumas linhas de código e com um alto percentual de precisão. Além disso, o IronPDF também possui muitos recursos úteis, como conversão de HTML para PDF, ferramentas de formatação de PDF e vários outros recursos essenciais para a edição de PDFs. O IronPDF também elimina a dependência do Adobe Acrobat.

O IronPDF é gratuito para fins de desenvolvimento e também oferece um período de teste gratuito para testes em produção. O IronPDF oferece uma variedade de planos de preços que você pode escolher de acordo com suas necessidades. O preço do IronPDF é significativamente menor do que o de seus concorrentes. Com preços que variam de empresas individuais a grandes corporações, o produto se mostra uma compra atraente com desempenho impressionante.

C# Converter PDF para Texto (Exemplo de Código), Figura 4: Os planos de preços do pacote Suite da Iron Software Os planos de preços do pacote de soluções da Iron Software

Além disso, a Iron Software oferece um conjunto de cinco pacotes Iron Software pelo preço de apenas dois. Para mais informações, consulte os detalhes de licenciamento do Iron Software .

Perguntas frequentes

Como posso converter um documento PDF em texto em uma aplicação C#?

Você pode usar o IronPDF para converter um documento PDF em texto em um aplicativo C# usando o método PdfDocument.FromFile para carregar o PDF e, em seguida, chamando o método ExtractAllText para recuperar o conteúdo do texto.

Qual é o processo para configurar o IronPDF em um projeto C# do Visual Studio?

Para configurar o IronPDF em um projeto C# do Visual Studio, você precisa criar um novo projeto, instalar o IronPDF através do Gerenciador de Pacotes NuGet, do Console do Gerenciador de Pacotes ou adicionando a DLL manualmente e, em seguida, incluir o namespace do IronPDF em seus arquivos de código.

O IronPDF consegue lidar com arquivos PDF criptografados?

Sim, o IronPDF consegue abrir e processar arquivos PDF criptografados, permitindo extrair o conteúdo de texto deles.

Quais são os benefícios de converter um arquivo PDF para o formato TXT?

Converter PDF para o formato TXT usando o IronPDF permite melhor acessibilidade e manipulação mais fácil dos dados de texto, o que é benéfico para aplicativos que exigem processamento ou pesquisa de texto.

Como o IronPDF garante a precisão na extração de texto de PDFs?

O IronPDF garante alta precisão na extração de texto, mantendo a integridade do texto tal como aparece no PDF, fornecendo resultados confiáveis para processamento posterior.

Existe um período de teste gratuito disponível para experimentar a biblioteca IronPDF?

Sim, o IronPDF oferece um período de teste gratuito para fins de desenvolvimento e teste, permitindo que você avalie seus recursos e capacidades antes de efetuar a compra.

O que torna o IronPDF uma escolha adequada para desenvolvimento multiplataforma?

O IronPDF é escrito em C# e .NET, o que o torna uma escolha adequada para desenvolvimento multiplataforma sem a necessidade de ferramentas externas adicionais.

O IronPDF pode ser usado para outros fins além da extração de texto?

Sim, o IronPDF oferece uma variedade de recursos além da extração de texto, incluindo geração de PDF, criptografia de documentos, manipulação de formulários e conversão de HTML para PDF.

Quão bem o IronPDF suporta o .NET 10 para conversão de PDF em texto?

O IronPDF é totalmente compatível com o .NET 10, oferecendo suporte imediato sem necessidade de configuração adicional. Ao usar o IronPDF no .NET 10 para converter PDFs em texto, você se beneficia de melhorias de desempenho, como alocações de memória reduzidas e aprimoramentos no ambiente de execução, que resultam em extração mais rápida e menor consumo de memória.

Quais plataformas e tipos de projeto são suportados ao usar o IronPDF com o .NET 10?

O IronPDF for .NET 10 é compatível com uma ampla variedade de plataformas, incluindo Windows (10+, Server), macOS, Linux e ambientes de contêiner. Ele funciona com tipos de projeto como Console, Desktop (WPF, MAUI), Web (MVC, Blazor) e suporta linguagens como C#, F# e VB.NET.

Curtis Chau
Redator Técnico

Curtis Chau é bacharel em Ciência da Computação (Universidade Carleton) e se especializa em desenvolvimento front-end, com experiência em Node.js, TypeScript, JavaScript e React. Apaixonado por criar interfaces de usuário intuitivas e esteticamente agradáveis, Curtis gosta de trabalhar com frameworks modernos e criar manuais ...

Leia mais

Equipe de suporte de ferro

Estamos online 24 horas por dia, 5 dias por semana.
Bater papo
E-mail
Liga para mim