Tutorial fácil para ler arquivos PDF em C#
Se você é um desenvolvedor, provavelmente já se deparou com problemas ao tentar ler texto de um arquivo PDF. Talvez um ou mais dos seguintes cenários se apliquem a você:
- Você está desenvolvendo um aplicativo que recebe dois documentos PDF como entrada e encontra a similaridade entre eles.
- Você está desenvolvendo um aplicativo que precisa ler documentos PDF com o IronPDF e retornar a contagem de palavras.
- Você está desenvolvendo um aplicativo que extrai dados de um arquivo PDF usando o IronPDF e os insere em um banco de dados estruturado.
- Você está desenvolvendo um aplicativo que precisa extrair o conteúdo de texto de um PDF e convertê-lo em uma string.
- Extrair dados de arquivos PDF usando C# era uma tarefa difícil e complexa até o desenvolvimento do IronPDF.
Visão geral da biblioteca IronPDF : trata-se de uma biblioteca que facilita muito a leitura de arquivos PDF para desenvolvedores.
Você pode explorar mais sobre o IronPDF e as ofertas do pacote de Iron Software .
É possível ler arquivos PDF e exibir os dados em uma caixa de texto C# usando apenas duas linhas de código. Sim, apenas duas linhas de código. Você também pode extrair todas as imagens de PDFs . Além disso, você pode criar outro documento com essas imagens ou exibi-las em seu aplicativo conforme suas necessidades.
Vamos mostrar-lhe como se faz.
Podemos prosseguir passo a passo com o aplicativo para selecionar qualquer arquivo PDF e, em seguida, exibir seu conteúdo.
Os passos a seguir mostram como ler arquivos PDF em C#:
Os passos a seguir mostram como ler arquivos PDF em C#.
- Baixe a biblioteca Print to PDF em C#
- Selecione um arquivo PDF do seu computador.
- Selecione a impressora específica para imprimir e defina a resolução.
- Verifique o PDF impresso na sua impressora.
- Acompanhe seus processos de impressão usando C#
Conhecimentos prévios necessários:
- Conhecimento básico de programação em C#
- Conhecimento básico de controles de interface gráfica em C#
Elaborei este tutorial de forma que até mesmo uma pessoa sem qualquer experiência em programação consiga progredir.
Quem deve ler isto?
Qualquer pessoa que esteja começando a aprender C# deve saber como ler arquivos PDF usando o IronPDF , pois essa é uma habilidade que certamente será usada em sua carreira.
Desenvolvedores profissionais também devem ler isto para entender a biblioteca IronPDF , que nos ajuda a ler, gerar e manipular documentos PDF.
Agora, como podemos usar essa biblioteca em nosso projeto para ler um arquivo PDF?
Estou usando um aplicativo Windows Forms para demonstração. Você pode usar um aplicativo de console, um aplicativo WPF ou um aplicativo web ASP.NET , de acordo com sua preferência.
Outra grande vantagem da biblioteca IronPDF é que ela pode ser usada tanto com C# quanto com VB .NET.
Vamos começar a demonstração sem mais demora.
Step #1: Create a Visual Studio Project
Abra o Visual Studio. Estou usando o Visual Studio 2019.
Clique em "Criar novo projeto":
Criar novo projeto
Agora, selecione o aplicativo Windows Forms no modelo, clique em "Avançar" e a seguinte janela será exibida. Insira o nome do projeto. Eu escrevi 'Ler PDF usando IronPDF'.
Configure o projeto através do Visual Studio.
Agora, clique em "Avançar" e a seguinte janela será exibida. Selecione ' .NET Core 3.1' no menu suspenso.
.NET Core versão 3.1
Clique no botão "Criar" e o projeto será criado conforme mostrado abaixo.
Estágio inicial de um novo aplicativo Windows Forms
Step #2: Install the IronPDF NuGet Package
Clique no menu Projeto na barra de menus e uma lista suspensa será exibida. Selecione "Gerenciar pacotes NuGet" e clique nele. A seguinte janela será exibida:
Gerenciador de Pacotes NuGet
Agora, clique em "Procurar". A seguinte janela será exibida:
Interface do usuário do gerenciador de pacotes NuGet
Digite IronPDF na caixa de pesquisa e pressione "Enter". A seguinte janela será exibida:
Solução NuGet
Selecione e clique em IronPDF. A seguinte janela será exibida:
Instale o IronPDF gratuitamente
Pressione o botão "Instalar" e aguarde a conclusão da instalação. A seguinte janela será exibida após a instalação bem-sucedida:
IronPDF for .NET
Pressione o botão "OK" e pronto.
Observação: Existem outras maneiras de baixar o pacote NuGet . Você também pode instalar o IronPdf usando o Console do Gerenciador de Pacotes; Para fazer isso, abra o Console do Gerenciador de Pacotes e digite o seguinte código:
Install-Package IronPdf
Você também pode baixá-lo na página do pacote NuGet para IronPDF .
O seguinte arquivo Readme.txt será aberto:
Arquivo readme do IronPdf com exemplos de código
Sugiro que você acesse todos os links e explore mais exemplos de código IronPDF relacionados a esta biblioteca.
Step #3: Design a Windows Forms App
Após a criação do projeto e a instalação do pacote NuGet , o próximo passo é projetar um aplicativo Windows Forms que solicitará ao usuário que procure um arquivo e exiba seu conteúdo.
Design do Formulário Aberto 1:
Interface de Design do Formulário 1
Clique na barra de ferramentas que fica no lado esquerdo da janela:
Interface de usuário da caixa de ferramentas para rótulo e caixa de texto
Procure por "Rótulo" e arraste e solte-o no Design do Formulário.
Dê um nome à etiqueta. Aqui, dei o nome de "C# Ler PDF usando IronPDF".
Interface do usuário do Form1 com rótulo adicionado
Em seguida, arraste e solte uma caixa de texto (para exibir o caminho do arquivo), três botões (um para navegar pelos arquivos, um para ler arquivos PDF usando o IronPDF e o terceiro botão para "Limpar o texto") e um RichTextBox (para ler e exibir o conteúdo do arquivo).
Defina a propriedade "Somente leitura" para TextBox e RichTextBox como "Falso". Isso garante que os usuários só possam ler o conteúdo e o caminho do arquivo.
Formulário 1 totalmente projetado
Step #4: Add the Back-end Code for Browsing PDF Files
Clique duas vezes no botão "Procurar" e a seguinte janela será exibida:
private void Browse_Click(object sender, EventArgs e)
{
}
private void Browse_Click(object sender, EventArgs e)
{
}
Private Sub Browse_Click(ByVal sender As Object, ByVal e As EventArgs)
End Sub
Em seguida, escreva o seguinte código dentro da função Browse_Click:
private void Browse_Click(object sender, EventArgs e)
{
// Initialize and configure OpenFileDialog
OpenFileDialog browseFile = new OpenFileDialog
{
InitialDirectory = @"D:\",
Title = "Browse Pdf Files",
CheckFileExists = true,
CheckPathExists = true,
DefaultExt = "pdf",
Filter = "pdf files (*.pdf)|*.pdf",
FilterIndex = 2,
RestoreDirectory = true,
ReadOnlyChecked = true,
ShowReadOnly = true
};
// Show the dialog and get result
if (browseFile.ShowDialog() == DialogResult.OK)
{
// Set the text box with the selected file path
FilePath.Text = browseFile.FileName;
}
}
private void Browse_Click(object sender, EventArgs e)
{
// Initialize and configure OpenFileDialog
OpenFileDialog browseFile = new OpenFileDialog
{
InitialDirectory = @"D:\",
Title = "Browse Pdf Files",
CheckFileExists = true,
CheckPathExists = true,
DefaultExt = "pdf",
Filter = "pdf files (*.pdf)|*.pdf",
FilterIndex = 2,
RestoreDirectory = true,
ReadOnlyChecked = true,
ShowReadOnly = true
};
// Show the dialog and get result
if (browseFile.ShowDialog() == DialogResult.OK)
{
// Set the text box with the selected file path
FilePath.Text = browseFile.FileName;
}
}
Private Sub Browse_Click(ByVal sender As Object, ByVal e As EventArgs)
' Initialize and configure OpenFileDialog
Dim browseFile As New OpenFileDialog With {
.InitialDirectory = "D:\",
.Title = "Browse Pdf Files",
.CheckFileExists = True,
.CheckPathExists = True,
.DefaultExt = "pdf",
.Filter = "pdf files (*.pdf)|*.pdf",
.FilterIndex = 2,
.RestoreDirectory = True,
.ReadOnlyChecked = True,
.ShowReadOnly = True
}
' Show the dialog and get result
If browseFile.ShowDialog() = DialogResult.OK Then
' Set the text box with the selected file path
FilePath.Text = browseFile.FileName
End If
End Sub
OpenFileDialog cria uma instância do controle File Dialog do aplicativo Windows Forms.
Eu defini o caminho inicial para a unidade D; você pode defini-lo para qualquer outra unidade.
Configurei DefaultExt = "pdf" pois só precisamos ler o arquivo PDF.
Utilizei um filtro para que a caixa de diálogo de seleção de arquivos mostre apenas o arquivo PDF que você deseja selecionar.
Quando o usuário clicar em "OK", o caminho do arquivo será exibido no campo "Caminho do Arquivo".
Vamos executar a solução e testar o botão "Procurar".
Interface do usuário do Formulário 1
Pressione o botão "Procurar" e a seguinte janela será exibida:
Diálogo "Procurar arquivo" para selecionar um arquivo PDF
Selecione o arquivo (estou selecionando IronPDFTest.pdf) e clique em "Abrir". A seguinte janela será exibida.
PDF em C#
Agora vamos escrever o código por trás do botão "Ler" para ler o arquivo.
Step #5: Add the Back-end Code for Reading PDF Documents using IronPDF
Você pode estar pensando que o código para ler um arquivo PDF seria complexo e difícil de escrever e entender.
Não se preocupe. O IronPDF simplificou tudo e tornou o processo muito mais fácil. Podemos ler facilmente o arquivo PDF usando apenas duas linhas de código.
Acesse o Design do Formulário 1 e clique duas vezes no botão "Ler". A seguinte janela será exibida:
private void Read_Click(object sender, EventArgs e)
{
}
private void Read_Click(object sender, EventArgs e)
{
}
Private Sub Read_Click(ByVal sender As Object, ByVal e As EventArgs)
End Sub
Adicione o namespace using IronPdf para importar a biblioteca IronPDF :
using System;
using IronPdf;
using System;
using IronPdf;
Imports System
Imports IronPdf
Escreva o seguinte código dentro da função Read_Click:
private void Read_Click(object sender, EventArgs e)
{
// Read the PDF file using IronPdf
using PdfDocument pdf = PdfDocument.FromFile(FilePath.Text);
// Extract and display the text from the PDF
FileContent.Text = pdf.ExtractAllText();
}
private void Read_Click(object sender, EventArgs e)
{
// Read the PDF file using IronPdf
using PdfDocument pdf = PdfDocument.FromFile(FilePath.Text);
// Extract and display the text from the PDF
FileContent.Text = pdf.ExtractAllText();
}
Private Sub Read_Click(ByVal sender As Object, ByVal e As EventArgs)
' Read the PDF file using IronPdf
Using pdf As PdfDocument = PdfDocument.FromFile(FilePath.Text)
' Extract and display the text from the PDF
FileContent.Text = pdf.ExtractAllText()
End Using
End Sub
FilePath é o nome do campo de texto que exibe a localização do documento PDF que queremos ler. Obteremos a localização do arquivo dinamicamente.
ExtractAllText com IronPDF é a função do IronPDF que extrai todos os dados de páginas PDF. Esses dados serão então exibidos na caixa de texto formatado e nomeados como "Conteúdo do Arquivo".
Em seguida, vamos escrever o código por trás do "Botão Limpar". Este é apenas um item adicional caso deseje limpar a tela após ler o documento PDF.
Clique duas vezes no botão "Limpar" e você será direcionado para o seguinte código:
void Clear_Click(object sender, EventArgs e)
{
}
void Clear_Click(object sender, EventArgs e)
{
}
Private Sub Clear_Click(ByVal sender As Object, ByVal e As EventArgs)
End Sub
Escreva o seguinte código dentro da função Clear_Click:
void Clear_Click(object sender, EventArgs e)
{
// Clear the file path and content display fields
FileContent.Text = "";
FilePath.Text = "";
}
void Clear_Click(object sender, EventArgs e)
{
// Clear the file path and content display fields
FileContent.Text = "";
FilePath.Text = "";
}
Private Sub Clear_Click(ByVal sender As Object, ByVal e As EventArgs)
' Clear the file path and content display fields
FileContent.Text = ""
FilePath.Text = ""
End Sub
Execute a solução
Clique no botão "Procurar" e selecione o documento que deseja ler. No meu caso, estou lendo o arquivo .pdf do IronPDF como exemplo:
documentos em PDF
Pressione o botão "Abrir" e a seguinte janela será exibida:
Aplicação com um arquivo PDF selecionado
Pressione o botão "Ler". O programa lerá o arquivo e exibirá o conteúdo conforme mostrado abaixo.
Exibir conteúdo de texto do PDF
Resumo
Esta é uma solução de exemplo. Independentemente da quantidade de páginas, imagens ou textos em seus arquivos PDF, o IronPDF extrairá todos os textos e imagens para que você possa usá-los para qualquer finalidade. Basta obter a licença da biblioteca e começar a usá-la.
Isso conclui o tutorial. Espero que tenha entendido tudo e, caso tenha alguma dúvida, fique à vontade para publicá-la na seção de comentários.
Você pode baixar o arquivo zip do projeto . Se você deseja adquirir o pacote completo de produtos de Iron Software , nossa oferta especial permite que você compre todos eles pelo preço de apenas duas licenças Lite.
Perguntas frequentes
Como posso ler texto de um arquivo PDF usando C#?
Você pode ler texto de um arquivo PDF usando o IronPDF através do método ExtractAllText , que permite extrair facilmente todo o conteúdo de texto de um documento PDF.
Quais são as vantagens de usar o IronPDF para manipulação de PDFs em C#?
O IronPDF oferece uma abordagem direta para leitura, geração e manipulação de PDFs em C#. Ele permite que os desenvolvedores realizem tarefas como extração de texto e recuperação de imagens com um número mínimo de linhas de código, melhorando a produtividade e a eficiência.
Como faço para instalar a biblioteca IronPDF no meu projeto C#?
Para instalar o IronPDF, utilize o Gerenciador de Pacotes NuGet no Visual Studio. Basta pesquisar por 'IronPDF' no Console do Gerenciador de Pacotes e clicar em 'Instalar' para incluí-lo em seu projeto.
O IronPDF pode ser usado para extrair imagens de um arquivo PDF?
Sim, o IronPDF oferece funcionalidades para extrair imagens de um arquivo PDF, permitindo que os desenvolvedores acessem e manipulem todas as imagens contidas no documento.
Quais são os passos envolvidos na configuração de um projeto do Visual Studio para ler arquivos PDF?
A configuração de um projeto envolve a criação de um novo projeto no Visual Studio, a instalação do pacote NuGet IronPDF, o design de um aplicativo Windows Forms e a implementação do código de back-end para navegar e ler arquivos PDF.
Como posso garantir que os campos do meu formulário sejam apagados após a leitura de um PDF?
Você pode implementar um botão "Limpar" em seu aplicativo, que redefine o conteúdo do TextBox e do RichTextBox para uma string vazia, garantindo que os campos sejam limpos após o processamento de um PDF.
É possível usar o IronPDF com VB.NET?
Sim, o IronPDF é compatível com C# e VB.NET, tornando-se uma opção versátil para desenvolvedores que trabalham com diferentes linguagens .NET.
Quantas linhas de código são necessárias para exibir o conteúdo de um PDF usando o IronPDF?
Com o IronPDF, é possível exibir conteúdo de PDFs com apenas duas linhas de código, o que destaca sua capacidade de simplificar tarefas de processamento de PDFs.
Para que serve o método 'RenderHtmlAsPdf' no IronPDF?
O método RenderHtmlAsPdf do IronPDF é usado para converter strings HTML em documentos PDF, permitindo a integração perfeita de conteúdo da web em arquivos PDF.
O IronPDF é totalmente compatível com o .NET 10?
Sim. O IronPDF foi projetado para ser totalmente compatível com o .NET 10, bem como com versões anteriores como .NET 6-9, .NET Core, .NET Standard e .NET Framework. Ele suporta instalação via NuGet e funciona perfeitamente em diversas plataformas, incluindo Windows, Linux e macOS.


