Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Extraer datos de los PDF es crucial para ahorrar tiempo en la introducción manual. Este artículo explica cómo los desarrolladores pueden utilizar la biblioteca IronPDF paraextraer texto e imágenes de documentos PDF.
IronPDF es una biblioteca .NET que puede utilizarse para crear, editar y convertir archivos PDF. Proporciona una API fácil de usar para que los desarrolladores la utilicen en sus aplicaciones. Es una de las bibliotecas más populares para crear, editar y convertir archivos PDF en todo el mundo. Con IronPDF, puede crear una solución sencilla y rápida para PDF. Su texto será personalizado para cada documento,tu diseño se configurará para facilitar su lectura, y sus gráficos se diseñarán con ayuda del programa .NET que lo acompaña.
La biblioteca IronPDF tiene una función fantástica para extraer datos de archivos PDF. En este artículo se explica cómo extraer datos con IronPDF. En primer lugar, es necesario crear o abrir un proyecto C#. Pasemos a la siguiente sección.
Este tutorial recomienda el uso de la última versión de Visual Studio.
Una vez abierto Visual Studio, siga los pasos que se indican a continuación para crear un nuevo proyecto C#. Si ya existe un proyecto que desea utilizar, omita estos pasos y pase directamente a la siguiente sección.
Haga clic en el botón "Crear un nuevo proyecto".
UI de apertura de Visual Studio
Seleccione la "Aplicación de consola C#" de las plantillas.
Crear un nuevo proyecto
Seleccione un .NET Framework de acuerdo con los requisitos de su proyecto y haga clic en el botón Crear.
Selección del .NET Framework
Visual Studio generará ahora un nuevo proyecto C# .NET.
La biblioteca IronPDF puede instalarse de varias formas.
Install-Package IronPdf
Progreso de la instalación en la pestaña de la Consola del Gestor de Paquetes
Después de la instalación, verá la dependencia IronPDF en la sección dependencias
del Explorador de soluciones, como se muestra a continuación.
Consulte el paquete IronPdf en el Explorador de soluciones.
Otra forma de instalar la biblioteca IronPDF es utilizando la interfaz de usuario integrada del gestor de paquetes NuGet de Visual Studio.
Vaya a Herramientas desde el menú principal. Pase el ratón sobre "NuGet Package Manager" en el menú desplegable y seleccione la "Solución NuGet Package Manager".
Navegue hasta el Gestor de paquetes NuGet.
IronPdf
en buscar y pulsa Intro.Seleccione IronPDF en los resultados de la búsqueda y haga clic en el botón "Instalar" para comenzar la instalación.
Instalar el paquete IronPdf desde el gestor de paquetes NuGet
Echemos un vistazo al siguiente código sobre cómo extraer datos utilizando IronPDF:
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
En primer lugar, elDesdeArchivo
se utiliza para cargar el documento PDF de entrada en el programa. Se proporciona un archivo PDF encriptado, necesitando una contraseña para acceder al archivo. A continuación, se extraen los datos de texto mediante la funciónExtraerTodoTexto para extraer todos los datos de texto en una variable String. A partir de aquí, PdfDocument
ofrece muchas funcionalidades:imprimirlo como texto sin formatovolcarlo en un archivo TXT, almacenarlo en una base de datos, etc.
IronPDF puedeextraer texto de tablas PDF para su inclusión en uno o variosArchivos CSV.
La línea 11 utiliza elExtraer todas las imágenes para extraer todas las imágenes incrustadas del documento PDF.
IronPDF también puede extraer contenido de páginas PDF específicas. Las líneas de código restantes del ejemplo anterior muestran cómo utilizar la funciónExtraerTextoDePágina yExtraerImágenesDePágina para obtener el texto y las imágenes de un subconjunto de páginas. Ambos métodos aceptan un argumento entero que representa el índice de base cero de la página deseada.
IronPDF permite a los desarrolladores extraer texto e imágenes de archivos PDF en tan sólo una línea de código, utilizando ExtractAllText
y ExtractAllImages
para extraer todo el contenido de un archivo PDF al instante. Alternativamente, si llama a ExtractAllImage
o ExtractAllText
obtendrá el texto y las imágenes de una página PDF en concreto. El código de ejemplo anterior mostraba cómo utilizar ambos métodos para leer texto e imágenes de una serie de páginas.
Además, IronPDF también es capaz derepresentación de gráficos en PDF,añadir códigos de barras, mejorar la seguridad con contraseñas ymarca de aguae inclusogestión de formularios PDF mediante programación.
IronPDF es completamente gratuito para el desarrollo. Aunque para el uso comercial es necesario pagar, puede acceder alprueba gratuita de IronPDF para la producción sin ningún pago.
Comprar elconjunto completo de bibliotecas de documentos de Iron Software por el precio de dosIronPDF Lite Licencias.
DescargarIronPDF ahora para empezar a extraer datos de PDF hoy mismo!
9 productos API .NET para sus documentos de oficina