using IronPdf; // Desactivar el acceso local al disco o las peticiones de origen cruzado Installation.EnableWebSecurity = true; // Instanciar renderizador var renderer = new ChromePdfRenderer(); // Crear un PDF a partir de una cadena HTML usando C# var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>"); // Exportar a un archivo o Stream pdf.SaveAs("output.pdf"); // Ejemplo avanzado con recursos HTML // Cargar activos html externos: Imágenes, CSS y JavaScript. // Una BasePath opcional 'C:\site\assets\' se establece como la ubicación del archivo para cargar los activos de var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\"); myAdvancedPdf.SaveAs("html-with-assets.pdf");

using IronPdf; using System; // Paso 1. Crear un PDF con formularios editables a partir de HTML Creación de un PDF con formularios editables a partir de HTML utilizando etiquetas de formulario y de entrada // Radio Button y Checkbox también se pueden implementar con el tipo de entrada 'radio' y 'checkbox'. const string formHtml = @" <html> <body> <h2>Editable PDF Form</h2> <form> First name: <br> <input type='text' name='firstname' value=''> <br> Last name: <br> <input type='text' name='lastname' value=''> <br> <br> <p>Please specify your gender:</p> <input type='radio' id='female' name='gender' value= 'Female'> <label for='female'>Female</label> <br> <br> <input type='radio' id='male' name='gender' value='Male'> <label for='male'>Male</label> <br> <br> <input type='radio' id='non-binary/other' name='gender' value='Non-Binary / Other'> <label for='non-binary/other'>Non-Binary / Other</label> <br> <p>Please select all medical conditions that apply:</p> <input type='checkbox' id='condition1' name='Hypertension' value='Hypertension'> <label for='condition1'> Hypertension</label><br> <input type='checkbox' id='condition2' name='Heart Disease' value='Heart Disease'> <label for='condition2'> Heart Disease</label><br> <input type='checkbox' id='condition3' name='Stoke' value='Stoke'> <label for='condition3'> Stoke</label><br> <input type='checkbox' id='condition4' name='Diabetes' value='Diabetes'> <label for='condition4'> Diabetes</label><br> <input type='checkbox' id='condition5' name='Kidney Disease' value='Kidney Disease'> <label for='condition5'> Kidney Disease</label><br> </form> </body> </html>"; // Instanciar renderizador var renderer = new ChromePdfRenderer(); renderer.RenderingOptions.CreatePdfFormsFromHtml = true; renderer.RenderHtmlAsPdf(formHtml).SaveAs("BasicForm.pdf"); // Paso 2. Lectura y escritura de valores de formularios PDF. var FormDocument = PdfDocument.FromFile("BasicForm.pdf"); // Fijar y leer el valor del campo "firstname var FirstNameField = FormDocument.Form.FindFormField("firstname"); FirstNameField.Value = "Minnie"; Console.WriteLine("FirstNameField value: {0}", FirstNameField.Value); // Establecer y leer el valor del campo "apellido var LastNameField = FormDocument.Form.FindFormField("lastname"); LastNameField.Value = "Mouse"; Console.WriteLine("LastNameField value: {0}", LastNameField.Value); FormDocument.SaveAs("FilledForm.pdf");

USO DE IRONPDF

Cómo extraer datos de un PDF en C#

Actualizado 26 de junio, 2022

Introducción

Extraer datos de los PDF es crucial para ahorrar tiempo en la introducción manual. Este artículo explica cómo los desarrolladores pueden utilizar la biblioteca IronPDF para extraer texto e imágenes de documentos PDF.

Cómo extraer datos de un PDF en C#

Descargar biblioteca Extraer datos de PDF C#
Crear un nuevo proyecto en Visual Studio
Instale la biblioteca en su proyecto
Extraer los datos de páginas específicas y extraer específicos de PDF
Ver los datos de salida de un documento PDF

IronPDF: Biblioteca PDF C

IronPDF es una biblioteca .NET que puede utilizarse para crear, editar y convertir archivos PDF. Proporciona una API fácil de usar para que los desarrolladores la utilicen en sus aplicaciones. Es una de las bibliotecas más populares para crear, editar y convertir archivos PDF en todo el mundo. Con IronPDF, puede crear una solución sencilla y rápida para PDF. Su texto será personalizado para cada documento, tu diseño se configurará para facilitar su lectura, y sus gráficos se diseñarán con ayuda del programa .NET que lo acompaña.

La biblioteca IronPDF tiene una función fantástica para extraer datos de archivos PDF. En este artículo se explica cómo extraer datos con IronPDF. En primer lugar, es necesario crear o abrir un proyecto C#. Pasemos a la siguiente sección.

Crear o abrir un proyecto C# en Visual Studio

Este tutorial recomienda utilizar la última versión de Visual Studio.

Una vez abierto Visual Studio, siga los pasos que se indican a continuación para crear un nuevo proyecto C#. Si ya existe un proyecto que desea utilizar, omita estos pasos y pase directamente a la siguiente sección.

Abrir Visual Studio
Haga clic en el botón "Crear un nuevo proyecto".
UI de apertura de Visual Studio
Seleccione la "Aplicación de consola C#" de las plantillas.
Crear un nuevo proyecto
Dé un nombre al Proyecto y haga clic en el botón Siguiente.
Seleccione s .NET Framework de acuerdo con los requisitos de su proyecto y haga clic en el botón Crear.
Selección del marco .NET
Visual Studio generará ahora un nuevo proyecto C# .NET.

Instalar la biblioteca IronPDF

La biblioteca IronPDF puede instalarse de varias formas.

Uso de la consola del gestor de paquetes

Abra la consola del gestor de paquetes accediendo a Herramientas > Gestor de paquetes NuGet > Consola del gestor de paquetes.
Ejecute el siguiente comando:

Install-Package IronPdf

Cómo extraer datos de archivos PDF en C#, Figura 4: Progreso de la instalación en la pestaña Consola del gestor de paquetes

Progreso de la instalación en la pestaña de la Consola del Gestor de Paquetes

Después de la instalación, verá la dependencia IronPDF en la sección dependencias del Explorador de soluciones, como se muestra a continuación.

Cómo extraer datos de archivos PDF en C#, Figura 5: Referencia al paquete IronPdf en el Explorador de soluciones

Consulte el paquete IronPdf en el Explorador de soluciones.

Uso del gestor de paquetes NuGet

Otra forma de instalar la biblioteca IronPDF es utilizando la interfaz de usuario integrada del gestor de paquetes NuGet de Visual Studio.

Vaya a Herramientas desde el menú principal. Pase el ratón sobre "NuGet Package Manager" en el menú desplegable y seleccione la "Solución NuGet Package Manager".
Navegue hasta el Gestor de paquetes NuGet.
Se abrirá la ventana del Gestor de paquetes NuGet. Ve a la pestaña Examinar, escribe IronPdf en buscar y pulsa Intro.
Seleccione IronPDF en los resultados de la búsqueda y haga clic en el botón "Instalar" para comenzar la instalación.
Instalar el paquete IronPdf desde el gestor de paquetes NuGet

Extraer datos de archivos PDF

Echemos un vistazo al siguiente código sobre cómo extraer datos utilizando IronPDF:

//Convertir documentos PDF en imágenes o miniaturas
using IronPdf;
using System.Drawing;

//    Extracción de contenido de imagen y texto de documentos Pdf

//  abrir un PDF encriptado a 128 bits
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Obtener todo el texto para ponerlo en un índice de búsqueda
string AllText = pdf.ExtractAllText();

//Obtener todas las imágenes
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//O incluso encontrar el texto y las imágenes precisas para cada página del documento
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

//Convertir documentos PDF en imágenes o miniaturas
using IronPdf;
using System.Drawing;

//    Extracción de contenido de imagen y texto de documentos Pdf

//  abrir un PDF encriptado a 128 bits
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Obtener todo el texto para ponerlo en un índice de búsqueda
string AllText = pdf.ExtractAllText();

//Obtener todas las imágenes
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//O incluso encontrar el texto y las imágenes precisas para cada página del documento
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

'Convertir documentos PDF en imágenes o miniaturas
Imports IronPdf
Imports System.Drawing

'    Extracción de contenido de imagen y texto de documentos Pdf

'  abrir un PDF encriptado a 128 bits
Private PdfDocument As using

'Obtener todo el texto para ponerlo en un índice de búsqueda
Private AllText As String = pdf.ExtractAllText()

'Obtener todas las imágenes
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'O incluso encontrar el texto y las imágenes precisas para cada página del documento
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index

VB C#

En primer lugar, el DesdeArchivo se utiliza para cargar el documento PDF de entrada en el programa. Se proporciona un archivo PDF encriptado, necesitando una contraseña para acceder al archivo. A continuación, se extraen los datos de texto mediante la función ExtraerTodoTexto para extraer todos los datos de texto en una variable String. A partir de aquí, PdfDocument ofrece muchas funcionalidades: imprimirlo como texto sin formato volcarlo en un archivo TXT, almacenarlo en una base de datos, etc.

IronPDF puede extraer texto de tablas PDF para su inclusión en uno o varios Archivos CSV.

La línea 11 utiliza el Extraer todas las imágenes para extraer todas las imágenes incrustadas del documento PDF.

IronPDF también puede extraer contenido de páginas PDF específicas. Las líneas de código restantes del ejemplo anterior muestran cómo utilizar la función ExtraerTextoDePágina y ExtraerImágenesDePágina para obtener el texto y las imágenes de un subconjunto de páginas. Ambos métodos aceptan un argumento entero que representa el índice de base cero de la página deseada.

Conclusión

IronPDF permite a los desarrolladores extraer texto e imágenes de archivos PDF en tan sólo una línea de código, utilizando ExtractAllText y ExtractAllImages para extraer todo el contenido de un archivo PDF al instante. Alternativamente, si llama a ExtractAllImage o ExtractAllText obtendrá el texto y las imágenes de una página PDF en concreto. El código de ejemplo anterior mostraba cómo utilizar ambos métodos para leer texto e imágenes de una serie de páginas.

Además, IronPDF también es capaz de representación de gráficos en PDF, añadir códigos de barras, mejorar la seguridad con contraseñas y marca de agua e incluso gestión de formularios PDF mediante programación.

IronPDF es completamente gratuito para el desarrollo. Aunque para el uso comercial es necesario pagar, puede acceder al prueba gratuita para la producción sin ningún pago.

Comprar el suite completa de las bibliotecas de documentos de Iron Software por el precio de dos Licencias ironPDF Lite.

Descargar IronPDF para empezar a extraer datos de PDF hoy mismo!

< ANTERIOR
C# Extraer Texto De PDF (Tutorial De Ejemplo De Código)

SIGUIENTE >
Cómo añadir números de página en PDF usando C#