Leer archivos PDF en C#

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

Leer archivos PDF en C#

Extraer texto e imágenes puede facilitar la migración de datos al pasar de un formato de documento a otro. El contenido extraído se puede conservar en un formato más accesible y editable, reduciendo el riesgo de pérdida de datos.

Las imágenes y el texto incrustados se pueden extraer independientemente del documento PDF. El texto extraído estará en una cadena normal, mientras que las imágenes extraídas estarán en formato de búfer de imagen y luego se pueden exportar o procesar más.

Utilice el método extractText para extraer texto, y el método extractRawImages para extraer imágenes de un documento PDF.

Aquí hay un ejemplo corregido y comentado de cómo puede hacer esto:

En el código C# anterior:

Usamos la biblioteca IronPDF para cargar un documento PDF.
Se invoca el método ExtractText() para recuperar texto del PDF. Este texto se muestra en la consola.
Se utiliza el método ExtractImages() para extraer imágenes, las cuales se almacenan en arreglos de bytes. Cada imagen se guarda luego en el sistema de archivos con un nombre de archivo especificado.

Para obtener instrucciones más detalladas sobre cómo usar estos métodos, visite la Documentación de IronPDF.

Más información sobre la lectura de texto PDF con IronPDF