Leer archivos PDF en C#
Extraer texto e imágenes puede facilitar la migración de datos al pasar de un formato de documento a otro. El contenido extraído se puede conservar en un formato más accesible y editable, reduciendo el riesgo de pérdida de datos.
Las imágenes y el texto incrustados se pueden extraer independientemente del documento PDF. El texto extraído estará en una cadena normal, mientras que las imágenes extraídas estarán en formato de búfer de imagen y luego se pueden exportar o procesar más.
Utilice el método extractText para extraer texto y el método extractRawImages para extraer imágenes de un documento PDF.
Aquí hay un ejemplo corregido y comentado de cómo puede hacer esto:
En el código C# anterior:
- Usamos la biblioteca IronPDF para cargar un documento PDF.
- Se invoca el método
ExtractText()para recuperar texto del PDF. Este texto se muestra en la consola. - Se utiliza el método
ExtractImages()para extraer imágenes, que se almacenan en matrices de bytes. Cada imagen se guarda luego en el sistema de archivos con un nombre de archivo especificado.
Para obtener instrucciones más detalladas sobre cómo usar estos métodos, visite la Documentación de IronPDF.




