Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Este tutorial presenta cómo extraer mediante programación textos e imágenes de archivos PDF con el soporte de primera clase de IronPDF.
FromFile
método parsear archivo PDF en VB.NETExtraerTodoTexto
métodoExtraerTextoDePáginas
método to extract text from certain pagesExtractRawImagesFromPage
métodoEficaz conversión de PDF. Casi todo lo que puede hacer una máquina, también lo puede hacer IronPDF. Gracias a esta biblioteca PDF, los desarrolladores pueden crear, leer contenido de texto, escribir, cargar y manipular PDF rápidamente.
IronPDF convierte HTML en un registro PDF con la ayuda de la utilización del motor de Chrome. Junto con Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms y WPF. IronPDF también es compatible con aplicaciones Xamarin, Blazor, Unity y HoloLense. IronPDF es compatible con aplicaciones Microsoft .NET y .NET Core (Paquetes web ASP.NET y paquetes Windows convencionales). IronPDF puede utilizarse para crear PDF estéticamente atractivos.
IronPDF puede crear un PDF utilizando HTML5, JavaScript, CSS e imágenes. IronPDF también dispone de un potente conversor de HTML a PDF que se integra con PDF. IronPDF cuenta con un potente mecanismo de conversión de PDF que utiliza el motor de renderizado Chromium. Además, no está conectado a ninguna fuente externa.
Puede crear un archivo PDF a partir de un archivo CSS.
Para más información, visite página para obtener una clave limitada gratuita y una versión profesional.
IronPDF- Formato de fuente
IronPDF también puede leer y extraer texto de archivos PDF con la ayuda de las bibliotecas IronPDF. A continuación se muestra un patrón de código IronPDF que puede utilizarse para examinar archivos PDF presentes.
El siguiente ejemplo de código demuestra el primer método para adquirir todo el contenido del PDF como una cadena con sólo unas pocas líneas.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
El código de ejemplo anterior muestra cómo utilizar el método FromFile
para leer un PDF de un archivo existente y convertirlo en un objeto de documento PDF. El objeto proporciona un método llamado ExtraerTodoTexto que extraerá texto plano del PDF y lo convertirá en una cadena.
El siguiente código de ejemplo muestra cómo extraer datos de un archivo PDF utilizando el número de página.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
El código anterior muestra cómo leer un PDF de un archivo existente y convertirlo en un objeto de documento PDF utilizando la función DesdeArchivo
función. A través de este objeto se puede acceder a textos e imágenes en el PDF. El objeto ofrece un método llamado ExtraerTextoDePágina que permite enviar un número de página como parámetro para obtener una cadena que contiene cada palabra que había en la página del PDF.
El siguiente código muestra cómo extraer los datos entre varias páginas.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
El código anterior muestra cómo utilizar el método FromFile
para leer un PDF de un archivo existente y convertirlo en un objeto de documento PDF. Este objeto permite examinar el texto y las imágenes de un PDF. El objeto tiene un método llamado ExtraerTextoDePáginas se puede utilizar para obtener una cadena que incluya todo el contenido de texto de una página determinada del documento pasando una lista de números de página como parámetro. Abajo a la izquierda está el PDF de origen y a la derecha los datos extraídos.
Extraer texto entre páginas
IronPDF proporciona una lista de métodos para extraer imágenes como:
ExtractBitmapsFromPages
(Extraer mapas de bits de páginas) (Extraer mapas de bits de páginas)ExtractRawImagesFromPage
(Extraer imágenes brutas de la página) (Extraer imágenes brutas de la página)ExtraerImágenesBrutasDePáginas
Cada método permite extraer imágenes de una página o de varias páginas del documento.
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
El código anterior muestra cómo leer un documento de un archivo existente y convertirlo en un objeto de documento PDF utilizando la función FromFile
. Pasando una lista de números de página al método ExtractRawImagesFromPage
del objeto, se puede obtener una lista de bytes que contiene cada imagen presente en una página determinada del documento. Utilizando un bucle foreach
para manejar cada byte y convertirlo en un flujo de memoria. A continuación, en un mapa de bits, lo que ayuda a guardar la imagen. La siguiente imagen muestra la salida del código anterior.
Extraer imágenes de archivos PDF
Para obtener más información sobre el tutorial de código de la API IronPDF, consulte la página páginas de documentación. También puedes visitar otros tutoriales para aprender a analizar texto PDF con C#.
La licencia de desarrollo de la biblioteca IronPDF es gratuita. Si se utiliza IronPDF en un entorno de producción, pueden adquirirse distintas licencias en función de las necesidades del desarrollador. El plan Lite cuesta a partir de $749 y no tiene costes fijos. También se ofrecen alternativas de redistribución SaaS y OEM. Todas las licencias incluyen actualizaciones, un año de soporte del producto y una licencia permanente. También son útiles para la fabricación, la puesta en escena y el desarrollo. Se trata de una compra única. Existen otras licencias gratuitas de duración limitada. Visita esta página página de licencias para leer todos los detalles sobre precios y licencias de IronPDF. IronPDF también ofrece licencias gratuitas para la protección anticopia.
9 productos API .NET para sus documentos de oficina