Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Este artículo explorará cómo extraer imágenes de un documento PDF existente y guardarlas en una sola carpeta utilizando el lenguaje de programación Java. Para este propósito, se utiliza la biblioteca IronPDF for Java para extraer imágenes.
extractAllImages
método para extraer las imágenesIronPDF es una biblioteca Java diseñada para ayudar a los desarrolladores a generar, modificar yextraer datos de archivos PDFdentro de sus aplicaciones Java. Con IronPDF, puedes crear documentos PDF a partir de una variedad de fuentes, como HTML, imágenes y más. Además, tienes la capacidad defusionar, dividiry manipular PDFs existentes. IronPDF también incluye funciones de seguridad, tales comoprotección por contraseña yfirmas digitales.
Desarrollado y mantenido por Iron Software, IronPDF es conocido por su capacidad para extraer texto de PDFs, HTML y URLs. Esto la convierte en una herramienta versátil y potente para una gran variedad de aplicaciones, tanto si crea PDF desde cero como si trabaja con otros ya existentes.
Antes de utilizar IronPDF para extraer datos de un archivo PDF, deben cumplirse algunos requisitos previos:
Instalación de Java: Asegúrese de que Java está instalado en su sistema y de que su ruta se ha establecido en las variables de entorno. Si aún no ha instalado Java, siga las instrucciones que se indican a continuaciónpágina de descarga del sitio web de Java.
IDE de Java: Tenga instalado Eclipse o IntelliJ como IDE de Java. Puede descargar Eclipse desdeenlace e IntelliJ de estepágina de descarga.
Biblioteca IronPDF: Descargue y añada la biblioteca IronPDF a su proyecto como dependencia. Para obtener instrucciones de configuración, visite la páginaSitio web de IronPDF.
La instalación de IronPDF for Java es un proceso sencillo, siempre que se cumplan todos los requisitos. Esta guía utilizará JetBrains IntelliJ IDEA para demostrar la instalación y ejecutar algún código de muestra.
Esto es lo que hay que hacer:
Inicie IntelliJ IDEA: Abra JetBrains IntelliJ IDEA en su sistema.
Crear un proyecto Maven: En IntelliJ IDEA, crea un nuevo proyecto Maven. Esto proporcionará un entorno adecuado para la instalación de IronPDF for Java.
Crear un nuevo proyecto Maven
Aparecerá una nueva ventana. Introduzca el nombre del proyecto y haga clic en Finalizar.
Ingrese el nombre del proyecto
Después de hacer clic en Finalizar, se abrirá un nuevo proyecto en un archivo pom.xml
para agregar las dependencias de Maven de IronPDF for Java.
A continuación, añade las siguientes dependencias en el archivo pom.xml
o puedes descargar el archivo JAR desde el siguiente enlace.Repositorio Maven.
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>com.ironsoftware</artifactId>
<version>2024.11.4</version>
</dependency>
Una vez que coloques las dependencias en el archivo pom.xml
, aparecerá un pequeño icono en la esquina superior derecha del archivo.
El archivo pom.xml con un pequeño ícono para instalar dependencias
Haga clic en este icono para instalar las dependencias Maven de IronPDF for Java. Esto sólo le llevará unos minutos, dependiendo de su conexión a Internet.
Puede extraer imágenes de un documento PDF utilizando IronPDF con un único método llamado[extraerTodasLasImágenes
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()). Este método devuelve todas las imágenes disponibles en un archivo PDF. Después, puede guardar todas las imágenes extraídas en la ruta de archivo de su elección utilizando el método ImageIO.write
proporcionando la ruta y el formato de la imagen de salida.
En el siguiente ejemplo, las imágenes de un documento PDF serán extraídas y guardadas en el sistema de archivos como imágenes PNG.
import com.ironsoftware.ironpdf.PdfDocument;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public class main {
public static void main(String[] args) throws Exception {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("Final Project Report Craft Arena.pdf"));
List<BufferedImage> images = pdf.extractAllImages();
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("image" + ++i + ".png")));
}
}
}
El programa anterior abre el archivo "Final Project Report Craft Arena.pdf" y utiliza el método extractAllImages
para extraer todas las imágenes del archivo en una lista de objetos BufferedImage
. A continuación, guarda cada nueva imagen de archivo en archivos PNG independientes con un nombre único.
Extracción de Imágenes del PDF
Esta sección discutirá cómo extraer imágenes directamente desde URL. En el siguiente código, la URL se convierte en una página PDF y luego se activa la navegación para extraer imágenes del PDF.
import com.ironsoftware.ironpdf.PdfDocument;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public class main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://www.amazon.com/?tag=hp2-brobookmark-us-20");
List<BufferedImage> images = pdf.extractAllImages();
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("image" + ++i + ".png")));
}
}
}
En el código anterior, se proporciona la URL de la página de inicio de Amazon como entrada, y devuelve 74 imágenes.
Extracción de Imágenes del PDF
La extracción de imágenes de un documento PDF puede hacerse en Java utilizando la biblioteca IronPDF. Para instalar IronPDF, necesita tener Java, un IDE Java(Eclipse o IntelliJ)Maven, y la biblioteca IronPDF instalada e integrada en su proyecto. El proceso de extracción de imágenes de un documento PDF mediante IronPDF es sencillo y requiere una única llamada al método extractAllImages
. A continuación, puede guardar las imágenes en una ruta de archivo de su elección utilizando el método ImageIO.write
.
Este artículo ofrece una guía paso a paso sobrecómo extraer imágenes de un documento PDF utilizando Java y la biblioteca IronPDF. Encontrará más detalles, incluida información sobre cómo extraer texto de los PDF, en la páginaExtraer texto Ejemplo de código.
IronPDF es una biblioteca conlicencia comerciala partir de $749. Sin embargo, puedes evaluarlo en producción conuna prueba gratuita.
9 productos API .NET para sus documentos de oficina