Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Cet article va créer un analyseur PDF en Java en utilisant la bibliothèque IronPDF de manière efficace.
IronPDF for Java est une bibliothèque Java PDF qui permet la création, la lecture et la manipulation de documents PDF avec facilité et précision. Il s'appuie sur le succès d'IronPDF for .NET et offre des fonctionnalités efficaces sur différentes plates-formes. IronPDF for Java utilise leIronPdfEngine
le logiciel est rapide et optimisé pour la performance.
Avec IronPDF, vous pouvezextraire du texte et des images de fichiers PDF et il permet égalementcréer des PDF à partir de diverses sources y compris les chaînes HTML, les fichiers, les URL et les images. En outre, vous pouvez facilement ajouter du nouveau contenu,insérer des signatures avec IronPDFetintégrer des métadonnées dans des documents PDF. IronPDF est spécifiquement conçu pour Java 8+, Scala et Kotlin, et est compatible avec les plateformes Windows, Linux et Cloud.
fromFile
méthodeextraireToutTexte
méthoderenderUrlAsPdf
pour restituer un PDF à partir d'une URLextraireToutesImages
méthodePour réaliser un projet PDF Parsing en Java, vous aurez besoin des outils suivants :
Java IDE : Vous pouvez utiliser n'importe quel IDE compatible avec Java. Plusieurs IDE Java sont disponibles pour le développement. Ici, ce tutoriel utiliseraIntelliJ IDE. Vous pouvez utiliser NetBeans, Eclipse, etc.
Projet Maven : Maven est un gestionnaire de dépendances et permet de contrôler le projet Java. Maven pour Java peut être téléchargé à l'adresse suivantele site officiel de Maven. IDE Java IntelliJ a un support intégré pour Maven.
IronPDF - Vous pouvez télécharger et installer IronPDF for Java de plusieurs façons.
pom.xml
dans un projet Maven. :ProductInstall
Visitez le siteSite web du dépôt Maven pour le dernier paquetage IronPDF pour Java.
Un téléchargement direct depuis le site d'Iron Softwarepage de téléchargement officielle.
pom.xml
: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
Une fois que toutes les conditions préalables sont installées, la première étape consiste à importer les packages IronPDF nécessaires pour travailler avec un document PDF. Ajoutez le code suivant en haut du fichier Main.java
:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
Certaines méthodes disponibles dans IronPDF nécessitent une licence pour être utilisées. Vous pouvez acheter une licence ou essayer IronPDF gratuitement dans le cadre d'une version d'essai. Vous pouvez régler la touche comme suit :
License.setLicenseKey("YOUR-KEY");
Pour analyser un document existant afin d'extraire le contenu, lePdfDocument
classe est utilisée. Son statiquefromFile
La méthode est utilisée pour analyser un fichier PDF à partir d'un chemin spécifique avec un nom de fichier spécifique dans un programme Java. Le code est le suivant :
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
Document analysé
IronPDF for Java fournit une méthode simple pourextraction de texte à partir de documents PDF. L'extrait de code suivant permet d'extraire des données textuelles d'un fichier PDF :
String extracted_text = parsedDocument.extractAllText();
Le code ci-dessus produit la sortie indiquée ci-dessous :
Sortie
Les capacités d'IronPDF for Java ne se limitent pas aux PDF existants, mais peuvent également créer et analyser un nouveau fichier pour en extraire le contenu. Voici, ce tutoriel va créer unCréer un fichier PDF à partir d'une URL et en extraire le contenu. L'exemple suivant montre comment réaliser cette tâche :
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
Le résultat est le suivant :
Sortie
IronPDF offre également une option facile pourextraire toutes les images des documents analysés. Ici, le tutoriel utilisera l'exemple précédent pour voir à quel point il est facile d'extraire les images des fichiers PDF.
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
Les[extractAllImages
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())La méthode renvoie une liste de BufferedImages
. Chaque BufferedImage
peut alors être stockée en tant qu'image PNG sur un emplacement en utilisant la méthode ImageIO.write
. Le fichier PDF analysé contient 34 images et chaque image est parfaitement extraite.
Images extraites
L'extraction de contenu à partir de frontières tabulaires dans un fichier PDF est facilitée avec une seule ligne de code en utilisant le[méthode extractAllText
(extraction de tous les textes)](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). L'extrait de code suivant montre comment extraire du texte d'un tableau dans un fichier PDF :
Table dans PDF
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
Le résultat est le suivant :
Sortie
Cet article a démontré comment analyser un document PDF existant ou créer un nouveau fichier analyseur PDF à partir d'une URL pour en extraire des données en Java en utilisant IronPDF. Après ouverture du fichier, il peut extraire des données tabulaires, des images et du texte du PDF, et peut également ajouter le texte extrait à un fichier texte pour une utilisation ultérieure.
Pour des informations plus détaillées sur la manière de travailler avec des fichiers PDF par programmation en Java, veuillez consulter les sites suivantsExemples de création de fichiers PDF.
La bibliothèque IronPDF for Java est gratuite à des fins de développement, moyennant une redevance deessai gratuit disponible. Toutefois, pour un usage commercial, il peut êtresous licence IronSoftwareà partir de $749.
9 produits de l'API .NET pour vos documents de bureau