Java'da PDF'leri Analiz Etme Yöntemi (Geliştirici Eğitimi)
Bu makale, Java'da verimli bir yaklaşım kullanarak IronPDF Kütüphanesi ile bir PDF ayrıştırıcı oluşturacaktır.
IronPDF - Java PDF Kütüphanesi
IronPDF for Java, PDF belgelerinin oluşturulmasını, okunmasını ve kolaylıkla ve doğrulukla manipüle edilmesini sağlayan bir Java PDF kütüphanesidir. IronPDF for .NET'in başarısı üzerine inşa edilmiş olup, çeşitli platformlarda etkin işlevsellik sağlar. IronPDF for Java, hızlı ve performans için optimize edilmiş olan IronPdfEngine kullanır.
IronPDF ile PDF dosyalarınızdan metin ve resim çıkarabilir ve ayrıca farklı kaynaklardan, HTML dizeleri, dosyalar, URL'ler ve resimler dahil olmak üzere PDF'ler oluşturmanıza olanak tanır. Ayrıca yeni içerik ekleyebilir, IronPDF ile imzalar ekleyebilir, ve PDF belgelerine meta verileri gömebilirsiniz. IronPDF, özellikle Java 8+, Scala, ve Kotlin için tasarlanmış olup, Windows, Linux ve Cloud platformları ile uyumludur.
Java'da bir PDF Dosyasını Ayrıştırma
- Bir PDF dosyasını ayrıştırmak için Java kütüphanesini indirin
fromFileyöntemi kullanarak mevcut bir PDF belgesini yükleyinextractAllTextyöntemini kullanarak ayrıştırılmış PDF'den tüm metni çıkarınrenderUrlAsPdfyöntemini kullanarak bir URL'den bir PDF oluşturarak işlem yapın- parse edilen PDF'den
extractAllImagesyöntemi kullanarak resimleri çıkarın
Java Programında IronPDF kullanarak PDF Dosya Ayrıştırıcı Oluşturma
Önkoşullar
Java'da bir PDF Ayrıştırma projesi yapmak için aşağıdaki araçlara ihtiyaçınız olacak:
- Java IDE: Java destekli herhangi bir IDE'yi kullanabilirsiniz. Geliştirme için birden fazla Java IDE mevcut. Bu öğretici, IntelliJ IDE kullanıyor. NetBeans, Eclipse vb. kullanabilirsiniz.
- Maven Projesi: Maven, bir bağımlılık yöneticisidir ve Java projesi üzerinde kontrol sağlar. Java için Maven Maven resmi web sitesinden indirilebilir. IntelliJ Java IDE'sinde Maven için yerleşik destek vardır.
-
IronPDF - IronPDF for Java'yı birçok yolla indirip yükleyebilirsiniz.
-
IronPDF bağımlılığını bir Maven projesindeki
pom.xmldosyasına eklemek.<dependency> <groupId>com.ironsoftware</groupId> <artifactId>ironpdf</artifactId> <version>[LATEST_VERSION]</version> </dependency><dependency> <groupId>com.ironsoftware</groupId> <artifactId>ironpdf</artifactId> <version>[LATEST_VERSION]</version> </dependency>XML - Java için en son IronPDF paketini Maven depoları web sitesine giderek bulun.
- Iron Software'in resmi indirme sayfasından doğrudan indirilebilir.
- Sade bir Java uygulamanıza JAR dosyası kullanarak IronPDF'yi manuel olarak kurun.
-
-
Slf4j-Simple: Mevcut bir belgeye içerik damgalamak için bu bağımlılık da gereklidir. Bu, IntelliJ'deki Maven bağımlılık yöneticisini kullanarak eklenebilir veya doğrudan Maven web sitesinden indirilebilir. Aşağıdaki bağımlılığı
pom.xmldosyasına ekleyin:<dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>2.0.5</version> </dependency><dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>2.0.5</version> </dependency>XML
Gerekli İçe Aktarımları Eklemek
Tüm ön koşullar kurulduktan sonra, ilk adım, bir PDF belgesi ile çalışmak için gerekli IronPDF paketlerini içe aktarmaktır. Aşağıdaki kodu Main.java dosyasının üstüne ekleyin:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
Lisans Anahtarı
IronPDF'de mevcut bazı yöntemler, kullanılması için lisans gerektirir. Bir lisans satın alabilir veya ücretsiz bir deneme lisansıyla IronPDF'yi ücretsiz deneyebilirsiniz. Anahtar aşağıdaki şekilde ayarlanabilir:
License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
Adım 1: Mevcut bir PDF belgesini ayrıştırın
Mevcut bir belgeyi içerik çıkarmak için ayrıştırmak amacıyla PdfDocument sınıfı kullanılır. Java programında belirli bir yol ve dosya adı ile bir PDF dosyasını ayrıştırmak için statik fromFile yöntemi kullanılır. Kod aşağıdaki gibidir:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
Ayrıştırılmış belge
Adım 2: Ayrıştırılan PDF dosyasından Metin Verilerini Çıkarın
Java için IronPDF, PDF belgelerinden metin çıkarma için kolay bir yöntem sağlar. Aşağıdaki kod parçası PDF dosyasından metin verileri çıkartmak içindir:
String extractedText = parsedDocument.extractAllText();
String extractedText = parsedDocument.extractAllText();
Yukarıdaki kod aşağıdaki çıktıyı üretir:
Çıktı
Adım 3: URL'lerden veya HTML Dizesinden Metin Verilerini Çıkarın
Java için IronPDF'in yetenekleri yalnızca mevcut PDF'lerle sınırlı değildir, aynı zamanda yeni bir dosya oluşturarak ve ayrıştırarak içerik çıkarabilir. Bu öğretici burada bir URL'den bir PDF dosyası oluşturup bundan içerik çıkaracaktır. Aşağıdaki örnek bu görevi nasıl gerçekleştireceğinizi gösterir:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extractedText = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extractedText);
}
}
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extractedText = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extractedText);
}
}
Çıktı aşağıdaki gibidir:
Çıktı
Adım 4: Ayrıştırılmış PDF Belgesinden Resimler Çıkarın
IronPDF ayrıca ayrıştırılmış belgelerden tüm resimleri çıkartmak için kolay bir seçenek sunar. Önceki örnek kullanılarak PDF dosyalarından resimlerin ne kadar kolay çıkartıldığını görmek için bu öğreticiyi kullanacağız.
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
}
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
}
extractAllImages) yöntemi bir BufferedImages listesi döndürür. Her BufferedImage daha sonra ImageIO.write yöntemi kullanılarak bir konumda PNG görüntüleri olarak saklanabilir. Ayrıştırılan PDF dosyasında 34 resim bulunmaktadır ve her resim mükemmel bir şekilde çıkartılmıştır.
Çıkartılmış resimler
Adım 5: PDF Dosyalarındaki Tablodan Verileri Çıkarın
PDF dosyasındaki tablolama sınırlarından içerik çıkarmak, extractAllText yöntemi ile sadece tek satırlık bir kodla kolaylaştırılır. Aşağıdaki kod parçası bir PDF dosyasındaki tablodan metin çıkartmayı gösterir:
PDF'deki Tablo
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
Çıktı aşağıdaki gibidir:
Çıktı
Sonuç
Bu makale, Java'da IronPDF kullanarak mevcut bir PDF belgesini ayrıştırmayı veya bir URL'den yeni bir PDF ayrıştırıcı dosyası oluşturup ondan veri çıkarmayı gösterdi. Dosya açıldıktan sonra, PDF'den tablo verileri, resimler ve metin çıkartabilir ve sonrasında çıkartılan metni daha sonra kullanmak üzere bir metin dosyasına ekleyebilir.
Java'da PDF dosyalarıyla programatik olarak çalışmayı daha detaylı nasıl yapacağınız hakkında bilgi almak için PDF dosyası oluşturma örneklerine göz atabilirsiniz.
Java için IronPDF kütüphanesi, geliştirme amaçları için ücretsiz bir deneme lisansı ile ücretsizdir. Ancak, ticari kullanım için IronSoftware aracılığıyla lisanslanabilir, başlangıç olarak $799.
Sıkça Sorulan Sorular
Java'da bir PDF ayrıştırıcısı nasıl oluştururum?
Java'da bir PDF ayrıştırıcısı oluşturmak için IronPDF kütüphanesini kullanabilirsiniz. IronPDF'yi indirip kurarak başlayın, ardından fromFile yöntemiyle PDF belgenizi yükleyin. extractAllText ve extractAllImages yöntemleriyle sırasıyla metin ve görüntüleri çıkarabilirsiniz.
IronPDF, Java 8+ ile kullanılabilir mi?
Evet, IronPDF, Java 8 ve üstü sürümlerle uyumludur ve ayrıca Scala ve Kotlin'i destekler. Windows, Linux ve Bulut ortamlar dahil olmak üzere birden çok platformu destekler.
IronPDF kullanarak Java'da PDF'leri ayrıştırmanın ana adımları nelerdir?
Ana adımlar, bir Maven projesi oluşturmayı, IronPDF bağımlılığını eklemeyi, bir PDF belgesini fromFile ile yüklemeyi, extractAllText ile metin çıkarmayı ve extractAllImages ile görüntü çıkarmayı içerir.
Java'da bir URL'yi PDF'ye nasıl dönüştürebilirim?
IronPDF'nin renderUrlAsPdf yöntemini kullanarak Java'da bir URL'yi PDF'ye dönüştürebilirsiniz. Bu, web sayfalarını PDF belgeleri olarak verimli şekilde görüntülemenizi sağlar.
IronPDF, bulut tabanlı Java uygulamaları için uygun mu?
Evet, IronPDF, bulut tabanlı ortamları destekleyecek şekilde tasarlanmıştır, bu da bulut ortamında PDF işlevsellikleri gerektiren Java uygulamaları geliştirme için uygundur.
Java PDF ayrıştırma projesi için bağımlılıkları nasıl yönetirim?
Java projesinde bağımlılıkları yönetmek için Maven kullanabilirsiniz. IronPDF kütüphanesini projenizin pom.xml dosyasına ekleyerek bunu bir bağımlılık olarak dahil edin.
IronPDF için hangi lisanslama seçenekleri mevcuttur?
IronPDF, geliştirme amaçları için ücretsiz deneme sunar. Ancak, ticari kullanım için lisans gereklidir. Bu, tüm özelliklere erişimi ve öncelikli desteği güvence altına alır.




