Altbilgi içeriğine atla
JAVA IçIN IRONPDF KULLANıMı

Java'da PDF'leri Analiz Etme Yöntemi (Geliştirici Eğitimi)

Bu makale, Java'da verimli bir yaklaşım kullanarak IronPDF Kütüphanesi ile bir PDF ayrıştırıcı oluşturacaktır.

IronPDF - Java PDF Kütüphanesi

IronPDF for Java, PDF belgelerinin oluşturulmasını, okunmasını ve kolaylıkla ve doğrulukla manipüle edilmesini sağlayan bir Java PDF kütüphanesidir. IronPDF for .NET'in başarısı üzerine inşa edilmiş olup, çeşitli platformlarda etkin işlevsellik sağlar. IronPDF for Java, hızlı ve performans için optimize edilmiş olan IronPdfEngine kullanır.

IronPDF ile PDF dosyalarınızdan metin ve resim çıkarabilir ve ayrıca farklı kaynaklardan, HTML dizeleri, dosyalar, URL'ler ve resimler dahil olmak üzere PDF'ler oluşturmanıza olanak tanır. Ayrıca yeni içerik ekleyebilir, IronPDF ile imzalar ekleyebilir, ve PDF belgelerine meta verileri gömebilirsiniz. IronPDF, özellikle Java 8+, Scala, ve Kotlin için tasarlanmış olup, Windows, Linux ve Cloud platformları ile uyumludur.

Java Programında IronPDF kullanarak PDF Dosya Ayrıştırıcı Oluşturma

Önkoşullar

Java'da bir PDF Ayrıştırma projesi yapmak için aşağıdaki araçlara ihtiyaçınız olacak:

  1. Java IDE: Java destekli herhangi bir IDE'yi kullanabilirsiniz. Geliştirme için birden fazla Java IDE mevcut. Bu öğretici, IntelliJ IDE kullanıyor. NetBeans, Eclipse vb. kullanabilirsiniz.
  2. Maven Projesi: Maven, bir bağımlılık yöneticisidir ve Java projesi üzerinde kontrol sağlar. Java için Maven Maven resmi web sitesinden indirilebilir. IntelliJ Java IDE'sinde Maven için yerleşik destek vardır.
  3. IronPDF - IronPDF for Java'yı birçok yolla indirip yükleyebilirsiniz.

    • IronPDF bağımlılığını bir Maven projesindeki pom.xml dosyasına eklemek.

      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      XML
    • Java için en son IronPDF paketini Maven depoları web sitesine giderek bulun.
    • Iron Software'in resmi indirme sayfasından doğrudan indirilebilir.
    • Sade bir Java uygulamanıza JAR dosyası kullanarak IronPDF'yi manuel olarak kurun.
  4. Slf4j-Simple: Mevcut bir belgeye içerik damgalamak için bu bağımlılık da gereklidir. Bu, IntelliJ'deki Maven bağımlılık yöneticisini kullanarak eklenebilir veya doğrudan Maven web sitesinden indirilebilir. Aşağıdaki bağımlılığı pom.xml dosyasına ekleyin:

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    XML

Gerekli İçe Aktarımları Eklemek

Tüm ön koşullar kurulduktan sonra, ilk adım, bir PDF belgesi ile çalışmak için gerekli IronPDF paketlerini içe aktarmaktır. Aşağıdaki kodu Main.java dosyasının üstüne ekleyin:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

Lisans Anahtarı

IronPDF'de mevcut bazı yöntemler, kullanılması için lisans gerektirir. Bir lisans satın alabilir veya ücretsiz bir deneme lisansıyla IronPDF'yi ücretsiz deneyebilirsiniz. Anahtar aşağıdaki şekilde ayarlanabilir:

License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
JAVA

Adım 1: Mevcut bir PDF belgesini ayrıştırın

Mevcut bir belgeyi içerik çıkarmak için ayrıştırmak amacıyla PdfDocument sınıfı kullanılır. Java programında belirli bir yol ve dosya adı ile bir PDF dosyasını ayrıştırmak için statik fromFile yöntemi kullanılır. Kod aşağıdaki gibidir:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

Javada PDF Nasıl Ayrıştırılır (Geliştirici Eğitimi), Şekil 1: Ayrıştırılmış belge Ayrıştırılmış belge

Adım 2: Ayrıştırılan PDF dosyasından Metin Verilerini Çıkarın

Java için IronPDF, PDF belgelerinden metin çıkarma için kolay bir yöntem sağlar. Aşağıdaki kod parçası PDF dosyasından metin verileri çıkartmak içindir:

String extractedText = parsedDocument.extractAllText();
String extractedText = parsedDocument.extractAllText();
JAVA

Yukarıdaki kod aşağıdaki çıktıyı üretir:

Javada PDF Nasıl Ayrıştırılır (Geliştirici Eğitimi), Şekil 2: Çıktı Çıktı

Adım 3: URL'lerden veya HTML Dizesinden Metin Verilerini Çıkarın

Java için IronPDF'in yetenekleri yalnızca mevcut PDF'lerle sınırlı değildir, aynı zamanda yeni bir dosya oluşturarak ve ayrıştırarak içerik çıkarabilir. Bu öğretici burada bir URL'den bir PDF dosyası oluşturup bundan içerik çıkaracaktır. Aşağıdaki örnek bu görevi nasıl gerçekleştireceğinizi gösterir:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
JAVA

Çıktı aşağıdaki gibidir:

Javada PDF Nasıl Ayrıştırılır (Geliştirici Eğitimi), Şekil 3: Çıktı Çıktı

Adım 4: Ayrıştırılmış PDF Belgesinden Resimler Çıkarın

IronPDF ayrıca ayrıştırılmış belgelerden tüm resimleri çıkartmak için kolay bir seçenek sunar. Önceki örnek kullanılarak PDF dosyalarından resimlerin ne kadar kolay çıkartıldığını görmek için bu öğreticiyi kullanacağız.

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
JAVA

extractAllImages) yöntemi bir BufferedImages listesi döndürür. Her BufferedImage daha sonra ImageIO.write yöntemi kullanılarak bir konumda PNG görüntüleri olarak saklanabilir. Ayrıştırılan PDF dosyasında 34 resim bulunmaktadır ve her resim mükemmel bir şekilde çıkartılmıştır.

Javada PDF Nasıl Ayrıştırılır (Geliştirici Eğitimi), Şekil 4: Ayrıştırılmış resimler Çıkartılmış resimler

Adım 5: PDF Dosyalarındaki Tablodan Verileri Çıkarın

PDF dosyasındaki tablolama sınırlarından içerik çıkarmak, extractAllText yöntemi ile sadece tek satırlık bir kodla kolaylaştırılır. Aşağıdaki kod parçası bir PDF dosyasındaki tablodan metin çıkartmayı gösterir:

Javada PDF Nasıl Ayrıştırılır (Geliştirici Eğitimi), Şekil 5: PDF'de Tablo PDF'deki Tablo

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
JAVA

Çıktı aşağıdaki gibidir:

Javada PDF Nasıl Ayrıştırılır (Geliştirici Eğitimi), Şekil 6: Çıktı Çıktı

Sonuç

Bu makale, Java'da IronPDF kullanarak mevcut bir PDF belgesini ayrıştırmayı veya bir URL'den yeni bir PDF ayrıştırıcı dosyası oluşturup ondan veri çıkarmayı gösterdi. Dosya açıldıktan sonra, PDF'den tablo verileri, resimler ve metin çıkartabilir ve sonrasında çıkartılan metni daha sonra kullanmak üzere bir metin dosyasına ekleyebilir.

Java'da PDF dosyalarıyla programatik olarak çalışmayı daha detaylı nasıl yapacağınız hakkında bilgi almak için PDF dosyası oluşturma örneklerine göz atabilirsiniz.

Java için IronPDF kütüphanesi, geliştirme amaçları için ücretsiz bir deneme lisansı ile ücretsizdir. Ancak, ticari kullanım için IronSoftware aracılığıyla lisanslanabilir, başlangıç olarak $799.

Sıkça Sorulan Sorular

Java'da bir PDF ayrıştırıcısı nasıl oluştururum?

Java'da bir PDF ayrıştırıcısı oluşturmak için IronPDF kütüphanesini kullanabilirsiniz. IronPDF'yi indirip kurarak başlayın, ardından fromFile yöntemiyle PDF belgenizi yükleyin. extractAllText ve extractAllImages yöntemleriyle sırasıyla metin ve görüntüleri çıkarabilirsiniz.

IronPDF, Java 8+ ile kullanılabilir mi?

Evet, IronPDF, Java 8 ve üstü sürümlerle uyumludur ve ayrıca Scala ve Kotlin'i destekler. Windows, Linux ve Bulut ortamlar dahil olmak üzere birden çok platformu destekler.

IronPDF kullanarak Java'da PDF'leri ayrıştırmanın ana adımları nelerdir?

Ana adımlar, bir Maven projesi oluşturmayı, IronPDF bağımlılığını eklemeyi, bir PDF belgesini fromFile ile yüklemeyi, extractAllText ile metin çıkarmayı ve extractAllImages ile görüntü çıkarmayı içerir.

Java'da bir URL'yi PDF'ye nasıl dönüştürebilirim?

IronPDF'nin renderUrlAsPdf yöntemini kullanarak Java'da bir URL'yi PDF'ye dönüştürebilirsiniz. Bu, web sayfalarını PDF belgeleri olarak verimli şekilde görüntülemenizi sağlar.

IronPDF, bulut tabanlı Java uygulamaları için uygun mu?

Evet, IronPDF, bulut tabanlı ortamları destekleyecek şekilde tasarlanmıştır, bu da bulut ortamında PDF işlevsellikleri gerektiren Java uygulamaları geliştirme için uygundur.

Java PDF ayrıştırma projesi için bağımlılıkları nasıl yönetirim?

Java projesinde bağımlılıkları yönetmek için Maven kullanabilirsiniz. IronPDF kütüphanesini projenizin pom.xml dosyasına ekleyerek bunu bir bağımlılık olarak dahil edin.

IronPDF için hangi lisanslama seçenekleri mevcuttur?

IronPDF, geliştirme amaçları için ücretsiz deneme sunar. Ancak, ticari kullanım için lisans gereklidir. Bu, tüm özelliklere erişimi ve öncelikli desteği güvence altına alır.

Darrius Serrant
Tam Yığın Yazılım Mühendisi (WebOps)

Darrius Serrant, Miami Üniversitesi'nden Bilgisayar Bilimleri lisans derecesine sahiptir ve Iron Software'de Tam Yığın WebOps Pazarlama Mühendisi olarak çalışmaktadır. Küçük yaşlardan itibaren kodlamaya ilgi duyan Darrius, bilişimi hem gizemli hem de erişilebilir buldu ve onu yaratıcılık ve problem çö...

Daha Fazlasını Oku

Iron Destek Ekibi

Haftanın 5 günü, 24 saat çevrimiçiyiz.
Sohbet
E-posta
Beni Ara