Altbilgi içeriğine atla
PYTHON IçIN IRONPDF KULLANARAK

Python'da PDF'den Belirli Metni Çıkarma

Bu makale, IronPDF for Python kütüphanesinin yardımıyla PDF belgelerinden metin unsurlarını nasıl çıkaracağınızı gösterecektir.

IronPDF

Python, geliştiricilerin grafik kullanıcı arayüzleri oluşturmalarını basit ve hızlı hale getiren bir programlama dilidir. Diğer dillere kıyasla, Python ayrıca programcılar için çok daha dinamiktir. Bu nedenle, IronPDF kütüphanesini Python'a eklemek basit bir işlemdir. PyQt, wxWidgets, Kivy ve birçok ek paket ve Python kütüphanesi gibi önceden yüklenmiş birçok araç kullanılarak tamamen tamamlanmış bir GUI hızlı ve güvenli bir şekilde oluşturulabilir. IronPDF, Python'u da bünyesine alır ve ayrıca .NET Core gibi diğer çerçevelerin özelliklerinin entegrasyonuna olanak tanır.

IronPDF web geliştirmeyi kolaylaştırır. Bunun temel nedeni, Django, Flask ve Pyramid gibi yaygın olarak benimsenen Python web geliştirme paradigmalarıdır. Reddit, Mozilla ve Spotify, bu çerçeveleri kullanmış olan web siteleri ve çevrimiçi hizmetlerden sadece birkaçıdır.

IronPDF Özellikleri

Python Kurulumu

Ortam Yapılandırması

Python'un bilgisayarınızda kurulu olduğundan emin olun. Python'un işletim sisteminizle uyumlu en son sürümünü indirmek ve kurmak için resmi Python web sitesine gidin. Python kurulduktan sonra proje ihtiyaçlarınızı ayırmak için sanal bir ortam oluşturun. Dönüşüm projenize düzenli, ayrı bir çalışma ortamı sağlamak için venv modülü ile sanal ortamlar oluşturun ve yönetin.

PyCharm'da Yeni İnisiyatif

Bu demoda, Python kodu geliştirmek için bir IDE olarak PyCharm önerilmektedir.

PyCharm IDE'yi başlattıktan sonra "Yeni Proje"yi seçin.

Python'da PDF'ten Belirli Metin Nasıl Çıkarılır, Şekil 1: PyCharm PyCharm

"Yeni Proje"yi seçtiğinizde bir pencere açılacak, burada projenin konumu ve ortamı ayarlanabilir. Bu, aşağıdaki resimde görülebilir.

Python'da PDF'ten Belirli Metin Nasıl Çıkarılır, Şekil 2: Yeni Proje Yeni Proje

Proje konumunu ve ortam yolunu seçtikten sonra, yeni bir proje başlatmak için Oluştur düğmesine tıklayın. Program daha sonra, yeni bir pencerenin açılması sonucu oluşturulabilir. Bu ders için Python 3.9 kullanılmaktadır.

Python'da PDF'ten Belirli Metin Nasıl Çıkarılır, Şekil 3: Python Projesi Oluştur Python Projesi Oluştur

IronPDF Kütüphanesi Gereksinimi

Python kütüphanesi IronPDF büyük ölçüde .NET 6.0 kullanır. Sonuç olarak, IronPDF for Python'u kullanmak için bilgisayarınızda .NET 6.0 çalışma zamanı kurulu olmalıdır. Linux ve Mac kullanıcılarının bu Python modülünü kullanmadan önce .NET yüklemesi gerekebilir. Gerekli çalışma ortamını edinmek için bu Microsoft indirme sayfasını ziyaret edin.

IronPDF Kütüphane Kurulumu

".pdf" uzantılı dosyaları oluşturmak, değiştirmek ve açmak için "ironpdf" paketi kurulmalıdır. PyCharm'da paketi kurmak için terminal penceresi açın ve aşağıdaki komutu yazın:

pip install ironpdf
pip install ironpdf
SHELL

Aşağıdaki ekranda ironpdf paketinin kurulumu gösterilmektedir.

Python'da PDF'ten Belirli Metin Nasıl Çıkarılır, Şekil 4: IronPDF'i Yükle IronPDF'i Yükle

PDF Dosyasından Belirli Verileri Çıkarma

IronPDF kütüphanelerinin yardımıyla PDF dosyalarından metin çıkarmak mümkündür. IronPDF bir dizi metin çıkarma yöntemi sunar. İlk yöntem, tüm sayfa içeriğini tek bir dize olarak geri almak anlamına gelir. İkinci strateji, ilk sayfadan başlayarak içeriği sayfa sayfa gözden geçirmek anlamına gelir. Mevcut PDF dosyaları IronPDF kütüphanesi kullanılarak incelenebilir. Aşağıdaki kod parçası, canlı PDF dosyalarını incelemek için IronPDF'in nasıl kullanılacağını gösterir.

Bir PDF'den bilgi çıkarma için iki seçenek vardır:

  1. PDF'den sayfa sayfa çıkarma
  2. Tüm PDF'yi metne dönüştürme

Bu makale için örnek PDF dosyası aşağıda mevcuttur.

Python'da PDF'ten Belirli Metin Nasıl Çıkarılır, Şekil 5: Girdi PDF Girdi PDF

PDF'den Sayfa Sayfa Çıkarma

Aşağıda verilen örnek kod, bir PDF dosyasından sayfa numarasını kullanarak veri elde etmenin nasıl yapılacağını gösterir.

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

Kod parçası, FromFile fonksiyonunu kullanarak bir PDF dosyasının nasıl okunacağı ve bir PDF nesnesinin nasıl oluşturulacağını gösterir. Bu nesne, PDF'nin metin ve görsellerine erişmek için kullanılabilir. ExtractTextFromPage fonksiyonuna sayfa numarası parametre olarak geçirilerek, belirli bir sayfadan metin alınabilir. Bu yöntem, seçilen sayfadaki tüm kelimeleri içeren bir dize döndürecektir. Daha sonra, çıkarılan metinlerden tüm yeni satırları ayırmak için Python'da split fonksiyonunu kullanın. Bundan sonra, çıkarılan metindeki her satırın gereken anahtar kelimeleri içerip içermediğini kontrol edin. Anahtar kelime eşleşirse, komut isteminde belirli satır gösterilecektir. Aksi takdirde, o satır göz ardı edilecek ve bir sonraki satıra geçilecektir. Metin çıkarımının çıktısı aşağıda gösterildiği gibi görünecektir.

Tüm PDF'yi Metne Dönüştürme

Aşağıdaki kod örneği, tüm PDF içeriğini hızlı ve basit bir şekilde bir dize olarak almak için ilk yöntemi göstermektedir.

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

Yukarıdaki örnek kod, mevcut bir dosya yolundan bir PDF'i okumak ve onu bir PDF dosya nesnesine dönüştürmek için FromFile fonksiyonunun nasıl kullanılacağını gösterir. Sonuç olarak, bu PDF okuyucu nesnesini, PDF'deki metin ve görselleri görmek için kullanabiliriz. Nesnenin ExtractAllText fonksiyonu, PDF'ten veriyi düz metin olarak çıkarmak, metni bir dizeye dönüştürmek ve yukarıdaki benzer mantığı kullanarak belirli anahtar kelimeyi bulmak için terminalde sonucu göstermek amacıyla kullanılacaktır. Sonuçlar aşağıdaki gibi gösterilir.

Python'da PDF'ten Belirli Metin Nasıl Çıkarılır, Şekil 6: Çıktı Çıktı

Yukarıdaki kod/çıkışı, verilen PDF belgesinin hem ismi hem de yaşı içerdiğini, ancak sonucun sadece PDF belgesinde mevcut olan ismi gösterdiğini göstermektedir.

Sonuç

IronPDF kütüphanesi, tehditleri azaltmak ve veri güvenliğini sağlamak için güçlü güvenlik mekanizmaları sunar. Herhangi bir tarayıcı ile sınırlı değildir ve yaygın olarak kullanılan tüm tarayıcılarla uyumludur. Sadece birkaç satır kodla, geliştiriciler IronPDF kullanarak hızlıca PDF dosyaları üretebilir ve okuyabilir. IronPDF kütüphanesi, çeşitli geliştirici taleplerini karşılamak için ücretsiz geliştirici lisansı ve satın alınabilir ek geliştirme lisansları da dahil olmak üzere bir dizi lisans seçeneği sunar.

Lite paketi süresiz bir lisans, 30 günlük para iade garantisi, bir yıllık yazılım bakımı ve yükseltme seçenekleri içerir. Bu lisanslar tüm ortamlarda kullanılabilir. Ayrıca, IronPDF, bazı yeniden dağıtım sınırlamalarına sahip ücretsiz lisanslar sağlar. Bir deneme lisansı, kullanıcıların ürünü filigransız olarak değerlendirmelerine olanak tanır.

Ticari lisanslama hakkında daha fazla bilgi için lütfen mevcut IronPDF Lisanslarını görüntüleyin.

Sıkça Sorulan Sorular

Python kullanarak bir PDF'den belirli metinleri nasıl çıkarabilirim?

IronPDF'nin Python kütüphanesini, PDF'lerden metin çıkarmak için kullanabilirsiniz. Sayfa bazında metin çıkarmak için ExtractTextFromPage, tüm belgeden metin çıkarmak için ExtractAllText gibi işlevler sunar.

Python projesinde IronPDF'yi kurmanın adımları nelerdir?

Öncelikle, .NET 6.0 çalışma zamanı zaten kurulu değilse kurun. Ardından, PyCharm gibi geliştirme ortamınızda Python'u ayarlayın. IronPDF'yi pip install ironpdf komutunu kullanarak yükleyin ve projenize PDF işlevselliklerini entegre etmeye başlayın.

IronPDF, Django ve Flask gibi çerçevelerle uyumlu mu?

Evet, IronPDF, Django ve Flask gibi Python web geliştirme çerçeveleriyle iyi entegre olur ve web uygulamalarında PDF'leri yönetmek için çok yönlü seçenekler sunar.

Python ile IronPDF kullanmak için hangi lisanslama seçenekleri mevcut?

IronPDF, kişisel kullanım için ücretsiz bir geliştirici lisansı ve ek özellikler ve avantajlar sunan çeşitli ticari lisansları içeren bir dizi lisanslama seçeneği sunar.

Python için IronPDF'yi nasıl yükleyebilirim?

pip install ironpdf komutunu terminal ya da komut istemcinizde çalıştırarak pip paket yöneticisi ile IronPDF'yi yükleyin.

Python ile IronPDF kullanmak için hangi geliştirme ortamı önerilir?

IronPDF kullanarak Python uygulamaları geliştirmek için kapsamlı özellik seti ve Python desteği nedeniyle PyCharm önerilen bir Entegre Geliştirme Ortamıdır (IDE).

IronPDF'nin Python için bazı anahtar özellikleri nelerdir?

IronPDF for Python, HTML'den PDF oluşturma, resimleri PDF'e dönüştürme, form işleme, metin ve resim çıkarma ve PDF birleştirme gibi özellikler sunar.

IronPDF kütüphanesi PDF dosyalarını işlemek için ne kadar güvenlidir?

IronPDF, sağlam güvenlik özellikleri ile tasarlanmıştır ve PDF dosyalarının güvenli bir şekilde işlenmesini sağlar. Duyarlı bilgileri korumak için şifreleme ve parola korumasını destekler.

Curtis Chau
Teknik Yazar

Curtis Chau, Bilgisayar Bilimleri alanında lisans derecesine sahiptir (Carleton Üniversitesi) ve Node.js, TypeScript, JavaScript ve React konularında uzmanlaşmış ön uç geliştirme üzerine uzmanlaşmıştır. Kullanıcı dostu ve estetik açıdan hoş arayüzler tasarlamaya tutkuyla bağlı olan Curtis, modern çerç...

Daha Fazlasını Oku

Iron Destek Ekibi

Haftanın 5 günü, 24 saat çevrimiçiyiz.
Sohbet
E-posta
Beni Ara