Python'da PDF'den Belirli Metni Çıkarma
Bu makale, IronPDF for Python kütüphanesinin yardımıyla PDF belgelerinden metin unsurlarını nasıl çıkaracağınızı gösterecektir.
IronPDF
Python, geliştiricilerin grafik kullanıcı arayüzleri oluşturmalarını basit ve hızlı hale getiren bir programlama dilidir. Diğer dillere kıyasla, Python ayrıca programcılar için çok daha dinamiktir. Bu nedenle, IronPDF kütüphanesini Python'a eklemek basit bir işlemdir. PyQt, wxWidgets, Kivy ve birçok ek paket ve Python kütüphanesi gibi önceden yüklenmiş birçok araç kullanılarak tamamen tamamlanmış bir GUI hızlı ve güvenli bir şekilde oluşturulabilir. IronPDF, Python'u da bünyesine alır ve ayrıca .NET Core gibi diğer çerçevelerin özelliklerinin entegrasyonuna olanak tanır.
IronPDF web geliştirmeyi kolaylaştırır. Bunun temel nedeni, Django, Flask ve Pyramid gibi yaygın olarak benimsenen Python web geliştirme paradigmalarıdır. Reddit, Mozilla ve Spotify, bu çerçeveleri kullanmış olan web siteleri ve çevrimiçi hizmetlerden sadece birkaçıdır.
IronPDF Özellikleri
- IronPDF ile, PDF dosyaları çeşitli kaynaklardan oluşturulabilir, HTML, HTML5, ASPX ve Razor/MVC Görünümü dahil. HTML sayfalarını dönüştürme ve resimleri PDF dosyalarına dönüştürme yeteneği sunar.
- Etkileşimli PDF'ler oluşturma, etkileşimli formları doldurma ve gönderme, PDF dosyalarını bölme ve birleştirme, metin ve resimleri çıkarma, PDF dosyalarında metin arama, PDF'leri resimlere dönüştürme, yazı tipi boyutlarını değiştirme, ChatGPT kullanarak doğal dil işleme ve PDF sayfalarını uygun şekilde dönüştürme gibi aktiviteler, IronPDF araç seti ile desteklenebilir.
- IronPDF, kullanıcı temsilcileri, proxy'ler, çerezler, HTTP başlıkları ve form değişkenleri için destekle HTML giriş formu doğrulaması sunar.
- IronPDF, kullanıcıların korunan belgelere erişimini sağlamak için kullanıcı adları ve şifreler kullanır.
- Sadece birkaç kod satırı ile, IronPDF bir dize, akış veya URL dahil, çeşitli kaynaklardan bir PDF dosyası yazdırabilir.
Python Kurulumu
Ortam Yapılandırması
Python'un bilgisayarınızda kurulu olduğundan emin olun. Python'un işletim sisteminizle uyumlu en son sürümünü indirmek ve kurmak için resmi Python web sitesine gidin. Python kurulduktan sonra proje ihtiyaçlarınızı ayırmak için sanal bir ortam oluşturun. Dönüşüm projenize düzenli, ayrı bir çalışma ortamı sağlamak için venv modülü ile sanal ortamlar oluşturun ve yönetin.
PyCharm'da Yeni İnisiyatif
Bu demoda, Python kodu geliştirmek için bir IDE olarak PyCharm önerilmektedir.
PyCharm IDE'yi başlattıktan sonra "Yeni Proje"yi seçin.
PyCharm
"Yeni Proje"yi seçtiğinizde bir pencere açılacak, burada projenin konumu ve ortamı ayarlanabilir. Bu, aşağıdaki resimde görülebilir.
Yeni Proje
Proje konumunu ve ortam yolunu seçtikten sonra, yeni bir proje başlatmak için Oluştur düğmesine tıklayın. Program daha sonra, yeni bir pencerenin açılması sonucu oluşturulabilir. Bu ders için Python 3.9 kullanılmaktadır.
Python Projesi Oluştur
IronPDF Kütüphanesi Gereksinimi
Python kütüphanesi IronPDF büyük ölçüde .NET 6.0 kullanır. Sonuç olarak, IronPDF for Python'u kullanmak için bilgisayarınızda .NET 6.0 çalışma zamanı kurulu olmalıdır. Linux ve Mac kullanıcılarının bu Python modülünü kullanmadan önce .NET yüklemesi gerekebilir. Gerekli çalışma ortamını edinmek için bu Microsoft indirme sayfasını ziyaret edin.
IronPDF Kütüphane Kurulumu
".pdf" uzantılı dosyaları oluşturmak, değiştirmek ve açmak için "ironpdf" paketi kurulmalıdır. PyCharm'da paketi kurmak için terminal penceresi açın ve aşağıdaki komutu yazın:
pip install ironpdfpip install ironpdfAşağıdaki ekranda ironpdf paketinin kurulumu gösterilmektedir.
IronPDF'i Yükle
PDF Dosyasından Belirli Verileri Çıkarma
IronPDF kütüphanelerinin yardımıyla PDF dosyalarından metin çıkarmak mümkündür. IronPDF bir dizi metin çıkarma yöntemi sunar. İlk yöntem, tüm sayfa içeriğini tek bir dize olarak geri almak anlamına gelir. İkinci strateji, ilk sayfadan başlayarak içeriği sayfa sayfa gözden geçirmek anlamına gelir. Mevcut PDF dosyaları IronPDF kütüphanesi kullanılarak incelenebilir. Aşağıdaki kod parçası, canlı PDF dosyalarını incelemek için IronPDF'in nasıl kullanılacağını gösterir.
Bir PDF'den bilgi çıkarma için iki seçenek vardır:
- PDF'den sayfa sayfa çıkarma
- Tüm PDF'yi metne dönüştürme
Bu makale için örnek PDF dosyası aşağıda mevcuttur.
Girdi PDF
PDF'den Sayfa Sayfa Çıkarma
Aşağıda verilen örnek kod, bir PDF dosyasından sayfa numarasını kullanarak veri elde etmenin nasıl yapılacağını gösterir.
from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)Kod parçası, FromFile fonksiyonunu kullanarak bir PDF dosyasının nasıl okunacağı ve bir PDF nesnesinin nasıl oluşturulacağını gösterir. Bu nesne, PDF'nin metin ve görsellerine erişmek için kullanılabilir. ExtractTextFromPage fonksiyonuna sayfa numarası parametre olarak geçirilerek, belirli bir sayfadan metin alınabilir. Bu yöntem, seçilen sayfadaki tüm kelimeleri içeren bir dize döndürecektir. Daha sonra, çıkarılan metinlerden tüm yeni satırları ayırmak için Python'da split fonksiyonunu kullanın. Bundan sonra, çıkarılan metindeki her satırın gereken anahtar kelimeleri içerip içermediğini kontrol edin. Anahtar kelime eşleşirse, komut isteminde belirli satır gösterilecektir. Aksi takdirde, o satır göz ardı edilecek ve bir sonraki satıra geçilecektir. Metin çıkarımının çıktısı aşağıda gösterildiği gibi görünecektir.
Tüm PDF'yi Metne Dönüştürme
Aşağıdaki kod örneği, tüm PDF içeriğini hızlı ve basit bir şekilde bir dize olarak almak için ilk yöntemi göstermektedir.
from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)Yukarıdaki örnek kod, mevcut bir dosya yolundan bir PDF'i okumak ve onu bir PDF dosya nesnesine dönüştürmek için FromFile fonksiyonunun nasıl kullanılacağını gösterir. Sonuç olarak, bu PDF okuyucu nesnesini, PDF'deki metin ve görselleri görmek için kullanabiliriz. Nesnenin ExtractAllText fonksiyonu, PDF'ten veriyi düz metin olarak çıkarmak, metni bir dizeye dönüştürmek ve yukarıdaki benzer mantığı kullanarak belirli anahtar kelimeyi bulmak için terminalde sonucu göstermek amacıyla kullanılacaktır. Sonuçlar aşağıdaki gibi gösterilir.
Çıktı
Yukarıdaki kod/çıkışı, verilen PDF belgesinin hem ismi hem de yaşı içerdiğini, ancak sonucun sadece PDF belgesinde mevcut olan ismi gösterdiğini göstermektedir.
Sonuç
IronPDF kütüphanesi, tehditleri azaltmak ve veri güvenliğini sağlamak için güçlü güvenlik mekanizmaları sunar. Herhangi bir tarayıcı ile sınırlı değildir ve yaygın olarak kullanılan tüm tarayıcılarla uyumludur. Sadece birkaç satır kodla, geliştiriciler IronPDF kullanarak hızlıca PDF dosyaları üretebilir ve okuyabilir. IronPDF kütüphanesi, çeşitli geliştirici taleplerini karşılamak için ücretsiz geliştirici lisansı ve satın alınabilir ek geliştirme lisansları da dahil olmak üzere bir dizi lisans seçeneği sunar.
Lite paketi süresiz bir lisans, 30 günlük para iade garantisi, bir yıllık yazılım bakımı ve yükseltme seçenekleri içerir. Bu lisanslar tüm ortamlarda kullanılabilir. Ayrıca, IronPDF, bazı yeniden dağıtım sınırlamalarına sahip ücretsiz lisanslar sağlar. Bir deneme lisansı, kullanıcıların ürünü filigransız olarak değerlendirmelerine olanak tanır.
Ticari lisanslama hakkında daha fazla bilgi için lütfen mevcut IronPDF Lisanslarını görüntüleyin.
Sıkça Sorulan Sorular
Python kullanarak bir PDF'den belirli metinleri nasıl çıkarabilirim?
IronPDF'nin Python kütüphanesini, PDF'lerden metin çıkarmak için kullanabilirsiniz. Sayfa bazında metin çıkarmak için ExtractTextFromPage, tüm belgeden metin çıkarmak için ExtractAllText gibi işlevler sunar.
Python projesinde IronPDF'yi kurmanın adımları nelerdir?
Öncelikle, .NET 6.0 çalışma zamanı zaten kurulu değilse kurun. Ardından, PyCharm gibi geliştirme ortamınızda Python'u ayarlayın. IronPDF'yi pip install ironpdf komutunu kullanarak yükleyin ve projenize PDF işlevselliklerini entegre etmeye başlayın.
IronPDF, Django ve Flask gibi çerçevelerle uyumlu mu?
Evet, IronPDF, Django ve Flask gibi Python web geliştirme çerçeveleriyle iyi entegre olur ve web uygulamalarında PDF'leri yönetmek için çok yönlü seçenekler sunar.
Python ile IronPDF kullanmak için hangi lisanslama seçenekleri mevcut?
IronPDF, kişisel kullanım için ücretsiz bir geliştirici lisansı ve ek özellikler ve avantajlar sunan çeşitli ticari lisansları içeren bir dizi lisanslama seçeneği sunar.
Python için IronPDF'yi nasıl yükleyebilirim?
pip install ironpdf komutunu terminal ya da komut istemcinizde çalıştırarak pip paket yöneticisi ile IronPDF'yi yükleyin.
Python ile IronPDF kullanmak için hangi geliştirme ortamı önerilir?
IronPDF kullanarak Python uygulamaları geliştirmek için kapsamlı özellik seti ve Python desteği nedeniyle PyCharm önerilen bir Entegre Geliştirme Ortamıdır (IDE).
IronPDF'nin Python için bazı anahtar özellikleri nelerdir?
IronPDF for Python, HTML'den PDF oluşturma, resimleri PDF'e dönüştürme, form işleme, metin ve resim çıkarma ve PDF birleştirme gibi özellikler sunar.
IronPDF kütüphanesi PDF dosyalarını işlemek için ne kadar güvenlidir?
IronPDF, sağlam güvenlik özellikleri ile tasarlanmıştır ve PDF dosyalarının güvenli bir şekilde işlenmesini sağlar. Duyarlı bilgileri korumak için şifreleme ve parola korumasını destekler.










