PDF Sırasıyla Metin Çıkarma
Bu kılavuz, IronPDF kullanarak PDF belgelerinden sırayla metin çıkarmanın inceliklerini gösterecek. Python ortamınızı kurmaktan, PDF metin çıkarımı için ilk Python programınızı çalıştırmaya kadar her şeyi kapsayacak.
PDF'den Satır Satır Metin Çıkarma
- PDF dosyasındaki metni çıkarmak için Python kullanarak PDF kütüphanesini indirip yükleyin.
- Tercih ettiğiniz IDE'de bir Python projesi oluşturun.
- Metinsel içeriği almak için istenen PDF dosyasını yükleyin.
- PDF üzerinden geçerek kütüphanenin yerleşik fonksiyonunu kullanarak sırayla metin çıkarın.
- Çıkarılan metni bir dosyaya kaydedin.
IronPDF PDF Python Kütüphanesi
IronPDF, Python'da PDF dosyaları ile çalışmanıza olanak tanıyan kullanışlı bir araçtır. Bunu, PDF dosyalarını okumayı, oluşturmayı ve düzenlemeyi kolaylaştıran bir yardımcı olarak düşünebilirsiniz. Bir PDF belgesinden içerik çıkarmayı hedefleseniz de, yeni bilgiler ekleseniz ya da bir web sayfasını PDF formatına dönüştürseniz, IronPDF kapsamlı çözümler sunar. Bu ücretli bir yazılım paketidir, ancak satın almadan önce keşfetmeniz için bir deneme sürümü sunarlar.
Script'e dalmadan önce, Python ortamınızı kurmak önemlidir. Bu adım adım kılavuz, ortamınızı yapılandırmanızda, Visual Studio Code'da yeni bir Python projesi oluşturmanızı ve IronPDF kütüphane ortamı yapılandırmanızı ayarlamanıza yardımcı olacak.
Python'u İndir ve Yükle: Eğer Python yüklü değilse, resmi Python web sitesinden en son sürümü indirin. Özel işletim sisteminiz için kurulum talimatlarını takip edin.
Python Kurulumunu Kontrol Et: Terminal veya komut istemcinizi açın ve python --version yazın. Bu komut yüklemenin başarılı olduğunu onaylayarak yüklü Python sürümünü yazdırmalıdır.
pip'i Güncelle: Pip, Python paket yükleyicisidir. pip install --upgrade pip komutunu çalıştırarak güncel olduğundan emin olun.
Visual Studio Code'da Yeni Bir Python Projesi Oluşturma
Visual Studio Code'u İndir: Eğer yüklü değilse, resmi web sitesinden indirin.
Python Uzantısını Yükle: Visual Studio Code'u açın ve Uzantılar Pazarı'na gidin. Microsoft'un Python uzantısını arayın ve yükleyin.
Yeni Klasör Oluştur: Python projenizi barındırmak istediğiniz yeni bir klasör oluşturun. PDF_Text_Extractor gibi anlamlı bir şeyle adlandırın.
Klasörü VS Code'da Aç: Klasörü Visual Studio Code'a sürükleyin veya Dosya > Klasörü Aç menü seçeneğiyle açın.
Python Dosyası Oluştur: VS Code Gezgini panelinde sağ tıklayın ve Yeni Dosya seçeneğini belirleyin. Dosyayı main.py veya benzer bir şey olarak adlandırın. Bu dosya Python programınızı barındıracak.
Visual Studio Code'da yeni Python dosyası oluştur
IronPDF Kütüphanesi Gereksinimi ve Kurulumu
PDF'lerden metinsel içerik almak için IronPDF esastır. İşte nasıl kurulacağını:
VS Code'da Terminal'i Aç: Terminal'i Terminal > Yeni Terminal kısmından VS Code içinde açabilirsiniz.
IronPDF'i Kur: Terminalde, IronPDF'in en yeni sürümünü kurmak için aşağıdakini çalıştırın:
pip install ironpdf
Bu işlem, IronPDF kütüphanesini ve gereken herhangi bir modülü indirir ve kurar.
IronPDF paketini yükleyin
Ve işte bu kadar! Artık Python ortamınızı başarıyla kurdunuz, Visual Studio Code'da yeni bir proje oluşturdunuz ve IronPDF kütüphanesini yüklediniz.
PDF'den Satır Satır Metin Çıkart
Lisans Anahtarını Uygulama
Devam etmeden önce, IronPDF lisans anahtarınızı uyguladığınızdan emin olun.
from ironpdf import PdfDocument
# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"from ironpdf import PdfDocument
# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"YOUR-LICENSE-KEY-HERE ile gerçek IronPDF lisans anahtarınızı değiştirin. Bu lisans, projeniz için tüm kütüphane özelliklerini açmanızı sağlar.
PDF Dosya Formatını Yükleme
Python programınıza mevcut bir PDF dosyasını yüklemeniz gerekir. Bunu IronPDF'den PdfDocument.FromFile yöntemi ile başarabilirsiniz.
pdfFileObj = PdfDocument.FromFile("content.pdf")pdfFileObj = PdfDocument.FromFile("content.pdf")"content.pdf" okumak istediğiniz PDF dosyasını ifade eder. Bu yüklenen PDF dosyası, bir PDF okuyucu veya PDF dosya nesnesi pdfFileObj olarak kullanılan pdfFileObj değişkeninde saklanır.
Tüm PDF Belgesinden Metin Çıkartma
PDF dosyasındaki tüm metin verilerini bir kerede almak istiyorsanız, ExtractAllText yöntemini kullanabilirsiniz.
all_text = pdfFileObj.ExtractAllText()all_text = pdfFileObj.ExtractAllText()ExtractAllText yöntemi burada gösterim amacıyla kullanılmaktadır. Bu yöntem, PDF dosyasındaki tüm metinleri çıkartır ve all_text adlı bir değişkene saklar.
Belirli Bir PDF Sayfasından Metin Çıkartma
IronPDF, belirli bir sayfadan metin çıkartmayı ExtractTextFromPage yöntemi ile sağlar. Bu yöntem, sadece bazı sayfalardan metin gerektiğinde faydalıdır.
page_2_text = pdfFileObj.ExtractTextFromPage(1)page_2_text = pdfFileObj.ExtractTextFromPage(1)Burada, 1. indeksine karşılık gelen ikinci sayfadan metin çıkarıyoruz.
Çıkarılan Metni Yazmak İçin Bir Metin Dosyası Başlatma
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:with open("extracted_text.txt", "w", encoding='utf-8') as text_file:"extracted_text.txt" adında bir dosya açın ve metin verisini kaydedin. Bu işlem için Python'un yerleşik open fonksiyonu kullanılır, dosya modunu "yazma" ("w") olarak ayarlar ve Unicode karakterlerini işlemek için encoding='utf-8' kullanılır.
Her Sayfa İçin Satır Satır Metin Çıkarma
for i in range(0, pdfFileObj.get_Pages().Count):for i in range(0, pdfFileObj.get_Pages().Count):Yukarıdaki kod, IronPDF'nin get_Pages().Count kullanarak PDF dosyasındaki her sayfayı döngüye alır ve toplam sayfa sayısını alır.
Metni Çıkarın ve Satırlara Bölün
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')Her sayfa için, tüm metni almak üzere ExtractTextFromPage yöntemi kullanılır ve ardından Python'un split yöntemi ile satırlara bölünür. Bu, döngüye alınabilen satırların bir listesi ile sonuçlanır.
Çıkarılan Satırları Metin Dosyasına Yazın
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')Burada, kod, satır listesi içindeki her satırı döngüye alır, konsola yazdırır ve bu metni uygun formatta sağlamak için her satırdan sonra yeni bir satır karakteri (\n) ekleyerek dosyaya yazar.
Tam Kod
İşte kapsamlı uygulama:
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
# Get the number of pages in the PDF document
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each line to the console
# Write each line to the text document
text_file.write(eachline + '\n')from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
# Get the number of pages in the PDF document
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each line to the console
# Write each line to the text document
text_file.write(eachline + '\n')Çıktı
Visual Studio Code terminalinde aşağıdaki komutu yazarak Python dosyasını çalıştırın:
python main.pypython main.pyBu sonuç terminalde görünecek:
Çıkarılan metin
Bu, PDF dosyasından çıkarılan metindir. Ayrıca, dizininizde oluşturulan bir metin belgesi fark edeceksiniz.
TXT dosyasında saklanan çıkarılan metin
Bu metin dosyasında, elde edilen metin formatını sırasını izleyerek bulacaksınız.
Çıkarılan metin dosyası içeriği
Sonuç
Sonuç olarak, PDF dosyalarından metin çıkarmak için IronPDF ve Python'u kullanmak, metni tüm belgelerden, belirli sayfalardan veya hatta satır satır çıkarmak için güçlü ve basit bir yaklaşımdır. Bu elde edilen metnin bir metin dosyasına kaydedilmesi, verileri gelecekteki işlemler için verimli bir şekilde yönetmenizi ve kullanmanızı sağlar. IronPDF, metin çıkarmanın ötesinde çeşitli işlevler sunarak PDF'leri işlemekte paha biçilmez bir araçtır. IronPDF kullanarak, PDF'yi Python'da Metne dönüştürebilirsiniz.
Ayrıca, etkileşimli PDF'ler oluşturma, etkileşimli formlar doldurma ve gönderme, PDF dosyalarını birleştirme ve bölme, metin ve görüntüleri çıkarma, PDF dosyaları içinde metin arama, PDF'leri görüntülere ayrıştırma, yazı tipi boyutu, kenar ve arka plan rengini değiştirme ve PDF dosyalarını dönüştürme gibi görevler IronPDF araç takımı ile yapılabilir.
IronPDF açık kaynaklı bir Python kütüphanesi değildir. Projeniz için IronPDF kullanmayı düşünüyorsanız, paketin lisansı $799'dan başlamaktadır. Ancak, yatırım konusunda net değilseniz, IronPDF, özelliklerini kapsamlı bir şekilde keşfetmek için ücretsiz deneme sunar.

Sıkça Sorulan Sorular
Python kullanarak bir PDF'den metin nasıl çıkartirim?
IronPDF kullanarak Python'da PDF dosyalarından metin çıkarabilirsiniz. Bu işlem, PdfDocument.FromFile yöntemi ile PDF'yi yüklemeyi ve metni satır satır çıkarmak için sayfalar arasında dolaşmayı içerir.
Python'da PDF'lerden metin çıkarmaya başlamak için ne gerekir?
Python'da PDF'lerden metin çıkarmak için Python'un yanı sıra pip ile kurulabilen IronPDF kütüphanesinin yüklü olması gerekir. Betiklerinizi yazmak ve çalıştırmak için Visual Studio Code gibi bir IDE önerilir.
IronPDF, PDF'deki belirli bir sayfadan metin çıkartılmasını sağlayabilir mi?
Evet, IronPDF, ExtractTextFromPage metodunu kullanarak bir PDF'deki belirli bir sayfadan metin çıkarmanıza olanak tanır. Sayfa indeksini belirterek işlemi gerçekleştirebilirsiniz.
Python'da çıkartılan metni bir dosyaya nasıl kaydedebilirim?
IronPDF kullanarak metin çıkardıktan sonra, Python'un dosya işleme yöntemlerini kullanarak çıkartılan metin satırlarını bir metin dosyasına kaydedebilirsiniz.
IronPDF'nin metin çıkarmanın dışında sunduğu ek özellikler nelerdir?
IronPDF, PDF oluşturma, düzenleme ve dönüştürme, PDF belgelerini birleştirme ve ayırma, görüntüleri çıkartma ve PDF'leri diğer dosya formatlarına dönüştürme gibi geniş bir özellik yelpazesi sunar.
Python projemde IronPDF'yi nasıl lisanslayabilirim?
IronPDF'yi lisanslamak için, kitaplığın tam işlevselliğini etkinleştiren License.LicenseKey özelliği ile Python betiğinizde lisans anahtarınızı ayarlayın.
Satın almadan önce IronPDF'yi denemek mümkün mü?
Evet, IronPDF, satın alma kararı vermeden önce özelliklerini değerlendirmenize olanak tanıyan bir deneme sürümü sunmaktadır.
PDF metin çıkartma işlemi sırasında sorun yaşarsam ne yapmalıyım?
IronPDF'nin doğru bir şekilde yüklendiğinden ve lisanslandığından emin olun ve Python ortamınızın doğru kurulduğunu kontrol edin. Yaygın sorunları çözmek için belgeleri veya destek kaynaklarını danışın.
IronPDF kullanarak bir PDF'yi bir görüntüye dönüştürebilir miyim?
Evet, IronPDF, PDF'leri görüntülere dönüştürme işlevselliği sağlar, böylece tüm belgeleri veya belirli sayfaları görüntü dosyalarına dönüştürebilirsiniz.
PDF metin çıkartma için bir Python betiğini nasıl çalıştırabilirim?
Betiklerinizi yazdıktan sonra, onları python main.py komutunu IDE'nizin terminalinde çalıştırarak çalıştırabilirsiniz, burada main.py betik dosyanızın adıdır.










