Altbilgi içeriğine atla
PYTHON IçIN IRONPDF KULLANARAK

PDF Sırasıyla Metin Çıkarma

Bu kılavuz, IronPDF kullanarak PDF belgelerinden sırayla metin çıkarmanın inceliklerini gösterecek. Python ortamınızı kurmaktan, PDF metin çıkarımı için ilk Python programınızı çalıştırmaya kadar her şeyi kapsayacak.

PDF'den Satır Satır Metin Çıkarma

  1. PDF dosyasındaki metni çıkarmak için Python kullanarak PDF kütüphanesini indirip yükleyin.
  2. Tercih ettiğiniz IDE'de bir Python projesi oluşturun.
  3. Metinsel içeriği almak için istenen PDF dosyasını yükleyin.
  4. PDF üzerinden geçerek kütüphanenin yerleşik fonksiyonunu kullanarak sırayla metin çıkarın.
  5. Çıkarılan metni bir dosyaya kaydedin.

IronPDF PDF Python Kütüphanesi

IronPDF, Python'da PDF dosyaları ile çalışmanıza olanak tanıyan kullanışlı bir araçtır. Bunu, PDF dosyalarını okumayı, oluşturmayı ve düzenlemeyi kolaylaştıran bir yardımcı olarak düşünebilirsiniz. Bir PDF belgesinden içerik çıkarmayı hedefleseniz de, yeni bilgiler ekleseniz ya da bir web sayfasını PDF formatına dönüştürseniz, IronPDF kapsamlı çözümler sunar. Bu ücretli bir yazılım paketidir, ancak satın almadan önce keşfetmeniz için bir deneme sürümü sunarlar.

Script'e dalmadan önce, Python ortamınızı kurmak önemlidir. Bu adım adım kılavuz, ortamınızı yapılandırmanızda, Visual Studio Code'da yeni bir Python projesi oluşturmanızı ve IronPDF kütüphane ortamı yapılandırmanızı ayarlamanıza yardımcı olacak.

Python'u İndir ve Yükle: Eğer Python yüklü değilse, resmi Python web sitesinden en son sürümü indirin. Özel işletim sisteminiz için kurulum talimatlarını takip edin.

Python Kurulumunu Kontrol Et: Terminal veya komut istemcinizi açın ve python --version yazın. Bu komut yüklemenin başarılı olduğunu onaylayarak yüklü Python sürümünü yazdırmalıdır.

pip'i Güncelle: Pip, Python paket yükleyicisidir. pip install --upgrade pip komutunu çalıştırarak güncel olduğundan emin olun.

Visual Studio Code'da Yeni Bir Python Projesi Oluşturma

Visual Studio Code'u İndir: Eğer yüklü değilse, resmi web sitesinden indirin.

Python Uzantısını Yükle: Visual Studio Code'u açın ve Uzantılar Pazarı'na gidin. Microsoft'un Python uzantısını arayın ve yükleyin.

Yeni Klasör Oluştur: Python projenizi barındırmak istediğiniz yeni bir klasör oluşturun. PDF_Text_Extractor gibi anlamlı bir şeyle adlandırın.

Klasörü VS Code'da Aç: Klasörü Visual Studio Code'a sürükleyin veya Dosya > Klasörü Aç menü seçeneğiyle açın.

Python Dosyası Oluştur: VS Code Gezgini panelinde sağ tıklayın ve Yeni Dosya seçeneğini belirleyin. Dosyayı main.py veya benzer bir şey olarak adlandırın. Bu dosya Python programınızı barındıracak.

PDF'den Satır Satır Metin Çıkartma, Şekil 1: Visual Studio Code'da yeni Python dosyası oluşturma Visual Studio Code'da yeni Python dosyası oluştur

IronPDF Kütüphanesi Gereksinimi ve Kurulumu

PDF'lerden metinsel içerik almak için IronPDF esastır. İşte nasıl kurulacağını:

VS Code'da Terminal'i Aç: Terminal'i Terminal > Yeni Terminal kısmından VS Code içinde açabilirsiniz.

IronPDF'i Kur: Terminalde, IronPDF'in en yeni sürümünü kurmak için aşağıdakini çalıştırın:

pip install ironpdf

Bu işlem, IronPDF kütüphanesini ve gereken herhangi bir modülü indirir ve kurar.

PDF'den Satır Satır Metin Çıkartma, Şekil 2: IronPDF paketini yükleme IronPDF paketini yükleyin

Ve işte bu kadar! Artık Python ortamınızı başarıyla kurdunuz, Visual Studio Code'da yeni bir proje oluşturdunuz ve IronPDF kütüphanesini yüklediniz.

PDF'den Satır Satır Metin Çıkart

Lisans Anahtarını Uygulama

Devam etmeden önce, IronPDF lisans anahtarınızı uyguladığınızdan emin olun.

from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

YOUR-LICENSE-KEY-HERE ile gerçek IronPDF lisans anahtarınızı değiştirin. Bu lisans, projeniz için tüm kütüphane özelliklerini açmanızı sağlar.

PDF Dosya Formatını Yükleme

Python programınıza mevcut bir PDF dosyasını yüklemeniz gerekir. Bunu IronPDF'den PdfDocument.FromFile yöntemi ile başarabilirsiniz.

pdfFileObj = PdfDocument.FromFile("content.pdf")
pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

"content.pdf" okumak istediğiniz PDF dosyasını ifade eder. Bu yüklenen PDF dosyası, bir PDF okuyucu veya PDF dosya nesnesi pdfFileObj olarak kullanılan pdfFileObj değişkeninde saklanır.

Tüm PDF Belgesinden Metin Çıkartma

PDF dosyasındaki tüm metin verilerini bir kerede almak istiyorsanız, ExtractAllText yöntemini kullanabilirsiniz.

all_text = pdfFileObj.ExtractAllText()
all_text = pdfFileObj.ExtractAllText()
PYTHON

ExtractAllText yöntemi burada gösterim amacıyla kullanılmaktadır. Bu yöntem, PDF dosyasındaki tüm metinleri çıkartır ve all_text adlı bir değişkene saklar.

Belirli Bir PDF Sayfasından Metin Çıkartma

IronPDF, belirli bir sayfadan metin çıkartmayı ExtractTextFromPage yöntemi ile sağlar. Bu yöntem, sadece bazı sayfalardan metin gerektiğinde faydalıdır.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

Burada, 1. indeksine karşılık gelen ikinci sayfadan metin çıkarıyoruz.

Çıkarılan Metni Yazmak İçin Bir Metin Dosyası Başlatma

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

"extracted_text.txt" adında bir dosya açın ve metin verisini kaydedin. Bu işlem için Python'un yerleşik open fonksiyonu kullanılır, dosya modunu "yazma" ("w") olarak ayarlar ve Unicode karakterlerini işlemek için encoding='utf-8' kullanılır.

Her Sayfa İçin Satır Satır Metin Çıkarma

for i in range(0, pdfFileObj.get_Pages().Count):
for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

Yukarıdaki kod, IronPDF'nin get_Pages().Count kullanarak PDF dosyasındaki her sayfayı döngüye alır ve toplam sayfa sayısını alır.

Metni Çıkarın ve Satırlara Bölün

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

Her sayfa için, tüm metni almak üzere ExtractTextFromPage yöntemi kullanılır ve ardından Python'un split yöntemi ile satırlara bölünür. Bu, döngüye alınabilen satırların bir listesi ile sonuçlanır.

Çıkarılan Satırları Metin Dosyasına Yazın

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

Burada, kod, satır listesi içindeki her satırı döngüye alır, konsola yazdırır ve bu metni uygun formatta sağlamak için her satırdan sonra yeni bir satır karakteri (\n) ekleyerek dosyaya yazar.

Tam Kod

İşte kapsamlı uygulama:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')
from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')
PYTHON

Çıktı

Visual Studio Code terminalinde aşağıdaki komutu yazarak Python dosyasını çalıştırın:

python main.py
python main.py
SHELL

Bu sonuç terminalde görünecek:

PDF'den Satır Satır Metin Çıkartma, Şekil 3: Çıkartılan metin Çıkarılan metin

Bu, PDF dosyasından çıkarılan metindir. Ayrıca, dizininizde oluşturulan bir metin belgesi fark edeceksiniz.

PDF'den Satır Satır Metin Çıkartma, Şekil 4: Çıkartılan metin TXT dosyasında saklandı TXT dosyasında saklanan çıkarılan metin

Bu metin dosyasında, elde edilen metin formatını sırasını izleyerek bulacaksınız.

PDF'den Satır Satır Metin Çıkartma, Şekil 5: Çıkartılan metin dosyası içeriği Çıkarılan metin dosyası içeriği

Sonuç

Sonuç olarak, PDF dosyalarından metin çıkarmak için IronPDF ve Python'u kullanmak, metni tüm belgelerden, belirli sayfalardan veya hatta satır satır çıkarmak için güçlü ve basit bir yaklaşımdır. Bu elde edilen metnin bir metin dosyasına kaydedilmesi, verileri gelecekteki işlemler için verimli bir şekilde yönetmenizi ve kullanmanızı sağlar. IronPDF, metin çıkarmanın ötesinde çeşitli işlevler sunarak PDF'leri işlemekte paha biçilmez bir araçtır. IronPDF kullanarak, PDF'yi Python'da Metne dönüştürebilirsiniz.

Ayrıca, etkileşimli PDF'ler oluşturma, etkileşimli formlar doldurma ve gönderme, PDF dosyalarını birleştirme ve bölme, metin ve görüntüleri çıkarma, PDF dosyaları içinde metin arama, PDF'leri görüntülere ayrıştırma, yazı tipi boyutu, kenar ve arka plan rengini değiştirme ve PDF dosyalarını dönüştürme gibi görevler IronPDF araç takımı ile yapılabilir.

IronPDF açık kaynaklı bir Python kütüphanesi değildir. Projeniz için IronPDF kullanmayı düşünüyorsanız, paketin lisansı $799'dan başlamaktadır. Ancak, yatırım konusunda net değilseniz, IronPDF, özelliklerini kapsamlı bir şekilde keşfetmek için ücretsiz deneme sunar.

PDF'den Satır Satır Metin Çıkartma, Şekil 6: Lisans sayfası

Sıkça Sorulan Sorular

Python kullanarak bir PDF'den metin nasıl çıkartirim?

IronPDF kullanarak Python'da PDF dosyalarından metin çıkarabilirsiniz. Bu işlem, PdfDocument.FromFile yöntemi ile PDF'yi yüklemeyi ve metni satır satır çıkarmak için sayfalar arasında dolaşmayı içerir.

Python'da PDF'lerden metin çıkarmaya başlamak için ne gerekir?

Python'da PDF'lerden metin çıkarmak için Python'un yanı sıra pip ile kurulabilen IronPDF kütüphanesinin yüklü olması gerekir. Betiklerinizi yazmak ve çalıştırmak için Visual Studio Code gibi bir IDE önerilir.

IronPDF, PDF'deki belirli bir sayfadan metin çıkartılmasını sağlayabilir mi?

Evet, IronPDF, ExtractTextFromPage metodunu kullanarak bir PDF'deki belirli bir sayfadan metin çıkarmanıza olanak tanır. Sayfa indeksini belirterek işlemi gerçekleştirebilirsiniz.

Python'da çıkartılan metni bir dosyaya nasıl kaydedebilirim?

IronPDF kullanarak metin çıkardıktan sonra, Python'un dosya işleme yöntemlerini kullanarak çıkartılan metin satırlarını bir metin dosyasına kaydedebilirsiniz.

IronPDF'nin metin çıkarmanın dışında sunduğu ek özellikler nelerdir?

IronPDF, PDF oluşturma, düzenleme ve dönüştürme, PDF belgelerini birleştirme ve ayırma, görüntüleri çıkartma ve PDF'leri diğer dosya formatlarına dönüştürme gibi geniş bir özellik yelpazesi sunar.

Python projemde IronPDF'yi nasıl lisanslayabilirim?

IronPDF'yi lisanslamak için, kitaplığın tam işlevselliğini etkinleştiren License.LicenseKey özelliği ile Python betiğinizde lisans anahtarınızı ayarlayın.

Satın almadan önce IronPDF'yi denemek mümkün mü?

Evet, IronPDF, satın alma kararı vermeden önce özelliklerini değerlendirmenize olanak tanıyan bir deneme sürümü sunmaktadır.

PDF metin çıkartma işlemi sırasında sorun yaşarsam ne yapmalıyım?

IronPDF'nin doğru bir şekilde yüklendiğinden ve lisanslandığından emin olun ve Python ortamınızın doğru kurulduğunu kontrol edin. Yaygın sorunları çözmek için belgeleri veya destek kaynaklarını danışın.

IronPDF kullanarak bir PDF'yi bir görüntüye dönüştürebilir miyim?

Evet, IronPDF, PDF'leri görüntülere dönüştürme işlevselliği sağlar, böylece tüm belgeleri veya belirli sayfaları görüntü dosyalarına dönüştürebilirsiniz.

PDF metin çıkartma için bir Python betiğini nasıl çalıştırabilirim?

Betiklerinizi yazdıktan sonra, onları python main.py komutunu IDE'nizin terminalinde çalıştırarak çalıştırabilirsiniz, burada main.py betik dosyanızın adıdır.

Curtis Chau
Teknik Yazar

Curtis Chau, Bilgisayar Bilimleri alanında lisans derecesine sahiptir (Carleton Üniversitesi) ve Node.js, TypeScript, JavaScript ve React konularında uzmanlaşmış ön uç geliştirme üzerine uzmanlaşmıştır. Kullanıcı dostu ve estetik açıdan hoş arayüzler tasarlamaya tutkuyla bağlı olan Curtis, modern çerç...

Daha Fazlasını Oku

Iron Destek Ekibi

Haftanın 5 günü, 24 saat çevrimiçiyiz.
Sohbet
E-posta
Beni Ara