C#'ta PDF'lerden Gömülü Metin ve Görüntüleri Çıkarmak

Extract Embedded Text and Images from PDFs in C

This article was translated from English: Does it need improvement?
Translated
View the article in English

PDF belgelerinden hem metin içeriğini hem de görselleri basit yöntem çağrılarıyla C#'da çıkarın. Düzenleme, analiz veya diğer uygulamalarda tekrar kullanma için gömülü içeriği alın.

Metin ve resim çıkarma, PDF belgelerinden metinsel içeriği ve grafik öğeleri çıkarır. Düzenleme, arama, metni diğer formatlara dönüştürme ya da yeniden kullanma için resimleri kaydetme gibi içeriklere erişin ve yeniden kullanın. İster veri analizi için C#'da PDF'leri ayrıştırmanız, içeriği aranabilir formatlara dönüştürmeniz veya arşivleme için görsel öğeleri çıkarmanız gerekse de, IronPDF kapsamlı çıkarma araçları sunar.

IronPDF kullanarak metin ve resimleri çıkarın. Çıkartılan resimleri diske kaydedin veya yeni belgelere gömmek için başka bir formata dönüştürün. Bu esneklik, içerik dönüşümü gerektiren iş akışlarını, örneğin PDF'leri HTML'e dönüştürme veya çıkartılan resimleri yeniden kullanma gibi destekler.

Hızlı Başlangıç: IronPDF ile Metin ve Resimleri Çıkar

PDF'lerden sadece birkaç satırlık kodla metin ve resim çıkarın. Bu hızlı başlangıç, içerik yeniden kullanımı ve analizi için PDF belgelerinden gömülü içeriğin nasıl alınacağını gösterir. IronPDF'nin sadeleşmiş çözümüyle düzenleme için metin çıkarma veya gelecekte kullanmak üzere resim kaydetme.

  1. NuGet Paket Yöneticisi ile https://www.nuget.org/packages/IronPdf yükleyin

    PM > Install-Package IronPdf
  2. Bu kod parçasını kopyalayıp çalıştırın.

    var pdf = new IronPdf.PdfDocument("sample.pdf");  
    string text = pdf.ExtractAllText();  
    var images = pdf.ExtractAllImages();
  3. Canlı ortamınızda test etmek için dağıtın

    Bugün projenizde IronPDF kullanmaya başlayın ücretsiz deneme ile

    arrow pointer


PDF'lerden Metin Nasıl Çıkartırım?

Hem yeni işlenmiş hem de mevcut PDF belgelerinden metin çıkarın. Gomulu metni belgeden cikarmak icin ExtractAllText metodunu kullanin. Metod, PDF'deki tüm metinleri içeren bir dize döndürür. Sayfalar, dört ardışık satır başı karakteriyle ayrılır. Bu örnek, Wikipedia web sitesinden işlenmiş bir örnek PDF kullanır.

Uluslararası diller ve UTF-8 karakterlerini içeren PDF'lerle çalışırken, IronPDF uygun kodlama ve karakter temsilini korur. Bu, Latin olmayan yazıların ve özel karakterlerin doğru görüntülenmesini sağlar.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs
using IronPdf;
using System.IO;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text
string text = pdf.ExtractAllText();

// Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text);
Imports IronPdf
Imports System.IO

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text
Private text As String = pdf.ExtractAllText()

' Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text)
$vbLabelText   $csharpLabel
Wikipedia sayfasının ve çıkartılan düz metnin yan yana görüntüsü, metin çıkarma sürecini gösterir

Metni Kesin Koordinatlarla Nasıl Çıkarabilirim?

Her PDF sayfası içindeki metin satırları ve karakterlerin koordinatlarını alın. PDF'ten bir sayfa secin ve Lines ve Characters özelliklerine erisin. Koordinatlar, metin konumunu temsil eden Top, Right, Bottom ve Left degerlerini icerir. Bu özellik, mekansal düzeni korur ve metin konumu analizini sağlar.

C#'da konumsal farkındalıkla PDF dosyalarını okuması gereken geliştiriciler için, koordinat çıkarma belge yapısını korumak ve gelişmiş metin analizi uygulamak için veri sağlar.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs
using IronPdf;
using System.IO;
using System.Linq;

// Open PDF from file
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text by lines
var lines = pdf.Pages[0].Lines;

// Extract text by characters
var characters = pdf.Pages[0].Characters;

File.WriteAllLines("lines.txt", lines.Select(l => $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"));
Imports IronPdf
Imports System.IO
Imports System.Linq

' Open PDF from file
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text by lines
Private lines = pdf.Pages(0).Lines

' Extract text by characters
Private characters = pdf.Pages(0).Characters

File.WriteAllLines("lines.txt", lines.Select(Function(l) $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"))
$vbLabelText   $csharpLabel
Wikipedia ana sayfası ve Y-koordinatlarıyla çıkartılan metin dosyası, ayrıştırılmış içeriği gösterir

PDF'lerden Nasıl Resim Çıkarırım?

Belgedeki tüm gomulu görüntüleri cikarmak icin ExtractAllImages metodunu kullanin. Metot, görüntüleri AnyBitmap nesneleri listesi olarak dondurur. Aynı belgeyi kullanarak resimler çıkarttık ve onları 'images' klasörüne aktardık. Bu işlevsellik, resim arşivleme, içerik taşınması ve PDF sayfalarını resimlere rasterleştirme için destek sağlar.

Çıkartılan resimler orijinal kalitesini korur ve PNG, JPEG ve BMP dahil olmak üzere çeşitli formatlarda kaydedilebilir. Bulut depolama iş akışları için, bu işlevselliği Azure Blob Storage ile resim yönetimi için entegre edin.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs
using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract images
var images = pdf.ExtractAllImages();

for(int i = 0; i < images.Count; i++)
{
    // Export the extracted images
    images[i].SaveAs($"images/image{i}.png");
}
Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract images
Private images = pdf.ExtractAllImages()

For i As Integer = 0 To images.Count - 1
	' Export the extracted images
	images(i).SaveAs($"images/image{i}.png")
Next i
$vbLabelText   $csharpLabel
Resim çıkarma aracını çalıştırdıktan sonra küçük resim görünümünde 19 çıkartılmış PNG görselini gösteren Dosya Gezgini

Resim Çıkarma için Farklı Yöntemler Nelerdir?

ExtractAllImages metodunun oteki, görüntü bilgilerini cikarmak icin ExtractAllBitmaps ve ExtractAllRawImages metodlarini kullanin. ExtractAllBitmaps bir AnyBitmap List dokerken, ExtractAllRawImages tüm görüntüleri eleyerek ham bayi dizisi (byte[]) olarak dondurur.

ExtractAllRawImages metodu, görüntü verilerini bellekte islerken veya bayi dizisi girdileri gerektiren sistemlerle entegre ederken iyi calisir. PDF'leri hafıza akışlarına çıkartmayı içeren senaryolar için, ham bayt dizi formatı en iyi esnekliği sağlar.


Belirli PDF Sayfaları İçeriğini Nasıl Çıkarırım?

Tek veya birden fazla belirli sayfadan metin ve resim çıkarın. Metin cikartmak icin, tek veya birden fazla sayfadan ExtractTextFromPage ve ExtractTextFromPages metodlarini kullanin. Görüntüler icin ExtractImagesFromPage ve ExtractImagesFromPages metodlarini kullanin.

Bu ayrıntılı kontrol, yalnızca ilgili içeriği içeren belirli bölümler bulunan büyük belgelerle çalışırken yardımcı olur. PDF'leri bölmek ve tekil sayfaları çıkarmak için ayrı işleme olanak tanır.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs
using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text from page 1
string textFromPage1 = pdf.ExtractTextFromPage(0);

int[] pages = new[] { 0, 2 };

// Extract text from pages 1 & 3
string textFromPage1_3 = pdf.ExtractTextFromPages(pages);
Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text from page 1
Private textFromPage1 As String = pdf.ExtractTextFromPage(0)

Private pages() As Integer = { 0, 2 }

' Extract text from pages 1 & 3
Private textFromPage1_3 As String = pdf.ExtractTextFromPages(pages)
$vbLabelText   $csharpLabel

Ne Zaman Tüm Sayfalar Yerine Belirli Sayfalardan Çıkarmalıyım?

Belirli sayfalardan çıkartma:

  • Belirli bölümlerinde ilgili verileri içeren büyük PDF'lerle çalışırken
  • Sayfaları bağımsız olarak ele alan iş akışları uygularken
  • Artımlı içerik gösterimi veya işlemeyi gerektiren uygulamalar oluştururken
  • Yalnızca gerekli sayfaları işleyerek bellek kullanımını optimize ederken
  • Sayfaya özel arama veya indeksleme işlevselliği oluştururken

Hakkında Bilmem Gereken Performans Dikkatleri Nelerdir?

PDF içeriğini çıkartırken bu performans faktörlerini dikkate alın:

  • Bellek Kullanımı: Büyük belgelerden sayfaları ayrı ayrı çıkarın, bellek tüketimini en aza indirgemek için
  • İşleme Süresi: Çok sayfalı çıkarmalar için paralel işlem kullanın
  • Dosya Boyutu: Yüksek çözünürlüklü resimlere sahip daha büyük PDF'ler daha fazla işleme süresi gerektirir
  • Depolama: Yüksek çözünürlüklü birçok resmi çıkarmak için yeterli disk alanı planlayın
  • İş Parçacığı: IronPDF, çok çekirdekli sistemlerde performansı artırmak için çok iş parçacıklı işlemleri destekler

Hafızada PDF'lerle en iyi performans için, disk G/Ç yükünü azaltmak için hafıza akışı işlemlerini kullanın.

Sıkça Sorulan Sorular

PDF belgelerinden metin çıkarmak için C# kullanıyorum?

IronPDF'nin ExtractAllText metodunu kullanarak PDF belgelerindeki gömülü metni çıkarabilirsiniz. Metod, PDF'deki tüm metni içeren bir string döndürür, sayfalar dört ardışık yeni satır karakteriyle ayrılır. IronPDF, uluslararası diller ve UTF-8 karakterleri için doğru kodlamayı korur.

PDF dosyalarından programatik olarak resim çıkarabilir miyim?

Evet, IronPDF, PDF belgelerinden grafik unsurlarını çekmek için ExtractAllImages yöntemini sağlar. Çıkartılan resimleri diske kaydedebilir veya yeni belgelere eklemeden önce diğer formatlara dönüştürebilirsiniz.

PDF içerik çıkarımındaki ana kullanım durumları nelerdir?

IronPDF'nin çıkarım araçları, veri analizi için PDF'leri ayrıştırma, içeriği aranabilir formata dönüştürme, arşivleme için görsel öğeleri çıkartma ve içeriği düzenleme veya HTML gibi diğer formatlara dönüştürme dahil çeşitli iş akışlarını destekler.

PDF içeriğini çıkarmak ne kadar kod satırı alır?

IronPDF ile, metin ve görselleri sadece birkaç satırlık kod ile çıkarabilirsiniz. Basitçe PDF belgenizi yükleyin ve metin çıkarmak için ExtractAllText() veya görsel çıkarmak için ExtractAllImages() çağırın.

Tüm belgenin yerine belirli sayfalardan içerik çıkarabilir miyim?

Evet, IronPDF, PDF belgelerinizden hangi içeriği alacağınıza dair kesin kontrol sağlayarak, çıkarılacak metin ve görüntüler için belirli sayfalar belirtmenize olanak tanır.

Curtis Chau
Teknik Yazar

Curtis Chau, Bilgisayar Bilimleri alanında lisans derecesine sahiptir (Carleton Üniversitesi) ve Node.js, TypeScript, JavaScript ve React konularında uzmanlaşmış ön uç geliştirme üzerine uzmanlaşmıştır. Kullanıcı dostu ve estetik açıdan hoş arayüzler tasarlamaya tutkuyla bağlı olan Curtis, modern çerç...

Daha Fazlasını Oku
Başlamaya Hazır mısınız?
Nuget Indirmeler 18,332,619 | Sürüm: 2026.4 yeni yayınlandı
Still Scrolling Icon

Hala Kaydiriyor musunuz?

Hızlı bir kanit mi istiyorsunuz? PM > Install-Package IronPdf
bir örnek çalıştır HTML'nizin PDF olduğunu izleyin.