C# PDF Ayrıştırıcı
IronPDF'nin ExtractAllText yöntemi ile C#'ta PDF dosyalarını analiz edin, tüm belgelerden veya belirli sayfalardan metin çıkarın. Bu yaklaşım, birkaç satır kodla .NET uygulamaları için basit, verimli bir PDF metin çıkarımı sağlar.
IronPDF, C# uygulamalarında PDF ayrıştırmayı kolaylaştırır. Bu eğitim, PDF oluşturma ve düzenleme için kapsamlı bir C# kütüphanesi olan IronPDF'yi sadece birkaç adımda PDF'leri ayrıştırmak için nasıl kullanacağınızı gösteriyor.
Hızlı Başlangıç: IronPDF ile Verimli PDF Ayrıştırma
IronPDF kullanarak C#'te PDF'leri minimal kodla ayrıştırmaya başlayın. Bu örnek, bir PDF dosyasındaki tüm metni orijinal formatını koruyarak nasıl çıkarabileceğinizi gösterir. IronPDF'nin ExtractAllText yöntemi, .NET uygulamalarına sorunsuz PDF ayrıştırma entegrasyonu sağlar. Basit kurulum ve uygulama için bu adımları takip edin.
-
NuGet Paket Yöneticisi ile https://www.nuget.org/packages/IronPdf yükleyin
PM > Install-Package IronPdf -
Bu kod parçasını kopyalayıp çalıştırın.
var text = IronPdf.FromFile("sample.pdf").ExtractAllText(); -
Canlı ortamınızda test etmek için dağıtın
Bugün projenizde IronPDF kullanmaya başlayın ücretsiz deneme ile
Minimal Is Akisi (5 adimda)
- C# PDF ayrıştırıcı kütüphanesini İndirin
- Visual Studio'nuza kurun
- Metni satır satır çıkarmak için
ExtractAllTextyöntemini kullanın ExtractTextFromPageyöntemiyle tek bir sayfadaki tüm metni çıkarın- Çözümleme yapılmış PDF içeriğini görüntüleyin
PDF Dosyalarını C# İle Nasıl Çözümleyebilirim?
IronPDF ile PDF dosyalarını çözümlemek basittir. Aşağıdaki kod, tüm PDF belgesindeki her satır metni çıkarmak için ExtractAllText yöntemini kullanır. Karşılaştırma, PDF içeriğinin çıkarılan sonuçlarla yan yana gösterimini sunar. Kütüphane ayrıca PDF belgelerinin belirli bölümlerinden metin ve resim çıkarma işlemine de destek verir.
:path=/static-assets/pdf/content-code-examples/how-to/csharp-parse-pdf-parse-pdf.cs
using IronPdf;
// Select the desired PDF File
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
// Extract all text from an pdf
string allText = pdf.ExtractAllText();
// Extract all text from page 1
string page1Text = pdf.ExtractTextFromPage(0);
Imports IronPdf
' Select the desired PDF File
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")
' Extract all text from an pdf
Private allText As String = pdf.ExtractAllText()
' Extract all text from page 1
Private page1Text As String = pdf.ExtractTextFromPage(0)
IronPDF, çeşitli senaryolar için PDF çözümlemesini basitleştirir. HTML'den PDF'ye dönüştürme, mevcut belgelerden içerik çıkarma veya gelişmiş PDF özellikleri uygulama gibi durumlarda, kütüphane kapsamlı destek sunar.
IronPDF, Windows uygulamaları ile sorunsuz entegrasyon sunar ve Linux ve macOS platformlarında dağıtımı destekler. Kütüphane ayrıca bulut tabanlı çözümler için Azure dağıtımını destekler.
Gelişmiş Metin Çıkarma Örnekleri
IronPDF kullanarak PDF içeriğini çözümlemenin ek yolları burada:
using IronPdf;
// Parse PDF from URL
var pdfFromUrl = PdfDocument.FromUrl("https://example.com/document.pdf");
string urlPdfText = pdfFromUrl.ExtractAllText();
// Parse password-protected PDFs
var protectedPdf = PdfDocument.FromFile("protected.pdf", "password123");
string protectedText = protectedPdf.ExtractAllText();
// Extract text from specific page range
var largePdf = PdfDocument.FromFile("large-document.pdf");
for (int i = 5; i < 10; i++)
{
string pageText = largePdf.ExtractTextFromPage(i);
Console.WriteLine($"Page {i + 1}: {pageText.Substring(0, 100)}...");
}
using IronPdf;
// Parse PDF from URL
var pdfFromUrl = PdfDocument.FromUrl("https://example.com/document.pdf");
string urlPdfText = pdfFromUrl.ExtractAllText();
// Parse password-protected PDFs
var protectedPdf = PdfDocument.FromFile("protected.pdf", "password123");
string protectedText = protectedPdf.ExtractAllText();
// Extract text from specific page range
var largePdf = PdfDocument.FromFile("large-document.pdf");
for (int i = 5; i < 10; i++)
{
string pageText = largePdf.ExtractTextFromPage(i);
Console.WriteLine($"Page {i + 1}: {pageText.Substring(0, 100)}...");
}
Imports IronPdf
' Parse PDF from URL
Dim pdfFromUrl = PdfDocument.FromUrl("https://example.com/document.pdf")
Dim urlPdfText As String = pdfFromUrl.ExtractAllText()
' Parse password-protected PDFs
Dim protectedPdf = PdfDocument.FromFile("protected.pdf", "password123")
Dim protectedText As String = protectedPdf.ExtractAllText()
' Extract text from specific page range
Dim largePdf = PdfDocument.FromFile("large-document.pdf")
For i As Integer = 5 To 9
Dim pageText As String = largePdf.ExtractTextFromPage(i)
Console.WriteLine($"Page {i + 1}: {pageText.Substring(0, 100)}...")
Next
Bu örnekler, çeşitli PDF kaynakları ve senaryoları ile çalışırken IronPDF'nin esnekliğini gösterir. Karmaşık çözümleme ihtiyaçları için, yapısal içerikle çalışmak üzere PDF DOM nesne erişimini keşfedin.
Farklı PDF Türleriyle Çalışma
IronPDF, çeşitli PDF türlerini çözümleme konusunda ustadır:
using IronPdf;
using System.Text.RegularExpressions;
// Parse scanned PDFs with OCR (requires IronOcr)
var scannedPdf = PdfDocument.FromFile("scanned-document.pdf");
string ocrText = scannedPdf.ExtractAllText();
// Parse PDFs with forms
var formPdf = PdfDocument.FromFile("form.pdf");
string formText = formPdf.ExtractAllText();
// Extract and filter specific content
string invoiceText = pdf.ExtractAllText();
var invoiceNumber = Regex.Match(invoiceText, @"Invoice #: (\d+)").Groups[1].Value;
var totalAmount = Regex.Match(invoiceText, @"Total: \$([0-9,]+\.\d{2})").Groups[1].Value;
using IronPdf;
using System.Text.RegularExpressions;
// Parse scanned PDFs with OCR (requires IronOcr)
var scannedPdf = PdfDocument.FromFile("scanned-document.pdf");
string ocrText = scannedPdf.ExtractAllText();
// Parse PDFs with forms
var formPdf = PdfDocument.FromFile("form.pdf");
string formText = formPdf.ExtractAllText();
// Extract and filter specific content
string invoiceText = pdf.ExtractAllText();
var invoiceNumber = Regex.Match(invoiceText, @"Invoice #: (\d+)").Groups[1].Value;
var totalAmount = Regex.Match(invoiceText, @"Total: \$([0-9,]+\.\d{2})").Groups[1].Value;
Imports IronPdf
Imports System.Text.RegularExpressions
' Parse scanned PDFs with OCR (requires IronOcr)
Dim scannedPdf = PdfDocument.FromFile("scanned-document.pdf")
Dim ocrText As String = scannedPdf.ExtractAllText()
' Parse PDFs with forms
Dim formPdf = PdfDocument.FromFile("form.pdf")
Dim formText As String = formPdf.ExtractAllText()
' Extract and filter specific content
Dim invoiceText As String = pdf.ExtractAllText()
Dim invoiceNumber = Regex.Match(invoiceText, "Invoice #: (\d+)").Groups(1).Value
Dim totalAmount = Regex.Match(invoiceText, "Total: \$([0-9,]+\.\d{2})").Groups(1).Value
Çözümleme Yapılmış PDF İçeriğini Nasıl Görüntülerim?
Yukarıdaki kod yürütmesinden elde edilen çözümleme yapılmış PDF içeriği bir C# Formu tarafından görüntülenir. Bu çıktı, doküman işleme ihtiyaçları için bir PDF'den alınmış tam metni sağlar.
Çıkarılan metin, orijinal PDF'nin biçimlendirmesini ve yapısını korur, bu da onu veri işleme, içerik analizi veya taşıma görevleri için ideal kılar. Bu metni daha fazla işleyin, belirli içerikleri bulup değiştirin veya diğer formatlara aktarın.
PDF Çözümlemesini Uygulamalarınıza Entegre Etme
IronPDF'nin çözümleme yetenekleri çeşitli uygulama türleriyle entegre olur:
// ASP.NET Core example
public IActionResult ParseUploadedPdf(IFormFile pdfFile)
{
using var stream = pdfFile.OpenReadStream();
var pdf = PdfDocument.FromStream(stream);
var extractedText = pdf.ExtractAllText();
// Process or store the extracted text
return Json(new {
success = true,
textLength = extractedText.Length,
preview = extractedText.Substring(0, Math.Min(500, extractedText.Length))
});
}
// Console application example
static void BatchParsePdfs(string folderPath)
{
var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");
foreach (var file in pdfFiles)
{
var pdf = PdfDocument.FromFile(file);
var text = pdf.ExtractAllText();
// Save extracted text
var textFile = Path.ChangeExtension(file, ".txt");
File.WriteAllText(textFile, text);
Console.WriteLine($"Parsed: {Path.GetFileName(file)} - {text.Length} characters");
}
}
// ASP.NET Core example
public IActionResult ParseUploadedPdf(IFormFile pdfFile)
{
using var stream = pdfFile.OpenReadStream();
var pdf = PdfDocument.FromStream(stream);
var extractedText = pdf.ExtractAllText();
// Process or store the extracted text
return Json(new {
success = true,
textLength = extractedText.Length,
preview = extractedText.Substring(0, Math.Min(500, extractedText.Length))
});
}
// Console application example
static void BatchParsePdfs(string folderPath)
{
var pdfFiles = Directory.GetFiles(folderPath, "*.pdf");
foreach (var file in pdfFiles)
{
var pdf = PdfDocument.FromFile(file);
var text = pdf.ExtractAllText();
// Save extracted text
var textFile = Path.ChangeExtension(file, ".txt");
File.WriteAllText(textFile, text);
Console.WriteLine($"Parsed: {Path.GetFileName(file)} - {text.Length} characters");
}
}
Imports Microsoft.AspNetCore.Mvc
Imports System.IO
' ASP.NET Core example
Public Function ParseUploadedPdf(pdfFile As IFormFile) As IActionResult
Using stream = pdfFile.OpenReadStream()
Dim pdf = PdfDocument.FromStream(stream)
Dim extractedText = pdf.ExtractAllText()
' Process or store the extracted text
Return Json(New With {
.success = True,
.textLength = extractedText.Length,
.preview = extractedText.Substring(0, Math.Min(500, extractedText.Length))
})
End Using
End Function
' Console application example
Private Shared Sub BatchParsePdfs(folderPath As String)
Dim pdfFiles = Directory.GetFiles(folderPath, "*.pdf")
For Each file In pdfFiles
Dim pdf = PdfDocument.FromFile(file)
Dim text = pdf.ExtractAllText()
' Save extracted text
Dim textFile = Path.ChangeExtension(file, ".txt")
File.WriteAllText(textFile, text)
Console.WriteLine($"Parsed: {Path.GetFileName(file)} - {text.Length} characters")
Next
End Sub
Bu örnekler, web uygulamaları ve toplu işleme senaryolarında PDF çözümlemesinin entegrasyonunu gösterir. Gelişmiş uygulamalar için, birden fazla PDF'yi işlerken performansı artırmak için eşzamanlılık ve çoklu iş parçacığı tekniklerini keşfedin.
Başka neler yapabileceğinizi görmek için hazır mısınız? Eğitim sayfamızı burada inceleyin: PDF'leri Düzenle
Sıkça Sorulan Sorular
C#'ta bir PDF dosyasındaki tüm metni nasıl çıkarırım?
IronPDF'in ExtractAllText yöntemini kullanarak bir PDF dosyasındaki tüm metni çıkarabilirsiniz. PDF'nizi IronPdf.FromFile('sample.pdf') ile yükleyin ve tüm metin içeriğini orijinal formatını koruyarak almak için ExtractAllText() çağrısında bulunun.
.NET'te bir PDF'yi ayrıştırmanın en basit yolu nedir?
En basit yol, tek bir kod satırı ile IronPDF kullanmaktır: var text = IronPdf.FromFile('sample.pdf').ExtractAllText(). Bu yöntem, tüm PDF belgesinden metnin her satırını minimal bir kurulum gereksinimi ile çıkarır.
PDF'nin belirli bir sayfasından metin çıkarabilir miyim?
Evet, IronPDF, bireysel sayfalardan metin çıkarmak için ExtractTextFromPage yöntemini sağlar. Bu, PDF belgenizin belirli bölümlerine hedeflenmenizi sağlar ve tüm içeriği bir kerede çıkarmanıza gerek kalmaz.
C#'ta parola korumalı PDF'leri nasıl ayrıştırırım?
IronPDF, parola korumalı PDF'lerin ayrıştırılmasını destekler. Korunan belgeyi yüklemek için PdfDocument.FromFile('protected.pdf', 'password123') kullanın, ardından metin içeriğini çıkarmak için ExtractAllText() çağrısında bulunun.
Yerel dosyalar yerine URL'lerden PDF ayrıştırabilir miyim?
Evet, IronPDF, PdfDocument.FromUrl('https://example.com/document.pdf') kullanarak doğrudan URL'lerden PDF ayrıştırabilir. URL'den PDF yüklendikten sonra, metin içeriğini çıkarmak için ExtractAllText()'i kullanın.
PDF ayrıştırıcı hangi platformları destekler?
IronPDF, PDF ayrıştırmayı Windows uygulamaları, Linux, macOS ve Azure bulut dağıtımları dahil olmak üzere birden fazla platformda destekler ve .NET uygulamalarınız için kapsamlı çoklu platform uyumluluğu sağlar.
PDF ayrıştırma sırasında metin formatı korunuyor mu?
Evet, IronPDF'in ExtractAllText yöntemi, ayrıştırma sırasında PDF içeriğinin orijinal formatını korur ve ayrıştırılan metnin kaynak belgeden yapısını ve düzenini korumasını sağlar.
PDF'lerden hem metin hem de görüntü çıkarabilir miyim?
IronPDF, PDF belgelerinden hem metin hem de görüntü çıkarılmasını destekler. Metin çıkarmak için ExtractAllText yöntemi ötesinde, kütüphane PDF belgelerinin belirli bölümlerinden görüntü çıkarmak için ek işlevsellik sağlar.

