Altbilgi içeriğine atla
IRONPDF KULLANARAK

VB.NET ile PDF Dosyası Nasıl Ayrıştırılır

Bu eğitici ders, IronPDF'nin birinci sınıf desteği ile PDF dosyalarından programlı olarak metin ve görüntüleri nasıl çıkaracağınızı tanıtır.

IronPDF

Özellikler

Etkili PDF dönüştürme. Bir makinenin yapabildiği hemen her şeyi, IronPDF de yapabilir. Bu PDF kütüphanesi sayesinde geliştiriciler, hızla PDF oluşturabilir, metin içeriğini okuyabilir, yazabilir, yükleyebilir ve manipüle edebilir.

IronPDF, Chrome motorunu kullanarak HTML'yi PDF kaydına dönüştürür. Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms ve WPF ile birlikte çalışır. IronPDF ayrıca Xamarin, Blazor, Unity ve HoloLens uygulamalarını da destekler. IronPDF, Microsoft .NET ve .NET Core uygulamalarını (hem ASP.NET Web paketleri hem de geleneksel Windows paketleri) destekler. IronPDF, estetik açıdan hoş PDF'ler yapmak için kullanılabilir.

IronPDF, HTML5, JavaScript, CSS ve görüntüler kullanarak PDF oluşturabilir. IronPDF ayrıca PDF ile entegre olan güçlü bir HTML'den PDF'ye dönüştürücüye sahiptir. IronPDF, Chromium işleme motorunu kullanarak güçlü bir PDF dönüştürme mekanizmasına sahiptir. Ayrıca herhangi bir dış kaynağa bağlı değildir.

  • PDF görüntüsü, HTML, HTML5, ASPX ve Razor/MVC View dahil olmak üzere çeşitli kaynaklardan oluşturulabilir. Hem HTML hem de görüntü varlıkları PDF'ye dönüştürülebilir.
  • Etkileşimli PDF'ler ile çalışmak için kullanılabilecek araçlar arasında etkileşimli formları doldurma ve gönderme bulunur.
  • PDF'leri birleştirin ve bölün, PDF dosyalarından metin ve resimleri çıkar, PDF dosyalarında metin arayın, PDF'leri görüntülere dönüştürün, yazı tipi boyutunu değiştirin ve PDF dosyalarını dönüştürün.
  • Kullanıcı ajanları, proxy'ler, çerezler, HTTP başlıkları ve form değişkenleri kullanarak HTML giriş formlarının doğrulanmasına olanak tanır.
  • IronPDF, kullanıcı adları ve şifreler vererek güvenli belgelere erişim sağlar.
  • IronPDF, PDF'deki metni okuyan ve boşlukları dolduran bir programdır.
  • Metin, görüntüler, yer imleri, filigranlar ve daha fazlasını eklemeye izin verir.
  • CSS dosyasından PDF dosyası oluşturabilirsiniz.

Daha fazla bilgi için, ücretsiz sınırlı anahtar ve profesyonel sürüm için bu IronPDF lisans bilgisi sayfasını ziyaret edin.

VB.NET'te PDF Dosyasını Ayrıştırma, Şekil 1: IronPDF- Yazı Tipi Formatlama IronPDF- Yazı Tipi Formatlama

PDF dosyasından metin çıkarma

IronPDF ayrıca IronPDF kütüphanelerinin yardımıyla PDF dosyalarından metin okuyabilir ve çıkarabilir. Aşağıda, mevcut PDF dosyalarını incelemek için kullanılabilecek IronPDF kod örneği bulunmaktadır.

Tüm Sayfalardan Metin Çıkarma

Aşağıdaki kod örneği, sadece birkaç satırla tüm PDF içeriğini bir dize olarak elde etmenin ilk yöntemini göstermektedir.

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module

Yukarıdaki örnek kod, var olan bir dosyadan PDF okumak ve bunu bir PDF belge nesnesine dönüştürmek için FromFile yönteminin nasıl kullanılacağını göstermektedir. Bu nesne, PDF'den düz metin çıkararak bunu bir dizeye dönüştürecek olan ExtractAllText adında bir yöntem sağlar.

Sayfa Numarasına Göre Metin Çıkarma

Aşağıdaki örnek kod, PDF dosyasından sayfa numarası kullanarak veri çıkarmanın yolunu göstermektedir.

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module

Yukarıdaki kod, mevcut bir dosyadan PDF'yi okumanın ve bunu bir PDF belge nesnesine dönüştürmenin FromFile işlevini gösterir. Metinler ve görüntüler bu nesne üzerinden PDF'ye erişilebilir. Nesne, bir sayfa numarasını bir parametre olarak göndererek, o sayfanın üzerindeki tüm kelimeleri içeren bir dize elde edebilmenizi sağlayan ExtractTextFromPage adlı bir yöntem sunar.

Sayfalar Arasındaki Metni Çıkarın

Aşağıdaki kod, birden fazla sayfa arasındaki verileri nasıl çıkaracağınızı gösterir.

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module

Yukarıdaki kod, var olan bir dosyadan PDF okumak ve bunu bir PDF belge nesnesine dönüştürmek için FromFile yönteminin nasıl kullanılacağını gösterir. Bu nesne, PDF'deki metin ve resimleri incelemenizi sağlar. Nesne, sayfa numaralarının bir listesini bir parametre olarak göndererek, belgenin verilen sayfalarındaki tüm metin içeriğini içeren bir dize elde etmek için kullanılabilecek ExtractTextFromPages adında bir yöntem içerir. Aşağıda sol taraf kaynak PDF ve sağ taraf çıkarılan veridir.

VB.NET'te PDF Dosyasını Ayrıştırma, Şekil 2: Sayfalar Arası Çıkarılan Metin Sayfalar arasındaki metni çıkarma çıktısı

PDF dosyasından Resim Çıkarın

IronPDF, resim çıkarmak için şu yöntemleri sağlar:

Her yöntem, belgenin bir sayfasından veya birden fazla sayfasından resim çıkarılmasına izin verir.

Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module

Yukarıdaki kod, mevcut bir dosyadan belgeyi okumanın ve bunu bir PDF belge nesnesine dönüştürmenin FromFile işlevini gösterir. Nesnenin ExtractRawImagesFromPage metoduna sayfa numarasını geçirerek, o belgenin sayfasında bulunan her resmi içeren bir byte dizisi listesi elde edilebilir. For Each döngüsü kullanarak, her byte akışı işlenir ve bir bellek akışına sonra Bitmap'ya dönüştürülür, bu da resim kaydetmeye yardımcı olur. Aşağıdaki resim, yukarıdaki koddan elde edilen çıktıyı göstermektedir.

VB.NET'te PDF Dosyasını Ayrıştırma, Şekil 3: PDF'den Çıkarılan Görüntüler PDF'den resim çıkarma çıktısı

IronPDF API kod eğitimi hakkında daha fazla bilgi almak için IronPDF belgelerine başvurun. C# kullanarak PDF metnini ayrıştırmayı öğrenmek için diğer eğitimleri de ziyaret edebilirsiniz.

Sonuç

IronPDF kütüphanesi için geliştirme lisansı ücretsizdir. IronPDF'i üretim ortamında kullanıyorsanız, geliştiricinin ihtiyaçlarına bağlı olarak farklı lisanslar satın alınabilir. Lite planı $799 ile başlar ve devam eden bir maliyeti yoktur. SaaS ve OEM yeniden dağıtım alternatifleri de sağlanmaktadır. Tüm lisanslar güncellemeleri, bir yıllık ürün desteğini ve kalıcı bir lisansı içerir. Ayrıca, üretim, sahne ve geliştirme için de faydalıdır. Bu, tek seferlik bir satın alımdır. Ek ücretsiz, süre sınırlı lisanslar da mevcuttur. IronPDF için tam fiyatlandırma ve lisanslama detaylarını okumak için kapsamlı IronPDF lisanslama bilgilerini ziyaret edin. IronPDF aynı zamanda kopya koruması için ücretsiz lisanslar da sağlar.

Sıkça Sorulan Sorular

VB.NET’te bir PDF’ten metin nasıl çıkarabilirim?

IronPDF kütüphanesini kullanarak, ExtractAllText yöntemini kullanarak bir PDF’ten metin çıkarabilirsiniz. Bu yöntem, VB.NET projenizde bir PDF belgesinin tüm sayfalarından metni almanızı sağlar.

VB.NET kullanarak bir PDF'nin belirli sayfalarından görüntü çıkarmak mümkün mü?

Evet, IronPDF’un ExtractRawImagesFromPage yöntemi kullanılarak belirli sayfalardan görüntü çıkarabilirsiniz. Bu yöntem, resim verilerini bayt dizileri olarak döndürür ve bunları resim dosyalarına dönüştürebilirsiniz.

HTML içeriğini VB.NET’te PDF belgesine nasıl dönüştürebilirim?

IronPDF, Chromium işleme motorunu kullanarak güçlü bir HTML'den PDF'ye dönüştürme sağlar. HTML dizeleri veya dosyalarını verimli bir şekilde PDF belgelerine dönüştürmek için RenderHtmlAsPdf gibi yöntemleri kullanabilirsiniz.

VB.NET uygulamalarında PDF ayrıştırma için IronPDF kullanmanın faydaları nelerdir?

IronPDF, metin ve görüntü çıkarmayı sağlayan çeşitli API'ler sunar, HTML'den PDF'ye dönüşümü destekler ve ASP.NET, Windows Forms ve Blazor dahil olmak üzere çeşitli .NET platformları ile uyumludur. Ayrıca geliştirme ve üretim ihtiyaçlarına uygun farklı lisans seçenekleri sunar.

VB.NET projemde IronPDF'u nasıl entegre edebilirim?

IronPDF’u entegre etmek için, NuGet’ten kütüphaneyi indirin ve VB.NET projenize ekleyin. Bu, PDF dosyalarını programlı olarak ayrıştırma ve düzenlemek için yöntemlerine erişmenizi sağlayacaktır.

IronPDF hem PDF ayrıştırma hem de dönüşüm görevlerini gerçekleştirebilir mi?

Evet, IronPDF, hem ayrıştırma (metin ve resim çıkarma) hem de dönüştürme görevlerini (örn. HTML'den PDF'e) etkili bir şekilde ele almak için tasarlanmıştır ve bu, VB.NET için PDF işleme konusunda kapsamlı bir çözümdur.

IronPDF için hangi lisanslama seçenekleri mevcuttur?

IronPDF, Lite, SaaS ve OEM yeniden dağıtim dahil olmak uzere, ücretsiz bir geliştirme lisansi ve çeşitli üretim lisanslari sunar. Bu lisanslar, farkli proje ihtiyaçlarini karsilamak için bir yil boyunca güncellemeler ve destek içerir.

IronPDF, işlevselliği için herhangi bir harici kaynağa bağımlı mı?

Hayır, IronPDF tamamen kendi içindedir ve Chromium render motorunu dahili olarak kullanır; bu, PDF dönüşüm ve ayrıştırma için harici kaynaklara dayanmadan güçlü işlevselliği garantiler.

IronPDF, .NET 10'u destekliyor mu ve VB.NET geliştiricilerine nasıl fayda sağlıyor?

Evet, IronPDF, .NET 9, 8, 7, 6, Core, Standart ve Framework gibi önceki versiyonlarla birlikte .NET 10'u tamamen destekler. Bu, .NET 10 hedefleyen VB.NET projelerinin, ek yapılandırma gerektirmeden IronPDF kullanabileceği anlamına gelir. Geliştiriciler, .NET 10'deki azaltılmış yığın tahsisatı, daha iyi çalışma zamanı ve JIT optimizasyonları gibi yeni çalışma zamanı performans iyileştirmelerinden yararlanır. Bunlar, PDF oluşturma, metin/resim çıkarma ve HTML'den PDF'e dönüştürmeyi geliştirir.

Curtis Chau
Teknik Yazar

Curtis Chau, Bilgisayar Bilimleri alanında lisans derecesine sahiptir (Carleton Üniversitesi) ve Node.js, TypeScript, JavaScript ve React konularında uzmanlaşmış ön uç geliştirme üzerine uzmanlaşmıştır. Kullanıcı dostu ve estetik açıdan hoş arayüzler tasarlamaya tutkuyla bağlı olan Curtis, modern çerç...

Daha Fazlasını Oku

Iron Destek Ekibi

Haftanın 5 günü, 24 saat çevrimiçiyiz.
Sohbet
E-posta
Beni Ara