Extract Embedded Text and Images from PDFs in C

Zaktualizowano:15 lutego, 2026

Translated

View the article in English

Wyodrębnij zarówno zawartość tekstową, jak i obrazy z dokumentów PDF w C# za pomocą prostych wywołań metod. Pobierz osadzone treści do edycji, analizy lub ponownego wykorzystania w innych aplikacjach.

Twoja firma wydaje zbyt dużo na roczne subskrypcje związane z bezpieczeństwem i zgodnością plików PDF. Rozważ IronSecureDoc, który zapewnia rozwiązania do zarządzania usługami SaaS, takimi jak podpis cyfrowy, redagowanie, szyfrowanie i ochrona, a wszystko to za jednorazową opłatą. Zapoznaj się z dokumentacją IronSecureDoc

Wyodrębnianie tekstu i obrazów pobiera zawartość tekstową i graficzne elementy z dokumentów PDF. Uzyskaj dostęp do zawartości i przekształcaj ją do edycji, wyszukiwania, konwersji tekstu na inne formaty lub zapisywania obrazów do ponownego użycia. Niezależnie od tego, czy chcesz parsować PDF-y w C# do analizy danych, konwertować zawartość do formatów umożliwiających wyszukiwanie, czy wyodrębniać elementy wizualne do archiwizacji, IronPDF dostarcza kompleksowe narzędzia do wyodrębniania.

Wyodrębnianie tekstu i obrazów przy użyciu IronPDF. Zapisz wyodrębnione obrazy na dysku lub przekonwertuj je na inny format przed osadzeniem w nowych dokumentach. Ta elastyczność wspiera przepływy pracy wymagające transformacji treści, takie jak konwersja PDF-ów do HTML lub ponowne wykorzystanie wyodrębnionych obrazów.

Quickstart: Wyodrębnianie tekstu i obrazów przy użyciu IronPDF

Wyodrębnij tekst i obrazy z PDF-ów w zaledwie kilku liniach kodu. Ten szybki start pokazuje, jak pobrać osadzone treści z dokumentów PDF do ponownego wykorzystania treści i analizy. Wyodrębnij tekst do edycji lub zapisz obrazy do dalszego wykorzystania dzięki uproszczonemu rozwiązaniu IronPDF.

Install IronPDF with NuGet Package Manager
PM > Install-Package IronPdf

Skopiuj i uruchom ten fragment kodu.

var pdf = new IronPdf.PdfDocument("sample.pdf");  
string text = pdf.ExtractAllText();  
var images = pdf.ExtractAllImages();

Wdrożenie do testowania w środowisku produkcyjnym

Rozpocznij używanie IronPDF w swoim projekcie już dziś z darmową wersją próbną

Minimalny proces (5 kroków)

Pobierz bibliotekę IronPdf dla C#
Przygotuj dokument PDF do wyodrębniania tekstu i obrazów
Użyj metody ExtractAllText do wyodrębniania tekstu
Użyj metody ExtractAllImages do wyodrębniania obrazów
Określ konkretne strony, z których należy wyodrębnić tekst i obrazy

Jak wyodrębnić tekst z plików PDF?

Wyodrębnij tekst zarówno z nowo renderowanych, jak i istniejących dokumentów PDF. Użyj metody ExtractAllText, aby wyodrębnić osadzony tekst z dokumentu. Metoda zwraca ciąg zawierający cały tekst w PDF. Strony są oddzielone czterema kolejnymi znakami nowej linii. Ten przykład używa przykładowego PDF renderowanego ze strony Wikipedii.

Pracując z PDF-ami zawierającymi międzynarodowe języki i znaki UTF-8, IronPDF zachowuje odpowiednie kodowanie i reprezentację znaków. Zapewnia to poprawne wyświetlanie pism niełacińskich i znaków specjalnych.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs

using IronPdf;
using System.IO;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text
string text = pdf.ExtractAllText();

// Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text);

Imports IronPdf
Imports System.IO

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text
Private text As String = pdf.ExtractAllText()

' Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text)

$vbLabelText $csharpLabel

Jak mogę wyodrębnić tekst z precyzyjnymi współrzędnymi?

Pobierz współrzędne linii tekstu i znaków w każdej stronie PDF. Wybierz stronę z PDF i uzyskaj dostęp do właściwości Lines i Characters. Współrzędne obejmują wartości Top, Right, Bottom i Left reprezentujące pozycję tekstu. Ta funkcja zachowuje układ przestrzenny i umożliwia analizę pozycji tekstu.

Dla deweloperów, którzy muszą czytać pliki PDF w C# z zachowaniem świadomości pozycji, wyodrębnianie współrzędnych dostarcza dane do zachowania struktury dokumentu i implementacji zaawansowanej analizy tekstu.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs

using IronPdf;
using System.IO;
using System.Linq;

// Open PDF from file
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text by lines
var lines = pdf.Pages[0].Lines;

// Extract text by characters
var characters = pdf.Pages[0].Characters;

File.WriteAllLines("lines.txt", lines.Select(l => $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"));

Imports IronPdf
Imports System.IO
Imports System.Linq

' Open PDF from file
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text by lines
Private lines = pdf.Pages(0).Lines

' Extract text by characters
Private characters = pdf.Pages(0).Characters

File.WriteAllLines("lines.txt", lines.Select(Function(l) $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"))

$vbLabelText $csharpLabel

Jak mogę wyodrębnić obrazy z PDF-ów?

Użyj metody ExtractAllImages, aby wyodrębnić wszystkie osadzone obrazy z dokumentu. Metoda zwraca obrazy jako listę obiektów AnyBitmap. Używając tego samego dokumentu, wyodrębniliśmy obrazy i wyeksportowaliśmy je do folderu 'images'. Ta funkcjonalność wspiera archiwizację obrazów, migrację treści i rasteryzację stron PDF na obrazy do dalszego przetwarzania.

Wyodrębnione obrazy zachowują oryginalną jakość i mogą być zapisywane w różnych formatach, w tym PNG, JPEG i BMP. Dla przepływów pracy z przechowywaniem w chmurze zintegrowanie tej funkcjonalności z Azure Blob Storage do zarządzania obrazami.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs

using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract images
var images = pdf.ExtractAllImages();

for(int i = 0; i < images.Count; i++)
{
    // Export the extracted images
    images[i].SaveAs($"images/image{i}.png");
}

Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract images
Private images = pdf.ExtractAllImages()

For i As Integer = 0 To images.Count - 1
	' Export the extracted images
	images(i).SaveAs($"images/image{i}.png")
Next i

$vbLabelText $csharpLabel

Jakie są różne metody wyodrębniania obrazów?

Poza metodą ExtractAllImages użyj metod ExtractAllBitmaps i ExtractAllRawImages do wyodrębniania informacji o obrazach. Podczas gdy ExtractAllBitmaps zwraca Listę AnyBitmap, ExtractAllRawImages wyodrębnia wszystkie obrazy i zwraca je jako surowe tablice bajtów (byte[]).

Metoda ExtractAllRawImages dobrze sprawdza się podczas przetwarzania danych obrazów w pamięci lub integracji z systemami wymagającymi wejściowych tablic bajtowych. W scenariuszach związanych z eksportowaniem PDF-ów do strumieni pamięci, format surowej tablicy bajtów zapewnia optymalną elastyczność.

Jak mogę wyodrębnić zawartość ze specyficznych stron PDF?

Wyodrębnij tekst i obrazy z pojedynczych lub wielokrotnie określonych stron. Użyj metod ExtractTextFromPage i ExtractTextFromPages do wyodrębniania tekstu z jednej lub wielu stron. Dla obrazów użyj metod ExtractImagesFromPage i ExtractImagesFromPages.

Ta kontrola szczegółowa pomaga, gdy pracujemy z dużymi dokumentami, gdzie tylko specyficzne sekcje zawierają istotne treści. Wspiera także funkcje rozcinania PDF-ów i wyodrębniania pojedynczych stron do oddzielnego przetwarzania.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs

using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text from page 1
string textFromPage1 = pdf.ExtractTextFromPage(0);

int[] pages = new[] { 0, 2 };

// Extract text from pages 1 & 3
string textFromPage1_3 = pdf.ExtractTextFromPages(pages);

Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text from page 1
Private textFromPage1 As String = pdf.ExtractTextFromPage(0)

Private pages() As Integer = { 0, 2 }

' Extract text from pages 1 & 3
Private textFromPage1_3 As String = pdf.ExtractTextFromPages(pages)

$vbLabelText $csharpLabel

Kiedy powinienem wyodrębniać ze specyficznych stron zamiast ze wszystkich?

Wyodrębniaj ze specyficznych stron, gdy:

Pracujesz z dużymi PDF-ami zawierającymi istotne dane w pewnych sekcjach
Implementujesz przepływy pracy, które obsługują strony niezależnie
Tworzysz aplikacje wymagające stopniowego wyświetlania treści lub przetwarzania
Optymalizujesz użycie pamięci, przetwarzając tylko potrzebne strony
Tworzysz funkcjonalność wyszukiwania lub indeksowania specyficzną dla stron

Jakie kwestie wydajnościowe powinienem znać?

Weź pod uwagę te czynniki wydajnościowe podczas wyodrębniania treści PDF:

Użycie pamięci: Wyodrębniaj strony indywidualnie z dużych dokumentów, aby zminimalizować zużycie pamięci
Czas przetwarzania: Używaj przetwarzania równoległego do wielostronicowych ekstrakcji, gdy jest to stosowne
Rozmiar pliku: Większe PDF-y z obrazami o wysokiej rozdzielczości wymagają więcej czasu przetwarzania
Przechowywanie: Zaplanuj odpowiednią przestrzeń na dysku na wyodrębnianie licznych obrazów o wysokiej rozdzielczości
Multitasking: IronPDF wspiera operacje wielowątkowe dla poprawy wydajności na systemach wielordzeniowych

Dla optymalnej wydajności z PDF-ami w pamięci, użyj operacji strumieniowania pamięci, by zredukować obciążenie dysku I/O.

Często Zadawane Pytania

How do I extract text from PDF documents in C#?

Use IronPDF's ExtractAllText method to extract embedded text from PDF documents. The method returns a string containing all text in the PDF, with pages separated by four consecutive newline characters. IronPDF maintains proper encoding for international languages and UTF-8 characters.

Can I extract images from PDF files programmatically?

Yes, IronPDF provides the ExtractAllImages method to retrieve graphical elements from PDF documents. You can save extracted images to disk or convert them to other formats before embedding them in new documents.

What are the main use cases for PDF content extraction?

IronPDF's extraction tools support various workflows including parsing PDFs for data analysis, converting content to searchable formats, extracting visual elements for archiving, and repurposing content for editing or transformation into other formats like HTML.

How many lines of code does it take to extract PDF content?

With IronPDF, you can extract text and images in just a few lines of code. Simply load your PDF document and call ExtractAllText() for text extraction or ExtractAllImages() for image extraction.

Can I extract content from specific pages instead of the entire document?

Yes, IronPDF allows you to specify particular pages from which to extract text and images, giving you precise control over which content to retrieve from your PDF documents.

Curtis Chau

Czat z zespołem inżynierów teraz

Autor tekstów technicznych

Curtis Chau posiada tytuł licencjata z informatyki (Uniwersytet Carleton) i specjalizuje się w front-endowym rozwoju, z ekspertką w Node.js, TypeScript, JavaScript i React. Pasjonuje się tworzeniem intuicyjnych i estetycznie przyjemnych interfejsów użytkownika, Curtis cieszy się pracą z nowoczesnymi frameworkami i tworzeniem dobrze zorganizowanych, atrakcyjnych wizualnie podrę...

Czytaj więcej

Gotowy, aby rozpocząć?

Nuget Pliki do pobrania 18,135,201 | Wersja: 2026.4 just released

Zobacz licencje

Wciąż przewijasz?

Czy chcesz szybko dowodu? PM > Install-Package IronPdf
Uruchom przykład i zobacz, jak Twój kod HTML zamienia się w plik PDF.

Zobacz licencje

Zwyciestwo klienta:

Podkreslaj programiste:

SEMINARIA INTERNETOWE:

Rozpocznij Bezpłatny 30-dniowy Okres Próbny

Na tej stronie

Extract Embedded Text and Images from PDFs in C

Install IronPDF with NuGet Package Manager

Skopiuj i uruchom ten fragment kodu.

Wdrożenie do testowania w środowisku produkcyjnym

Minimalny proces (5 kroków)

Jak wyodrębnić tekst z plików PDF?

Jak mogę wyodrębnić tekst z precyzyjnymi współrzędnymi?

Jak mogę wyodrębnić obrazy z PDF-ów?

Jakie są różne metody wyodrębniania obrazów?

Jak mogę wyodrębnić zawartość ze specyficznych stron PDF?

Kiedy powinienem wyodrębniać ze specyficznych stron zamiast ze wszystkich?

Jakie kwestie wydajnościowe powinienem znać?

Często Zadawane Pytania

How do I extract text from PDF documents in C#?

Can I extract images from PDF files programmatically?

What are the main use cases for PDF content extraction?

How many lines of code does it take to extract PDF content?

Can I extract content from specific pages instead of the entire document?

Wciąż przewijasz?

Zespol wsparcia Iron

Rozpocznij Bezpłatny 30-dniowy Okres Próbny

Na tej stronie

Extract Embedded Text and Images from PDFs in C

Install IronPDF with NuGet Package Manager

Skopiuj i uruchom ten fragment kodu.

Wdrożenie do testowania w środowisku produkcyjnym

Minimalny proces (5 kroków)

Jak wyodrębnić tekst z plików PDF?

Jak mogę wyodrębnić tekst z precyzyjnymi współrzędnymi?

Jak mogę wyodrębnić obrazy z PDF-ów?

Jakie są różne metody wyodrębniania obrazów?

Jak mogę wyodrębnić zawartość ze specyficznych stron PDF?

Kiedy powinienem wyodrębniać ze specyficznych stron zamiast ze wszystkich?

Jakie kwestie wydajnościowe powinienem znać?

Często Zadawane Pytania

How do I extract text from PDF documents in C#?

Can I extract images from PDF files programmatically?

What are the main use cases for PDF content extraction?

How many lines of code does it take to extract PDF content?

Can I extract content from specific pages instead of the entire document?

Wciąż przewijasz?

Odbierz swoj BEZPLATNY

Następny krok: Rozpocznij darmową 30-dniową wersję próbną

Następny krok: Rozpocznij darmową 30-dniową wersję próbną

Want to deploy IronSuite to a live project for FREE?

What’s included?

Zaufane przez miliony inżynierów na całym świecie

Zespol wsparcia Iron