Extract Embedded Text and Images from PDFs in C
Wyodrębnij zarówno zawartość tekstową, jak i obrazy z dokumentów PDF w C# za pomocą prostych wywołań metod. Pobierz osadzone treści do edycji, analizy lub ponownego wykorzystania w innych aplikacjach.
Wyodrębnianie tekstu i obrazów pobiera zawartość tekstową i graficzne elementy z dokumentów PDF. Uzyskaj dostęp do zawartości i przekształcaj ją do edycji, wyszukiwania, konwersji tekstu na inne formaty lub zapisywania obrazów do ponownego użycia. Niezależnie od tego, czy chcesz parsować PDF-y w C# do analizy danych, konwertować zawartość do formatów umożliwiających wyszukiwanie, czy wyodrębniać elementy wizualne do archiwizacji, IronPDF dostarcza kompleksowe narzędzia do wyodrębniania.
Wyodrębnianie tekstu i obrazów przy użyciu IronPDF. Zapisz wyodrębnione obrazy na dysku lub przekonwertuj je na inny format przed osadzeniem w nowych dokumentach. Ta elastyczność wspiera przepływy pracy wymagające transformacji treści, takie jak konwersja PDF-ów do HTML lub ponowne wykorzystanie wyodrębnionych obrazów.
Quickstart: Wyodrębnianie tekstu i obrazów przy użyciu IronPDF
Wyodrębnij tekst i obrazy z PDF-ów w zaledwie kilku liniach kodu. Ten szybki start pokazuje, jak pobrać osadzone treści z dokumentów PDF do ponownego wykorzystania treści i analizy. Wyodrębnij tekst do edycji lub zapisz obrazy do dalszego wykorzystania dzięki uproszczonemu rozwiązaniu IronPDF.
-
Install IronPDF with NuGet Package Manager
PM > Install-Package IronPdf -
Skopiuj i uruchom ten fragment kodu.
var pdf = new IronPdf.PdfDocument("sample.pdf"); string text = pdf.ExtractAllText(); var images = pdf.ExtractAllImages(); -
Wdrożenie do testowania w środowisku produkcyjnym
Rozpocznij używanie IronPDF w swoim projekcie już dziś z darmową wersją próbną
Minimalny proces (5 kroków)
- Pobierz bibliotekę IronPdf dla C#
- Przygotuj dokument PDF do wyodrębniania tekstu i obrazów
- Użyj metody
ExtractAllTextdo wyodrębniania tekstu - Użyj metody
ExtractAllImagesdo wyodrębniania obrazów - Określ konkretne strony, z których należy wyodrębnić tekst i obrazy
Jak wyodrębnić tekst z plików PDF?
Wyodrębnij tekst zarówno z nowo renderowanych, jak i istniejących dokumentów PDF. Użyj metody ExtractAllText, aby wyodrębnić osadzony tekst z dokumentu. Metoda zwraca ciąg zawierający cały tekst w PDF. Strony są oddzielone czterema kolejnymi znakami nowej linii. Ten przykład używa przykładowego PDF renderowanego ze strony Wikipedii.
Pracując z PDF-ami zawierającymi międzynarodowe języki i znaki UTF-8, IronPDF zachowuje odpowiednie kodowanie i reprezentację znaków. Zapewnia to poprawne wyświetlanie pism niełacińskich i znaków specjalnych.
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs
using IronPdf;
using System.IO;
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
// Extract text
string text = pdf.ExtractAllText();
// Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text);
Imports IronPdf
Imports System.IO
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")
' Extract text
Private text As String = pdf.ExtractAllText()
' Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text)
Jak mogę wyodrębnić tekst z precyzyjnymi współrzędnymi?
Pobierz współrzędne linii tekstu i znaków w każdej stronie PDF. Wybierz stronę z PDF i uzyskaj dostęp do właściwości Lines i Characters. Współrzędne obejmują wartości Top, Right, Bottom i Left reprezentujące pozycję tekstu. Ta funkcja zachowuje układ przestrzenny i umożliwia analizę pozycji tekstu.
Dla deweloperów, którzy muszą czytać pliki PDF w C# z zachowaniem świadomości pozycji, wyodrębnianie współrzędnych dostarcza dane do zachowania struktury dokumentu i implementacji zaawansowanej analizy tekstu.
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs
using IronPdf;
using System.IO;
using System.Linq;
// Open PDF from file
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
// Extract text by lines
var lines = pdf.Pages[0].Lines;
// Extract text by characters
var characters = pdf.Pages[0].Characters;
File.WriteAllLines("lines.txt", lines.Select(l => $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"));
Imports IronPdf
Imports System.IO
Imports System.Linq
' Open PDF from file
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")
' Extract text by lines
Private lines = pdf.Pages(0).Lines
' Extract text by characters
Private characters = pdf.Pages(0).Characters
File.WriteAllLines("lines.txt", lines.Select(Function(l) $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"))
Jak mogę wyodrębnić obrazy z PDF-ów?
Użyj metody ExtractAllImages, aby wyodrębnić wszystkie osadzone obrazy z dokumentu. Metoda zwraca obrazy jako listę obiektów AnyBitmap. Używając tego samego dokumentu, wyodrębniliśmy obrazy i wyeksportowaliśmy je do folderu 'images'. Ta funkcjonalność wspiera archiwizację obrazów, migrację treści i rasteryzację stron PDF na obrazy do dalszego przetwarzania.
Wyodrębnione obrazy zachowują oryginalną jakość i mogą być zapisywane w różnych formatach, w tym PNG, JPEG i BMP. Dla przepływów pracy z przechowywaniem w chmurze zintegrowanie tej funkcjonalności z Azure Blob Storage do zarządzania obrazami.
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs
using IronPdf;
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
// Extract images
var images = pdf.ExtractAllImages();
for(int i = 0; i < images.Count; i++)
{
// Export the extracted images
images[i].SaveAs($"images/image{i}.png");
}
Imports IronPdf
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")
' Extract images
Private images = pdf.ExtractAllImages()
For i As Integer = 0 To images.Count - 1
' Export the extracted images
images(i).SaveAs($"images/image{i}.png")
Next i
Jakie są różne metody wyodrębniania obrazów?
Poza metodą ExtractAllImages użyj metod ExtractAllBitmaps i ExtractAllRawImages do wyodrębniania informacji o obrazach. Podczas gdy ExtractAllBitmaps zwraca Listę AnyBitmap, ExtractAllRawImages wyodrębnia wszystkie obrazy i zwraca je jako surowe tablice bajtów (byte[]).
Metoda ExtractAllRawImages dobrze sprawdza się podczas przetwarzania danych obrazów w pamięci lub integracji z systemami wymagającymi wejściowych tablic bajtowych. W scenariuszach związanych z eksportowaniem PDF-ów do strumieni pamięci, format surowej tablicy bajtów zapewnia optymalną elastyczność.
Jak mogę wyodrębnić zawartość ze specyficznych stron PDF?
Wyodrębnij tekst i obrazy z pojedynczych lub wielokrotnie określonych stron. Użyj metod ExtractTextFromPage i ExtractTextFromPages do wyodrębniania tekstu z jednej lub wielu stron. Dla obrazów użyj metod ExtractImagesFromPage i ExtractImagesFromPages.
Ta kontrola szczegółowa pomaga, gdy pracujemy z dużymi dokumentami, gdzie tylko specyficzne sekcje zawierają istotne treści. Wspiera także funkcje rozcinania PDF-ów i wyodrębniania pojedynczych stron do oddzielnego przetwarzania.
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs
using IronPdf;
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
// Extract text from page 1
string textFromPage1 = pdf.ExtractTextFromPage(0);
int[] pages = new[] { 0, 2 };
// Extract text from pages 1 & 3
string textFromPage1_3 = pdf.ExtractTextFromPages(pages);
Imports IronPdf
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")
' Extract text from page 1
Private textFromPage1 As String = pdf.ExtractTextFromPage(0)
Private pages() As Integer = { 0, 2 }
' Extract text from pages 1 & 3
Private textFromPage1_3 As String = pdf.ExtractTextFromPages(pages)
Kiedy powinienem wyodrębniać ze specyficznych stron zamiast ze wszystkich?
Wyodrębniaj ze specyficznych stron, gdy:
- Pracujesz z dużymi PDF-ami zawierającymi istotne dane w pewnych sekcjach
- Implementujesz przepływy pracy, które obsługują strony niezależnie
- Tworzysz aplikacje wymagające stopniowego wyświetlania treści lub przetwarzania
- Optymalizujesz użycie pamięci, przetwarzając tylko potrzebne strony
- Tworzysz funkcjonalność wyszukiwania lub indeksowania specyficzną dla stron
Jakie kwestie wydajnościowe powinienem znać?
Weź pod uwagę te czynniki wydajnościowe podczas wyodrębniania treści PDF:
- Użycie pamięci: Wyodrębniaj strony indywidualnie z dużych dokumentów, aby zminimalizować zużycie pamięci
- Czas przetwarzania: Używaj przetwarzania równoległego do wielostronicowych ekstrakcji, gdy jest to stosowne
- Rozmiar pliku: Większe PDF-y z obrazami o wysokiej rozdzielczości wymagają więcej czasu przetwarzania
- Przechowywanie: Zaplanuj odpowiednią przestrzeń na dysku na wyodrębnianie licznych obrazów o wysokiej rozdzielczości
- Multitasking: IronPDF wspiera operacje wielowątkowe dla poprawy wydajności na systemach wielordzeniowych
Dla optymalnej wydajności z PDF-ami w pamięci, użyj operacji strumieniowania pamięci, by zredukować obciążenie dysku I/O.
Często Zadawane Pytania
How do I extract text from PDF documents in C#?
Use IronPDF's ExtractAllText method to extract embedded text from PDF documents. The method returns a string containing all text in the PDF, with pages separated by four consecutive newline characters. IronPDF maintains proper encoding for international languages and UTF-8 characters.
Can I extract images from PDF files programmatically?
Yes, IronPDF provides the ExtractAllImages method to retrieve graphical elements from PDF documents. You can save extracted images to disk or convert them to other formats before embedding them in new documents.
What are the main use cases for PDF content extraction?
IronPDF's extraction tools support various workflows including parsing PDFs for data analysis, converting content to searchable formats, extracting visual elements for archiving, and repurposing content for editing or transformation into other formats like HTML.
How many lines of code does it take to extract PDF content?
With IronPDF, you can extract text and images in just a few lines of code. Simply load your PDF document and call ExtractAllText() for text extraction or ExtractAllImages() for image extraction.
Can I extract content from specific pages instead of the entire document?
Yes, IronPDF allows you to specify particular pages from which to extract text and images, giving you precise control over which content to retrieve from your PDF documents.

