KORZYSTANIE Z IRONPDF FOR PYTHON

Jak wyodrębnić tekst z PDF linia po linii

Zaktualizowano:18 stycznia, 2026

W niniejszym przewodniku przedstawiono niuanse korzystania z IronPDF do sekwencyjnego wyodrębniania tekstu z dokumentów PDF w języku Python. Obejmie on wszystko, od konfiguracji środowiska Python po uruchomienie pierwszego programu w języku Python służącego do wyodrębniania tekstu z plików PDF.

Jak wyodrębnić tekst z pliku PDF wiersz po wierszu

Pobierz i zainstaluj bibliotekę PDF przy użyciu języka Python, aby wyodrębnić tekst z pliku PDF.
Utwórz projekt w języku Python w preferowanym środowisku IDE.
Załaduj wybrany plik PDF w celu pobrania treści tekstowej.
Przejrzyj plik PDF i wyodrębnij tekst sekwencyjnie, korzystając z wbudowanej funkcji biblioteki.
Zapisz wyodrębniony tekst do pliku.

Biblioteka IronPDF PDF dla języka Python

IronPDF to przydatne narzędzie, które pozwala pracować z plikami PDF w języku Python. Pomyśl o tym jak o pomocnym asystencie, który ułatwia czytanie, tworzenie i edycję plików PDF. Niezależnie od tego, czy chcesz wyodrębnić treść z dokumentu PDF, dodać nowe informacje, czy przekształcić stronę internetową do formatu PDF, IronPDF oferuje kompleksowe rozwiązania. Jest to płatny pakiet oprogramowania, ale oferowana jest wersja próbna, którą można wypróbować przed podjęciem decyzji o zakupie.

Zanim zagłębimy się w skrypt, konieczne jest skonfigurowanie środowiska Python. Ten przewodnik krok po kroku pomoże Ci skonfigurować środowisko, utworzyć nowy projekt w języku Python w Visual Studio Code oraz skonfigurować środowisko biblioteki IronPDF.

Pobierz i zainstaluj Python: Jeśli nie masz jeszcze zainstalowanego Pythona, pobierz najnowszą wersję z oficjalnej strony Pythona. Postępuj zgodnie z instrukcjami instalacji dla danego systemu operacyjnego.

Sprawdź instalację Pythona: Otwórz terminal lub wiersz poleceń i wpisz python --version. To polecenie powinno wyświetlić zainstalowaną wersję Pythona, potwierdzając, że instalacja przebiegła pomyślnie.

Aktualizacja pip: Pip to instalator pakietów w języku Python. Upewnij się, że jest aktualny, uruchamiając pip install --upgrade pip.

Tworzenie nowego projektu Python w Visual Studio Code

Pobierz Visual Studio Code: Jeśli jeszcze go nie masz, pobierz go z oficjalnej strony internetowej.

Zainstaluj rozszerzenie Python: Otwórz Visual Studio Code i przejdź do Extensions Marketplace. Wyszukaj rozszerzenie Python firmy Microsoft i zainstaluj je.

Utwórz nowy folder: Utwórz nowy folder, w którym chcesz umieścić swój projekt w języku Python. Nadaj mu odpowiednią nazwę, np. PDF_Text_Extractor.

Otwórz folder w VS Code: Przeciągnij folder do Visual Studio Code lub użyj opcji menu Plik > Otwórz folder, aby otworzyć folder.

Utwórz plik Python: Kliknij prawym przyciskiem myszy w panelu VS Code Explorer i wybierz opcję New File. Nazwij plik main.py lub podobnie. Ten plik będzie zawierał Twój program w języku Python.

Jak wyodrębnić tekst z pliku PDF linia po linii, rysunek 1: Utwórz nowy plik Python w Visual Studio Code Utwórz nowy plik Python w Visual Studio Code

Wymagania i konfiguracja biblioteki IronPDF

IronPDF jest niezbędny do pobierania treści tekstowych z plików PDF. Oto jak to zainstalować:

Otwieranie terminala w VS Code: Terminal w VS Code można otworzyć, wybierając opcję Terminal > New Terminal.

Zainstaluj IronPDF: W terminalu wykonaj następujące polecenie, aby zainstalować najnowszą wersję IronPDF:

pip install ironpdf

Ten proces pobiera i instaluje bibliotekę IronPDF wraz z wszelkimi wymaganymi modułami.

Jak wyodrębnić tekst z pliku PDF wiersz po wierszu, rysunek 2: Zainstaluj pakiet IronPDF Zainstaluj pakiet IronPDF

I to wszystko! Pomyślnie skonfigurowałeś środowisko Python, utworzyłeś nowy projekt w Visual Studio Code i zainstalowałeś bibliotekę IronPDF.

Wyodrębnianie tekstu z pliku PDF wiersz po wierszu

Stosowanie klucza licencyjnego

Przed rozpoczęciem pracy upewnij się, że zastosowałeś swój klucz licencyjny IronPDF.

from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

PYTHON

Zastąp YOUR-LICENSE-KEY-HERE swoim rzeczywistym kluczem licencyjnym IronPDF. Ta licencja pozwala odblokować wszystkie funkcje biblioteki dla Twojego projektu.

Ładowanie pliku w formacie PDF

Musisz załadować istniejący plik PDF do swojego programu w języku Python. Można to osiągnąć za pomocą metody PdfDocument.FromFile z IronPDF.

pdfFileObj = PdfDocument.FromFile("content.pdf")

pdfFileObj = PdfDocument.FromFile("content.pdf")

PYTHON

"content.pdf" odnosi się do pliku PDF, który chcesz przeczytać. Ten załadowany plik PDF jest przechowywany w zmiennej pdfFileObj, używanej jako czytnik PDF lub obiekt pliku PDF pdfFileObj.

Wyodrębnianie tekstu z całego dokumentu PDF

Jeśli chcesz pobrać wszystkie dane tekstowe z pliku PDF jednocześnie, możesz użyć metody ExtractAllText.

all_text = pdfFileObj.ExtractAllText()

all_text = pdfFileObj.ExtractAllText()

PYTHON

Metoda ExtractAllText została tutaj wykorzystana w celach demonstracyjnych. Ta metoda wyodrębnia cały tekst z pliku PDF i zapisuje go w zmiennej o nazwie all_text.

Pobieranie tekstu z określonej strony pliku PDF

IronPDF umożliwia wyodrębnianie tekstu z określonej strony przy użyciu metody ExtractTextFromPage. Ta metoda jest przydatna, gdy potrzebujesz tylko tekstu z niektórych stron.

page_2_text = pdfFileObj.ExtractTextFromPage(1)

page_2_text = pdfFileObj.ExtractTextFromPage(1)

PYTHON

W tym przypadku wyodrębniamy tekst z drugiej strony, odpowiadającej indeksowi 1.

Inicjalizacja pliku tekstowego do zapisywania wyodrębnionego tekstu

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:

PYTHON

Otwórz plik o nazwie "extracted_text.txt", aby zapisać dane tekstowe. W tym celu używana jest wbudowana funkcja Pythona open, ustawiająca tryb pliku na "zapis" ("w"), z encoding='utf-8' do obsługi znaków Unicode.

Przejrzyj każdą stronę w celu wyodrębnienia tekstu linia po linii

for i in range(0, pdfFileObj.get_Pages().Count):

for i in range(0, pdfFileObj.get_Pages().Count):

PYTHON

Powyższy kod przechodzi cyklicznie przez każdą stronę pliku PDF, wykorzystując funkcję get_Pages().Count biblioteki IronPDF w celu uzyskania całkowitej liczby stron.

Wyodrębnij tekst i podziel go na wiersze

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')

PYTHON

Dla każdej strony używana jest metoda ExtractTextFromPage w celu pobrania całego tekstu, a następnie metoda split w języku Python w celu podzielenia go na wiersze. Wynikiem tego jest lista wierszy, które można przetwarzać w pętli.

Zapisz wyodrębnione wiersze do pliku tekstowego

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')

PYTHON

W tym przypadku kod iteruje przez każdą linię na liście, PRINTując ją w konsoli i zapisując w pliku poprzez dodanie znaku nowej linii (\n) po każdej linii w celu prawidłowego sformatowania tekstu.

Pełny kod

Oto pełna implementacja:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')

PYTHON

Wynik

Uruchom plik Python, wpisując następujące polecenie w terminalu Visual Studio Code:

python main.py

python main.py

SHELL

Wynik ten zostanie wyświetlony w terminalu:

Jak wyodrębnić tekst z pliku PDF wiersz po wierszu, rysunek 3: Wyodrębniony tekst Wyodrębniony tekst

Jest to tekst pobrany z pliku PDF. Zauważysz również dokument tekstowy utworzony w Twoim katalogu.

Jak wyodrębnić tekst z pliku PDF linia po linii, rysunek 4: Wyodrębniony tekst zapisany w pliku TXT Wyodrębniony tekst zapisany w pliku TXT

W tym pliku tekstowym znajdziesz pobrany tekst w formacie tekstowym, przedstawiony w kolejności.

Jak wyodrębnić tekst z pliku PDF linia po linii, rysunek 5: Treść wyodrębnionego pliku tekstowego Treść wyodrębnionego pliku tekstowego

Wnioski

Podsumowując, wykorzystanie IronPDF i języka Python do wyodrębniania tekstu z plików PDF jest solidnym i prostym podejściem, niezależnie od tego, czy chodzi o pobieranie tekstu z całego dokumentu, konkretnych stron, czy nawet linia po linii. Dodatkową korzyścią wynikającą z zapisywania wyodrębnionego tekstu w pliku tekstowym jest możliwość efektywnego zarządzania danymi i wykorzystywania ich do dalszego przetwarzania. IronPDF okazuje się nieocenionym narzędziem do obsługi plików PDF, oferującym szereg funkcji wykraczających poza zwykłe wyodrębnianie tekstu. Możesz również konwertować pliki PDF na tekst w języku Python przy użyciu IronPDF.

Ponadto tworzenie interaktywnych plików PDF, wypełnianie i przesyłanie interaktywnych formularzy, łączenie i dzielenie plików PDF, wyodrębnianie tekstu i obrazów, wyszukiwanie tekstu w plikach PDF, rasteryzacja plików PDF do obrazów, zmiana rozmiaru czcionki, koloru obramowania i tła oraz konwersja plików PDF to zadania, w których może pomóc zestaw narzędzi IronPDF.

IronPDF nie jest biblioteką Python typu open source. Jeśli rozważasz wykorzystanie IronPDF w swoich projektach, cena licencji na ten pakiet zaczyna się od $799. Jeśli jednak potrzebujesz wyjaśnień dotyczących inwestycji, IronPDF oferuje bezpłatną wersję próbną, która pozwala dokładnie zapoznać się z jego funkcjami.

Jak wyodrębnić tekst z pliku PDF linia po linii, rysunek 6: Strona licencji

Często Zadawane Pytania

Jak wyodrębnić tekst z pliku PDF za pomocą języka Python?

Możesz użyć IronPDF do wyodrębniania tekstu z plików PDF w języku Python. Wymaga to załadowania pliku PDF za pomocą metody PdfDocument.FromFile i iteracji przez strony w celu wyodrębnienia tekstu linia po linii.

Co jest potrzebne, aby rozpocząć wyodrębnianie tekstu z plików PDF w języku Python?

Aby wyodrębnić tekst z plików PDF w języku Python, należy zainstalować środowisko Python wraz z biblioteką IronPDF, którą można zainstalować za pomocą pip. Do pisania i wykonywania skryptów zalecane jest środowisko IDE, takie jak Visual Studio Code.

Czy IronPDF może wyodrębnić tekst z określonej strony w pliku PDF?

Tak, IronPDF umożliwia wyodrębnianie tekstu z określonej strony pliku PDF za pomocą metody ExtractTextFromPage poprzez podanie indeksu strony.

Jak mogę zapisać wyodrębniony tekst do pliku w języku Python?

Po wyodrębnieniu tekstu za pomocą IronPDF można go zapisać w pliku, zapisując wyodrębnione linie tekstu do pliku tekstowego przy użyciu metod obsługi plików w języku Python.

Jakie dodatkowe funkcje oferuje IronPDF oprócz wyodrębniania tekstu?

IronPDF oferuje szeroki zakres funkcji, w tym tworzenie, edycję i konwersję plików PDF, łączenie i dzielenie dokumentów PDF, wyodrębnianie obrazów oraz konwersję plików PDF do innych formatów.

Jak uzyskać licencję na IronPDF w moim projekcie w języku Python?

Aby uzyskać licencję na IronPDF, należy ustawić klucz licencyjny w skrypcie Python za pomocą właściwości License.LicenseKey, co odblokowuje pełną funkcjonalność biblioteki.

Czy przed zakupem można wypróbować IronPDF?

Tak, IronPDF oferuje wersję próbną, która pozwala ocenić jego funkcje przed podjęciem decyzji o zakupie pełnej licencji.

Co należy zrobić, jeśli napotkam problemy podczas wyodrębniania tekstu z pliku PDF?

Upewnij się, że IronPDF jest poprawnie zainstalowany i licencjonowany, a Twoje środowisko Python jest prawidłowo skonfigurowane. Zapoznaj się z dokumentacją lub zasobami pomocy technicznej, aby rozwiązać typowe problemy.

Czy mogę przekonwertować plik PDF na obraz za pomocą IronPDF?

Tak, IronPDF oferuje funkcję rasteryzacji plików PDF na obrazy, umożliwiającą konwersję całych dokumentów lub określonych stron na pliki graficzne.

Jak uruchomić skrypt w języku Python do wyodrębniania tekstu z plików PDF?

Po napisaniu skryptu można go uruchomić, wpisując w terminalu środowiska IDE polecenie python main.py, gdzie main.py to nazwa pliku skryptu.

Curtis Chau

Czat z zespołem inżynierów teraz

Autor tekstów technicznych

Curtis Chau posiada tytuł licencjata z informatyki (Uniwersytet Carleton) i specjalizuje się w front-endowym rozwoju, z ekspertką w Node.js, TypeScript, JavaScript i React. Pasjonuje się tworzeniem intuicyjnych i estetycznie przyjemnych interfejsów użytkownika, Curtis cieszy się pracą z nowoczesnymi frameworkami i tworzeniem dobrze zorganizowanych, atrakcyjnych wizualnie podrę...

Czytaj więcej

Jak wyodrębnić dane z PDF w Python

Jak łatwo dodawać adnotacje do PD...

Zwyciestwo klienta:

Podkreslaj programiste:

SEMINARIA INTERNETOWE:

Rozpocznij darmowy 30-dniowy okres próbny

Jak wyodrębnić tekst z PDF linia po linii

Jak wyodrębnić tekst z pliku PDF wiersz po wierszu

Biblioteka IronPDF PDF dla języka Python

Tworzenie nowego projektu Python w Visual Studio Code

Wymagania i konfiguracja biblioteki IronPDF

Wyodrębnianie tekstu z pliku PDF wiersz po wierszu

Stosowanie klucza licencyjnego

Ładowanie pliku w formacie PDF

Wyodrębnianie tekstu z całego dokumentu PDF

Pobieranie tekstu z określonej strony pliku PDF

Inicjalizacja pliku tekstowego do zapisywania wyodrębnionego tekstu

Przejrzyj każdą stronę w celu wyodrębnienia tekstu linia po linii

Wyodrębnij tekst i podziel go na wiersze

Zapisz wyodrębnione wiersze do pliku tekstowego

Pełny kod

Wynik

Wnioski

Często Zadawane Pytania

Jak wyodrębnić tekst z pliku PDF za pomocą języka Python?

Co jest potrzebne, aby rozpocząć wyodrębnianie tekstu z plików PDF w języku Python?

Czy IronPDF może wyodrębnić tekst z określonej strony w pliku PDF?

Jak mogę zapisać wyodrębniony tekst do pliku w języku Python?

Jakie dodatkowe funkcje oferuje IronPDF oprócz wyodrębniania tekstu?

Jak uzyskać licencję na IronPDF w moim projekcie w języku Python?

Czy przed zakupem można wypróbować IronPDF?

Co należy zrobić, jeśli napotkam problemy podczas wyodrębniania tekstu z pliku PDF?

Czy mogę przekonwertować plik PDF na obraz za pomocą IronPDF?

Jak uruchomić skrypt w języku Python do wyodrębniania tekstu z plików PDF?

Zespol wsparcia Iron

Rozpocznij darmowy 30-dniowy okres próbny

Jak wyodrębnić tekst z PDF linia po linii

Jak wyodrębnić tekst z pliku PDF wiersz po wierszu

Biblioteka IronPDF PDF dla języka Python

Tworzenie nowego projektu Python w Visual Studio Code

Wymagania i konfiguracja biblioteki IronPDF

Wyodrębnianie tekstu z pliku PDF wiersz po wierszu

Stosowanie klucza licencyjnego

Ładowanie pliku w formacie PDF

Wyodrębnianie tekstu z całego dokumentu PDF

Pobieranie tekstu z określonej strony pliku PDF

Inicjalizacja pliku tekstowego do zapisywania wyodrębnionego tekstu

Przejrzyj każdą stronę w celu wyodrębnienia tekstu linia po linii

Wyodrębnij tekst i podziel go na wiersze

Zapisz wyodrębnione wiersze do pliku tekstowego

Pełny kod

Wynik

Wnioski

Często Zadawane Pytania

Jak wyodrębnić tekst z pliku PDF za pomocą języka Python?

Co jest potrzebne, aby rozpocząć wyodrębnianie tekstu z plików PDF w języku Python?

Czy IronPDF może wyodrębnić tekst z określonej strony w pliku PDF?

Jak mogę zapisać wyodrębniony tekst do pliku w języku Python?

Jakie dodatkowe funkcje oferuje IronPDF oprócz wyodrębniania tekstu?

Jak uzyskać licencję na IronPDF w moim projekcie w języku Python?

Czy przed zakupem można wypróbować IronPDF?

Co należy zrobić, jeśli napotkam problemy podczas wyodrębniania tekstu z pliku PDF?

Czy mogę przekonwertować plik PDF na obraz za pomocą IronPDF?

Jak uruchomić skrypt w języku Python do wyodrębniania tekstu z plików PDF?

Powiązane artykuły

Scrapy w Pythonie (jak to działa dla programistów)

Jak używać języka Python do dodawania tekstu do pliku PDF

Jak przekonwertować plik PDF na PNG w języku Python

Następny krok: Rozpocznij darmową 30-dniową wersję próbną

Następny krok: Rozpocznij darmową 30-dniową wersję próbną

Want to deploy IronSuite to a live project for FREE?

What’s included?

Zaufane przez miliony inżynierów na całym świecie

Zespol wsparcia Iron