Przejdź do treści stopki
KORZYSTANIE Z IRONPDF FOR NODE.JS

Jak konwertować PDF na format tekstowy w Node.js

Konwersja plików PDF na tekst w Node.js jest częstym zadaniem w wielu aplikacjach, zwłaszcza w przypadku analizy danych, systemów zarządzania treścią, a nawet prostych narzędzi do konwersji. Dzięki środowisku Node.js i bibliotece IronPDF programiści mogą bez wysiłku konwertować dokumenty PDF na użyteczne dane tekstowe. Ten samouczek ma na celu przeprowadzenie początkujących przez proces konfiguracji projektu Node.js w celu wyodrębniania tekstu z plików stron PDF przy użyciu IronPDF, koncentrując się na kluczowych aspektach, takich jak szczegóły instalacji, implementacja parsowania PDF, obsługa błędów i praktyczne zastosowania.

Jak przekonwertować plik PDF na tekst w Node.js

  1. Utwórz aplikację Node.js w swoim środowisku IDE.
  2. Zainstaluj bibliotekę PDF za pomocą npm.
  3. Załaduj strony PDF do aplikacji.
  4. Wyodrębnij tekst za pomocą metody extractText.
  5. Wykorzystaj wyodrębniony tekst do przetwarzania i zwróć dane.

Wymagania wstępne

Przed rozpoczęciem pracy upewnij się, że masz:

  • Node.js jest zainstalowany na Twoim komputerze.
  • Podstawowa znajomość języka JavaScript.
  • Plik PDF do przetestowania procesu ekstrakcji.

Konfiguracja projektu Node.js

Krok 1: Inicjalizacja aplikacji Node.js

Utwórz nowy katalog dla swojego projektu i uruchom aplikację Node.js:

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
SHELL

Krok 2: Instalacja IronPDF

Zainstaluj IronPDF za pomocą npm:

npm install ironpdf
npm install ironpdf
SHELL

Wdrażanie konwersji plików PDF na tekst za pomocą IronPDF

Krok 1: Importowanie niezbędnych modułów

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
JAVASCRIPT

W tym pierwszym kroku importujesz niezbędne moduły. PdfDocument i IronPdfGlobalConfig są importowane z pakietu @ironpdf/ironpdf, które są niezbędne odpowiednio do pracy z dokumentami PDF i konfiguracji IronPDF. Moduł fs, podstawowy moduł Node.js, jest również importowany w celu obsługi operacji systemu plików.

Krok 2: Konfiguracja funkcji asynchronicznej

(async function createPDFs() {
  // ...
})();
(async function createPDFs() {
  // ...
})();
JAVASCRIPT

W tym miejscu zdefiniowano i natychmiast wywołano asynchroniczną funkcję anonimową o nazwie createPDFs. Taka konfiguracja pozwala na użycie await w funkcji, ułatwiając obsługę operacji asynchronicznych, które są powszechne podczas pracy z operacjami wejścia/wyjścia plików oraz bibliotekami zewnętrznymi, takimi jak IronPDF.

Krok 3: Zastosowanie klucza licencyjnego

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
JAVASCRIPT

W tym kroku tworzysz obiekt konfiguracyjny dla IronPDF, zawierający klucz licencyjny, i stosujesz tę konfigurację za pomocą IronPdfGlobalConfig.setConfig. Ma to kluczowe znaczenie dla umożliwienia korzystania ze wszystkich funkcji IronPDF, szczególnie w przypadku korzystania z wersji licencjonowanej.

Krok 4: Ładowanie dokumentu PDF

const pdf = await PdfDocument.fromFile("old-report.pdf");
const pdf = await PdfDocument.fromFile("old-report.pdf");
JAVASCRIPT

W tym kroku kod poprawnie wykorzystuje metodę fromFile z klasy PdfDocument do załadowania istniejącego dokumentu PDF. Jest to operacja asynchroniczna, stąd użycie await. Po podaniu ścieżki do pliku PDF (w tym przypadku "old-report.pdf") zmienna pdf staje się reprezentacją dokumentu PDF, w pełni załadowanego i gotowego do wyodrębnienia tekstu. Ten krok jest kluczowy, ponieważ to właśnie w nim plik PDF jest analizowany i przygotowywany do wszelkich operacji, które chcesz na nim wykonać, takich jak wyodrębnianie tekstu.

Krok 5: Wyodrębnij tekst z pliku PDF

const text = await pdf.extractText();
const text = await pdf.extractText();
JAVASCRIPT

W tym przypadku wywoływana jest metoda extractText na obiekcie PDF. Ta operacja asynchroniczna wyodrębnia cały tekst z załadowanego dokumentu PDF i zapisuje go w zmiennej typu text.

Krok 6: Przetwarzanie wyodrębnionego tekstu

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
JAVASCRIPT

W tym etapie wyodrębniony tekst jest przetwarzany w celu zliczenia liczby słów. Osiąga się to poprzez podzielenie ciągu tekstowego na tablicę słów przy użyciu wyrażenia regularnego, które dopasowuje jeden lub więcej znaków spacji, a następnie obliczenie długości wynikowej tablicy.

Krok 7: Zapisanie wyodrębnionego tekstu do pliku

fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text);
JAVASCRIPT

Ta poprawiona linia wykorzystuje metodę writeFileSync modułu fs do synchronicznego zapisywania wyodrębnionego tekstu do pliku.

Krok 8: Obsługa błędów

} catch (error) {
  console.error("An error occurred:", error); // Log error
}
} catch (error) {
  console.error("An error occurred:", error); // Log error
}
JAVASCRIPT

Na koniec kod zawiera blok try-catch do obsługi błędów. Jeśli jakakolwiek część operacji asynchronicznych w bloku try zakończy się niepowodzeniem, blok catch przechwyci błąd, a komunikat zostanie zapisany w konsoli. Jest to ważne dla debugowania i zapewnienia, że aplikacja będzie w stanie płynnie radzić sobie z nieoczekiwanymi problemami.

Pełny kod

Poniżej znajduje się kompletny kod, który zawiera wszystkie omówione przez nas kroki dotyczące wyodrębniania tekstu z dokumentu PDF przy użyciu IronPDF w środowisku Node.js:

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";

(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");

    // Get all text to put in a search index
    const text = await pdf.extractText();

    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);

    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";

(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");

    // Get all text to put in a search index
    const text = await pdf.extractText();

    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);

    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();
JAVASCRIPT

Ten skrypt zawiera wszystkie elementy potrzebne do wyodrębnienia tekstu z pliku PDF: konfigurację IronPDF z kluczem licencyjnym, wczytanie dokumentu PDF, wyodrębnienie tekstu, przeprowadzenie prostej analizy tekstu (w tym przypadku zliczenie słów) oraz zapisanie wyodrębnionego tekstu do pliku. Kod jest zawarty w funkcji asynchronicznej, aby uwzględnić asynchroniczny charakter operacji na plikach i przetwarzania PDF w Node.js.

Analiza wyników: plik PDF i wyodrębniony tekst

Po uruchomieniu skryptu otrzymasz dwa kluczowe elementy do analizy: oryginalny plik PDF oraz plik tekstowy zawierający wyodrębniony tekst. Ta sekcja pomoże Ci zrozumieć i ocenić wynik działania skryptu.

Oryginalny dokument PDF

Punktem wyjścia jest plik PDF wybrany do tego procesu, w tym przypadku o nazwie "old-report.pdf". Dokumenty PDF mogą się znacznie różnić pod względem złożoności i treści. Teksty mogą zawierać proste, nieskomplikowane treści lub mogą być bogate w obrazy, tabele i różne formaty tekstu. Struktura i złożoność pliku PDF będą miały bezpośredni wpływ na proces ekstrakcji.

Jak przekonwertować plik PDF na tekst w Node.js: Rysunek 1 – Oryginalny plik PDF

Plik z wyodrębnionym tekstem

Po uruchomieniu skryptu zostanie utworzony nowy plik tekstowy o nazwie "extracted_text.txt". Ten plik zawiera cały tekst wyodrębniony z dokumentu PDF.

Jak przekonwertować plik PDF na tekst w Node.js: Rysunek 2 – Wyodrębniony tekst

A oto wynik wyświetlany w konsoli:

Jak przekonwertować plik PDF na tekst w Node.js: Rysunek 3 – Wynik w konsoli

Praktyczne zastosowania i przykłady użycia

Eksploracja i analiza danych

Pobieranie tekstu z plików PDF jest szczególnie przydatne w eksploracji i analizie danych. Niezależnie od tego, czy chodzi o wyodrębnianie raportów finansowych, artykułów naukowych czy innych dokumentów PDF, możliwość konwersji plików PDF na tekst ma kluczowe znaczenie dla zadań związanych z analizą danych.

Systemy zarządzania treścią

W systemach zarządzania treścią często trzeba obsługiwać różne formaty plików. IronPDF może być kluczowym elementem systemu, który zarządza, archiwizuje i odzyskuje treści zapisane w formacie PDF.

Wnioski

Jak przekonwertować plik PDF na tekst w Node.js: Rysunek 4 – Licencjonowanie

Ten obszerny przewodnik przeprowadził Cię przez proces konfiguracji projektu Node.js w celu wyodrębniania tekstu z dokumentów PDF przy użyciu IronPDF. Od obsługi podstawowego wyodrębniania tekstu po zagłębianie się w bardziej złożone funkcje, takie jak wyodrębnianie obiektów tekstowych i optymalizacja wydajności — masz teraz wiedzę niezbędną do wdrożenia wydajnego wyodrębniania tekstu z plików PDF w swoich aplikacjach Node.js.

Pamiętaj, że to nie koniec drogi. Dziedzina przetwarzania plików PDF i ekstrakcji tekstu jest rozległa i oferuje wiele innych funkcji oraz technik do odkrycia. Podejmij wyzwanie i kontynuuj doskonalenie swoich umiejętności w tej ekscytującej dziedzinie tworzenia oprogramowania.

Warto zauważyć, że IronPDF oferuje użytkownikom bezpłatną wersję próbną. Dla osób, które chcą zintegrować IronPDF w środowisku profesjonalnym, dostępne są opcje licencyjne.

Często Zadawane Pytania

Jak skonfigurować projekt Node.js do wyodrębniania tekstu z plików PDF?

Aby skonfigurować projekt Node.js do wyodrębniania tekstu z plików PDF, najpierw upewnij się, że Node.js jest zainstalowany na Twoim komputerze. Następnie utwórz nową aplikację Node.js i zainstaluj bibliotekę IronPDF za pomocą npm, używając polecenia: npm install ironpdf.

Jakiej metody powinienem użyć do wyodrębnienia tekstu z pliku PDF przy użyciu IronPDF w Node.js?

W Node.js można użyć metody extractText z obiektu PdfDocument w IronPDF do wyodrębnienia tekstu z załadowanego dokumentu PDF.

Dlaczego do korzystania z biblioteki PDF w Node.js potrzebny jest klucz licencyjny?

Klucz licencyjny jest niezbędny do odblokowania wszystkich funkcji biblioteki IronPDF, zwłaszcza w środowisku produkcyjnym, co zapewnia dostęp do jej pełnych możliwości.

Co należy zrobić, jeśli podczas procesu wyodrębniania tekstu z pliku PDF pojawią się błędy?

Użyj bloku try-catch do obsługi błędów podczas wyodrębniania tekstu z plików PDF. Takie podejście pozwala na wychwytywanie i rejestrowanie błędów, zapewniając, że aplikacja Node.js może płynnie radzić sobie z problemami.

Jakie są praktyczne zastosowania konwersji plików PDF na tekst w Node.js?

Konwersja plików PDF na tekst w Node.js jest przydatna do eksploracji danych, automatyzacji systemów zarządzania treścią oraz integracji z narzędziami do konwersji w celu obsługi różnych formatów plików.

Czy można wypróbować bibliotekę PDF bez zakupu licencji?

Tak, IronPDF oferuje bezpłatną wersję próbną, która pozwala programistom zapoznać się z funkcjami biblioteki przed podjęciem decyzji o wyborze opcji licencji do użytku profesjonalnego.

W jaki sposób programowanie asynchroniczne wpływa korzystnie na przetwarzanie plików PDF w Node.js?

Programowanie asynchroniczne umożliwia operacje nieblokujące w Node.js, co ma kluczowe znaczenie dla operacji wejścia/wyjścia plików oraz korzystania z bibliotek zewnętrznych, takich jak IronPDF, poprawiając w ten sposób wydajność i efektywność.

Darrius Serrant
Full Stack Software Engineer (WebOps)

Darrius Serrant posiada tytuł licencjata z informatyki z Uniwersytetu Miami i pracuje jako Full Stack WebOps Marketing Engineer w Iron Software. Już od młodych lat zainteresował się kodowaniem, postrzegając informatykę jako zarówno tajemniczą, jak i dostępną, co czyni ją doskonałym medium dla kreatywności ...

Czytaj więcej

Zespol wsparcia Iron

Jestesmy online 24 godziny, 5 dni w tygodniu.
Czat
Email
Zadzwon do mnie