Przejdź do treści stopki
KORZYSTANIE Z IRONPDF FOR NODE.JS

Jak wyodrębnić obrazy z PDF w Node.js

How to extract images from PDF files using IronPDF Node.js

  1. Set up a Node.js application.
  2. Install IronPDF NPM packages.
  3. Prepare a PDF for the extraction.
  4. Extract images from the PDF file and save.

Wymagania wstępne

If you haven't installed Node.js yet, download and install it from https://nodejs.org/.

Introducing the IronPDF NPM package

The IronPDF NPM package is a Node.js wrapper for the IronPDF library, originally designed for .NET environments. It allows developers to harness the powerful PDF manipulation capabilities of IronPDF in Node.js applications. This package is particularly useful for working with PDF documents, offering a range of features that can be useful in many real-world applications such as file processing, report generation, and more.

Key Features of IronPDF in Node.js

  1. PDF Creation:

    IronPDF can create PDFs from various sources, including HTML content, images, or even raw text. This feature is highly useful for web applications that need to generate reports, invoices, or any other document in PDF format.

    IronPDF supports styling and formatting HTML content, making it a great choice for converting web pages into well-structured PDF documents.

  2. PDF Editing:

    IronPDF allows you to manipulate existing PDFs by adding text, images, annotations, and modifying the layout. You can also merge multiple PDFs into one, split a large document into smaller parts, or even reorder pages within a PDF.

    These features make it ideal for applications that need to dynamically modify PDFs, such as document management systems or applications that require automated document generation.

  3. PDF Conversion:

    One of the standout features of IronPDF is its ability to convert PDFs into various other formats. For example, it can convert PDF documents to images (PNG, JPEG), HTML, and Word formats.

    This feature is particularly useful when you need to present a PDF's content in different formats or create image previews of PDFs for user interfaces.

  4. Extracting Text and Images:

    While IronPDF does not have a direct REST API to extract raw images from a PDF, it provides a method for rendering PDF pages as images (such as PNG or JPEG), which can be used as an indirect way of extracting content.

    You can render each page of the PDF into an image, effectively capturing the visual representation of the document, and saving it for further use or display.

  5. Rendering Pages as Images:

    IronPDF can convert PDF pages into high-quality images. For example, you can convert a multipage PDF into a series of PNGs, one for each page. This is particularly useful when you need to display the pages as thumbnails or in an image-based format. It supports various image format types.

  6. Security and Encryption:

    IronPDF supports working with encrypted PDFs. It allows you to open, decrypt, and manipulate secured documents, which is essential for working with documents that require passwords or other forms of protection.

  7. Cross-Platform Compatibility:

    IronPDF is compatible with both Windows and Linux environments, making it a versatile tool for server-side applications. The Node.js wrapper simplifies the process of integrating IronPDF into Node.js-based applications.

Step 1: Set up a Node.js application

To start with, set up the Node.js project folder by creating a folder on the local machine and opening Visual Studio Code.

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

Step 2: Install the IronPDF NPM packages

Install the IronPDF Node.js package and its supporting package based on Windows or Linux machines

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

The package @ironsoftware/ironpdf-engine-windows-x64 is a platform-specific version of the IronPDF library, specifically designed for Windows 64-bit systems.

1. Platform-Specific Binary for Windows (64-bit)

The IronPDF library has platform-specific dependencies. For Node.js to work efficiently with IronPDF, it requires native binaries that are tailored for specific operating systems and architectures. In this case, the @ironsoftware/ironpdf-engine-windows-x64 package provides the native engine for Windows 64-bit environments.

2. Optimized Performance

By using this Windows-specific package, you ensure that the IronPDF library works optimally on Windows-based systems. It ensures that all the native dependencies, such as those related to PDF rendering and manipulation, are compatible and function smoothly on your machine.

3. Simplifying Installation

Instead of manually managing and configuring the required binaries for Windows 64-bit systems, installing the @ironsoftware/ironpdf-engine-windows-x64 package automates this process. This saves time and eliminates potential compatibility issues.

4. Cross-Platform Compatibility

IronPDF also supports other platforms like macOS and Linux. Providing platform-specific packages, allows developers to use the right binary for their operating system, improving the overall stability and reliability of the library.

5. Wymagane dla niektórych funkcji

Jeśli korzystasz z niektórych funkcji IronPDF (takich jak renderowanie plików PDF do obrazów lub wykonywanie złożonych operacji na dokumentach), wymagany jest silnik natywny. The @ironsoftware/ironpdf-engine-windows-x64 package includes this engine specifically for Windows-based environments.

Krok 3: Przygotuj plik PDF do ekstrakcji

Teraz pobierz plik PDF, z którego chcesz wyodrębnić dane. Skopiuj ścieżkę, która ma być używana w aplikacji. W tym artykule wykorzystano następujący plik.

How to Extract Images From PDF in Node.js: Figure 1 - Sample File

Krok 4: Wyodrębnij obrazy z pliku PDF i zapisz je

Now use the file in the above step and write the below code snippet in an app.js file in the Node.js project folder.

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

(async () => {
    // Extracting Image and Text content from Pdf Documents

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");

    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text: ' + text);

    // Get all Images as buffers
    const imagesBuffer = await pdf.extractRawImages();
    console.log('Images count: ' + imagesBuffer.length);

    // Save the first extracted image to the local file system
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);

    // Indicate completion
    console.log('Complete!');
})();

Uruchom aplikację:

node app.js
node app.js
SHELL

Wyjaśnienie kodu

Ten przykładowy fragment kodu pokazuje, jak używać biblioteki IronPDF for Node.js do wyodrębniania tekstu i obrazów (w formacie JPG) z dokumentu PDF.

  1. License Setup: The IronPdfGlobalConfig is used to set the license key for IronPDF, which is required to use the library's features.

  2. PDF Loading: The code loads a PDF document ironPDF.pdf using the PdfDocument.fromFile() method. Dzięki temu program może pracować z zawartością pliku PDF.

  3. Text Extraction: The extractText() method is used to extract all the text from the loaded PDF. Tekst ten może być wykorzystywany do zadań takich jak indeksowanie lub przeszukiwanie dokumentu.

  4. Image Extraction: The extractRawImages() method is used to extract raw images from the PDF. Obrazy te są zwracane jako bufor, który można zapisać lub poddać dalszej obróbce.

  5. Saving Images: The extracted images are saved to the local file system as JPG files using Node's fs.writeFileSync() method.

  6. Wynik końcowy: Po zakończeniu ekstrakcji program wyświetla wyodrębniony tekst oraz liczbę wyodrębnionych obrazów, a następnie zapisuje pierwszy obraz.

Kod pokazuje, jak współpracować z plikami PDF przy użyciu IronPDF w celu wyodrębnienia treści i przetworzenia jej w środowisku Node.js.

Wynik

How to Extract Images From PDF in Node.js: Figure 2 - Console Output

How to Extract Images From PDF in Node.js: Figure 3 - Image Output

Licencja (dostępna wersja próbna)

IronPDF for Node.js wymaga klucza licencyjnego do działania. Programiści mogą uzyskać Licencję Trial, podając swój adres e-mail na stronie licencji. Po podaniu adresu e-mail klucz zostanie wysłany na ten adres i będzie można go użyć w aplikacji w sposób opisany poniżej.

const { IronPdfGlobalConfig } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

Wnioski

Wykorzystanie IronPDF for Node.js do wyodrębniania obrazów z plików PDF zapewnia solidny i wydajny sposób obsługi treści PDF. Chociaż IronPDF nie oferuje bezpośredniego wyodrębniania obrazów, jak niektóre specjalistyczne narzędzia, pozwala na renderowanie stron PDF jako obrazów, co jest przydatne do tworzenia wizualnych reprezentacji dokumentu.

Możliwość prostego wyodrębniania zarówno tekstu, jak i obrazów z plików PDF sprawia, że biblioteka ta jest cennym narzędziem dla aplikacji, które muszą przetwarzać i modyfikować zawartość plików PDF. Integracja z Node.js pozwala programistom na łatwe włączenie funkcji wyodrębniania plików PDF do aplikacji internetowych lub serwerowych.

Ogólnie rzecz biorąc, IronPDF to potężne rozwiązanie do obróbki plików PDF, oferujące elastyczność w konwertowaniu, zapisywaniu i wyodrębnianiu obrazów z plików PDF, dzięki czemu nadaje się do szerokiego zakresu zastosowań, takich jak indeksowanie dokumentów, generowanie podglądów i wyodrębnianie treści. Jeśli jednak skupiasz się wyłącznie na wyodrębnianiu obrazów osadzonych w plikach PDF, zapoznanie się z dodatkowymi bibliotekami może zapewnić bardziej specjalistyczne rozwiązania.

Często Zadawane Pytania

Jak wyodrębnić obrazy z plików PDF przy użyciu Node.js?

Możesz wykorzystać IronPDF w Node.js do renderowania stron PDF jako obrazów, które można zapisać jako pliki. Wymaga to skonfigurowania projektu Node.js, zainstalowania IronPDF i użycia jego metod do konwersji stron PDF do formatów obrazów.

Jakie kroki należy wykonać, aby skonfigurować IronPDF for Node.js do wyodrębniania obrazów?

Aby skonfigurować IronPDF for Node.js do wyodrębniania obrazów, należy utworzyć projekt Node.js, zainstalować pakiet IronPDF NPM, a następnie użyć funkcji IronPDF do załadowania dokumentu PDF i renderowania jego stron jako obrazów.

Czy IronPDF może bezpośrednio wyodrębniać obrazy z pliku PDF w środowisku Node.js?

IronPDF nie wyodrębnia bezpośrednio obrazów, ale może renderować strony PDF jako obrazy. Te wyrenderowane obrazy można zapisać, co w praktyce pozwala na wyodrębnienie zawartości graficznej z pliku PDF.

Jakie są wymagania wstępne dotyczące korzystania z IronPDF w środowisku Node.js?

Wymagania wstępne obejmują zainstalowanie Node.js, skonfigurowanie katalogu projektu oraz zainstalowanie pakietu IronPDF NPM, a także wszelkich pakietów specyficznych dla platformy, takich jak wersja 64-bitowa dla systemu Windows, zapewniająca optymalną wydajność.

Jak radzisz sobie z operacjami na plikach PDF w Node.js przy użyciu IronPDF?

IronPDF pozwala na wykonywanie zadań takich jak tworzenie, edycja, konwersja i wyodrębnianie treści z plików PDF w Node.js. Możesz załadować plik PDF za pomocą metod IronPDF i modyfikować go według potrzeb.

Czy do korzystania z IronPDF for Node.js potrzebna jest licencja?

Tak, aby uzyskać dostęp do wszystkich funkcji IronPDF, wymagana jest licencja. Licencję Trial można uzyskać na stronie internetowej IronPDF, rejestrując się za pomocą adresu e-mail.

Jakie dodatkowe biblioteki mogą być potrzebne do bezpośredniego wyodrębniania obrazów z plików PDF w Node.js?

Chociaż IronPDF może renderować strony jako obrazy, w celu bezpośredniego wyodrębniania obrazów warto rozważyć użycie dodatkowych bibliotek specjalizujących się w wyodrębnianiu osadzonych obrazów bezpośrednio z plików PDF.

Co sprawia, że IronPDF jest doskonałym wyborem do obsługi plików PDF w aplikacjach Node.js?

Solidność IronPDF, łatwość integracji z Node.js oraz wszechstronne funkcje tworzenia, edycji i wyodrębniania treści z plików PDF sprawiają, że rozwiązanie to doskonale nadaje się do zastosowań związanych z przetwarzaniem stron internetowych i dokumentów.

Darrius Serrant
Full Stack Software Engineer (WebOps)

Darrius Serrant posiada tytuł licencjata z informatyki z Uniwersytetu Miami i pracuje jako Full Stack WebOps Marketing Engineer w Iron Software. Już od młodych lat zainteresował się kodowaniem, postrzegając informatykę jako zarówno tajemniczą, jak i dostępną, co czyni ją doskonałym medium dla kreatywności ...

Czytaj więcej

Zespol wsparcia Iron

Jestesmy online 24 godziny, 5 dni w tygodniu.
Czat
Email
Zadzwon do mnie