C#에서 PDF 파일 읽기

VB C#

string(19) "클릭하여 복사"

using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;

// Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");

// Get all text to put in a search index
string text = pdf.ExtractAllText();

// Get all Images
var allImages = pdf.ExtractAllImages();

// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
    int pageNumber = index + 1;
    text = pdf.ExtractTextFromPage(index);
    List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
    //...
}

Install-Package IronPdf

C#에서 PDF 파일 읽기

IronPDF C# PDF 라이브러리의 PdfDocument.ExtractAllText 메서드는 기본적인 PDF 텍스트 읽기 작업에 적합합니다. 이 방법은 원본 PDF 문서 내의 공백 및 인코딩 불일치를 문제없이 처리합니다.

PdfDocument.ExtractTextFromPage는 PDF의 특정 페이지에서 텍스트를 읽습니다. 아래 예시에서는 특정 페이지 범위에서 텍스트 콘텐츠를 검색하기 위해 반복적으로 사용되는 것을 볼 수 있습니다.

IronPDF는 PDF에서 원본 이미지를 추출할 수도 있습니다. 이를 위해서는 아래의 PdfDocument 클래스에 있는 메서드 중 하나를 사용하십시오.

ExtractAllImages : PDF에 포함된 모든 이미지를 IronSoftware.Drawing.AnyBitmap 객체로 반환합니다.
ExtractAllRawImages : 내장된 모든 이미지를 원시 바이트 목록(byte[])으로 검색합니다.
ExtractImagesFromPage : 색인된 페이지에 포함된 이미지를 추출합니다.
ExtractImagesFromPages : ExtractImagesFromPage 와 동일하지만, 특정 페이지 범위 또는 개별 페이지 목록에서 가져옵니다.
ExtractRawImagesFromPage 및 ExtractRawImagesFromPages : 이전 두 메서드와 동일하게 작동하지만 추출된 이미지를 IronSoftware.Drawing.AnyBitmap 객체 대신 바이트 배열로 반환합니다.