C#에서 PDF 파일 읽기

string(19) "클릭하여 복사"

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

C#에서 PDF 파일 읽기

텍스트와 이미지를 추출하면 한 문서 형식에서 다른 문서 형식으로 전환할 때 데이터 마이그레이션이 용이해질 수 있습니다. 추출된 콘텐츠는 접근성과 편집성이 뛰어난 형식으로 보존할 수 있으므로 데이터 손실 위험을 줄일 수 있습니다.

내장된 이미지와 텍스트는 PDF 문서와 별개로 추출할 수 있습니다. 추출된 텍스트는 일반 문자열 형식이고, 추출된 이미지는 이미지 버퍼 형식으로 저장되므로 내보내거나 추가 처리를 할 수 있습니다.

PDF 문서에서 텍스트를 추출하려면 extractText 메서드를 사용하고, 이미지를 추출하려면 extractRawImages 메서드를 사용하십시오.

다음은 이 작업을 수행하는 방법에 대한 수정 및 주석이 포함된 예시입니다.

위의 C# 코드에서:

저희는 PDF 문서를 불러오기 위해 IronPDF 라이브러리를 사용합니다.
ExtractText() 메서드는 PDF에서 텍스트를 가져오기 위해 호출됩니다. 이 텍스트는 콘솔에 출력됩니다.
ExtractImages() 메서드는 바이트 배열에 저장된 이미지를 추출하는 데 사용됩니다. 각 이미지는 지정된 파일 이름으로 파일 시스템에 저장됩니다.

이러한 방법을 사용하는 방법에 대한 자세한 지침은 IronPDF 문서를 참조하십시오.

IronPDF를 사용하여 PDF 텍스트 읽기에 대해 자세히 알아보세요.