푸터 콘텐츠로 바로가기
IRONPDF 사용하기
Iron PDF를 사용하여 PDF에서 텍스트 추출하는 방법

C#에서 PDF에서 데이터 추출 방법

PDF에서 데이터를 추출하면 수작업 입력 시간을 절약하는 데 중요합니다. 이 기사에서는 개발자가 IronPDF 라이브러리를 사용하여 PDF 문서에서 텍스트 및 이미지를 추출하는 방법을 설명합니다.

IronPDF: C# PDF 라이브러리

IronPDF는 PDF 파일을 생성, 편집 및 변환할 수 있는 .NET 라이브러리입니다. 개발자가 자신의 응용 프로그램에서 사용할 수 있는 사용하기 쉬운 API를 제공합니다. 전 세계적으로 PDF 파일을 생성, 편집 및 변환하는 데 가장 인기 있는 라이브러리 중 하나입니다. IronPDF를 사용하여 PDF에 대해 간단하고 빠른 솔루션을 만들 수 있습니다. 귀하의 텍스트는 각 문서에 맞게 사용자 지정되고, 레이아웃은 쉽게 읽기 위해 설정되며, 그래픽은 동반된 .NET 프로그램의 도움을 받아 디자인됩니다.

IronPDF 라이브러리에는 PDF 파일에서 데이터를 추출하는 환상적인 기능이 있습니다. 이 기사는 IronPDF를 사용하여 데이터를 추출하는 방법을 살펴봅니다. 먼저 C# 프로젝트를 생성하거나 엽니다. 다음 섹션으로 넘어가겠습니다.

Visual Studio에서 C# 프로젝트 생성 또는 열기

이 튜토리얼은 최신 버전의 Visual Studio를 사용하는 것을 권장합니다.

Visual Studio를 열고 나면 아래 단계를 따라 새 C# 프로젝트를 생성하세요. 사용하고 싶은 기존 프로젝트가 있다면 다음 단계는 건너뛰고 바로 다음 섹션으로 진행하세요.

  • Visual Studio 열기
  • "새 프로젝트 만들기" 버튼을 클릭하세요.

PDF에서 데이터 추출하는 방법 - C#, 그림 1: Visual Studio 열기 UI Visual Studio 열기 UI

  • 템플릿에서 "C# 콘솔 응용 프로그램" 선택

PDF에서 데이터 추출하는 방법 - C#, 그림 2: 새 프로젝트 생성 새 프로젝트 생성

  • 프로젝트에 이름을 지정하고 다음 버튼 클릭
  • 프로젝트 요구 사항에 따라 .NET Framework 선택하고 생성 버튼 클릭

PDF에서 데이터 추출하는 방법 - C#, 그림 3: .NET Framework 선택 .NET Framework 선택

Visual Studio는 이제 새 C# .NET 프로젝트를 생성합니다.

IronPDF 라이브러리 설치하기

IronPDF 라이브러리는 여러 가지 방법으로 설치할 수 있습니다.

패키지 관리자 콘솔 사용

  • 도구 > NuGet 패키지 관리자 > 패키지 관리자 콘솔로 이동하여 패키지 관리자 콘솔 열기
  • IronPDF 라이브러리를 설치하기 위해 다음 명령 실행:
Install-Package IronPdf

PDF에서 데이터 추출하는 방법 - C#, 그림 4: 패키지 관리자 콘솔 탭에서 설치 진행 상황 패키지 관리자 콘솔 탭의 설치 진행률

설치 후 아래와 같이 솔루션 탐색기의 dependencies 섹션에서 IronPDF 종속성을 볼 수 있습니다.

PDF에서 데이터 추출하는 방법 - C#, 그림 5: 솔루션 탐색기에서 IronPdf 패키지 참조 솔루션 탐색기에서 IronPdf 패키지 참조

NuGet 패키지 관리자 사용

IronPDF 라이브러리를 설치하는 또 다른 방법은 Visual Studio의 통합 NuGet 패키지 관리자 UI를 사용하는 것입니다.

  • 메인 메뉴에서 도구로 이동합니다. 드롭다운 메뉴에서 "NuGet 패키지 관리자"에 마우스를 올리고 "솔루션을 위한 NuGet 패키지 관리..."를 선택합니다.

PDF에서 데이터 추출하는 방법 - C#, 그림 6: NuGet 패키지 매니저로 이동 NuGet 패키지 관리자 탐색

  • 이렇게 하면 NuGet 패키지 관리자 창이 열립니다. 찾아보기 탭으로 이동하여 검색에 IronPdf을(를) 입력하고 Enter를 누릅니다.
  • 검색 결과에서 IronPDF를 선택하고 "설치" 버튼을 클릭하여 설치를 시작하세요.

PDF에서 데이터 추출하는 방법 - C#, 그림 7: NuGet 패키지 매니저에서 IronPdf Install-Package NuGet 패키지 관리자에서 IronPdf Install-Package

PDF 파일에서 데이터 추출

IronPDF를 사용하여 데이터를 추출하는 방법에 대한 다음 코드를 살펴보겠습니다:

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing

Public Class PDFExtractor
	Public Sub ExtractDataFromPDF()
		' Open a 128-bit encrypted PDF file by providing the filename and password
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Extract all text from the PDF document
			Dim allText As String = pdf.ExtractAllText()
	
			' Extract all images from the PDF document
			Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
	
			' Iterate over each page in the PDF document
			For index = 0 To pdf.PageCount - 1
				Dim pageNumber As Integer = index + 1
	
				' Extract text from the specific page
				Dim text As String = pdf.ExtractTextFromPage(index)
	
				' Extract images from the specific page
				Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
	
				' Code to process the extracted text and images
				'...
			Next index
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

이 코드 예제에서는:

  1. FromFile 메서드는 암호로 보호된 입력 PDF 문서를 로드하는 데 사용됩니다.
  2. ExtractAllText 메서드는 PDF에서 모든 텍스트 내용을 추출합니다.
  3. ExtractAllImages 메서드는 모든 포함된 이미지를 가져옵니다.
  4. 루프는 각 페이지를 순회하여 ExtractTextFromPageExtractImagesFromPage을 사용하여 특정 페이지에서 텍스트와 이미지를 추출합니다.

결론

IronPDF를 사용하면 개발자는 PDF 파일에서 텍스트와 이미지를 쉽게 추출할 수 있습니다. ExtractAllTextExtractAllImages을 사용하여 PDF 파일의 전체 내용을 즉시 추출할 수 있습니다. 대안으로, 이러한 메소드를 사용하여 특정 페이지의 내용을 추출할 수 있습니다. 이전 코드는 여러 페이지에서 텍스트와 이미지를 읽기 위해 두 가지 방법을 사용하는 방법을 보여주었습니다.

또한, IronPDF는 차트를 렌더링, 바코드 추가, 비밀번호로 보안을 강화, 워터마크 추가, PDF 양식을 프로그래밍 방식으로 처리하는 기능을 제공합니다.

IronPDF는 개발 중에는 무료로 사용할 수 있으며 상업적 용도로는 결제가 필요합니다. IronPDF의 무료 체험판은 결제 없이 프로덕션 사용이 가능합니다.

Iron Software의 문서 라이브러리 전체 패키지IronPDF Lite 라이선스 두 개의 비용으로 구매하세요.

지금 IronPDF를 다운로드하여 오늘부터 PDF에서 데이터를 추출하세요!

자주 묻는 질문

C#에서 PDF의 텍스트를 어떻게 추출할 수 있나요?

IronPDF의 ExtractAllText 메서드를 사용하여 PDF 문서의 모든 텍스트를 추출할 수 있습니다. 이 메서드는 PDF의 텍스트 콘텐츠에 쉽게 접근할 수 있게 하여 프로세스를 단순화합니다.

C#을 사용하여 PDF에서 이미지를 추출하는 프로세스는 무엇입니까?

IronPDF를 사용하면 ExtractAllImages 메서드를 활용하여 PDF에서 이미지를 추출할 수 있습니다. 이 메서드는 PDF 파일에서 모든 임베디드 이미지를 효율적으로 검색합니다.

C# 프로젝트에 PDF 조작 라이브러리를 설치하는 방법은 무엇입니까?

C# 프로젝트에 IronPDF를 설치하려면 패키지 관리자 콘솔에서 Install-Package IronPdf 명령을 사용하거나, Visual Studio 내의 NuGet 패키지 관리자 UI를 통해 패키지를 설치할 수 있습니다.

C#에서 암호화된 PDF를 처리할 수 있습니까?

네, IronPDF를 사용하여 FromFile 메서드를 통해 암호화된 PDF 파일을 열고 조작할 수 있습니다. 파일 이름과 비밀번호를 제공하여 콘텐츠에 접근할 수 있습니다.

C#에서 PDF의 특정 페이지에서 데이터를 추출할 수 있습니까?

IronPDF는 PDF 문서의 각 페이지를 순회하고 ExtractTextFromPageExtractImagesFromPage와 같은 메서드를 사용하여 특정 페이지에서 데이터를 추출할 수 있게 합니다.

C# PDF 라이브러리가 제공하는 추가 기능은 무엇입니까?

데이터 추출 외에도, IronPDF는 차트 렌더링, 바코드 추가, 비밀번호로 문서 보안 강화, 워터마킹 및 PDF 양식 프로그래밍 처리를 지원하는 기능을 제공합니다.

C#에서 HTML을 PDF로 변환하는 방법은 무엇인가요?

IronPDF의 RenderHtmlAsPdf 메서드를 사용하여 HTML 문자열을 PDF로 변환할 수 있습니다. 웹 콘텐츠로부터 PDF 문서를 생성하는 데 특히 유용합니다.

C# PDF 라이브러리의 체험판이 있습니까?

IronPDF는 개발 중 무료로 사용할 수 있으며, 기능을 시험해 볼 수 있습니다. 운영 중에는 상용 라이선스가 필요하지만, 무료 체험판도 제공됩니다.

PDF에서 데이터 추출을 위한 C# 라이브러리 사용을 시작하려면 어떻게 해야 합니까?

IronPDF를 사용한 데이터 추출을 시작하려면, 라이브러리를 다운로드하여 Visual Studio에서 C# 프로젝트를 생성하거나 열고, IronPDF를 설치한 후, 텍스트 및 이미지를 PDF에서 효율적으로 추출하는 코드 예제를 따라합니다.

.NET 10 호환성: IronPDF의 데이터 추출 기능을 .NET 10에서 사용할 수 있습니까?

예 — IronPDF는 .NET 10에서 데이터 추출 기능을 포함하여 완전히 지원됩니다. 특별한 구성 없이 .NET 10 프로젝트에서 IronPDF를 사용할 수 있으며, .NET 10, .NET 9, .NET 8 및 이전 버전과 .NET Standard 및 .NET Framework를 지원합니다. (ironpdf.com)

커티스 차우
기술 문서 작성자

커티스 차우는 칼턴 대학교에서 컴퓨터 과학 학사 학위를 취득했으며, Node.js, TypeScript, JavaScript, React를 전문으로 하는 프론트엔드 개발자입니다. 직관적이고 미적으로 뛰어난 사용자 인터페이스를 만드는 데 열정을 가진 그는 최신 프레임워크를 활용하고, 잘 구성되고 시각적으로 매력적인 매뉴얼을 제작하는 것을 즐깁니다.

커티스는 개발 분야 외에도 사물 인터넷(IoT)에 깊은 관심을 가지고 있으며, 하드웨어와 소프트웨어를 통합하는 혁신적인 방법을 연구합니다. 여가 시간에는 게임을 즐기거나 디스코드 봇을 만들면서 기술에 대한 애정과 창의성을 결합합니다.

아이언 서포트 팀

저희는 주 5일, 24시간 온라인으로 운영합니다.
채팅
이메일
전화해