푸터 콘텐츠로 바로가기
IRONPDF 사용하기
C# PDF에서 텍스트 추출

C# PDF에서 텍스트 추출하기 (코드 예제 튜토리얼)

PDF(Portable Document Format) 파일은 무수히 많은 산업에서 중요한 역할을 하며 비즈니스가 문서를 안전하게 공유, 저장 및 관리할 수 있게 합니다. 개발자에게 있어, PDF 작업은 고객의 요구를 지원하기 위해 콘텐츠를 생성, 읽음, 변환 및 추출하는 것을 포함하는 경우가 많습니다. PDF에서 텍스트를 추출하는 것은 데이터 분석, 문서 색인화, 콘텐츠 마이그레이션 또는 접근성 기능을 가능하게 하는 작업에 필수적입니다. 현대 라이브러리인 IronPDF는 PDF 파일을 최소한의 노력으로 조작할 강력한 도구를 제공하여 이러한 작업을 그 어느 때보다 쉽게 만듭니다.

이 가이드는 가장 일반적인 요구 사항 중 하나인 C#에서 PDF에서 텍스트를 추출하는 방법에 중점을 둡니다. Visual Studio에서 프로젝트 설정, IronPDF 설치, 그리고 텍스트 추출을 수행하기 위한 간결한 코드 예제를 사용하여 작업을 안내할 것입니다. 이 과정에서, IronPDF의 강력한 기능들을 강조할 것입니다. 특히 .NET을 사용하여 PDF 파일을 생성, 조작 및 변환할 수 있는 능력을 갖추고 있습니다. 문서 중심의 응용 프로그램을 구축하든 또는 단순히 효율적인 PDF 처리가 필요하든 간에 이 튜토리얼은 시작하는 데 도움을 줄 것입니다.

1. IronPDF 기능

IronPDF는 브라우저가 수행할 수 있는 거의 모든 작업을 수행할 수 있는 견고한 PDF 변환기입니다. 개발자 for .NET 라이브러리로 PDF 문서를 생성하고 읽고 조작하는 것이 간단합니다. IronPDF는 Chrome 엔진을 사용하여 HTML-을 PDF 문서로 변환합니다. IronPDF는 HTML, ASPX, Razor HTML, MVC View 및 기타 웹 구성 요소를 지원합니다. Microsoft .NET 응용 프로그램은 IronPDF를 지원합니다(ASP.NET 웹 애플리케이션 및 전통적인 Windows 애플리케이션 모두). IronPDF는 또한 시각적으로 매력적인 PDF 문서를 작성하는 데 사용할 수 있습니다.

우리는 IronPDF로 HTML5, JavaScript, CSS, 이미지로부터 PDF 문서를 만들 수 있습니다. 게다가 파일은 머리글과 바닥글을 가질 수 있습니다. IronPDF 덕분에 우리는 쉽게 PDF 문서를 읽을 수 있습니다. IronPDF는 또한 포괄적인 PDF 변환 엔진과 PDF 문서를 처리할 수 있는 강력한 HTML-to-PDF 변환기를 가지고 있습니다.

  • PDF 생성: HTML, JavaScript, CSS, 이미지 또는 URL에서 PDF 생성. 디자인 강화를 위해 머리글, 바닥글, 책갈피, 워터마크 및 기타 사용자 정의 요소를 추가하십시오.
  • HTML-to-PDF 변환: HTML, Razor/MVC 뷰 및 미디어 타입 CSS 파일을 직접 PDF 형식으로 변환합니다.
  • 인터랙티브 PDF 기능: 상호작용 PDF 양식을 작성, 채우기 및 제출하세요.
  • 텍스트 및 이미지 추출: 데이터 처리 또는 재사용을 위해 기존 PDF 문서에서 텍스트 또는 이미지를 추출하십시오.
  • 문서 조작: 새로운 또는 기존의 PDF 파일 페이지를 병합, 분할 및 재배치하십시오.
  • 이미지 및 페이지 처리: PDF 페이지를 이미지로 래스터화하고 이미지를 PDF 형식으로 변환하십시오.
  • 사용자 정의 로그인 자격 증명과 함께 작업: IronPDF는 URL에서 문서를 생성할 수 있습니다. 또한 사용자 정의 네트워크 로그인 자격 증명, 사용자 에이전트, 프록시, 쿠키, HTTP 헤더 및 HTML 로그인 양식 뒤에서 로그인을 위한 양식 변수를 지원합니다.
  • 검색 및 접근성: PDF 문서 내에서 텍스트를 검색하고 접근성 표준을 준수하도록 하십시오.
  • 변환의 다양성: PDF를 HTML과 같은 다른 형식으로 변환하고, CSS 파일과 함께 PDF를 생성합니다.
  • 독립 실행형 기능: Adobe Acrobat이나 추가적인 타사 도구 없이 독립적으로 작동합니다.

2. Visual Studio에서 새 프로젝트 생성하기

Visual Studio 소프트웨어를 열고 파일 메뉴로 이동합니다. "새 프로젝트"를 선택한 후 "콘솔 애플리케이션"을 선택합니다. 이 글에서는 콘솔 애플리케이션을 사용하여 PDF 문서를 생성할 것입니다.

C# PDF에서 텍스트 추출 (코드 예제 튜토리얼), 그림 1: Visual Studio에서 새 프로젝트 생성 Visual Studio에서 새 프로젝트 생성

프로젝트 이름을 입력하고 적절한 텍스트 상자에서 파일 경로를 선택합니다. 그런 다음 아래 스크린샷과 같이 새로 만들기 버튼을 클릭하고 필요한 .NET Framework를 선택합니다.

C# PDF에서 텍스트 추출 (코드 예제 튜토리얼), 그림 2: Visual Studio에서 새 프로젝트 구성 Visual Studio에서 새 프로젝트 구성

이제 Visual Studio 프로젝트는 선택한 애플리케이션을 위한 구조를 생성하고, 콘솔, 윈도우즈, 웹 애플리케이션을 선택한 경우, 코드 입력 및 애플리케이션 빌드/실행을 할 수 있는 program.cs 파일을 엽니다.

C# PDF에서 텍스트 추출 (코드 예제 튜토리얼), 그림 3: .NET Core 선택 .NET Core 선택

다음으로, 코드를 테스트하기 위해 라이브러리를 추가할 수 있습니다.

3. IronPDF 라이브러리 설치

IronPDF 라이브러리는 네 가지 방법으로 다운로드하고 설치할 수 있습니다.

다음과 같습니다:

  • Visual Studio를 사용하여.
  • Visual Studio 명령줄 사용.
  • NuGet 웹사이트에서 직접 다운로드.
  • IronPDF 웹사이트에서 직접 다운로드.

3.1 Visual Studio 사용

Visual Studio 소프트웨어는 솔루션에 패키지를 직접 설치하기 위한 NuGet 패키지 관리자 옵션을 제공합니다. 아래 스크린샷은 NuGet 패키지 관리자를 여는 방법을 보여줍니다.

C# PDF에서 텍스트 추출 (코드 예제 튜토리얼), 그림 4: Visual Studio program.cs 파일 Visual Studio program.cs 파일

NuGet 웹사이트에서 패키지 목록을 보여주는 검색 상자를 제공합니다. 패키지 관리자에서 아래 스크린샷과 같이 "IronPdf"라는 키워드를 검색해야 합니다.

C# PDF에서 텍스트 추출 (코드 예제 튜토리얼), 그림 5: NuGet 패키지 관리자 NuGet 패키지 관리자

위 이미지에서 관련 검색 항목 목록을 볼 수 있습니다. 솔루션에 패키지를 설치하기 위해 필요한 옵션을 선택해야 합니다.

3.2 Visual Studio 명령 줄 사용

Visual Studio에서 도구 > NuGet 패키지 관리자 > 패키지 관리자 콘솔로 이동하세요.

패키지 관리자 콘솔 탭에 다음 줄을 입력합니다:

Install-Package IronPdf

이제 패키지가 현재 프로젝트에 다운로드/설치되고 사용 준비가 됩니다.

C# PDF에서 텍스트 추출 (코드 예제 튜토리얼), 그림 6: NuGet 패키지 관리자에서 IronPdf 라이브러리 NuGet 패키지 관리자에서 IronPdf 라이브러리

3.3 NuGet 웹사이트에서 직접 다운로드

세 번째 방법은 그들의 웹사이트에서 IronPDF NuGet 패키지를 직접 다운로드하는 것입니다.

  • NuGet의 IronPDF 패키지로 이동합니다.
  • 오른쪽 메뉴에서 다운로드 패키지 옵션을 선택합니다.
  • 다운로드된 패키지를 더블 클릭합니다. 자동으로 설치됩니다.
  • 다음, 솔루션을 다시 로드하고 프로젝트에서 사용을 시작합니다.

3.4 IronPDF 웹사이트에서 직접 다운로드

IronPDF 공식 사이트를 방문하여 웹사이트에서 최신 패키지를 직접 다운로드하십시오. 다운로드가 완료되면 아래 단계를 따라 프로젝트에 패키지를 추가하십시오.

  • 솔루션 창에서 프로젝트를 마우스 오른쪽 버튼으로 클릭합니다.
  • 그런 다음 옵션 참조를 선택하고 다운로드된 참조의 위치를 찾아보세요.
  • 다음, 확인을 클릭하여 참조를 추가합니다.

4. IronPDF를 사용하여 텍스트 추출

IronPDF 프로그램은 PDF 파일에서 텍스트를 추출하고 PDF 페이지를 PDF 개체로 변환할 수 있게 해줍니다. 다음은 IronPDF를 사용하여 기존 PDF를 읽는 방법의 예입니다.

첫 번째 접근 방식은 PDF에서 텍스트를 추출하는 것이며, 아래에 샘플 코드 스니펫이 있습니다.

using IronPdf;

// Load an existing PDF document from a file
var pdfDocument = PdfDocument.FromFile("result.pdf");

// Extract all text from the entire PDF document
string allText = pdfDocument.ExtractAllText();
using IronPdf;

// Load an existing PDF document from a file
var pdfDocument = PdfDocument.FromFile("result.pdf");

// Extract all text from the entire PDF document
string allText = pdfDocument.ExtractAllText();
Imports IronPdf

' Load an existing PDF document from a file
Private pdfDocument = PdfDocument.FromFile("result.pdf")

' Extract all text from the entire PDF document
Private allText As String = pdfDocument.ExtractAllText()
$vbLabelText   $csharpLabel

FromFile 정적 메소드를 사용하여 기존 파일에서 PDF 문서를 로드하고 이를 PDFDocument 객체로 변환합니다. 이는 위 코드에서 보여줍니다. 이 객체를 사용하면 PDF 페이지에서 접근 가능한 텍스트와 이미지를 읽을 수 있습니다. 객체에는 전체 PDF 문서에서 모든 텍스트를 추출하는 ExtractAllText라고 불리는 메소드가 있으며, 추출된 텍스트를 처리에 사용할 수 있는 문자열에 담습니다.

PDF 파일에서 페이지별로 텍스트를 추출할 수 있는 두 번째 방법에 대한 코드 예제는 아래에 있습니다.

using IronPdf;

// Load an existing PDF document from a file
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
    // Extract text from the current page
    string text = pdf.ExtractTextFromPage(index);
}
using IronPdf;

// Load an existing PDF document from a file
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
    // Extract text from the current page
    string text = pdf.ExtractTextFromPage(index);
}
Imports IronPdf

' Load an existing PDF document from a file
Private PdfDocument As using

' Loop through each page of the PDF document
For index = 0 To pdf.PageCount - 1
	' Extract text from the current page
	Dim text As String = pdf.ExtractTextFromPage(index)
Next index
$vbLabelText   $csharpLabel

위의 코드에서 볼 수 있듯이, 이는 먼저 전체 PDF 문서를 로드하고 그것을 PDF 개체로 변환합니다. 그런 다음, 내장된 프로퍼티 PageCount를 사용하여 로드된 PDF 문서에서 사용 가능한 총 페이지 수를 검색하여 전체 PDF 문서의 페이지 수를 얻습니다. "for loop" 및 ExtractTextFromPage 함수를 사용함으로써 로드된 문서에서 텍스트를 추출하기 위한 매개 변수로 페이지 번호를 전달할 수 있습니다. 그런 다음 정확한 텍스트를 문자열 변수에 저장합니다. 마찬가지로, "for"나 "for each" 루프의 도움으로 페이지별로 PDF에서 텍스트를 추출하게 됩니다.

5. 결론

IronPDF는 .NET 응용 프로그램에서 PDF를 원활하게 작업할 수 있도록 설계된 다재다능하고 강력한 PDF 라이브러리입니다. 그의 강력한 기능은 개발자가 Adobe Reader와 같은 타사 종속성에 의존하지 않고 PDF에서 콘텐츠를 생성, 조작, 추출할 수 있도록 합니다. IronPDF의 뛰어난 기능 중 하나는 PDF 문서에서 텍스트를 추출할 수 있는 그 능력입니다. 이 기능은 데이터 분석, 문서 인덱싱, 콘텐츠 마이그레이션 및 접근성 기능 활성화와 같은 작업 자동화에 매우 유용합니다. 개발자가 텍스트를 프로그래밍 방식으로 검색하고 처리할 수 있게 함으로써 IronPDF는 워크플로를 간소화하고 PDF 콘텐츠를 처리하는 새로운 가능성을 열어줍니다.

간단한 통합 및 크로스 플랫폼 지원으로, IronPDF는 PDF 문서를 효율적으로 처리하려는 개발자에게 훌륭한 선택입니다. 또한, IronPDF는 무료 체험을 제공하여 의무 없이 모든 기능을 리스크 없이 탐색할 수 있습니다. 가격 세부 정보 및 라이센스 옵션에 대해 더 알고 싶다면 가격 페이지를 방문하십시오.

자주 묻는 질문

C#을 사용하여 PDF 문서에서 텍스트를 추출할 수 있는 방법은?

C#에서 IronPDF를 사용하여 PDF 문서에서 텍스트를 추출할 수 있습니다. 먼저 PdfDocument.FromFile 메서드를 사용하여 PDF를 로드하고, 그런 다음 ExtractAllText 메서드를 적용하여 문서에서 텍스트를 가져옵니다.

Visual Studio 프로젝트에서 IronPDF를 설정하는 데 어떤 단계가 포함되어 있습니까?

Visual Studio 프로젝트에서 IronPDF를 설정하려면 NuGet 패키지 관리자를 통해 설치할 수 있습니다. 대안으로, Visual Studio 명령줄을 사용하거나 NuGet 또는 IronPDF 웹사이트에서 직접 다운로드할 수 있습니다.

IronPDF를 포괄적인 PDF 라이브러리로 만드는 기능은 무엇입니까?

IronPDF는 PDF 생성, HTML-to-PDF 변환, 텍스트 및 이미지 추출, 문서 조작 및 대화형 PDF 폼 지원을 포함한 광범위한 기능을 제공합니다.

IronPDF는 C#에서 HTML을 PDF로 변환하는 데 사용할 수 있습니까?

예, IronPDF는 통합 Chrome 엔진을 사용하여 Razor/MVC View 및 미디어 타입 CSS 파일을 포함한 HTML을 직접 PDF 형식으로 변환할 수 있습니다.

IronPDF는 모든 유형의 .NET 애플리케이션과 호환됩니까?

예, IronPDF는 ASP.NET 웹 애플리케이션과 전통적 윈도우 애플리케이션 모두와 호환되며, .NET 개발자에게 다용성을 제공합니다.

IronPDF는 PDF 문서의 접근성을 어떻게 촉진합니까?

IronPDF는 사용자가 PDF 문서 내에서 텍스트를 검색할 수 있도록 하고, 접근성 표준을 준수함으로써 접근성을 향상시킵니다.

IronPDF에 필요한 서드파티 종속성이 있습니까?

IronPDF는 독립적으로 동작하며, Adobe Acrobat과 같은 서드파티 도구를 필요로 하지 않고, .NET 애플리케이션 내에서 매끄러운 PDF 조작을 가능하게 합니다.

PDF에서 텍스트 추출 시 IronPDF를 사용하는 이점은 무엇입니까?

IronPDF는 데이터 분석, 문서 인덱싱 및 콘텐츠 마이그레이션에 유용한 프로그램적 텍스트 추출을 가능하게 하여 워크플로를 간편하게 합니다.

IronPDF의 체험판이 제공됩니까?

예, IronPDF는 무료 체험판을 제공하여 개발자가 구매 결정을 내리기 전에 그 기능과 역량을 탐색할 수 있게 해줍니다.

IronPDF를 사용하는 것이 .NET 애플리케이션의 PDF 관리에서 중요한 이유는 무엇입니까?

IronPDF는 외부 소프트웨어 없이도 PDF 생성, 텍스트 추출, HTML-to-PDF 변환을 포함한 강력한 기능 세트로 인해 .NET 애플리케이션의 PDF 관리에 필수적입니다.

이 기사에 있는 C# PDF 텍스트 추출 코드는 .NET 10과 호환됩니까?

예. 이 튜토리얼의 PdfDocument.FromFile과 ExtractText 예제는 .NET 10에서 이전 .NET 버전과 동일한 방식으로 작동합니다. .NET 10 프로젝트를 만든 후 최신 IronPDF 패키지를 NuGet에서 설치하면 현대 .NET 10 애플리케이션에서 PDF를 읽고 텍스트를 추출하는 동일한 코드를 실행할 수 있습니다.

카이 스튜어트
기술 문서 작성자

카이 스튜어트는 Iron Software에서 코딩에 대한 열정과 글쓰기 능력을 결합하여 일하고 있습니다. 유비 칼리지에서 소프트웨어 개발을 전공한 그는 복잡한 기술 개념을 명확하고 이해하기 쉬운 교육 콘텐츠로 풀어내는 능력을 갖추고 있습니다. 카이는 평생 학습을 중시하며 새로운 기술적 도전을 즐깁니다.

업무 외 시간에는 PC 게임, 트위치 스트리밍, 정원 가꾸기, 반려견 자이야 산책과 같은 야외 활동을 즐깁니다. 카이의 솔직한 접근 방식은 전 세계 개발자들을 위해 기술을 쉽게 이해할 수 있도록 돕는 Iron Software의 사명에 핵심적인 역할을 합니다.

아이언 서포트 팀

저희는 주 5일, 24시간 온라인으로 운영합니다.
채팅
이메일
전화해