VB.NET에서 PDF 파일을 구문 분석하는 방법
이 튜토리얼은 IronPDF의 뛰어난 지원을 통해 PDF 파일에서 텍스트와 이미지를 프로그래밍 방식으로 추출하는 방법을 소개합니다.
VB.NET에서 PDF 파일을 구문 분석하는 방법
- IronPDF C# 라이브러리를 다운로드하여 PDF 파일을 파싱
- `FromFile` 메소드를 사용하여 VB.NET에서 PDF 파일을 파싱
- `ExtractAllText` 메소드로 열린 PDF에서 텍스트 추출
- `ExtractTextFromPages` 메소드를 사용하여 특정 페이지에서 텍스트 추출
- `ExtractRawImagesFromPage` 메소드로 열린 PDF에서 이미지 추출
IronPDF
특징
효율적인 PDF 변환. 기계가 할 수 있는 거의 모든 일은 IronPDF도 할 수 있습니다. 이 PDF 라이브러리 덕분에 개발자는 빠르게 PDF를 생성하고, 텍스트 내용을 읽고, 작성, 로드, 조작할 수 있습니다.
IronPDF는 Chrome 엔진을 사용하여 HTML을 PDF 기록으로 변환합니다. Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms 및 WPF를 포함하여. IronPDF는 또한 Xamarin, Blazor, Unity 및 HoloLens 애플리케이션을 지원합니다. IronPDF는 Microsoft .NET과 .NET Core 애플리케이션 (ASP.NET 웹 패키지 및 일반 Windows 패키지 모두)을 지원합니다. IronPDF는 미적으로 매력적인 PDF를 만들기 위해 사용될 수 있습니다.
IronPDF는 HTML5, JavaScript, CSS 및 이미지를 사용하여 PDF를 생성할 수 있습니다. IronPDF는 또한 PDF와 통합되는 강력한 HTML-to-PDF 변환기를 보유하고 있습니다. IronPDF는 Chromium 렌더링 엔진을 사용하여 강력한 PDF 변환 메커니즘을 제공합니다. 또한 외부 출처와 연결되어 있지 않습니다.
- PDF 이미지는 HTML, HTML5, ASPX 및 Razor/MVC View을 포함한 다양한 출처에서 생성될 수 있습니다. HTML 및 이미지 자산은 PDF로 변환될 수 있습니다.
- 대화형 PDF를 작업할 수 있는 도구에는 대화형 양식 작성 및 제출이 포함됩니다.
- PDF 병합 및 분할, PDF 파일에서 텍스트 및 이미지를 추출하고, PDF 파일에서 텍스트를 검색하고, PDF를 이미지로 래스터화하고, 글꼴 크기를 변경하고 PDF 파일을 변환할 수 있습니다.
- HTML 로그인 폼을 사용자-에이전트, 프록시, 쿠키, HTTP 헤더 및 폼 변수를 사용하여 검증할 수 있습니다.
- IronPDF는 사용자 이름과 비밀번호를 제공하여 보안 문서에 접근할 수 있게 합니다.
- IronPDF는 PDF에서 텍스트를 읽고 빈틈을 채우는 프로그램입니다.
- 텍스트, 이미지, 책갈피, 워터마크 등을 추가할 수 있습니다.
- CSS 파일에서 PDF 파일을 생성할 수 있습니다.
자세한 내용은 무료 제한 키 및 전문가 버전을 위한 IronPDF 라이선스 정보 페이지를 방문하세요.
IronPDF- 글꼴 서식
PDF 파일에서 텍스트 추출
IronPDF는 IronPDF 라이브러리를 사용하여 PDF 파일에서 텍스트를 읽고 추출할 수도 있습니다. 아래는 현재 PDF 파일을 검사하기 위해 사용할 수 있는 IronPDF 코드 패턴입니다.
모든 페이지에서 텍스트 추출
아래 코드 예시는 몇 줄의 코드만으로 모든 PDF 콘텐츠를 문자열로 가져오는 첫 번째 방법을 보여줍니다.
Imports IronPdf
Module Program
Sub Main(args As String())
' Create a PDF Document object from an existing PDF file
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
' Extract all the text from the PDF
Dim AllText As String = pdfdoc.ExtractAllText()
' Output the extracted text to the console
Console.WriteLine(AllText)
End Sub
End Module
위의 샘플 코드는 FromFile 메서드를 사용하여 기존 파일에서 PDF를 읽고 PDF 문서 객체로 변환하는 방법을 보여줍니다. 해당 객체는 PDF에서 일반 텍스트를 추출하여 문자열로 변환하는 ExtractAllText이라는 메서드를 제공합니다.
페이지 번호별 텍스트 추출
아래 샘플 코드는 페이지 번호를 사용하여 PDF 파일에서 데이터를 추출하는 방법을 보여줍니다.
Imports IronPdf
Module Program
Sub Main(args As String())
' Create a PDF Document object from an existing PDF file
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
' Extract text from the first page (page numbers are zero-based)
Dim AllText As String = pdfdoc.ExtractTextFromPage(0)
' Output the extracted text to the console
Console.WriteLine(AllText)
End Sub
End Module
위의 코드는 FromFile 기능을 사용하여 기존 파일에서 PDF를 읽고 PDF 문서 객체로 변환하는 방법을 보여줍니다. 이 객체를 사용하여 PDF에서 텍스트와 이미지를 액세스할 수 있습니다. 이 객체는 페이지 번호를 매개변수로 보내 PDF의 해당 페이지에 있는 모든 단어를 포함하는 문자열을 얻을 수 있는 ExtractTextFromPage라는 메서드를 제공합니다.
페이지 사이의 텍스트 추출
아래 코드는 여러 페이지 사이의 데이터를 추출하는 방법을 보여줍니다.
Imports IronPdf
Module Program
Sub Main(args As String())
' Define a list of page numbers from which to extract text
Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}
' Create a PDF Document object from an existing PDF file
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
' Extract text from the specified pages
Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)
' Output the extracted text to the console
Console.WriteLine(AllText)
End Sub
End Module
위의 코드는 FromFile 메서드를 사용하여 기존 파일에서 PDF를 읽고 PDF 문서 객체로 변환하는 방법을 보여줍니다. 이 객체를 통해 PDF의 텍스트와 이미지를 검사할 수 있습니다. 이 객체는 페이지 번호 목록을 매개변수로 전달하여 문서의 지정된 페이지의 모든 텍스트 내용을 포함하는 문자열을 얻을 수 있는 ExtractTextFromPages라는 메서드를 제공합니다. 아래 왼쪽은 원본 PDF이고 오른쪽은 추출된 데이터입니다.
페이지 간 텍스트 추출 출력
PDF 파일에서 이미지 추출
IronPDF는 다음과 같은 이미지 추출 메서드를 제공합니다:
ExtractBitmapsFromPageExtractBitmapsFromPagesExtractImagesFromPageExtractImagesFromPagesExtractRawImagesFromPageExtractRawImagesFromPages
각 방법을 사용하여 문서의 페이지 또는 여러 페이지에서 이미지를 추출할 수 있습니다.
Imports IronPdf
Imports System.Drawing
Module Program
Sub Main(args As String())
' Create a PDF Document object from an existing PDF file
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
' Extract raw images from the first page
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
' Iterate over extracted images
For Each imgData As Byte() In images
' Create a memory stream from byte data
Using ms As New IO.MemoryStream(imgData)
' Create a Bitmap object from the memory stream
Dim image = New Bitmap(ms)
' Save the image to the specified output directory
image.Save("output/test.jpg")
End Using
Next
End Sub
End Module
위의 코드는 FromFile 기능을 사용하여 기존 파일에서 문서를 읽고 PDF 문서 객체로 변환하는 방법을 보여줍니다. 객체의 ExtractRawImagesFromPage 메서드에 페이지 번호를 전달하여 해당 페이지의 모든 사진을 포함하는 바이트 목록을 얻을 수 있습니다. For Each 루프를 사용하여 각 바이트 스트림을 처리하고 메모리 스트림으로 변환한 다음 Bitmap로 변환하여 사진 저장에 도움을 줍니다. 아래 이미지는 위 코드의 결과를 보여줍니다.
PDF에서 이미지 추출 출력
IronPDF API 코드 튜토리얼에 대해 더 알아보려면 IronPDF 문서를 참조하세요. 또한 C#을 사용하여 PDF 텍스트를 구문 분석하는 방법을 배우기 위해 다른 튜토리얼을 방문할 수 있습니다.
결론
라이브러리 IronPDF의 개발 라이선스는 무료입니다. IronPDF를 실제 환경에서 사용할 때 개발자의 요구에 따라 다양한 라이선스를 구입할 수 있습니다. Lite 계획은 $799에서 시작하며 진행 중인 비용이 없습니다. SaaS 및 OEM 재배포 대안도 제공됩니다. 모든 라이선스에는 업데이트, 1년의 제품 지원 및 영구 라이선스가 포함되어 있습니다. 이들은 제조, 스테이징 및 개발에도 유용합니다. 한 번의 구매로 끝입니다. 무료이며 기간이 제한된 추가 라이선스를 사용할 수 있습니다. IronPDF의 전체 가격 및 라이선스 세부정보를 읽으려면 포괄적인 IronPDF 라이선스 정보를 참조하세요. IronPDF는 또한 복사 보호를 위한 무료 라이선스를 제공합니다.
자주 묻는 질문
VB.NET에서 PDF에서 텍스트를 추출하는 방법은 무엇입니까?
IronPDF 라이브러리를 사용하여 ExtractAllText 메서드를 활용해 PDF에서 텍스트를 추출할 수 있습니다. 이를 통해 VB.NET 프로젝트에서 PDF 문서의 모든 페이지에서 텍스트를 가져올 수 있습니다.
VB.NET을 사용하여 PDF의 특정 페이지에서 이미지를 추출할 수 있습니까?
예, IronPDF는 ExtractRawImagesFromPage 메서드를 사용하여 특정 페이지에서 이미지를 추출할 수 있습니다. 이 메서드는 이미지 데이터를 바이트 배열로 반환하며, 이를 이미지 파일로 변환할 수 있습니다.
VB.NET에서 HTML 콘텐츠를 PDF 문서로 변환하는 방법은 무엇입니까?
IronPDF는 Chromium 렌더링 엔진을 사용하여 강력한 HTML-to-PDF 변환을 제공합니다. RenderHtmlAsPdf와 같은 메서드를 사용하여 HTML 문자열이나 파일을 PDF 문서로 효율적으로 변환할 수 있습니다.
VB.NET 응용 프로그램에서 IronPDF를 사용한 PDF 파싱의 이점은 무엇입니까?
IronPDF는 텍스트 및 이미지 추출을 위한 다양한 API를 제공하고, HTML-to-PDF 변환을 지원하며, ASP.NET, Windows Forms, Blazor를 포함한 다양한 .NET 플랫폼과 호환됩니다. 개발 및 배포 요구에 맞춘 다양한 라이선스 옵션도 제공합니다.
VB.NET 프로젝트에 IronPDF를 통합하는 방법은 무엇입니까?
IronPDF를 통합하려면 NuGet에서 라이브러리를 다운로드하고 VB.NET 프로젝트에 추가하십시오. 이를 통해 프로그램적으로 PDF 파일을 파싱하고 조작하기 위한 메서드에 접근할 수 있습니다.
IronPDF가 PDF 파싱 및 변환 작업을 모두 처리할 수 있습니까?
예, IronPDF는 파싱(텍스트 및 이미지 추출)과 변환 작업(HTML-to-PDF 등)을 효율적으로 처리하도록 설계되어 있으므로 VB.NET에서 PDF 조작을 위한 종합 솔루션이 됩니다.
IronPDF에 사용할 수 있는 라이선스 옵션은 무엇인가요?
IronPDF는 무료 개발 라이선스와 Lite, SaaS, OEM 재배포를 포함한 다양한 프로덕션 라이선스를 제공합니다. 이러한 라이선스는 업데이트와 1년간의 지원을 포함하여 다양한 프로젝트 요구를 충족시킵니다.
IronPDF가 기능을 위해 외부 자원에 의존합니까?
아니요, IronPDF는 외부 자원에 의존하지 않고 내부적으로 Chromium 렌더링 엔진을 사용하므로, PDF 변환 및 파싱에 대한 강력한 기능을 보장합니다.
IronPDF는 .NET 10을 지원하며 VB.NET 개발자에게 어떤 혜택을 주나요?
네, IronPDF는 .NET 9, 8, 7, 6, Core, Standard, Framework와 같은 이전 버전과 함께 .NET 10을 완벽하게 지원합니다. 이는 .NET 10을 대상으로 하는 VB.NET 프로젝트가 추가 구성 없이 IronPDF를 사용할 수 있음을 의미합니다. 개발자는 .NET 10의 향상된 런타임 성능 개선(예: 힙 할당 감소, 향상된 런타임 및 JIT 최적화)에서 혜택을 받으며, 이는 PDF 생성, 텍스트/이미지 추출, HTML-to-PDF 렌더링을 향상시킵니다.


