Java에서 PDF 파일을 읽는 방법
이 글에서는 소프트웨어 애플리케이션에서 PDF 파일을 프로그램적으로 열 수 있는 PDF 리더를 만드는 방법을 살펴보겠습니다. 이 작업을 효과적으로 수행하기 위해 Java용 IronPDF 는 Java 프로그램에서 파일 이름을 사용하여 PDF 파일을 열고 읽을 수 있도록 도와주는 시스템 라이브러리 중 하나입니다.
Java에서 PDF 파일을 읽는 방법
- IronPDF Java 라이브러리를 다운로드하세요.
- `fromFile` 메서드를 사용하여 기존 PDF 문서를 불러오세요.
- PDF에서 내장된 텍스트를 추출하려면 `extractAllText` 메서드를 호출하세요.
- `extractTextFromPage` 메서드를 사용하여 특정 페이지에서 텍스트를 추출합니다.
- URL에서 렌더링된 PDF에서 텍스트를 추출합니다.
IronPDF
IronPDF - Java 라이브러리 는 이미 성공적인 .NET Framework 기반으로 구축되었습니다. 이러한 특징 덕분에 IronPDF Apache PDFBox와 같은 다른 클래스 라이브러리에 비해 PDF 문서를 다루는 데 있어 더욱 다재다능한 도구입니다. 이 프로그램은 콘텐츠 추출 및 구문 분석 , 텍스트 로드, 이미지 로드 기능을 제공합니다. 또한 페이지 레이아웃 , 여백, 머리글 및 바닥글 , 페이지 방향 등 PDF 페이지를 사용자 지정할 수 있는 다양한 옵션을 제공합니다.
이 외에도 IronPDF 다른 파일 형식에서 PDF로의 변환, 암호로 PDF 보호, 디지털 서명, PDF 문서 병합 및 분할 기능을 지원합니다.
Java에서 PDF 파일을 읽는 방법
필수 조건
IronPDF 사용하여 Java PDF 리더를 만들려면 컴퓨터에 다음 구성 요소가 설치되어 있는지 확인해야 합니다.
- JDK (Java Development Kit)는 Java 프로그램을 빌드하고 실행하는 데 필요합니다. 설치되어 있지 않다면 오라클 웹사이트 에서 다운로드하십시오.
- IDE (통합 개발 환경)는 프로그램을 작성, 편집 및 디버깅하는 데 도움이 되는 소프트웨어입니다. Eclipse, NetBeans, IntelliJ 등 Java용 IDE를 다운로드하세요.
- Maven - Maven은 중앙 저장소에서 라이브러리를 다운로드하는 데 도움이 되는 자동화 도구입니다. 아파치 Maven 웹사이트 에서 다운로드하세요.
- IronPDF - 마지막으로, Java에서 PDF 파일을 읽으려면 IronPDF 필요합니다. 이 라이브러리를 Java Maven 프로젝트의 종속성으로 추가해야 합니다. 아래 예제와 같이
pom.xml파일에 IronPDF 아티팩트와 함께 slf4j 종속성을 포함하십시오:
<dependencies>
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>ironpdf</artifactId>
<version>your-version-here</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
<version>1.7.32</version>
</dependency>
</dependencies>
<dependencies>
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>ironpdf</artifactId>
<version>your-version-here</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
<version>1.7.32</version>
</dependency>
</dependencies>
필수 임포트 추가
먼저, IronPDF 에서 필요한 모든 메서드를 참조하도록 Java 소스 파일 맨 위에 다음 코드를 추가하십시오.
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
다음으로, IronPDF의 메서드를 사용하려면 유효한 라이선스 키로 IronPDF 구성하십시오. main 메소드에서 setLicenseKey 메소드를 호출합니다.
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
참고: PDF 파일을 생성, 읽기 및 인쇄할 수 있는 무료 평가판 라이선스 키를 받을 수 있습니다.
Java를 이용해 기존 PDF 파일 읽기
PDF 파일을 읽으 려면 PDF 파일이 있어야 하거나, PDF 파일을 새로 만들어야 합니다. 이 문서에서는 이미 생성된 PDF 파일을 사용합니다. 코드는 간단하며 문서에서 텍스트를 추출하는 두 단계 과정입니다.
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
위 코드에서 fromFile는 PDF 문서를 엽니다. Paths.get 메소드는 파일의 디렉토리를 가져오고 파일에서 콘텐츠를 추출할 준비가 됩니다. 그런 다음, [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText())는 문서의 모든 텍스트를 읽습니다.
출력 결과는 다음과 같습니다.
PDF 텍스트 출력 읽기
특정 페이지에서 텍스트 읽기
IronPDF PDF 파일의 특정 페이지 내용을 읽을 수도 있습니다. extractTextFromPage 메소드는 PageSelection 객체를 사용하여 텍스트를 읽을 페이지 범위를 수용합니다.
다음 예시에서는 PDF 문서의 두 번째 페이지에서 텍스트를 추출했습니다. PageSelection.singlePage는 추출이 필요한 페이지의 인덱스를 가져옵니다 (0부터 시작).
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
PDF 텍스트 출력 읽기
다양한 페이지에서 텍스트를 추출할 수 있는 PageSelection 클래스에서 사용 가능한 다른 메소드로는: [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage(), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage(), [pageRange](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#pageRange(int,int), 및 [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()가 있습니다.
새로 생성된 PDF 파일에서 텍스트 읽기
새로 생성된 PDF 파일에서 HTML 파일이나 URL을 사용하여 텍스트를 검색할 수도 있습니다. 다음 샘플 코드는 URL에서 PDF를 생성하고 웹사이트의 모든 텍스트를 추출합니다.
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
새 파일에서 읽기
IronPDF PDF 파일에서 이미지를 추출하는 데에도 사용할 수 있습니다.
전체 코드는 다음과 같습니다.
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
// Set the IronPDF license key for commercial use
License.setLicenseKey("YOUR LICENSE KEY HERE");
// Read text from a specific page in an existing PDF
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
// Read all text from a PDF generated from a URL
pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
}
}
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
// Set the IronPDF license key for commercial use
License.setLicenseKey("YOUR LICENSE KEY HERE");
// Read text from a specific page in an existing PDF
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
// Read all text from a PDF generated from a URL
pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
}
}
요약
이 글에서는 IronPDF 사용하여 Java에서 PDF 파일을 열고 읽는 방법을 설명했습니다.
IronPDF HTML 또는 URL에서 PDF를 쉽게 생성하고 다양한 파일 형식을 변환할 수 있도록 도와줍니다. 또한 PDF 관련 작업을 빠르고 쉽게 완료하는 데 도움이 됩니다.
IronPDF 30일 동안 무료 체험 해 보시고 실제 업무 환경에서 얼마나 유용한지 직접 확인해 보세요. $799에서 시작하는 IronPDF의 상용 라이선스 옵션을 탐색하십시오.
자주 묻는 질문
Java로 PDF 리더를 어떻게 만들 수 있나요?
IronPDF를 사용하여 Java로 PDF 리더를 만들려면 `fromFile` 메서드를 이용하여 PDF 문서를 불러오고, `extractAllText`와 같은 메서드를 사용하여 콘텐츠를 구문 분석하고 조작하면 됩니다.
Java 환경에서 IronPDF를 사용하기 위한 필수 구성 요소를 설치하는 단계는 무엇입니까?
Java에서 IronPDF를 사용하려면 Java 개발 키트(JDK)를 설치하고, Eclipse 또는 IntelliJ와 같은 통합 개발 환경(IDE)을 설정하고, 종속성 관리를 위해 Maven을 구성하고, 프로젝트에 IronPDF 라이브러리를 포함해야 합니다.
Java를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇인가요?
IronPDF를 사용하여 Java에서 PDF 파일에서 텍스트를 추출하려면 `extractAllText` 메서드를 사용하여 문서 전체의 텍스트를 가져오거나 `extractTextFromPage` 메서드를 사용하여 특정 페이지의 텍스트를 추출할 수 있습니다.
Java에서 URL을 이용해 PDF 파일을 생성할 수 있나요?
네, IronPDF를 사용하면 `renderUrlAsPdf` 메서드를 통해 URL에서 PDF를 생성할 수 있습니다. 이 메서드는 웹 콘텐츠를 PDF 형식으로 변환합니다.
IronPDF는 Java 환경에서 PDF에 암호 보호 기능을 추가하는 것을 지원합니까?
네, IronPDF는 PDF에 암호 보호 기능을 추가할 수 있을 뿐 아니라 디지털 서명, 문서 병합 또는 분할과 같은 다른 기능도 지원합니다.
IronPDF는 Java 환경에서 어떤 파일 형식을 PDF로 변환할 수 있나요?
IronPDF는 HTML 및 기타 문서 형식을 포함한 다양한 파일 형식을 PDF로 변환할 수 있어 PDF 생성 및 조작에 유연한 옵션을 제공합니다.
IronPDF의 Java 버전 평가판이 있나요?
네, IronPDF는 30일 무료 평가판을 제공하므로 라이선스를 구매하기 전에 기능을 테스트하고 Java 애플리케이션에서 성능을 평가할 수 있습니다.
Java 라이브러리를 사용하여 PDF 문서의 특정 페이지에서 텍스트를 추출하는 방법은 무엇입니까?
IronPDF를 사용하면 `extractTextFromPage` 메서드를 이용하여 PDF의 특정 페이지에서 텍스트를 추출할 수 있습니다. 이 메서드는 페이지 번호 또는 페이지 범위를 지정해야 합니다.




