PDF 파일에서 텍스트를 한 줄씩 추출하는 방법
이 가이드에서는 Python을 사용하여 IronPDF 로 PDF 문서에서 텍스트를 순차적으로 추출하는 방법에 대한 세부적인 내용을 설명합니다. 이 과정에서는 Python 환경 설정부터 PDF 텍스트 추출을 위한 첫 번째 Python 프로그램 실행까지 모든 것을 다룹니다.
PDF 파일에서 텍스트를 한 줄씩 추출하는 방법
- Python을 사용하여 PDF 파일에서 텍스트를 추출하기 위해 PDF 라이브러리를 다운로드하고 설치합니다.
- 원하는 IDE에서 Python 프로젝트를 생성하세요.
- 텍스트 콘텐츠를 가져오려는 PDF 파일을 불러오세요.
- 내장 라이브러리의 함수를 사용하여 PDF를 순회하며 텍스트를 순차적으로 추출합니다.
- 추출한 텍스트를 파일로 저장합니다.
IronPDF PDF Python 라이브러리
IronPDF 는 Python에서 PDF 파일을 다룰 수 있게 해주는 편리한 도구입니다. PDF 파일을 읽고, 만들고, 편집하는 작업을 더 쉽게 만들어주는 유용한 도우미라고 생각하면 됩니다. PDF 문서에서 콘텐츠를 추출하거나, 새로운 정보를 추가하거나, 웹 페이지를 PDF 형식으로 변환하려는 경우, IronPDF 포괄적인 솔루션을 제공합니다. 유료 소프트웨어 패키지이지만, 구매하기 전에 체험해 볼 수 있는 평가판을 제공합니다.
스크립트를 실행하기 전에 Python 환경을 설정하는 것이 필수적입니다. 이 단계별 가이드는 환경을 구성하고, Visual Studio Code에서 새 Python 프로젝트를 생성하고, IronPDF 라이브러리 환경 구성을 설정하는 데 도움이 될 것입니다.
Python 다운로드 및 설치: Python을 설치하지 않았다면 공식 Python 웹사이트 에서 최신 버전을 다운로드하세요. 사용 중인 운영 체제에 맞는 설치 지침을 따르십시오.
Python 설치 확인: 터미널 또는 명령 프롬프트를 열고 python --version을 입력하세요. 이 명령은 설치된 Python 버전을 출력하여 설치가 성공적으로 완료되었음을 확인시켜 줍니다.
pip 업데이트: pip 는 Python Install-Package 프로그램입니다. pip install --upgrade pip 명령어를 실행하여 pip가 최신 버전인지 확인하세요.
Visual Studio Code에서 새 Python 프로젝트 만들기
Visual Studio Code를 다운로드하세요. 설치되어 있지 않다면 공식 웹사이트 에서 다운로드하세요.
Python 확장 프로그램 설치: Visual Studio Code를 열고 확장 프로그램 마켓플레이스로 이동합니다. Microsoft에서 제공하는 Python 확장 프로그램을 검색하여 설치하세요.
새 폴더 만들기: Python 프로젝트를 저장할 새 폴더를 만드세요. PDF_Text_Extractor 처럼 관련성 있는 이름으로 지정하세요.
VS Code에서 폴더 열기: 폴더를 Visual Studio Code로 드래그하거나 파일 > 폴더 열기 메뉴 옵션을 사용하여 폴더를 엽니다.
Python 파일 생성: VS Code 탐색기 패널에서 마우스 오른쪽 버튼을 클릭하고 [새 파일]을 선택합니다. 파일 이름을 main.py 또는 이와 비슷한 이름으로 지정하세요. 이 파일에는 Python 프로그램이 저장됩니다.
Visual Studio Code에서 새 Python 파일을 생성합니다.
IronPDF 라이브러리 요구 사항 및 설정
IronPDF PDF에서 텍스트 콘텐츠를 추출하는 데 필수적인 프로그램입니다. 설치 방법은 다음과 같습니다.
VS Code에서 터미널 열기: VS Code 내에서 터미널을 열려면 터미널 > 새 터미널 로 이동하세요.
IronPDF 설치: 터미널에서 다음 명령어를 실행하여 IronPDF 최신 버전을 설치하십시오.
pip install ironpdf
이 과정은 IronPDF 라이브러리와 필요한 모듈을 다운로드하여 설치합니다.
IronPDF 패키지를 설치하세요
자, 이렇게 해서 완성입니다! 이제 Python 개발 환경을 성공적으로 설정하고, Visual Studio Code에서 새 프로젝트를 생성하고, IronPDF 라이브러리를 설치했습니다.
PDF에서 텍스트를 한 줄씩 추출합니다.
라이선스 키 적용
진행하기 전에 IronPDF 라이선스 키를 적용했는지 확인하십시오.
from ironpdf import PdfDocument
# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"from ironpdf import PdfDocument
# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"실제 IronPDF 라이선스 키로 YOUR-LICENSE-KEY-HERE을(를) 대체하십시오. 이 라이선스를 사용하면 프로젝트에서 라이브러리의 모든 기능을 사용할 수 있습니다.
PDF 파일 형식 불러오기
Python 프로그램에 기존 PDF 파일을 불러와야 합니다. IronPDF의 PdfDocument.FromFile 메서드를 사용하여 이를 달성할 수 있습니다.
pdfFileObj = PdfDocument.FromFile("content.pdf")pdfFileObj = PdfDocument.FromFile("content.pdf")"content.pdf"는 읽으려는 PDF 파일을 가리킵니다. 이 로드된 PDF 파일은 pdfFileObj 변수에 저장되며, PDF 리더 또는 PDF 파일 객체 pdfFileObj로 사용됩니다.
PDF 문서 전체에서 텍스트 추출하기
PDF 파일에서 모든 텍스트 데이터를 한 번에 가져오려면 ExtractAllText 메서드를 사용할 수 있습니다.
all_text = pdfFileObj.ExtractAllText()all_text = pdfFileObj.ExtractAllText()ExtractAllText 메서드는 여기서 시연 목적으로 사용됩니다. 이 메서드는 PDF 파일에서 모든 텍스트를 추출하고 그것을 all_text라는 변수에 저장합니다.
특정 PDF 페이지에서 텍스트 추출하기
IronPDF는 ExtractTextFromPage 메서드를 사용하여 특정 페이지에서 텍스트 추출을 가능하게 합니다. 이 방법은 특정 페이지의 텍스트만 필요할 때 유용합니다.
page_2_text = pdfFileObj.ExtractTextFromPage(1)page_2_text = pdfFileObj.ExtractTextFromPage(1)여기서는 인덱스 1에 해당하는 두 번째 페이지에서 텍스트를 추출하고 있습니다.
추출된 텍스트를 기록하기 위한 텍스트 파일 초기화
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:with open("extracted_text.txt", "w", encoding='utf-8') as text_file:추출된 텍스트 데이터를 저장하려면 "extracted_text.txt"라는 파일을 여세요. 여기서는 Python의 내장 함수 open이 사용되며, 파일 모드를 "write" ("w")로 설정하고, encoding='utf-8'을 사용하여 유니코드 문자를 처리합니다.
각 페이지를 순회하며 한 줄씩 텍스트를 추출합니다.
for i in range(0, pdfFileObj.get_Pages().Count):for i in range(0, pdfFileObj.get_Pages().Count):위의 코드는 IronPDF의 get_Pages().Count을 사용하여 PDF 파일의 각 페이지를 반복하여 총 페이지 수를 얻습니다.
텍스트를 추출하고 줄 단위로 분할합니다.
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')각 페이지에 대해 ExtractTextFromPage 메서드를 사용하여 모든 텍스트를 가져온 후, Python의 split 메서드를 사용하여 그것을 줄 단위로 나눕니다. 이렇게 하면 반복문으로 처리할 수 있는 줄 목록이 생성됩니다.
추출된 줄을 텍스트 파일에 저장
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')이 코드는 목록에 있는 각 줄을 순회하면서 콘솔에 출력하고, 각 줄 뒤에 줄 바꿈 문자( \n )를 추가하여 텍스트 형식을 올바르게 지정한 후 파일에 씁니다.
전체 코드
다음은 전체적인 구현 방법입니다.
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
# Get the number of pages in the PDF document
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each line to the console
# Write each line to the text document
text_file.write(eachline + '\n')from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
# Get the number of pages in the PDF document
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each line to the console
# Write each line to the text document
text_file.write(eachline + '\n')출력
Visual Studio Code 터미널에 다음 명령어를 입력하여 Python 파일을 실행하세요.
python main.pypython main.py이 결과는 단말기에 표시됩니다.
추출된 텍스트
PDF 파일에서 추출한 텍스트입니다. 또한 디렉터리에 텍스트 문서가 생성된 것을 확인할 수 있습니다.
추출된 텍스트는 TXT 파일에 저장됩니다.
이 텍스트 파일에는 검색된 텍스트 형식이 순차적으로 표시됩니다.
추출된 텍스트 파일 내용
결론
결론적으로, IronPDF 와 Python을 사용하여 PDF 파일에서 텍스트를 추출하는 것은 전체 문서, 특정 페이지 또는 심지어 줄 단위로 텍스트를 추출하는 데 있어 강력하고 간단한 접근 방식입니다. 추출된 텍스트를 텍스트 파일로 저장할 수 있다는 추가적인 이점은 향후 처리를 위해 데이터를 효율적으로 관리하고 활용할 수 있도록 해줍니다. IronPDF 텍스트 추출 기능 외에도 다양한 기능을 제공하여 PDF 처리에 있어 매우 유용한 도구임이 입증되었습니다. IronPDF 사용하면 Python에서 PDF를 텍스트로 변환할 수도 있습니다.
또한 IronPDF 툴킷은 대화형 PDF 생성, 대화형 양식 작성 및 제출, PDF 파일 병합 및 분할 , 텍스트 및 이미지 추출 , PDF 파일 내 텍스트 검색, PDF를 이미지로 래스터화 , 글꼴 크기, 테두리 및 배경색 변경, PDF 파일 IronPDF 등 다양한 작업을 지원합니다.
IronPDF 오픈 소스 Python 라이브러리가 아닙니다. 프로젝트에 IronPDF를 사용하는 것을 고려하고 있다면, 패키지의 라이선스는 $799부터 시작합니다. 하지만 투자에 대한 추가 설명이 필요하시면 IronPDF 에서 제공하는 무료 체험판을 통해 모든 기능을 자세히 살펴보실 수 있습니다.

자주 묻는 질문
Python을 사용하여 PDF에서 텍스트를 추출하는 방법은 무엇인가요?
IronPDF를 사용하면 Python에서 PDF 파일에서 텍스트를 추출할 수 있습니다. 이 방법은 PdfDocument.FromFile 메서드를 사용하여 PDF 파일을 불러오고, 페이지를 순회하면서 텍스트를 한 줄씩 추출하는 방식으로 진행됩니다.
Python을 사용하여 PDF에서 텍스트를 추출하려면 무엇이 필요합니까?
Python에서 PDF에서 텍스트를 추출하려면 Python과 IronPDF 라이브러리가 설치되어 있어야 합니다. IronPDF 라이브러리는 pip를 통해 설치할 수 있습니다. 스크립트 작성 및 실행에는 Visual Studio Code와 같은 IDE를 사용하는 것이 좋습니다.
IronPDF로 PDF 파일의 특정 페이지에서 텍스트를 추출할 수 있나요?
예, IronPDF는 ExtractTextFromPage 메서드를 사용하여 페이지 인덱스를 지정함으로써 PDF의 특정 페이지에서 텍스트를 추출할 수 있도록 지원합니다.
Python에서 추출한 텍스트를 파일로 저장하려면 어떻게 해야 하나요?
IronPDF를 사용하여 텍스트를 추출한 후에는 Python의 파일 처리 메서드를 사용하여 추출된 텍스트 줄을 텍스트 파일에 저장함으로써 파일을 저장할 수 있습니다.
IronPDF는 텍스트 추출 외에 어떤 추가 기능을 제공하나요?
IronPDF는 PDF 생성, 편집 및 변환, PDF 문서 병합 및 분할, 이미지 추출, PDF를 다른 파일 형식으로 변환하는 기능 등 다양한 기능을 제공합니다.
Python 프로젝트에서 IronPDF를 사용하려면 어떻게 라이선스를 취득해야 하나요?
IronPDF를 사용하려면 Python 스크립트에서 License.LicenseKey 속성을 사용하여 라이선스 키를 설정하십시오. 이렇게 하면 라이브러리의 모든 기능을 사용할 수 있습니다.
구매 전에 IronPDF를 체험해 볼 수 있나요?
네, IronPDF는 정식 라이선스 구매를 결정하기 전에 기능을 평가해 볼 수 있는 평가판을 제공합니다.
PDF 텍스트 추출 중 문제가 발생하면 어떻게 해야 하나요?
IronPDF가 올바르게 설치 및 라이선스되었는지, 그리고 Python 환경이 올바르게 설정되었는지 확인하십시오. 일반적인 문제 해결을 위해서는 설명서 또는 지원 자료를 참조하십시오.
IronPDF를 사용하여 PDF 파일을 이미지로 변환할 수 있나요?
네, IronPDF는 PDF를 이미지로 래스터화하는 기능을 제공하여 전체 문서 또는 특정 페이지를 이미지 파일로 변환할 수 있습니다.
PDF에서 텍스트를 추출하는 Python 스크립트를 어떻게 실행하나요?
스크립트를 작성한 후에는 IDE 터미널에서 python main.py 실행하여 스크립트를 실행할 수 있습니다. 여기서 main.py 는 스크립트 파일의 이름입니다.










