C#에서 PDF 파일 읽기
텍스트와 이미지를 추출하면 한 문서 형식에서 다른 문서 형식으로 전환할 때 데이터 마이그레이션이 용이해질 수 있습니다. 추출된 콘텐츠는 접근성과 편집성이 뛰어난 형식으로 보존할 수 있으므로 데이터 손실 위험을 줄일 수 있습니다.
내장된 이미지와 텍스트는 PDF 문서와 별개로 추출할 수 있습니다. 추출된 텍스트는 일반 문자열 형식이고, 추출된 이미지는 이미지 버퍼 형식으로 저장되므로 내보내거나 추가 처리를 할 수 있습니다.
PDF 문서에서 텍스트를 추출하려면 extractText 메서드를 사용하고, 이미지를 추출하려면 extractRawImages 메서드를 사용하십시오.
다음은 이 작업을 수행하는 방법에 대한 수정 및 주석이 포함된 예시입니다.
위의 C# 코드에서:
- 저희는 PDF 문서를 불러오기 위해 IronPDF 라이브러리를 사용합니다.
ExtractText()메서드는 PDF에서 텍스트를 가져오기 위해 호출됩니다. 이 텍스트는 콘솔에 출력됩니다.ExtractImages()메서드는 바이트 배열에 저장된 이미지를 추출하는 데 사용됩니다. 각 이미지는 지정된 파일 이름으로 파일 시스템에 저장됩니다.
이러한 방법을 사용하는 방법에 대한 자세한 지침은 IronPDF 문서를 참조하십시오.




