PDF-Dateien in C# lesen

Die Methode PdfDocument.ExtractAllText aus der IronPDF C# PDF-Bibliothek ist perfekt für einfache PDF-Textleseaufgaben. Mit dieser Methode werden Leerraum- und Kodierungsabweichungen in PDF-Quelldokumenten problemlos gehandhabt.

pdfDocument.ExtractTextFromPage" liest den Text aus bestimmten Seiten einer PDF-Datei. Im obigen Beispiel wird es iterativ verwendet, um Textinhalte aus einem bestimmten Bereich von Seiten abzurufen.

IronPDF kann auch Rohbilder aus PDFs extrahieren. Verwenden Sie dazu eine der folgenden Methoden der Klasse PdfDocument:

  • ExtractAllImages: liefert alle in einer PDF-Datei eingebetteten Bilder als IronSoftware.Drawing.AnyBitmap-Objekte.
  • ExtractAllRawImages: holt alle eingebetteten Bilder als Liste von Rohbytes(byte[]`).
  • ExtractImagesFromPage: extrahiert die auf einer indizierten Seite enthaltenen Bilder.
  • ExtractImagesFromPages: wie ExtractImagesFromPage, aber aus einem bestimmten Seitenbereich oder einer Liste von Einzelseiten.
  • ExtractRawImagesFromPage und ExtractRawImagesFromPages: funktioniert genauso wie die beiden vorherigen Methoden, liefert aber die extrahierten Bilder als Byte-Arrays statt als IronSoftware.Drawing.AnyBitmap-Objekte.