Text aus PDFs extrahieren – mit Word

Ein klei­ner Tipp für alle, die Text aus einer PDF-Datei über­neh­men möch­ten, aber kei­ne Vollversion von Adobe Acrobat oder ver­gleich­ba­re Profi-Tools besit­zen: Aktuelle Versionen von Microsoft Word kön­nen PDF-Dateien direkt über den Dateidialog öff­nen. Dabei wird das Portable Document Format ins Word-Format umge­wan­delt. Die Konvertierung ver­läuft aus­drück­lich so, dass mög­lichst der gesam­te Text aus dem PDF ori­gi­nal­ge­treu erhal­ten bleibt. Das kann auf Kosten von Layout und Darstellung gehen – aber um die geht es ja in die­sem Fall nicht.

Nach mei­ner Erfahrung funk­tio­niert das sehr gut. Anders als bei Text, den man via Adobe Reader aus eine PDF her­aus­ko­piert, gibt es auch nicht für jede neue Zeile einen har­ten Umbruch in der Zwischenablage, son­dern nur nach Absätzen (wie es sich gehört). Und die Umwandlung funk­tio­niert auch mit PDFs, für die das Kopieren im Adobe Reader gesperrt ist – wer möch­te, kann das gern mit die­ser Datei ausprobieren.

2 Kommentare

Martin Epstein 30. November 2020 Antworten

Thanks, Thomas. This is very useful for me and I had no idea that this fea­ture existed!

Thomas Cloer 30. November 2020 Antworten

That is why I wro­te this post. Nobody I know is awa­re of this func­tion­a­li­ty. Maybe Adobe asked Microsoft not to tell anybody …

Schreibe einen Kommentar