Text aus PDFs extrahieren – mit Word

Ein klei­ner Tipp für alle, die Text aus einer PDF-Datei über­neh­men möch­ten, aber kei­ne Voll­ver­si­on von Ado­be Acro­bat oder ver­gleich­ba­re Pro­fi-Tools besit­zen: Aktu­el­le Ver­sio­nen von Micro­soft Word kön­nen PDF-Datei­en direkt über den Datei­dia­log öff­nen. Dabei wird das Por­ta­ble Docu­ment For­mat ins Word-For­mat umge­wan­delt. Die Kon­ver­tie­rung ver­läuft aus­drück­lich so, dass mög­lichst der gesam­te Text aus dem PDF ori­gi­nal­ge­treu erhal­ten bleibt. Das kann auf Kos­ten von Lay­out und Dar­stel­lung gehen – aber um die geht es ja in die­sem Fall nicht.

Nach mei­ner Erfah­rung funk­tio­niert das sehr gut. Anders als bei Text, den man via Ado­be Rea­der aus eine PDF her­aus­ko­piert, gibt es auch nicht für jede neue Zei­le einen har­ten Umbruch in der Zwi­schen­ab­la­ge, son­dern nur nach Absät­zen (wie es sich gehört). Und die Umwand­lung funk­tio­niert auch mit PDFs, für die das Kopie­ren im Ado­be Rea­der gesperrt ist – wer möch­te, kann das gern mit die­ser Datei ausprobieren.

2 Kommentare

Kommentieren

Schreibe einen Kommentar zu Martin Epstein Antworten abbrechen