MAXQDA
Forum

Vorbereiten/konvertieren von Dokumenten

07 Jun 2021, 14:57

Hallo zusammen,

Sehr geehrte Damen und Herren,

in einer Studie möchten wir viele unterschiedliche Arten von Dokumenten untersuchen. Um Worthäufigkeiten und Wortzusammenhänge untersuchen zu können, müssen wir die Dokumente, die alle als PDF vorliegen, in eine Txt-Datei umwandeln (Zeilenumbrüche werden im PDF nicht erkannt von Maxqda).

Ein großes Problem, das bei der Umwandlung entsteht, ist, dass einige Seiten des PDF nicht in txt konvertiert werden und/oder Spalten nicht also solche erkannt werden. Häufig werden bei mehrspaltig gesetzten Seiten in der pdf-Datei die Zeilen in der txt-Datei horizontal über alle Spalten ausgelesen.

Bei etwa 400 zu analysierenden Dokumenten wäre das manule Ändern ein riesen Aufwand. Gibt es Menschen hier, die damit Erfahrungen gemacht haben und eventuell helfen könnten? Das Programm Abbyy Finereader wurde uns bereits empfohlen, bringt aber andere Probleme wie der Falscherkennen von Buchstaben mitsich.

Viele Grüße

Simon

Version: MAXQDA 2020
System: Windows 10
ssievers
 
Beiträge: 2
Registriert: 09 Feb 2021, 10:13

Re: Vorbereiten/konvertieren von Dokumenten

07 Jun 2021, 21:40

Nach meinen Erfahrungen kann das Umwandeln von PDF in Text recht tricky sein.

Auf dem Mac funktioniert es mit dem Systemprogramm Automator, auf Windows und Mac habe ich die stapelweise Extraktion schon mit R (pdftools, tesseract) und Python (PyPDF, textract') gemacht.

Dabei sind jeweils unterschiedliche Programmierbibliotheken erforderlich für echte „Text“-PDFs und für „Bild“-PDFs, die vor der Textextraktion eine Texterkennung (OCR) benötigen. Texte korrekt aus komplex formatierten PDFs zu extrahieren ist nicht einfach, vor allem weil PDF-Dateien lm Unterschied zu HTML-Dateien keine semantischen Informationen enthalten (was ist eine Überschrift, eine Spalte usw., was ist die inhaltliche Reihenfolge der Textblöcke).

Nähere Informationen:

https://medium.com/@manthan.shah1994/my-experience-extracting-pdfs-text-using-r-and-python-50e3ba6ce5ad

https://slcladal.github.io/convertpdf2txt.html


Eine weitere Methode ist hier beschrieben:

https://kenbenoit.net/how-to-batch-convert-pdf-files-to-text/
Astelix
 
Beiträge: 62
Registriert: 09 Nov 2019, 13:54

Zurück zu Technische Fragen

Diese Website nutzt Cookies, um Ihnen die bestmögliche Funktionalität bieten zu können. Mit Klick auf OK oder durch die weitere Nutzung der Website stimmen Sie der Nutzung der Cookies zu. Genauere Informationen finden Sie in unserer Datenschutzerklärung. OK