MAXQDA
Forum

MAXQDA erkennt den Text in einigen PDF-Dateien nicht vollstä

Moderator: srueger

MAXQDA erkennt den Text in einigen PDF-Dateien nicht vollstä

21 Jul 2020, 16:29

Problem
MAXQDA erkennt den Text in einigen PDF-Dateien nicht vollständig/korrekt

reproduzieren

  1. PDF herunterladen https://www.lehrplanplus.bayern.de/fachlehrplan/realschule/6/geographie#66301 (der Downloadbutton befindet sich unten auf der Seite „PDF erstellen“)
  2. PDF in MAXQDA importieren
  3. Text in MAXQDA markieren, kopieren und in Texteditor einfügen ODER
    Insert PDF Text as New Document

Hinweis: Es wurde keine Texterkennung/OCR verwendet
[Nachtrag: Der Text in dem PDF ist als Text enthalten; das PDF enthält keine gescannten Textstellen, die mit Texterkennungssoftware bearbeitet wurden.]

MAXQDA findet folgenden Text:
Kompetnzerwatunge
Die Schülerine undSchüler . • beschreibn diephysiche Grundstrukr Euopas undverbalisern
Lagebziehunge marknter opgrafischer Elemnte. • grenz Europa nch unterschiedlchen atur- nd
kultrgeoraphiscen Kriten abund bilen sinvole Tilräume
(z. B Südeuropa). Hierzu benen udveroten sieunter
Zuhilfenahme ginetr Katen dieStaen Europas owie
ausgewählte Hauptsädte undorne dies denjweilgn
Teilräumen zu.
(originaldatei, P. 0: 166)



andere Programme (Adobe, Okular, DocumentViewer, pdftotext) finden folgenden Text:

Kompetenzerwartungen
Die Schülerinnen und Schüler ...
• beschreiben die physische Grundstruktur Europas und verbalisieren
Lagebeziehungen markanter topografischer Elemente.
• grenzen Europa nach unterschiedlichen natur- und
kulturgeographischen Kriterien ab und bilden sinnvolle Teilräume
(z. B. Südeuropa). Hierzu benennen und verorten sie unter
Zuhilfenahme geeigneter Karten die Staaten Europas sowie
ausgewählte Hauptstädte und ordnen diese den jeweiligen
Teilräumen zu.


Erwartetes Verhalten
MAXQDA zeigt den gleichen Text wie andere PDF-Programme

Workaround
mit folgendem Skript konnte die Datei für MAXQDA lesbar gemacht werden
for i in originaldatei.pdf;
do gs -dSAFER -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -sOutputFile=fixed-$i $i;
done


Zusatzinformationen zur PDF-Datei
$ qpdf -check originaldatei.pdf
checking originaldatei.pdf
PDF Version: 1.4
File is not encrypted
File is not linearized
No syntax or stream encoding errors found; the file may still contain
errors that qpdf cannot detect


$ pdfinfo originaldatei.pdf  
Title:          LehrplanPLUS PDF-Sammlung - 21.07.2020
Author:         Staatsinstitut für Schulqualität und Bildungsforschung
Creator:        RealObjects PDFreactor(R) 8.2.8867, Serial No: 3738, Licensed for: ISB Bayern
Producer:       RealObjects PDFreactor(R) 8.2.8867, Serial No: 3738, Licensed for: ISB Bayern
CreationDate:   Tue Jul 21 13:40:50 2020 CEST
ModDate:        Tue Jul 21 13:40:50 2020 CEST
Tagged:         no
UserProperties: no
Suspects:       no
Form:           none
JavaScript:     no
Pages:          7
Encrypted:      no
Page size:      595.29 x 841.89 pts (A4)
Page rot:       0
File size:      60682 bytes
Optimized:      no
PDF version:    1.4


Version: MAXQDA 2020
System: Windows 10
Zuletzt geändert von alphabeta am 30 Jul 2020, 09:41, insgesamt 2-mal geändert.
alphabeta
 
Beiträge: 5
Registriert: 21 Jul 2020, 16:14

Re: MAXQDA erkennt den Text in einigen PDF-Dateien nicht vol

29 Jul 2020, 11:45

Hallo alphabeta,

vielen Dank für den Beitrag! Wir leiten das sehr gerne an unsere Entwicklungsabteilung weiter.

Leider ist es so, dass MAXQDA selbst kein PDF-Bearbeitungsprogramm ist und nur den Text von PDFs erkennt, wenn diese mit Texterkennung eingelesen werden.

Bei Fragen und Schwierigkeiten wenden Sie sich gerne auch direkt an unser Supportteam, das Sie über folgendes Formular erreichen:
https://www.maxqda.de/online-support

Viele Grüße vom MAXQDA-Supportteam

Maren
MAXQDA-Supportteam
Maren_de
 
Beiträge: 133
Registriert: 27 Nov 2019, 11:59

Re: MAXQDA erkennt den Text in einigen PDF-Dateien nicht vol

30 Jul 2020, 09:39

Vielen Dank für den Hinweis.

Noch eine kleine Anmerkung für Personen die gegebenenfalls ähnliche Probleme haben:
Das PDF enthält den Text als Text, es enthält keine Bilder die mit Texterkennungssoftware behandelt wurden.
alphabeta
 
Beiträge: 5
Registriert: 21 Jul 2020, 16:14

Zurück zu Technische Fragen

Diese Website nutzt Cookies, um Ihnen die bestmögliche Funktionalität bieten zu können. Mit Klick auf OK oder durch die weitere Nutzung der Website stimmen Sie der Nutzung der Cookies zu. Genauere Informationen finden Sie in unserer Datenschutzerklärung. OK