Stapelverarbeitung für das Autocodieren mit Hilfe der erweiterten lexikalischen Suche
Problem
Beim Durchsuchen vieler (ca. 2000) PDF-Dokumente benötigt eine erweiterte lexikalische Suche inklusive Autocodierung ca. 10 Minuten (variiert je nach Hardware).
Bei z.B. 100 potentiell interessanten Suchtermini führt dies zu einer Suchzeit von ca. 17 Std. Ich erachte hier nicht die eigentliche Suchzeit als Problem, sondern dass alle 10 Minuten eine Benutzerinteraktion notwendig ist. So kann man leider nicht die Suche über Nacht/Wochenende durchlaufen lassen.
Mögliche Lösung
Die erweiterte lexikalische Suche könnte die Möglichkeit bieten eine Exceldatei zu importieren. Die Exceldatei hat z.B. folgende Spalten:
1. Suchbegriffe (UND)
2. Suchbegriffe (ODER)
3. Ausgeschlossene Suchbegriffe
4. Code mit der die gefundenen Stellen codiert werden
Die erweiterte lexikalische Suche führt dann für jede Zeile der Tabelle eine Suche durch und codiert die Stellen entsprechend.
Zusatz
Gegebenenfalls ergibt es in diesem Kontext Sinn, für jede PDF-Datei automatisiert eine (temporäre) Textdatei als Proxy anzulegen in der der Text des PDF-Dokumentes (inklusive Tags für Seiten- oder Zeichenzahl) gespeichert wird. Der Suchalgorithmus kann dann vergleichsweise schnell die Proxydatei durchsuchen und muss nur bei Treffern auf die PDF-Dateien (bzw. auf die passende Seite dieser) zugreifen.
Version: MAXQDA 2020
System: Windows 10