MAXQDA
Forum

Stapelverarbeitung für erweiterte lexikalische Suche

Stapelverarbeitung für erweiterte lexikalische Suche

21 Jul 2020, 16:40

Stapelverarbeitung für das Autocodieren mit Hilfe der erweiterten lexikalischen Suche

Problem
Beim Durchsuchen vieler (ca. 2000) PDF-Dokumente benötigt eine erweiterte lexikalische Suche inklusive Autocodierung ca. 10 Minuten (variiert je nach Hardware).
Bei z.B. 100 potentiell interessanten Suchtermini führt dies zu einer Suchzeit von ca. 17 Std. Ich erachte hier nicht die eigentliche Suchzeit als Problem, sondern dass alle 10 Minuten eine Benutzerinteraktion notwendig ist. So kann man leider nicht die Suche über Nacht/Wochenende durchlaufen lassen.

Mögliche Lösung
Die erweiterte lexikalische Suche könnte die Möglichkeit bieten eine Exceldatei zu importieren. Die Exceldatei hat z.B. folgende Spalten:
1. Suchbegriffe (UND)
2. Suchbegriffe (ODER)
3. Ausgeschlossene Suchbegriffe
4. Code mit der die gefundenen Stellen codiert werden
Die erweiterte lexikalische Suche führt dann für jede Zeile der Tabelle eine Suche durch und codiert die Stellen entsprechend.

Zusatz
Gegebenenfalls ergibt es in diesem Kontext Sinn, für jede PDF-Datei automatisiert eine (temporäre) Textdatei als Proxy anzulegen in der der Text des PDF-Dokumentes (inklusive Tags für Seiten- oder Zeichenzahl) gespeichert wird. Der Suchalgorithmus kann dann vergleichsweise schnell die Proxydatei durchsuchen und muss nur bei Treffern auf die PDF-Dateien (bzw. auf die passende Seite dieser) zugreifen.

Version: MAXQDA 2020
System: Windows 10
alphabeta
 
Beiträge: 5
Registriert: 21 Jul 2020, 16:14

Zurück zu Funktionswünsche

Diese Website nutzt Cookies, um Ihnen die bestmögliche Funktionalität bieten zu können. Mit Klick auf OK oder durch die weitere Nutzung der Website stimmen Sie der Nutzung der Cookies zu. Genauere Informationen finden Sie in unserer Datenschutzerklärung. OK