Forum

identische Dokumente identifizieren

22 Nov 2019, 17:15

Ich habe über 1.000 Dokumente importiert und möchte jetzt sicherstellen, dass es keine identischen Dokumente gibt, also dass nicht ein und dasselbe Dokument mehrmals in der Liste der Dokumente vorhanden ist.

Ich habe mehrere Dokumentengruppen und es ist wahrscheinlich, dass ein Dokument in mehreren Dokumentengruppen vorhanden ist.

Wie kann ich mein Problem lösen?

Vielen Danke im Voraus für hilfreiche Antworten!

Version: MAXQDA 2018
System: Windows 10
KatKo
 
Beiträge: 3
Registriert: 22 Nov 2019, 17:09

Re: identische Dokumente identifizieren

22 Nov 2019, 17:20

Hallo KatKo,

man kann die Dokumente in MAXQDA alphabetisch sortieren (Rechtsklick auf eine Dokumentgruppe > Aufsteigend sortieren). Oder sich die Übersicht Variablen für alle Dokumente anschauen und dort die Tabellenspalte mit den Dokumentnamen alphabetisch sortieren. Bei sehr vielen Dokumenten ist die Suche nach Doppelungen dann natürlich trotzdem eher mühsam.

Am einfachsten wäre es wahrscheinlich über "Reports > Export > Liste der Dokumente" die Liste aller Dokumenten zu Excel zu exportieren und dort die Spalte mit dem Dokumentnamen mit den Excel-Tools nach Doppelungen zu durchsuchen. Hat man dort eine Doppelung identifiziert, ist es dann einfach sie in MAXQDA wiederum zu entfernen.

Mit besten Grüßen
Julia Gerson
Julia Gerson
MAXQDA-Team
Julia Gerson
 
Beiträge: 33
Registriert: 19 Jul 2011, 11:45

Re: identische Dokumente identifizieren

22 Nov 2019, 17:25

Hallo Frau Gerson,

vielen Dank für die schnelle und detaillierte Antwort!

Ich hatte vergessen zu erwähnen, dass die Dokumente auch andere Dateinamen haben können. Ich dachte eher an eine automatische Suche auf inhaltlicher Ebene.

Händisch könnte ich nach markanten Textstellen suchen - falls ein Verdacht besteht. Aber lieber wäre es mir, wenn es automatisch passiert, da ich so nichts übersehe und es schneller geht.

Gibt es in dieser Hinsicht eine Lösung in MAXQDA?

Danke und viele Grüße
KatKo
KatKo
 
Beiträge: 3
Registriert: 22 Nov 2019, 17:09

Re: identische Dokumente identifizieren

10 Dez 2019, 15:29

Wenn viele Dokumente auf einen Rutsch aus einzelnen Dateien eingelesen werden sollen, dann empfiehlt es sich, vorher im Importverzeichnis eine Software für die Duplikatsuche zu nutzen.

Wenn die Daten aus Excel importiert werden, kann mit der Funktion "Bedingte Formatierung/Regeln zum Hervorheben von Zellen/Doppelte Werte" ein entsprechender Check im Arbeitsblatt durchgeführt werden. Diese Funktion vergleicht aber nur Texte bis zu einer Länge von 256 Zeichen, aber man kann ja die Textanfänge vergleichen (z.B. mit der Funktion LINKS()).

Will man tatsächlich viele längere Texte komplett auf Dupletten prüfen, dann funktioniert auch das problemlos mit der freien Statistiksoftware "R" .

Man kann eine Excel-Datei (mithilfe des Pakets "openxlsx") oder viele einzelne Textdateien (mit dem Paket "readtext") in eine "R"-Datei einlesen und dann mit dem der Funktion "distinct" im Paket "dplyr" Dupletten ausfilten.

Das Ergebnis kann man wieder in eine Excel-Datei ausgeben, die dann in MAXQDA verarbeitet wird.
Astelix
 
Beiträge: 44
Registriert: 09 Nov 2019, 13:54

Re: identische Dokumente identifizieren

14 Jan 2020, 11:18

Vielen herzlichen Dank für die vielen Hinweise! Ich werde mal testen, ob ich diese umsetzen kann.
KatKo
 
Beiträge: 3
Registriert: 22 Nov 2019, 17:09

Zurück zu MAXQDA in der Forschung

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

Diese Website nutzt Cookies, um Ihnen die bestmögliche Funktionalität bieten zu können. Mit Klick auf OK oder durch die weitere Nutzung der Website stimmen Sie der Nutzung der Cookies zu. Genauere Informationen finden Sie in unserer Datenschutzerklärung. OK