Ähnlichkeitsanalyse für Dokumente

Die Ähnlichkeitsanalyse für Dokumente kann eingesetzt werden, um zu überprüfen, wie ähnlich bzw. unähnlich sich verschiedene Dokumente hinsichtlich der Häufigkeit von Codes sind. Ergänzend können dabei auch die Werte von Dokumentvariablen einbezogen werden.

Ähnlichkeitsanalyse starten

  • Aktivieren Sie zunächst alle Dokumente, die Sie in die Analyse einbeziehen möchten.
  • Hilfreich ist es zudem, auch gleich alle Codes, die man für die Bestimmung der Ähnlichkeit heranziehen möchte, zu aktivieren.
  • Rufen Sie aus dem Menü die Funktion Mixed Methods > Ähnlichkeitsanalyse für Dokumente auf. Es erscheint daraufhin ein Fenster, das alle bisher erstellten Ähnlichkeits- und Distanzmatrizen enthält.
  • Klicken Sie hier auf das Symbol  Neue Ähnlichkeits-/Distanzmatrix, um die Ähnlichkeitsanalyse zu starten.

Analyseeinstellungen vornehmen

Es erscheint der folgende Dialog, in dem Sie Codes und Variablen auswählen und die Art der Analyse festlegen können.

Optionen für die Ähnlichkeitsanalyse festlegen

Im oberen Bereich legen Sie zunächst fest, welche Codes bei der Analyse berücksichtigt werden sollen. Über die Schaltfläche Aktivierte Codes einfügen werden die aktivierten Codes direkt im Auswahlfenster ergänzt.

Als nächstes wählen Sie die Art der Analyse:

Vorkommen des Codes – Es wird eine Ähnlichkeitsmatrix erzeugt, bei deren Erstellung nur berücksichtigt wird, ob die ausgewählten Codes im Dokument vorkommen oder nicht.

Häufigkeit des Codes – Es wird eine Distanzmatrix erzeugt, bei deren Erstellung auch die Häufigkeit der einzelnen Codes berücksichtigt wird.

Ähnlichkeitsmaße bei gewählter Option „Vorkommen des Codes“

Für die Berechnung der Ähnlichkeit stehen verschiedene Varianten zur Auswahl. Alle diese Berechnungen bauen auf einer Vierfeldertafel der folgenden Art auf, die (im Hintergrund) für jede paarweise Kombination von Dokumenten erzeugt wird:

Dokument A
Code/Variablenwert
kommt vor
Code/Variablenwert
kommt nicht vor
Dokument BCode/Variablenwert kommt vorab
Code/Variablenwert
kommt nicht vor
cd

a = Anzahl an Codes bzw. Variablenwerten, die in beiden Dokumenten identisch sind

d = Anzahl an Codes bzw. Variablenwerten, die in beiden Dokumenten nicht vorkommen

b und c = Anzahl an Codes bzw. Variablenwerten, die nur in einem Dokument vorkommen

Die auswählbaren Berechnungsvarianten unterscheiden sich unter anderem darin, inwieweit Feld „d“, also das Nicht-Vorhandensein bei beiden Dokumenten, als Übereinstimmung gewertet wird.

Einfache Übereinstimmung = (a + d) / (a + b + c + d) – Das Vorhandensein und das Nicht-Vorhandensein werden als Übereinstimmung gewertet. Das Ergebnis entspricht der prozentualen Übereinstimmung.

Jaccard = a / (a + b + c) – Das Nicht-Vorhandensein wird vollständig ignoriert.

Kuckartz & Rädikers zeta = (2a + d) / (2a + b + c + d) – Das Vorhandensein wird doppelt gewertet, das Nicht-Vorhandensein einfach.

Russel & Rao = a / (a + b + c + d) – Nur das Vorhandensein wird als Übereinstimmung gewertet, das Nicht-Vorhandensein reduziert aber die Ähnlichkeit.

Tipp: Wenn man mehrere Codes in die Analyse einbezieht, bei denen zahlreiche Dokumente keine Codierung aufweisen, empfiehlt sich in der Regel ein Koeffizient, der das Nicht-Vorhandensein eines Codes ignoriert (Jaccard) oder nur gering bewertet (Kuckartz & Rädikers zeta, Russel & Rao). Ansonsten können sehr hohe Übereinstimmungswerte erreicht werden, obwohl sich die interessierenden relevanten wenigen Codes aber eklatant unterscheiden. Das Nicht-Vorhandensein dominiert dann das Vorhandensein von Ähnlichkeiten bei den relevanten Codes.

Distanzmaße bei gewählter Option „Häufigkeit des Codes“

Für die Berechnung der Distanz zweier Dokumente stehen bei der Option „Häufigkeit des Codes“ folgende Optionen zur Verfügung, bei der die Codehäufigkeiten zweier Dokumente verglichen werden.

Quadrierte euklidische Distanz – Summe aller quadrierten Abweichungen der Codehäufigkeiten. Durch das Quadrieren werden größere Abweichungen stärker gewichtet.

Block Distanz – Summe aller absoluten Abweichungen der Codehäufigkeiten.

Hinweis: Da sich auch Variablenwerte in die Analyse einbeziehen lassen, werden sowohl die Codehäufigkeiten als auch die Variablenwerte vor der Distanzberechnung z-standardisiert.

Variablen einbeziehen

Wenn Sie neben Codes auch Variablen bei der Ähnlichkeitsanalyse berücksichtigen möchten, klicken Sie auf den Button Variablen einbeziehen. Wenn Sie als Art der Analyse „Vorkommen des Codes“ ausgewählt haben, können Sie im erscheinenden Dialog auswählen, welche Variablenwerte MAXQDA auswerten soll. Ist der ausgewählte Variablenwert bei beiden Dokumenten vorhanden, wird dies als Übereinstimmung gewertet (Feld „a“). Im Dialog werden nur Variablen des Typs „Text“, „Wahr/Falsch“, „Datum“ sowie kategoriale Ganzzahl oder Fließkommazahlen gelistet.

Variablenwerte auswählen bei der Analyseart „Vorkommen des Codes“

Wenn Sie als Art der Analyse „Häufigkeit des Codes“ ausgewählt haben, erscheint ein anderer Auswahldialog, der nur Variablen des Typs „Ganzzahl“ oder „Fließkomma“, die nicht als „kategorial“ markiert sind, enthält.

Variablenwerte auswählen bei der Analyseart „Häufigkeit des Codes“

Umgang mit fehlenden Variablenwerten

Sie können zudem wählen, wie bei fehlenden Werten verfahren werden soll:

Fehlende Werte auf 0 setzen – Wenn ein Variablenwert nicht vorhanden ist, wird er auf 0, aufgrund der z-Standardisierung also auf den Mittelwert gesetzt. Bei dieser Option wird das Dokument mit einem fehlenden Wert bei der Analyse berücksichtigt.

Dokumente mit fehlenden Werten ausschließen – Sobald bei einem Dokument einer der Variablenwerte fehlt, wird das gesamte Dokument bei der Analyse ignoriert.

Die fertige Ähnlichkeits- bzw. Distanzmatrix

Die folgende Abbildung zeigt eine Ähnlichkeitsmatrix für fünf Interviews. Sowohl in den Zeilen als auch in den Spalten sind die ausgewählten Dokumente gelistet:

Ähnlichkeitsmatrix für fünf Interviews

Die standardmäßig eingeschaltete Farbschattierung hilft bei der Interpretation der Zellen, die bei einer Ähnlichkeitsmatrix einen Wert von 0 (gar keine Ähnlichkeit) bis 1 (identisch) annehmen können: Je dunkler das grün, desto ähnlicher sind sich die beiden Dokumente hinsichtlich der gewählten Codes und Variablenwerte. In der Abbildung ist z.B. zu sehen, dass „B01 Jan“ und „B04 Hans“ bezüglich der vorgenommenen Codierungen als auch ihren Variablenwerten bei einem Wert von 0,88 relativ stark übereinstimmen.

Die Matrix ist sortierbar: Klicken Sie auf eine Spaltenüberschrift, um die Dokumente in den Zeilen nach ihrer Ähnlichkeit mit dem angeklickten Dokument zu sortieren.

Symbolleiste

In der Symbolleiste des Fensters stehen Ihnen neben den üblichen Exporten folgende Funktionen zur Verfügung:

  Neue Ähnlichkeits-/Distanzmatrix – Ruft den Dialog zum Erzeugen einer neuen Matrix auf.

  Löschen – Löscht die selektierte Matrix.

   Namen in der Spalte: keine, kurze, volle – steuert die Spaltenbreite.

  Keine Farbhinterlegung – schaltet die grüne Markierung aus.

  Farbhinterlegung bezieht sich auf gesamte Matrix – Die Farbhinterlegung berücksichtigt die Werte aller Zellen. Gleiche Werte in der Tabelle haben die gleiche Farbhinterlegung.

  Farbhinterlegung bezieht sich auf Spalten – In jeder Spalte werden die Farben von Weiß bis Grün abgestuft. So lässt sich leicht auf einen Blick erkennen, welche Dokumente zu dem Dokument in der Spalte besonders ähnlich sind. Gleiche Werte in der Matrix können unterschiedliche Farben haben.

  Farbhinterlegung bezieht sich auf Zeilen – In jeder Zeile werden die Farben von Weiß bis Grün abgestuft. So lässt sich leicht auf einen Blick erkennen, welche Dokumente zu dem Dokument in der Zeile besonders ähnlich sind. Gleiche Werte in der Matrix können unterschiedliche Farben haben.

Distanzmatrizen sehen identisch aus wie Ähnlichkeitsmatrizen, nur ihre Interpretation wird genau umgekehrt vorgenommen: Je niedriger der Wert in einer Zelle, desto ähnlicher sind sich die beiden Dokumente.

Liste der vorhandenen Ähnlichkeits- und Distanzmatrizen

Links im Fenster sehen Sie alle bisher im Projekt erzeugten Ähnlichkeits- wie auch Distanzmatrizen. Sie lassen sich per Doppelklick umbenennen und per Symbol in der Symbolleiste löschen.

Tipp: Um Transparenz im Analyseprozess zu gewährleisten, werden im Tooltip eines Matrixnamens die gewählten Einstellungen angezeigt.