Wortkombinationen

Was leistet die Funktion „Wortkombinationen“?

Die Funktion Wortkombinationen liefert eine Übersicht, welche Kombinationen von bis zu 5 Wörtern häufiger und welche seltener in ausgewählten Texten vorkommen. Die Funktionsweise entspricht im Prinzip derjenigen bei der Auszählung von Worthäufigkeiten analysieren , nur das nicht bloß einzelne Wörter, sondern Phrasen bestehend aus bis zu 5 Wörtern gelistet werden können.

Funktion starten und Optionen festlegen

Starten Sie die Suche nach Wortkombinationen durch Auswahl der Funktion MAXDictio > Wortkombinationen im Menüband, woraufhin folgender Optionsdialog erscheint:

Optionen festlegen für die Bestimmung von Wortkombinationen
Anzahl der Wörter

Ganz oben im Dialog bestimmen Sie, wie viele Wörter die zu suchenden Wortkombinationen enthalten sollen. Sie können nach Kombinationen von bis zu 5 Wörtern suchen. Die Einstellung „von 3 bis 3 Wörtern“ sucht nach allen Wortkombinationen mit genau 3 Wörtern. Die Einstellung „von 2 bis 4 Wörtern“ listet hingegen alle 2-, 3- und 4-Wortkombinationen.

Auswahl der zu analysierenden Texte

Nur für aktivierte Dokumente: Diese Option beschränkt die Analyse auf die derzeit aktivierten Dokumente.

Nur in ‚Liste der Codings‘: Die Analyse beschränkt sich auf die Textsegmente, die derzeit in der „Liste der Codings“ angezeigt werden.

Ist keine der beiden Optionen gewählt, werden alle Text-, PDF- und Tabellen-Dokumente im MAXQDA-Projekt analysiert.

Hinweis: Bitte beachten Sie, dass eine Silbentrennung in PDF-Dokumenten nicht erkannt bzw. berücksichtigt werden kann.
Aufgliederung der Ergebnisse

Keine: Die Ergebnistabelle enthält keine Differenzierung der Ergebnisse, sondern nur die Summen über alle analysierten Texte hinweg.

Nach Dokumenten, Dokumentgruppen, Dokumentsets: Die Ergebnistabelle enthält zusätzliche Spalten, mit denen die Häufigkeiten von Wortkombinationen der einzelnen Dokumente, Dokumentgruppen oder Dokumentsets verglichen werden können. Bei gewählter Option Nur aktivierte Dokumente werden innerhalb der Dokumentgruppen oder Dokumentsets nur die aktivierten Dokumente berücksichtigt und es werden auch nur die Gruppen und Sets ausgegeben, in denen überhaupt aktivierte Dokumente vorhanden sind.

Nach Codes: Diese Option ist nur wählbar, wenn zugleich die Analyse auf die Segmente in der „Liste der Codings“ beschränkt ist und eine „Einfache Coding-Suche“ durchgeführt wurde. Die Ergebnistabelle enthält zusätzliche Spalten mit Häufigkeiten für jeden Code, der in der „Liste der Codes“ vorkommt. Diese Option ist besonders dann hilfreich, wenn man Texte mithilfe von Codes für die Analyse in MAXDictio in Texteinheiten unterteilt hat, denn sie ermöglicht es, die Häufigkeiten von Wortkombinationen innerhalb verschiedener Codes zu vergleichen.

Weitere Optionen

Abzutrennende Zeichen: Ein Klick auf den Button mit den drei Punkten öffnet ein kleines Dialogfenster, in dem Sie Zeichen eingeben können, die von den Wörtern abgetrennt und bei der Auszählung ignoriert werden sollen. Die vorgenommene Einstellung der abzutrennenden Zeichen gilt für alle Funktionen in MAXDictio.

Was ist ein Wort im Sinne von MAXDictio? Ein Wort ist jede Abfolge von Zeichen, die sich zwischen zwei Begrenzerzeichen befindet. Begrenzerzeichen können z.B. Leerzeichen oder Satzzeichen sein. So wird beispielsweise das letzte Wort des letzten Satzes „sein.“ an der linken Seite durch ein Leerzeichen und rechts durch einen Punkt begrenzt.

In das Dialogfeld „Abzutrennende Zeichen“ sind all die Zeichen einzutragen, die als Begrenzer fungieren sollen. Das sind üblicherweise Satzzeichen, Anführungszeichen etc. Die Auswahl der Zeichen gilt für alle MAXDictio-Funktionen und wird im jeweiligen Projekt gespeichert, sodass Sie die gleichen Ergebnisse erhalten, auch wenn Sie die Datei auf einem anderen Rechner öffnen. Standardmäßig werden die folgenden Zeichen in neuen Projekten automatisch eingetragen:

@ ! § $ % & / ( ) = ? ^ ° ‘ ´ ` ” „ “ ” “ { } [ ] # + * _ . : , ; < > ~ —

Gewisse Probleme macht unter Umständen der Bindestrich. Wenn man zusammengesetzte Wörter als solche beibehalten will und nicht in die einzelnen Bestandteile aufsplitten will, darf der Bindestrich nicht als abzutrennendes Zeichen vereinbart werden. Am besten ist es, wenn man mit den Möglichkeiten ein wenig herumexperimentiert. Da sich die Auszählung der Worthäufigkeiten problemlos in kurzer Zeit erneut durchführen lässt, sollte man die Ergebnistabelle durchblättern und auf Auffälligkeiten hin untersuchen und die Einstellung ggf. verändern.

Minimale Anzahl der Zeichen eines Wortes: Worte, die weniger Zeichen aufweisen, werden nicht in die Ergebnistabelle übernommen. Standardmäßig steht diese Option auf 1 Zeichen. Erhöht man diesen Wert auf 2 Zeichen, werden beispielsweise die Wörter „Du“ und „Er“ ausgeschlossen und wie Wörter der Stopp-Liste behandelt.

Stopp-Liste anwenden: Wenn eine Stopp-Liste benutzt werden soll, ist in dieser Checkbox ein Häkchen zu setzen. Ein Klick auf den Button mit den drei Punkten öffnet das Fenster mit den Stopp-Listen, um diese zu bearbeiten und auszuwählen.

Groß-/Kleinschreibung unterscheiden: Ist diese Einstellung aktiv, wird beispielsweise die Wortkombination „nach Hause fahren“ als eine andere Wortkombination betrachtet als „Nach Hause fahren“. Ist die Einstellung deaktiviert, werden alle Wörter in der Ergebnisliste in Kleinschreibung ausgegeben.

Nur Wortkombinationen innerhalb von Sätzen: Die Bestimmung der Wortkombinationen in MAXDictio kann man sich so vorstellen, dass alle Wörter eines Textes hintereinander in eine lange Reihe geschrieben werden. Bis zu 5 aufeinander folgende Wörter bilden dann die Wortkombinationen, wobei Absätze, Punkte, Ausrufezeichen etc. zwischen Wörtern ignoriert werden. Daher ist es in der Regel sinnvoll, diese Option einzuschalten, um alle Wortkombinationen, die über ein Satzende hinausgehen, zu ignorieren.

Beispiel: „Es ist warm. Ich gehe nach Hause.“ Wäre die Option ausgeschaltet, würde auch die Zweiwort-Kombination der Wörter „warm Ich“ gefunden und gezählt, obwohl die Worte inhaltlich in keinem Zusammenhang stehen.

Hinweis: Sätze werden nach folgenden Regeln in MAXQDA bestimmt: Ein neuer Satz beginnt immer nach einem Punkt, einem Ausrufezeichen, einem Fragezeigen und einem Doppelpunkt. Ausnahmen sind:
# Vor einem Punkt steht eine Zahl, die nicht vierstellig ist (z.B. 1. oder 2.).
# Direkt vor einem Punkt steht nur ein Zeichen (um Abkürzungen auszuschließen).
# Direkt vor einem Punkt stehen zwei gleiche Zeichen (z.B. ff. oder pp.).
# Wörtliche Rede in Anführungszeichen innerhalb eines Satzes zählt zum Satz selbst.
# Nach dem Satzende wird klein weitergeschrieben.
# Direkt nach einem Satzende befindet sich eine Nummer.
# Direkt nach einem Satzende befindet sich ein Anführungszeichen.
In Text- oder Tabellendokumenten beginnt nach einem Absatz grundsätzlich, ohne Ausnahme, ein neuer Satz.

Nur Wortkombinationen innerhalb von Satzteilen. Separatoren …: Häufig macht es auch keinen Sinn, Kombinationen von Wörtern auszugeben, in denen beispielsweise ein Komma steht oder ein anderes Zeichen, das Satzteile voneinander trennt. Daher empfiehlt es sich, auch diese Option zu wählen, um eine Aufgliederung von Sätzen in Satzteile zu erzielen. Nach Klick auf den Button mit den drei Punkten lassen sich die Separatoren festlegen, die einen Satzteil definieren. Standardmäßig sind dort folgende Zeichen festgelegt:

; , – ( ) … [ ]

Beispiel: „Ich ging nach Hause, da ich müde war.“ Dieser Satz wird in zwei Satzteile aufgeteilt und die Zweiwort-Kombination „Hause, da“ wird nicht gefunden.

Wörter lemmatisieren: Ist diese Einstellung gewählt, wird jedes Wort mithilfe eines Lemma-Lexikons der gewählten Sprache auf seine Grundform zurückgeführt. So wird beispielsweise für die Wörter „gibt“, „gab“, „gäbe“ nur das Wort „geben“ gezählt und für die Genitiv-Formen „Glückes“ und „Glücks“ wird lediglich „Glück“ ausgegeben.

Sobald man auf OK klickt, wird das Auszählen der Wortkombinationen gestartet. Je nach Umfang der Texte kann dieser Vorgang kürzer oder länger dauern. Eine Anzeige informiert Sie über den aktuellen Fortschritt.

Ergebnistabelle

Ergebnistabelle für „Wortkombinationen“

Oberhalb der Tabelle werden Sie darüber informiert, wie viele Dokumente in die Suche integriert wurden und wie viele unterschiedliche Wortkombinationen gefunden wurden. Bei jedem neuen Öffnen ist die Tabelle nach Häufigkeit absteigend sortiert, das heißt, die häufigste Wortkombination steht immer in der ersten Zeile.

Die angezeigten Spalten und Informationen entsprechen denen von Worthäufigkeiten und sind (einschließlich der Funktionen in der Symbolleiste) hier beschrieben: Worthäufigkeiten: Ergebnistabelle .

Der einzige Unterschied besteht darin, dass in der Tabelle Wortkombinationen anstelle von einzelnen Wörtern ausgegeben werden.

Funktionsweise der Stopp-Liste und der Lemmatisierung

Im Folgenden ist die Funktionsweise der Stopp-Liste, der Lemmatisierung deren Zusammenspiel bei der Bestimmung der Wortkombinationen erläutert:

Stopp-Liste

  • Wenn ein Wort innerhalb einer Kombination oder die Kombination selbst in der Stopp-Liste steht, wird die Kombination ignoriert.
  • Wenn eine Teilkombination in der Stoppliste steht, wird die Gesamtkombination ignoriert.

Lemmatisierung

  • Alle Wörter werden lemmatisiert und dann die Kombinationen der lemmatisierten Wörter ausgegeben.

Zusammenspiel von Stopp-Liste und Lemmatisierung

  • Wenn das lemmatisierte Wort in der Stoppliste steht, wird die Kombination ebenfalls ignoriert.
  • Wenn die lemmatisierte Kombination in der Stoppliste steht, wird die Kombination ignoriert.
  • Wenn eine lemmatisierte Teilkombination in der Stoppliste steht, wird die Gesamtkombination ignoriert.