Lemmatisierung

MAXDictio erlaubt bei der Bestimmung von Worthäufigkeiten und Wortkombinationen eine Lemmatisierung für verschiedene Sprachen einzuschalten. Ist die Option eingeschaltet, werden Wörter auf ihre jeweiligen Grundformen zurückgeführt, sodass Wörter mit gleicher Bedeutung unabhängig von Deklination oder Kasus zusammengefasst werden. So wird beispielsweise für die Wörter „gibt“, „gab“, „gäbe“ nur das Wort „geben“ gezählt und für die Genitiv-Formen „Glückes“ und „Glücks“ wird lediglich „Glück“ ausgegeben.

Die Lemmatisierung in MAXDictio wird mithilfe von Lemmata-Listen durchgeführt, die für folgende Sprachen vorliegen:

  • Bulgarisch
  • Deutsch
  • Englisch
  • Estnisch
  • Französisch
  • Italienisch
  • Katalanisch
  • Polnisch
  • Portugiesisch
  • Schwedisch
  • Spanisch
  • Tschechisch
  • Ukrainisch
  • Ungarisch

Die Listen liegen im TXT-Format (UTF-8) vor und können beliebig editiert und erweitert werden. Es empfiehlt sich hierfür Sicherungskopien anzulegen, denn die Dateien werden ggf. bei der Neuinstallation überschrieben. Sie finden die Listen im Installationsordner von MAXQDA:

Windows: lokale Installation

C: Programme (x68) MAXQDA12 Resources Lemmatization

Windows: portable Installation auf USB-Stick

USB-Stick MAXQDA 12

Mac: lokale Installation

Programm-Verzeichnis > Rechter Mausklick auf MAXQDA12 > Paketinhalt anzeigen:

Contents / Resources / Lemmatization

Mac: portable Installation auf USB-Stick

USB-Stick > MAXQDA 12 Portable for Mac > Rechter Mausklick auf MAXQDA12 > Paketinhalt anzeigen:

Contents / Resources / Lemmatization

 

Wichtiger Lizenzhinweis: Die verwendeten Lemmata-Listen stehen unter der Creative-Common- und der Open-Database-Lizenz. Wenn Sie die Ergebnisse der Funktionen in einer Publikation veröffentlichen möchten, ist es daher notwendig, dass Sie einen Hinweis der folgenden Art in die Publikation aufnehmen:
Lemmata-Liste für Deutsch: „Es wurde eine Lemmata-Liste verwendet, die auf den „Deutsche Morphologie-Daten“ von Daniel Naber basiert (http://www.danielnaber.de/morphologie/) und unter der Creative Commons Attribution-ShareAlike 4.0 Lizenz veröffentlicht wurde (http://creativecommons.org/licenses/by-sa/4.0/).“
Lemmata-Listen für andere Sprachen: „Es wurde eine Lemmata-Liste verwendet, die ursprünglich von Michal Boleslav Měchura bereitgestellt wurde ) und unter der Open Database License (ODbL) veröffentlicht wurde (http://opendatacommons.org/licenses/odbl/1.0/).“

 

War diese Seite hilfreich?