AI Assist - effizient, sicher, immer zur Hand. Jetzt testen.

Wie ich die Suchfunktionen und das automatische Codieren von MAXQDA verwendet habe, um das Wissen über COVID-19 zu strukturieren

Blogbeitrag geschrieben von Prof. Dr. Udo Kuckartz.

Anfang Februar 2020, in den Anfängen der Corona-Pandemie, war unser aller Wissen über das neuartige Coronavirus sehr gering. Mit zunehmender Ausbreitung des Virus entstand in allen Schichten der Bevölkerung in Deutschland ein großer Bedarf nach Informationen. Mir ging es diesbezüglich wie Millionen anderer Menschen auf der Welt. Seit Anfang März versuchten alle Arten von Medien dieses Informationsbedürfnis zu erfüllen – von der Boulevardpresse, über Funk und Fernsehen bis zu wissenschaftlichen Zeitschriften und Preprints auf Universitätswebseiten. Da ich selbst zur Risikogruppe gehöre, wollte ich von Anfang an alles erfahren, was bereits über COVID-19 gewusst wurde. Die Menge an Informationen wuchs allerdings in den folgenden Wochen und Monaten exponentiell an. So kam ich auf die Idee, MAXQDA zur Unterstützung einzusetzen.

MAXQDA ist nicht nur ein mächtiges Tool für die Datenanalyse in der Forschung, sondern die Software kann auch nützliche Dienste jenseits der Analyse von Forschungsdaten erweisen. Viele nutzen ja beispielsweise die Möglichkeiten von MAXQDA für Literaturreviews und die Interaktion mit Reference Managern wie Endnote, Citavi und Co.

Ich habe dann MAXQDA dazu genutzt, um einen schnellen Zugang zum rasch wachsenden Wissen über COVID-19, die Symptome, die Inkubationszeit, Krankheitsdauer und -verlauf sowie viele andere Fragen zu erhalten. Dabei habe ich insbesondere die Suchfunktionen und die Funktionen des automatischen Codierens genutzt – dies will ich im Folgenden komprimiert am Beispiel von transkribierten Podcast-Daten beschreiben.

In Deutschland spielt der Virologe Prof. Drosten als Berater der Bundesregierung und der Kanzlerin, Angela Merkel, wie auch in der Öffentlichkeit eine wichtige Rolle. Dr. Drosten ist Chefarzt für Virologie an der Charité, der Universitätsklinik der Humboldt Universität Berlin. Vom 26. Februar bis 23. Juni 2020 hat Drosten in einem vom Norddeutschen Rundfunk (NDR) ausgestrahlten Podcast mit dem Titel „Das Coronavirus-Update“ –zunächst täglich, am Ende wöchentlich – alle Fragen rund um COVID-19 behandelt.

Datenvorbereitung

Der NDR hat alle Podcasts in seiner Mediathek frei zur Verfügung gestellt. Diese lassen sich ohne Probleme als MP3-Datei runterladen (https://www.ndr.de/nachrichten/info/podcast4684.html). Zudem lassen sich alle Podcast in transkribierter Form als PDF-Dateien herunterladen (https://www.ndr.de/nachrichten/info/Coronavirus-Update-Die-Podcast-Folgen-als-Skript,podcastcoronavirus102.html). Beides habe ich von Februar bis Ende Juni kontinuierlich gemacht, sodass am Ende eine Sammlung von 50 Audio-Dateien und 50 PDF-Dateien zustande kam. Die Audio-Dateien wurden alle in MAXQDA in eine Dokumentgruppe „Drosten podcasts audio“ und die Transkripte in eine Dokumentgruppe „Drosten podcast transkripte (PDF)“ importiert.

Danach habe ich einen weiteren Schritt der Datenvorbereitung getan, der zwar nicht unbedingt erforderlich ist, aber mir mehr Analyseoptionen eröffnete. Ich habe nämlich die als PDF formatierten Transkripte in DOCX-Dateien umgewandelt. Dies geschieht in MAXQDA mit der Funktion „PDF-Text als neues Dokument einfügen“ (im Kontextmenü des jeweiligen Dokuments verfügbar). Als letzten Schritt der Datenvorbereitung habe ich eine Dokumentvariable „Sendedatum“ erzeugt und die jeweiligen Daten der Podcasts eingegeben. So ist später immer sofort ersichtlich, zu welchem Zeitpunkt etwas gesagt wurde. Zudem wird es hierdurch ermöglicht, nur mit Podcasts aus einem bestimmten Zeitraum zu arbeiten.

Systematisch Informationen mit der Funktion Lexikalische Suche suchen

Erste Möglichkeiten, Informationen aus den Podcast-Daten zusammenzustellen, eröffnet die Funktion Lexikalische Suche (im Tab „Analyse“). Hier kannst Du Suchwörter angeben und bestimmen, was als ein Treffer gelten soll. Die Suche selbst hat diverse nützliche Optionen wie bspw. „Nur ganze Wörter“ und „Groß- und Kleinschreibung beachten“. Auch können Wörter aus einer Lemmaliste inkludiert werden. Bei der Lemmatisierung werden Wortformen mittels Nachschlagens in einem elektronischen Wörterbuch auf ihre Grundform, das Lemma, zurückgeführt. So wird bspw. „failures“ auf „failure“ zurückgeführt, ebenso wie das große geschriebene „Failure“.

Bereits die einfache Suche bringt mir sekundenschnell gute Ergebnisse: Ich suche bspw. nach „Inkubationszeit“ und stelle fest, dass hierzu nur erstaunlich wenige Aussagen gemacht wurden, erstmals in Podcast Nummer 5 am 3. März. Zu diesem Zeitpunkt wurde vermutet, dass der Kernbereich der Inkubationszeit zwischen zwei und sieben Tagen liegt. Später wird aufgrund einer englischen Studie von einer mittleren Inkubationszeit von 5 bis 6 Tagen ausgegangen, wobei diese bis zu 14 Tage betragen kann. In Podcast 16 vom 18. März erfahren wir, dass eine Forschergruppe englischer Modellierer vom Imperial College London bei der Konstruktion ihrer Modelle von einer Inkubationszeit von 5,1 Tagen ausgeht. Insgesamt kommt nur in 9 der 50 Podcasts das Thema „Inkubationszeit“ vor. Die Zusammenschau der gesammelten Aussagen aus allen Podcasts verdeutlicht, dass noch wenig gesichertes Wissen über die Inkubationszeit vorhanden ist und zudem die Informationen bislang noch eher vage sind, bspw. wird noch an keiner Stelle etwas über die Standardabweichung der Inkubationszeit gesagt. Diese Information wäre natürlich für einen selbst wie auch für staatliche Maßnahmen von sehr großer Relevanz.

Es lassen sich in MAXQDA auch Suchworte kombinieren, so erhalte ich auf die Suchanfrage nach „Tag“ and „ansteck“ die Antwort: „Am ansteckendsten sind Infizierte schon am Tag vor Beginn der Symptome und nach vier Tagen oder spätestens nach sieben Tagen sind sie offenbar schon nicht mehr ansteckend. Das Virus lässt sich dann nur noch als Genmaterial nachweisen.“ (Podcast 34 am 22. März)

Wenn meine Suchanfrage viele Suchwörter enthält oder ich die Funktion „Suchbegriffe als reguläre Ausdrücke interpretieren“ benutzt habe, ist es sinnvoll, die Suchanfrage zu speichern, damit ich sie später nicht erneut eintippen muss.

Lese mehr im MAXQDA Online Manual

Autocodieren

Natürlich kann, wenn neue Podcast-Transkripte hinzukommen, die Suche nach den Aussagen zu bestimmten Themen immer wieder von vorne gestartet werden. Allerdings wird man schnell feststellen, dass der Grad an Information bei den einzelnen Fundstellen sehr unterschiedlich ist. Manche Stellen sind reine Wiederholungen, manche aber sehr ausführlich. Es wäre deshalb nicht wirklich effektiv, immer wieder zu einem bestimmten Thema alle Fundstellen lesen zu müssen. Ein ausgezeichneter Weg dies zu vermeiden, ist das automatische Codieren der Fundstellen und dann ein anschließender Durchgang durch die Fundstellen, bei dem die weniger interessanten Stellen als nicht zu codieren markiert werden. Dies ist ein großer Vorteil der automatischen Codierfunktion von MAXQDA: Es werden nicht einfach blind alle Fundstellen codiert, sondern es besteht die Möglichkeit der Selektion des wirklich Wichtigen. Hat man dies getan, so sind diese Textstellen ein für allemal gekennzeichnet und bei einer späteren Recherche, bspw. nach dem Thema „Inkubationszeit“ werden nur noch solche codierten Stellen gelistet, die wirklich wichtige und neue Informationen enthalten.

Eine in Deutschland sehr kontroverse Frage war die Frage, ob und in welchem Umfang Kinder infektiös sind. Die Suche nach dem Vorkommen der Wörter „kind“ und „infekt“ im gleichen Satz bringt 58 Treffer in 15 Podcasts. Wirklich brisant ist das Thema erst ab Folge 36 (28. März) geworden, vorher hat es so gut wie keine Rolle gespielt. Die Ergebnistabelle blättere ich durch und markiere die weniger interessanten Aussagen. Nun muss ich noch entscheiden, was codiert werden soll. Hier gibt es in MAXQDA wieder vielfältige Möglichkeiten: Ich kann nur die Suchstelle, den Satz oder den gesamten Absatz codieren. Bei den Optionen „Satz“ und „Absatz“ kann ich sogar festlegen, wie viele Sätze bzw. Absätze vor und nach dem Treffer codiert werden sollen.

Die Autocode-Funktion erzeugt im Codesystem einen Code, der immer mit dem Wort „Autocode“ beginnt. Als Code Memo werden die gewählten Optionen festgehalten, sodass ich später immer weiß, welche Daten auf welche Weise automatisch codiert wurden.

Autocodieren mit Dictionary

Eine tolle Funktion von MAXQDA ist das Autocodieren mit einem selbst erstellten Diktionär. Solche Diktionäre lassen sich mit Hilfe des Moduls MAXDictio erzeugen. Wie diese Form des Autocodierens mit den Corona Daten funktioniert, werde ich demnächst in einem weiteren Blogbeitrag beschreiben.

Mehr über MAXDictio lesen

Das Arbeiten mit den Podcasts des „Coronavirus-Update“ hat nicht nur mein Wissen über die Pandemie erheblich vergrößert, sondern auch Fragen auf einer Metaebene evoziert, etwa danach welcher Evidenzbegriff denn eigentlich implizit der Arbeit dieses im öffentlichen Diskurs wichtigsten deutschen Virologen zugrunde liegt.

MAXQDA Free Trial

 

MAXQDA Newsletter

Unsere Forschungs- und Analysetipps, direkt in Ihren Posteingang.