Webscraping für MAXQDA mit R und Python: Foreneinträge in MAXQDA importieren

Blogbeitrag geschrieben von Thomas Zapf-Schramm.

MAXQDA bietet eine Vielzahl von Optionen für den Import von Textdaten in den verschiedensten Formaten. Für den Import von Texten aus dem Internet steht zum Beispiel die Möglichkeit des Downloads von Webseiten mit Hilfe des MAXQDA Web Collectors als PDF- oder Text-Datei zur Verfügung. Twitter- und YouTube-Texte können mit spezialisierten Importfiltern direkt in MAXQDA geladen werden.

Der Import von Webseiten über den Web Collector ist für Projekte mit nicht allzu vielen herunterzuladenden Seiten praktisch und adäquat. Er wird aber – v.a. wenn eine größere Zahl von Webseiten oder partielle Seiteninhalte importiert werden sollen – schnell etwas mühselig. Jede einzelne Seite muss im Webbrowser manuell angesteuert und gesichert werden. Möchte man beispielsweise ein beliebiges Diskussionsforum aus dem Internet herunterladen, kann die Datenerfassung für MAXQDA sehr aufwändig werden.

Deshalb möchte ich hier eine Methode für den automatisierten Import größerer Textmengen aus dem Internet am Beispiel des Nutzerforums von MAXQDA vorstellen.

Folgend finden Sie die ursprünglich für R beschriebene Methode als PDF zum Download. Auch das Script stelle ich Ihnen gern für Ihre Nutzung zur Verfügung:

Webscraping für MAXQDA mit R (PDF-Anleitung)

R-Script (.R)

Es gibt aber auch eine Übersetzung für Python (wobei es sich empfiehlt, die R-Anleitung vorher zu lesen, weil dort weitergehende Informationen zum Beispiel enthalten sind):

Webscraping für MAXQDA mit Python (PDF-Anleitung)

Jupyter-Notebook (.ipynb)

Python-Script (.py)

Blog

MAXQDA Newsletter

Similar Articles

Kategorien