Agenda 12/14

Am 17.03.2014 von Haruki

Beispiel Grippe-Trends: Die Schwäche von Big Data

Mehr Datenquellen, verfeinerte Algorithmen und noch mehr Korrelationen: Big Data folgt dem Grundsatz „je mehr desto besser“. Hat man erst einmal genügend Daten gesammelt, gibt es quasi keine Forschungsfrage mehr, die sich nicht beantworten ließe – so der vorherrschende Glaube. Dass dem nicht so ist, zeigte jüngst die Analyse der Prognosegenauigkeit von „Google Flu Trends”. Methodisch versucht das Programm, die Häufigkeit von Google Suchbegriffen mit den Krankendaten der Seuchenschutzbehörde CDC in Verbindung zu setzten, um so auf Basis von Suchanfragen zukünftige Epidemien nahezu in real-time vorhersagen zu können. Tatsächlich schaffte es der Ansatz bisher jedoch kaum, adäquate Prognosen abzugeben. Statt auf eine inhaltlich plausible Theoriebildung stützen sich Big-Data-Ansätze bis dato vor allem auf rein korrelative Zusammenhänge. Kritische Fragen bezüglich der Anforderungen an die Reliabilität und Validität der genutzten Instrumente werden nicht gestellt. So ist die Gefahr groß, Variablen, deren Zusammenhänge zum vorherzusagenden Kriterium nur auf Scheinkorrelation basieren, als Prädiktor zu nutzen, ohne zu klären, unter welchen Umständen die Daten entstanden sind und inwieweit alternative Erklärungen für deren Zustandekommen zulässig sind. Es zeigt sich also: Das Potenzial von Big Data erst kann durch eine fundierte Theoriebildung optimal genutzt werden.

Artikel kommentieren

Ähnliche Beiträge