Blog-Eintrag -

Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation

Wer sich irgendwann in seinem Leben länger mit Statistiken und dem Auswerten von Daten beschäftigt hat, kennt den Satz: „Korrelation bedeutet nicht Kausalität.“ Im Englischen ist die Formulierung „Correlation does not imply causation“ fest verankert, der Fehlschluss wird meist lateinisch formuliert: „Cum hoc ergo propter hoc“ (lat.: „Wenn zugleich, dann deswegen“).

Daten-Analysten sind sich also sicher bewusst, dass zwei Ereignisse nicht zwingend Ursache und Wirkung sind, nur weil sie häufig zusammen auftreten. Denn genau das ist der Unterschied zwischen Kausalität und Korrelation: Wenn A aus B folgt, spricht man von Kausalität. Wenn A und B nur häufig zusammen beobachtet werden, liegt eine Korrelation vor.

Oft wird direkt nach dieser Erklärung die ganze Sache an einem Beispiel ad absurdum geführt. Etwa: der Zusammenhang von Eiscreme-Verkäufen und Todesfällen durch Ertrinken. Hier wird schnell klar, wie unsinnig es ist, die Eisverkäufe als Ursache für das Ertrinken zu vermuten, auch wenn die mathematische Ähnlichkeit der Datensätze eine solche Schlussfolgerung nahelegen würde.

Es gibt jede Menge weitere Beispiele, und viele sind ziemlich unterhaltsam, etwa die Scheidungsrate in Maine, die immerhin eine Korrelation von 99 Prozent zum Margarinekonsum in den USA aufweist. Tyler Vigen, der an der Harvard University Jura studiert, hat solche Beispiele zu einem Buch zusammengefasst.

Schokolade führt zu Nobelpreisen

Was wir bisher gesagt haben, könnte sich in jedem Statistik-Seminar abgespielt haben: Das Phänomen wird erklärt und benannt, im Anschluss spricht man über den Eiscreme-Fall, man lacht und ist sich sicher, dass einem das nie unterlaufen würde.

Aber es passiert. Es passiert vor allem Menschen, die es auf jeden Fall besser wissen müssten. 2012 vertrat eine im „New England Journal of Medicine” publizierte Studie die These, dass der Genuss von Schokolade eine bevölkerungsweite Verbesserung der kognitiven Fähigkeiten bewirken kann. Die Begründung sollte eine Statistik liefern, die die Anzahl der Nobelpreisträger aus einem Land mit dem Schokoladenkonsum im selben Land in Verbindung brachte.

Die Forscher sprachen sogar selbst die Problematik an: „The principal finding of this study is a surprisingly powerful correlation between chocolate intake per capita and the number of Nobel laureates in various countries. Of course, a correlation between X and Y does not prove causation but indicates that either X influences Y, Y influences X, or X and Y are influenced by a common underlying mechanism. However, since chocolate consumption has been documented to improve cognitive function, it seems most likely that in a dose-dependent way, chocolate intake provides the abundant fertile ground needed for the sprouting of Nobel laureates.”

Diese Schlussfolgerung birgt einige Probleme, nicht nur die Sache mit der Korrelation und Kausalität. Die Autoren haben auch einen sogenannten Ökologischen Fehlschluss vorgelegt: Nur weil man zwei Datensätze hat, bei denen einer die Nobelpreisträger und ein anderer den Schokoladenkonsum abbildet, kann man von diesen kollektiven Datensätzen noch lange keine Rückschlüsse auf einzelne Individuen ziehen. Trotz der mathematischen Ähnlichkeit beider Werte ist es beispielsweise durchaus möglich, dass nie ein Nobelpreisträger Schokolade gegessen hat – wir können den Schokoladenkonsum von Nobelpreisträgern aus diesen Datensätzen gar nicht ablesen. Das Gewinnen eines Nobelpreises durch Einzelpersonen ist außerdem kein geeignetes Anzeichen für die kognitiven Fähigkeiten der gesamten Bevölkerung eines Landes. Die biologischen Metaphern („fertile ground“, „sprouting“) sollten hier schon die Alarmglocken schrillen lassen.

Warum erliegen sogar Menschen, die sich wissenschaftlich mit Daten beschäftigen (und sogar selbst die Problematik ansprechen!), immer wieder der Versuchung, einen kausalen Zusammenhang zu vermuten, wo keiner ist?

Die wissenschaftliche Suche nach dem kausalen Zusammenhang

Das liegt erst einmal daran, dass das Ableiten von Kausalitäten aus beobachteten Tatsachen eine der schwierigsten wissenschaftlichen Aufgaben ist und von vielen als das Grundproblem von Wissenschaft überhaupt gesehen wird. Der finnische Informatiker Patrik Hoyer versuchte sich mit seinen additive noise models trotzdem daran. Seine Ergebnisse wurden auch von Joris Mooij, Juniorprofessor für maschinelles Lernen an der Universität von Amsterdam, aufgegriffen und stellen einen Versuch dar, eine allgemeingültige und vor allem saubere Methode zur Daten-Auswertung zu entwickeln.

Die Idee ist vergleichsweise simpel: Sollte tatsächlich ein Ereignis ein anderes beeinflussen, findet man das, was Hoyer „additive noise“ nennt, also zusätzliches Rauschen oder die Nebeneffekte dieses Ereignisses, im beeinflussten Ereignis wieder.

Fahre ich also jeden Tag mit dem Auto zur Arbeit, schlagen sich zufällige Nebenereignisse meiner Fahrt (eine rote Ampel, Blitzeis oder Stau) in der Dauer meiner Fahrt nieder. Aus dem Beobachten dieser „additive noises“ kann man nun per Gegenprobe schließen, dass der Verkehr meine Fahrzeit beeinflusst und nicht etwa meine Fahrzeit den gesamten Verkehr.

Diese Vorgehensweise ist leider nur bei ähnlich simplen Zusammenhängen anwendbar. Sie ist auch auch nicht zu 100 Prozent verlässlich. Aber sie zeigt immerhin eines: Die Schwierigkeiten beim Ermitteln von kausalen Zusammenhängen sind enorm und sollten am besten Profis überlassen werden.

Big Data und die steigende Verfügbarkeit von Daten

Und genau hier kommt das zweite große Problem ins Spiel. Daten und statistische Erhebungen sind so einfach zu bekommen wie noch nie. Unter dem Begriff Big Data möchte jeder an diesen Informationen teilhaben und sie auswerten. Und zwar möglichst viele Daten auf einmal, und möglichst schnell, am besten automatisiert.

Gerade Entscheidungen, die Produkte und Dienstleistungen betreffen, stehen verstärkt unter Datendruck, und gerade hier wird Korrelation und Kausalität verwechselt. Oder ganz weit auseinander gehalten. Der zum Thema Big Data sehr vielsagende Satz von Chris Anderson, „Petabytes allow us to say: ‚Correlation is enough‘“ beschreibt eine neue Einstellung zu Statistiken: Wenn die Menge der Daten ausreichend groß ist, reicht auch schon eine Korrelation als Grundlage für Entscheidungen.

Andersons Aussage ist sicher bewusst provokativ formuliert. Dennoch stimmt es, dass in einigen Fällen eine beobachtete Korrelation von Ereignissen als Entscheidungsgrundlage ausreichen kann. Ob und wann allerdings auf der Basis von Korrelationen eine Schlussfolgerung gezogen werden kann, hängt allerdings, wie eigentlich alles im Bereich Data-Analyse, davon ab, was man eigentlich wissen möchte und ob man überhaupt die richtigen Informationen hat.

Es kommt häufig genug vor, dass wir uns blenden lassen von einer überwältigenden Menge an Daten und Statistiken, ohne zu hinterfragen, ob wir nicht doch die falschen Daten zu einem bestimmten Thema ausgewählt haben. Der Ökonom David Reily greift beispielsweise lieber zu kontrollierten Experimenten, statt sich auf die Auswertung von Daten zu verlassen. So in einer Arbeit zur Effektivität von Werbung auf Yahoo. Er hatte die Möglichkeit, die Kunden eines Händlers mit Yahoo-Nutzern abzugleichen und aus allen passenden Testpersonen, die bei beiden registriert waren, eine Versuchsgruppe und eine Kontrollgruppe zu bilden. Der Versuchsgruppe wurde regelmäßig Werbung des Händlers gezeigt, der Kontrollgruppe nicht, auch wenn die Testpersonen die Bedingungen für die Anzeige erfüllten. Reily hat sich also ganz bewusst dazu entschieden, mit seinem Experiment nur die Zielgruppe des Unternehmens zu beobachten und nicht jede einzelne Suchanfrage auf Yahoo.

Ohne dieses Experiment, so Reily, wäre er zu den falschen Schlüssen gekommen. Die reine Analyse bestehender Daten hätte nicht berücksichtigt, dass sich Menschen, die eine bestimmte Werbung sehen, sehr stark von Menschen unterscheiden, die diese Werbung nie sehen werden, einfach indem sie bestimmte Begriffe nicht suchen. Wer auf der Suche nach einem neuen Auto ist, wird sich wenig für meine Anzeige zu aktueller Sportbekleidung interessieren. Aber wenn aus diesem Grund die Anzeige schnell weggeklickt wird, kommt man schnell zu falschen Schlüssen, wenn man die Effektivität der eigenen Anzeige bewerten möchte. Diese Daten würden mir zwar viel über die Positionierung und die Verbreitung meiner Anzeige sagen, nicht aber darüber, wie effektiv sie formuliert ist und wie viele Menschen aus meiner tatsächlichen Zielgruppe durch genau diese Anzeige zum Kauf angeregt werden.

Auch der Versuch, bei der Auswertung von Daten durch kleinere Stichproben und andere Methoden wieder mehr auf einzelne Menschen zu achten, um seine Zielgruppe zu verstehen, bekommt wieder mehr Beachtung. In der Welt von Big Data versuchen sich einige durch ihren ganz eigenen Ansatz abzugrenzen: Small Data.

Selbst mit einer unbegrenzten Menge an Daten bleibt also die Auswertung dieser Daten schwierig und in Ihr menschliches Ermessen gestellt. Mit Blick auf eine konkrete Unternehmens-Situation ist immer zu klären: Stelle ich die richtigen Fragen? Wie wurden die Daten erhoben? Sind sie neutral? Sind sie aussagekräftig? Gesunder Menschenverstand und individuelle Urteilsfähigkeit und Erfahrung sind im Umgang mit Daten unerlässlich.

Ein erster Schritt, auch in der Datenflut die richtigen Entscheidungen zu treffen, kann für Sie mit Research von NIMIRUM beginnen. Wir wissen, wie man aus einer Vielzahl von Informationen und Meinungen die richtigen herausfiltert und unsere unabhängigen Experten geben, anders als Algorithmen, entsprechend Ihrer individuellen Fragen und Anforderungen Antworten und Handlungsoptionen. 

Autor: Björn Berger / Redaktion NIMIRUM 

Links

Themen

  • Geisteswissenschaften

Kategorien

  • expertennetzwerk
  • wissenstransfer
  • research
  • trendanalyse

Kontakt

Zugehörige Meldungen

  • Fakten in postfaktischen Zeiten – starker Wachstumskurs von Nimirum setzt sich auch 2016 fort

    Nimirum wächst weiter: Der Wissensmittler zwischen Wissenschaft und Wirtschaft hat gegenüber dem Vorjahreszeitraum seinen Umsatz verdoppelt. 2016 wurden über 30.000 Seiten in Form von Checks, Reports und multidisziplinären Studien erstellt. Mittlerweile arbeiten acht Angestellte und 400 Expertinnen und Experten aus 65 Ländern bei und für Nimirum (Sitz: Leipzig und Bristol).

  • Nimirum auf Digital PR Bootcamp und European Communications Convention // Geschäftsführer des Wissensdienstleisters Nimirum teilen ihr Wissen

    Die Managing Partner Anja Mutschler und Dr. Christophe Fricker zeigen in dieser Woche auf branchenrelevanten Konferenzen Flagge: Mutschler auf dem Digital PR Bootcamp mit einem Vortrag zu „Fact oder Fake News? Worauf es beim digitalen Content heute ankommt", Fricker mit einem Referat über „Facts - Who Cares? Research and Politics post-Brexit".

  • Kulturcheck: Shitstorm vermeiden, Kunden gezielt ansprechen

    Viele Shitstorms lassen sich durch frühzeitige Screenings geplanter Marketingmaßnahmen vermeiden. Der Kulturcheck leistet diese Prüfung. Slogans und Claims werden in bis zu 65 nationalen Märkten von Experten für Kultur und Sprache untersucht. Bevor es zu spät ist!

  • Wie tickt der Konsument von heute? Fragen Sie den Prosumenten, liebe Marktforscher!

    Die Kommunikationsformen in Zeiten sozialer Netzwerke ändern sich, die rasant ansteigende Zahl von Onlinebefragungen lässt die Verbraucher abstumpfen. Knappe Budgets verhindern, dass Methoden neu gedacht und Methods Mix mit qualitativen Methoden für die beste Wahrheitsfindung eingesetzt werden. Michael Nitsche , Experte im NIMIRUM-Netzwerk fordert ein Umdenken im Sinne der Prosumenten.

  • Smart Home: Markt der Zukunft? Die 6 wichtigsten Fakten

    Wie sieht Wohnen in der Zukunft aus? Smart Home Systeme und das Internet of Things sind keine neuen Ideen, aber woran scheiterte bisher eine großflächige Umsetzung? Wir zeigen in unseren Top 6 Fakten zu Smart Home, dass die Zukunft näher ist, als Sie denken!

  • Nichtwissen in der Wissensgesellschaft - wie gehen wir damit um?

    Der kürzlich verstorbene Soziologe Ulrich Beck befasste sich 2007 mit einem Phänomen der Wissensgesellschaft: dem Nichtwissen. Auch die Wirtschaft steht vor einem Problem: Wie gehen Unternehmen mit Wissenslücken um? Wie stellen Entscheider überhaupt fest, dass es Wissenslücken gibt? Big Data und Ubiquitous Communication vergrößern Risiken. Der NIMIRUM-Fachartikel diskutiert neue Strategien.

  • Was tun, da Informationen auch weiterhin nicht immer und überall verfügbar sind?

    Auch im digitalisierten Informationszeitalter sind Informationen nicht immer und überall erhältlich. Die für ein sensibles Projekt nötige Informationstiefe wird durch eine einfache Desktop-Recherche selten erreicht. Welche anderen Wege gibt es, und wie müssen sich professionelle qualitative Researcher neu aufstellen?

  • ​Keiner kann alles wissen – aber wer weiß es dann?

    Wir wissen mittlerweile alle recht gut, dass wir nie so viel wissen können, wie wir wissen wollen. Privat fragen wir Freunde. Im Berufsleben ist das nicht so einfach. Oft sind Suchmaschinen unser bester Freund. Das muss nicht sein, meint Anja Mutschler, Managing Partner von NIMIRUM. Das Leipziger Unternehmen bildet aus 350 handverlesenen Wissenschaftlern und Experten projektbezogen Wissens-Hubs.

  • Logistik der Zukunft: Die 5 großen Trends

    Von Zeiten der Postkutsche bis heute bleibt die Logistik ein wichtiges Thema, aber auch ein hartes Geschäft. Wie wird in Zukunft zugestellt? Selbst fahrende Autos, Roboter, Drohnen? NIMIRUM stellt die 5 großen Trends vor, die für die Logistik der Gegenwart und der Zukunft

  • Was soll Nachhaltigkeit sein? Neue Antworten aus der Wissenschaft

    Unternehmen, Agenturen und Bürger fragen sich: Was wird von uns erwartet, wenn es um Nachhaltigkeit geht? Welche Standards gibt es, und was bringt das? Nachhaltigkeit ist ein politisches Projekt auf wissenschaftlicher Grundlage. Wissenschaft aber entwickelt sich ständig weiter. NIMIRUM-Expertin Dr. Hermuth-Kleinschmidt zeigt anlässlich des SISI-Symposiums des BMBF 2016 Trends und Entwicklungen.

  • “What is the role of humans?” – Tech people and people people talking translation at TEF2016

    Technological change is turning the world of translation upside down. Client expectations are changing, which leads to the emergence of new job profiles and tasks. What is in store for translation in a multilingual, communication-oriented world? Visions and tools were discussed at the EU Commission's Translating Europe Forum 2016. A comment by NIMIRUM Managing Partner, Dr Christophe Fricker.

  • ​Wer schützt meine Daten? Datensicherheit in der Industrie 4.0

    Industrie 4.0 und das Internet of Things, nichts funktioniert ohne Daten. NIMIRUM-Experte Winfried Beyer klärt in unserem Artikel die wichtigsten Fragen zu Datenverlust, Datensicherheit und beantwortet auch die wichtigste Frage: Wie kann ich meine Daten schützen?

  • Journalismus und Gesellschaft - Reflexionen des LSOM-Dozenten Dr. Tobias D. Höhn

    Wer sich heute für den Journalismus entscheidet, hat klare Vorstellungen – aber auch Fragen: an Medienhäuser, an die Öffentlichkeit, an sich selbst. Studierende des intern. Masterstudiengangs New Media Journalism (NMJ) haben sich zum Auftakt an der Leipzig School of Media (LSOM) in einer Übung journalistisch mit dem Thema Journalismus auseinandergesetzt. Dazu Studiengangsleiter Dr. Tobias D. Höhn.