Junokai Tipp der Woche KW 23 – 2023

Wie Daten täuschen können


Unser modernes Leben ist geprägt von Zahlen, Grafiken und Daten aller Art. Ganz egal, ob in den Medien, in der Wirtschaft, im Gesundheitswesen oder im Sport werden Daten für die Auswertung und Entscheidungshilfe bei Fragestellungen herangezogen. So gibt die Sportuhr dem Hobbyathleten heutzutage nutzerfreundlich aufbereitete Daten, wie Laufgeschwindigkeit, Puls, Regeneration und Leistungszonen an die Hand. Diese Daten waren bis vor einigen Jahren nur Profiathleten vorbehalten und sollen heute auch Amateure bei der effizienten und möglichst erfolgreichen Trainingsplanung unterstützen. Die gleiche Vorgehensweise hat schon deutlich früher Einzug in die Wirtschaft gehalten. Eine Grafik, die Tendenzen und prozentuale Verteilungen zeigt, gehört in nahezu jede PowerPoint Präsentation, um eine daten- und faktenbasierte Entscheidung zu ermöglichen. Denn die Daten lügen nicht, oder? Nun, es kommt darauf an. Folgend soll anhand von kleinen Beispielen aufgezeigt werden, wie die Aufbereitung von Daten in die Irre führen und damit die Entscheidungsfindung erschweren statt erleichtern kann.

Die Visualisierung von Daten ist eins der wichtigsten Tools für den Analysten, um komplexe und große Datensätze abnehmergerecht darzustellen. Doch lauern hier einige Stolpersteine, die wissentlich oder unwissentlich wortwörtlich ein falsches Bild zeichnen. Einer dieser Stolpersteine kann die technische Darstellung wie beispielsweise die Auswahl der Skalierung sein. Ein klein ausgewählter Achsenausschnitt von einem Tag lässt den Kurs einer Aktie sehr volatil erscheinen, während eine langfristige Betrachtung über Wochen, Monate und Jahre eine stabilere und eher kontinuierlichere Kurve aufzeigt. Ebenfalls häufig in aufbereiteten Daten anzutreffen sind die unterschiedlichen Skalierungen auf der Y-Achse. Dieser Stolperstein ist besonders spannend, wenn zwei Datensätze in einer Grafik dargestellt werden und der falsche Eindruck einer Korrelation entsteht.

Diese Darstellungsweise ist dann noch kritischer zu betrachten, wenn mit der Korrelation eine Kausalität belegt werden soll. Denn eins ist klar: Korrelation beweist keine Kausalität. Natürlich ist es heutzutage sehr leicht, in der Masse an Daten, die uns zur Verfügung stehen, eine Korrelation festzustellen. Als Menschen sind wir sehr gut darin, Zusammenhänge und Ähnlichkeiten um uns herum zu erkennen. Dabei verlassen wir uns intuitiv auf visuelle Effekte, sodass wir schnell eine Korrelation ausmachen und hieraus Schlüsse ziehen. Doch ist es nun Zufall oder eine echte Korrelation oder sogar Kausalität, dass die Anzahl der verliehenen Doktortitel im Fach Bauingenieurwesen in den USA zwischen 2000 und 2009 eine 95,86% Korrelation mit dem pro Kopf Verzehr von Mozzarella in der gleichen Zeit aufweist? Es gibt trotz dieser beeindruckenden Korrelation der beiden Datensätze bisher zumindest keinen nachgewiesenen kausalen Zusammenhang.  („Spurious Correlations“ Tyler Vigen) Gesunder Menschenverstand ist bei der Auswertung von Daten und der Aufbereitung in entsprechende visuelle Grafiken, aber auch als Nutzer beim Lesen dieser Daten das A und O. Die Wahrscheinlichkeit des Zufalls oder einer unglücklich gewählten Skalierung in Excel, die uns eine Kausalität vorgaukeln will, ist sehr hoch. Das gilt auch dann, wenn eine Grafik mit Beschriftungen der enthaltenen prozentualen Werte aufwartet. Die Visuelle Darstellung von Balken triumphiert in unserer visuell geprimten Wahrnehmung über die Angabe von Zahlen und kann so einen falschen Eindruck vermitteln.

Eine vermeintliche Lösung für das Problem der Darstellung und Auswahl von Daten bietet die schiere Menge an erhobenen Daten und die Nutzung von Lernalgorithmen. Big Data und Machine Learning sind Begriffe, die sich bereits seit einigen Jahren in unser tägliches Leben geschlichen haben. Komplizierte Algorithmen werden mit Datenmengen versorgt, trainiert und ziehen daraus wertvolle Insights. Besonders, wenn man nicht gerade Data Scientist ist, kann das kritische Infragestellen der Aussagen solcher Algorithmen schwerer sein. Die Qualität der Ergebnisse hängt auch bei der Verwendung von Algorithmen und Machine Learning stark von uns Menschen ab. Je qualitativ hochwertiger die Daten, die wir füttern, desto besser auch die Ergebnisse.

So gab es beispielsweise den Versuch, einen Algorithmus anhand von Bildern entscheiden zu lassen, ob Menschen bereits straffällig wurden oder nicht. Als Quellen wurden die Passbilder von Straftätern sowie randomisierte Bilder aus dem Internet verwendet. Diese fragwürdige Quellenauswahl sorgte dafür, dass der Algorithmus am Ende den überwiegenden Teil aller ernst schauenden Personen der Kategorie der Straftäter zugeordnet hat. Grund hierfür war der ernste Gesichtsausdruck auf den Passbildern der Straftäter, der im Gegensatz zu den lächelnden Menschen von Social Media stand und am Ende das Entscheidungskriterium für den Algorithmus darstellte. Der Algorithmus kann noch so raffiniert sein, werden die falschen Daten eingespeist, bleibt das Ergebnis: garbage in, garbage out.

Zur INTRE Newsletter Anmeldung

Daten bieten einen unglaublichen Mehrwert und gleichzeitig eine vermeintliche Sicherheit, die nicht besteht. Auch oder vielleicht sogar, gerade wenn gezeigte Grafiken und Diagramme noch so überzeugend wirken, ist es unbedingt notwendig, diese sehr genau zu betrachten und kritisch hinterfragen. Tauchen wir in den Bereich von Machine Learning und damit einhergehenden komplexen Lernalgorithmen ein, so scheint das kritische Hinterfragen hier deutlich schwerer. So ist nicht immer ersichtlich, wie der Computer seine Entscheidungen fällt. Umso wichtiger ist es an dieser Stelle die Datenbasis, die für das Trainern des Algorithmus genutzt wurden, genau zu hinterfragen. Besonders, wenn an den Ergebnissen weitreichende Entscheidungen hängen, sollte diesem Schritt besondere Aufmerksamkeit gewidmet werden.

Hier eine Auswahl an Fragen, die jeder Stellen kann, der mit Auswertungen konfrontiert wird:

  • Ist die gewählte Datenbasis maßgeblich für die Beantwortung der Fragestellung?
  • Wie ist die Skalierung von Grafiken gewählt? Startet die Y-Achse bei 0 oder weist diese nur einen bestimmten Ausschnitt aus und warum?
  • Verschleiert eine visuell beeindruckende Grafik lediglich eine mangelhafte Datenbasis?
  • Wie genau ist die Beschriftung der Grafiken gehalten und korrelieren diese mit den Balken und Verläufen?
  • Wird versucht eine Kausalität zu belegen und wenn ja ist diese rational nachvollziehbar?
  • Werden komplexe Systeme zur Auswertung herangezogen – bspw. Maschinelles Lernen: wie sorgsam wurden Trainingsdaten ausgewählt? Kann der Ersteller darlegen, wie der Algorithmus genau arbeitet und wie der Computer Entscheidungen fällt?

Carl T. Bergstrom & Jevin D West „Calling Bullshit – The Art of Scepticism in a Data-Driven World”

Dominikus Leicht – Consultant

junokai


Verschlagwortet mit , , , , , , .