Es gab ein Feuerwerk an Datenstücken und Interactives rund um die Fußball-WM der Männer in Brasilien: Gut zu beobachten war, wie die New York Times ihre Muskeln spielen ließ und ein Stück nach dem anderen veröffentlichte – und nicht zuletzt in den Liveblogs direkt Datenvisualisierungen einbaute.
Hier im Blog habe ich 21 Visualisierungen und interaktive Stücke zum Thema gesammelt. Handwerklich sind einige von ihnen grandios. Aber wirklich vorher Unbekanntes oder Erkenntnisreiches, etwas, das eine neue Sicht der Dinge lieferte, habe ich keines entdeckt.
Vornehmlich ging es rein um das Sportereignis an sich; nicht um ökonomische, politische oder soziale Themen, die im Zusammenhang mit dem Event stehen. Wie wäre es mit Stücken zu Geldmaschine Fifa, zu Korruption, zu Einnahmen und Ausgaben des Staates Brasilien, über Reisewege der Fans inklusive C02-Ausstoß usw. usf. gewesen?
Aber es ging eben nur um das Spiel, vielleicht auch Ausdruck davon, dass in den Redaktionen viele Fans sitzen. Neben einer Liste aller Spieler diente als zweite vorwiegend verwendete Datenquelle die Firma Opta (zur Messung von Daten bei Fußballspielen habe ich im Blog vor einigen Jahren hier geschrieben). Einen Diskurs über die Qualität dieser Daten oder ein Hinterfragen der Datengenese des Quasi-Monopolisten ist mir nicht bekannt; das gilt auch für die Daten der FIFA. (Update: In einem Kommentar unten wird auf diesen Text hingewiesen: „6 Gründe warum Spiegel Onlines ‚Fussballdaten‘ problematisch sind“.)
Als weitere Quelle wurde dann noch Twitter verwendet, etwa in diversen Karten. CartoDB veröffentlichte während der WM ein entsprechendes Tool „Twitter Maps„, dessen Ergebnis optisch opulent aussieht, aber eben inhaltlich nur flach sein kann, weil Sammlungen von Tweets keine qualitativen Datensätze sind – mehr als Datenporno kann dann oft nicht rauskommen. Und was bitte ist daran überraschend, dass beim Erzielen eines Tores viele Leute darüber twittern? Etwa soviel, wie dass viele Leute in der Halbzeit auf die Toilette gehen – siehe die „Spülanalyse“ der Berliner Wasserwerke.
Es gab zwar viel Häme für Nate Silver, weil sein Vorhersagemodell recht kläglich abschnitt. Doch ist es selbstverständlich viel einfacher und risikoloser im Nachhinein Daten zu nehmen und daraus Erfolg sowie Scheitern herauszulesen. Dabei droht dann die altbekannte Gefahr des Gleichsetzens von Korrelation und Kausalität. Siehe beispielsweise dieses Stück über die Laufwege von Torhütern: Hier wird zumindest unbeabsichtigt impliziert, dass der deutsche Torwart Manuel Neuer, weil er den größten Radius hatte, der beste Torhüter sei.
In die gleiche Richtung gehen Heatmaps und ähnliches, die suggerieren, damit ließe sich der Erfolg bzw. Nichterfolg nachvollziehen. Doch ist aus dem gleichen Grund, warum Nate Silver im Vorhinein keine gute Prognosen liefern konnte, im Nachhinein keine alles erklärende Formel zu finden: Ein Fußballspiel ist wesentlich komplexer und dynamischer als etwa ein Baseballspiel. Und in der Regel haben die Zuschauer des Spiels selber erkannt, welche Mannschaft besser war und aus welchen Gründen. Diese Wahrnehmung kann man mit Heatmaps und Rankings dann noch unterfüttern, aber eine wirkliche Neuigkeit berichtet man nicht. Die alleinige Wiedergabe und das Vergleichen von quantitativen Angaben über Ballbesitz, Laufwege und Passgenauigkeit kann es nicht sein.
Wirklichen Mehrwert auf Basis dieser Daten könnten Taktikanalysen bieten. Die NYT hat beispielsweise mit zusammengesetzten Standbildern versucht, Spielzüge aufzuzeigen. Technisch simpel, aber effektiv, hat das Project BABB des britischen Telegraph Taktikanalysen geliefert bzw. Fehler aufgezeigt (siehe Bild oben). Dies in ein interaktives Format zu übersetzen, wäre eine lohnende Herausforderung, die zu wesentlich gehaltvolleren Stücken führen könnte. Übrigens scheint die deutsche Mannschaft offenbar so eine Art Tool einzusetzen: Warum gab es kein Datenstück über oder mittels der Software Match Insights von SAP? (Siehe Video unten.)
Insgesamt waren rund um die Fußball-WM in datenjournalistischer Hinsicht die Phänomene zu beobachten, die Alberto Cairo neulich in seinem lesenswerten Text „Data journalism needs to up its own standards“ feststellte:
- Data and explanatory journalism cannot be done on the cheap.
- Data and explanatory journalism cannot be produced in a rush.
- Part of your audience knows more than you do.
- Data journalists cannot survive in a cocoon.
Ein Kommentar zur problematischen Datengrundlage des Spiegel-Online Tools (und damit des Rückgriffs auf OPTA), gibt es übrigens hier: http://bretterblog.wordpress.com/2014/06/16/netzschau-spezial-6-grunde-warum-spiegel-onlines-fusballdaten-problematisch-sind/
Danke für den Hinweis.
Für mich gab es einen Artikel, der mich vom Hocker gehauen hat. Der war von 538 über Messi und für mich alles andere als langweilig.
http://fivethirtyeight.com/features/lionel-messi-is-impossible/
Danke für den Hinweis; kannte ich bislang nicht.
Ich habe mich in letzter Zeit zweimal mit Aspekten der Datenhuberei im Fußball beschäftigt, weil hier gezeigt wird, was alles falsch läuft, wenn sachfremde oder unsinnige Denkansätze eine zu große Rolle spielen http://www.deutschlandfunk.de/statistik-im-sport-ecken-werden-voellig-ueberbewertet.1346.de.mhtml?dram:article_id=287952
http://www.deutschlandfunk.de/kommentar-die-nerds-basteln-am-starkult.890.de.html?dram:article_id=291464
Das alles spricht nicht gegen die Daten und nicht gegen das Herumexperimentieren mit den Erkenntnissen, die man aus Ihnen ziehen kann. Sondern für einen anderen Ansatz im Umgang mit dem Material.
Danke für die Links.
Hey Lorenz,
die Qualitätsdebatte ist natürlich wichtig – und deshalb ist es auch gut, sie an möglichst vielen Orten zu führen. Danke also für die Anregungen!
Zur Datenquelle Opta: Wir haben den Opta-Daten nicht einfach blind vertraut, sondern sie oft mit eigenen Beobachtungen und anderen Datenquellen (vor allem der Fifa) abgeglichen. Hilfreich waren dafür auch die echt umfangreichen Metadaten bei Opta und der persönliche Kontakt, wenn Fragen auftauchten.
Wie wir unsere Indices berechnet haben, steht übrigens bei uns im Blog: http://spon.de/aeg5X Da wir es nicht mit einer Daten-Stichprobe, sondern mit einer Vollerhebung zu tun hatten, erübrigen sich einige statistischen Verfahren ja direkt. Aber da gibt es sicher noch Luft nach oben. Wir arbeiten dran.
Beste Grüße! che
Der Kommentar wäre eigentlich bei dem von mir verlinkten Text besser aufgehoben. Trotzdem Danke für den Kommentar.
Treffende Zusammenfassung! Wir hatten uns auch auf noch mehr und ‚deutlichere‘ Datenprojekte eingestellt für unser WorldCup-DDJ-Sammlung.
Persönlich hat es mich auch enttäuscht, dass nicht mehr Geschichten über die WM/FIFA/Brazilien-Hintergründe entstanden sind (außer vielleicht The WorldCup of Everything Else vom WSJ). Ansonsten haben wir nur sehr viel ähnliche und sich wiederholende Geschichten über Aufstellungen, Twitter-Hashtag-Auswertungen etc. gefunden.
Aus meiner Sicht noch am überraschendsten waren die Facebook-Sports Veröffentlichungen zu Flügen und Fan-Wanderung (die auch die NYTimes übernommen hat), da ich bisher nur sehr wenig Datenauswertungen von Facebook gesehen habe. Erscheint aber nicht unlogisch, dass es dort jetzt auch eine Datenabteilung gibt.
Dass es nicht mehr über die SAP-Software im Hintergrund des DFB zu hören/sehen gab, mag einfach daran liegen, dass der DFB nicht mehr darüber rausrücken wollte. Schließlich geht es hier um einen Wettbewerbsvorteil. Aber das hätten wir auch gerne gelesen.
In die gleiche Richtung geht der Artikel über das Holländische Team und die Oculus Rift – bei dem aber auch nicht mehr herüber kam, als die bloße Idee.
Genanntes Projekt findet sich übrigends hier: http://blogs.dw.de/innovation/world-cup-special/ – dort sind auch die gennanten Links und ein paar mehr zu finden.