Methoden – Datenjournalist

B117-Alarmismus in der SZ

Corona-Prognosen mit Pi-mal-Daumen-Daten

Über den möglichen Effekt der Corona-Mutante B117 auf den Pandemieverlauf in Deutschland gab die Süddeutsche Zeitung unlängst Prognosen ab. Diesen Teil des Stücks „Die unsichtbare Welle“ halte ich für Alarmismus. Wohlgemerkt geht es nicht darum, zu sagen, die Mutation B117 sei nicht ansteckender oder sie sei harmlos. Der Punkt ist: Ihr Effekt lässt sich schwer vorhersagen und die Herleitung der Szenarien der SZ steht auf wackeligen Füßen. (Die SZ recyclt die alarmistische Prognose zahlenmässig leicht entschärft in einem Beitrag (Paywall) von heute: „Die magische 50“. Der Spiegel veröffentlichte (Paywall) heute ebenfalls Modellrechnungen, die auf ähnlichen Annahmen wie die der SZ fußen.)

[Siehe Kommentar von zwei der Autoren unten.]

Um den Einwand vorwegzunehmen, dass die SZ im Text sehr wohl auf „Unsicherheiten“ hinweisen würde: Meiner Meinung nach ist es nicht Aufgabe von Journalismus, Spekulation zu betreiben. Wenn ein gewisses Maß an Unsicherheit herrscht, wenn etwas „ähnlich schwer zu kalkulieren“ ist, dann sollte man es besser einfach lassen. Prognosen sind nicht das Geschäft von Journalismus, geschweige denn die unterkomplexe Modellierung von Pandemieverläufen.

Denn so kommt es zu solch‘ Geraune: „Ohne einen verschärften Lockdown“ und ohne einen Impfeffekt, so die SZ, wäre „sogar eine Inzidenz von mehr als 1000 gegen Ende April möglich.“ Die Steilheit diese These wird dann noch in einem Diagramm präsentiert: So tritt das Problem der autoritativen Wirkung von Datenvisualisierungen ein. Die werden schnell als wahrhaftig wahrgenommen – noch mehr, wenn sie weitgehend kontextfrei auf Social Media zirkulieren. Darüber schrieb ich vor einigen Wochen – lustigerweise auch unter dem Titel „Die unsichtbare Welle“ – für den Freitag.

Gummimetrik Inzidenz

Die SZ legt ihren Prognosen den „R-Wert“ und die 7-Tagen-Inzidenz zugrunde. Beide Metriken sind hierzulande recht grobe Indikatoren für den Pandemieverlauf (siehe dazu diese Diskussion des R-Werts beim BR.) Warum sind sie grob? Weil sie beide einzig aus der Anzahl der positiven Tests abgeleitet werden: Wird weniger getestet, sinkt die Zahl der erkannten Infektionen; steigt die Zahl der Tests, steigt auch die Zahl der erkannten Infektionen.

Die unsichtbare Welle

Artikel für Wochenzeitung „der Freitag“ (Nr. 46, 12. Nov 2020)

Seit einem Dreivierteljahr gehört die Berichterstattung zu Corona nun dazu wie der Wetterbericht. Es ist normal geworden, dass in Nachrichtensendungen, Zeitungen und auf Websites die aktuellen Zahlen genannt und gezeigt werden. Daten-Dashboards, Diagramme und Karten finden sich allerorten. Sie sollen helfen, das Infektionsgeschehen abzubilden, Trends zu zeigen und politische Entscheidungen nachvollziehbar zu machen.

Dabei kommt diesen Diagrammen und Karten eine zweischneidige Rolle zu. Einerseits sind sie eben gut dafür geeignet, Verläufe sowie An- und Abstiege in Trends zu schildern: Die meisten Menschen sind mit einem auf Mustererkennung optimierten Sehapparat ausgestattet und können über solche Grafiken deutlich mehr Informationen aufnehmen als in der gleichen Zeit per Text oder gesprochenem Wort. Das Problem andererseits ist, dass die Informationen, die durch die Diagramme transportiert werden, schnell als wahr und aussagekräftig empfunden werden.

Weiterlesen bei „der Freitag“

Bad Practice

Wie der Tagesspiegel fahrlässig Fehlinformationen zu Corona verbreitet

[Update 26.10.20 – 08:00 Uhr: Dieser Beitrag wurde angesichts der nunmehr dritten Änderung, die der Tagesspiegel an seinem Artikel vornahm, ergänzt].

In Zeiten der Covid19-Pandemie, in der Daten – deren Analyse und Visualisierung – auch in der breiten Öffentlichkeit eine wohl kaum dagewesene Rolle spielen, kommt Datenjournalist*innen eine wichtige Rolle zu: Zugang zu Daten zu beschaffen, Ordnung in die Datenmengen zu bringen und diese auf Relevanz und Aussagekraft abzuklopfen, sind ureigene Aufgaben des Metiers.

Deswegen ist die Betrachtung von Beispielen, die nicht gelungen sind, hilfreich. Um andere dafür zu sensibilisieren, dass bei einem Themengebiet wie Corona, bei dem einiges an Verunsicherung herrscht, noch mehr Sorgfalt als sonst an den Tag gelegt werden sollte. Daten-Fehlinterpretationen können sich schnell als vermeintliche Gewissheiten verbreiten. Was kontraproduktiv ist.

Der Tagesspiegel meinte am Freitag, den 23.10.20, er sei dazu in der Lage, die Frage zu beantworten, die sonst niemand beantworten kann: „Wo sich die Menschen mit Corona infizieren“ [Die Überschrift lautet jetzt „Wo infizieren sich Menschen mit Corona?“.]“ Die Antwort darauf sei: „Die Menschen stecken sich vor allem zu Hause an.“ Quasi als Kronzeuge für diese Behauptung diente ein Diagramm des Robert Koch-Instituts (RKI), das in dessen Lagebericht (pdf) vom 20.10.2020 auf Seite 12 veröffentlicht wurde.

Zum Umgang mit der unklaren Datenlage beim Coronavirus

Versuch einer systematischen Übersicht zur Datenlage — Tabelle zu den Nr. mit Links

Der große Augenmerk, der in vielen Medien auf die Zahl der offiziell Infizierten gerichtete wird, ist problematisch. Genauso wie darauf beruhende Berechnung von Verdoppelungszeiträumen und Vergleiche der Zahlen verschiedenen Länder miteinander. Warum?

In einem Interview mit der Schwäbischen Zeitung (5.4.2020) fasst Klaus Meier, Professor für Journalistik an der Katholischen Universität Eichstätt, die Problematik gut zusammen:

„Ich würde gerne etwas aufgreifen, was einerseits toll gemacht, aber andererseits hochproblematisch ist: Das sind Formate, die Zahlen zur Pandemie aufbereiten — interaktive Grafiken, die super gemacht sind und die viele Nutzer auch stark interessieren. Aber das führt dazu, dass man diese Zahlen wie Tabellenstände im Sport miteinander vergleicht: Sind wir jetzt schon wie Italien oder Spanien? Wie schneiden die USA ab? Wie stehen die Bundesländer und Landkreise in Deutschland da? Wer überholt wen? Die Zahlen werden für bare Münze in Echtzeit genommen. Aber auch wenn die Zahlen sauber recherchiert sind, können sie gar nicht das leisten, was man von ihnen erwartet: nämlich ein getreues Abbild der Wirklichkeit zu sein. … Man sollte immer wieder darauf hinweisen, welchen Hintergrund und welche Schwächen diese Zahlen haben. Journalisten sollten diese Zahlenfixiertheit hinterfragen und die Gültigkeit der Zahlen relativieren. Und Mediennutzer sollten sich nicht nur über Zahlen oder Tabellen informieren, sondern lieber zweimal am Tag längere Texte lesen, die diese Zahlen einordnen.“

Zum Umgang mit der unklaren Datenlage beim Coronavirus weiterlesen

Das Ding mit dem Journalismus

»Es braucht einen neuen Journalismus. Den Journalismus der Dinge.« So
steht es in der Einleitung des heute erschienenen »Manifests für einen Journalismus der Dinge — Strategien für den Journalismus 4.0«. Es handelt sich um Version 1 und will ein Diskussionsvorschlag sein.

Auf den ersten Blick ist klar, dass »Journalismus der Dinge« auf das »Internet der Dinge« anspielt (IoT — Internet of Things). Folglich wird IoT im zweiten Satz der Präambel des Manifests entsprechend prominent angeführt. Es wird aber auch auf den ersten Blick klar, dass dieses Wortspiel nicht weit trägt. Genauso wie niemand vom »Journalismus der Kamera«, »Journalismus der Stifte« oder »Journalismus der Lautsprecher« spricht, ist auch bei Dingen der Genitiv fehl am Platz — Journalismus wird nicht von Dingen gemacht. Er wird von Menschen gemacht, die dafür Dinge verwenden, um zum Beispiel über Dinge zu berichten.

Abgesehen von der in meinen Augen untauglichen Begrifflichkeit selbst, machen die zehn Thesen des Manifests auch deutlich, dass dieser »Journalismus der Dinge« kaum klar zu definieren ist: Vielmehr ist es der Versuch, diverse bereits bestehende Methoden und Genres von Journalismus unter einen Hut zu bringen. Was legitim wäre, böte es ein Mehrwert oder würde es helfen, ein bislang unbekanntes Phänomen oder Methodenset zu beschreiben. Damit etwa im Diskurs über Journalismus als gesellschaftliche Kraft neue Perspektiven aufgemacht werden können oder die Selbstverständigung besser gelingt.

Netzwerk AfD: Eine Grafik will zu viel

Die taz hat in Kooperation mit Partnern eine Reihe „Netzwerk AfD“ gestartet. Die interaktive Grafik zu der Recherche wurde mit zwei externen Entwicklern zusammen umgesetzt. Gefördert wurde das Vorhaben durch die Otto-Brenner-Stiftung. 20.000 Euro, so war es im taz Innovationsreport zu lesen, betrug das Budget.* Bereits im März 2018 hatte Zeit Online einen längeren Bericht über den rechtsradkikalen Hintergrund diverser Mitarbeiter der AfD-Bundestagsfraktion gebracht; das taz Projekt ist also kein „Scoop“. Dennoch ist die systemtatische Recherche der taz & Co hilfreich und wichtig. Bislang ist die Datenbank, die dabei entstanden ist, im Sinne von Open Data nicht zugänglich. Die Grafik weist aus meiner Sicht einige konzeptionelle Schwächen auf:

Netzwerk AfD: Eine Grafik will zu viel weiterlesen

Die Vermessung des TV-Programms

Das „TV Meter“ – ein nicht realisiertes Datenjournalismusprojekt aus meiner Schublade

Gefühlt besteht das Angebot des öffentlich-rechtlichen Fernsehens aus Quizshows, Krimis, Sport und Schlagersendungen plus etwas Nachrichten, Politiksendungen sowie Talkshows.

Derlei Gefühle ließe sich recht einfach mit Zahlen unterfüttern: Das Fernsehprogramm kommt seit eh und je in Tabellenform daher. Vor allem die ARD macht es einfach, ihr Programm auszulesen:

http://programm.ard.de/TV/Programm/Sender?datum=09.01.2018&hour=0&sender=28106

Unter dieser URL findet sich das Programm der ARD für einen Tag. Die Struktur der URL macht deutlich, dass es simpel sein dürfte, zurückliegende Tage bzw. zukünftige aufzurufen. Offenbar scheint das komplette Programm über den Parameter „datum“ seit 2011 und 40 Tage im Voraus abrufbar zu sein.

Auch deutet der Parameter „sender“ in der URL an, dass sich andere Sender abrufen lassen: Neben allen 3. Programmen finden sich auch die Programme von Phoenix, arte, Kika, One, ARD-alpha und tagesschau24.

Die Vermessung des TV-Programms weiterlesen

Algorithmic Accountability: Der nächste Schritt für den Datenjournalismus

Algorithmic Accountability ist ein im Entstehen begriffenes Subgenre des Datenjournalismus. Der Ausdruck wurde durch den Journalismusforscher Nicholas Diskopoulus etabliert. Sein Bericht „Algorithmic Accountability Reporting: On the Investigation of Black Boxes“ erschien Anfang 2014. Er skizziert eine neue Aufgabe für Journalisten: Sie sollten Softwaresysteme als Gegenstände der Berichterstattung verstehen. Dabei kann reine Transparenz nicht das Ziel sein – meistens hilft es nicht, nur auf den Programmiercode der Software so genannter Künstlicher Intelligenz (AI) oder Machine Learning zu schauen. Ohne die Datensätze, mit denen diese Systeme trainiert werden, kann ihre Funktionsweise nicht verstanden werden. Deshalb setzt Algorithmic Accountability auf Nachvollziehbarkeit.

Im Unterschied zu „traditionellem“ Datenjournalismus, der mit manuell oder automatisiert gesammelten Datensätzen operiert, kümmert sich Algorithmic Accountability darum, wie Daten verarbeitet und/oder generiert werden. Ein gutes Beispiel ist die Arbeit von Pro Publica in der Serie „Machine Bias“ aus dem Jahr 2016. Unter anderen untersuchte die Redaktion eine im Strafprozesserfahren der USA weitverbreitetete Software, die bestimmt, ob ein Verurteilter Bewährung erhalten sollte. Sie fand heraus, dass diese Software Rassismus reproduziert. Die verantwortliche private Softwarefirma war nicht bereit, die Funktionsweise der Software im Detail offenzulegen. Pro Publica gelang es durch eine Informationsfreiheitsanfrage, Daten zu Verurteilen zu erhalten und betrieb auf dieser Grundlage eine Art „Reverse Engineering“ (Nachkonstruktion) des Softwaresystems.

Algorithmic Accountability ist der nächste logische Schritt in einer Welt des automatisierten Entscheidens (Automated Decision Making – ADM): Demokratische Gesellschaften, die vermehrt durch und mit Software regiert werden, müssen in der Lage sein, solche „Maschinen“ zu verstehen und kontrollieren.

—

Deutsche Fassung meines englischsprachigen Beitrags im Data-Driven Advent Calender von Journocode. Ein ausführlicher Text von mir zu Algorithmic Accountability findet sich bei der Bayerischen Landesmedienanstalt: „Rechenschaft für Rechenverfahren“

Wie es dem Gesichtserkennungs-Stück des Morgenpost-Interaktivteam misslingt, großartig zu sein

Die eigentlich gut gemachte Auseinandersetzung mit Gesichterkennungs-Algorithmen krankt an einer mangelnden Beschäftigung mit dem Datenschutz des eingesetzten Microsoft-Dienstes (UPDATE: Mittlerweile wird deutlich auf die Datenübermittlung hingewiesen).

Es könnte wegweisend für ein ein neues Genre des Datenjournalismus sein: Mit einem Stück zur Gesichtserkennung greift das Interaktiv-Team den Hype um „Künstliche Intelligenz“ auf und macht sie praktisch erfahrbar. Dabei kommt eben auch die lokale Komponente des Kameraüberwachung mit Gesichterkennung der Bundespolizei am Bahnhof Berlin Südkreuz zum tragen, die in der Hauptstadt für einige Debatte sorgt.

Die Präsentation, bei der rund 80 Mitglieder der Morgenpost-Redaktion sich mit ihrem Gesicht (und Alter) für einen Selbstversuch hergeben, ist schlicht eine gute Idee: Sie erlaubt anhand der Portraits zu erahnen, warum der verwendete Gesichterkennungs-Algorithmus möglicherweise Probleme hatte, das Alter der Person richtig einzuschätzen.

Der Höhepunkt des Beitrags ist aber die Möglichkeit, über die eigene Webcam/Smartphone-Kamera sein eigenes Gesicht zu übermitteln und eine Alterseinschätzung zu erhalten. Damit wird der Ansatz, dass für die Wirkung eines datenjournalistischen Werks die Ermöglichung des persönlichen Bezugs wichtig ist, gelungen eingelöst.

Leider ist es diese eigentlich tolle Idee, an der das Stück scheitert: Die Morgenpost setzt einen Dienst von Microsoft ein. Das ist an sich nicht verwerflich. Doch klärt die Redaktion an dieser Stelle kaum auf, was eigentlich mit den Daten des „Daten-Selfies“ geschieht, die dort über die Kamera erfasst werden. Zwar wird gleich unterhalb des Aufnahmeknopfs auf die Datenschutzerklärung des Microsoft-Dienstes verwiesen. Doch die scheint nicht mal die Redaktion gänzlich verstanden zu haben. Wie es dem Gesichtserkennungs-Stück des Morgenpost-Interaktivteam misslingt, großartig zu sein weiterlesen

Müssen Datenjournalisten programmieren können?

Mit diesem etwas vereinfachten Statement von mir trat Natalia Karbasova auf Twitter eine kleine Diskussion zu Datenjournalismus (DDJ) und Programmierkünsten los, die zeigt, dass diese Frage alles andere als beantwortet ist. Vielleicht, weil wir hierzulande noch keine klare Vorstellung davon haben, wie guter Datenjournalismus entstehen kann. Und was er überhaupt ist.

Die Diskussion ums Programmieren lohnt also. Bisher verläuft sie allerdings ziemlich schwarz-weiß, scheint mir: Wer Programmieren kann, ist dafür, der Rest ist dagegen. Egal, ob er tatsächlich nicht programmieren will, es sich nicht zutraut, oder einfach keine Chance sieht, die Zeit fürs Lernen und Ausprobieren aufzubringen.

Ich starte hier den Versuch, die Diskussion aufs Inhaltliche zu lenken: Wo und wie hilft es Datenjournalisten konkret, coden zu können?
Müssen Datenjournalisten programmieren können? weiterlesen