Datenjournalismus – Datenjournalist

Klimadatenjournalismus

Für viele Datenjournalistinnen und -journalisten hierzulande wird der kommende Sommer wohl wenig Verschnaufpausen bieten. Das Ende der Pandemie (zumindest in Europa) ist zwar in Sicht, wenn auch nicht vollends ausgemachte Sache. Doch in den Datenteams in den Redaktionen in Deutschland dürften sich bereits viele Blicke auf die Wahlen im Herbst richten. In dem dazugehörigen Wahlkampf spielt Klimapolitik schon jetzt eine wesentliche Rolle.

Die Covid19-Pandemie bedeutete eine Zäsur für den Datenjournalismus. Markierten die Afghanistan War Logs von 2010 quasi die Geburtsstunde des data-driven-journalism, hat er es zehn Jahre später tagtäglich auf die Start- und Titelseiten geschafft. Waren zuvor Graphen und Tabellen nur im Sport und bei der Börse sowie Kartenvisualisierungen im Wetter täglich wiederkehrender Bestandteil, sind jetzt Dashboards, Graphen, Diagramme und Karten zu Infektionszahlen & Co. normal geworden. Zudem finden sich mittlerweile ellenlange, über viele Monate angewachsene und verfeinerte Datendossiers vollgepfropft mit Diagrammen auf diversen Nachrichtenwebsites.

Angesichts der erfreulichen Klickzahlen für die Datenstücke wird sich in Redaktionen sicher Gedanken darüber gemacht, was demnächst an die Stelle der Infektionszahlen treten könnte. Es liegt auf der Hand, dass Klimadaten-Dashboards ein möglicher Ersatz wären. Doch die hohe Aufmerksamkeit für die Pandemiedaten rührt daher, dass es um Fragen von Gesundheit, gar um Leben und Tod ging – des eigenen und des der eigenen Nächsten. Zudem hingen unmittelbare, spürbare Einschränkungen von der Entwicklung der Zahlen ab.

Auch wenn die Klimakrise mit jedem Einzelnen im Zusammenhang steht, ist es doch deutlich schwerer den unmittelbaren Bezug abzubilden und erfahrbar zu machen. Das ist die Crux der Klimakrisenkommunikation: Seit Jahrzehnten ist bekannt, dass der Klimawandel kommt, doch passiert ist zu wenig – auch weil die Folgen scheinbar weit in der zeitlichen Ferne liegen und die Klimawandelphänomene über den gesamten Globus scheinbar unzusammenhängend verteilt sind.

B117-Alarmismus in der SZ

Corona-Prognosen mit Pi-mal-Daumen-Daten

Über den möglichen Effekt der Corona-Mutante B117 auf den Pandemieverlauf in Deutschland gab die Süddeutsche Zeitung unlängst Prognosen ab. Diesen Teil des Stücks „Die unsichtbare Welle“ halte ich für Alarmismus. Wohlgemerkt geht es nicht darum, zu sagen, die Mutation B117 sei nicht ansteckender oder sie sei harmlos. Der Punkt ist: Ihr Effekt lässt sich schwer vorhersagen und die Herleitung der Szenarien der SZ steht auf wackeligen Füßen. (Die SZ recyclt die alarmistische Prognose zahlenmässig leicht entschärft in einem Beitrag (Paywall) von heute: „Die magische 50“. Der Spiegel veröffentlichte (Paywall) heute ebenfalls Modellrechnungen, die auf ähnlichen Annahmen wie die der SZ fußen.)

[Siehe Kommentar von zwei der Autoren unten.]

Um den Einwand vorwegzunehmen, dass die SZ im Text sehr wohl auf „Unsicherheiten“ hinweisen würde: Meiner Meinung nach ist es nicht Aufgabe von Journalismus, Spekulation zu betreiben. Wenn ein gewisses Maß an Unsicherheit herrscht, wenn etwas „ähnlich schwer zu kalkulieren“ ist, dann sollte man es besser einfach lassen. Prognosen sind nicht das Geschäft von Journalismus, geschweige denn die unterkomplexe Modellierung von Pandemieverläufen.

Denn so kommt es zu solch‘ Geraune: „Ohne einen verschärften Lockdown“ und ohne einen Impfeffekt, so die SZ, wäre „sogar eine Inzidenz von mehr als 1000 gegen Ende April möglich.“ Die Steilheit diese These wird dann noch in einem Diagramm präsentiert: So tritt das Problem der autoritativen Wirkung von Datenvisualisierungen ein. Die werden schnell als wahrhaftig wahrgenommen – noch mehr, wenn sie weitgehend kontextfrei auf Social Media zirkulieren. Darüber schrieb ich vor einigen Wochen – lustigerweise auch unter dem Titel „Die unsichtbare Welle“ – für den Freitag.

Gummimetrik Inzidenz

Die SZ legt ihren Prognosen den „R-Wert“ und die 7-Tagen-Inzidenz zugrunde. Beide Metriken sind hierzulande recht grobe Indikatoren für den Pandemieverlauf (siehe dazu diese Diskussion des R-Werts beim BR.) Warum sind sie grob? Weil sie beide einzig aus der Anzahl der positiven Tests abgeleitet werden: Wird weniger getestet, sinkt die Zahl der erkannten Infektionen; steigt die Zahl der Tests, steigt auch die Zahl der erkannten Infektionen.

Datenboulevardjournalismus der taz zu Corona

Erläuterungen und Grafiken in groß unten

Nach fast einem Jahr Corona-Datenberichterstattung ist weiterhin zu beobachten, dass in zahlreichen Redaktionen viel Halbinformiertheit über Infektionszahlen und Co. verbreitet ist und folglich auch von ihnen verbreitet wird. Zur Klarheit und Beruhigung im Diskurs über die Lage trägt das nicht bei; vielmehr schürt es Aufgeregtheit und Verwirrung.

Jüngst lieferte die „taz“ ein anschauliches Beispiel dafür. „Die mutierte Kurve“ lautet der Titel der Printausgabe vom 13.1.21, der auf der gleichen Seite durch einen Kommentar und eine dazugehörige Seite 3 begleitet wurde. Die „neue Coronavariante“, so die taz im Kurztext zur Titelgrafik, sei besonders ansteckend. Gemeint ist wohl die Mutante B.1.1.7 und nicht die in Südafrika entdeckte B.1.351. So im Ungefähren geht es weiter. Es sei umstritten, ob die in Kurve der erkannten Infektionen in Irland in der Titelgrafik etwas mit besagter Mutante zu tun habe. Sicher sei, wenn diese hierzulande vermehrt auftrete, würden die bisherigen Maßnahmen nicht ausreichen. Dazu später mehr.

Die unsichtbare Welle

Artikel für Wochenzeitung „der Freitag“ (Nr. 46, 12. Nov 2020)

Seit einem Dreivierteljahr gehört die Berichterstattung zu Corona nun dazu wie der Wetterbericht. Es ist normal geworden, dass in Nachrichtensendungen, Zeitungen und auf Websites die aktuellen Zahlen genannt und gezeigt werden. Daten-Dashboards, Diagramme und Karten finden sich allerorten. Sie sollen helfen, das Infektionsgeschehen abzubilden, Trends zu zeigen und politische Entscheidungen nachvollziehbar zu machen.

Dabei kommt diesen Diagrammen und Karten eine zweischneidige Rolle zu. Einerseits sind sie eben gut dafür geeignet, Verläufe sowie An- und Abstiege in Trends zu schildern: Die meisten Menschen sind mit einem auf Mustererkennung optimierten Sehapparat ausgestattet und können über solche Grafiken deutlich mehr Informationen aufnehmen als in der gleichen Zeit per Text oder gesprochenem Wort. Das Problem andererseits ist, dass die Informationen, die durch die Diagramme transportiert werden, schnell als wahr und aussagekräftig empfunden werden.

Weiterlesen bei „der Freitag“

Bad Practice

Wie der Tagesspiegel fahrlässig Fehlinformationen zu Corona verbreitet

[Update 26.10.20 – 08:00 Uhr: Dieser Beitrag wurde angesichts der nunmehr dritten Änderung, die der Tagesspiegel an seinem Artikel vornahm, ergänzt].

In Zeiten der Covid19-Pandemie, in der Daten – deren Analyse und Visualisierung – auch in der breiten Öffentlichkeit eine wohl kaum dagewesene Rolle spielen, kommt Datenjournalist*innen eine wichtige Rolle zu: Zugang zu Daten zu beschaffen, Ordnung in die Datenmengen zu bringen und diese auf Relevanz und Aussagekraft abzuklopfen, sind ureigene Aufgaben des Metiers.

Deswegen ist die Betrachtung von Beispielen, die nicht gelungen sind, hilfreich. Um andere dafür zu sensibilisieren, dass bei einem Themengebiet wie Corona, bei dem einiges an Verunsicherung herrscht, noch mehr Sorgfalt als sonst an den Tag gelegt werden sollte. Daten-Fehlinterpretationen können sich schnell als vermeintliche Gewissheiten verbreiten. Was kontraproduktiv ist.

Der Tagesspiegel meinte am Freitag, den 23.10.20, er sei dazu in der Lage, die Frage zu beantworten, die sonst niemand beantworten kann: „Wo sich die Menschen mit Corona infizieren“ [Die Überschrift lautet jetzt „Wo infizieren sich Menschen mit Corona?“.]“ Die Antwort darauf sei: „Die Menschen stecken sich vor allem zu Hause an.“ Quasi als Kronzeuge für diese Behauptung diente ein Diagramm des Robert Koch-Instituts (RKI), das in dessen Lagebericht (pdf) vom 20.10.2020 auf Seite 12 veröffentlicht wurde.

Interview: „Spezialisten sind rar“

Der „Drehscheibe“ (aus Lokalredaktionen für Lokalredaktionen) habe ich ein Interview zum Thema Automatisierung im Lokaljournalismus gegeben (Anlass war ein Text von mir von 2017). Auszug aus dem Interview:

„Was sind die größten Hindernisse für die Verlage, voll in den Datenjournalismus bzw. die Automatisierung einzusteigen?

Wagnisbereitschaft und Talente. Die erfolgreiche Formel, wie solch ein Dienst aussehen könnte, hat bislang niemand gefunden – sonst würden wir davon sicher zahlreiche Varianten sehen. Wirklich neue Formate zu entwickeln, würde zum einen Wagnisbereitschaft und Investionsausdauer für einige Jahren bei den Verlagen erfordern. Und es bräuchte dafür die Kompetenzen. Sowohl in den Führungsetagen, um so etwas zu ermöglichen und fördern – als auch in den Redaktionen. Die Ausbildungsmöglichkeiten, die Spezialisten für den Journalismus im Zeitalter der digitale Transformation liefern könnten, sind in Deutschland rar. Die wenigen Talente in dem Sektor, die sich meist aus Eigeninitiative heraus profilieren konnten, machen Karriere bei den wenigen Häusern, die so etwas sowohl wertschätzen als auch entsprechend interessante Herausforderungen anbieten. Dieser ‚brain drain‘ lässt für Regional- und Lokalzeitungsverlage wenig übrig.„

Das komplette Interview gibt es hier.

10 Jahre Datenjournalismus: Gemischte Gefühle

Mit gemischten Gefühlen schaue ich auf das Genre Datenjournalismus. Ich selbst bin in dem Bereich gar nicht mehr aktiv. Einzig gebe ich ab und zu noch Trainings zum Thema. So ist es vielleicht kein Wunder, dass mich in letzter Zeit keine Anfragen mehr erreichen, ob ich für ein Interview für eine Bachelor- oder Masterarbeit zur Verfügung stehe. Für einige Jahre habe ich – wie auch andere Kolleg/innen – solch Interviews etwa einmal im Monat gegeben. Überhaupt dürfte kaum ein journalistisches Genre in jüngster Zeit so dicht durch wissenschaftliche Forschung begleitet worden sein. Das Abklingen der Anfragen mag aber vielleicht auch ein Zeichen dafür sein, dass sich das Thema abgenutzt hat (wobei erst unlängst eine lesenswerte, wenn vielleicht auch ernüchternde Masterarbeit (pdf) dazu erschien).

Aber selbstverständlich betrachte ich die Vorgänge in dem Genre weiter und freue mich über ausgezeichnete Arbeiten wie dieses Stück zum Irrsinn der geplanten Bahnhofsverlegung in Hamburg-Altona. Tatsächlich liegen mir mittlerweile Beiträge wie die Experimente rund um Deep Fakes von SRF Data aber mehr. So würde ich argumentieren, dass diese Art von Journalismus im Digitalen mit Datenjournalismus (methodisch) verwandt ist. Doch befasst sich Algorithmic Accountabilty Reporting mehr mit den Auswirkungen von Softwaresystemen – statt allein auf Datensätze zu schauen.

Als ich 2010 dieses Blog begann, lag der Start des Datablogs des Guardian ein Jahr zurück. Die Berichterstattung zu den „Afghanistan Warlogs“, die auf der ersten großen Wikileaks-Enthüllung fußte, zeigte bald auf, was Datenjournalismus kann. Tools begannen zu sprießen. Neben Google Fusion Tables – das nun bezeichnerweise Ende 2019 eingestellt werden soll – etablierten sich Player wie CartoDB oder auch DataWrapper (seit 2012). Die auf statistische Operationen spezialisierte Programmiersprache R machte Karriere, Google/OpenRefine erschien und nicht zu vergessen: Google Spreadsheets. Der Traum von der eierlegenden Wollmilchsau scheint nun mit Workbench fast wahrhaftig zu werden.

10 Jahre Datenjournalismus: Gemischte Gefühle weiterlesen

Netzwerk AfD: Eine Grafik will zu viel

Die taz hat in Kooperation mit Partnern eine Reihe „Netzwerk AfD“ gestartet. Die interaktive Grafik zu der Recherche wurde mit zwei externen Entwicklern zusammen umgesetzt. Gefördert wurde das Vorhaben durch die Otto-Brenner-Stiftung. 20.000 Euro, so war es im taz Innovationsreport zu lesen, betrug das Budget.* Bereits im März 2018 hatte Zeit Online einen längeren Bericht über den rechtsradkikalen Hintergrund diverser Mitarbeiter der AfD-Bundestagsfraktion gebracht; das taz Projekt ist also kein „Scoop“. Dennoch ist die systemtatische Recherche der taz & Co hilfreich und wichtig. Bislang ist die Datenbank, die dabei entstanden ist, im Sinne von Open Data nicht zugänglich. Die Grafik weist aus meiner Sicht einige konzeptionelle Schwächen auf:

Netzwerk AfD: Eine Grafik will zu viel weiterlesen

Die Vermessung des TV-Programms

Das „TV Meter“ – ein nicht realisiertes Datenjournalismusprojekt aus meiner Schublade

Gefühlt besteht das Angebot des öffentlich-rechtlichen Fernsehens aus Quizshows, Krimis, Sport und Schlagersendungen plus etwas Nachrichten, Politiksendungen sowie Talkshows.

Derlei Gefühle ließe sich recht einfach mit Zahlen unterfüttern: Das Fernsehprogramm kommt seit eh und je in Tabellenform daher. Vor allem die ARD macht es einfach, ihr Programm auszulesen:

http://programm.ard.de/TV/Programm/Sender?datum=09.01.2018&hour=0&sender=28106

Unter dieser URL findet sich das Programm der ARD für einen Tag. Die Struktur der URL macht deutlich, dass es simpel sein dürfte, zurückliegende Tage bzw. zukünftige aufzurufen. Offenbar scheint das komplette Programm über den Parameter „datum“ seit 2011 und 40 Tage im Voraus abrufbar zu sein.

Auch deutet der Parameter „sender“ in der URL an, dass sich andere Sender abrufen lassen: Neben allen 3. Programmen finden sich auch die Programme von Phoenix, arte, Kika, One, ARD-alpha und tagesschau24.

Die Vermessung des TV-Programms weiterlesen

Algorithmic Accountability: Der nächste Schritt für den Datenjournalismus

Algorithmic Accountability ist ein im Entstehen begriffenes Subgenre des Datenjournalismus. Der Ausdruck wurde durch den Journalismusforscher Nicholas Diskopoulus etabliert. Sein Bericht „Algorithmic Accountability Reporting: On the Investigation of Black Boxes“ erschien Anfang 2014. Er skizziert eine neue Aufgabe für Journalisten: Sie sollten Softwaresysteme als Gegenstände der Berichterstattung verstehen. Dabei kann reine Transparenz nicht das Ziel sein – meistens hilft es nicht, nur auf den Programmiercode der Software so genannter Künstlicher Intelligenz (AI) oder Machine Learning zu schauen. Ohne die Datensätze, mit denen diese Systeme trainiert werden, kann ihre Funktionsweise nicht verstanden werden. Deshalb setzt Algorithmic Accountability auf Nachvollziehbarkeit.

Im Unterschied zu „traditionellem“ Datenjournalismus, der mit manuell oder automatisiert gesammelten Datensätzen operiert, kümmert sich Algorithmic Accountability darum, wie Daten verarbeitet und/oder generiert werden. Ein gutes Beispiel ist die Arbeit von Pro Publica in der Serie „Machine Bias“ aus dem Jahr 2016. Unter anderen untersuchte die Redaktion eine im Strafprozesserfahren der USA weitverbreitetete Software, die bestimmt, ob ein Verurteilter Bewährung erhalten sollte. Sie fand heraus, dass diese Software Rassismus reproduziert. Die verantwortliche private Softwarefirma war nicht bereit, die Funktionsweise der Software im Detail offenzulegen. Pro Publica gelang es durch eine Informationsfreiheitsanfrage, Daten zu Verurteilen zu erhalten und betrieb auf dieser Grundlage eine Art „Reverse Engineering“ (Nachkonstruktion) des Softwaresystems.

Algorithmic Accountability ist der nächste logische Schritt in einer Welt des automatisierten Entscheidens (Automated Decision Making – ADM): Demokratische Gesellschaften, die vermehrt durch und mit Software regiert werden, müssen in der Lage sein, solche „Maschinen“ zu verstehen und kontrollieren.

—

Deutsche Fassung meines englischsprachigen Beitrags im Data-Driven Advent Calender von Journocode. Ein ausführlicher Text von mir zu Algorithmic Accountability findet sich bei der Bayerischen Landesmedienanstalt: „Rechenschaft für Rechenverfahren“