B117-Alarmismus in der SZ

Corona-Prognosen mit Pi-mal-Daumen-Daten

Über den möglichen Effekt der Corona-Mutante B117 auf den Pandemieverlauf in Deutschland gab die Süddeutsche Zeitung unlängst Prognosen ab. Diesen Teil des Stücks „Die unsichtbare Welle” halte ich für Alarmismus. Wohlgemerkt geht es nicht darum, zu sagen, die Mutation B117 sei nicht ansteckender oder sie sei harmlos. Der Punkt ist: Ihr Effekt lässt sich schwer vorhersagen und die Herleitung der Szenarien der SZ steht auf wackeligen Füßen. (Die SZ recyclt die alarmistische Prognose zahlenmässig leicht entschärft in einem Beitrag (Paywall) von heute: “Die magische 50”. Der Spiegel veröffentlichte (Paywall) heute ebenfalls Modellrechnungen, die auf ähnlichen Annahmen wie die der SZ fußen.)

[Siehe Kommentar von zwei der Autoren unten.]

Eine der Prognosegrafiken aus der SZ

Um den Einwand vorwegzunehmen, dass die SZ im Text sehr wohl auf „Unsicherheiten“ hinweisen würde: Meiner Meinung nach ist es nicht Aufgabe von Journalismus, Spekulation zu betreiben. Wenn ein gewisses Maß an Unsicherheit herrscht, wenn etwas “ähnlich schwer zu kalkulieren“ ist, dann sollte man es besser einfach lassen. Prognosen sind nicht das Geschäft von Journalismus, geschweige denn die unterkomplexe Modellierung von Pandemieverläufen.

Denn so kommt es zu solch’ Geraune: “Ohne einen verschärften Lockdown” und ohne einen Impfeffekt, so die SZ, wäre “sogar eine Inzidenz von mehr als 1000 gegen Ende April möglich.” Die Steilheit diese These wird dann noch in einem Diagramm präsentiert: So tritt das Problem der autoritativen Wirkung von Datenvisualisierungen ein. Die werden schnell als wahrhaftig wahrgenommen – noch mehr, wenn sie weitgehend kontextfrei auf Social Media zirkulieren. Darüber schrieb ich vor einigen Wochen – lustigerweise auch unter dem Titel „Die unsichtbare Welle“ – für den Freitag.

Gummimetrik Inzidenz

Die SZ legt ihren Prognosen den “R-Wert” und die 7-Tagen-Inzidenz zugrunde. Beide Metriken sind hierzulande recht grobe Indikatoren für den Pandemieverlauf (siehe dazu diese Diskussion des R-Werts beim BR.) Warum sind sie grob? Weil sie beide einzig aus der Anzahl der positiven Tests abgeleitet werden: Wird weniger getestet, sinkt die Zahl der erkannten Infektionen; steigt die Zahl der Tests, steigt auch die Zahl der erkannten Infektionen.

B117-Alarmismus in der SZ weiterlesen

Datenboulevardjournalismus der taz zu Corona

Erläuterungen und Grafiken in groß unten

Nach fast einem Jahr Corona-Datenberichterstattung ist weiterhin zu beobachten, dass in zahlreichen Redaktionen viel Halbinformiertheit über Infektionszahlen und Co. verbreitet ist und folglich auch von ihnen verbreitet wird. Zur Klarheit und Beruhigung im Diskurs über die Lage trägt das nicht bei; vielmehr schürt es Aufgeregtheit und Verwirrung.

Jüngst lieferte die “taz” ein anschauliches Beispiel dafür. „Die mutierte Kurve“ lautet der Titel der Printausgabe vom 13.1.21, der auf der gleichen Seite durch einen Kommentar und eine dazugehörige Seite 3 begleitet wurde. Die „neue Coronavariante“, so die taz im Kurztext zur Titelgrafik, sei besonders ansteckend. Gemeint ist wohl die Mutante B.1.1.7 und nicht die in Südafrika entdeckte B.1.351. So im Ungefähren geht es weiter. Es sei umstritten, ob die in Kurve der erkannten Infektionen in Irland in der Titelgrafik etwas mit besagter Mutante zu tun habe. Sicher sei, wenn diese hierzulande vermehrt auftrete, würden die bisherigen Maßnahmen nicht ausreichen. Dazu später mehr.

Datenboulevardjournalismus der taz zu Corona weiterlesen

Die unsichtbare Welle

Artikel für Wochenzeitung “der Freitag” (Nr. 46, 12. Nov 2020)

Seit einem Dreivierteljahr gehört die Berichterstattung zu Corona nun dazu wie der Wetterbericht. Es ist normal geworden, dass in Nachrichtensendungen, Zeitungen und auf Websites die aktuellen Zahlen genannt und gezeigt werden. Daten-Dashboards, Diagramme und Karten finden sich allerorten. Sie sollen helfen, das Infektionsgeschehen abzubilden, Trends zu zeigen und politische Entscheidungen nachvollziehbar zu machen.

Dabei kommt diesen Diagrammen und Karten eine zweischneidige Rolle zu. Einerseits sind sie eben gut dafür geeignet, Verläufe sowie An- und Abstiege in Trends zu schildern: Die meisten Menschen sind mit einem auf Mustererkennung optimierten Sehapparat ausgestattet und können über solche Grafiken deutlich mehr Informationen aufnehmen als in der gleichen Zeit per Text oder gesprochenem Wort. Das Problem andererseits ist, dass die Informationen, die durch die Diagramme transportiert werden, schnell als wahr und aussagekräftig empfunden werden.

Weiterlesen bei “der Freitag”

Bad Practice

Wie der Tagesspiegel fahrlässig Fehlinformationen zu Corona verbreitet


[Update 26.10.20 – 08:00 Uhr: Dieser Beitrag wurde angesichts der nunmehr dritten Änderung, die der Tagesspiegel an seinem Artikel vornahm, ergänzt].

In Zeiten der Covid19-Pandemie, in der Daten – deren Analyse und Visualisierung – auch in der breiten Öffentlichkeit eine wohl kaum dagewesene Rolle spielen, kommt Datenjournalist*innen eine wichtige Rolle zu: Zugang zu Daten zu beschaffen, Ordnung in die Datenmengen zu bringen und diese auf Relevanz und Aussagekraft abzuklopfen, sind ureigene Aufgaben des Metiers.

Deswegen ist die Betrachtung von Beispielen, die nicht gelungen sind, hilfreich. Um andere dafür zu sensibilisieren, dass bei einem Themengebiet wie Corona, bei dem einiges an Verunsicherung herrscht, noch mehr Sorgfalt als sonst an den Tag gelegt werden sollte. Daten-Fehlinterpretationen können sich schnell als vermeintliche Gewissheiten verbreiten. Was kontraproduktiv ist.

Der Tagesspiegel meinte am Freitag, den 23.10.20, er sei dazu in der Lage, die Frage zu beantworten, die sonst niemand beantworten kann: „Wo sich die Menschen mit Corona infizieren“ [Die Überschrift lautet jetzt “Wo infizieren sich Menschen mit Corona?”.]” Die Antwort darauf sei: „Die Menschen stecken sich vor allem zu Hause an.“ Quasi als Kronzeuge für diese Behauptung diente ein Diagramm des Robert Koch-Instituts (RKI), das in dessen Lagebericht (pdf) vom 20.10.2020 auf Seite 12 veröffentlicht wurde.

Bad Practice weiterlesen

Interview: „Spezialisten sind rar“

Der “Drehscheibe” (aus Lokalredaktionen für Lokalredaktionen) habe ich ein Interview zum Thema Automatisierung im Lokaljournalismus gegeben (Anlass war ein Text von mir von 2017). Auszug aus dem Interview:

Was sind die größten Hindernisse für die Verlage, voll in den Datenjournalismus bzw. die Automatisierung einzusteigen?

Wagnisbereitschaft und Talente. Die erfolgreiche Formel, wie solch ein Dienst aussehen könnte, hat bislang niemand gefunden – sonst würden wir davon sicher zahlreiche Varianten sehen. Wirklich neue Formate zu entwickeln, würde zum einen Wagnisbereitschaft und Investionsausdauer für einige Jahren bei den Verlagen erfordern. Und es bräuchte dafür die Kompetenzen. Sowohl in den Führungsetagen, um so etwas zu ermöglichen und fördern – als auch in den Redaktionen. Die Ausbildungsmöglichkeiten, die Spezialisten für den Journalismus im Zeitalter der digitale Transformation liefern könnten, sind in Deutschland rar. Die wenigen Talente in dem Sektor, die sich meist aus Eigeninitiative heraus profilieren konnten, machen Karriere bei den wenigen Häusern, die so etwas sowohl wertschätzen als auch entsprechend interessante Herausforderungen anbieten. Dieser ‘brain drain’ lässt für Regional- und Lokalzeitungsverlage wenig übrig.

Das komplette Interview gibt es hier.

.

10 Jahre Datenjournalismus: Gemischte Gefühle

Mit gemischten Gefühlen schaue ich auf das Genre Datenjournalismus. Ich selbst bin in dem Bereich gar nicht mehr aktiv. Einzig gebe ich ab und zu noch Trainings zum Thema. So ist es vielleicht kein Wunder, dass mich in letzter Zeit keine Anfragen mehr erreichen, ob ich für ein Interview für eine Bachelor- oder Masterarbeit zur Verfügung stehe. Für einige Jahre habe ich – wie auch andere Kolleg/innen – solch Interviews etwa einmal im Monat gegeben. Überhaupt dürfte kaum ein journalistisches Genre in jüngster Zeit so dicht durch wissenschaftliche Forschung  begleitet worden sein. Das Abklingen der Anfragen mag aber vielleicht auch ein Zeichen dafür sein, dass sich das Thema abgenutzt hat (wobei erst unlängst eine lesenswerte, wenn vielleicht auch ernüchternde Masterarbeit (pdf) dazu erschien).

Aber selbstverständlich betrachte ich die Vorgänge in dem Genre weiter und freue mich über ausgezeichnete Arbeiten wie dieses Stück zum Irrsinn der geplanten Bahnhofsverlegung in Hamburg-Altona. Tatsächlich liegen mir mittlerweile Beiträge wie die Experimente rund um Deep Fakes von SRF Data aber mehr. So würde ich argumentieren, dass diese Art von Journalismus im Digitalen mit Datenjournalismus (methodisch) verwandt ist. Doch befasst sich Algorithmic Accountabilty Reporting mehr mit den Auswirkungen von Softwaresystemen – statt allein auf Datensätze zu schauen.

Als ich 2010 dieses Blog begann, lag der Start des Datablogs des Guardian ein Jahr zurück. Die Berichterstattung zu den “Afghanistan Warlogs”, die auf der ersten großen Wikileaks-Enthüllung fußte, zeigte bald auf, was Datenjournalismus kann. Tools begannen zu sprießen. Neben Google Fusion Tables – das nun bezeichnerweise Ende 2019 eingestellt werden soll – etablierten sich Player wie CartoDB oder auch DataWrapper (seit 2012). Die auf statistische Operationen spezialisierte Programmiersprache R machte Karriere, Google/OpenRefine erschien und nicht zu vergessen: Google Spreadsheets. Der Traum von der eierlegenden Wollmilchsau scheint nun mit Workbench fast wahrhaftig zu werden.

10 Jahre Datenjournalismus: Gemischte Gefühle weiterlesen

Netzwerk AfD: Eine Grafik will zu viel

Die taz hat in Kooperation mit Partnern eine Reihe “Netzwerk AfD” gestartet. Die interaktive Grafik zu der Recherche wurde mit zwei externen Entwicklern zusammen umgesetzt. Gefördert wurde das Vorhaben durch die Otto-Brenner-Stiftung. 20.000 Euro, so war es im taz Innovationsreport zu lesen, betrug das Budget.* Bereits im März 2018 hatte Zeit Online einen längeren Bericht über den rechtsradkikalen Hintergrund diverser Mitarbeiter der AfD-Bundestagsfraktion gebracht; das taz Projekt ist also kein “Scoop”. Dennoch ist die systemtatische Recherche der taz & Co hilfreich und wichtig. Bislang ist die Datenbank, die dabei entstanden ist, im Sinne von Open Data nicht zugänglich. Die Grafik weist aus meiner Sicht einige konzeptionelle Schwächen auf:

Netzwerk AfD: Eine Grafik will zu viel weiterlesen

Die Vermessung des TV-Programms

Das “TV Meter” – ein nicht realisiertes Datenjournalismusprojekt aus meiner Schublade

Gefühlt besteht das Angebot des öffentlich-rechtlichen Fernsehens aus Quizshows, Krimis, Sport und Schlagersendungen plus etwas Nachrichten, Politiksendungen sowie Talkshows.

Derlei Gefühle ließe sich recht einfach mit Zahlen unterfüttern: Das Fernsehprogramm kommt seit eh und je in Tabellenform daher. Vor allem die ARD macht es einfach, ihr Programm auszulesen:

http://programm.ard.de/TV/Programm/Sender?datum=09.01.2018&hour=0&sender=28106

Unter dieser URL findet sich das Programm der ARD für einen Tag. Die Struktur der URL macht deutlich, dass es simpel sein dürfte, zurückliegende Tage bzw. zukünftige aufzurufen. Offenbar scheint das komplette Programm über den Parameter “datum” seit 2011 und 40 Tage im Voraus abrufbar zu sein.

Auch deutet der Parameter „sender“ in der URL an, dass sich andere Sender abrufen lassen: Neben allen 3. Programmen finden sich auch die Programme von Phoenix, arte, Kika, One, ARD-alpha und tagesschau24.

Die Vermessung des TV-Programms weiterlesen

Algorithmic Accountability: Der nächste Schritt für den Datenjournalismus

Algorithmic Accountability ist ein im Entstehen begriffenes Subgenre des Datenjournalismus. Der Ausdruck wurde durch den Journalismusforscher Nicholas Diskopoulus etabliert. Sein Bericht „Algorithmic Accountability Reporting: On the Investigation of Black Boxes“ erschien Anfang 2014. Er skizziert eine neue Aufgabe für Journalisten: Sie sollten Softwaresysteme als Gegenstände der Berichterstattung verstehen. Dabei kann reine Transparenz nicht das Ziel sein – meistens hilft es nicht, nur auf den Programmiercode der Software so genannter Künstlicher Intelligenz (AI) oder Machine Learning zu schauen. Ohne die Datensätze, mit denen diese Systeme trainiert werden, kann ihre Funktionsweise nicht verstanden werden. Deshalb setzt Algorithmic Accountability auf Nachvollziehbarkeit.

Im Unterschied zu „traditionellem“ Datenjournalismus, der mit manuell oder automatisiert gesammelten Datensätzen operiert, kümmert sich Algorithmic Accountability darum, wie Daten verarbeitet und/oder generiert werden. Ein gutes Beispiel ist die Arbeit von Pro Publica in der Serie „Machine Bias“ aus dem Jahr 2016. Unter anderen untersuchte die Redaktion eine im Strafprozesserfahren der USA weitverbreitetete Software, die bestimmt, ob ein Verurteilter Bewährung erhalten sollte. Sie fand heraus, dass diese Software Rassismus reproduziert. Die verantwortliche private Softwarefirma war nicht bereit, die Funktionsweise der Software im Detail offenzulegen. Pro Publica gelang es durch eine Informationsfreiheitsanfrage, Daten zu Verurteilen zu erhalten und betrieb auf dieser Grundlage eine Art “Reverse Engineering” (Nachkonstruktion) des Softwaresystems.

Algorithmic Accountability ist der nächste logische Schritt in einer Welt des automatisierten Entscheidens (Automated Decision Making – ADM): Demokratische Gesellschaften, die vermehrt durch und mit Software regiert werden, müssen in der Lage sein, solche „Maschinen“ zu verstehen und kontrollieren.

Deutsche Fassung meines englischsprachigen Beitrags im Data-Driven Advent Calender von Journocode. Ein ausführlicher Text von mir zu Algorithmic Accountability findet sich bei der Bayerischen Landesmedienanstalt: “Rechenschaft für Rechenverfahren

Ein Genre wird erwachsen

Dieser Beitrag erschien zuerst in “M – Menschen Machen Medien” (dju/ver.di) im März 2017.

Es ist sieben Jahre her, dass M erstmalig Datenjournalismus als Titelthema brachte. Unter der Überschrift „Spannende Recherche im Netz” wurde von damals noch exotisch klingenden Begriffen wie „Open Data” und „Datenbank-Journalismus” berichtet. Seither ist aus einem Nischenthema ein Genre erwachsen.

Indidikator für die Entwicklung dieses Genres ist etwa, dass das Reporterforum seit zwei Jahren in seinem Reporterpreis Auszeichnungen für Datenjournalismus vergibt. Oder die langsam aber stetig steigende Zahl der Stellenanzeigen, wie sie unlängst die Süddeutsche Zeitung veröffentlichte: Der mittlerweile vierte Datenjournalist für die Redaktion wird gesucht.

Die Datenjournalisten der SZ hatten ihren Anteil an den „Panama Papers”, der Recherche der SZ und anderer Redaktionen über die Steueroase in Mittelamerika 2016. An ihrer Herangehensweise lässt sich gut zeigen: Die eine Definition von Datenjournalismus gibt es nicht. Oder besser gesagt, dass Selbstverständnis darüber, was Datenjournalismus genau ist, variiert. Die Panama Papers etwa könnte man auch schlicht als „Computer Assisted Reporting” (CAR, computergestützte Recherche) verstehen – eine jahrzehntealte Methode im investigativen Bereich. Datenvisualisierungen spielten bei der Veröffentlichung des preisgekrönten Werks über die Steueroase keine zentrale Rolle. Doch ist es dieser Faktor, den manche als wesentlichen Aspekt für Datenjournalismus oder data-driven journalism (#ddj) verstehen: Die zugrundeliegenden Daten spielen nicht nur in der Recherche, sondern auch in dem veröffentlichen Werk in Form visueller Elemente eine wichtige Rolle. So oder so, einig dürften sich alle sein: Datensätze sind beim Datenjournalismus wesentlich. Mittels manueller Auswertung, etwa per Tabellen-Kalkulationsprogrammen wie Excel, oder halb- oder ganz automatischen Verfahren durch Softwarebibliotheken oder selbstgeschriebenem Programmcode werden die Datensätze ausgewertet und nach Auffälligkeiten abgeklopft. Als Faustregel bei einem datenjournalistischen Stück kann gelten: 70 Prozent der Arbeit steckt in der Datenbeschaffung, -säuberung und -validierung. Bevor die Daten überhaupt veröffentlichungsreif sind – in welcher Form auch immer – liegt viel Arbeit hinter den Datenredakteuren. Das fängt an beim „Befreien” der Daten aus Schriftstücken oder pdf-Dateien inklusive Lesefehlern bei der Umwandlung, reicht über die Vereinheitlichung von Formaten bis hin zu zahllosen weiteren Fallstricken, die sich während des Prozesses auftun. Sprich: Wer sich mit Datenjournalismus befasst, sollte eine hohe Frustationsschwelle und eine gewisse Affinität für Statistik mitbringen.

Die Belohnung für hartnäckiges Graben in Daten­bergen sind Erkenntnisse und Perspektiven auf Sachverhalte, die bei klassischen Recherchemethoden verborgen blieben. Und diese lassen sich pointiert an die Leser_innen dank einer mittlerweile erklecklichen Anzahl an Visualisierungmethoden und -formaten unmittelbar weitergeben.

Ein Genre wird erwachsen weiterlesen