Bad Practice

Wie der Tagesspiegel fahrlässig Fehlinformationen zu Corona verbreitet


[Update 26.10.20 – 08:00 Uhr: Dieser Beitrag wurde angesichts der nunmehr dritten Änderungen seines Artikels seitens des Tagesspiegels ergänzt].

In Zeiten der Covid19-Pandemie, in der Daten – deren Analyse und Visualisierung – auch in der breiten Öffentlichkeit eine wohl kaum dagewesene Rolle spielen, kommt Datenjournalist*innen eine wichtige Rolle zu: Zugang zu Daten zu beschaffen, Ordnung in die Datenmengen zu bringen und diese auf Relevanz und Aussagekraft abzuklopfen, sind ureigene Aufgaben des Metiers.

Deswegen ist die Betrachtung von Beispielen, die nicht gelungen sind, hilfreich. Um andere dafür zu sensibilisieren, dass bei einem Themengebiet wie Corona, bei dem einiges an Verunsicherung herrscht, noch mehr Sorgfalt als sonst an den Tag gelegt werden sollte. Daten-Fehlinterpretationen können sich schnell als vermeintliche Gewissheiten verbreiten. Was kontraproduktiv ist.

Der Tagesspiegel meinte am Freitag, den 23.10.20, er sei dazu in der Lage, die Frage zu beantworten, die sonst niemand beantworten kann: „Wo sich die Menschen mit Corona infizieren“ [Die Überschrift lautet jetzt “Wo infizieren sich Menschen mit Corona?”.]” Die Antwort darauf sei: „Die Menschen stecken sich vor allem zu Hause an.“ Quasi als Kronzeuge für diese Behauptung diente ein Diagramm des Robert Koch-Instituts (RKI), das in dessen Lagebericht (pdf) vom 20.10.2020 auf Seite 12 veröffentlicht wurde.

Bad Practice weiterlesen

Interview: „Spezialisten sind rar“

Der “Drehscheibe” (aus Lokalredaktionen für Lokalredaktionen) habe ich ein Interview zum Thema Automatisierung im Lokaljournalismus gegeben (Anlass war ein Text von mir von 2017). Auszug aus dem Interview:

Was sind die größten Hindernisse für die Verlage, voll in den Datenjournalismus bzw. die Automatisierung einzusteigen?

Wagnisbereitschaft und Talente. Die erfolgreiche Formel, wie solch ein Dienst aussehen könnte, hat bislang niemand gefunden – sonst würden wir davon sicher zahlreiche Varianten sehen. Wirklich neue Formate zu entwickeln, würde zum einen Wagnisbereitschaft und Investionsausdauer für einige Jahren bei den Verlagen erfordern. Und es bräuchte dafür die Kompetenzen. Sowohl in den Führungsetagen, um so etwas zu ermöglichen und fördern – als auch in den Redaktionen. Die Ausbildungsmöglichkeiten, die Spezialisten für den Journalismus im Zeitalter der digitale Transformation liefern könnten, sind in Deutschland rar. Die wenigen Talente in dem Sektor, die sich meist aus Eigeninitiative heraus profilieren konnten, machen Karriere bei den wenigen Häusern, die so etwas sowohl wertschätzen als auch entsprechend interessante Herausforderungen anbieten. Dieser ‘brain drain’ lässt für Regional- und Lokalzeitungsverlage wenig übrig.

Das komplette Interview gibt es hier.

.

Zum Umgang mit der unklaren Datenlage beim Coronavirus

Versuch einer systematischen Übersicht zur Datenlage — Tabelle zu den Nr. mit Links

Der große Augenmerk, der in vielen Medien auf die Zahl der offiziell Infizierten gerichtete wird, ist problematisch. Genauso wie darauf beruhende Berechnung von Verdoppelungszeiträumen und Vergleiche der Zahlen verschiedenen Länder miteinander. Warum?

In einem Interview mit der Schwäbischen Zeitung (5.4.2020) fasst Klaus Meier, Professor für Journalistik an der Katholischen Universität Eichstätt, die Problematik gut zusammen:

„Ich würde gerne etwas aufgreifen, was einerseits toll gemacht, aber andererseits hochproblematisch ist: Das sind Formate, die Zahlen zur Pandemie aufbereiten — interaktive Grafiken, die super gemacht sind und die viele Nutzer auch stark interessieren. Aber das führt dazu, dass man diese Zahlen wie Tabellenstände im Sport miteinander vergleicht: Sind wir jetzt schon wie Italien oder Spanien? Wie schneiden die USA ab? Wie stehen die Bundesländer und Landkreise in Deutschland da? Wer überholt wen? Die Zahlen werden für bare Münze in Echtzeit genommen. Aber auch wenn die Zahlen sauber recherchiert sind, können sie gar nicht das leisten, was man von ihnen erwartet: nämlich ein getreues Abbild der Wirklichkeit zu sein. … Man sollte immer wieder darauf hinweisen, welchen Hintergrund und welche Schwächen diese Zahlen haben. Journalisten sollten diese Zahlenfixiertheit hinterfragen und die Gültigkeit der Zahlen relativieren. Und Mediennutzer sollten sich nicht nur über Zahlen oder Tabellen informieren, sondern lieber zweimal am Tag längere Texte lesen, die diese Zahlen einordnen.“

Zum Umgang mit der unklaren Datenlage beim Coronavirus weiterlesen

Das Ding mit dem Journalismus

»Es braucht einen neuen Journalismus. Den Journalismus der Dinge.« So
steht es in der Einleitung des heute erschienenen »Manifests für einen Journalismus der Dinge — Strategien für den Journalismus 4.0«. Es handelt sich um Version 1 und will ein Diskussionsvorschlag sein.

Auf den ersten Blick ist klar, dass »Journalismus der Dinge« auf das »Internet der Dinge« anspielt (IoT — Internet of Things). Folglich wird IoT im zweiten Satz der Präambel des Manifests entsprechend prominent angeführt. Es wird aber auch auf den ersten Blick klar, dass dieses Wortspiel nicht weit trägt. Genauso wie niemand vom »Journalismus der Kamera«, »Journalismus der Stifte« oder »Journalismus der Lautsprecher« spricht, ist auch bei Dingen der Genitiv fehl am Platz — Journalismus wird nicht von Dingen gemacht. Er wird von Menschen gemacht, die dafür Dinge verwenden, um zum Beispiel über Dinge zu berichten.

Abgesehen von der in meinen Augen untauglichen Begrifflichkeit selbst, machen die zehn Thesen des Manifests auch deutlich, dass dieser »Journalismus der Dinge« kaum klar zu definieren ist: Vielmehr ist es der Versuch, diverse bereits bestehende Methoden und Genres von Journalismus unter einen Hut zu bringen. Was legitim wäre, böte es ein Mehrwert oder würde es helfen, ein bislang unbekanntes Phänomen oder Methodenset zu beschreiben. Damit etwa im Diskurs über Journalismus als gesellschaftliche Kraft neue Perspektiven aufgemacht werden können oder die Selbstverständigung besser gelingt.

Das Ding mit dem Journalismus weiterlesen

10 Jahre Datenjournalismus: Gemischte Gefühle

Mit gemischten Gefühlen schaue ich auf das Genre Datenjournalismus. Ich selbst bin in dem Bereich gar nicht mehr aktiv. Einzig gebe ich ab und zu noch Trainings zum Thema. So ist es vielleicht kein Wunder, dass mich in letzter Zeit keine Anfragen mehr erreichen, ob ich für ein Interview für eine Bachelor- oder Masterarbeit zur Verfügung stehe. Für einige Jahre habe ich – wie auch andere Kolleg/innen – solch Interviews etwa einmal im Monat gegeben. Überhaupt dürfte kaum ein journalistisches Genre in jüngster Zeit so dicht durch wissenschaftliche Forschung  begleitet worden sein. Das Abklingen der Anfragen mag aber vielleicht auch ein Zeichen dafür sein, dass sich das Thema abgenutzt hat (wobei erst unlängst eine lesenswerte, wenn vielleicht auch ernüchternde Masterarbeit (pdf) dazu erschien).

Aber selbstverständlich betrachte ich die Vorgänge in dem Genre weiter und freue mich über ausgezeichnete Arbeiten wie dieses Stück zum Irrsinn der geplanten Bahnhofsverlegung in Hamburg-Altona. Tatsächlich liegen mir mittlerweile Beiträge wie die Experimente rund um Deep Fakes von SRF Data aber mehr. So würde ich argumentieren, dass diese Art von Journalismus im Digitalen mit Datenjournalismus (methodisch) verwandt ist. Doch befasst sich Algorithmic Accountabilty Reporting mehr mit den Auswirkungen von Softwaresystemen – statt allein auf Datensätze zu schauen.

Als ich 2010 dieses Blog begann, lag der Start des Datablogs des Guardian ein Jahr zurück. Die Berichterstattung zu den “Afghanistan Warlogs”, die auf der ersten großen Wikileaks-Enthüllung fußte, zeigte bald auf, was Datenjournalismus kann. Tools begannen zu sprießen. Neben Google Fusion Tables – das nun bezeichnerweise Ende 2019 eingestellt werden soll – etablierten sich Player wie CartoDB oder auch DataWrapper (seit 2012). Die auf statistische Operationen spezialisierte Programmiersprache R machte Karriere, Google/OpenRefine erschien und nicht zu vergessen: Google Spreadsheets. Der Traum von der eierlegenden Wollmilchsau scheint nun mit Workbench fast wahrhaftig zu werden.

10 Jahre Datenjournalismus: Gemischte Gefühle weiterlesen

Netzwerk AfD: Eine Grafik will zu viel

Die taz hat in Kooperation mit Partnern eine Reihe “Netzwerk AfD” gestartet. Die interaktive Grafik zu der Recherche wurde mit zwei externen Entwicklern zusammen umgesetzt. Gefördert wurde das Vorhaben durch die Otto-Brenner-Stiftung. 20.000 Euro, so war es im taz Innovationsreport zu lesen, betrug das Budget.* Bereits im März 2018 hatte Zeit Online einen längeren Bericht über den rechtsradkikalen Hintergrund diverser Mitarbeiter der AfD-Bundestagsfraktion gebracht; das taz Projekt ist also kein “Scoop”. Dennoch ist die systemtatische Recherche der taz & Co hilfreich und wichtig. Bislang ist die Datenbank, die dabei entstanden ist, im Sinne von Open Data nicht zugänglich. Die Grafik weist aus meiner Sicht einige konzeptionelle Schwächen auf:

Netzwerk AfD: Eine Grafik will zu viel weiterlesen

Die Vermessung des TV-Programms

Das “TV Meter” – ein nicht realisiertes Datenjournalismusprojekt aus meiner Schublade

Gefühlt besteht das Angebot des öffentlich-rechtlichen Fernsehens aus Quizshows, Krimis, Sport und Schlagersendungen plus etwas Nachrichten, Politiksendungen sowie Talkshows.

Derlei Gefühle ließe sich recht einfach mit Zahlen unterfüttern: Das Fernsehprogramm kommt seit eh und je in Tabellenform daher. Vor allem die ARD macht es einfach, ihr Programm auszulesen:

http://programm.ard.de/TV/Programm/Sender?datum=09.01.2018&hour=0&sender=28106

Unter dieser URL findet sich das Programm der ARD für einen Tag. Die Struktur der URL macht deutlich, dass es simpel sein dürfte, zurückliegende Tage bzw. zukünftige aufzurufen. Offenbar scheint das komplette Programm über den Parameter “datum” seit 2011 und 40 Tage im Voraus abrufbar zu sein.

Auch deutet der Parameter „sender“ in der URL an, dass sich andere Sender abrufen lassen: Neben allen 3. Programmen finden sich auch die Programme von Phoenix, arte, Kika, One, ARD-alpha und tagesschau24.

Die Vermessung des TV-Programms weiterlesen

Algorithmic Accountability: Der nächste Schritt für den Datenjournalismus

Algorithmic Accountability ist ein im Entstehen begriffenes Subgenre des Datenjournalismus. Der Ausdruck wurde durch den Journalismusforscher Nicholas Diskopoulus etabliert. Sein Bericht „Algorithmic Accountability Reporting: On the Investigation of Black Boxes“ erschien Anfang 2014. Er skizziert eine neue Aufgabe für Journalisten: Sie sollten Softwaresysteme als Gegenstände der Berichterstattung verstehen. Dabei kann reine Transparenz nicht das Ziel sein – meistens hilft es nicht, nur auf den Programmiercode der Software so genannter Künstlicher Intelligenz (AI) oder Machine Learning zu schauen. Ohne die Datensätze, mit denen diese Systeme trainiert werden, kann ihre Funktionsweise nicht verstanden werden. Deshalb setzt Algorithmic Accountability auf Nachvollziehbarkeit.

Im Unterschied zu „traditionellem“ Datenjournalismus, der mit manuell oder automatisiert gesammelten Datensätzen operiert, kümmert sich Algorithmic Accountability darum, wie Daten verarbeitet und/oder generiert werden. Ein gutes Beispiel ist die Arbeit von Pro Publica in der Serie „Machine Bias“ aus dem Jahr 2016. Unter anderen untersuchte die Redaktion eine im Strafprozesserfahren der USA weitverbreitetete Software, die bestimmt, ob ein Verurteilter Bewährung erhalten sollte. Sie fand heraus, dass diese Software Rassismus reproduziert. Die verantwortliche private Softwarefirma war nicht bereit, die Funktionsweise der Software im Detail offenzulegen. Pro Publica gelang es durch eine Informationsfreiheitsanfrage, Daten zu Verurteilen zu erhalten und betrieb auf dieser Grundlage eine Art “Reverse Engineering” (Nachkonstruktion) des Softwaresystems.

Algorithmic Accountability ist der nächste logische Schritt in einer Welt des automatisierten Entscheidens (Automated Decision Making – ADM): Demokratische Gesellschaften, die vermehrt durch und mit Software regiert werden, müssen in der Lage sein, solche „Maschinen“ zu verstehen und kontrollieren.

Deutsche Fassung meines englischsprachigen Beitrags im Data-Driven Advent Calender von Journocode. Ein ausführlicher Text von mir zu Algorithmic Accountability findet sich bei der Bayerischen Landesmedienanstalt: “Rechenschaft für Rechenverfahren

Wie es dem Gesichtserkennungs-Stück des Morgenpost-Interaktivteam misslingt, großartig zu sein

 

Die eigentlich gut gemachte Auseinandersetzung mit Gesichterkennungs-Algorithmen krankt an einer mangelnden Beschäftigung mit dem Datenschutz des eingesetzten Microsoft-Dienstes (UPDATE: Mittlerweile wird deutlich auf die Datenübermittlung hingewiesen). 

Es könnte wegweisend für ein ein neues Genre des Datenjournalismus sein:  Mit einem Stück zur Gesichtserkennung greift das Interaktiv-Team den Hype um „Künstliche Intelligenz“ auf und macht sie praktisch erfahrbar. Dabei kommt eben auch die lokale Komponente des Kameraüberwachung mit Gesichterkennung der Bundespolizei am Bahnhof Berlin Südkreuz zum tragen, die in der Hauptstadt für einige Debatte sorgt.

Die Präsentation, bei der rund 80 Mitglieder der Morgenpost-Redaktion sich mit ihrem Gesicht (und Alter) für einen Selbstversuch hergeben, ist schlicht eine gute Idee: Sie erlaubt anhand der Portraits zu erahnen, warum der verwendete Gesichterkennungs-Algorithmus möglicherweise Probleme hatte, das Alter der Person richtig einzuschätzen.

Der Höhepunkt des Beitrags ist aber die Möglichkeit, über die eigene Webcam/Smartphone-Kamera sein eigenes Gesicht zu übermitteln und eine Alterseinschätzung zu erhalten. Damit wird der Ansatz, dass für die Wirkung eines datenjournalistischen Werks die Ermöglichung des persönlichen Bezugs wichtig ist, gelungen eingelöst.

Leider ist es diese eigentlich tolle Idee, an der das Stück scheitert: Die Morgenpost setzt einen Dienst von Microsoft ein. Das ist an sich nicht verwerflich. Doch klärt die Redaktion an dieser Stelle kaum auf, was eigentlich mit den Daten des “Daten-Selfies” geschieht, die dort über die Kamera erfasst werden. Zwar wird gleich unterhalb des Aufnahmeknopfs auf die Datenschutzerklärung des Microsoft-Dienstes verwiesen. Doch die scheint nicht mal die Redaktion gänzlich verstanden zu haben. Wie es dem Gesichtserkennungs-Stück des Morgenpost-Interaktivteam misslingt, großartig zu sein weiterlesen

Ein Genre wird erwachsen

Dieser Beitrag erschien zuerst in “M – Menschen Machen Medien” (dju/ver.di) im März 2017.

Es ist sieben Jahre her, dass M erstmalig Datenjournalismus als Titelthema brachte. Unter der Überschrift „Spannende Recherche im Netz” wurde von damals noch exotisch klingenden Begriffen wie „Open Data” und „Datenbank-Journalismus” berichtet. Seither ist aus einem Nischenthema ein Genre erwachsen.

Indidikator für die Entwicklung dieses Genres ist etwa, dass das Reporterforum seit zwei Jahren in seinem Reporterpreis Auszeichnungen für Datenjournalismus vergibt. Oder die langsam aber stetig steigende Zahl der Stellenanzeigen, wie sie unlängst die Süddeutsche Zeitung veröffentlichte: Der mittlerweile vierte Datenjournalist für die Redaktion wird gesucht.

Die Datenjournalisten der SZ hatten ihren Anteil an den „Panama Papers”, der Recherche der SZ und anderer Redaktionen über die Steueroase in Mittelamerika 2016. An ihrer Herangehensweise lässt sich gut zeigen: Die eine Definition von Datenjournalismus gibt es nicht. Oder besser gesagt, dass Selbstverständnis darüber, was Datenjournalismus genau ist, variiert. Die Panama Papers etwa könnte man auch schlicht als „Computer Assisted Reporting” (CAR, computergestützte Recherche) verstehen – eine jahrzehntealte Methode im investigativen Bereich. Datenvisualisierungen spielten bei der Veröffentlichung des preisgekrönten Werks über die Steueroase keine zentrale Rolle. Doch ist es dieser Faktor, den manche als wesentlichen Aspekt für Datenjournalismus oder data-driven journalism (#ddj) verstehen: Die zugrundeliegenden Daten spielen nicht nur in der Recherche, sondern auch in dem veröffentlichen Werk in Form visueller Elemente eine wichtige Rolle. So oder so, einig dürften sich alle sein: Datensätze sind beim Datenjournalismus wesentlich. Mittels manueller Auswertung, etwa per Tabellen-Kalkulationsprogrammen wie Excel, oder halb- oder ganz automatischen Verfahren durch Softwarebibliotheken oder selbstgeschriebenem Programmcode werden die Datensätze ausgewertet und nach Auffälligkeiten abgeklopft. Als Faustregel bei einem datenjournalistischen Stück kann gelten: 70 Prozent der Arbeit steckt in der Datenbeschaffung, -säuberung und -validierung. Bevor die Daten überhaupt veröffentlichungsreif sind – in welcher Form auch immer – liegt viel Arbeit hinter den Datenredakteuren. Das fängt an beim „Befreien” der Daten aus Schriftstücken oder pdf-Dateien inklusive Lesefehlern bei der Umwandlung, reicht über die Vereinheitlichung von Formaten bis hin zu zahllosen weiteren Fallstricken, die sich während des Prozesses auftun. Sprich: Wer sich mit Datenjournalismus befasst, sollte eine hohe Frustationsschwelle und eine gewisse Affinität für Statistik mitbringen.

Die Belohnung für hartnäckiges Graben in Daten­bergen sind Erkenntnisse und Perspektiven auf Sachverhalte, die bei klassischen Recherchemethoden verborgen blieben. Und diese lassen sich pointiert an die Leser_innen dank einer mittlerweile erklecklichen Anzahl an Visualisierungmethoden und -formaten unmittelbar weitergeben.

Ein Genre wird erwachsen weiterlesen