Um Open Data steht es in Deutschland schlecht. Nur zaghaft und geringfügig stellen Staat, Politik und andere Institutionen der Öffentlichkeit Daten offen zur Verfügung. Für eine Res publica wie Deutschland ist das schädlich. Die Daten, die man bräuchte, um relevanten Journalismus zu betreiben und die Mächtigen zu kontrollieren, sind oft schlichtweg nicht zu bekommen.
Deshalb müssen wir klar machen, wie weit wir von wahrem Open Data noch entfernt sind und es selbstbewusst einfordern. Ich habe das gerade auf Einladung des Rates für Sozial und Wirtschaftsdaten (RatSWD) auf deren großer Jahreskonferenz, 6KSWD, getan. Dort habe ich eine kleine Utopie vorgestellt und gefordert, dass Staat und Wissenschaft dem (Daten-)Journalismus ihre Daten auf Mikroebene zur Verfügung stellen sollten: Journalisten könnten dann mit den Daten auf Einzelpersonen-Ebene arbeiten (zum Beispiel den Daten aller einzelnen Rentner mit ihren kompletten, von der Rentenversicherung gespeicherten Angaben – allerdings am Ende anonymisiert). Ein Monopol von Wissenschaft oder Behörden auf Mikrodaten gibt es nicht. Sie gehören in einer Demokratie dem Volk.
Hier eine knapp erläuterte Liste meiner Forderungen (und eine kurze Motivation hinterher). Ich wünsche mir…
- Zugang zu den Mikrodaten der Forschungsdatenzentren (FDZ)
In den Forschungsdatenzentren (FDZ) schlummern Deutschlands ungehobene (Mikro-)Datenschätze. In den FDZ bieten viele wissenschaftliche Einrichtungen (wie etwa das DIW mit seinem Sozio-oekonomischen Panel SOEP) aber auch Institutionen wie das Robert-Koch-Institut, die Deutsche Rentenversicherung sowie die gesamte amtliche Statistik ihre Daten für die Erforschung durch Wissenschaftler an. Oft sind das sehr weit aufgeschlüsselte Angaben, immer hervorragend gewartet und dokumentiert. Es gibt viele Daten auf Einzelfallbasis (einzelne Haushalte oder Personen) oder mit Geo-Informationen.
Ein Verstoß gegen den Datenschutz ist die Nutzung solcher Individualdaten nicht. Denn wer sie nutzt, verpflichtet sich, seine Ergebnisse zu anonymisieren. Auf Einzelpersonen kann man dann nicht mehr zurück schließen. Die Ergebnisse, die Journalisten am Ende in der Hand halten, sind immer über mehrere Personen zusammengefasst (so ist es bisher für die Forschung auch). Es geht also letztlich um statistische Verteilungen (z.B. eine Kurve der Lebenserwartung nach Rentenhöhe oder Einkommen), aus denen man Diagramme oder Karten machen kann. Allerdings wären Journalisten völlig frei darin, diese Verteilungen aus sämtlichen Angaben der Einzelfalldaten zu konstruieren. Sie könnten also ihre eigenen Fragen an die Daten stellen. Bisher ist der Zugang zu den FDZ nur für Wissenschaftler üblich.
- Zugang zu Scientific-Use-Files
Außer den Einzelfalldaten bietet die deutsche Forschungsdatenlandschaft so genannte Scientific-Use-Files an. Sie sind bereits anonymisiert, trotzdem darf sie bisher nur die Forschung nutzen. Öffentlich zugänglich sind nur „Public-Use-Files“, mit denen sich aber häufig wenig anfangen lässt, da sie aus Datenschutzbedenken so weit zusammengekürzt wurden, dass viele Merkmale bereits nicht mehr untersucht werden können.
- Alle Zugänge uneingeschränkt & kostenfrei
Der Zugang zu den Einzelfalldaten der FDZ sollte Journalisten per so genannter kontrollierter Datenfernverarbeitung möglich gemacht werden, also von ihrem eigenen Büro aus. Praktisch schreibt der Journalist ein kleines statistisches Auswertungsprogramm (bisher machten das nur Wissenschaftler), schickt es ans FDZ, und das lässt das Programm dann dort im Haus über die geschützten Einzelfalldaten laufen. Das Journalisten-Programm spuckt die statistischen Tabellen aus, die der Journalist haben möchte und dann zugeschickt bekommt.
Wichtig ist, dass Journalisten solche Auswertungsprogramme mit freier Software schreiben können. Ideal wäre das freie und im Internet vorzüglich dokumentierte Statistik-Programm R. Sowohl Journalisten als auch Forscher müssen auf alle Daten völlig kostenfrei zugreifen können. Bisher zahlen Forscher pro Datensatz 250 Euro. Wer kein Forscher ist und projektbezogen trotzdem Zugriff bekommt, zahlt zudem eine Gebühr für einen Anonymisierungs-Check der Ergebnistabellen. Diese Gebühr kann mehrere Tausend Euro betragen. Ein Killer für journalistische Projekte.
- „Daten ohne Paper“
Bisher haben Journalisten nur dann eine reelle Chance auf Forschungsdaten, wenn sie durch eine wissenschaftliche Veröffentlichung darauf aufmerksam werden. Dann sind die Rohdaten aber schon statistisch verarbeitet, die Forscher haben also bereits ihre Frage an die Daten gestellt, weitere Analysen der Urdaten sind eigentlich nicht mehr möglich. Journalisten stehen in der Verwertungskette der verfügbaren Informationen also bisher ganz hinten. Gefiltert wird vorher.
Journalisten müssen aber eigene (eben journalistische) Fragen an das große Datenpotenzial der Forscher stellen können, das eigentlich das Datenpotenzial aller ist. Dazu muss die Wissenschaft ihre Daten nicht nur herausgeben wollen, sie muss auch unabhängig von laufenden Forschungsprojekten so etwas wie einen gut durchsuchbaren Katalog verfügbarer Rohdaten im Internet führen.
- Bei Paper Rohdaten (und Programmcodes)
Wenn Wissenschaftler ein Paper veröffentlichen, sollten sie spätestens auf Anfrage nicht nur sämtliche (statistische) Ergebnis-Daten herausgeben, sondern auch die Rohdaten, aus denen sie ihre Ergebnisse berechnet haben und den Programmcode, den sie benutzt haben. So wird ihre Arbeit transparent und nachprüfbar (weshalb es ähnliche Forderungen auch innerhalb der Wissenschaft gibt, die ja nur funktioniert, wenn ihre Ergebnisse falsifizierbar sind.)
- Kritik
Wenn Nicht-Wissenschaftler Zugriff auf Mikrodaten bekommen, erweitert sich die gesellschaftliche Rolle der Forschung um ein wesentliches Element: Sie müssen die Ergebnisse nicht-wissenschaftlicher Analysen von Rohdaten kontrollieren und methodische oder Verständnisfehler (nicht aber Interpretationsfehler) öffentlich „anprangern“. Gegenseitige Kontrolle sind Wissenschaftler zwar schon gewöhnt. Der zusätzliche Aufwand für den außer-wissenschaftlichen Bereich müsste aber politisch explizit gewollt und finanziell gefördert werden.
- Schulungen
Forscher sollten Journalisten schulen, Mikrodaten zu nutzen, insbesondere mit Blick auf den Datenschutz, methodische Details und Fallstricke bestimmter Datensätze. Diese Schulungen sind ebenso politisch zu fördern wie die Kritikerrolle der Wissenschaft.
Warum das alles?
Den meisten Wissenschaftlern und amtlichen Datenhütern dürften ziemlich viele ziemlich gute Gründe einfallen, warum diese Forderungen absurd und unerfüllbar sind. Diese Sorgen verstehe ich, und über all diese Gründe müssen Journalisten und Datenproduzenten konstruktiv reden.
Ich möchte aber für einen anderen – den demokratisch notwendigen – Blickwinkel werben: Ja, Daten herauszugeben mag ein Risiko sein. Aber das können wir nicht nur in den Griff kriegen. Die Sache ist es auch absolut wert. Die Sache, das ist unsere Demokratie, die Basis unseres täglichen Lebens, unserer Sicherheit, unseres Wohlstandes, unserer Mitbestimmung und unserer Freiheit. Über weniger reden wir hier nicht.
In der Demokratie ist Datenjournalismus systemrelevant
In der Demokratie ist der Journalismus systemrelevant. Er ist die vierte Gewalt, die die Mächtigen kontrolliert. Ohne diese freie Kontrolle kann es keine Demokratie geben. Und diese Kontrolle ist heute ohne Daten nicht mehr denkbar, denn die Hoheit über die Daten, ihre Auswertung und Interpretation bedeutet eine immer stärkere Macht. Staat und Politik haben sie, z.B. über Datenanfragen an politisch nachgeordnete (Statistik-)Behörden oder über das Instrument der kleinen oder großen Anfragen.
Journalisten haben diese Macht aber nicht, und das führt zu einem gefährlichen Ungleichgewicht an Information. Wenn Journalismus aber nicht die nötigen Informationen hat, um die Mächtigen zu kontrollieren, dann tut es keiner. Die Wissenschaft kann es nicht, und es ist auch nicht ihre gesellschaftliche Rolle.
Schulterschluss für eine exzellente Debatte
Aber wo würde es hinführen, wenn man tatsächlich alle Daten für Journalisten öffnete? Meine Vision wäre nicht eine wahllose Plünderung durch die Boulevardmedien, die uns mit vermeintlich wahrheitsgemäß datenbasierten Falschmeldungen zuschütten. Ich könnte mir eher eine Kooperation von Journalismus und Wissenschaft vorstellen, in der die Forscher den Zugriff der Medien auf die Daten mit ihrem Wissen flankieren.
Daraus erwüchsen der Forschung neue Impulse und der Öffentlichkeit eine neue Ebene von Qualitätsjournalismus mit Daten, die der öffentlichen Debatte eine Exzellenz geben könnte, die hierzulande leider zu oft fehlt.
6 Gedanken zu „Tausche Daten gegen Demokratie“