Motion Charts-Tutorial: Afghanistan und Bundeswehrlogistikkosten

Wie hoch sind die Kosten des Kriegs in Afghanistan? Auf eine diesbezügliche kleine Anfrage der Fraktion hat Tom Strohschneider in seinem Freitagblog aufmerksam gemacht (in den Kommentaren dort geht es bspw. um die Validität der Daten). Auf die Anfrage von der Partei Die Linke im Bundestag hatte es unlängst eine Antwort der Bundesregierung (pdf – Drucksache 17/2026) gegeben. Sie enthält zahlreiches statistisches Material, etwa über die Anzahl und Typen des militärischen Geräts – darunter beispielweise einige dutzend Flugdrohnen.

Im Folgenden werden die Kosten für die Logistikdienstleistungen, die seitens der Bundeswehr extern vergeben werden, genauer betrachtet. Dafür wurden die Daten aus dem pdf extrahiert, in eine sinnvolle Datenstruktur gebracht und dann mittels Googles Texte&Tabellen (Docs) in einer interaktiven Motion Chart (Bewegungsdiagramm) visualisiert (siehe oben). Die einzelnen Arbeitsschritte dafür werden weiter unten erläutert. Der genutzte Datensatz findet sich hier.

Was kann Daten(bank)journalismus nun mit diesen statistischen Informationen anfangen? Die grundsätzliche Frage des Journalisten an ein Thema lautet: Welche Geschichte gibt es zu erzählen? Der Ansatz des data-driven journalism ist die Annahme, dass in den Daten Geschichten verborgen sind; die können computergestützt gehoben werden und anhand der so neu entstehenden Datensätze selbst können die entsprechende Geschichten erzählt werden.

Motion Charts-Tutorial: Afghanistan und Bundeswehrlogistikkosten weiterlesen

Fußball und Statistik: Tracking der Spieler per Kamera und per Hand

Tracking Soccer Player
Es ist mittlerweile üblich geworden, etliche zusätzliche statistische Daten zu Fußballspielen und anderen Sportarten jenseits der reinen Ergebnisse zu erhalten. Die Frage lautet: Wie werden die erhoben ? Die Anwort: Sowohl automatisiert als auch per Hand.

Der Auschnitt aus der Infografik oben (pdf) zeigt den Aufbau der SportVU-Technologie. Drei Kameras, die jeweils ein Drittel des Spielfelds betrachten, liefern Informationen an einen Computer, der die Daten zusammenführt und Auskunft über Ballbesitz, Laufstrecke, Standort usw. der einzelnen Spieler, des Balls und der Schiedsrichter liefert – siehe folgendes Video.

Fußball und Statistik: Tracking der Spieler per Kamera und per Hand weiterlesen

Robotorjournalismus: Berichterstattung per Algorithmus

Vergangenes Wochenende sprach die Medienjournalistin Ulrike Langer im Deutschlandradio Wissen zum Thema “Algorithmen machen Schlagzeilen“. Die acht Minuten sind hörenswert; u.a. geht es auch um den Wandel bei den Nachrichtenagenturen.

Die Ära des Maschinenjournalismus dämmert herauf und wird noch einiges an Arbeitsplätzen in Redaktionen vernichten – ähnlich wie Arbeiter am Fließband in der Schwerindustrie schon vor Jahrzehnten durch Roboter ersetzt wurden.  So dürfte es nach “demand media”  nicht mehr weit sein zu “demand news”.  Den Weg in diese Richtung weist das Projekt “News At Seven” des “Intelligent Information Labatory” der Northwestern University in den USA:  Nachrichtensprecher werden automatisiert (siehe Video). So werden beispielsweise Filmbesprechungen über Portale, die Wertung via User und Kritiker sammeln (IMDB, Rotten Tomato, Metacritic) ausgewertet und das Skript für eine Sendung on-demand auf Grund eines Suchbegriffs erzeugt: Die beiden animierten Moderatoren sprechen mit einer künstlichen Stimme und können auf eine Floskel- und Redewendung Datenbank zurückgreifen.

Robotorjournalismus: Berichterstattung per Algorithmus weiterlesen

Datenjournalismus: Folien zu der re:puclica Session

Auf der re:publica habe ich eine Einführung in das Thema Datenjournalismus gegeben. Gut 20 Leute hörten zu. Das in der Präsentation angeführte Beispiel über die Anzahl der gefallenen Bundeswehrsoldaten in Afghanistan war nicht sehr gut gewählt. Nicht wegen dem Thema, aber wegen mangelnder Tiefe durch den geringen Datensatz und die damit einhergehende Probleme bei der Visualisierung und dem geringen Erkenntnisgewinn. (Über die ungeeigneten Grundeinstellung der Google Motion Chart (Gapminder-Derivat) schreibt auch Christiane Schulzki-Haddouti in ihrer lesenswerten OpenData-Serie für Zeit Online in Sachen Parteispenden.)

Interessantes Feedback gab es jedenfalls; sicher richtig war die Anmerkung, dass Data Driven Journalism grundsätzlich bedeutet, dass aus Datensätzen Geschichten gewonnen werden, also von Daten “getrieben” werden. Mehr oder minder Konsens war, dass Datenjournalismus noch am Anfang stünde; nicht zuletzt deswegen, da gerade erst die entsprechenden Werkzeuge/Softwaretools entstehen bzw. frei verfügbar sind (siehe Gephi) – und die wollen ersteinmal beherrscht werden.

Auf dem am Wochenende folgenden Hackday wurde eine englischsprache Mailingliste zum Thema Data Driven Journalism ins Leben gerufen.

Data Driven Journalism: Versuch einer Definition

Das Internet ist nicht arm an Buzzwords – Schlagworten, die für einige Zeit Konjunktur haben und sich eben etablieren oder wieder verschwinden. Data Driven Journalism (DDJ) geistert vermehrt seit vergangenem Jahr durch das Web. Im März 2009 startet die englische Tageszeitung The Guardian auf ihrer Website das Datablog; es ist eingebettet in einen Datastore und dürfte bislang als Referenz für DDJ gelten. Einer breiteren Öffentlichkeit wurde das Thema „Datenjournalismus“ in Deutschland durch die Zeitschrift „M – Menschen Machen Medien“ im März 2010 näher gebracht. Im Periodikum des Fachbereichs Medien der Gewerkschaft ver.di mit einer Auflage von 50.000 ging es um die „Spannende Recherche im Netz“.

Begonnen hat es allerdings schon 2006: Als eine Art Manifest in Sachen DDJ gilt der Text „A fundamental way newspaper sites need to change“ von Adrian Holovaty. Er meinte, dass viele Informationen bereits in einer strukturierten Form (=Datensätze) vorliegen oder sinnvollerweise in einer solchen abgelegt werden könnten. Als Beispiel nannte er einen Brand in einem Wohnhaus – es gäbe Fakten, die immer gleich sind – letztlich die berühmten W-Fragen: Wo, wann, wie viele Betroffene, Verletzte, Tote, wie viele Feuerwehrmänner waren im Einsatz etc.

Zeitungsredaktionen usw. könnten also Datenbanken über Ereignisse mit einer konsistenten Datenstruktur aufbauen, so Holovaty, die sowohl für die eigenen Recherche als auch online als Angebot für die eigenen Nutzer/innen bereitgehalten werden können – man denke beispielsweise an eine Karte, auf der sich die Feuer anzeigen lassen und eben nach diversen Kriterien Filtern lassen.

Was ist also das Neue am Daten-getriebenen Journalismus?

Die Recherche in Datensätzen, etwa Statistiken, ist wahrlich nichts Neues. Das gilt auch für die rechnergestützte Recherche, das Computer-assisted-reporting (CAR), welches seit Jahrzehnten praktiziert wird.

Data Driven Journalism: Versuch einer Definition weiterlesen