Big Data im Sport – im Kino und bei Zeit Online

Anfang Februar kommt der Film “Moneyball” in die deutschen Kinos. Eine Verfilmung des gleichnamigen Buches mit dem Untertitel “The art of winning an unfair game”. Es erschien im Jahr 2003. Darin geht um einen Baseballverein, dem es gelingt, durch Datenanalyse der Spielerstatistiken trotz geringen Budgets eine sehr erfolgreiche Mannschaft aufzustellen. Diese Herangehensweise prägte einen eigenen Begriff: Sabermetrics (SABR- Society for American Baseball Research).

Nun hat Zeit Online vor einigen Tagen eine Datengeschichte rund um die Budgets der Fußball-Bundesligavereine gebracht. Sie runtergebrochen auf Kosten pro Tor, Pass usw.. Eine interessante Idee und technisch gut umgesetzt. Vorbildhaft sind die dargestellten Daten auch als Google Doc veröffentlicht. Update: Auch wird die App nach jedem Spieltag aktualisiert, siehe Hinweis von @venohr.

Ein paar Sachen stören allerdings. Das Video oben rechts lenkt von der Anwendung ab und kann nicht Ersatz für eine fehlende redaktionelle Einbettung sein: Artikel, die den Kontext darstellen, Geschichten erzählen, Hintergrund zum Thema bieten. So fehlt etwa eine wesentliche Angabe – die Quelle oder Datengrundlage für die Investitionssummen der Vereine.

Weiterlesen

Datenjournalismus: Bilanz 2011 und Ausblick

In Sachen Datenjournalismus war im deutschsprachigen Raum im Jahr 2011 einiges los. Manche, wie Medienjournalist Christian Jakubetz, meinen dennoch, dass der Hype um Datenjournalismus bereits zurückgehe und das Thema in zwei Jahren vom Tisch wäre.

Eine Einschätzung gegen die einiges spricht. Im Frühjahr 2012 etwa wird es eine Recherche und Datenjournalismus-Fachtagung in Hamburg geben. Das in Berlin bereits sechs Mal statt gefundene Datenjournalismus-Treffen wird im neuen Jahr am 25. Januar in anderer Form weitergehen: Mehr praxisorientiert und von mehr Leuten in der Vorbereitung getragen (die offene Mailingliste dazu findet sich hier). Und wie in diesem Jahr wird es auf der Netzkonferenz re:publica im kommenden Mai auch um Datenjournalismus und Open Data gehen.

Steigendes Interesse, auch jenseits des Journalismus

Aus Sicht meiner Warte stelle ich fest, dass die Anfragen nach Referenten- und Trainingstätigkeiten rund um das Thema stetig zunimmt; ebenso die Wünsche danach, als Interviewpartner zur Verfügung zu stehen – nicht zuletzt für Studierende, die ihre Abschlussarbeit zu dem Thema schreiben (ich schätze, dass zur Zeit mindestens fünf solcher Arbeiten im deutschsprachigen Raum geschrieben werden/ wurden – z.B. eine wie diese hier (pdf)). Weiterlesen

NDR Medienmagazin ZAPP – Datenjournalismus Interviews

Gestern, am 16.11.2011, lief beim NDR Medienmagazin ZAPP der Beitrag “Neue Recherchewege – Datenjournalismus”.

Hier die Langfassung der Videos, die ausschnittsweise im Film oben zu sehen sind; es gibt alternativ auch nur die Audiospur als mp3-Datei, für diejenigen, die nicht an den Talking Heads interessiert sind. Videos und Audiofiles sind vom NDR unter einer CC-Lizenz unter den Bedingungen Namensnennung, nichtkommerziell und nichtabwandeln (by:nc:nd) freigegeben.

Weiterlesen

Robot journalism and jobs in the newsroom

Yesterday I gave a short presentation as a Respondent to Christopher Anderson at the Berlin Symposium (a conference following the foundation of the Institut für Internet und Gesellschaft funded by Google).
Anderson talked about Algorithms and Journalism; Axel Bruns live-blogged about it here – and this is Andersons conference paper (pdf) in length.
My input focused on the role of sensors, the automation of journalism and what it does mean to jobs in journalism.
Anderson used the term “cyborg journalism”, because algorithms are developed by humans and exercised by machines. It fits better than Robot journalism, I think.
Anyway, find above the presentation; the links in the following are embedded in the presentation, too. Weiterlesen

Neues von der Definition des Datenjournalismus’

Anfang des Monats ging es auf der englischprachigen ddj-Mailingliste um die Definition des Datenjournalismus’.

Nicolas Kayser-Bril (@nicolaskb) beklagte, dass es nach wie vor keine treffende Definition gebe. Deswegen nahm er es in Angriff, den englischsprachigen Wikipediaeintrag zu „datajournalism“ und anverwandte Begriffe zu überarbeiten. Er stellte auf der Liste sein Vorhaben wie folgt vor:

Datenjournalismus sei demnach ein Mantel-/Containerbegriff für einen Trend im Journalismus und des Informationsmanagments. Er sei Folge der zunehmenden Menge an numerischen Daten in der Produktion und Verbreitung von Informationen. Ebenfalls ginge es um einen Zusammenarbeit von Inhalteerstellern – Journalisten – und Designern, Progammieren und Statistikern.

Weiterlesen

Self-education Python study group

What’s the plan? We meet once a week online in the evening to study together.

The Peer-to-Peer-University platform will be used for the self-education Python course starting on November 1st, 2011. More about the P2PU-platform down below.

The course is self-organized and thus free. But its very important you are motivated to learn together with others and be an engaging member of the group.

Every week we decide on how much exercices out of the course book Learning Python the hard way we are going to work on the coming week. (The html-version of the book is for free; pdf/ePub available for 3 USD.)

Sign-up here! Press “Participate” on the left of the screen.

Weiterlesen

Datenjournalismus ist eine große Chance

msnbc hurricane tracker

Seit vergangenem Jahr ist weitläufig bekannt: Onlinejournalismus kann mit großen Datensätzen eine neue Form der Berichterstattung leisten – Stichwort WikiLeaks. Der so genannte Datenjournalismus oder data-driven-journalism hat nützliche Erzählmethoden hervorgebracht. Der umstrittene Julian Assange spricht auch von „wissenschaftlichen Journalismus“, der sich ausschließlich an der Faktenlage sowie den vorliegenden Daten orientiert und die Meinung sowie Wertung des Autors gänzlich zurücktreten lässt. Und schon 2006 legte der programmierende Journalist Adrian Holovaty aus den USA dar, warum sich Nachrichtenseiten im Netz angesichts der wachsenden Datenmenge fundamental ändern sollten.

Jüngst war zu beobachten, wie sinnvoll Datenjournalismus auch in der tagesaktuellen Berichterstattung sein kann: Während der Hurrikan Irene drohte, New York mit voller Wucht zu treffen, boten einige Onlinemedien in den USA interaktive Visualisierungen an. Diese beruhten auf Open Data der US-Wetterbehörde und boten die Möglichkeit, den voraussichtlichen Weg des Hurrikans vorzuzeichnen. Siehe etwa die New York Times (NYT) oder MSNBC (die jeden Sturm verfolgen). Darüber hinaus bot die NYT eine interaktive Karte mit den Evakuierungszonen und zeigte die Folgen des Sturms für die Region.

Weiterlesen im Open-Data-Blog auf zeit.de

Programming Journalist: Python Fernkurs

UPADTE 22.09.2011: Am 1. November 2011 startet ein selbstorganisierter Python-Fernkurs.

UPDATE 24.8.11: Das Feedback zu dem unten skizzierten Kurs war gemischt; in der Form wird er deswegen nicht stattfinden. Es gab auf dem letzten Berliner Datenjournalismus-Treffen dann die Überlegung, einen selbstorganisierten kostenfreien Fernkurs anhand des Buches Learn Python the hard way zu organisieren. Wesentlich konkreter ist diese Überlegung allerdings bislang nicht gediehen. Die Fragen sind:

  • Wer kümmert sich (mit)?
  • Mittels welcher Lernplattform?
  • Wann geht es los?

Anmerkungen etc. dazu bitte per Kommentar.

— Update-Ende —

Vergangenes Jahr gab es in Berlin einen zweitägigen Workshop rund um die Programmiersprache Python/Django. Obwohl alle Teilnehmenden recht zufrieden waren, wurde auch klar: Hier wurde nur an der Oberfläche gekratzt.

Deswegen jetzt das Angebot (siehe Umfrage unten): Es wird erneut ein Seminar halbwegs kostengünstig organisiert; diesmal aber mit einem anderen Modell. So soll solider und ausführlicher in die Grundlagen der Programmiersprache Python eingeführt werden. Erst zum Abschluss wird das Framework Django vorgestellt.

Der Kurs  richtet sich auch an Einsteiger/innen in eine Programmiersprache; Vorraussetzung ist, nicht allzu sehr mit Rechnern und Web zu fremdeln sowie Englischkenntnisse mitzubringen.

Weiterlesen

DataWrangler Tutorial – Aus gescanntem Dokument wird eine Tabelle

Wrangler Demo Video from Stanford Visualization Group on Vimeo.

Anhand der Rechenschaftsberichte der Parteien für 2009 wird hier gezeigt, wie sich DataWrangler nutzen lässt. Diese Browser-Anwendung der Universität Standford erlaubt eine Echtzeitmanipulation von Datensätzen mittels einer grafischen Benutzeroberfläche. Es ist ein etwas kompliziert anmutendes Tool – aber es lohnt sich damit zu beschäftigen, da es viel Datenarbeit ersparen kann.

Vor zehn Tagen veröffentlichte taz.de zwei Werkzeuge rund um Parteispenden, die wir von OpenDataCity umgesetzt haben. Einmal eine interaktive Karte der Spender für 2009 über 10.000 Euro sowie ein Recherchetool für die 6700 Spenden über 10.000 Euro in den Jahren 1994 bis 2009. Das ist nur die Spitze des Eisberges; bei manchen Parteien machen die undokumentierten Spenden unter 10.000 Euro die Hälfte der gesamten Finanzen aus. Mehr dazu in diesem taz-Kommentar.

Eigentlich hätte das alles schon viel früher erscheinen sollen; die Vorbereitungen dafür liefen schon seit Ende vergangenen Jahres. Doch dann kamen die Umwälzungen in Nordafrika sowie der Tsunami und die GAUs von Japan dazwischen. So rutschte die Geschichte immer weiter nach hinten und das Pech wollte es, dass Spiegel Online ausgerechnet eine Woche früher ebenfalls eine Parteispendenvisualisierung anbot. Die ist recht gelungen und funktional. Glücklicherweise konzentriert sie sich auf Großspenden über 50.000 Euro und bietet nur die Zahlen ab 1998 auf. Auch stellt SPON – entgegen der taz – die grundlegenden Daten nicht zur Weiterverwendung zur Verfügung (hier finden sich die Daten für 1994 bis 2009).

Weiterlesen

Daten sind der Treibstoff des Journalismus

Daten sind ein Rohstoff. Diese Einsicht ist ein geflügeltes Wort, spätestens seit der Werbefachmann Michael Palmer 2006 schrieb: “Daten sind das neue Öl.” Palmer postulierte im Bild dieser Metapher, dass unbearbeitete Daten wertlos seien. Erst wenn sie bearbeitet würden, entstünden aus ihnen nützliche Produkte, so wie aus Öl Plastik, Dünger oder Benzin gemacht wird.

Im gleichen Jahr schrieb der amerikanische Journalist und Programmierer Adrian Holovaty einen wegweisenden Text mit dem Titel “A fundamental way newspaper sites need to change“.  Seiner Meinung nach sollten sich Zeitungen und andere Medien nicht nur auf Geschichten konzentrieren. Sie sollten viel mehr Informationen unter dem Aspekt betrachten, wie ihr Inhalt sich in strukturierter Form, also in Datenbanken, ablegen lässt. Dann, so Holovaty, könnte aus Geschichten auf Dauer ein Mehrwert abgeschöpft werden. Denn solche strukturierten Informationen können mit anderen Datenbanken verknüpft und automatisiert abgerufen werden. Und mit ihnen können wiederum publizistische Angebote angereichert werden – aufbereitete Daten als Dünger des medialen Feldes.

Weiterlesen im Open Data Blog auf ZEIT Online.