Daten und ihre Geschichten: Der Journalismus aus der Datenbank steht noch am Anfang

Foto: @thewavingcat/Twitpic
Foto: @thewavingcat/Twitpic
Letzte Woche Amsterdam, diese Woche Berlin: Konferenzen und Meetups über Daten-Journalimus - früher auch als Computer Assisted Reporting (CAR) bezeichnet - scheinen in Mode zu kommen. Dazu passt der immer deutlicher vernehmbare Ruf von Online-Aktivisten und Bürgerrechtlern nach Open Data im Sinne der Informationsfreiheit – und zwar in maschinenlesbarer Form, so dass Programmierer die Daten weiterverarbeiten und mit anderen Quellen verknüpfen können.

Soweit die Theorie. In der Praxis erproben bislang nur wenige Medienhäuser den Umgang von Journalisten und Daten, und auf den Konferenzen zum Thema werden auch immer wieder die gleichen Leuchtturm-Projekte vorgestellt. Dafür gibt es nicht nur ökonomische, sondern auch organisatorische Gründe. Gerd Kamp, Leiter des dpa-Newslab, kann lange Geschichten davon erzählen, wie schwierig (nein: unmöglich) es sich gestaltet, von deutschen Städten und Gemeinden kartografische Daten zu erhalten - und wie schwierig (aber doch: möglich) es war, die dpa-Redaktion dazu zu bringen, Nachrichten mit Adressen zu verknüpfen, um sie später lokalisieren zu können

Kultur-Clash
Hinzu kommen kulturelle Unterschiede: Journalisten und Techies sprächen eben unterschiedliche Sprachen, sagt der Journalistik-Dozent Eric Ulken, der 2007 den sogenannten Data Desk bei der Los Angeles Times einführte. Doch die Gräben verlaufen auch jenseits der Sprachbarriere. Das Prinzip Open Data verträgt sich nämlich nicht automatisch mit dem Exklusivitäts-Wunsch klassischer News-Medien, und Journalisten haben traditionell den Anspruch, mehr zu wissen als "gewöhnliche" Bürger; diese Einstellung kann man als Herrschaftswissen verteufeln oder nüchtern als Wettbewerbsvorteil auf einem zunehmend umkämpften Markt sehen.

Das sieht Martin Belam vom Londoner Guardian anders. In der Nachrichtenbranche, fordert er, müsse man zu verstehen beginnen, "dass es nicht nur auf eigenen Content, sondern auch auf externe Verlinkung ankommt". Journalisten, so Belam, würden nämlich zunehmend zu "Kuratoren von Daten und Informationen".

Mit Daten spielen
Die viel gelobte Website des Guardian wirkt zwar nicht so, als werde dort nur noch kuratiert und nicht mehr recherchiert; doch der Wertewandel hinterlässt schon Spuren. In ihrem Datablog publiziert die Zeitung regelmäßig die Datenquellen hinter ihren Stories und fordert die Leser zum Mitmachen auf: Sie sollen mit den Daten spielen und Fundstücke zurückmelden.

Als der Guardian - zusammen mit der New York Times und dem Spiegel - die Afghanistan War Logs von Wikileaks als Datensammlung online stellte, hatte er laut Belam schon deshalb einen Vorteil, weil wir das bereits seit Jahren machen". Und als die britische Regierung vor einem Jahr die Spesen Ihrer Parlamentarier offenlegen musste – allerdings erst unter dem Eindruck einer klassischen Enthüllung des Daily Telegraph -, ließ der Guardian die Daten-Lawine einfach zur Begutachtung auf seine Leser los.

Linked Data und Artikel-API
Diese Art von Offenheit zahlt sich aus. Per Crowdsourcing können sich Redaktionen externes Know-how und personelle Kapazitäten erschließen, über die sie selbst nicht verfügen. Der Rückgriff auf externe Datenquellen schafft aber auch inhaltlichen Mehrwert. Die BBC baute auf ihrer durch ein semantisches Datennetz verknüpften Fußball-WM-Website lieber Spieler-Biografien aus der Wikipedia ein, statt den Content selbst herzustellen - und vergaß nicht, der offenen Internet-Enzyklopädie durch Links auf die Hauptartikel und durch Fehler-Korrekturen etwas zurückzugeben. Bei den Olympischen Spielen 2012 in London, so BBC-Entwickler Jem Rayfield, wolle man mit Hilfe von RDF, einem auf XML basierenden Metadatenformat, und Linked data alle Athleten-Biografien in maschinenlesbarer Form bereitstellen.

Der Guardian wiederum stellt sein Artikel-Archiv über eine API-Schnittstelle bereit. Lupenreine Open Data isind das aber nicht, denn natürlich gibt es die journalistischen Inhalte nicht ohne Copyright und Grenzen. Bei Quellenangabe samt Auslieferung eines Code-Schnippsels für Werbeeinblendungen lässt sich das Archiv immerhin kostenlos anzapfen, solange daraus keine Gewohnheit wird. Sonst melde sich bald die Syndication-Abteilung, warnt Guardian-Mann Belam. Bei der Frage nach dem Profit zuckt er nur mit den Schultern und übt sich in Galgenhumor. Schließlich habe der Guardian im letzten Geschäftsjahr 34 Millionen Pfund Minus gemacht. "Ich bin mir jedenfalls sicher, dass unsere Print-Ausgabe mehr Verlust macht als wir mit unseren Daten."

Ein Architekt, viele Journalisten
Und damit zur Urangst vieler Journalisten: Werden Datenbanken und intelligente Datamining-Software sie irgendwann einmal überflüssig machen? Beim gesamten Guardian ist Belam der einzige "Information Architect". Die Journalisten sind also immer noch in der Überzahl. "Daten allein reichen nicht", beruhigt Jonathan Gray von der Open Knowledge Foundation, die sich international für Open Data stark macht. "Man braucht Journalisten mit dem nötigen Wissen, um die ganze Geschichte zu erzählen.“

Zuweilen bergen die Geschichten aus Datenbanken aber auch das Potential für handfeste Kontroversen. Schon 2007 begann die LA Times in einem Homicide-Blog Statistik über Morde in der Stadt zu führen und reicherte diese Fälle mit einem Mash-up aus Namen, Adresse, Landkarten-Standort und Foto jedes Opfers an. Und die Privatsphäre? Kritik sei hauptsächlich aus Europa gekommen, berichtet Eric Ulken, der die LA Times 2008 verließ, aber weiterhin berät.

Mit ihrem neuesten Daten-Coup hat die Zeitung nun aber fast die gesamte Lehrerschaft von Los Angeles gegen sich aufgebracht: Sie machte die behördliche Bewertung von 6.000 Grundschullehrern an 470 Grundschulen im Stadtgebiet öffentlich – jeder Lehrer ein per Suchmaschine auffindbarer Datensatz mit Namen, Angaben zur Karriere und hübschen Balkendiagrammen seiner "effectiveness".

In aller Offenheit: Daten können manchmal grausam sein.