Das Wikidata-Projekt: Wikipedia profesionalisiert sich weiter

Es ist immer wieder interessant, zu beobachten, was für Ideen und Konzepte im redaktionellen Alltag Bestand haben und in unterschiedlicher Gestalt immer wieder kehren. So gab es bereits vor rund 10 Jahren während meiner Zeit bei der traditionsreichen Verlagsgruppe um das Großlexikon Brockhaus die Idee, bestimmte Daten wie z. B. Einwohnerzahlen von Städten, Geburtsdaten von Persönlichkeiten oder Flächendaten von Ländern – Primärinformationen also, die in verschiedensten Artikeln immer wieder aufgeführt werden – nicht in jedem Artikel manuell, also “hartgecodet” aufzuführen, sondern diese Informationsbestandteile nur jeweils einmal zentral in einer Datenbank zu pflegen, so dass Artikel, die diese Fakten enthalten, sich die Informationen aus der Datenbank ziehen und Änderungen daran automatisch in allen Artikeln, die dieses Faktum zitieren, aktualisiert werden. Eine solche Faktendatenbank war konzeptionell bereits abgeschlossen und relativ weit in der Entwicklung – als das Brockhaus-Lexikon sein bekanntes Schicksal ereilte. Nun greift die Wikipedia – der legitime Nachfolger des Brockhaus im Internetzeitalter – diese Idee auf. Wikidata” nennt sich das Projekt, das im ersten Schritt den ehrenamtlichen Wikipedia-Autoren ganz im eingangs beschriebenen Sinne Erleichterung bei der täglichen lexikalischen Arbeit verschaffen soll. So müssen Verweise auf Artikel zum gleichen Stichwort in den verschiedenen Sprachversionen der Wikipedia nun nicht mehr händisch gesetzt werden, sondern werden vom System automatisch erzeugt (z. B. Links vom deutschen Artikel “Widerstand (Bauelement)” zum englischen Gegenpart„Resistor“ oder zum Finnischen „Vastus“).  Mit Hilfe der Zentraldatenbank werden nun auch Automatisierungen möglich, die bislang sehr viel manuellen Recherche-Aufwand nach sich zogen. War es bisher nötig, Informationen wie die „Liste der Millionenstädte“ oder die„Liste der Bundesautobahnen in Deutsch land“ händisch zusammensuchen und ständig aktualisieren – und das einzeln für jede der 286 Wikipedia-Sprachversionen – werden solche Listen künftig einfach per Datenbankabfrage automatisch erzeugt.

Voraussetzung für solche praktischen Anwendungsfälle ist es, bestimmte Informationen, die bislang unstrukturiert im Fließtext von Lexikonartikeln vorliegen, strukturiert in Datenbanktabellen abzulegen. Bei Brockhaus sollte dies durch sprachtechnologische Extraktionsmechanismen erfolgen. Die Wikipedia bleibt hier ihrem communitygetriebenen Grundgedanken treu und lässt die Faktendatenbank von den Usern manuell pflegen. Getreu dem “Schwarmwissen”-Konzept wird dabei darauf vertraut, dass Vandalismus und Unsinns-Eingaben – etwa die Angabe einer “Hauptstadt” zu einer Person, z. B. “Julius Caesar” – allein durch die Masse an Editoren kurzfristig wieder bereinigt werden.

Der Schritt zur zentralen Datenpflege zeigt einmal mehr auf, dass sich die Autoren der Wikipedia auf lange Sicht genau den gleichen Problemen und Herausforderungen in der täglichen Arbeit ausgesetzt sehen, die ein Traditionslexikon wie Brockhaus bereits vor Jahren gelöst hatte. Wikipedia bewegt sich also zusehends weiter weg vom Sammelsurium aus Hobbyautoren zum professionell strukturierten Informationsanbieter.

Dieser Beitrag wurde unter E-Publishing, Information Retrieval, Social Web, Wissensmanagement abgelegt und mit , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.