Tag Archiv für data exchange

Was soll das sein: Linked Data?

Von Richard Light

PenClipartVectors via pixabay (CC0)Es kann sein, dass Ihnen schon einmal jemand begegnet ist, der (wie ich) enthusiastisch dafür plädiert hat, die Museumssammlung in der Form von Linked Data zu publizieren.
Ihre Reaktion war dann möglicherweise mit den Schultern zu zucken, zu sagen “ich weiß nicht was das ist und ich weiß nicht wie man das macht“, um sich dann der Inventarisierung und Verwaltung der eigenen Sammlung zu zu wenden.

Dieser Beitrag versucht aus kulturhistorischer Sicht zu erklären „was Linked Data sind“, welche Möglichkeiten sie bieten und warum es im Augenblick noch sehr schwierig ist, sie anzuwenden.

Das Internet als dezentrale Datenbank

Wir alle wissen, wie das Internet funktioniert. Man findet eine Seite mit Informationen, die einen interessieren, dorthin gelangt man in der Regel über eine wohlbekannte Suchmaschine. Diese erste Seite mit Suchergebnissen enthält eine Menge Links zu relevanten Seiten und man klickt einfach auf die Seiten, die einem selbst wichtig erscheinen. Auf jeder neuen Seite gibt es weitere Links, denen man folgen kann. Wenn man viel Glück hat kann das damit enden, dass man sich im Kreis bewegt. Diesen Vorgang bezeichnet man als browsen (blättern) im Internet. Das ist gut, solange es darum geht, Informationen nach zu schlagen und zu lesen, eine Seite nach der anderen.

Wenn man diese Seiten aber als Datensatz nutzen möchte (zum Beispiel, um Hintergrundinformationen zu einem Katalogeintrag hin zu zu fügen), dann stößt man rasch an Grenzen. Man kann eine (oder alle) der Webseiten mit copy und paste in die eigene Dokumentation einfügen. Aber schließlich wird man entweder eine ärgerliche Anzahl von HTML Auszeichnungen zusammen mit dem Text in den eigenen Daten haben, oder die Auszeichnungen verschwinden und aller Text wird irgendwie zusammengeschoben. In keinem Fall kann man erwarten, aus Webseiten Daten so zu extrahieren, dass sie mit dem eigenen Inventarisierungsprogramm kompatibel sind.

Auch Linked Data funktioniert wie Webseiten. Der große Unterschied ist aber, dass jede „Seite“ eine Art Datenbankeintrag ist. Man kann von einer Linked Data Seite zur nächsten blättern, so wie man zwischen Webseiten blättert. Im Endeffekt ist das Linked Data Netz eine lose verbundene Datenbank, die das ganze Internet umfasst.

URLs Nutzen um Begriffe zu definieren

Linked Data, das ist etwas, das wir nutzen können, um die Gesamtheit der Dinge, die die Welt des kulturellen Erbes ausmachen darzustellen. Es um fasst Personen, Orte, Ereignisse … und Objekte. Ein zentrales Merkmal der Arbeit mit Linked Data ist, dass jeder Begriff seine eigene unverwechselbare Kennung hat. Das ist seine Internetadresse (URL), die genau den gleichen Regeln folgt, die auch Webseiten eindeutig identifizieren.
Das zum Beispiel ist die Kennung einer Person aus dem Künstlernamen Thesaurus des Gettymuseums (ULAN) als Linked Data:
http://vocab.getty.edu/ulan/500077287
Wenn man diese URL im Browser eingibt, so erscheint eine etwas fremd anmutende Webseite, die alle über diese Person bekannten Fakten auflistet. Die Überschrift macht deutlich, dass es sich um John Gerald Patt handelt, was aus der URL nicht erkenntlich ist.

So weit, so gut, nichts Aufregendes – aber hier beginnt nun der Zauber der Linked Data. Wenn man auf einem anderen Weg die gleiche URL eingibt, dann bekommt man die dahinterstehenden Daten zurück. Ich übergehe jetzt den genauen Weg dahin1 und die technischen Details der Daten2 und stelle nur vor, wie es aussieht. Das ist ein Teil der XML-Version von John Gerald Patts Daten:

Dieses Fragment listet die verfügbaren biographischen Daten auf. Der springende Punkt ist, dass jedes biographische Faktum seine eigene Linked Data URL hat, die man dann nachschlagen kann. Zum Beispiel zeigt:

http://vocab.getty.edu/ulan/bio/4000231223

Dieses bibliographische Fragment enthält einige echte Fakten: 2 Daten und eine summarische Beschreibung. Ebenso gibt es URLs für John Gerald Patts Geschlecht und seinen Geburtsort, die man finden und die Daten übernehmen kann. Sie werden bemerkt haben, dass die Daten aus unterschiedlichen Thesauri des Gettymuseum stammen: das Geschlecht findet sich im AAT (Art and Architecture Thesaurus) und der Geburtsort im TGN (Thesaurus of Geographic Names). Das ist ein gutes Beispiel für den Umgang mit Linked Data: schon existierende Strukturen verwenden, um die Dinge auszudrücken, zu denen man etwas beitragen möchte und nicht neue erfinden.
Das wirklich erfreuliche, wenn man die Linked Data URLs in den eigenen Unterlagen benutzt ist, man bekommt zusätzliche Informationen „umsonst“. Wenn man, zum Beispiel, einen Geographiethesaurus wie Geonames 3 benutzt, dann erhält man für jeden Ort auch die geographischen Koordinaten, das heißt man kann Verteilungskarten voller Pins erstellen und es braucht dafür nur ein klein wenig Programmierarbeit.

Die eigene Sammlung als Linked Data veröffentlichen

Kehren wir also zu meinem anfänglichen Vorschlag zurück, die Informationen zu Ihren Objekten als Linked Data zu veröffentlichen. Es gibt zwei gute Gründe das zu tun: man beansprucht schon mal einen Platz für das eigene Material in der Welt der Linked Data, und man stellt eine API zur Verfügung, die andere nutzen können, wenn sie Zugang zu ihren Daten haben möchten. Ich konnte einen Versuch für Museenm in England starten und einige der Museen haben die Gelegenheit genutzt4.

Aber, worauf ich am Anfang auch hingewiesen habe, es gibt auch gute Gründe, die Sammlung nicht mit Linked Data zu veröffentlichen. Drei sind augenfällig: ich wette darauf, dass Ihr Datenbanksystem keine Unterstützung für die Eingabe von Linked Data URLs bietet; auch kann die Umgebung der Software für Veröffentlichungen im Internet Linked Data nicht nutzen, um die Webpräsenz zu verbessern und (vielleicht am wichtigsten) es fehlt noch an der Struktur bei Linked Data für die Begriffe, über die wir nun Informationen teilen wollen: Leute, Orte und Ereignisse.

Ich werde auf diese Dinge in zukünftigen Beiträgen detaillierter eingehen, in der Zwischenzeit freue ich mich darauf, auf Ihre Kommentare und Fragen zu antworten.

Richard Light ist ein Informatiker und Softwareentwickler aus England und hat sich fast sein ganzes Berufsleben lang mit Museums-Informations-Systemen beschäftigt. Er war an der Digitalisierung des Sedgwick Museums in Cambridge beteiligt, als es noch Lochstreifen und Großrechner gab und dann erarbeitet er für die Museum Documentation Association (heute: Collections Trust) Datenstandards und Datensysteme. Seit 1991 ist er selbständiger Berater im Bereich des Kulturerbes mit dem Schwerpunkt auf Markup-Sprachen und Linked Data. Er ist der Vorsitzende von Free UK Genealogy5 und besucht regelmäßig die Treffen von CIDOC6: etwas, das jeder, der in der Museumsdokumentation arbeitet tun sollte!

Übertragung aus dem Englischen ins Deutsche von Brigitte Herrbach-Schmidt.

  1. Man braucht den Kopfdatensatz der HTTP-Header-Felder
  2. Es ist RDF (Resource Description Framework, sinngemäß „System zur Beschreibung von Ressourcen“) ein Datenmodell, das auf gerichteten Graphen basiert: https://www.w3.org/RDF
  3. z.B. http://sws.geonames.org/7298484/about.rdf
  4. z.B. http://collections.wordsworth.org.uk/Object/WTcoll/id/rdf/GRMDC.C144.9
  5. http://www.freeukgenealogy.org.uk/
  6. http://network.icom.museum/cidoc/
Facebooktwittergoogle_plusredditpinterestlinkedintumblrmail