Das Digitale Liszt Quellen- und Werkverzeichnis weicht in seiner Gestalt von gedruckten Werkverzeichnissen ab. Die Unterschiede erstrecken sich nicht allein auf das Präsentationsmedium. Um die erfassten Daten überhaupt in einer Datenbank ablegen zu können, müssen sie zunächst klar strukturiert und maschinenverständlich abgelegt werden. Die nötige Modellierung der Datenstruktur kann mehr oder weniger kompatibel zu vergleichbaren Projekten angelegt werden. Die erfassten Daten können lokal beim Projekt abgelegt und ausschließlich von dort abrufbar gehalten oder in gemeinsam genutzten Forschungsdatenrepositorien aufbewahrt werden. Langfristig wird die Forschungscommunity von möglichst einheitlichen Datenstrukturen und gut verfügbaren Daten profitieren. Diesem Ziel verschreibt sich auch das Liszt-Portal.
Verteilte Datenhaltung
Beim Aufbau einer Datenhaltungsinfrastruktur stehen folgende Fragen im Vordergrund:
- Welche Informationen sollen gespeichert werden und wie werden sie strukturiert?
- Welche Formate eignen sich zur Ablage dieser Informationsstrukturen?
- Werden die Daten gesammelt in einer selbst kontrollierten Umgebung gehalten, oder in zentrale Repositorien ausgelagert?
Abbildung 1 skizziert in Bezug auf die letzte Frage die Möglichkeiten für die Datenhaltung. Im einfachen Fall kann eine lokale Datenhaltung vorgesehen werden, wobei mit lokal gemeint ist, dass die Datenbank in voller Verantwortung des Projekts geführt wird. Diese Datenbank wird dann mit Hilfe einer Eingabemaske befüllt und liefert ihre Daten an ein Webportal aus. Alternativ kann das Portal mit Daten befüllt werden, die aus verschiedenen zentralen Repositorien stammen. Hier gibt das Projekt die Verantwortung über die Datenbanken und deren Eingabemasken ab. Um Daten aus unterschiedlichen Repositorien zusammenzuführen, wird ein Datenmodul dem Portal vorgeschaltet, das die benötigten Daten aus unterschiedlichen Quellen abruft und miteinander verknüpft an das Portal ausgibt.
Zentrale Datenrepositorien geben Format und Struktur der in ihnen gehaltenen Daten häufig vor. Ob diese Repositorien allerdings überhaupt genutzt werden können, hängt von der Art der zu speichernden Informationen ab. Der Ausgangspunkt für alle Überlegungen zur Datenhaltung des Digitalen Liszt Quellen- und Werkverzeichnisses ist die erklärte Zielsetzung, alle erhobenen Daten anschlussfähig und nachnutzbar zu halten. Zentral dafür ist die Nutzung vorhandener Repositorien, wo es möglich ist. Die Projektdaten werden also von Anfang an in hohem Maß wissenschaftliches Allgemeingut, anstatt in einem Silo zu verschwinden, aus dem sie ausschließlich über das Liszt-Portal abgerufen werden können. Sie leisten einen wesentlichen Beitrag zur Qualität der genutzten wissenschaftlichen und bibliothekarischen Datenhubs, die sie inhaltlich erweitern und qualitativ verbessern.
Bei der Datenmodellierung des LisztQWV wurde allerdings klar, dass nicht alle vorgesehenen Repositorien alle benötigten Informationen für das Portal adäquat aufnehmen können. Einige Repositorien sind im bibliothekarischen Kontext entstanden und waren ursprünglich nicht für den wissenschaftlichen Gebrauch vorgesehen. Diese zusätzlich benötigten Informationen müssen also lokal gehalten werden, sodass das LisztQWV als eine Mischform aus den beiden in Abb. 1 gezeigten Varianten entsteht.
Datenflüsse
Ziel des LisztQWV ist es, Forschungsdaten weitgehend in von den jeweiligen Communities genutzten dezidierten Repositorien zu halten. Dadurch ergibt sich auf technischer Seite die Herausforderung, die benötigten Daten zur Darstellung auf dem Liszt-Portal zusammenzuführen.
Das Liszt-Portal soll stets die aktuellen autoritativen Datenstände der Quellrepositorien anbieten, die aber durch das LisztQWV moderierbar bleiben. Die Abfrage muss auch dann möglich sein, falls eines dieser Systeme vorübergehend nicht erreichbar ist. Eine Navigation über Datenbestände aus unterschiedlichen Repositorien hinweg muss möglich sein. Abb. 2 skizziert den Lösungsansatz des Liszt-Portals. Das Datenhaltungsmodul enthält einen Datenhandler, der Beziehungen zwischen den Datensätzen aus den Quellrepositorien auflöst und diese in einer lokalen Datenbank sichert. Es wird zurückverfolgt, welche Quellendatensätze zu welchem Werk oder zu welchen Werken gehören, und die lokal gehaltenen Informationen zu den Quellendatensätzen ergänzt. Die zusammengeführten und neu organisierten Daten werden mithilfe einer Indizierungskomponente in der Suchmaschine abgelegt. Abfragen an das Portal werden von einem Suchservice beantwortet, das sie für die Suchmaschine übersetzt und die zurückgegebenen Daten ausliefert.
Zum Beispiel: Von RISM ins Liszt-Portal
Als Forschungsprojekt an öffentlichen Einrichtungen erheben wir Daten nicht, um sie in einer geschlossenen Umgebung abzulegen und nur sehr kontrolliert über eine Weboberfläche abzulegen. Ein zentrales Projektziel ist es, die erhobenen Daten so früh wie möglich auf unterschiedlichen Kanälen anzubieten und größtmögliche Anschlussoptionen im LOD-Kontext zu bieten.
Das LisztQWV nutzt deshalb verschiedene vorhandene Repositorien, um die unterschiedlichen Daten zur umfassenden Beschreibung des Lisztschen OEuvres an jeweils passendem Ort abzulegen und für das LisztPortal zusammenzuführen. In erster Linie betrifft das die Nutzung der GND als Normdatenrepositorium, von musiconn.performance als zentrale Nachweisdatenbank für musikalische Ereignisse, von Zotero als Bibliographiehub und von RISM als zentraler Ort für die Beschreibung musikalischer Quellen.
Workflow und Infrastruktur der Datenübernahme und Zusammenführung sieht am Beispiel des Zusammenspiels zwischen RISM und dem LisztQWV so aus:
Die Daten auf der Ebene der Quellenerschließung werden direkt in RISM erfasst und abgelegt. Dessen etabliertes Datenmodell ist auf das LisztQWV gut anwendbar und ermöglicht gleichzeitig den Zugriff durch die Community auch außerhalb des Liszt-Portals. Für das LisztQWV werden die Daten von RISM automatisiert abgefragt und in einer lokalen Datenhaltung gespiegelt. So wird ihre projektinterne Verfügbarkeit gesichert. Korrekturen werden direkt in RISM vorgenommen, sodass keine divergierenden Datenstände entstehen. Lokal werden die Datensätze mit Informationen angereichert, die in RISM nicht oder nicht in gewünschter Weise gehalten werden können. Schließlich werden diese Daten in der lokalen Datenhaltung mit Informationen auf den FRBR-Ebenen der Werke und Expressionen verbunden. Abb. 3 stellt den Ablauf schematisch dar. In Bezug auf den hier betrachteten Ausschnitt stellt der Datenhandler die Bezüge zwischen Werk- und Quellendaten her und verbindet die Quellendaten aus RISM mit den Ergänzungen aus der portaleigenen Eingabemaske. Das Digitale Liszt Quellen- und Werkverzeichnis wird über ein Nutzerfrontend die abgelegten Informationen anbieten. Zusätzlich werden sie in geläufigen Datenformaten (etwa MEI und MARC) auch über eine Schnittstelle angeboten werden, sodass ein automatisiertes Arbeiten mit großen Datenmengen unterstützt wird. Zu diesem Zweck wird jede informatorische Einheit über Informationen zu ihrer Darstellung in den Exportformaten erhalten, die dann flexibel und bedarfsgerecht durch das Portal zusammengerechnet werden