Titelillustration Diskussionspanel am 4. Culture Community Plenary

Titelillustration Diskussionspanel am 4. Culture Community Plenary

CC0 Autor:in: Sarah Pittroff

Zum 4. Culture Community Plenary haben wir zur Paneldiskussion "Ist das Meta oder kann das weg? Welche Daten (Ihrer Fachdisziplin) gehören in den Knowledge Graphen?" eingeladen. Am 07.06.2024 diskutierten Thomas Koprucki, WIAS Berlin (MaRDI), Sarah Ondraszek, FIZ Karlsruhe, (NFDI4Memory), Harald Sack, FIZ Karlsruhe (NFDI4Culture), Harry Enke, AIP (PUNCH4NFDI), Jürgen Kett, DNB (Text+), Dirk Wintergrün, Klassik Stiftung Weimar (NFDI4Objects), und Karsten Ehms, Gesellschaft für Wissensmanagement e.V.


Welche Daten gehören in den Wissensgraphen?

​​​​​Welche Form der Entitäten sehen wir?

Die Frage nach Inhalten für Wissensgraphen beginnt aus geisteswissenschaftlicher Perspektive häufig auf der fachlichen Ebene – etwa danach, welche Normdaten oder Vokabulare und Ontologien sich in besonderem Maße eignen. Der Vergleich der Modellierung unterschiedlicher Graphen zwischen den Konsortien zeigt gleich zu Beginn, dass eine strukturelle Frage aber noch viel grundsätzlicher gestellt werden muss: Welche Entitäten modellieren wir in Wissensgraphen? In der Gesamtheit der Darstellungen sehen wir modellierte Entitäten, die in drei Kategorien einzuteilen sind. Knotenpunkte können sein:

  • Daten
  • Modelle
  • Regeln

Während NFDI4Objects und NFDI4Culture in der Hauptsache mit der ersten Kategorie beschäftigt sind und die Problemstellung in der semantischen Verbindung der Daten liegt, modelliert MaRDI unterschiedliche Inhalte derzeit in drei verschiedenen Wissensgraphen. Eine aufmerksame Begleitung aller Beteiligten bei dem Prozess, wie diese Graphen in der Zukunft zusammengeführt werden, sei dem Konsortium gewiss!

Was sind Primärdaten, was sind Sekundärdaten?

Nahezu gleichzeitig stellt sich die Frage: Was sind die sogenannten Daten? Während es bei Messungen Primärdaten sind, gilt das für die Geisteswissenschaften häufig nicht: Digitalisate und historische Daten sind Metadaten, Sekundärdaten, die als Anreicherungen eines digitalen Zwillings zu einem Originalwerk existieren. Für Knowledge Graphen wird dann festgestellt:

Primärdaten sind die Querverbindung – in öffentlicher Hand.

Denn der Wissenswert liegt eben explizit in den Kanten der Graphen. Diese semantischen Verbindungen werden im Wissensgraphen zu Primärdaten in their own right. Sie liegen – anders als beim großen Bruder Google – in öffentlicher Hand und sind immer qualitätsgesichert. In diese Strukturierung fließt viel Zeit, Energie und damit Geld. Die Kosten-/Nutzenrechnung folgt auf den Fuß:

Ausdrucksstärke und Struktur

Karsten Ehms arbeitet die beiden Pole unterschiedlich stark strukturierter Daten heraus: Der Wunsch an (Forschungs-)Daten sei allgemein, dass sie ausdrucksstark sein mögen. Je präziser modelliert, desto strukturierter und unfreier wird der Umgang bei Ein- und Ausgabe der Daten. "Und wer will schon den ganzen Tag Formulare ausfüllen?", ist eine Frage, die im Kreise des wissenschaftlichen Publikums sicher nur wenige erhobene Hände provoziert.

Dem entgegnet Jürgen Kett, dass die eigentlichen Knoten eines Wissensgraphen überhaupt nur einen Teil des Hauptinteresses ausmachten. Die Primärdaten seien eben die Querverbindungen zwischen den Knoten, und dies auch noch in öffentlicher Hand!

Wer profitiert von Wissensgraphen und wer nicht?

Ob sich die enorme Mühe, einen wohlgeformten Wissensgraphen aufzubauen, überhaupt lohnt - und dass es notwendig ist, einen wohlgeformten Wissensgraphen aufzubauen, darüber waren sich alle Diskussionsteilnehmer und das Publikum bis dahin ausnahmslos einig -, ist sozusagen als Affirmative Turn in der Mitte des Panels durch den Beitrag Harry Enkes in Frage gestellt worden. Für die Datengenese der Astrophysik, die über zahlreiche weit verstreute Akteure und teilweise auch über einen langen Zeitraum geschieht (Historiker:innen werden blass, wenn ihre Date Range von zärtlichen tausenden Jahren im Lichte galaktischer Distanzen zusammenschrumpfen, die im ersten Schritt allein für die Übertragung überwunden werden muss), stellt er fest: Die gewonnenen Primärdaten werden von den jeweiligen forschenden Institutionen erst in eine aussagekräftige Struktur prozessiert und entsprechen dann einem partikulären Forschungsinteresse. Die Nachnutzbarkeit solcher Daten ist gering, ihre semantische Selbstauskunft flach und daher in der Gemeinschaft der Forschenden nicht interessant. "Das Universum lässt sich nicht abschließend modellieren", so Enke.

Karsten Ehms hinterfragt kritisch den Nutzen von Wissensgraphen aus der Perspektive der Anwendenden. Seine Erfahrung aus der Praxis in großen und komplexen Unternehmen zeige, dass der Aufwand zur Erstellung strukturierter Daten in hohem Maße die Bereitschaft mindere, diese überhaupt erst bereit zu stellen. Auf lange Sicht glücke das dauerhafte Teilen von Informationen deutlich besser in sehr flachen und niedrigschwelligen Systemen wie etwa einem Wiki, in dem Wissen in natürlicher Sprache und intuitiv ohne Schulung abgelegt werden kann.

Datenpublikation ist wissenschaftliche Leistung

Der Hinweis, die Entwicklung mit einem scharfen Blick auf die Usability fortzusetzen, ist gehört. Dass Partizipation am Aufbau des Graphen nicht nebenbei zu leisten ist und auch nicht nebenbei geleistet werden muss, wurde herausgestellt und sollte mit einer weiteren Diskussion verknüpft werden: Datenpublikationen benötigen wissenschaftlichen Credit. Sie sind Höchstleistungen.

 

Präsentationen des Panels

Sarah Ondraszek, NFDI4Memory

Harry Enke, PUNCH4NFDI

Jürgen Kett, Text+

Dirk Wintergrün, NFDI4Objects