Workers measuring

Workers measuring

Autor:in: Richard Peter jr., Besitzer:in: Deutsche Fotothek

Datenqualität messen hat Konjunktur: Hohe Qualität gewährleistet die Anschluss- und Zukunftsfähigkeit von Daten. Doch mit welchen Mitteln lässt sich Qualität erfassen und evaluieren, zumal die von vielschichtigen Kulturdaten? Diese Frage stand am 19. und 20. Mai 2025 im Mittelpunkt des Online-Forums „Qualität von Kulturdaten messen – aber wie? Konzepte, Methoden, Potentiale und der Ansatz von NFDI4Culture“ des NFDI4Culture-Arbeitsbereichs „Standards, Datenqualität und Kuratierung“. Anlass für die Diskussion ist die Aufforderung der DFG an alle NFDI-Konsortien, Kennzahlen zu Datensets, die bestimmte, vom Konsortium festgelegte Qualitätskriterien erfüllen, bereitzustellen. Die Herausforderung besteht nun darin, einen passenden fachlichen Ansatz für die Daten in unseren Domänen zu entwickeln.

Ziel war es daher, aktuelle Perspektiven auf Datenqualitätsmessung in den kulturbezogenen Domänen sowie Desiderate und Herausforderungen an das Qualitätsmanagement von Kulturdaten zu beleuchten. Dazu stellten am ersten Veranstaltungstag Akteure aus dem Forschungsdatenmanagement und der Forschung ihre Strategien und Erfahrungen vor. Nach den Praxisberichten folgte am zweiten Nachmittag die Präsentation des Ansatzes von NFDI4Culture.

In einer thematischen Einführung warf Celia Krause (NFDI4Culture, DDK) zunächst grundsätzliche Fragen auf: Was, wie, warum und womit soll eigentlich gemessen werden? Nach der Vorstellung der Datenqualitätsdimensionen betrachtete sie die Kernbereiche des Datenqualitätsmanagements. Mit einer Übersicht über bereits existierende allgemeine Ansätze zur Ableitung von Metriken, Rahmenwerke (FAIR) und Stufenmodelle für die Umsetzung war die Grundlage für die folgenden Beiträge geschaffen.

Als größter europäischer Aggregator für Kulturdaten nimmt Europeana eine Schlüsselposition beim Aufbau des Common European data space for cultural heritage ein. Henning Scholz (Europeana Foundation) beleuchtete das Publishing Framework des Portals, das als Stufenmodell unterschiedliche Ausprägungen von Datenqualität zulässt, dabei aber auch einen Minimalstandard definiert. Mit der Metis Sandbox stellte Scholz zudem eine Testumgebung vor, in der Datengebende vor der Einlieferung eine grundsätzliche Einordnung der Qualität ihrer Daten vornehmen können. In Zukunft sollen bei der Einschätzung der Datenqualität vermehrt Informationen berücksichtigt werden, die den Nutzenden erlauben zu beurteilen, ob die Daten für ihre Zwecke geeignet sind.

Unter dem Dach der European Open Science Cloud (EOSC) sollen die Forschungsdaten aller Domänen, auch die der NFDI, produktiv zusammenfinden. Chris Schubert (EULiST, TU Wien) stellte in seinem Beitrag die Wichtigkeit eines gemeinsamen Verständnisses von Datenqualität heraus, der sich auch auf die Prozesse des gesamten Datenlebenszyklus bezieht. Das EOSC Data Quality Framework sei eine gute Wissensgrundlage, doch konkrete Implementierungsregeln zu formulieren, sei angesichts fehlender dauerhafter Governance-Strukturen noch ein Desiderat. Als weitere Herausforderung benannte Schubert, angesichts aktueller Entwicklungen im Bereich der Künstlichen Intelligenz für vertrauensvolle Datenumgebungen zu sorgen.

Wie es um die das Datenmanagement, den Datenqualitätsbegriff und die Umsetzung der FAIR-Prinzipien in Museen und Sammlungen in Deutschland steht, ist Gegenstand einer Umfeldanalyse, die Johannes Schäffer und Magdalene Schlösser (Helmholtz-Zentrum für Kulturtechnik, IfM, beide NFDI4Objects) im folgenden Beitrag vorstellten. Aufgrund der Vielfalt an Institutionen ergibt sich ein vielschichtiges Bild hinsichtlich der Nutzung von kontrollierten Vokabularen und der Anwendung der FAIR-Prinzipien. Die Analyse ermöglicht die Einschätzung der Situation einer ganzen Sparte, die von heterogenen Praktiken geprägt ist, ohne zentrale Vorgaben arbeitet und damit repräsentativ für unsere Communitys ist. Während das Bewusstsein für FAIRe Praktiken, der Einsatz von Normvokabular, gängigen Metadatenformaten oder tragfähiger Software durchaus zunimmt, gibt es nach wie vor eine große Zahl von hauseigenen Lösungen, deren Anschluss an eine FAIRe Datenpraxis herausfordernd ist. Sammlungen, die sich Verbünden anschließen, arbeiten hier deutlich erfolgreicher.

Einen Bericht aus der Forschung lieferten dann Anke Hofmann und Elisa Klar (beide Bibliothek und Archiv der HMT Leipzig), die das Projekt CARLA vorstellten, eine auf der Auswertung von Studiendokumenten basierende Datenbank der zwischen 1843 und 1918 mit dem Leipziger Konservatorium verbundenen Personen. Dabei sprachen sie vor allem über die Maßnahmen zur Sicherung der Datenqualität, darunter etwa die Verzeichnung des Angebots in einschlägigen Registries, Schnittstellenanbindung, Nutzung von Normdaten und die Vergabe von Lizenzen, sowie die anvisierten Ausbaustufen und rundeten den ersten Tag so mit einer instruktiven Perspektive ab.

Der zweite Nachmittag stand ganz im Zeichen des von NFDI4Culture entwickelten Ansatzes zur Messung von Datenqualität in Repositorien und Datenplattformen als Services der Partnerinstitutionen des Konsortiums. Im Anschluss an eine Zusammenfassung des ersten Veranstaltungstags durch Desiree Mayer (NFDI4Culture, SLUB Dresden) stellte Angela Kailus (NFDI4Culture, DDK) den aktuellen Umsetzungsstand zur Datenqualitätsmessung vor. Ihm liegt eine eingehende Analyse der Datenlandschaft der fünf durch das Konsortium vertretenen Domänen zugrunde, die bislang 79 Datenangebote nachweisen. In ihnen lässt sich eine außerordentliche Bandbreite von fachlichen Ausrichtungen, Datentypen und -arten, eingesetzten Standards und FAIR-Umsetzungsgraden feststellen. Wir begannen daher mit der Entwicklung eines breit aufgestellten FAIR-Kriterienkatalogs, der eine Einordnung der Angebote auf Basis anerkannter Stufenmodelle in Orientierung am FAIR Maturity Model oder dem Europeana-Ansatz ermöglicht. Eine Implementierung des Modells auf Makro-Ebene zeigt eine große Spannbreite in den Ergebnissen: So ist das Bewusstsein für FAIR einerseits schon weit verbreitet, es ist aber auch noch viel Ausbauarbeit notwendig. Messkriterien und -methoden sollen nun weiter ausdifferenziert werden.

Linnaea Söhn (NFDI4Culture, AdW Mainz) knüpfte daran mit einem vertieften Blick in die technischen Grundlagen zur Verankerung von Datenqualitätskriterien und ihrer Messung in NFDI4Culture an. Der Culture Knowledge Graph umfasst einerseits die Forschungsinformationen des NFDI4Culture-Portals in strukturierter Form und setzt auf dieser Ebene FAIR bereits vollständig um. Er erschließt aber auch zunehmend Metadaten zu den Beständen der Repositorien und Datenplattformen und erlaubt so umfassende, forschungsgetriebene Abfragen der Datenbestände. Mit einem solchen forschungsorientierten Impuls stellte Torsten Schrade (NFDI4Culture, AdW Mainz) am Beispiel der „italienischen Datenreise“ den Culture Knowledge Graph als Instrument für die Datenanalyse vor. Anhand des Partitura-Projektes (DHI Rom), in dem zahlreiche Opernpartituren digitalisiert wurden, demonstrierte er, wie Datenproduzierende die Qualität ihrer Daten im Sinne einer föderierten Datenanalyse optimieren und deren Erkenntnispotential effektiv steigern können.

Den Abschluss bildete ein Ausblick von Melanie Gruß (NFDI4Culture, SLUB Dresden) und Angela Kailus. Sie resümierten zuerst den in NFDI4Culture erreichten Stand zur Unterstützung der Community bei der Implementierung von FAIR und zur Datenqualitätsmessung. Dann skizzierten sie den geplanten Ausbau und die Verfeinerung der Datenerhebung zu den Qualitätskriterien und die verbesserten Analysemethoden in Form von automatisierten Prüfverfahren. Die Ergebnisse sollen auch Ausgangspunkt eines differenzierten Datenqualitätsassessments auf Mikro-Ebene für einzelne Datenangebote sein, um gezielte Kuratierungsmaßnahmen einleiten zu können und so die nachhaltige Sicherung der Qualität von Kulturdaten an der Quelle zu gewährleisten. Damit wird die Datenqualitätsmessung zu einem Diagnosewerkzeug, von dessen transparenten Ergebnissen Datenanbieter wie Forschende gleichermaßen profitieren. Entscheidend ist, dass Konzepte zur Messung und Sicherung von Datenqualität weiterhin praktisch und niedrigschwellig sein müssen.

Die Rückmeldungen zum Ansatz von NFDI4Culture waren insgesamt positiv. Als größte Herausforderungen bei der Herstellung von Datenqualität wurden u. a. die verschiedenen Erfassungspraktiken, die Redundanzen in den Beständen und die unzureichende Persistenz von Identifiern genannt. Die Teilnehmer:innen interessierten sich vor allem für praktische Fragen rund um die Hebung von Qualität in ihren Daten, für die Umsetzung und vom Konsortium angebotene Tools, die das Qualitätsmanagement aktiv und konkret unterstützen können, sowie für die Funktionalität des Culture Knowledge Graph insgesamt. Es wurde angeregt, Demo-Videos für alle Communitys bereitzustellen. Die Aktualität des Themas zeigte sich an einer konstant hohen Zahl von Teilnehmer*innen: es waren 175 am ersten Tag, 127 am zweiten Tag. Allen Referierenden und Teilnehmenden sei herzlich für ihr Mitwirken gedankt.

Die Präsentationen zu den Vorträgen stehen hier zum Download bereit.