Inhalt
Im vergangenen Jahr habe ich in dem Beitrag „FAIR? Wie KI die Anforderungen an Forschungsdaten verändert“ die Frage diskutiert, ob die FAIR-Prinzipien allein ausreichen, um Forschungsdaten für eine zunehmend KI-geprägte Wissenschaftswelt vorzubereiten. Die zentrale These war damals: Forschungsdaten müssen nicht nur für Menschen und klassische Forschungsprozesse, sondern zunehmend auch für KI-Systeme nutzbar und verständlich werden.
Eine aktuelle Studie des Wissenschaftlichen Dienstes des Europäischen Parlaments (EPRS) zu „Copyright and Generative Artificial Intelligence“ zeigt nun, dass sich die Diskussion weiterentwickelt hat. Im Mittelpunkt steht zwar zunächst das Urheberrecht, bei genauerem Hinsehen berührt die Studie jedoch zentrale Fragestellungen des Forschungsdatenmanagements. Sie verdeutlicht, dass die Herausforderungen rund um generative KI weniger ein technisches als vielmehr ein Daten- und Dokumentationsproblem sind.

Was untersucht die neue EU-Studie zu generativer KI?
Die Studie untersucht die Wechselwirkungen zwischen generativer KI und dem europäischen Urheberrecht. Ausgangspunkt ist die Tatsache, dass große Sprachmodelle und andere generative KI-Systeme auf enormen Datenmengen trainiert werden. Dabei stammen viele der verwendeten Inhalte aus urheberrechtlich geschützten Quellen.
Die Autoren analysieren insbesondere:
- die Nutzung geschützter Werke für KI-Training,
- die bestehenden Ausnahmen für Text- und Data-Mining,
- mögliche Lizenzierungsmodelle,
- Transparenzanforderungen für KI-Anbieter sowie
- die Frage, wie die Nutzung von Trainingsdaten künftig nachvollziehbar gemacht werden kann.
Ein wiederkehrendes Motiv des Reports ist die Forderung nach mehr Transparenz. Sowohl Rechteinhaber als auch Aufsichtsbehörden sollen nachvollziehen können, welche Daten für das Training von KI-Systemen genutzt wurden und unter welchen Bedingungen dies geschah.
Genau an dieser Stelle wird die Verbindung zum Forschungsdatenmanagement deutlich.
Warum der Report für das Forschungsdatenmanagement relevant ist
Liest man die Studie aus Sicht des FDM, dann geht es weniger um Urheberrecht als um Provenienz, Dokumentation und Nachvollziehbarkeit.
Die Frage lautet nicht mehr nur:
Sind die Daten auffindbar und nachnutzbar?
Sondern zunehmend:
Können wir nachweisen, woher die Daten stammen, unter welchen Bedingungen sie genutzt werden dürfen und ob sie in KI-Systeme eingeflossen sind?
Damit verschiebt sich der Fokus von der Bereitstellung von Daten hin zur Dokumentation ihrer Nutzungsgeschichte.
Reichen die FAIR-Prinzipien noch aus?
Im ursprünglichen Beitrag wurde bereits argumentiert, dass FAIR-Daten für KI-Anwendungen besonders wertvoll sind. Die EPRS-Studie bestätigt diese Einschätzung indirekt.
Denn KI-Systeme benötigen Daten, die:
- auffindbar sind,
- maschinenlesbar beschrieben werden,
- über hochwertige Metadaten verfügen und
- rechtssicher genutzt werden können.
Gleichzeitig macht die Studie deutlich, dass FAIR allein einige zentrale Fragen nicht beantwortet:
- Wer hat die Daten erzeugt?
- Welche Rechte bestehen an den Daten?
- Welche Version wurde genutzt?
- Wurden die Daten für KI-Training verwendet?
- Welche Nachnutzungen haben bereits stattgefunden?
Damit gewinnen zusätzliche Dimensionen an Bedeutung, die über die klassischen FAIR-Prinzipien hinausgehen.
Provenienz kann ein weiterer wichtiger Faktor sein
Obwohl Provenienzinformationen in vielen Standards1 und Empfehlungen als wichtig für die Nachvollziehbarkeit und Wiederverwendbarkeit von Forschungsdaten gelten, werden sie in Repositorien häufig nicht in der Detailtiefe erfasst, die für eine vollständige Rekonstruktion von Datenherkunft und Verarbeitung erforderlich wäre. Die Diskussion um generative KI könnte dies verändern.
Wenn künftig nachvollziehbar sein muss, welche Daten in KI-Systemen verwendet wurden, benötigen wir bessere Informationen über:
- Herkunft der Daten,
- Erhebungsprozesse,
- Verarbeitungsschritte,
- Versionen,
- beteiligte Systeme und
- Nutzungsverläufe.
Was heute häufig als Zusatzinformation erscheint, könnte demnächst eine regulatorische Anforderung sein.
Für Forschungsdatenzentren bedeutet dies, Provenienz nicht mehr als optionales Metadatenelement zu behandeln, sondern als Kernbestandteil einer nachhaltigen Datenstrategie.
Welche zusätzlichen Metadaten könnten künftig benötigt werden?
Eine weitere Konsequenz betrifft die Beschreibung von Forschungsdaten.
Während aktuelle Metadatenschemata vor allem wissenschaftliche Nachnutzung unterstützen, entstehen nun neue Anforderungen rund um KI-Anwendungen.
Künftig könnten Metadaten beispielsweise Informationen enthalten wie:
- Nutzung für KI-Training erlaubt oder ausgeschlossen,
- kommerzielle KI-Nutzung erlaubt oder ausgeschlossen,
- Lizenzbedingungen für Foundation Models,
- Verweise auf maschinenlesbare Nutzungseinschränkungen,
- Dokumentation von KI-bezogenen Nachnutzungen.
Für Repositorien und Forschungsdateninfrastrukturen stellt sich damit die Frage, ob bestehende Metadatenprofile künftig um KI-spezifische Informationen erweitert werden müssen.
Können Repositorien zu vertrauenswürdigen KI-Datenquellen werden?
Ein interessanter Nebeneffekt der Diskussion wird bislang wenig beachtet.
Die Studie macht deutlich, dass hochwertige und rechtlich abgesicherte Trainingsdaten zu einer knappen Ressource werden könnten. Gleichzeitig verfügen Hochschulen und Forschungseinrichtungen bereits heute über genau jene Eigenschaften, die für vertrauenswürdige KI-Datensätze erforderlich sind:
- Qualitätskontrolle,
- Dokumentation,
- Versionierung,
- Persistente Identifikatoren,
- transparente Herkunftsnachweise und
- etablierte Governance-Strukturen.
Repositorien könnten sich daher von reinen Archivierungsplattformen zu Anbietern vertrauenswürdiger Trainingsdaten entwickeln.
Die Frage lautet künftig möglicherweise nicht mehr nur:
Wie veröffentlichen wir Forschungsdaten?
Sondern:
Wie stellen wir Forschungsdaten so bereit, dass sie auch verantwortungsvoll für KI-Anwendungen genutzt werden können?
Welche Rolle spielt FDM in der AI Governance?
Besonders bemerkenswert ist, dass viele Anforderungen aus dem AI Act, der Open-Science-Politik und den aktuellen urheberrechtlichen Diskussionen letztlich auf dieselben Grundlagen zurückgreifen:
- hochwertige Metadaten,
- nachvollziehbare Provenienz,
- klare Lizenzinformationen,
- transparente Dokumentation und
- langfristige Verfügbarkeit.
Genau diese Themen gehören zum Kern des Forschungsdatenmanagements.
FDM entwickelt sich damit von einer Serviceaufgabe für Open Science zusätzlich zu einem Baustein der AI Governance.
Auf dem Weg zu FAIR+?
Der ursprüngliche Beitrag argumentierte, dass KI die Anforderungen an Forschungsdaten verändert. Die neue EPRS-Studie liefert dafür nun eine zusätzliche politische und regulatorische Perspektive.
Die FAIR-Prinzipien bleiben die Grundlage guter Datenpraxis. Doch die Diskussion um generative KI zeigt, dass künftig weitere Aspekte stärker in den Vordergrund rücken werden:
- Provenienz,
- Transparenz,
- Rechteklärung,
- Nutzungsdokumentation,
- Auditierbarkeit und
- Governance.
Vielleicht geht es deshalb künftig weniger um FAIR allein, sondern um eine Art FAIR+, bei dem die Nachvollziehbarkeit der Datennutzung ebenso wichtig wird wie deren Auffindbarkeit und Wiederverwendbarkeit.
Für das Forschungsdatenmanagement bedeutet dies vor allem eines: Viele der Kompetenzen, die heute bereits in Repositorien, Datenzentren und NFDI-Konsortien aufgebaut werden, könnten sich in den kommenden Jahren als zentrale Voraussetzung für vertrauenswürdige KI erweisen.
[1] Die FAIR-Prinzipien erwähnen Provenienz explizit unter R1.2 („(Meta)data are associated with detailed provenance“). Das zeigt, dass Provenienz als wichtig angesehen wird, sagt aber nichts darüber aus, wie umfassend sie tatsächlich umgesetzt wird.
Obwohl Provenienzinformationen seit langem als wichtiger Bestandteil guter Datenpraxis gelten und von FAIR explizit gefordert werden, beschäftigen sich verschiedene Arbeitsgruppen der Research Data Alliance bis heute mit Fragen der Provenienzrepräsentation, des Provenienzmanagements und der Standardisierung. Dies deutet darauf hin, dass Provenienz in vielen Forschungsumgebungen noch nicht in einer einheitlichen und umfassenden Form erfasst wird.
Das W3C-Provenance-Modell PROV existiert zwar seit über zehn Jahren, wird aber in vielen Forschungsrepositorien nur teilweise umgesetzt.