Technologie

Generative KI braucht mehr als FAIR: Was der neue EU-Report für das Forschungsdatenmanagement bedeutet

Die aktuelle Studie des Wissenschaftlichen Dienstes des Europäischen Parlaments zu Urheberrecht und generativer KI beschäftigt sich eigentlich mit Trainingsdaten, Transparenz und Lizenzierung. Für das Forschungsdatenmanagement enthält sie jedoch eine weiterreichende Botschaft: Künftig wird es nicht mehr ausreichen, Daten lediglich FAIR bereitzustellen – Herkunft, Nutzungsrechte und Nachvollziehbarkeit werden zu zentralen Anforderungen einer KI-gestützten Wissenschaft.

Beitragsautor Von zulauf
Veröffentlichungsdatum 3. Juni 2026
3 Kommentare zu Generative KI braucht mehr als FAIR: Was der neue EU-Report für das Forschungsdatenmanagement bedeutet

Inhalt

Im vergangenen Jahr habe ich in dem Beitrag „FAIR? Wie KI die Anforderungen an Forschungsdaten verändert“ die Frage diskutiert, ob die FAIR-Prinzipien allein ausreichen, um Forschungsdaten für eine zunehmend KI-geprägte Wissenschaftswelt vorzubereiten. Die zentrale These war damals: Forschungsdaten müssen nicht nur für Menschen und klassische Forschungsprozesse, sondern zunehmend auch für KI-Systeme nutzbar und verständlich werden.

Eine aktuelle Studie des Wissenschaftlichen Dienstes des Europäischen Parlaments (EPRS) zu „Copyright and Generative Artificial Intelligence“ zeigt nun, dass sich die Diskussion weiterentwickelt hat. Im Mittelpunkt steht zwar zunächst das Urheberrecht, bei genauerem Hinsehen berührt die Studie jedoch zentrale Fragestellungen des Forschungsdatenmanagements. Sie verdeutlicht, dass die Herausforderungen rund um generative KI weniger ein technisches als vielmehr ein Daten- und Dokumentationsproblem sind.

Einordnung der Dokumente

Der in diesem Beitrag behandelte EU-Report ist Teil eines mehrstufigen Verfahrens. Den Ausgangspunkt bildet die wissenschaftliche Studie von Nicola Lucchi (Generative AI and Copyright – Training, Creation, Regulation, PE 774.095), die für den Rechtsausschuss (JURI) des Europäischen Parlaments erstellt wurde. Auf dieser Grundlage entstand der JURI-Bericht (A10-0019/2026), der wiederum die Basis für die Entschließung des Europäischen Parlaments vom 10. März 2026 bildet. Im Folgenden werden – soweit nicht anders angegeben – vor allem die Aussagen der Entschließung diskutiert; bei der juristischen Einordnung lohnt sich jedoch auch ein Blick in die zugrunde liegende Studie.

Was untersucht die neue EU-Studie zu generativer KI?

Die Studie untersucht die Wechselwirkungen zwischen generativer KI und dem europäischen Urheberrecht. Ausgangspunkt ist die Tatsache, dass große Sprachmodelle und andere generative KI-Systeme auf enormen Datenmengen trainiert werden. Dabei stammen viele der verwendeten Inhalte aus urheberrechtlich geschützten Quellen.

Die Autoren analysieren insbesondere:

die Nutzung geschützter Werke für KI-Training,
die bestehenden Ausnahmen für Text- und Data-Mining,
mögliche Lizenzierungsmodelle,
Transparenzanforderungen für KI-Anbieter sowie
die Frage, wie die Nutzung von Trainingsdaten künftig nachvollziehbar gemacht werden kann.

Ein wiederkehrendes Motiv des Reports ist die Forderung nach mehr Transparenz. Sowohl Rechteinhaber als auch Aufsichtsbehörden sollen nachvollziehen können, welche Daten für das Training von KI-Systemen genutzt wurden und unter welchen Bedingungen dies geschah.

Genau an dieser Stelle wird die Verbindung zum Forschungsdatenmanagement deutlich.

Warum der Report für das Forschungsdatenmanagement relevant ist

Liest man die Studie aus Sicht des FDM, dann geht es weniger um Urheberrecht als um Provenienz, Dokumentation und Nachvollziehbarkeit.

Die Frage lautet nicht mehr nur:

Sind die Daten auffindbar und nachnutzbar?

Sondern zunehmend:

Können wir nachweisen, woher die Daten stammen, unter welchen Bedingungen sie genutzt werden dürfen und ob sie in KI-Systeme eingeflossen sind?

Damit verschiebt sich der Fokus von der Bereitstellung von Daten hin zur Dokumentation ihrer Nutzungsgeschichte.

Reichen die FAIR-Prinzipien noch aus?

Im ursprünglichen Beitrag wurde bereits argumentiert, dass FAIR-Daten für KI-Anwendungen besonders wertvoll sind. Die EPRS-Studie bestätigt diese Einschätzung indirekt.

Denn KI-Systeme benötigen Daten, die:

auffindbar sind,
maschinenlesbar beschrieben werden,
über hochwertige Metadaten verfügen und
rechtssicher genutzt werden können.

Gleichzeitig macht die Studie deutlich, dass FAIR allein einige zentrale Fragen nicht beantwortet:

Wer hat die Daten erzeugt?
Welche Rechte bestehen an den Daten?
Welche Version wurde genutzt?
Wurden die Daten für KI-Training verwendet?
Welche Nachnutzungen haben bereits stattgefunden?

Damit gewinnen zusätzliche Dimensionen an Bedeutung, die über die klassischen FAIR-Prinzipien hinausgehen.

Provenienz kann ein weiterer wichtiger Faktor sein

Obwohl Provenienzinformationen in vielen Standards¹ und Empfehlungen als wichtig für die Nachvollziehbarkeit und Wiederverwendbarkeit von Forschungsdaten gelten, werden sie in Repositorien häufig nicht in der Detailtiefe erfasst, die für eine vollständige Rekonstruktion von Datenherkunft und Verarbeitung erforderlich wäre. Die Diskussion um generative KI könnte dies verändern.

Wenn künftig nachvollziehbar sein muss, welche Daten in KI-Systemen verwendet wurden, benötigen wir bessere Informationen über:

Herkunft der Daten,
Erhebungsprozesse,
Verarbeitungsschritte,
Versionen,
beteiligte Systeme und
Nutzungsverläufe.

Was heute häufig als Zusatzinformation erscheint, könnte demnächst eine regulatorische Anforderung sein.

Für Forschungsdatenzentren bedeutet dies, Provenienz nicht mehr als optionales Metadatenelement zu behandeln, sondern als Kernbestandteil einer nachhaltigen Datenstrategie.

Welche zusätzlichen Metadaten könnten künftig benötigt werden?

Eine weitere Konsequenz betrifft die Beschreibung von Forschungsdaten.

Während aktuelle Metadatenschemata vor allem wissenschaftliche Nachnutzung unterstützen, entstehen nun neue Anforderungen rund um KI-Anwendungen.

Künftig könnten Metadaten beispielsweise Informationen enthalten wie:

Nutzung für KI-Training erlaubt oder ausgeschlossen,
kommerzielle KI-Nutzung erlaubt oder ausgeschlossen,
Lizenzbedingungen für Foundation Models,
Verweise auf maschinenlesbare Nutzungseinschränkungen,
Dokumentation von KI-bezogenen Nachnutzungen.

Für Repositorien und Forschungsdateninfrastrukturen stellt sich damit die Frage, ob bestehende Metadatenprofile künftig um KI-spezifische Informationen erweitert werden müssen.

Können Repositorien zu vertrauenswürdigen KI-Datenquellen werden?

Ein interessanter Nebeneffekt der Diskussion wird bislang wenig beachtet.

Die Studie macht deutlich, dass hochwertige und rechtlich abgesicherte Trainingsdaten zu einer knappen Ressource werden könnten. Gleichzeitig verfügen Hochschulen und Forschungseinrichtungen bereits heute über genau jene Eigenschaften, die für vertrauenswürdige KI-Datensätze erforderlich sind:

Qualitätskontrolle,
Dokumentation,
Versionierung,
Persistente Identifikatoren,
transparente Herkunftsnachweise und
etablierte Governance-Strukturen.

Repositorien könnten sich daher von reinen Archivierungsplattformen zu Anbietern vertrauenswürdiger Trainingsdaten entwickeln.

Die Frage lautet künftig möglicherweise nicht mehr nur:

Wie veröffentlichen wir Forschungsdaten?

Sondern:

Wie stellen wir Forschungsdaten so bereit, dass sie auch verantwortungsvoll für KI-Anwendungen genutzt werden können?

Welche Rolle spielt FDM in der AI Governance?

Besonders bemerkenswert ist, dass viele Anforderungen aus dem AI Act, der Open-Science-Politik und den aktuellen urheberrechtlichen Diskussionen letztlich auf dieselben Grundlagen zurückgreifen:

hochwertige Metadaten,
nachvollziehbare Provenienz,
klare Lizenzinformationen,
transparente Dokumentation und
langfristige Verfügbarkeit.

Genau diese Themen gehören zum Kern des Forschungsdatenmanagements.

FDM entwickelt sich damit von einer Serviceaufgabe für Open Science zusätzlich zu einem Baustein der AI Governance.

Auf dem Weg zu FAIR+?

Der ursprüngliche Beitrag argumentierte, dass KI die Anforderungen an Forschungsdaten verändert. Die neue EPRS-Studie liefert dafür nun eine zusätzliche politische und regulatorische Perspektive.

Die FAIR-Prinzipien bleiben die Grundlage guter Datenpraxis. Doch die Diskussion um generative KI zeigt, dass künftig weitere Aspekte stärker in den Vordergrund rücken werden:

Provenienz,
Transparenz,
Rechteklärung,
Nutzungsdokumentation,
Auditierbarkeit und
Governance.

Vielleicht geht es deshalb künftig weniger um FAIR allein, sondern um eine Art FAIR+, bei dem die Nachvollziehbarkeit der Datennutzung ebenso wichtig wird wie deren Auffindbarkeit und Wiederverwendbarkeit.

Für das Forschungsdatenmanagement bedeutet dies vor allem eines: Viele der Kompetenzen, die heute bereits in Repositorien, Datenzentren und NFDI-Konsortien aufgebaut werden, könnten sich in den kommenden Jahren als zentrale Voraussetzung für vertrauenswürdige KI erweisen.

[1] Die FAIR-Prinzipien erwähnen Provenienz explizit unter R1.2 („(Meta)data are associated with detailed provenance“). Das zeigt, dass Provenienz als wichtig angesehen wird, sagt aber nichts darüber aus, wie umfassend sie tatsächlich umgesetzt wird.
Obwohl Provenienzinformationen seit langem als wichtiger Bestandteil guter Datenpraxis gelten und von FAIR explizit gefordert werden, beschäftigen sich verschiedene Arbeitsgruppen der Research Data Alliance bis heute mit Fragen der Provenienzrepräsentation, des Provenienzmanagements und der Standardisierung. Dies deutet darauf hin, dass Provenienz in vielen Forschungsumgebungen noch nicht in einer einheitlichen und umfassenden Form erfasst wird.
Das W3C-Provenance-Modell PROV existiert zwar seit über zehn Jahren, wird aber in vielen Forschungsrepositorien nur teilweise umgesetzt.

Schlagwörter AI, Archive, FDM, KI

3 Antworten auf „Generative KI braucht mehr als FAIR: Was der neue EU-Report für das Forschungsdatenmanagement bedeutet“

Vielen Dank für den Hinweis. Die Einordnung der Zusammenhänge zwischen der wissenschaftlichen Studie, dem JURI-Bericht und der Entschließung ist in der Tat nicht auf den ersten Blick ersichtlich. Der Beitrag wurde daher um einen einleitenden Abschnitt ergänzt, der die Dokumentenstruktur erläutert und die zugrunde liegende Studie von Nicola Lucchi sowie den JURI-Bericht klarer einordnet.

Gerade die Studie stellt dabei die zentrale wissenschaftliche Primärquelle dar und ist für eine vertiefte Auseinandersetzung besonders relevant.

Danke für den nachdankenswerten Beitrag! Allerdings musste auch ich erst etwas suchen um die Studie zu finden auf die er sich offenbar bezieht.

Für alle, die (wie ich) die Primärquelle suchen: Die eigentliche wissenschaftliche Grundlage ist die Studie von Nicola Lucchi (2025):

„Generative AI and Copyright – Training, Creation, Regulation“ (PE 774.095)
https://www.europarl.europa.eu/RegData/etudes/STUD/2025/774095/IUST_STU(2025)774095_EN.pdf

Diese wird explizit im dazugehörigen JURI-Ausschussbericht (A10-0019/2026) zitiert, der die Grundlage für die Parlamentsentschließung vom 10.03.2026 bildet:

https://www.europarl.europa.eu/doceo/document/A-10-2026-0019_EN.pdf

Gerade wenn es um Provenienz geht, wollen wir doch, dass die Quellenangaben so transparent wie möglich sind. 😉

Das ist ein sehr wichtiger und spannender Beitrag. Vielen Dank dafür! Ich habe nachgedacht und den Text für mich reflektiert: Provenienz ist bereits vor Verbreitung KI-gestützter Technologien einer der Grundpfeiler des Forschungsdatenmanagements überhaupt gewesen.

KI hat das Thema aber sichtbarer und noch viel dringlicher gemacht, es aber nicht erfunden. Besonders das ‚R‘ in FAIR verlangte immer schon nach Provenienz: „(Meta)data are associated with detailed provenance.“ https://www.go-fair.org/fair-principles/ (Zugriff am 08.06.2026). Die FAIR‑Prinzipien wurden so formuliert, dass Maschinen Forschungsdaten finden, verstehen, verknüpfen und wiederverwenden können. Detaillierte Provenienz (Herkunft, Methoden, Verarbeitung) und Einhaltung von Community‑Standards wurden so von Wilkinson beschrieben. 10 Jahre später zeigt sich, dass Provenienz immer mehr zur Vertrauensgrundlage geworden ist und unter anderem als Basis für „Bias-Erkennung“ dient. KI durchsucht Repositorien und z.B. Metadaten. Ich sehe hier auch mehr Fokus auf den guten Standards. Es ist gut, dass regulatorische Anforderungen Transparenz verlangen. Forschungsethische Belange sind in diesem Kontext wichtig.

Auf welche Studie genau bezieht sich dieser Text? Das überlegte ich kurz. Dann wurde es klar und verlinkt ist ja der STOA Annual Report 2025 von Mai 2026. So habe ich es also verstanden.

„STOA executed 14 studies and briefings and organised 16 events in 2025, related to its three thematic priorities: artificial intelligence and other disruptive technologies; the European Green Deal;
and quality of life.“

Daraus hervor gehen Herausforderungen und Chancen für Transparenzmechanismen im Forschungsdatenmanagement. So viel, ganz kurz von meiner Seite aus. Es sind nur erste Gedanken zu diesem sehr aktuellen und äußerst wichtigen Beitrag …

Einordnung der Dokumente

Was untersucht die neue EU-Studie zu generativer KI?

Warum der Report für das Forschungsdatenmanagement relevant ist

Reichen die FAIR-Prinzipien noch aus?

Provenienz kann ein weiterer wichtiger Faktor sein

Welche zusätzlichen Metadaten könnten künftig benötigt werden?

Können Repositorien zu vertrauenswürdigen KI-Datenquellen werden?

Welche Rolle spielt FDM in der AI Governance?

Auf dem Weg zu FAIR+?

3 Antworten auf „Generative KI braucht mehr als FAIR: Was der neue EU-Report für das Forschungsdatenmanagement bedeutet“

Schreibe einen Kommentar