Von FAIR zu „FAIR++“: Wie KI die Anforderungen an Forschungsdaten und Repositorien verändert

Die Diskussion um Künstliche Intelligenz (KI) in der Wissenschaft dreht sich oft um Modelle, Tools und Anwendungen. Die „AI Preparedness Guidelines for Archivists“ der Archives and Records Association UK lenken den Blick jedoch auf einen grundlegenderen Punkt: Die eigentliche Voraussetzung für KI ist die Qualität und Struktur der Daten selbst.

Für das Forschungsdatenmanagement (FDM) und den Betrieb von Repositorien lassen sich daraus zwei besonders zentrale Entwicklungen ableiten:

Die Transformation der FAIR-Prinzipien hin zu einem erweiterten „FAIR++“
Die verpflichtende Dokumentation von Bias und Datenlücken als Bestandteil von Datenqualität

KI beginnt bei den Daten – nicht bei den Algorithmen

Die Guidelines formulieren klar:

„AI systems depend on well-structured, well-documented, and accessible data.“

Damit wird deutlich: KI-Readiness ist keine zusätzliche Schicht, sondern eine Vertiefung bestehender FDM-Prinzipien. Besonders sichtbar wird das in der Weiterentwicklung der FAIR-Prinzipien.

„AI-ready“ = „FAIR++“

Die klassischen FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) bilden weiterhin die Grundlage. Doch für KI-Anwendungen reichen sie in ihrer traditionellen Auslegung nicht mehr aus. Die Guidelines implizieren eine Erweiterung, die man als „FAIR++“ verstehen kann.

Was bedeutet das konkret?

Findable → Kontextualisiert auffindbar

Metadaten müssen nicht nur vorhanden sein, sondern:
- semantisch reichhaltig
- maschineninterpretierbar
Repositorien sollten Retrieval aktiv unterstützen (z. B. für RAG-Systeme)

Accessible → differenziert und maschinenlesbar zugänglich

Zugriffsrechte müssen:
- klar definiert
- technisch durchsetzbar
- für Maschinen verständlich sein

Interoperable → strukturiert und transformierbar

Standardformate bleiben wichtig, aber:
- zusätzlich sind KI-taugliche Derivate erforderlich
Daten sollten in mehreren Repräsentationen vorliegen:
- originalgetreu
- normalisiert
- analysierbar

Reusable → kontextualisiert und erklärbar

Wiederverwendbarkeit bedeutet mehr als Lizenzierung:
- Methoden müssen nachvollziehbar sein
- Entstehungskontexte müssen dokumentiert werden
- Unsicherheiten müssen sichtbar sein

Der entscheidende Zusatz von „FAIR++“ ist damit:

Daten müssen nicht nur auffindbar und nutzbar sein –
sie müssen für Maschinen interpretierbar, kontextualisiert und kritisch einordenbar sein.

Dokumentation von Bias & Lücken als Pflicht

Ein oft unterschätzter Punkt in den Guidelines ist die explizite Forderung nach Transparenz:

„Archives are often incomplete or biased; documenting these gaps is essential.“

Diese Aussage hat Konsequenzen für das Forschungsdatenmanagement.

Vom impliziten Problem zur expliziten Dokumentation

Traditionell wurden Bias und Lücken oft:

als methodische Einschränkung erwähnt
aber selten systematisch dokumentiert

Die Guidelines machen daraus eine Anforderung:

Bias und Unvollständigkeit sind keine Randnotizen mehr – sondern Kernelemente der Datenbeschreibung.

Was sollte konkret dokumentiert werden?

Für Forschungsdaten ergeben sich neue Mindestanforderungen:

1. Datenlücken

fehlende Zeiträume
unvollständige Stichproben
technische Ausfälle oder Verluste

2. Sampling-Bias

Auswahlkriterien
systematische Verzerrungen
Ausschluss bestimmter Gruppen oder Fälle

3. Methodische Einschränkungen

Messfehler
Unsicherheiten
Modellannahmen

4. Rechtliche und ethische Einschränkungen

entfernte Daten (z. B. aus Datenschutzgründen)
eingeschränkte Zugänglichkeit

Implikationen für Repositorien

Diese Anforderungen lassen sich nicht allein auf Ebene der Forschenden lösen. Repositorien müssen strukturell darauf reagieren.

1. Erweiterte Metadatenmodelle

Repositorien sollten gezielt Felder oder Strukturen bereitstellen für:

„Known limitations“
„Data gaps“
„Bias statement“

2. Unterstützung narrativer Beschreibungen

Freitextfelder sind nicht optional, sondern zentral
Kontextinformationen müssen aktiv eingefordert werden

3. Sichtbarkeit statt Verstecken

Dokumentierte Unsicherheiten sollten:
- sichtbar
- durchsuchbar
- maschinenlesbar sein

Ziel ist nicht perfekte Datenqualität, sondern transparente Datenqualität.

Warum das für KI entscheidend ist

KI-Systeme verstärken bestehende Muster in Daten. Das bedeutet:

Undokumentierter Bias → wird reproduziert oder verstärkt
Fehlende Daten → führen zu falschen Generalisierungen

Nur wenn diese Aspekte explizit beschrieben sind, können:

KI-Systeme korrekt eingeordnet werden
Nutzer:innen Ergebnisse kritisch bewerten

Die Dokumentation von Bias wird zur Voraussetzung für vertrauenswürdige KI.

Neue Rolle des Forschungsdatenmanagements

Aus beiden Entwicklungen – „FAIR++“ und Bias-Dokumentation – ergibt sich ein verändertes Selbstverständnis für das FDM:

nicht nur Organisation von Daten
sondern aktive Gestaltung ihrer Interpretierbarkeit

FDM wird damit:

epistemisch (Umgang mit Wissen und Unsicherheit)
infrastrukturell (Bereitstellung für KI-Systeme)
ethisch (Transparenz und Verantwortung)

Transparenz ist die neue Datenqualität

Die „AI Preparedness Guidelines for Archivists“ zeigen deutlich:

Die Anforderungen an Forschungsdaten verschieben sich grundlegend.

FAIR bleibt notwendig, aber nicht ausreichend
„FAIR++“ ergänzt:
- Kontext
- Maschinenlesbarkeit
- kritische Einordnung

Und vor allem:

Daten sind nur dann KI-tauglich, wenn auch ihre Grenzen sichtbar sind.

Für Repositorien bedeutet das:

Ausbau von Metadatenstrukturen
Förderung narrativer Kontextualisierung
systematische Erfassung von Bias und Lücken

Quelle

Archives and Records Association (UK):
AI Preparedness Guidelines for Archivists
https://www.archives.org.uk/ai-preparedness-guidelines-for-archivists

KI beginnt bei den Daten – nicht bei den Algorithmen

„AI-ready“ = „FAIR++“

Was bedeutet das konkret?

Findable → Kontextualisiert auffindbar

Accessible → differenziert und maschinenlesbar zugänglich

Interoperable → strukturiert und transformierbar

Reusable → kontextualisiert und erklärbar

Dokumentation von Bias & Lücken als Pflicht

Vom impliziten Problem zur expliziten Dokumentation

Was sollte konkret dokumentiert werden?

1. Datenlücken

2. Sampling-Bias

3. Methodische Einschränkungen

4. Rechtliche und ethische Einschränkungen

Implikationen für Repositorien

1. Erweiterte Metadatenmodelle

2. Unterstützung narrativer Beschreibungen

3. Sichtbarkeit statt Verstecken

Warum das für KI entscheidend ist

Neue Rolle des Forschungsdatenmanagements

Transparenz ist die neue Datenqualität

Quelle

Schreibe einen Kommentar