Inhalt
Die Diskussion um Künstliche Intelligenz (KI) in der Wissenschaft dreht sich oft um Modelle, Tools und Anwendungen. Die „AI Preparedness Guidelines for Archivists“ der Archives and Records Association UK lenken den Blick jedoch auf einen grundlegenderen Punkt: Die eigentliche Voraussetzung für KI ist die Qualität und Struktur der Daten selbst.
Für das Forschungsdatenmanagement (FDM) und den Betrieb von Repositorien lassen sich daraus zwei besonders zentrale Entwicklungen ableiten:
- Die Transformation der FAIR-Prinzipien hin zu einem erweiterten „FAIR++“
- Die verpflichtende Dokumentation von Bias und Datenlücken als Bestandteil von Datenqualität

KI beginnt bei den Daten – nicht bei den Algorithmen
Die Guidelines formulieren klar:
„AI systems depend on well-structured, well-documented, and accessible data.“
Damit wird deutlich: KI-Readiness ist keine zusätzliche Schicht, sondern eine Vertiefung bestehender FDM-Prinzipien. Besonders sichtbar wird das in der Weiterentwicklung der FAIR-Prinzipien.
„AI-ready“ = „FAIR++“
Die klassischen FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) bilden weiterhin die Grundlage. Doch für KI-Anwendungen reichen sie in ihrer traditionellen Auslegung nicht mehr aus. Die Guidelines implizieren eine Erweiterung, die man als „FAIR++“ verstehen kann.
Was bedeutet das konkret?
Findable → Kontextualisiert auffindbar
- Metadaten müssen nicht nur vorhanden sein, sondern:
- semantisch reichhaltig
- maschineninterpretierbar
- Repositorien sollten Retrieval aktiv unterstützen (z. B. für RAG-Systeme)
Accessible → differenziert und maschinenlesbar zugänglich
- Zugriffsrechte müssen:
- klar definiert
- technisch durchsetzbar
- für Maschinen verständlich sein
Interoperable → strukturiert und transformierbar
- Standardformate bleiben wichtig, aber:
- zusätzlich sind KI-taugliche Derivate erforderlich
- Daten sollten in mehreren Repräsentationen vorliegen:
- originalgetreu
- normalisiert
- analysierbar
Reusable → kontextualisiert und erklärbar
- Wiederverwendbarkeit bedeutet mehr als Lizenzierung:
- Methoden müssen nachvollziehbar sein
- Entstehungskontexte müssen dokumentiert werden
- Unsicherheiten müssen sichtbar sein
Der entscheidende Zusatz von „FAIR++“ ist damit:
Daten müssen nicht nur auffindbar und nutzbar sein –
sie müssen für Maschinen interpretierbar, kontextualisiert und kritisch einordenbar sein.
Dokumentation von Bias & Lücken als Pflicht
Ein oft unterschätzter Punkt in den Guidelines ist die explizite Forderung nach Transparenz:
„Archives are often incomplete or biased; documenting these gaps is essential.“
Diese Aussage hat Konsequenzen für das Forschungsdatenmanagement.
Vom impliziten Problem zur expliziten Dokumentation
Traditionell wurden Bias und Lücken oft:
- als methodische Einschränkung erwähnt
- aber selten systematisch dokumentiert
Die Guidelines machen daraus eine Anforderung:
Bias und Unvollständigkeit sind keine Randnotizen mehr – sondern Kernelemente der Datenbeschreibung.
Was sollte konkret dokumentiert werden?
Für Forschungsdaten ergeben sich neue Mindestanforderungen:
1. Datenlücken
- fehlende Zeiträume
- unvollständige Stichproben
- technische Ausfälle oder Verluste
2. Sampling-Bias
- Auswahlkriterien
- systematische Verzerrungen
- Ausschluss bestimmter Gruppen oder Fälle
3. Methodische Einschränkungen
- Messfehler
- Unsicherheiten
- Modellannahmen
4. Rechtliche und ethische Einschränkungen
- entfernte Daten (z. B. aus Datenschutzgründen)
- eingeschränkte Zugänglichkeit
Implikationen für Repositorien
Diese Anforderungen lassen sich nicht allein auf Ebene der Forschenden lösen. Repositorien müssen strukturell darauf reagieren.
1. Erweiterte Metadatenmodelle
Repositorien sollten gezielt Felder oder Strukturen bereitstellen für:
- „Known limitations“
- „Data gaps“
- „Bias statement“
2. Unterstützung narrativer Beschreibungen
- Freitextfelder sind nicht optional, sondern zentral
- Kontextinformationen müssen aktiv eingefordert werden
3. Sichtbarkeit statt Verstecken
- Dokumentierte Unsicherheiten sollten:
- sichtbar
- durchsuchbar
- maschinenlesbar sein
Ziel ist nicht perfekte Datenqualität, sondern transparente Datenqualität.
Warum das für KI entscheidend ist
KI-Systeme verstärken bestehende Muster in Daten. Das bedeutet:
- Undokumentierter Bias → wird reproduziert oder verstärkt
- Fehlende Daten → führen zu falschen Generalisierungen
Nur wenn diese Aspekte explizit beschrieben sind, können:
- KI-Systeme korrekt eingeordnet werden
- Nutzer:innen Ergebnisse kritisch bewerten
Die Dokumentation von Bias wird zur Voraussetzung für vertrauenswürdige KI.
Neue Rolle des Forschungsdatenmanagements
Aus beiden Entwicklungen – „FAIR++“ und Bias-Dokumentation – ergibt sich ein verändertes Selbstverständnis für das FDM:
- nicht nur Organisation von Daten
- sondern aktive Gestaltung ihrer Interpretierbarkeit
FDM wird damit:
- epistemisch (Umgang mit Wissen und Unsicherheit)
- infrastrukturell (Bereitstellung für KI-Systeme)
- ethisch (Transparenz und Verantwortung)
Transparenz ist die neue Datenqualität
Die „AI Preparedness Guidelines for Archivists“ zeigen deutlich:
Die Anforderungen an Forschungsdaten verschieben sich grundlegend.
- FAIR bleibt notwendig, aber nicht ausreichend
- „FAIR++“ ergänzt:
- Kontext
- Maschinenlesbarkeit
- kritische Einordnung
Und vor allem:
Daten sind nur dann KI-tauglich, wenn auch ihre Grenzen sichtbar sind.
Für Repositorien bedeutet das:
- Ausbau von Metadatenstrukturen
- Förderung narrativer Kontextualisierung
- systematische Erfassung von Bias und Lücken
Quelle
Archives and Records Association (UK):
AI Preparedness Guidelines for Archivists
https://www.archives.org.uk/ai-preparedness-guidelines-for-archivists