Zum Hauptinhalt springen

smart_toy Funktionsbaustein: KI-Querschnittsdienstefeedback

EigenschaftWert
KennungDArch-FBS-KIQ
HauptfähigkeitProdukte und Services
GeschäftsfähigkeitFachübergreifende Querschnittsdienste
KategorieQuerschnittsdienste
Version0.1 (06.05.2026)
GovStack-Mapping– (kein direktes GovStack-Äquivalent)
ReferenzstandardsEU AI Act (KI-Verordnung), BSI TR-03183-2 (SBOM), ISO/IEC 42001 (AI Management), OECD AI Principles
Referenz GIBGemeinsame IT des Bundes: Dienst KI-Entwicklung
Open-Source-ReferenzKIPITZ (ITZBund), mucGPT (LHM), Open GPT-X

summarize 1 Management Summaryfeedback

Der Baustein „KI-Querschnittsdienste" (KIQ) umfasst Funktionalitäten zum Entwickeln, Implementieren und Verwalten von KI-Modellen durch den Aufbau einer souveränen KI-Infrastruktur und KI-Plattform beim zentralen IT-Dienstleister des Bundes. KI-Funktionalitäten – insbesondere von großen Sprachmodellen (LLM) – sollen leicht in vorhandene IT-Systeme und Fachanwendungen über Schnittstellen integrierbar und in unterschiedlichen Kontexten nachnutzbar sein. Zudem sollen auf der KI-Plattform eigene KI-Anwendungen entwickelt und zentral bereitgestellt werden können.

KIPITZ – Die KI-Plattform des Bundes: KIPITZ ist die zentrale, produktive KI-Plattform der Bundesverwaltung, betrieben durch das ITZBund. Sie ist VS-NfD-freigegeben und plant die Bereitstellung agentischer KI. Als „Mission KIPITZ" soll die Plattform bis Ende 2028 im Deutschland-Stack zur Verfügung stehen.

description 2 Beschreibungfeedback

Dieses Kapitel stellt den fachlichen und technischen Kontext für den Baustein her. Der Baustein adressiert die zentrale Herausforderung, KI-Technologie in der öffentlichen Verwaltung souverän und sicher einzusetzen – ohne in digitale Abhängigkeiten zu geraten.

Der Baustein „KI-Querschnittsdienste" bietet:

  • KI-Portal (KIPITZ): Benutzerfreundliche Oberfläche mit Apps für Chat, Dokumentenzusammenfassung, Übersetzung, Schwärzung und Transkription.
  • API-Schnittstellen: Integration von KI-Modellen in bestehende Fach-IT-Lösungen des Bundes.
  • Wissensdatenbanken (RAG): Anbindung behördeneigener Wissensbestände für kontextsensitive KI-Antworten.
  • Agentische KI: Autonome KI-Agenten zur kurzfristigen Lösung von Verwaltungsleistungen und -anliegen.
  • Modell-Souveränität: Kein Vendor Lock-in – modulare Architektur mit flexibler Anbindung verschiedener Sprachmodelle.

Annahmen zum Geltungsbereich:

  • Der Baustein adressiert die zentrale KI-Plattform als Shared Service; behördenspezifische KI-Fachverfahren nutzen ihn über APIs.
  • Bevorzugter Betrieb auf souveräner, verwaltungsinterner Infrastruktur (On-Premise in Rechenzentren des ITZBund).
  • Gemäß der BMDS-Studie zu LLM-Souveränität werden überwiegend Open-Source-Modelle eingesetzt, die auf eigener Hardware laufen und bei Bedarf ausgetauscht werden können.

Die folgende Tabelle enthält in dieser Spezifikation verwendete Fachbegriffe, die über die allgemeine Terminologie der D-Stack-Architekturspezifikationen hinausgehen. Sie dient als Referenz für alle am Baustein beteiligten Stakeholder.

BegriffDefinition
LLMLarge Language Model – großes Sprachmodell, das auf Basis umfangreicher Trainingsdaten Texte versteht und erzeugt.
RAGRetrieval-Augmented Generation – Architekturmuster, bei dem ein Sprachmodell mit externem Wissen aus Datenbanken angereichert wird.
Agentische KIKI-Systeme, die eigenständig mehrstufige Aufgaben planen und ausführen, dabei Tools aufrufen und mit anderen Systemen interagieren.
MCPModel Context Protocol – offenes Protokoll für die standardisierte Anbindung von Tools und Datenquellen an KI-Modelle.
Prompt EngineeringGezielte Formulierung von Eingabeanweisungen (Prompts) zur Steuerung der Modellausgabe.
Fine-TuningNachtrainieren eines vortrainierten Modells auf domänenspezifischen Daten der Verwaltung.
OntologieFormale, maschinenlesbare Beschreibung der Konzepte, Relationen und Axiome einer Fachdomäne (z.B. in OWL, SKOS oder RDF). Definiert das Schema eines Wissensgraphen.
GraphRAGGraph-basiertes Retrieval-Augmented Generation – erweitert klassisches RAG um einen ontologie-gestützten Wissensgraphen für Multi-Hop-Reasoning und nachvollziehbare Antwortpfade.
SouveränitätscheckVerpflichtende Prüfung kritischer KI-Projekte auf Wechselmöglichkeit, Gestaltungsfähigkeit und Einfluss auf Anbieter.
EU AI ActVerordnung (EU) 2024/1689 – europäischer Rechtsrahmen für Entwicklung, Inverkehrbringen und Nutzung von KI-Systemen; unterscheidet vier Risikoklassen.
XAIExplainable AI – Methoden und Techniken zur Erklärung von KI-Entscheidungen für verschiedene Zielgruppen (Nutzende, Aufsicht, Entwicklung).
HalluzinationSachlich falsche, aber plausibel klingende Ausgabe eines Sprachmodells ohne Grundlage in Trainingsdaten oder Kontext.
EvalSystematische Bewertung der Qualität eines KI-Modells anhand definierter Metriken und Testdatensätze (Benchmarks).
RAGASRetrieval-Augmented Generation Assessment – Framework zur Evaluation von RAG-Systemen anhand Faithfulness, Relevancy und Recall.
Model CardStandardisierte technische Dokumentation eines KI-Modells mit Leistungskennzahlen, Limitierungen, Einsatzgrenzen und Bias-Informationen.
VS-NfDVerschlusssache – Nur für den Dienstgebrauch; Geheimhaltungsstufe für eingestufte Dokumente der Bundesverwaltung.
EfA-Prinzip„Einer für Alle" – Entwicklung und Betrieb einer Lösung durch eine Stelle zur Nachnutzung durch alle.

hub 4 Kernfunktionalitätenfeedback

Die Kernfunktionalitäten bündeln mehrere funktionale Anforderungen zu logischen Fähigkeitsgruppen. Sie beschreiben, was der Baustein leistet – nicht, wie eine konkrete Implementierung aussehen muss.

Der Baustein „KI-Querschnittsdienste" umfasst sechs Kernfunktionalitäten:

  1. KI-Portal – Benutzerfreundliche Oberfläche mit Apps für alltägliche Verwaltungsaufgaben: Chat, Dokumentenzusammenfassung, Übersetzung, Schwärzung personenbezogener Daten und Sprach-zu-Text-Transkription. Jede Behörde erhält ein eigenes, selbst konfigurierbares Portal.

  2. Sprachmodellverwaltung – Zentrale Registry für KI-Modelle mit Multi-Modell-Routing (anwendungsspezifische Modellauswahl), Fine-Tuning-Pipelines für domänenspezifische Anpassungen und Benchmarking zur Qualitätssicherung. Keine Herstellerbindung – sowohl Open-Source- als auch proprietäre Modelle anbindbar.

  3. Agentische KI – Framework für autonome KI-Agenten, die mehrstufige Verwaltungsaufgaben selbstständig bearbeiten, dabei Tools über MCP anbinden und Workflows orchestrieren. Pilotierung läuft bereits über den Agentic AI Hub des BMDS.

  4. Wissensdatenbanken (RAG / GraphRAG) – Anbindung behördeneigener Wissensbestände über Retrieval-Augmented Generation. Neben klassischer Vektorindizierung wird GraphRAG als bevorzugtes Verfahren für relationales Verwaltungswissen empfohlen: Ein Wissensgraph (Entitäten + Relationen) ermöglicht Multi-Hop-Reasoning über vernetzte Fakten (Zuständigkeiten, Rechtsgrundlagen, Organisationsstrukturen), liefert nachvollziehbare Antwortpfade (Audit Trail) und reduziert Halluzinationen durch explizite Faktenverankerung. Sensible Daten verlassen dabei nicht das Behördenportal.

    Rolle von Ontologien: Ontologien (OWL, SKOS, RDF) bilden das semantische Rückgrat des Wissensgraphen – sie definieren, welche Entitätstypen und Relationen existieren dürfen, ermöglichen maschinelles Reasoning (Inferenz) zur Konsistenzprüfung von LLM-Ausgaben und sichern die Interoperabilität zwischen Behörden über geteilte Fachvokabulare (FIM-Ontologie, XÖV-Kernkomponenten, LeiKa, DCAT-AP.de, EU Core Vocabularies). Ohne Ontologie degeneriert ein Wissensgraph zu einer unstrukturierten Graphdatenbank ohne Validierungsmöglichkeit.

  5. Sicherheitsfunktionen KI – Prompt-Filtering gegen Injection-Angriffe, Output-Validierung, lückenlose Audit-Protokollierung und Konformität mit VS-NfD-Anforderungen. Sicherstellung, dass KI-Systeme den EU AI Act und BSI-Anforderungen einhalten.

  6. API-Integration – OpenAI-kompatible API-Schnittstellen für die nahtlose Integration in bestehende Fachanwendungen. Embedding-APIs für semantische Suche und Batch-Verarbeitung für Massenoperationen.

swap_horiz 5 Querschnittsanforderungenfeedback

Die folgenden Querschnittsanforderungen leiten sich aus der KI-Strategie der Bundesregierung, den BMDS-Leitlinien für KI in der Bundesverwaltung, der Studie zu digitaler Souveränität und LLMs sowie dem EU AI Act ab. Sie gelten für alle Bausteine, die mit KI-Querschnittsdiensten interagieren.

IDAnforderungVerbindlichkeitQuelle
KIQ-QA-01Keine Herstellerbindung: Modulare Architektur ermöglicht Austausch von LLMs ohne Änderung der Konsumenten-Integration.ErforderlichBMDS Souveränitätsstudie
KIQ-QA-02Betrieb auf souveräner, verwaltungsinterner Infrastruktur (On-Premise oder souveräne Cloud).ErforderlichBMDS Souveränitätsstudie
KIQ-QA-03Bevorzugung von Open-Source-Modellen; proprietäre Modelle nur bei nachgewiesenem Mehrwert und mit Exit-Strategie.EmpfohlenBMDS Souveränitätsstudie
KIQ-QA-04Verpflichtender Souveränitätscheck für kritische KI-Projekte (Wechselmöglichkeit, Gestaltungsfähigkeit, Einfluss auf Anbieter).ErforderlichBMDS Souveränitätsstudie
KIQ-QA-05Einhaltung des EU AI Act: Risikoklassifizierung, Transparenzpflichten, menschliche Aufsicht.ErforderlichEU AI Act / KI-MIG
KIQ-QA-06VS-NfD-Freigabe: Verarbeitung eingestufter Daten auf der Plattform möglich.ErforderlichBSI
KIQ-QA-07Datensouveränität: Keine Übermittlung von Eingabe- oder Ausgabedaten an Drittstaaten.ErforderlichDSGVO / Schrems II
KIQ-QA-08Lückenlose Audit-Protokollierung aller KI-Interaktionen (Prompt, Response, Modell, Zeitstempel).ErforderlichEU AI Act Art. 12
KIQ-QA-09Nachnutzbarkeit: KI-Lösungen über den Marktplatz der KI-Möglichkeiten transparent machen und zur Nachnutzung anbieten.EmpfohlenBMDS / EfA-Prinzip
KIQ-QA-10Barrierefreiheit: KI-gestützte Interfaces erfüllen WCAG 2.2 AA.ErforderlichBITV 2.0
KIQ-QA-11Energieeffizienz: Monitoring des Energieverbrauchs pro Inference-Anfrage; Optimierung durch Modellquantisierung und effizientes Batching.EmpfohlenRechenzentrumsstrategie

checklist 6 Funktionale Anforderungenfeedback

Die technischen Fähigkeiten, über die dieser Baustein verfügen muss und sollte. Diese Anforderungen bilden die Grundlage, um alle im Abschnitt „Kernfunktionalitäten" aufgeführten Funktionen bereitzustellen. Jede Anforderung ist nach Verbindlichkeit klassifiziert: Erforderlich (MUST) oder Empfohlen (SHOULD).

6.1 KI-Portalfeedback

Anforderungen an die benutzerfreundliche Oberfläche, über die Verwaltungsmitarbeitende direkt mit KI-Funktionalitäten interagieren. Jede Behörde erhält ein eigenes, isoliertes Portal auf der gemeinsamen Plattform.

IDAnforderungVerbindlichkeit
KIQ-FA-01Bereitstellung eines mandantenfähigen KI-Portals mit Self-Service-Konfiguration pro Behörde.Erforderlich
KIQ-FA-02Chat-Interface mit Streaming-Ausgabe und Konversationshistorie.Erforderlich
KIQ-FA-03Dokumenten-Upload und -Befragung (PDF, DOCX, TXT) mit kontextsensitiven Antworten.Erforderlich
KIQ-FA-04Automatische Zusammenfassung von Dokumenten und Texten.Erforderlich
KIQ-FA-05Maschinelle Übersetzung zwischen allen EU-Amtssprachen.Empfohlen
KIQ-FA-06Automatische Schwärzung personenbezogener Daten (NER-basiert).Empfohlen
KIQ-FA-07Sprache-zu-Text-Transkription (Whisper-kompatibel).Empfohlen

6.2 Sprachmodellverwaltungfeedback

Anforderungen an die zentrale Verwaltung und Orchestrierung verschiedener KI-Modelle. Die modulare Architektur stellt sicher, dass keine Bindung an einen einzelnen Modellanbieter entsteht.

IDAnforderungVerbindlichkeit
KIQ-FA-10Zentrale Modell-Registry mit Versionierung, Metadaten und Leistungskennzahlen.Erforderlich
KIQ-FA-11Multi-Modell-Routing: Automatische oder manuelle Auswahl des optimalen Modells pro Anwendungsfall.Erforderlich
KIQ-FA-12Unterstützung von mindestens drei parallelen LLM-Anbietern (Open Source und proprietär).Erforderlich
KIQ-FA-13Fine-Tuning-Pipeline für domänenspezifische Anpassung auf verwaltungseigenen Daten.Empfohlen
KIQ-FA-14Modell-Benchmarking mit standardisierten Evaluationsmetriken (Genauigkeit, Latenz, Kosten).Empfohlen
KIQ-FA-15Hot-Swap von Modellen ohne Dienstunterbrechung (Blue-Green-Deployment).Erforderlich

6.3 Agentische KIfeedback

Anforderungen an das Framework für autonome KI-Agenten, die komplexe Verwaltungsaufgaben mehrstufig und werkzeuggestützt bearbeiten können.

IDAnforderungVerbindlichkeit
KIQ-FA-20Agenten-Framework mit Tool-Calling, Planung und iterativer Ausführung.Erforderlich
KIQ-FA-21MCP-Repository für standardisierte Tool-Anbindung (Dateisysteme, APIs, Datenbanken).Erforderlich
KIQ-FA-22Menschliche Aufsicht (Human-in-the-Loop) für Agenten mit hohem Risiko-Impact.Erforderlich
KIQ-FA-23Sandbox-Umgebung für Agenten-Testing ohne Auswirkung auf Produktivsysteme.Empfohlen

6.4 Wissensdatenbanken (RAG)feedback

Anforderungen an die Anbindung behördeneigener Wissensbestände für kontextsensitive, faktenbasierte KI-Antworten.

IDAnforderungVerbindlichkeit
KIQ-FA-30Vektorindizierung und semantische Suche über beliebige Dokumentenkorpora.Erforderlich
KIQ-FA-31Mandantentrennung: Wissensdatenbanken einer Behörde sind für andere nicht einsehbar.Erforderlich
KIQ-FA-32Unterstützung gängiger Dokumentenformate (PDF, DOCX, HTML, Markdown).Erforderlich
KIQ-FA-33Quellenangabe (Citation) in generierten Antworten mit Verweis auf Originaldokument.Erforderlich
KIQ-FA-34Automatische Re-Indizierung bei Änderung der Quellbestände.Empfohlen
KIQ-FA-35GraphRAG: Aufbau eines Wissensgraphen (Entitäten, Relationen) aus Dokumentenkorpora für Multi-Hop-Reasoning und nachvollziehbare Antwortpfade.Empfohlen
KIQ-FA-36GraphRAG: Community Summaries über Themencluster für globale Fragen an große Dokumentenbestände.Empfohlen
KIQ-FA-37Hybrides Retrieval: Kombinierte Abfrage aus Vektor-Suche und Graph-Traversierung mit konfigurierbarer Gewichtung.Empfohlen

6.5 Sicherheitsfunktionen KIfeedback

Anforderungen an die KI-spezifischen Sicherheitsmaßnahmen, die über die allgemeinen IT-Sicherheitsanforderungen hinausgehen und die besonderen Risiken generativer KI adressieren.

IDAnforderungVerbindlichkeit
KIQ-FA-40Prompt-Injection-Schutz: Eingabefilter gegen Manipulation des Modellverhaltens.Erforderlich
KIQ-FA-41Output-Validierung: Prüfung generierter Inhalte auf toxische, falsche oder klassifizierte Informationen.Erforderlich
KIQ-FA-42Lückenlose Audit-Logs: Protokollierung von Prompt, Response, Modell, Nutzer und Zeitstempel.Erforderlich
KIQ-FA-43Rollenbasierte Zugriffskontrolle (RBAC) auf Modelle, Portale und Wissensdatenbanken.Erforderlich
KIQ-FA-44Data Loss Prevention (DLP): Erkennung und Blockierung unbeabsichtigter Datenexfiltration.Erforderlich
KIQ-FA-45Regelmäßige Red-Teaming-Exercises gegen KI-spezifische Angriffsvektoren.Empfohlen

6.6 API-Integrationfeedback

Anforderungen an die programmatischen Schnittstellen, über die Fachanwendungen und andere Funktionsbausteine KI-Funktionalitäten konsumieren.

IDAnforderungVerbindlichkeit
KIQ-FA-50OpenAI-kompatible Chat-Completion-API (REST, JSON).Erforderlich
KIQ-FA-51Embedding-API für semantische Vektorisierung von Texten.Erforderlich
KIQ-FA-52Batch-API für asynchrone Massenverarbeitung.Empfohlen
KIQ-FA-53Rate Limiting und Quota Management pro Mandant.Erforderlich
KIQ-FA-54API-Versionierung mit Abwärtskompatibilität.Erforderlich

database 7 Datenstrukturenfeedback

Dieser Abschnitt beschreibt die zentralen Datenstrukturen und Datenmodelle, die vom Baustein „KI-Querschnittsdienste" genutzt werden. Er umfasst Ressourcenmodell und Datenelemente, die von den Kernfunktionalitäten benötigt werden.

7.1 Ressourcenmodellfeedback

Das Ressourcenmodell zeigt die Beziehungen zwischen den Datenobjekten, die von diesem Baustein verwaltet werden. Im Zentrum stehen Modelle, die über Inference Requests angesprochen werden, sowie Wissensdatenbanken, die per RAG in die Anfragen einfließen.

7.2 Zentrale Datenobjektefeedback

Die folgende Tabelle beschreibt die wesentlichen Fachobjekte des Bausteins. Jedes Objekt entspricht einer Entität im Ressourcenmodell und wird über die Service-Schnittstellen exponiert.

ObjektBeschreibung
TenantMandant (Behörde) mit eigenem Portal, Wissensdatenbanken und Konfiguration.
PortalBehördeneigenes KI-Portal auf der KIPITZ-Plattform mit individueller Konfiguration.
ModelKI-Modell (LLM, Embedding, Speech-to-Text) mit Metadaten zu Anbieter und Lizenz.
Model VersionKonkrete Version eines Modells mit Quantisierungsstufe und Benchmark-Ergebnissen.
ConversationDialog eines Nutzers mit dem System, bestehend aus Nachrichten.
MessageEinzelne Nachricht (Prompt oder Response) mit Modellzuordnung und Token-Zählung.
Knowledge BaseWissensbestand einer Behörde, bestehend aus indexierten Dokumenten.
Document / ChunkQuell-Dokument und dessen vektorisierte Textfragmente für semantische Suche.
AgentKonfigurierter KI-Agent mit System-Prompt, Modellzuweisung und Tool-Zugriff.
ToolWerkzeug, das ein Agent über MCP aufrufen kann (API, Dateisystem, Datenbank).

api 8 Service-Schnittstellenfeedback

Dieser Abschnitt enthält eine Referenz für die APIs, die von diesem Baustein implementiert werden. Die hier definierten APIs bilden die Grundlage für die Interaktion mit Fachanwendungen und anderen Bausteinen.

APIBeschreibungProtokoll
Chat Completion APITextgenerierung mit Streaming, System-Prompts und Tool-Calling. OpenAI-kompatibel.REST / SSE
Embedding APIVektorisierung von Texten für semantische Suche und Similarity.REST
Knowledge Base APICRUD für Wissensdatenbanken, Dokument-Upload, Semantic Search.REST / OpenAPI 3.1
Agent APIErstellen, konfigurieren und ausführen von KI-Agenten mit Tool-Calling.REST / WebSocket
Management APIMandanten-, Modell- und Portal-Verwaltung, Monitoring, Quota-Management.REST / OpenAPI 3.1

account_tree 9 Interne Workflowsfeedback

Dieser Abschnitt bietet einen detaillierten Überblick darüber, wie dieser Baustein intern arbeitet und mit Fachanwendungen interagiert. Die Workflows zeigen typische Nutzungsszenarien: von der einfachen Chat-Anfrage über RAG-gestützten Dokumentenzugriff bis zur agentischen Aufgabenbearbeitung.

9.1 Workflow: RAG-gestützte Anfragefeedback

Dieser Workflow beschreibt, wie eine Nutzerfrage mit behördeneigenem Wissen angereichert wird, bevor sie an das Sprachmodell geht. Die Quellenangabe (Citation) stellt die Nachvollziehbarkeit sicher.

9.2 Workflow: Agentische Aufgabenbearbeitungfeedback

Dieser Workflow zeigt, wie ein KI-Agent eine komplexe Verwaltungsaufgabe eigenständig in Teilschritte zerlegt, Tools aufruft und dabei unter menschlicher Aufsicht bleibt.

gavel 10 EU AI Act – Regulatorische Anforderungenfeedback

Der EU AI Act (KI-Verordnung, Verordnung (EU) 2024/1689) ist seit August 2024 in Kraft und schafft den weltweit ersten umfassenden Rechtsrahmen für KI-Systeme. Für die Bundesverwaltung hat die Verordnung unmittelbare Relevanz: KI-Systeme, die in der öffentlichen Verwaltung eingesetzt werden, unterliegen häufig der Hochrisiko-Kategorie (Annex III).

10.1 Risikoklassifizierungfeedback

10.2 Pflichten für Hochrisiko-KI-Systeme (Art. 6–15)feedback

Die meisten KI-Systeme im Kontext der Bundesverwaltung fallen unter die Hochrisiko-Kategorie, insbesondere wenn sie in behördlichen Entscheidungsprozessen eingesetzt werden (Annex III Nr. 5: „Zugang zu und Nutzung von wesentlichen öffentlichen Diensten").

PflichtArtikelUmsetzung im Baustein KIQ
RisikomanagementsystemArt. 9Verpflichtende Risikobewertung vor Inbetriebnahme jedes KI-Modells; kontinuierliches Monitoring.
Daten-GovernanceArt. 10Dokumentation der Trainingsdaten; Prüfung auf Bias und Repräsentativität; Mandantentrennung.
Technische DokumentationArt. 11Model Cards mit Leistungskennzahlen, Limitierungen und Einsatzgrenzen.
AufzeichnungspflichtenArt. 12Lückenlose Audit-Logs (Prompt, Response, Modell, User, Zeitstempel) – KIQ-FA-42.
TransparenzArt. 13Erklärbare Entscheidungen (→ XAI); Kennzeichnung KI-generierter Inhalte.
Menschliche AufsichtArt. 14Human-in-the-Loop bei kritischen Entscheidungen – KIQ-FA-22.
Genauigkeit & RobustheitArt. 15Standardisierte Evaluationsmetriken; Red Teaming – KIQ-FA-14, KIQ-FA-45.
CybersicherheitArt. 15(4)Prompt-Injection-Schutz, Output-Validierung, DLP – KIQ-FA-40 bis KIQ-FA-44.

10.3 Zeitplan und Fristenfeedback

DatumMeilenstein
02.08.2024Inkrafttreten der KI-Verordnung
02.02.2025Verbot von KI-Systemen mit unannehmbarem Risiko (Art. 5)
02.08.2025Pflichten für Anbieter von KI-Modellen mit allgemeinem Verwendungszweck (GPAI, Art. 51–56)
02.08.2026Volle Anwendbarkeit der Hochrisiko-Pflichten (Art. 6–15)
02.08.2027Pflichten für Hochrisiko-Systeme gemäß Annex I (Produktsicherheit)

⚠️ Handlungsbedarf bis August 2026: Die Hochrisiko-Pflichten gelten ab 02.08.2026 – betroffen sind alle KI-Systeme der Bundesverwaltung, die in Entscheidungsprozessen eingesetzt werden. Die KI-Plattform KIPITZ muss bis dahin vollständige Compliance sicherstellen: Risikomanagementsystem, technische Dokumentation, Audit-Logs und menschliche Aufsichtsmechanismen.

10.4 KI-Transparenzregisterfeedback

Der EU AI Act verlangt von öffentlichen Stellen die Registrierung von Hochrisiko-KI-Systemen in einer EU-Datenbank (Art. 49). Auf nationaler Ebene dient der Marktplatz der KI-Möglichkeiten bereits als Transparenzregister für KI-Systeme der Bundesverwaltung. Die Registrierung soll künftig verpflichtend über dieses Register erfolgen.

visibility 11 Explainable AI (XAI)feedback

Erklärbare Künstliche Intelligenz (Explainable AI, XAI) ist sowohl eine regulatorische Anforderung (EU AI Act Art. 13) als auch eine Voraussetzung für die Akzeptanz von KI in der Verwaltung. Entscheidungen, die durch KI unterstützt werden, müssen für Betroffene, Sachbearbeitende und Aufsichtsbehörden nachvollziehbar sein.

11.1 Anforderungen an Erklärbarkeitfeedback

ZielgruppeErklärungsbedarfXAI-Methode
Bürger:innenWarum wurde mein Antrag abgelehnt?Natürlichsprachliche Begründung mit Quellenangabe; Faktoren-Auflistung.
SachbearbeitendeAuf welcher Grundlage basiert die Empfehlung?Feature Attribution (SHAP/LIME); Entscheidungsbaum-Approximation; GraphRAG-Pfaddarstellung.
AufsichtsbehördenIst das System diskriminierungsfrei?Globale Erklärungen (Modellkarten); statistische Fairness-Metriken; Audit-Trails.
Entwickler:innenWarum hat das Modell halluziniert?Attention Maps; Token-Logprobs; Retrieval-Scores; Kontextfenster-Analyse.

11.2 XAI-Techniken für LLM-basierte Systemefeedback

Empfohlene Umsetzung im Baustein KIQ:

  1. Citation-Pflicht: Jede KI-gestützte Aussage muss mit Quellenangaben (Dokument, Paragraph, Wissengraph-Knoten) versehen sein – bereits in KIQ-FA-33 verankert.
  2. Confidence Scores: Antworten werden mit einem Konfidenzwert versehen; unterhalb eines Schwellenwerts erfolgt eine explizite Warnung an die Nutzenden.
  3. GraphRAG-Pfade: Bei Graph-basiertem Retrieval wird der Reasoning-Pfad (Entität → Relation → Entität → …) als nachvollziehbare Herleitung dargestellt.
  4. Kennzeichnungspflicht: KI-generierte Inhalte werden als solche gekennzeichnet (EU AI Act Art. 50).
  5. "Warum?"-Funktion: Nutzende können per Klick eine natürlichsprachliche Erklärung der Modellentscheidung anfordern.

bug_report 12 KI-Fehlerkategorienfeedback

Generative KI-Systeme produzieren charakteristische Fehlertypen, die sich fundamental von klassischen Software-Fehlern unterscheiden. Eine systematische Taxonomie ist Voraussetzung für Risikomanagement (EU AI Act Art. 9), Evaluierung und die Gestaltung wirksamer Gegenmaßnahmen.

12.1 Fehlertaxonomiefeedback

KategorieBeschreibungRisikostufeGegenmaßnahme
HalluzinationModell erzeugt sachlich falsche, aber plausibel klingende Aussagen ohne Grundlage in den Trainingsdaten oder im Kontext.🔴 HochRAG/GraphRAG mit Quellenverankerung; Confidence Scores; Fact-Checking-Pipeline.
KonfabulationModell „erfindet" Details (Zitate, Paragrafen, Aktenzeichen), die nicht existieren.🔴 HochStrikte Citation-Pflicht; Validierung gegen Quelldatenbank; Hallucination Detection Models.
Bias / DiskriminierungSystematische Verzerrung aufgrund unausgewogener Trainingsdaten – z.B. Benachteiligung bestimmter Bevölkerungsgruppen.🔴 HochFairness-Audits; diverse Trainingsdaten; De-Biasing-Techniken; Monitoring auf geschützte Merkmale.
Prompt InjectionManipulation der Modelleingabe, um Sicherheitsmechanismen zu umgehen oder unbeabsichtigtes Verhalten auszulösen.🔴 HochInput-Sanitization; mehrschichtige Filter; System-Prompt-Isolation (KIQ-FA-40).
Data LeakageModell gibt vertrauliche Trainingsdaten oder Kontextinformationen anderer Mandanten preis.🔴 HochMandantentrennung; DLP-Filter; Output-Scanning (KIQ-FA-44).
ToxizitätGenerierung beleidigender, diskriminierender oder unangemessener Inhalte.🟠 MittelContent-Filter; Moderation-Modelle; Output-Validierung (KIQ-FA-41).
InkonsistenzIdentische Frage liefert bei mehrfacher Ausführung widersprüchliche Antworten.🟠 MittelTemperatur-Steuerung; Seed-Parameter; Ensemble-Voting; Deterministic Decoding.
KontextverlustBei langen Konversationen oder Dokumenten verliert das Modell wichtige Informationen aus dem Kontext.🟠 MittelKontext-Komprimierung; hierarchische Summarization; Sliding-Window-RAG.
OverconfidenceModell gibt falsche Antworten mit hoher scheinbarer Sicherheit aus, ohne Unsicherheit zu signalisieren.🟠 MittelCalibration; Logprob-Auswertung; „Ich weiß es nicht"-Training; Confidence Thresholds.
Sprachliche FehlerGrammatik-, Rechtschreib- oder Stilfehler, insbesondere bei seltenen Sprachen oder Fachterminologie.🟡 NiedrigFachterminologie-Fine-Tuning; nachgelagerte Sprachprüfung; Glossar-Enforcement.
Format-FehlerModell hält vorgegebene Ausgabeformate nicht ein (JSON, Tabellen, strukturierte Daten).🟡 NiedrigStructured Output (JSON Mode); Schema-Validierung; Retry-Logik mit Feedback.
Latenz-DegradationAntwortzeiten verschlechtern sich unter Last oder bei komplexen Anfragen jenseits akzeptabler Schwellenwerte.🟡 NiedrigAuto-Scaling; Modell-Quantisierung; Anfrage-Routing; Caching; Batch-Optimierung.

12.2 Fehlerbehandlungsstrategiefeedback

Defense in Depth: Fehlerprävention folgt dem Defense-in-Depth-Prinzip: Kein einzelner Mechanismus reicht aus – erst die Kombination aus Pre-Processing (Eingabefilter), modellinternen Maßnahmen (Confidence, RAG) und Post-Processing (Faktencheck, Content-Filter) ergibt ein robustes System. Jede Schicht reduziert die Restfehlerrate der vorherigen.

monitoring 13 Evals und Benchmarkingfeedback

Systematische Evaluation (Evals) und Benchmarking sind unverzichtbar für die Qualitätssicherung von KI-Systemen in der Bundesverwaltung. Sie stellen sicher, dass Modelle den regulatorischen Anforderungen (EU AI Act Art. 15) genügen, messbar leistungsfähig sind und über den gesamten Lebenszyklus qualitätsgesichert bleiben.

13.1 Evaluationsdimensionenfeedback

DimensionMetrikenBeschreibung
KorrektheitAccuracy, F1, Exact Match, BLEU/ROUGEStimmen die Ausgaben sachlich und inhaltlich mit der Referenz überein?
ZuverlässigkeitHalluzinationsrate, Faithfulness ScoreWie häufig erzeugt das Modell nicht-faktenbasierte Aussagen?
FairnessDemographic Parity, Equalized OddsWerden alle Bevölkerungsgruppen gleich behandelt?
RobustheitAdversarial Accuracy, Jailbreak-ResistenzWie widerstandsfähig ist das Modell gegen manipulative Eingaben?
LatenzTTFT, TPS, P95-LatenzWie schnell antwortet das Modell unter Last?
KostenToken/€, Energie/InferenceWie wirtschaftlich ist der Betrieb?
DomäneneignungFachterminologie-Score, Verwaltungs-BenchmarkKennt das Modell relevante Verwaltungsfachsprache und -prozesse?

13.2 Benchmarking-Frameworkfeedback

13.3 Eval-Kategorienfeedback

13.3.1 Standard-Benchmarks (Allgemeine Modellqualität)feedback

BenchmarkPrüfgegenstandZielwert
MMLUAllgemeinwissen über 57 Fachgebiete> 70% Accuracy
HellaSwagCommonsense Reasoning> 80%
HumanEval / MBPPCode-Generierung> 60% Pass@1
MT-BenchMulti-Turn-Dialogqualität> 7.5 / 10
TruthfulQAFaktenbasierte Antworten (Anti-Halluzination)> 60%

13.3.2 Domänenspezifische Benchmarks (Verwaltung)feedback

BenchmarkPrüfgegenstandBeschreibung
VerwaltungsRechtQAVerwaltungsrechtliche FragenEigener Benchmark mit Fragen aus VwVfG, SGB, AO – geprüft gegen Kommentarliteratur.
FIM-TerminologieFachterminologieKorrekte Verwendung von FIM-Begriffen (Leistungen, Prozesse, Datenfelder).
Bescheid-EvalBescheiderstellungQualität generierter Verwaltungsbescheide (Struktur, Rechtsgrundlage, Tenor, Begründung).
Übersetzungs-EvalFachübersetzung DE↔EN/FRTerminologietreue bei Verwaltungsfachsprache; BLEU + menschliche Bewertung.
Zusammenfassungs-EvalDokumentenzusammenfassungInformationserhalt und Kürze bei Vorlagen, Berichten, Gesetzentwürfen.

13.3.3 Sicherheits- und Fairness-Benchmarksfeedback

BenchmarkPrüfgegenstandBeschreibung
Prompt-Injection-SuiteAngriffssicherheitStandardisierte Angriffsmuster (Direct Injection, Indirect Injection, Jailbreaks).
Toxicity-EvalToxische AusgabenBewertung auf schädliche, beleidigende oder unangemessene Inhalte.
Bias-AuditDiskriminierungPrüfung auf systematische Benachteiligung nach Geschlecht, Herkunft, Alter.
Data-Leakage-TestDatenexfiltrationVersuch, vertrauliche Trainings- oder Kontextdaten zu extrahieren.

13.3.4 RAG-spezifische Metriken (RAGAS-Framework)feedback

MetrikBeschreibungBerechnung
FaithfulnessSind alle Aussagen durch den Kontext belegt?Anteil faktenverankerter Aussagen an Gesamtaussagen.
Answer RelevancyBeantwortet die Antwort die gestellte Frage?Semantische Ähnlichkeit zwischen Frage und Antwort.
Context RecallWurden alle relevanten Informationen gefunden?Anteil genutzter relevanter Kontexte an allen relevanten.
Context PrecisionSind die abgerufenen Kontexte relevant?Anteil relevanter Kontexte an allen abgerufenen.
Answer CorrectnessStimmt die Antwort sachlich?Vergleich mit Ground-Truth-Antwort (F1 + semantisch).

13.4 Eval-Prozess im Lebenszyklusfeedback

PhaseEval-TypFrequenzVerantwortung
ModellauswahlVollständige Benchmark-SuiteBei jedem ModellwechselKI-Plattform-Team
DeploymentRegressionstests + Sicherheits-EvalsVor jedem ReleaseCI/CD-Pipeline (automatisiert)
BetriebDrift-Monitoring + Stichproben-EvalsKontinuierlich / wöchentlichBetriebsteam + Fachexpert:innen
AuditVollständiges Re-Eval + Fairness-AuditJährlich / anlassbezogenExterne Prüfung / BfDI

Best Practice – Eval-Driven Development: Evaluierungsmetriken sollten vor der Modellauswahl definiert werden – analog zu testgetriebener Entwicklung. Erst wenn klar ist, welche Qualitätsziele ein KI-System erreichen muss (z.B. „Halluzinationsrate < 5% auf VerwaltungsRechtQA"), kann eine fundierte Modellentscheidung getroffen werden.

share 14 Integrationspotenzial mit anderen Funktionsbausteinenfeedback

Der Baustein „KI-Querschnittsdienste" entfaltet seine Wirkung als horizontaler Enabler für zahlreiche andere Funktionsbausteine der BMDS-Lösungs- und Dienstebibliothek. Die folgende priorisierte Liste zeigt die 20 Bausteine mit dem höchsten KI-Integrationspotenzial – bewertet nach Automatisierungspotenzial, Textintensität und Fallzahlen.

#FunktionsbausteinPrioKI-Anwendungsszenarien
1Vorgangs- und SachbearbeitungstarstarstarstarstarAgentische KI automatisiert mehrstufige Verwaltungsverfahren; GraphRAG über Rechtsgrundlagen und Zuständigkeiten liefert Fachinformationen direkt im Vorgang; LLM erzeugt Bescheidentwürfe.
2Chat-basierte AntragstellungstarstarstarstarstarLLM als natürlichsprachliches Interface; GraphRAG navigiert Leistungskataloge und Zuständigkeiten; dialogbasierte Formularassistenz.
3Entscheidungsunterstützungstarstarstarstarstar_halfGraphRAG über Rechtsgrundlagen + Multi-Hop-Reasoning = fundierte Entscheidungsempfehlungen mit nachvollziehbaren Quellenangaben.
4Maschinelle Übersetzungstarstarstarstarstar_halfDirekter KIQ-Konsument: Fachterminologie-Fine-Tuning; domänenspezifische Übersetzung; VS-NfD-Dokumente auf eigener Infrastruktur.
5Normengestaltungstarstarstarstarstar_borderLLM-gestützte Konsistenzprüfung; GraphRAG über gesamten Rechtsbestand ermöglicht Querverweise, Kollisionsprüfung und automatische Synopsen.
6Eingabemanagementstarstarstarstarstar_borderAutomatische Klassifikation und Routing von Bürgeranfragen; Sentiment-Analyse; KI-gestützte Antwortvorschläge.
7Datenanalysestarstarstarstar_halfstar_borderLLM als Natural-Language-Interface; GraphRAG verknüpft Metadaten, Datenherkunft und Kennzahlen-Definitionen für kontextreiche Abfragen.
8Content-Managementstarstarstarstar_halfstar_borderAutomatische Texterstellung und Zusammenfassung; Metadaten-Generierung; Barrierefreiheits-Check per KI; SEO-Optimierung.
9Informationssammlungstarstarstarstar_halfstar_borderGraphRAG über heterogene Quellen bildet Themencluster; semantische Suche mit Community Summaries für Verwaltungsportale.
10Wissenserwerbstarstarstarstar_borderstar_borderPersonalisierte Lernpfade; GraphRAG über Curricula und Kompetenzmodelle; KI-Tutor mit nachvollziehbaren Wissenspfaden.
11IT-Service-Managementstarstarstarstar_borderstar_borderKI-Chatbot für First-Level-Support; GraphRAG über CMDB, Known Errors und Lösungsdatenbank für vernetzte Troubleshooting-Pfade.
12Elektronische Veraktungstarstarstar_halfstar_borderstar_borderAutomatische Verschlagwortung; GraphRAG über Aktenplan-Strukturen und Vorgangszusammenhänge; intelligente Aktensuche.
13Massendatenanalysestarstarstar_halfstar_borderstar_borderKI-gestützte Feature-Extraktion; LLM als Code-Copilot für Data Scientists; automatische Report-Generierung aus Analysen.
14Detektion und Reaktionstarstarstar_halfstar_borderstar_borderGraphRAG über Angriffsmuster (MITRE ATT&CK), Infrastruktur-Topologie und Schwachstellen; KI-basierte Alert-Korrelation.
15Postfach und Interaktionstarstarstar_borderstar_borderstar_borderAutomatische Antwortvorschläge; Zusammenfassung langer Nachrichtenverläufe; Spam-/Phishing-Erkennung; Priorisierung.
16Informations- und Bibliotheksportalstarstarstar_borderstar_borderstar_borderGraphRAG über Fachthesauri und Zitationsnetzwerke; semantische Suche über Millionen Dokumente; Empfehlungssysteme.
17Vergabemanagementstarstarstar_borderstar_borderstar_borderGraphRAG über Vergaberecht, Rahmenverträge und Anbieterhistorie; KI-gestützte Angebotsauswertung und Eignungsprüfung.
18Personalgewinnung und -entwicklungstarstar_halfstar_borderstar_borderstar_borderAnonymisiertes Bewerber-Matching; automatische Stellenanzeigen; Kompetenzprofile aus Beurteilungen; Bias-Monitoring.
19Fördermanagementstarstar_halfstar_borderstar_borderstar_borderGraphRAG über Förderrichtlinien und Bewilligungshistorie; Antragsprüfung auf Plausibilität; Missbrauchserkennung.
20Kollaboratives Intranetstarstar_borderstar_borderstar_borderstar_borderKI-Suche über Wikis und Blogs; automatische Zusammenfassungen; Übersetzung; Content-Empfehlungen; Q&A-Bot.

Priorisierungskriterien: Die Bewertung basiert auf drei Dimensionen: (1) Textintensität – je mehr unstrukturierter Text verarbeitet wird, desto höher das LLM-Potenzial; (2) Wissensvernetzung – je mehr Querverbindungen zwischen Fachinformationen bestehen, desto höher der GraphRAG-Mehrwert; (3) Fallzahl × Routineanteil – je mehr Standardfälle vorliegen, desto höher das Automatisierungspotenzial durch agentische KI.

Die folgende Tabelle verweist auf politische Strategien, technische Standards und konkrete Plattformen, die für die Umsetzung dieses Bausteins relevant sind.

QuelleBeschreibung
BMDS: Künstliche IntelligenzThemenseite des Bundesministeriums für Digitales und Staatsmodernisierung zu KI.
KIPITZ – KI-Plattform des BundesZentrale KI-Plattform der Bundesverwaltung (ITZBund).
Marktplatz der KI-MöglichkeitenKI-Transparenzregister und Matching-Plattform für KI-Systeme der Verwaltung.
Digitale Souveränität und große SprachmodelleStudie von Fraunhofer FOKUS zu souveränem LLM-Einsatz in der Bundesverwaltung.
KI-Strategie der BundesregierungNationale Strategie für Künstliche Intelligenz (2018, fortgeschrieben 2020).
Agentic AI Hub (BMDS)Pilotierung agentischer KI in Kommunen (März 2026).
KI München (KIES)KI-Entwicklung und -Services der Landeshauptstadt München – Open-Source-Referenz auf kommunaler Ebene.
Leitlinien für KI in der BundesverwaltungVerbindliche Leitlinien für den Einsatz von KI in der Bundesverwaltung (BMDS, 2025).
EU AI Act (KI-Verordnung)Europäischer Rechtsrahmen für KI-Systeme.
ISO/IEC 42001Managementsystem für Künstliche Intelligenz.