smart_toy Funktionsbaustein: KI-Querschnittsdienstefeedback

Eigenschaft	Wert
Kennung	DArch-FBS-KIQ
Hauptfähigkeit	Produkte und Services
Geschäftsfähigkeit	Fachübergreifende Querschnittsdienste
Kategorie	Querschnittsdienste
Version	0.1 (06.05.2026)
GovStack-Mapping	– (kein direktes GovStack-Äquivalent)
Referenzstandards	EU AI Act (KI-Verordnung), BSI TR-03183-2 (SBOM), ISO/IEC 42001 (AI Management), OECD AI Principles
Referenz GIB	Gemeinsame IT des Bundes: Dienst KI-Entwicklung
Open-Source-Referenz	KIPITZ (ITZBund), mucGPT (LHM), Open GPT-X

summarize 1 Management Summaryfeedback

Der Baustein „KI-Querschnittsdienste" (KIQ) umfasst Funktionalitäten zum Entwickeln, Implementieren und Verwalten von KI-Modellen durch den Aufbau einer souveränen KI-Infrastruktur und KI-Plattform beim zentralen IT-Dienstleister des Bundes. KI-Funktionalitäten – insbesondere von großen Sprachmodellen (LLM) – sollen leicht in vorhandene IT-Systeme und Fachanwendungen über Schnittstellen integrierbar und in unterschiedlichen Kontexten nachnutzbar sein. Zudem sollen auf der KI-Plattform eigene KI-Anwendungen entwickelt und zentral bereitgestellt werden können.

KIPITZ – Die KI-Plattform des Bundes: KIPITZ ist die zentrale, produktive KI-Plattform der Bundesverwaltung, betrieben durch das ITZBund. Sie ist VS-NfD-freigegeben und plant die Bereitstellung agentischer KI. Als „Mission KIPITZ" soll die Plattform bis Ende 2028 im Deutschland-Stack zur Verfügung stehen.

description 2 Beschreibungfeedback

Dieses Kapitel stellt den fachlichen und technischen Kontext für den Baustein her. Der Baustein adressiert die zentrale Herausforderung, KI-Technologie in der öffentlichen Verwaltung souverän und sicher einzusetzen – ohne in digitale Abhängigkeiten zu geraten.

Der Baustein „KI-Querschnittsdienste" bietet:

KI-Portal (KIPITZ): Benutzerfreundliche Oberfläche mit Apps für Chat, Dokumentenzusammenfassung, Übersetzung, Schwärzung und Transkription.
API-Schnittstellen: Integration von KI-Modellen in bestehende Fach-IT-Lösungen des Bundes.
Wissensdatenbanken (RAG): Anbindung behördeneigener Wissensbestände für kontextsensitive KI-Antworten.
Agentische KI: Autonome KI-Agenten zur kurzfristigen Lösung von Verwaltungsleistungen und -anliegen.
Modell-Souveränität: Kein Vendor Lock-in – modulare Architektur mit flexibler Anbindung verschiedener Sprachmodelle.

Annahmen zum Geltungsbereich:

Der Baustein adressiert die zentrale KI-Plattform als Shared Service; behördenspezifische KI-Fachverfahren nutzen ihn über APIs.
Bevorzugter Betrieb auf souveräner, verwaltungsinterner Infrastruktur (On-Premise in Rechenzentren des ITZBund).
Gemäß der BMDS-Studie zu LLM-Souveränität werden überwiegend Open-Source-Modelle eingesetzt, die auf eigener Hardware laufen und bei Bedarf ausgetauscht werden können.

menu_book 3 Terminologiefeedback

Die folgende Tabelle enthält in dieser Spezifikation verwendete Fachbegriffe, die über die allgemeine Terminologie der D-Stack-Architekturspezifikationen hinausgehen. Sie dient als Referenz für alle am Baustein beteiligten Stakeholder.

Begriff	Definition
LLM	Large Language Model – großes Sprachmodell, das auf Basis umfangreicher Trainingsdaten Texte versteht und erzeugt.
RAG	Retrieval-Augmented Generation – Architekturmuster, bei dem ein Sprachmodell mit externem Wissen aus Datenbanken angereichert wird.
Agentische KI	KI-Systeme, die eigenständig mehrstufige Aufgaben planen und ausführen, dabei Tools aufrufen und mit anderen Systemen interagieren.
MCP	Model Context Protocol – offenes Protokoll für die standardisierte Anbindung von Tools und Datenquellen an KI-Modelle.
Prompt Engineering	Gezielte Formulierung von Eingabeanweisungen (Prompts) zur Steuerung der Modellausgabe.
Fine-Tuning	Nachtrainieren eines vortrainierten Modells auf domänenspezifischen Daten der Verwaltung.
Ontologie	Formale, maschinenlesbare Beschreibung der Konzepte, Relationen und Axiome einer Fachdomäne (z.B. in OWL, SKOS oder RDF). Definiert das Schema eines Wissensgraphen.
GraphRAG	Graph-basiertes Retrieval-Augmented Generation – erweitert klassisches RAG um einen ontologie-gestützten Wissensgraphen für Multi-Hop-Reasoning und nachvollziehbare Antwortpfade.
Souveränitätscheck	Verpflichtende Prüfung kritischer KI-Projekte auf Wechselmöglichkeit, Gestaltungsfähigkeit und Einfluss auf Anbieter.
EU AI Act	Verordnung (EU) 2024/1689 – europäischer Rechtsrahmen für Entwicklung, Inverkehrbringen und Nutzung von KI-Systemen; unterscheidet vier Risikoklassen.
XAI	Explainable AI – Methoden und Techniken zur Erklärung von KI-Entscheidungen für verschiedene Zielgruppen (Nutzende, Aufsicht, Entwicklung).
Halluzination	Sachlich falsche, aber plausibel klingende Ausgabe eines Sprachmodells ohne Grundlage in Trainingsdaten oder Kontext.
Eval	Systematische Bewertung der Qualität eines KI-Modells anhand definierter Metriken und Testdatensätze (Benchmarks).
RAGAS	Retrieval-Augmented Generation Assessment – Framework zur Evaluation von RAG-Systemen anhand Faithfulness, Relevancy und Recall.
Model Card	Standardisierte technische Dokumentation eines KI-Modells mit Leistungskennzahlen, Limitierungen, Einsatzgrenzen und Bias-Informationen.
VS-NfD	Verschlusssache – Nur für den Dienstgebrauch; Geheimhaltungsstufe für eingestufte Dokumente der Bundesverwaltung.
EfA-Prinzip	„Einer für Alle" – Entwicklung und Betrieb einer Lösung durch eine Stelle zur Nachnutzung durch alle.

hub 4 Kernfunktionalitätenfeedback

Die Kernfunktionalitäten bündeln mehrere funktionale Anforderungen zu logischen Fähigkeitsgruppen. Sie beschreiben, was der Baustein leistet – nicht, wie eine konkrete Implementierung aussehen muss.

Der Baustein „KI-Querschnittsdienste" umfasst sechs Kernfunktionalitäten:

KI-Portal – Benutzerfreundliche Oberfläche mit Apps für alltägliche Verwaltungsaufgaben: Chat, Dokumentenzusammenfassung, Übersetzung, Schwärzung personenbezogener Daten und Sprach-zu-Text-Transkription. Jede Behörde erhält ein eigenes, selbst konfigurierbares Portal.
Sprachmodellverwaltung – Zentrale Registry für KI-Modelle mit Multi-Modell-Routing (anwendungsspezifische Modellauswahl), Fine-Tuning-Pipelines für domänenspezifische Anpassungen und Benchmarking zur Qualitätssicherung. Keine Herstellerbindung – sowohl Open-Source- als auch proprietäre Modelle anbindbar.
Agentische KI – Framework für autonome KI-Agenten, die mehrstufige Verwaltungsaufgaben selbstständig bearbeiten, dabei Tools über MCP anbinden und Workflows orchestrieren. Pilotierung läuft bereits über den Agentic AI Hub des BMDS.
Wissensdatenbanken (RAG / GraphRAG) – Anbindung behördeneigener Wissensbestände über Retrieval-Augmented Generation. Neben klassischer Vektorindizierung wird GraphRAG als bevorzugtes Verfahren für relationales Verwaltungswissen empfohlen: Ein Wissensgraph (Entitäten + Relationen) ermöglicht Multi-Hop-Reasoning über vernetzte Fakten (Zuständigkeiten, Rechtsgrundlagen, Organisationsstrukturen), liefert nachvollziehbare Antwortpfade (Audit Trail) und reduziert Halluzinationen durch explizite Faktenverankerung. Sensible Daten verlassen dabei nicht das Behördenportal.

Rolle von Ontologien: Ontologien (OWL, SKOS, RDF) bilden das semantische Rückgrat des Wissensgraphen – sie definieren, welche Entitätstypen und Relationen existieren dürfen, ermöglichen maschinelles Reasoning (Inferenz) zur Konsistenzprüfung von LLM-Ausgaben und sichern die Interoperabilität zwischen Behörden über geteilte Fachvokabulare (FIM-Ontologie, XÖV-Kernkomponenten, LeiKa, DCAT-AP.de, EU Core Vocabularies). Ohne Ontologie degeneriert ein Wissensgraph zu einer unstrukturierten Graphdatenbank ohne Validierungsmöglichkeit.
Sicherheitsfunktionen KI – Prompt-Filtering gegen Injection-Angriffe, Output-Validierung, lückenlose Audit-Protokollierung und Konformität mit VS-NfD-Anforderungen. Sicherstellung, dass KI-Systeme den EU AI Act und BSI-Anforderungen einhalten.
API-Integration – OpenAI-kompatible API-Schnittstellen für die nahtlose Integration in bestehende Fachanwendungen. Embedding-APIs für semantische Suche und Batch-Verarbeitung für Massenoperationen.

swap_horiz 5 Querschnittsanforderungenfeedback

Die folgenden Querschnittsanforderungen leiten sich aus der KI-Strategie der Bundesregierung, den BMDS-Leitlinien für KI in der Bundesverwaltung, der Studie zu digitaler Souveränität und LLMs sowie dem EU AI Act ab. Sie gelten für alle Bausteine, die mit KI-Querschnittsdiensten interagieren.

ID	Anforderung	Verbindlichkeit	Quelle
KIQ-QA-01	Keine Herstellerbindung: Modulare Architektur ermöglicht Austausch von LLMs ohne Änderung der Konsumenten-Integration.	Erforderlich	BMDS Souveränitätsstudie
KIQ-QA-02	Betrieb auf souveräner, verwaltungsinterner Infrastruktur (On-Premise oder souveräne Cloud).	Erforderlich	BMDS Souveränitätsstudie
KIQ-QA-03	Bevorzugung von Open-Source-Modellen; proprietäre Modelle nur bei nachgewiesenem Mehrwert und mit Exit-Strategie.	Empfohlen	BMDS Souveränitätsstudie
KIQ-QA-04	Verpflichtender Souveränitätscheck für kritische KI-Projekte (Wechselmöglichkeit, Gestaltungsfähigkeit, Einfluss auf Anbieter).	Erforderlich	BMDS Souveränitätsstudie
KIQ-QA-05	Einhaltung des EU AI Act: Risikoklassifizierung, Transparenzpflichten, menschliche Aufsicht.	Erforderlich	EU AI Act / KI-MIG
KIQ-QA-06	VS-NfD-Freigabe: Verarbeitung eingestufter Daten auf der Plattform möglich.	Erforderlich	BSI
KIQ-QA-07	Datensouveränität: Keine Übermittlung von Eingabe- oder Ausgabedaten an Drittstaaten.	Erforderlich	DSGVO / Schrems II
KIQ-QA-08	Lückenlose Audit-Protokollierung aller KI-Interaktionen (Prompt, Response, Modell, Zeitstempel).	Erforderlich	EU AI Act Art. 12
KIQ-QA-09	Nachnutzbarkeit: KI-Lösungen über den Marktplatz der KI-Möglichkeiten transparent machen und zur Nachnutzung anbieten.	Empfohlen	BMDS / EfA-Prinzip
KIQ-QA-10	Barrierefreiheit: KI-gestützte Interfaces erfüllen WCAG 2.2 AA.	Erforderlich	BITV 2.0
KIQ-QA-11	Energieeffizienz: Monitoring des Energieverbrauchs pro Inference-Anfrage; Optimierung durch Modellquantisierung und effizientes Batching.	Empfohlen	Rechenzentrumsstrategie

checklist 6 Funktionale Anforderungenfeedback

Die technischen Fähigkeiten, über die dieser Baustein verfügen muss und sollte. Diese Anforderungen bilden die Grundlage, um alle im Abschnitt „Kernfunktionalitäten" aufgeführten Funktionen bereitzustellen. Jede Anforderung ist nach Verbindlichkeit klassifiziert: Erforderlich (MUST) oder Empfohlen (SHOULD).

6.1 KI-Portalfeedback

Anforderungen an die benutzerfreundliche Oberfläche, über die Verwaltungsmitarbeitende direkt mit KI-Funktionalitäten interagieren. Jede Behörde erhält ein eigenes, isoliertes Portal auf der gemeinsamen Plattform.

ID	Anforderung	Verbindlichkeit
KIQ-FA-01	Bereitstellung eines mandantenfähigen KI-Portals mit Self-Service-Konfiguration pro Behörde.	Erforderlich
KIQ-FA-02	Chat-Interface mit Streaming-Ausgabe und Konversationshistorie.	Erforderlich
KIQ-FA-03	Dokumenten-Upload und -Befragung (PDF, DOCX, TXT) mit kontextsensitiven Antworten.	Erforderlich
KIQ-FA-04	Automatische Zusammenfassung von Dokumenten und Texten.	Erforderlich
KIQ-FA-05	Maschinelle Übersetzung zwischen allen EU-Amtssprachen.	Empfohlen
KIQ-FA-06	Automatische Schwärzung personenbezogener Daten (NER-basiert).	Empfohlen
KIQ-FA-07	Sprache-zu-Text-Transkription (Whisper-kompatibel).	Empfohlen

6.2 Sprachmodellverwaltungfeedback

Anforderungen an die zentrale Verwaltung und Orchestrierung verschiedener KI-Modelle. Die modulare Architektur stellt sicher, dass keine Bindung an einen einzelnen Modellanbieter entsteht.

ID	Anforderung	Verbindlichkeit
KIQ-FA-10	Zentrale Modell-Registry mit Versionierung, Metadaten und Leistungskennzahlen.	Erforderlich
KIQ-FA-11	Multi-Modell-Routing: Automatische oder manuelle Auswahl des optimalen Modells pro Anwendungsfall.	Erforderlich
KIQ-FA-12	Unterstützung von mindestens drei parallelen LLM-Anbietern (Open Source und proprietär).	Erforderlich
KIQ-FA-13	Fine-Tuning-Pipeline für domänenspezifische Anpassung auf verwaltungseigenen Daten.	Empfohlen
KIQ-FA-14	Modell-Benchmarking mit standardisierten Evaluationsmetriken (Genauigkeit, Latenz, Kosten).	Empfohlen
KIQ-FA-15	Hot-Swap von Modellen ohne Dienstunterbrechung (Blue-Green-Deployment).	Erforderlich

6.3 Agentische KIfeedback

Anforderungen an das Framework für autonome KI-Agenten, die komplexe Verwaltungsaufgaben mehrstufig und werkzeuggestützt bearbeiten können.

ID	Anforderung	Verbindlichkeit
KIQ-FA-20	Agenten-Framework mit Tool-Calling, Planung und iterativer Ausführung.	Erforderlich
KIQ-FA-21	MCP-Repository für standardisierte Tool-Anbindung (Dateisysteme, APIs, Datenbanken).	Erforderlich
KIQ-FA-22	Menschliche Aufsicht (Human-in-the-Loop) für Agenten mit hohem Risiko-Impact.	Erforderlich
KIQ-FA-23	Sandbox-Umgebung für Agenten-Testing ohne Auswirkung auf Produktivsysteme.	Empfohlen

6.4 Wissensdatenbanken (RAG)feedback

Anforderungen an die Anbindung behördeneigener Wissensbestände für kontextsensitive, faktenbasierte KI-Antworten.

ID	Anforderung	Verbindlichkeit
KIQ-FA-30	Vektorindizierung und semantische Suche über beliebige Dokumentenkorpora.	Erforderlich
KIQ-FA-31	Mandantentrennung: Wissensdatenbanken einer Behörde sind für andere nicht einsehbar.	Erforderlich
KIQ-FA-32	Unterstützung gängiger Dokumentenformate (PDF, DOCX, HTML, Markdown).	Erforderlich
KIQ-FA-33	Quellenangabe (Citation) in generierten Antworten mit Verweis auf Originaldokument.	Erforderlich
KIQ-FA-34	Automatische Re-Indizierung bei Änderung der Quellbestände.	Empfohlen
KIQ-FA-35	GraphRAG: Aufbau eines Wissensgraphen (Entitäten, Relationen) aus Dokumentenkorpora für Multi-Hop-Reasoning und nachvollziehbare Antwortpfade.	Empfohlen
KIQ-FA-36	GraphRAG: Community Summaries über Themencluster für globale Fragen an große Dokumentenbestände.	Empfohlen
KIQ-FA-37	Hybrides Retrieval: Kombinierte Abfrage aus Vektor-Suche und Graph-Traversierung mit konfigurierbarer Gewichtung.	Empfohlen

6.5 Sicherheitsfunktionen KIfeedback

Anforderungen an die KI-spezifischen Sicherheitsmaßnahmen, die über die allgemeinen IT-Sicherheitsanforderungen hinausgehen und die besonderen Risiken generativer KI adressieren.

ID	Anforderung	Verbindlichkeit
KIQ-FA-40	Prompt-Injection-Schutz: Eingabefilter gegen Manipulation des Modellverhaltens.	Erforderlich
KIQ-FA-41	Output-Validierung: Prüfung generierter Inhalte auf toxische, falsche oder klassifizierte Informationen.	Erforderlich
KIQ-FA-42	Lückenlose Audit-Logs: Protokollierung von Prompt, Response, Modell, Nutzer und Zeitstempel.	Erforderlich
KIQ-FA-43	Rollenbasierte Zugriffskontrolle (RBAC) auf Modelle, Portale und Wissensdatenbanken.	Erforderlich
KIQ-FA-44	Data Loss Prevention (DLP): Erkennung und Blockierung unbeabsichtigter Datenexfiltration.	Erforderlich
KIQ-FA-45	Regelmäßige Red-Teaming-Exercises gegen KI-spezifische Angriffsvektoren.	Empfohlen

6.6 API-Integrationfeedback

Anforderungen an die programmatischen Schnittstellen, über die Fachanwendungen und andere Funktionsbausteine KI-Funktionalitäten konsumieren.

ID	Anforderung	Verbindlichkeit
KIQ-FA-50	OpenAI-kompatible Chat-Completion-API (REST, JSON).	Erforderlich
KIQ-FA-51	Embedding-API für semantische Vektorisierung von Texten.	Erforderlich
KIQ-FA-52	Batch-API für asynchrone Massenverarbeitung.	Empfohlen
KIQ-FA-53	Rate Limiting und Quota Management pro Mandant.	Erforderlich
KIQ-FA-54	API-Versionierung mit Abwärtskompatibilität.	Erforderlich

database 7 Datenstrukturenfeedback

Dieser Abschnitt beschreibt die zentralen Datenstrukturen und Datenmodelle, die vom Baustein „KI-Querschnittsdienste" genutzt werden. Er umfasst Ressourcenmodell und Datenelemente, die von den Kernfunktionalitäten benötigt werden.

7.1 Ressourcenmodellfeedback

Das Ressourcenmodell zeigt die Beziehungen zwischen den Datenobjekten, die von diesem Baustein verwaltet werden. Im Zentrum stehen Modelle, die über Inference Requests angesprochen werden, sowie Wissensdatenbanken, die per RAG in die Anfragen einfließen.

7.2 Zentrale Datenobjektefeedback

Die folgende Tabelle beschreibt die wesentlichen Fachobjekte des Bausteins. Jedes Objekt entspricht einer Entität im Ressourcenmodell und wird über die Service-Schnittstellen exponiert.

Objekt	Beschreibung
Tenant	Mandant (Behörde) mit eigenem Portal, Wissensdatenbanken und Konfiguration.
Portal	Behördeneigenes KI-Portal auf der KIPITZ-Plattform mit individueller Konfiguration.
Model	KI-Modell (LLM, Embedding, Speech-to-Text) mit Metadaten zu Anbieter und Lizenz.
Model Version	Konkrete Version eines Modells mit Quantisierungsstufe und Benchmark-Ergebnissen.
Conversation	Dialog eines Nutzers mit dem System, bestehend aus Nachrichten.
Message	Einzelne Nachricht (Prompt oder Response) mit Modellzuordnung und Token-Zählung.
Knowledge Base	Wissensbestand einer Behörde, bestehend aus indexierten Dokumenten.
Document / Chunk	Quell-Dokument und dessen vektorisierte Textfragmente für semantische Suche.
Agent	Konfigurierter KI-Agent mit System-Prompt, Modellzuweisung und Tool-Zugriff.
Tool	Werkzeug, das ein Agent über MCP aufrufen kann (API, Dateisystem, Datenbank).

api 8 Service-Schnittstellenfeedback

Dieser Abschnitt enthält eine Referenz für die APIs, die von diesem Baustein implementiert werden. Die hier definierten APIs bilden die Grundlage für die Interaktion mit Fachanwendungen und anderen Bausteinen.

API	Beschreibung	Protokoll
Chat Completion API	Textgenerierung mit Streaming, System-Prompts und Tool-Calling. OpenAI-kompatibel.	REST / SSE
Embedding API	Vektorisierung von Texten für semantische Suche und Similarity.	REST
Knowledge Base API	CRUD für Wissensdatenbanken, Dokument-Upload, Semantic Search.	REST / OpenAPI 3.1
Agent API	Erstellen, konfigurieren und ausführen von KI-Agenten mit Tool-Calling.	REST / WebSocket
Management API	Mandanten-, Modell- und Portal-Verwaltung, Monitoring, Quota-Management.	REST / OpenAPI 3.1

account_tree 9 Interne Workflowsfeedback

Dieser Abschnitt bietet einen detaillierten Überblick darüber, wie dieser Baustein intern arbeitet und mit Fachanwendungen interagiert. Die Workflows zeigen typische Nutzungsszenarien: von der einfachen Chat-Anfrage über RAG-gestützten Dokumentenzugriff bis zur agentischen Aufgabenbearbeitung.

9.1 Workflow: RAG-gestützte Anfragefeedback

Dieser Workflow beschreibt, wie eine Nutzerfrage mit behördeneigenem Wissen angereichert wird, bevor sie an das Sprachmodell geht. Die Quellenangabe (Citation) stellt die Nachvollziehbarkeit sicher.

9.2 Workflow: Agentische Aufgabenbearbeitungfeedback

Dieser Workflow zeigt, wie ein KI-Agent eine komplexe Verwaltungsaufgabe eigenständig in Teilschritte zerlegt, Tools aufruft und dabei unter menschlicher Aufsicht bleibt.

gavel 10 EU AI Act – Regulatorische Anforderungenfeedback

Der EU AI Act (KI-Verordnung, Verordnung (EU) 2024/1689) ist seit August 2024 in Kraft und schafft den weltweit ersten umfassenden Rechtsrahmen für KI-Systeme. Für die Bundesverwaltung hat die Verordnung unmittelbare Relevanz: KI-Systeme, die in der öffentlichen Verwaltung eingesetzt werden, unterliegen häufig der Hochrisiko-Kategorie (Annex III).

10.1 Risikoklassifizierungfeedback

10.2 Pflichten für Hochrisiko-KI-Systeme (Art. 6–15)feedback

Die meisten KI-Systeme im Kontext der Bundesverwaltung fallen unter die Hochrisiko-Kategorie, insbesondere wenn sie in behördlichen Entscheidungsprozessen eingesetzt werden (Annex III Nr. 5: „Zugang zu und Nutzung von wesentlichen öffentlichen Diensten").

Pflicht	Artikel	Umsetzung im Baustein KIQ
Risikomanagementsystem	Art. 9	Verpflichtende Risikobewertung vor Inbetriebnahme jedes KI-Modells; kontinuierliches Monitoring.
Daten-Governance	Art. 10	Dokumentation der Trainingsdaten; Prüfung auf Bias und Repräsentativität; Mandantentrennung.
Technische Dokumentation	Art. 11	Model Cards mit Leistungskennzahlen, Limitierungen und Einsatzgrenzen.
Aufzeichnungspflichten	Art. 12	Lückenlose Audit-Logs (Prompt, Response, Modell, User, Zeitstempel) – KIQ-FA-42.
Transparenz	Art. 13	Erklärbare Entscheidungen (→ XAI); Kennzeichnung KI-generierter Inhalte.
Menschliche Aufsicht	Art. 14	Human-in-the-Loop bei kritischen Entscheidungen – KIQ-FA-22.
Genauigkeit & Robustheit	Art. 15	Standardisierte Evaluationsmetriken; Red Teaming – KIQ-FA-14, KIQ-FA-45.
Cybersicherheit	Art. 15(4)	Prompt-Injection-Schutz, Output-Validierung, DLP – KIQ-FA-40 bis KIQ-FA-44.

10.3 Zeitplan und Fristenfeedback

Datum	Meilenstein
02.08.2024	Inkrafttreten der KI-Verordnung
02.02.2025	Verbot von KI-Systemen mit unannehmbarem Risiko (Art. 5)
02.08.2025	Pflichten für Anbieter von KI-Modellen mit allgemeinem Verwendungszweck (GPAI, Art. 51–56)
02.08.2026	Volle Anwendbarkeit der Hochrisiko-Pflichten (Art. 6–15)
02.08.2027	Pflichten für Hochrisiko-Systeme gemäß Annex I (Produktsicherheit)

⚠️ Handlungsbedarf bis August 2026: Die Hochrisiko-Pflichten gelten ab 02.08.2026 – betroffen sind alle KI-Systeme der Bundesverwaltung, die in Entscheidungsprozessen eingesetzt werden. Die KI-Plattform KIPITZ muss bis dahin vollständige Compliance sicherstellen: Risikomanagementsystem, technische Dokumentation, Audit-Logs und menschliche Aufsichtsmechanismen.

10.4 KI-Transparenzregisterfeedback

Der EU AI Act verlangt von öffentlichen Stellen die Registrierung von Hochrisiko-KI-Systemen in einer EU-Datenbank (Art. 49). Auf nationaler Ebene dient der Marktplatz der KI-Möglichkeiten bereits als Transparenzregister für KI-Systeme der Bundesverwaltung. Die Registrierung soll künftig verpflichtend über dieses Register erfolgen.

visibility 11 Explainable AI (XAI)feedback

Erklärbare Künstliche Intelligenz (Explainable AI, XAI) ist sowohl eine regulatorische Anforderung (EU AI Act Art. 13) als auch eine Voraussetzung für die Akzeptanz von KI in der Verwaltung. Entscheidungen, die durch KI unterstützt werden, müssen für Betroffene, Sachbearbeitende und Aufsichtsbehörden nachvollziehbar sein.

11.1 Anforderungen an Erklärbarkeitfeedback

Zielgruppe	Erklärungsbedarf	XAI-Methode
Bürger:innen	Warum wurde mein Antrag abgelehnt?	Natürlichsprachliche Begründung mit Quellenangabe; Faktoren-Auflistung.
Sachbearbeitende	Auf welcher Grundlage basiert die Empfehlung?	Feature Attribution (SHAP/LIME); Entscheidungsbaum-Approximation; GraphRAG-Pfaddarstellung.
Aufsichtsbehörden	Ist das System diskriminierungsfrei?	Globale Erklärungen (Modellkarten); statistische Fairness-Metriken; Audit-Trails.
Entwickler:innen	Warum hat das Modell halluziniert?	Attention Maps; Token-Logprobs; Retrieval-Scores; Kontextfenster-Analyse.

11.2 XAI-Techniken für LLM-basierte Systemefeedback

Empfohlene Umsetzung im Baustein KIQ:

Citation-Pflicht: Jede KI-gestützte Aussage muss mit Quellenangaben (Dokument, Paragraph, Wissengraph-Knoten) versehen sein – bereits in KIQ-FA-33 verankert.
Confidence Scores: Antworten werden mit einem Konfidenzwert versehen; unterhalb eines Schwellenwerts erfolgt eine explizite Warnung an die Nutzenden.
GraphRAG-Pfade: Bei Graph-basiertem Retrieval wird der Reasoning-Pfad (Entität → Relation → Entität → …) als nachvollziehbare Herleitung dargestellt.
Kennzeichnungspflicht: KI-generierte Inhalte werden als solche gekennzeichnet (EU AI Act Art. 50).
"Warum?"-Funktion: Nutzende können per Klick eine natürlichsprachliche Erklärung der Modellentscheidung anfordern.

bug_report 12 KI-Fehlerkategorienfeedback

Generative KI-Systeme produzieren charakteristische Fehlertypen, die sich fundamental von klassischen Software-Fehlern unterscheiden. Eine systematische Taxonomie ist Voraussetzung für Risikomanagement (EU AI Act Art. 9), Evaluierung und die Gestaltung wirksamer Gegenmaßnahmen.

12.1 Fehlertaxonomiefeedback

Kategorie	Beschreibung	Risikostufe	Gegenmaßnahme
Halluzination	Modell erzeugt sachlich falsche, aber plausibel klingende Aussagen ohne Grundlage in den Trainingsdaten oder im Kontext.	🔴 Hoch	RAG/GraphRAG mit Quellenverankerung; Confidence Scores; Fact-Checking-Pipeline.
Konfabulation	Modell „erfindet" Details (Zitate, Paragrafen, Aktenzeichen), die nicht existieren.	🔴 Hoch	Strikte Citation-Pflicht; Validierung gegen Quelldatenbank; Hallucination Detection Models.
Bias / Diskriminierung	Systematische Verzerrung aufgrund unausgewogener Trainingsdaten – z.B. Benachteiligung bestimmter Bevölkerungsgruppen.	🔴 Hoch	Fairness-Audits; diverse Trainingsdaten; De-Biasing-Techniken; Monitoring auf geschützte Merkmale.
Prompt Injection	Manipulation der Modelleingabe, um Sicherheitsmechanismen zu umgehen oder unbeabsichtigtes Verhalten auszulösen.	🔴 Hoch	Input-Sanitization; mehrschichtige Filter; System-Prompt-Isolation (KIQ-FA-40).
Data Leakage	Modell gibt vertrauliche Trainingsdaten oder Kontextinformationen anderer Mandanten preis.	🔴 Hoch	Mandantentrennung; DLP-Filter; Output-Scanning (KIQ-FA-44).
Toxizität	Generierung beleidigender, diskriminierender oder unangemessener Inhalte.	🟠 Mittel	Content-Filter; Moderation-Modelle; Output-Validierung (KIQ-FA-41).
Inkonsistenz	Identische Frage liefert bei mehrfacher Ausführung widersprüchliche Antworten.	🟠 Mittel	Temperatur-Steuerung; Seed-Parameter; Ensemble-Voting; Deterministic Decoding.
Kontextverlust	Bei langen Konversationen oder Dokumenten verliert das Modell wichtige Informationen aus dem Kontext.	🟠 Mittel	Kontext-Komprimierung; hierarchische Summarization; Sliding-Window-RAG.
Overconfidence	Modell gibt falsche Antworten mit hoher scheinbarer Sicherheit aus, ohne Unsicherheit zu signalisieren.	🟠 Mittel	Calibration; Logprob-Auswertung; „Ich weiß es nicht"-Training; Confidence Thresholds.
Sprachliche Fehler	Grammatik-, Rechtschreib- oder Stilfehler, insbesondere bei seltenen Sprachen oder Fachterminologie.	🟡 Niedrig	Fachterminologie-Fine-Tuning; nachgelagerte Sprachprüfung; Glossar-Enforcement.
Format-Fehler	Modell hält vorgegebene Ausgabeformate nicht ein (JSON, Tabellen, strukturierte Daten).	🟡 Niedrig	Structured Output (JSON Mode); Schema-Validierung; Retry-Logik mit Feedback.
Latenz-Degradation	Antwortzeiten verschlechtern sich unter Last oder bei komplexen Anfragen jenseits akzeptabler Schwellenwerte.	🟡 Niedrig	Auto-Scaling; Modell-Quantisierung; Anfrage-Routing; Caching; Batch-Optimierung.

12.2 Fehlerbehandlungsstrategiefeedback

Defense in Depth: Fehlerprävention folgt dem Defense-in-Depth-Prinzip: Kein einzelner Mechanismus reicht aus – erst die Kombination aus Pre-Processing (Eingabefilter), modellinternen Maßnahmen (Confidence, RAG) und Post-Processing (Faktencheck, Content-Filter) ergibt ein robustes System. Jede Schicht reduziert die Restfehlerrate der vorherigen.

monitoring 13 Evals und Benchmarkingfeedback

Systematische Evaluation (Evals) und Benchmarking sind unverzichtbar für die Qualitätssicherung von KI-Systemen in der Bundesverwaltung. Sie stellen sicher, dass Modelle den regulatorischen Anforderungen (EU AI Act Art. 15) genügen, messbar leistungsfähig sind und über den gesamten Lebenszyklus qualitätsgesichert bleiben.

13.1 Evaluationsdimensionenfeedback

Dimension	Metriken	Beschreibung
Korrektheit	Accuracy, F1, Exact Match, BLEU/ROUGE	Stimmen die Ausgaben sachlich und inhaltlich mit der Referenz überein?
Zuverlässigkeit	Halluzinationsrate, Faithfulness Score	Wie häufig erzeugt das Modell nicht-faktenbasierte Aussagen?
Fairness	Demographic Parity, Equalized Odds	Werden alle Bevölkerungsgruppen gleich behandelt?
Robustheit	Adversarial Accuracy, Jailbreak-Resistenz	Wie widerstandsfähig ist das Modell gegen manipulative Eingaben?
Latenz	TTFT, TPS, P95-Latenz	Wie schnell antwortet das Modell unter Last?
Kosten	Token/€, Energie/Inference	Wie wirtschaftlich ist der Betrieb?
Domäneneignung	Fachterminologie-Score, Verwaltungs-Benchmark	Kennt das Modell relevante Verwaltungsfachsprache und -prozesse?

13.2 Benchmarking-Frameworkfeedback

13.3 Eval-Kategorienfeedback

13.3.1 Standard-Benchmarks (Allgemeine Modellqualität)feedback

Benchmark	Prüfgegenstand	Zielwert
MMLU	Allgemeinwissen über 57 Fachgebiete	> 70% Accuracy
HellaSwag	Commonsense Reasoning	> 80%
HumanEval / MBPP	Code-Generierung	> 60% Pass@1
MT-Bench	Multi-Turn-Dialogqualität	> 7.5 / 10
TruthfulQA	Faktenbasierte Antworten (Anti-Halluzination)	> 60%

13.3.2 Domänenspezifische Benchmarks (Verwaltung)feedback

Benchmark	Prüfgegenstand	Beschreibung
VerwaltungsRechtQA	Verwaltungsrechtliche Fragen	Eigener Benchmark mit Fragen aus VwVfG, SGB, AO – geprüft gegen Kommentarliteratur.
FIM-Terminologie	Fachterminologie	Korrekte Verwendung von FIM-Begriffen (Leistungen, Prozesse, Datenfelder).
Bescheid-Eval	Bescheiderstellung	Qualität generierter Verwaltungsbescheide (Struktur, Rechtsgrundlage, Tenor, Begründung).
Übersetzungs-Eval	Fachübersetzung DE↔EN/FR	Terminologietreue bei Verwaltungsfachsprache; BLEU + menschliche Bewertung.
Zusammenfassungs-Eval	Dokumentenzusammenfassung	Informationserhalt und Kürze bei Vorlagen, Berichten, Gesetzentwürfen.

13.3.3 Sicherheits- und Fairness-Benchmarksfeedback

Benchmark	Prüfgegenstand	Beschreibung
Prompt-Injection-Suite	Angriffssicherheit	Standardisierte Angriffsmuster (Direct Injection, Indirect Injection, Jailbreaks).
Toxicity-Eval	Toxische Ausgaben	Bewertung auf schädliche, beleidigende oder unangemessene Inhalte.
Bias-Audit	Diskriminierung	Prüfung auf systematische Benachteiligung nach Geschlecht, Herkunft, Alter.
Data-Leakage-Test	Datenexfiltration	Versuch, vertrauliche Trainings- oder Kontextdaten zu extrahieren.

13.3.4 RAG-spezifische Metriken (RAGAS-Framework)feedback

Metrik	Beschreibung	Berechnung
Faithfulness	Sind alle Aussagen durch den Kontext belegt?	Anteil faktenverankerter Aussagen an Gesamtaussagen.
Answer Relevancy	Beantwortet die Antwort die gestellte Frage?	Semantische Ähnlichkeit zwischen Frage und Antwort.
Context Recall	Wurden alle relevanten Informationen gefunden?	Anteil genutzter relevanter Kontexte an allen relevanten.
Context Precision	Sind die abgerufenen Kontexte relevant?	Anteil relevanter Kontexte an allen abgerufenen.
Answer Correctness	Stimmt die Antwort sachlich?	Vergleich mit Ground-Truth-Antwort (F1 + semantisch).

13.4 Eval-Prozess im Lebenszyklusfeedback

Phase	Eval-Typ	Frequenz	Verantwortung
Modellauswahl	Vollständige Benchmark-Suite	Bei jedem Modellwechsel	KI-Plattform-Team
Deployment	Regressionstests + Sicherheits-Evals	Vor jedem Release	CI/CD-Pipeline (automatisiert)
Betrieb	Drift-Monitoring + Stichproben-Evals	Kontinuierlich / wöchentlich	Betriebsteam + Fachexpert:innen
Audit	Vollständiges Re-Eval + Fairness-Audit	Jährlich / anlassbezogen	Externe Prüfung / BfDI

Best Practice – Eval-Driven Development: Evaluierungsmetriken sollten vor der Modellauswahl definiert werden – analog zu testgetriebener Entwicklung. Erst wenn klar ist, welche Qualitätsziele ein KI-System erreichen muss (z.B. „Halluzinationsrate < 5% auf VerwaltungsRechtQA"), kann eine fundierte Modellentscheidung getroffen werden.

Der Baustein „KI-Querschnittsdienste" entfaltet seine Wirkung als horizontaler Enabler für zahlreiche andere Funktionsbausteine der BMDS-Lösungs- und Dienstebibliothek. Die folgende priorisierte Liste zeigt die 20 Bausteine mit dem höchsten KI-Integrationspotenzial – bewertet nach Automatisierungspotenzial, Textintensität und Fallzahlen.

#	Funktionsbaustein	Prio	KI-Anwendungsszenarien
1	Vorgangs- und Sachbearbeitung	starstarstarstarstar	Agentische KI automatisiert mehrstufige Verwaltungsverfahren; GraphRAG über Rechtsgrundlagen und Zuständigkeiten liefert Fachinformationen direkt im Vorgang; LLM erzeugt Bescheidentwürfe.
2	Chat-basierte Antragstellung	starstarstarstarstar	LLM als natürlichsprachliches Interface; GraphRAG navigiert Leistungskataloge und Zuständigkeiten; dialogbasierte Formularassistenz.
3	Entscheidungsunterstützung	starstarstarstarstar_half	GraphRAG über Rechtsgrundlagen + Multi-Hop-Reasoning = fundierte Entscheidungsempfehlungen mit nachvollziehbaren Quellenangaben.
4	Maschinelle Übersetzung	starstarstarstarstar_half	Direkter KIQ-Konsument: Fachterminologie-Fine-Tuning; domänenspezifische Übersetzung; VS-NfD-Dokumente auf eigener Infrastruktur.
5	Normengestaltung	starstarstarstarstar_border	LLM-gestützte Konsistenzprüfung; GraphRAG über gesamten Rechtsbestand ermöglicht Querverweise, Kollisionsprüfung und automatische Synopsen.
6	Eingabemanagement	starstarstarstarstar_border	Automatische Klassifikation und Routing von Bürgeranfragen; Sentiment-Analyse; KI-gestützte Antwortvorschläge.
7	Datenanalyse	starstarstarstar_halfstar_border	LLM als Natural-Language-Interface; GraphRAG verknüpft Metadaten, Datenherkunft und Kennzahlen-Definitionen für kontextreiche Abfragen.
8	Content-Management	starstarstarstar_halfstar_border	Automatische Texterstellung und Zusammenfassung; Metadaten-Generierung; Barrierefreiheits-Check per KI; SEO-Optimierung.
9	Informationssammlung	starstarstarstar_halfstar_border	GraphRAG über heterogene Quellen bildet Themencluster; semantische Suche mit Community Summaries für Verwaltungsportale.
10	Wissenserwerb	starstarstarstar_borderstar_border	Personalisierte Lernpfade; GraphRAG über Curricula und Kompetenzmodelle; KI-Tutor mit nachvollziehbaren Wissenspfaden.
11	IT-Service-Management	starstarstarstar_borderstar_border	KI-Chatbot für First-Level-Support; GraphRAG über CMDB, Known Errors und Lösungsdatenbank für vernetzte Troubleshooting-Pfade.
12	Elektronische Veraktung	starstarstar_halfstar_borderstar_border	Automatische Verschlagwortung; GraphRAG über Aktenplan-Strukturen und Vorgangszusammenhänge; intelligente Aktensuche.
13	Massendatenanalyse	starstarstar_halfstar_borderstar_border	KI-gestützte Feature-Extraktion; LLM als Code-Copilot für Data Scientists; automatische Report-Generierung aus Analysen.
14	Detektion und Reaktion	starstarstar_halfstar_borderstar_border	GraphRAG über Angriffsmuster (MITRE ATT&CK), Infrastruktur-Topologie und Schwachstellen; KI-basierte Alert-Korrelation.
15	Postfach und Interaktion	starstarstar_borderstar_borderstar_border	Automatische Antwortvorschläge; Zusammenfassung langer Nachrichtenverläufe; Spam-/Phishing-Erkennung; Priorisierung.
16	Informations- und Bibliotheksportal	starstarstar_borderstar_borderstar_border	GraphRAG über Fachthesauri und Zitationsnetzwerke; semantische Suche über Millionen Dokumente; Empfehlungssysteme.
17	Vergabemanagement	starstarstar_borderstar_borderstar_border	GraphRAG über Vergaberecht, Rahmenverträge und Anbieterhistorie; KI-gestützte Angebotsauswertung und Eignungsprüfung.
18	Personalgewinnung und -entwicklung	starstar_halfstar_borderstar_borderstar_border	Anonymisiertes Bewerber-Matching; automatische Stellenanzeigen; Kompetenzprofile aus Beurteilungen; Bias-Monitoring.
19	Fördermanagement	starstar_halfstar_borderstar_borderstar_border	GraphRAG über Förderrichtlinien und Bewilligungshistorie; Antragsprüfung auf Plausibilität; Missbrauchserkennung.
20	Kollaboratives Intranet	starstar_borderstar_borderstar_borderstar_border	KI-Suche über Wikis und Blogs; automatische Zusammenfassungen; Übersetzung; Content-Empfehlungen; Q&A-Bot.

Priorisierungskriterien: Die Bewertung basiert auf drei Dimensionen: (1) Textintensität – je mehr unstrukturierter Text verarbeitet wird, desto höher das LLM-Potenzial; (2) Wissensvernetzung – je mehr Querverbindungen zwischen Fachinformationen bestehen, desto höher der GraphRAG-Mehrwert; (3) Fallzahl × Routineanteil – je mehr Standardfälle vorliegen, desto höher das Automatisierungspotenzial durch agentische KI.

link 15 Weiterführende Informationen und Quellenfeedback

Die folgende Tabelle verweist auf politische Strategien, technische Standards und konkrete Plattformen, die für die Umsetzung dieses Bausteins relevant sind.

Quelle	Beschreibung
BMDS: Künstliche Intelligenz	Themenseite des Bundesministeriums für Digitales und Staatsmodernisierung zu KI.
KIPITZ – KI-Plattform des Bundes	Zentrale KI-Plattform der Bundesverwaltung (ITZBund).
Marktplatz der KI-Möglichkeiten	KI-Transparenzregister und Matching-Plattform für KI-Systeme der Verwaltung.
Digitale Souveränität und große Sprachmodelle	Studie von Fraunhofer FOKUS zu souveränem LLM-Einsatz in der Bundesverwaltung.
KI-Strategie der Bundesregierung	Nationale Strategie für Künstliche Intelligenz (2018, fortgeschrieben 2020).
Agentic AI Hub (BMDS)	Pilotierung agentischer KI in Kommunen (März 2026).
KI München (KIES)	KI-Entwicklung und -Services der Landeshauptstadt München – Open-Source-Referenz auf kommunaler Ebene.
Leitlinien für KI in der Bundesverwaltung	Verbindliche Leitlinien für den Einsatz von KI in der Bundesverwaltung (BMDS, 2025).
EU AI Act (KI-Verordnung)	Europäischer Rechtsrahmen für KI-Systeme.
ISO/IEC 42001	Managementsystem für Künstliche Intelligenz.

feedbackFeedback zu dieser Seite? Erstellen Sie ein GitLab-Issue direkt für KI-Querschnittsdienste (KIQ).rate_review Feedback geben forum Bisheriges Feedback ansehen

summarize 1 Management Summaryfeedback​

description 2 Beschreibungfeedback​

menu_book 3 Terminologiefeedback​

hub 4 Kernfunktionalitätenfeedback​

swap_horiz 5 Querschnittsanforderungenfeedback​

checklist 6 Funktionale Anforderungenfeedback​

6.1 KI-Portalfeedback​

6.2 Sprachmodellverwaltungfeedback​

6.3 Agentische KIfeedback​

6.4 Wissensdatenbanken (RAG)feedback​

6.5 Sicherheitsfunktionen KIfeedback​

6.6 API-Integrationfeedback​

database 7 Datenstrukturenfeedback​

7.1 Ressourcenmodellfeedback​

7.2 Zentrale Datenobjektefeedback​

api 8 Service-Schnittstellenfeedback​

account_tree 9 Interne Workflowsfeedback​

9.1 Workflow: RAG-gestützte Anfragefeedback​

9.2 Workflow: Agentische Aufgabenbearbeitungfeedback​

gavel 10 EU AI Act – Regulatorische Anforderungenfeedback​

10.1 Risikoklassifizierungfeedback​

10.2 Pflichten für Hochrisiko-KI-Systeme (Art. 6–15)feedback​

10.3 Zeitplan und Fristenfeedback​

10.4 KI-Transparenzregisterfeedback​

visibility 11 Explainable AI (XAI)feedback​

11.1 Anforderungen an Erklärbarkeitfeedback​

11.2 XAI-Techniken für LLM-basierte Systemefeedback​

bug_report 12 KI-Fehlerkategorienfeedback​

12.1 Fehlertaxonomiefeedback​

12.2 Fehlerbehandlungsstrategiefeedback​

monitoring 13 Evals und Benchmarkingfeedback​

13.1 Evaluationsdimensionenfeedback​

13.2 Benchmarking-Frameworkfeedback​

13.3 Eval-Kategorienfeedback​

13.3.1 Standard-Benchmarks (Allgemeine Modellqualität)feedback​

13.3.2 Domänenspezifische Benchmarks (Verwaltung)feedback​

13.3.3 Sicherheits- und Fairness-Benchmarksfeedback​

13.3.4 RAG-spezifische Metriken (RAGAS-Framework)feedback​

13.4 Eval-Prozess im Lebenszyklusfeedback​

share 14 Integrationspotenzial mit anderen Funktionsbausteinenfeedback​

link 15 Weiterführende Informationen und Quellenfeedback​