smart_toy Funktionsbaustein: KI-Querschnittsdienstefeedback
| Eigenschaft | Wert |
|---|---|
| Kennung | DArch-FBS-KIQ |
| Hauptfähigkeit | Produkte und Services |
| Geschäftsfähigkeit | Fachübergreifende Querschnittsdienste |
| Kategorie | Querschnittsdienste |
| Version | 0.1 (06.05.2026) |
| GovStack-Mapping | – (kein direktes GovStack-Äquivalent) |
| Referenzstandards | EU AI Act (KI-Verordnung), BSI TR-03183-2 (SBOM), ISO/IEC 42001 (AI Management), OECD AI Principles |
| Referenz GIB | Gemeinsame IT des Bundes: Dienst KI-Entwicklung |
| Open-Source-Referenz | KIPITZ (ITZBund), mucGPT (LHM), Open GPT-X |
summarize 1 Management Summaryfeedback
Der Baustein „KI-Querschnittsdienste" (KIQ) umfasst Funktionalitäten zum Entwickeln, Implementieren und Verwalten von KI-Modellen durch den Aufbau einer souveränen KI-Infrastruktur und KI-Plattform beim zentralen IT-Dienstleister des Bundes. KI-Funktionalitäten – insbesondere von großen Sprachmodellen (LLM) – sollen leicht in vorhandene IT-Systeme und Fachanwendungen über Schnittstellen integrierbar und in unterschiedlichen Kontexten nachnutzbar sein. Zudem sollen auf der KI-Plattform eigene KI-Anwendungen entwickelt und zentral bereitgestellt werden können.
KIPITZ – Die KI-Plattform des Bundes: KIPITZ ist die zentrale, produktive KI-Plattform der Bundesverwaltung, betrieben durch das ITZBund. Sie ist VS-NfD-freigegeben und plant die Bereitstellung agentischer KI. Als „Mission KIPITZ" soll die Plattform bis Ende 2028 im Deutschland-Stack zur Verfügung stehen.
description 2 Beschreibungfeedback
Dieses Kapitel stellt den fachlichen und technischen Kontext für den Baustein her. Der Baustein adressiert die zentrale Herausforderung, KI-Technologie in der öffentlichen Verwaltung souverän und sicher einzusetzen – ohne in digitale Abhängigkeiten zu geraten.
Der Baustein „KI-Querschnittsdienste" bietet:
- KI-Portal (KIPITZ): Benutzerfreundliche Oberfläche mit Apps für Chat, Dokumentenzusammenfassung, Übersetzung, Schwärzung und Transkription.
- API-Schnittstellen: Integration von KI-Modellen in bestehende Fach-IT-Lösungen des Bundes.
- Wissensdatenbanken (RAG): Anbindung behördeneigener Wissensbestände für kontextsensitive KI-Antworten.
- Agentische KI: Autonome KI-Agenten zur kurzfristigen Lösung von Verwaltungsleistungen und -anliegen.
- Modell-Souveränität: Kein Vendor Lock-in – modulare Architektur mit flexibler Anbindung verschiedener Sprachmodelle.
Annahmen zum Geltungsbereich:
- Der Baustein adressiert die zentrale KI-Plattform als Shared Service; behördenspezifische KI-Fachverfahren nutzen ihn über APIs.
- Bevorzugter Betrieb auf souveräner, verwaltungsinterner Infrastruktur (On-Premise in Rechenzentren des ITZBund).
- Gemäß der BMDS-Studie zu LLM-Souveränität werden überwiegend Open-Source-Modelle eingesetzt, die auf eigener Hardware laufen und bei Bedarf ausgetauscht werden können.
menu_book 3 Terminologiefeedback
Die folgende Tabelle enthält in dieser Spezifikation verwendete Fachbegriffe, die über die allgemeine Terminologie der D-Stack-Architekturspezifikationen hinausgehen. Sie dient als Referenz für alle am Baustein beteiligten Stakeholder.
| Begriff | Definition |
|---|---|
| LLM | Large Language Model – großes Sprachmodell, das auf Basis umfangreicher Trainingsdaten Texte versteht und erzeugt. |
| RAG | Retrieval-Augmented Generation – Architekturmuster, bei dem ein Sprachmodell mit externem Wissen aus Datenbanken angereichert wird. |
| Agentische KI | KI-Systeme, die eigenständig mehrstufige Aufgaben planen und ausführen, dabei Tools aufrufen und mit anderen Systemen interagieren. |
| MCP | Model Context Protocol – offenes Protokoll für die standardisierte Anbindung von Tools und Datenquellen an KI-Modelle. |
| Prompt Engineering | Gezielte Formulierung von Eingabeanweisungen (Prompts) zur Steuerung der Modellausgabe. |
| Fine-Tuning | Nachtrainieren eines vortrainierten Modells auf domänenspezifischen Daten der Verwaltung. |
| Ontologie | Formale, maschinenlesbare Beschreibung der Konzepte, Relationen und Axiome einer Fachdomäne (z.B. in OWL, SKOS oder RDF). Definiert das Schema eines Wissensgraphen. |
| GraphRAG | Graph-basiertes Retrieval-Augmented Generation – erweitert klassisches RAG um einen ontologie-gestützten Wissensgraphen für Multi-Hop-Reasoning und nachvollziehbare Antwortpfade. |
| Souveränitätscheck | Verpflichtende Prüfung kritischer KI-Projekte auf Wechselmöglichkeit, Gestaltungsfähigkeit und Einfluss auf Anbieter. |
| EU AI Act | Verordnung (EU) 2024/1689 – europäischer Rechtsrahmen für Entwicklung, Inverkehrbringen und Nutzung von KI-Systemen; unterscheidet vier Risikoklassen. |
| XAI | Explainable AI – Methoden und Techniken zur Erklärung von KI-Entscheidungen für verschiedene Zielgruppen (Nutzende, Aufsicht, Entwicklung). |
| Halluzination | Sachlich falsche, aber plausibel klingende Ausgabe eines Sprachmodells ohne Grundlage in Trainingsdaten oder Kontext. |
| Eval | Systematische Bewertung der Qualität eines KI-Modells anhand definierter Metriken und Testdatensätze (Benchmarks). |
| RAGAS | Retrieval-Augmented Generation Assessment – Framework zur Evaluation von RAG-Systemen anhand Faithfulness, Relevancy und Recall. |
| Model Card | Standardisierte technische Dokumentation eines KI-Modells mit Leistungskennzahlen, Limitierungen, Einsatzgrenzen und Bias-Informationen. |
| VS-NfD | Verschlusssache – Nur für den Dienstgebrauch; Geheimhaltungsstufe für eingestufte Dokumente der Bundesverwaltung. |
| EfA-Prinzip | „Einer für Alle" – Entwicklung und Betrieb einer Lösung durch eine Stelle zur Nachnutzung durch alle. |
hub 4 Kernfunktionalitätenfeedback
Die Kernfunktionalitäten bündeln mehrere funktionale Anforderungen zu logischen Fähigkeitsgruppen. Sie beschreiben, was der Baustein leistet – nicht, wie eine konkrete Implementierung aussehen muss.
Der Baustein „KI-Querschnittsdienste" umfasst sechs Kernfunktionalitäten:
-
KI-Portal – Benutzerfreundliche Oberfläche mit Apps für alltägliche Verwaltungsaufgaben: Chat, Dokumentenzusammenfassung, Übersetzung, Schwärzung personenbezogener Daten und Sprach-zu-Text-Transkription. Jede Behörde erhält ein eigenes, selbst konfigurierbares Portal.
-
Sprachmodellverwaltung – Zentrale Registry für KI-Modelle mit Multi-Modell-Routing (anwendungsspezifische Modellauswahl), Fine-Tuning-Pipelines für domänenspezifische Anpassungen und Benchmarking zur Qualitätssicherung. Keine Herstellerbindung – sowohl Open-Source- als auch proprietäre Modelle anbindbar.
-
Agentische KI – Framework für autonome KI-Agenten, die mehrstufige Verwaltungsaufgaben selbstständig bearbeiten, dabei Tools über MCP anbinden und Workflows orchestrieren. Pilotierung läuft bereits über den Agentic AI Hub des BMDS.
-
Wissensdatenbanken (RAG / GraphRAG) – Anbindung behördeneigener Wissensbestände über Retrieval-Augmented Generation. Neben klassischer Vektorindizierung wird GraphRAG als bevorzugtes Verfahren für relationales Verwaltungswissen empfohlen: Ein Wissensgraph (Entitäten + Relationen) ermöglicht Multi-Hop-Reasoning über vernetzte Fakten (Zuständigkeiten, Rechtsgrundlagen, Organisationsstrukturen), liefert nachvollziehbare Antwortpfade (Audit Trail) und reduziert Halluzinationen durch explizite Faktenverankerung. Sensible Daten verlassen dabei nicht das Behördenportal.
Rolle von Ontologien: Ontologien (OWL, SKOS, RDF) bilden das semantische Rückgrat des Wissensgraphen – sie definieren, welche Entitätstypen und Relationen existieren dürfen, ermöglichen maschinelles Reasoning (Inferenz) zur Konsistenzprüfung von LLM-Ausgaben und sichern die Interoperabilität zwischen Behörden über geteilte Fachvokabulare (FIM-Ontologie, XÖV-Kernkomponenten, LeiKa, DCAT-AP.de, EU Core Vocabularies). Ohne Ontologie degeneriert ein Wissensgraph zu einer unstrukturierten Graphdatenbank ohne Validierungsmöglichkeit.
-
Sicherheitsfunktionen KI – Prompt-Filtering gegen Injection-Angriffe, Output-Validierung, lückenlose Audit-Protokollierung und Konformität mit VS-NfD-Anforderungen. Sicherstellung, dass KI-Systeme den EU AI Act und BSI-Anforderungen einhalten.
-
API-Integration – OpenAI-kompatible API-Schnittstellen für die nahtlose Integration in bestehende Fachanwendungen. Embedding-APIs für semantische Suche und Batch-Verarbeitung für Massenoperationen.
swap_horiz 5 Querschnittsanforderungenfeedback
Die folgenden Querschnittsanforderungen leiten sich aus der KI-Strategie der Bundesregierung, den BMDS-Leitlinien für KI in der Bundesverwaltung, der Studie zu digitaler Souveränität und LLMs sowie dem EU AI Act ab. Sie gelten für alle Bausteine, die mit KI-Querschnittsdiensten interagieren.
| ID | Anforderung | Verbindlichkeit | Quelle |
|---|---|---|---|
| KIQ-QA-01 | Keine Herstellerbindung: Modulare Architektur ermöglicht Austausch von LLMs ohne Änderung der Konsumenten-Integration. | Erforderlich | BMDS Souveränitätsstudie |
| KIQ-QA-02 | Betrieb auf souveräner, verwaltungsinterner Infrastruktur (On-Premise oder souveräne Cloud). | Erforderlich | BMDS Souveränitätsstudie |
| KIQ-QA-03 | Bevorzugung von Open-Source-Modellen; proprietäre Modelle nur bei nachgewiesenem Mehrwert und mit Exit-Strategie. | Empfohlen | BMDS Souveränitätsstudie |
| KIQ-QA-04 | Verpflichtender Souveränitätscheck für kritische KI-Projekte (Wechselmöglichkeit, Gestaltungsfähigkeit, Einfluss auf Anbieter). | Erforderlich | BMDS Souveränitätsstudie |
| KIQ-QA-05 | Einhaltung des EU AI Act: Risikoklassifizierung, Transparenzpflichten, menschliche Aufsicht. | Erforderlich | EU AI Act / KI-MIG |
| KIQ-QA-06 | VS-NfD-Freigabe: Verarbeitung eingestufter Daten auf der Plattform möglich. | Erforderlich | BSI |
| KIQ-QA-07 | Datensouveränität: Keine Übermittlung von Eingabe- oder Ausgabedaten an Drittstaaten. | Erforderlich | DSGVO / Schrems II |
| KIQ-QA-08 | Lückenlose Audit-Protokollierung aller KI-Interaktionen (Prompt, Response, Modell, Zeitstempel). | Erforderlich | EU AI Act Art. 12 |
| KIQ-QA-09 | Nachnutzbarkeit: KI-Lösungen über den Marktplatz der KI-Möglichkeiten transparent machen und zur Nachnutzung anbieten. | Empfohlen | BMDS / EfA-Prinzip |
| KIQ-QA-10 | Barrierefreiheit: KI-gestützte Interfaces erfüllen WCAG 2.2 AA. | Erforderlich | BITV 2.0 |
| KIQ-QA-11 | Energieeffizienz: Monitoring des Energieverbrauchs pro Inference-Anfrage; Optimierung durch Modellquantisierung und effizientes Batching. | Empfohlen | Rechenzentrumsstrategie |
checklist 6 Funktionale Anforderungenfeedback
Die technischen Fähigkeiten, über die dieser Baustein verfügen muss und sollte. Diese Anforderungen bilden die Grundlage, um alle im Abschnitt „Kernfunktionalitäten" aufgeführten Funktionen bereitzustellen. Jede Anforderung ist nach Verbindlichkeit klassifiziert: Erforderlich (MUST) oder Empfohlen (SHOULD).
6.1 KI-Portalfeedback
Anforderungen an die benutzerfreundliche Oberfläche, über die Verwaltungsmitarbeitende direkt mit KI-Funktionalitäten interagieren. Jede Behörde erhält ein eigenes, isoliertes Portal auf der gemeinsamen Plattform.
| ID | Anforderung | Verbindlichkeit |
|---|---|---|
| KIQ-FA-01 | Bereitstellung eines mandantenfähigen KI-Portals mit Self-Service-Konfiguration pro Behörde. | Erforderlich |
| KIQ-FA-02 | Chat-Interface mit Streaming-Ausgabe und Konversationshistorie. | Erforderlich |
| KIQ-FA-03 | Dokumenten-Upload und -Befragung (PDF, DOCX, TXT) mit kontextsensitiven Antworten. | Erforderlich |
| KIQ-FA-04 | Automatische Zusammenfassung von Dokumenten und Texten. | Erforderlich |
| KIQ-FA-05 | Maschinelle Übersetzung zwischen allen EU-Amtssprachen. | Empfohlen |
| KIQ-FA-06 | Automatische Schwärzung personenbezogener Daten (NER-basiert). | Empfohlen |
| KIQ-FA-07 | Sprache-zu-Text-Transkription (Whisper-kompatibel). | Empfohlen |
6.2 Sprachmodellverwaltungfeedback
Anforderungen an die zentrale Verwaltung und Orchestrierung verschiedener KI-Modelle. Die modulare Architektur stellt sicher, dass keine Bindung an einen einzelnen Modellanbieter entsteht.
| ID | Anforderung | Verbindlichkeit |
|---|---|---|
| KIQ-FA-10 | Zentrale Modell-Registry mit Versionierung, Metadaten und Leistungskennzahlen. | Erforderlich |
| KIQ-FA-11 | Multi-Modell-Routing: Automatische oder manuelle Auswahl des optimalen Modells pro Anwendungsfall. | Erforderlich |
| KIQ-FA-12 | Unterstützung von mindestens drei parallelen LLM-Anbietern (Open Source und proprietär). | Erforderlich |
| KIQ-FA-13 | Fine-Tuning-Pipeline für domänenspezifische Anpassung auf verwaltungseigenen Daten. | Empfohlen |
| KIQ-FA-14 | Modell-Benchmarking mit standardisierten Evaluationsmetriken (Genauigkeit, Latenz, Kosten). | Empfohlen |
| KIQ-FA-15 | Hot-Swap von Modellen ohne Dienstunterbrechung (Blue-Green-Deployment). | Erforderlich |
6.3 Agentische KIfeedback
Anforderungen an das Framework für autonome KI-Agenten, die komplexe Verwaltungsaufgaben mehrstufig und werkzeuggestützt bearbeiten können.
| ID | Anforderung | Verbindlichkeit |
|---|---|---|
| KIQ-FA-20 | Agenten-Framework mit Tool-Calling, Planung und iterativer Ausführung. | Erforderlich |
| KIQ-FA-21 | MCP-Repository für standardisierte Tool-Anbindung (Dateisysteme, APIs, Datenbanken). | Erforderlich |
| KIQ-FA-22 | Menschliche Aufsicht (Human-in-the-Loop) für Agenten mit hohem Risiko-Impact. | Erforderlich |
| KIQ-FA-23 | Sandbox-Umgebung für Agenten-Testing ohne Auswirkung auf Produktivsysteme. | Empfohlen |
6.4 Wissensdatenbanken (RAG)feedback
Anforderungen an die Anbindung behördeneigener Wissensbestände für kontextsensitive, faktenbasierte KI-Antworten.
| ID | Anforderung | Verbindlichkeit |
|---|---|---|
| KIQ-FA-30 | Vektorindizierung und semantische Suche über beliebige Dokumentenkorpora. | Erforderlich |
| KIQ-FA-31 | Mandantentrennung: Wissensdatenbanken einer Behörde sind für andere nicht einsehbar. | Erforderlich |
| KIQ-FA-32 | Unterstützung gängiger Dokumentenformate (PDF, DOCX, HTML, Markdown). | Erforderlich |
| KIQ-FA-33 | Quellenangabe (Citation) in generierten Antworten mit Verweis auf Originaldokument. | Erforderlich |
| KIQ-FA-34 | Automatische Re-Indizierung bei Änderung der Quellbestände. | Empfohlen |
| KIQ-FA-35 | GraphRAG: Aufbau eines Wissensgraphen (Entitäten, Relationen) aus Dokumentenkorpora für Multi-Hop-Reasoning und nachvollziehbare Antwortpfade. | Empfohlen |
| KIQ-FA-36 | GraphRAG: Community Summaries über Themencluster für globale Fragen an große Dokumentenbestände. | Empfohlen |
| KIQ-FA-37 | Hybrides Retrieval: Kombinierte Abfrage aus Vektor-Suche und Graph-Traversierung mit konfigurierbarer Gewichtung. | Empfohlen |
6.5 Sicherheitsfunktionen KIfeedback
Anforderungen an die KI-spezifischen Sicherheitsmaßnahmen, die über die allgemeinen IT-Sicherheitsanforderungen hinausgehen und die besonderen Risiken generativer KI adressieren.
| ID | Anforderung | Verbindlichkeit |
|---|---|---|
| KIQ-FA-40 | Prompt-Injection-Schutz: Eingabefilter gegen Manipulation des Modellverhaltens. | Erforderlich |
| KIQ-FA-41 | Output-Validierung: Prüfung generierter Inhalte auf toxische, falsche oder klassifizierte Informationen. | Erforderlich |
| KIQ-FA-42 | Lückenlose Audit-Logs: Protokollierung von Prompt, Response, Modell, Nutzer und Zeitstempel. | Erforderlich |
| KIQ-FA-43 | Rollenbasierte Zugriffskontrolle (RBAC) auf Modelle, Portale und Wissensdatenbanken. | Erforderlich |
| KIQ-FA-44 | Data Loss Prevention (DLP): Erkennung und Blockierung unbeabsichtigter Datenexfiltration. | Erforderlich |
| KIQ-FA-45 | Regelmäßige Red-Teaming-Exercises gegen KI-spezifische Angriffsvektoren. | Empfohlen |
6.6 API-Integrationfeedback
Anforderungen an die programmatischen Schnittstellen, über die Fachanwendungen und andere Funktionsbausteine KI-Funktionalitäten konsumieren.
| ID | Anforderung | Verbindlichkeit |
|---|---|---|
| KIQ-FA-50 | OpenAI-kompatible Chat-Completion-API (REST, JSON). | Erforderlich |
| KIQ-FA-51 | Embedding-API für semantische Vektorisierung von Texten. | Erforderlich |
| KIQ-FA-52 | Batch-API für asynchrone Massenverarbeitung. | Empfohlen |
| KIQ-FA-53 | Rate Limiting und Quota Management pro Mandant. | Erforderlich |
| KIQ-FA-54 | API-Versionierung mit Abwärtskompatibilität. | Erforderlich |
database 7 Datenstrukturenfeedback
Dieser Abschnitt beschreibt die zentralen Datenstrukturen und Datenmodelle, die vom Baustein „KI-Querschnittsdienste" genutzt werden. Er umfasst Ressourcenmodell und Datenelemente, die von den Kernfunktionalitäten benötigt werden.
7.1 Ressourcenmodellfeedback
Das Ressourcenmodell zeigt die Beziehungen zwischen den Datenobjekten, die von diesem Baustein verwaltet werden. Im Zentrum stehen Modelle, die über Inference Requests angesprochen werden, sowie Wissensdatenbanken, die per RAG in die Anfragen einfließen.
7.2 Zentrale Datenobjektefeedback
Die folgende Tabelle beschreibt die wesentlichen Fachobjekte des Bausteins. Jedes Objekt entspricht einer Entität im Ressourcenmodell und wird über die Service-Schnittstellen exponiert.
| Objekt | Beschreibung |
|---|---|
| Tenant | Mandant (Behörde) mit eigenem Portal, Wissensdatenbanken und Konfiguration. |
| Portal | Behördeneigenes KI-Portal auf der KIPITZ-Plattform mit individueller Konfiguration. |
| Model | KI-Modell (LLM, Embedding, Speech-to-Text) mit Metadaten zu Anbieter und Lizenz. |
| Model Version | Konkrete Version eines Modells mit Quantisierungsstufe und Benchmark-Ergebnissen. |
| Conversation | Dialog eines Nutzers mit dem System, bestehend aus Nachrichten. |
| Message | Einzelne Nachricht (Prompt oder Response) mit Modellzuordnung und Token-Zählung. |
| Knowledge Base | Wissensbestand einer Behörde, bestehend aus indexierten Dokumenten. |
| Document / Chunk | Quell-Dokument und dessen vektorisierte Textfragmente für semantische Suche. |
| Agent | Konfigurierter KI-Agent mit System-Prompt, Modellzuweisung und Tool-Zugriff. |
| Tool | Werkzeug, das ein Agent über MCP aufrufen kann (API, Dateisystem, Datenbank). |
api 8 Service-Schnittstellenfeedback
Dieser Abschnitt enthält eine Referenz für die APIs, die von diesem Baustein implementiert werden. Die hier definierten APIs bilden die Grundlage für die Interaktion mit Fachanwendungen und anderen Bausteinen.
| API | Beschreibung | Protokoll |
|---|---|---|
| Chat Completion API | Textgenerierung mit Streaming, System-Prompts und Tool-Calling. OpenAI-kompatibel. | REST / SSE |
| Embedding API | Vektorisierung von Texten für semantische Suche und Similarity. | REST |
| Knowledge Base API | CRUD für Wissensdatenbanken, Dokument-Upload, Semantic Search. | REST / OpenAPI 3.1 |
| Agent API | Erstellen, konfigurieren und ausführen von KI-Agenten mit Tool-Calling. | REST / WebSocket |
| Management API | Mandanten-, Modell- und Portal-Verwaltung, Monitoring, Quota-Management. | REST / OpenAPI 3.1 |
account_tree 9 Interne Workflowsfeedback
Dieser Abschnitt bietet einen detaillierten Überblick darüber, wie dieser Baustein intern arbeitet und mit Fachanwendungen interagiert. Die Workflows zeigen typische Nutzungsszenarien: von der einfachen Chat-Anfrage über RAG-gestützten Dokumentenzugriff bis zur agentischen Aufgabenbearbeitung.
9.1 Workflow: RAG-gestützte Anfragefeedback
Dieser Workflow beschreibt, wie eine Nutzerfrage mit behördeneigenem Wissen angereichert wird, bevor sie an das Sprachmodell geht. Die Quellenangabe (Citation) stellt die Nachvollziehbarkeit sicher.
9.2 Workflow: Agentische Aufgabenbearbeitungfeedback
Dieser Workflow zeigt, wie ein KI-Agent eine komplexe Verwaltungsaufgabe eigenständig in Teilschritte zerlegt, Tools aufruft und dabei unter menschlicher Aufsicht bleibt.
gavel 10 EU AI Act – Regulatorische Anforderungenfeedback
Der EU AI Act (KI-Verordnung, Verordnung (EU) 2024/1689) ist seit August 2024 in Kraft und schafft den weltweit ersten umfassenden Rechtsrahmen für KI-Systeme. Für die Bundesverwaltung hat die Verordnung unmittelbare Relevanz: KI-Systeme, die in der öffentlichen Verwaltung eingesetzt werden, unterliegen häufig der Hochrisiko-Kategorie (Annex III).
10.1 Risikoklassifizierungfeedback
10.2 Pflichten für Hochrisiko-KI-Systeme (Art. 6–15)feedback
Die meisten KI-Systeme im Kontext der Bundesverwaltung fallen unter die Hochrisiko-Kategorie, insbesondere wenn sie in behördlichen Entscheidungsprozessen eingesetzt werden (Annex III Nr. 5: „Zugang zu und Nutzung von wesentlichen öffentlichen Diensten").
| Pflicht | Artikel | Umsetzung im Baustein KIQ |
|---|---|---|
| Risikomanagementsystem | Art. 9 | Verpflichtende Risikobewertung vor Inbetriebnahme jedes KI-Modells; kontinuierliches Monitoring. |
| Daten-Governance | Art. 10 | Dokumentation der Trainingsdaten; Prüfung auf Bias und Repräsentativität; Mandantentrennung. |
| Technische Dokumentation | Art. 11 | Model Cards mit Leistungskennzahlen, Limitierungen und Einsatzgrenzen. |
| Aufzeichnungspflichten | Art. 12 | Lückenlose Audit-Logs (Prompt, Response, Modell, User, Zeitstempel) – KIQ-FA-42. |
| Transparenz | Art. 13 | Erklärbare Entscheidungen (→ XAI); Kennzeichnung KI-generierter Inhalte. |
| Menschliche Aufsicht | Art. 14 | Human-in-the-Loop bei kritischen Entscheidungen – KIQ-FA-22. |
| Genauigkeit & Robustheit | Art. 15 | Standardisierte Evaluationsmetriken; Red Teaming – KIQ-FA-14, KIQ-FA-45. |
| Cybersicherheit | Art. 15(4) | Prompt-Injection-Schutz, Output-Validierung, DLP – KIQ-FA-40 bis KIQ-FA-44. |
10.3 Zeitplan und Fristenfeedback
| Datum | Meilenstein |
|---|---|
| 02.08.2024 | Inkrafttreten der KI-Verordnung |
| 02.02.2025 | Verbot von KI-Systemen mit unannehmbarem Risiko (Art. 5) |
| 02.08.2025 | Pflichten für Anbieter von KI-Modellen mit allgemeinem Verwendungszweck (GPAI, Art. 51–56) |
| 02.08.2026 | Volle Anwendbarkeit der Hochrisiko-Pflichten (Art. 6–15) |
| 02.08.2027 | Pflichten für Hochrisiko-Systeme gemäß Annex I (Produktsicherheit) |
⚠️ Handlungsbedarf bis August 2026: Die Hochrisiko-Pflichten gelten ab 02.08.2026 – betroffen sind alle KI-Systeme der Bundesverwaltung, die in Entscheidungsprozessen eingesetzt werden. Die KI-Plattform KIPITZ muss bis dahin vollständige Compliance sicherstellen: Risikomanagementsystem, technische Dokumentation, Audit-Logs und menschliche Aufsichtsmechanismen.
10.4 KI-Transparenzregisterfeedback
Der EU AI Act verlangt von öffentlichen Stellen die Registrierung von Hochrisiko-KI-Systemen in einer EU-Datenbank (Art. 49). Auf nationaler Ebene dient der Marktplatz der KI-Möglichkeiten bereits als Transparenzregister für KI-Systeme der Bundesverwaltung. Die Registrierung soll künftig verpflichtend über dieses Register erfolgen.
visibility 11 Explainable AI (XAI)feedback
Erklärbare Künstliche Intelligenz (Explainable AI, XAI) ist sowohl eine regulatorische Anforderung (EU AI Act Art. 13) als auch eine Voraussetzung für die Akzeptanz von KI in der Verwaltung. Entscheidungen, die durch KI unterstützt werden, müssen für Betroffene, Sachbearbeitende und Aufsichtsbehörden nachvollziehbar sein.
11.1 Anforderungen an Erklärbarkeitfeedback
| Zielgruppe | Erklärungsbedarf | XAI-Methode |
|---|---|---|
| Bürger:innen | Warum wurde mein Antrag abgelehnt? | Natürlichsprachliche Begründung mit Quellenangabe; Faktoren-Auflistung. |
| Sachbearbeitende | Auf welcher Grundlage basiert die Empfehlung? | Feature Attribution (SHAP/LIME); Entscheidungsbaum-Approximation; GraphRAG-Pfaddarstellung. |
| Aufsichtsbehörden | Ist das System diskriminierungsfrei? | Globale Erklärungen (Modellkarten); statistische Fairness-Metriken; Audit-Trails. |
| Entwickler:innen | Warum hat das Modell halluziniert? | Attention Maps; Token-Logprobs; Retrieval-Scores; Kontextfenster-Analyse. |
11.2 XAI-Techniken für LLM-basierte Systemefeedback
Empfohlene Umsetzung im Baustein KIQ:
- Citation-Pflicht: Jede KI-gestützte Aussage muss mit Quellenangaben (Dokument, Paragraph, Wissengraph-Knoten) versehen sein – bereits in KIQ-FA-33 verankert.
- Confidence Scores: Antworten werden mit einem Konfidenzwert versehen; unterhalb eines Schwellenwerts erfolgt eine explizite Warnung an die Nutzenden.
- GraphRAG-Pfade: Bei Graph-basiertem Retrieval wird der Reasoning-Pfad (Entität → Relation → Entität → …) als nachvollziehbare Herleitung dargestellt.
- Kennzeichnungspflicht: KI-generierte Inhalte werden als solche gekennzeichnet (EU AI Act Art. 50).
- "Warum?"-Funktion: Nutzende können per Klick eine natürlichsprachliche Erklärung der Modellentscheidung anfordern.
bug_report 12 KI-Fehlerkategorienfeedback
Generative KI-Systeme produzieren charakteristische Fehlertypen, die sich fundamental von klassischen Software-Fehlern unterscheiden. Eine systematische Taxonomie ist Voraussetzung für Risikomanagement (EU AI Act Art. 9), Evaluierung und die Gestaltung wirksamer Gegenmaßnahmen.
12.1 Fehlertaxonomiefeedback
| Kategorie | Beschreibung | Risikostufe | Gegenmaßnahme |
|---|---|---|---|
| Halluzination | Modell erzeugt sachlich falsche, aber plausibel klingende Aussagen ohne Grundlage in den Trainingsdaten oder im Kontext. | 🔴 Hoch | RAG/GraphRAG mit Quellenverankerung; Confidence Scores; Fact-Checking-Pipeline. |
| Konfabulation | Modell „erfindet" Details (Zitate, Paragrafen, Aktenzeichen), die nicht existieren. | 🔴 Hoch | Strikte Citation-Pflicht; Validierung gegen Quelldatenbank; Hallucination Detection Models. |
| Bias / Diskriminierung | Systematische Verzerrung aufgrund unausgewogener Trainingsdaten – z.B. Benachteiligung bestimmter Bevölkerungsgruppen. | 🔴 Hoch | Fairness-Audits; diverse Trainingsdaten; De-Biasing-Techniken; Monitoring auf geschützte Merkmale. |
| Prompt Injection | Manipulation der Modelleingabe, um Sicherheitsmechanismen zu umgehen oder unbeabsichtigtes Verhalten auszulösen. | 🔴 Hoch | Input-Sanitization; mehrschichtige Filter; System-Prompt-Isolation (KIQ-FA-40). |
| Data Leakage | Modell gibt vertrauliche Trainingsdaten oder Kontextinformationen anderer Mandanten preis. | 🔴 Hoch | Mandantentrennung; DLP-Filter; Output-Scanning (KIQ-FA-44). |
| Toxizität | Generierung beleidigender, diskriminierender oder unangemessener Inhalte. | 🟠 Mittel | Content-Filter; Moderation-Modelle; Output-Validierung (KIQ-FA-41). |
| Inkonsistenz | Identische Frage liefert bei mehrfacher Ausführung widersprüchliche Antworten. | 🟠 Mittel | Temperatur-Steuerung; Seed-Parameter; Ensemble-Voting; Deterministic Decoding. |
| Kontextverlust | Bei langen Konversationen oder Dokumenten verliert das Modell wichtige Informationen aus dem Kontext. | 🟠 Mittel | Kontext-Komprimierung; hierarchische Summarization; Sliding-Window-RAG. |
| Overconfidence | Modell gibt falsche Antworten mit hoher scheinbarer Sicherheit aus, ohne Unsicherheit zu signalisieren. | 🟠 Mittel | Calibration; Logprob-Auswertung; „Ich weiß es nicht"-Training; Confidence Thresholds. |
| Sprachliche Fehler | Grammatik-, Rechtschreib- oder Stilfehler, insbesondere bei seltenen Sprachen oder Fachterminologie. | 🟡 Niedrig | Fachterminologie-Fine-Tuning; nachgelagerte Sprachprüfung; Glossar-Enforcement. |
| Format-Fehler | Modell hält vorgegebene Ausgabeformate nicht ein (JSON, Tabellen, strukturierte Daten). | 🟡 Niedrig | Structured Output (JSON Mode); Schema-Validierung; Retry-Logik mit Feedback. |
| Latenz-Degradation | Antwortzeiten verschlechtern sich unter Last oder bei komplexen Anfragen jenseits akzeptabler Schwellenwerte. | 🟡 Niedrig | Auto-Scaling; Modell-Quantisierung; Anfrage-Routing; Caching; Batch-Optimierung. |
12.2 Fehlerbehandlungsstrategiefeedback
Defense in Depth: Fehlerprävention folgt dem Defense-in-Depth-Prinzip: Kein einzelner Mechanismus reicht aus – erst die Kombination aus Pre-Processing (Eingabefilter), modellinternen Maßnahmen (Confidence, RAG) und Post-Processing (Faktencheck, Content-Filter) ergibt ein robustes System. Jede Schicht reduziert die Restfehlerrate der vorherigen.
monitoring 13 Evals und Benchmarkingfeedback
Systematische Evaluation (Evals) und Benchmarking sind unverzichtbar für die Qualitätssicherung von KI-Systemen in der Bundesverwaltung. Sie stellen sicher, dass Modelle den regulatorischen Anforderungen (EU AI Act Art. 15) genügen, messbar leistungsfähig sind und über den gesamten Lebenszyklus qualitätsgesichert bleiben.
13.1 Evaluationsdimensionenfeedback
| Dimension | Metriken | Beschreibung |
|---|---|---|
| Korrektheit | Accuracy, F1, Exact Match, BLEU/ROUGE | Stimmen die Ausgaben sachlich und inhaltlich mit der Referenz überein? |
| Zuverlässigkeit | Halluzinationsrate, Faithfulness Score | Wie häufig erzeugt das Modell nicht-faktenbasierte Aussagen? |
| Fairness | Demographic Parity, Equalized Odds | Werden alle Bevölkerungsgruppen gleich behandelt? |
| Robustheit | Adversarial Accuracy, Jailbreak-Resistenz | Wie widerstandsfähig ist das Modell gegen manipulative Eingaben? |
| Latenz | TTFT, TPS, P95-Latenz | Wie schnell antwortet das Modell unter Last? |
| Kosten | Token/€, Energie/Inference | Wie wirtschaftlich ist der Betrieb? |
| Domäneneignung | Fachterminologie-Score, Verwaltungs-Benchmark | Kennt das Modell relevante Verwaltungsfachsprache und -prozesse? |
13.2 Benchmarking-Frameworkfeedback
13.3 Eval-Kategorienfeedback
13.3.1 Standard-Benchmarks (Allgemeine Modellqualität)feedback
| Benchmark | Prüfgegenstand | Zielwert |
|---|---|---|
| MMLU | Allgemeinwissen über 57 Fachgebiete | > 70% Accuracy |
| HellaSwag | Commonsense Reasoning | > 80% |
| HumanEval / MBPP | Code-Generierung | > 60% Pass@1 |
| MT-Bench | Multi-Turn-Dialogqualität | > 7.5 / 10 |
| TruthfulQA | Faktenbasierte Antworten (Anti-Halluzination) | > 60% |
13.3.2 Domänenspezifische Benchmarks (Verwaltung)feedback
| Benchmark | Prüfgegenstand | Beschreibung |
|---|---|---|
| VerwaltungsRechtQA | Verwaltungsrechtliche Fragen | Eigener Benchmark mit Fragen aus VwVfG, SGB, AO – geprüft gegen Kommentarliteratur. |
| FIM-Terminologie | Fachterminologie | Korrekte Verwendung von FIM-Begriffen (Leistungen, Prozesse, Datenfelder). |
| Bescheid-Eval | Bescheiderstellung | Qualität generierter Verwaltungsbescheide (Struktur, Rechtsgrundlage, Tenor, Begründung). |
| Übersetzungs-Eval | Fachübersetzung DE↔EN/FR | Terminologietreue bei Verwaltungsfachsprache; BLEU + menschliche Bewertung. |
| Zusammenfassungs-Eval | Dokumentenzusammenfassung | Informationserhalt und Kürze bei Vorlagen, Berichten, Gesetzentwürfen. |
13.3.3 Sicherheits- und Fairness-Benchmarksfeedback
| Benchmark | Prüfgegenstand | Beschreibung |
|---|---|---|
| Prompt-Injection-Suite | Angriffssicherheit | Standardisierte Angriffsmuster (Direct Injection, Indirect Injection, Jailbreaks). |
| Toxicity-Eval | Toxische Ausgaben | Bewertung auf schädliche, beleidigende oder unangemessene Inhalte. |
| Bias-Audit | Diskriminierung | Prüfung auf systematische Benachteiligung nach Geschlecht, Herkunft, Alter. |
| Data-Leakage-Test | Datenexfiltration | Versuch, vertrauliche Trainings- oder Kontextdaten zu extrahieren. |
13.3.4 RAG-spezifische Metriken (RAGAS-Framework)feedback
| Metrik | Beschreibung | Berechnung |
|---|---|---|
| Faithfulness | Sind alle Aussagen durch den Kontext belegt? | Anteil faktenverankerter Aussagen an Gesamtaussagen. |
| Answer Relevancy | Beantwortet die Antwort die gestellte Frage? | Semantische Ähnlichkeit zwischen Frage und Antwort. |
| Context Recall | Wurden alle relevanten Informationen gefunden? | Anteil genutzter relevanter Kontexte an allen relevanten. |
| Context Precision | Sind die abgerufenen Kontexte relevant? | Anteil relevanter Kontexte an allen abgerufenen. |
| Answer Correctness | Stimmt die Antwort sachlich? | Vergleich mit Ground-Truth-Antwort (F1 + semantisch). |
13.4 Eval-Prozess im Lebenszyklusfeedback
| Phase | Eval-Typ | Frequenz | Verantwortung |
|---|---|---|---|
| Modellauswahl | Vollständige Benchmark-Suite | Bei jedem Modellwechsel | KI-Plattform-Team |
| Deployment | Regressionstests + Sicherheits-Evals | Vor jedem Release | CI/CD-Pipeline (automatisiert) |
| Betrieb | Drift-Monitoring + Stichproben-Evals | Kontinuierlich / wöchentlich | Betriebsteam + Fachexpert:innen |
| Audit | Vollständiges Re-Eval + Fairness-Audit | Jährlich / anlassbezogen | Externe Prüfung / BfDI |
Best Practice – Eval-Driven Development: Evaluierungsmetriken sollten vor der Modellauswahl definiert werden – analog zu testgetriebener Entwicklung. Erst wenn klar ist, welche Qualitätsziele ein KI-System erreichen muss (z.B. „Halluzinationsrate < 5% auf VerwaltungsRechtQA"), kann eine fundierte Modellentscheidung getroffen werden.
share 14 Integrationspotenzial mit anderen Funktionsbausteinenfeedback
Der Baustein „KI-Querschnittsdienste" entfaltet seine Wirkung als horizontaler Enabler für zahlreiche andere Funktionsbausteine der BMDS-Lösungs- und Dienstebibliothek. Die folgende priorisierte Liste zeigt die 20 Bausteine mit dem höchsten KI-Integrationspotenzial – bewertet nach Automatisierungspotenzial, Textintensität und Fallzahlen.
| # | Funktionsbaustein | Prio | KI-Anwendungsszenarien |
|---|---|---|---|
| 1 | Vorgangs- und Sachbearbeitung | Agentische KI automatisiert mehrstufige Verwaltungsverfahren; GraphRAG über Rechtsgrundlagen und Zuständigkeiten liefert Fachinformationen direkt im Vorgang; LLM erzeugt Bescheidentwürfe. | |
| 2 | Chat-basierte Antragstellung | LLM als natürlichsprachliches Interface; GraphRAG navigiert Leistungskataloge und Zuständigkeiten; dialogbasierte Formularassistenz. | |
| 3 | Entscheidungsunterstützung | GraphRAG über Rechtsgrundlagen + Multi-Hop-Reasoning = fundierte Entscheidungsempfehlungen mit nachvollziehbaren Quellenangaben. | |
| 4 | Maschinelle Übersetzung | Direkter KIQ-Konsument: Fachterminologie-Fine-Tuning; domänenspezifische Übersetzung; VS-NfD-Dokumente auf eigener Infrastruktur. | |
| 5 | Normengestaltung | LLM-gestützte Konsistenzprüfung; GraphRAG über gesamten Rechtsbestand ermöglicht Querverweise, Kollisionsprüfung und automatische Synopsen. | |
| 6 | Eingabemanagement | Automatische Klassifikation und Routing von Bürgeranfragen; Sentiment-Analyse; KI-gestützte Antwortvorschläge. | |
| 7 | Datenanalyse | LLM als Natural-Language-Interface; GraphRAG verknüpft Metadaten, Datenherkunft und Kennzahlen-Definitionen für kontextreiche Abfragen. | |
| 8 | Content-Management | Automatische Texterstellung und Zusammenfassung; Metadaten-Generierung; Barrierefreiheits-Check per KI; SEO-Optimierung. | |
| 9 | Informationssammlung | GraphRAG über heterogene Quellen bildet Themencluster; semantische Suche mit Community Summaries für Verwaltungsportale. | |
| 10 | Wissenserwerb | Personalisierte Lernpfade; GraphRAG über Curricula und Kompetenzmodelle; KI-Tutor mit nachvollziehbaren Wissenspfaden. | |
| 11 | IT-Service-Management | KI-Chatbot für First-Level-Support; GraphRAG über CMDB, Known Errors und Lösungsdatenbank für vernetzte Troubleshooting-Pfade. | |
| 12 | Elektronische Veraktung | Automatische Verschlagwortung; GraphRAG über Aktenplan-Strukturen und Vorgangszusammenhänge; intelligente Aktensuche. | |
| 13 | Massendatenanalyse | KI-gestützte Feature-Extraktion; LLM als Code-Copilot für Data Scientists; automatische Report-Generierung aus Analysen. | |
| 14 | Detektion und Reaktion | GraphRAG über Angriffsmuster (MITRE ATT&CK), Infrastruktur-Topologie und Schwachstellen; KI-basierte Alert-Korrelation. | |
| 15 | Postfach und Interaktion | Automatische Antwortvorschläge; Zusammenfassung langer Nachrichtenverläufe; Spam-/Phishing-Erkennung; Priorisierung. | |
| 16 | Informations- und Bibliotheksportal | GraphRAG über Fachthesauri und Zitationsnetzwerke; semantische Suche über Millionen Dokumente; Empfehlungssysteme. | |
| 17 | Vergabemanagement | GraphRAG über Vergaberecht, Rahmenverträge und Anbieterhistorie; KI-gestützte Angebotsauswertung und Eignungsprüfung. | |
| 18 | Personalgewinnung und -entwicklung | Anonymisiertes Bewerber-Matching; automatische Stellenanzeigen; Kompetenzprofile aus Beurteilungen; Bias-Monitoring. | |
| 19 | Fördermanagement | GraphRAG über Förderrichtlinien und Bewilligungshistorie; Antragsprüfung auf Plausibilität; Missbrauchserkennung. | |
| 20 | Kollaboratives Intranet | KI-Suche über Wikis und Blogs; automatische Zusammenfassungen; Übersetzung; Content-Empfehlungen; Q&A-Bot. |
Priorisierungskriterien: Die Bewertung basiert auf drei Dimensionen: (1) Textintensität – je mehr unstrukturierter Text verarbeitet wird, desto höher das LLM-Potenzial; (2) Wissensvernetzung – je mehr Querverbindungen zwischen Fachinformationen bestehen, desto höher der GraphRAG-Mehrwert; (3) Fallzahl × Routineanteil – je mehr Standardfälle vorliegen, desto höher das Automatisierungspotenzial durch agentische KI.
link 15 Weiterführende Informationen und Quellenfeedback
Die folgende Tabelle verweist auf politische Strategien, technische Standards und konkrete Plattformen, die für die Umsetzung dieses Bausteins relevant sind.
| Quelle | Beschreibung |
|---|---|
| BMDS: Künstliche Intelligenz | Themenseite des Bundesministeriums für Digitales und Staatsmodernisierung zu KI. |
| KIPITZ – KI-Plattform des Bundes | Zentrale KI-Plattform der Bundesverwaltung (ITZBund). |
| Marktplatz der KI-Möglichkeiten | KI-Transparenzregister und Matching-Plattform für KI-Systeme der Verwaltung. |
| Digitale Souveränität und große Sprachmodelle | Studie von Fraunhofer FOKUS zu souveränem LLM-Einsatz in der Bundesverwaltung. |
| KI-Strategie der Bundesregierung | Nationale Strategie für Künstliche Intelligenz (2018, fortgeschrieben 2020). |
| Agentic AI Hub (BMDS) | Pilotierung agentischer KI in Kommunen (März 2026). |
| KI München (KIES) | KI-Entwicklung und -Services der Landeshauptstadt München – Open-Source-Referenz auf kommunaler Ebene. |
| Leitlinien für KI in der Bundesverwaltung | Verbindliche Leitlinien für den Einsatz von KI in der Bundesverwaltung (BMDS, 2025). |
| EU AI Act (KI-Verordnung) | Europäischer Rechtsrahmen für KI-Systeme. |
| ISO/IEC 42001 | Managementsystem für Künstliche Intelligenz. |