Threat Modeling für sichere KI-Agenten

Threat Modeling strukturiert die Analyse von Rollen, Datenflussen, Tools, Speicher, Ausführung und externen Abhängigkeiten, damit Agentenrisiken früh erkannt und gezielt abgesichert werden.

Threat Modeling ist für KI-Agenten keine optionale Vorarbeit, sondern die Grundlage für sinnvolle Sicherheitskontrollen. Bevor ihr Guardrails, Policies oder Sandboxes definiert, müsst ihr verstehen, wie euer Agentensystem tatsächlich aufgebaut ist: welche Rollen beteiligt sind, welche Daten einfliessen, welche Tools Aktionen auslösen und wo Vertrauen über Grenzen hinweg weitergereicht wird.

Was bei Agenten modelliert werden sollte

Bei agentischen Systemen reicht ein klassisches Datenflussdiagramm oft nicht aus. Ihr solltet mindestens diese Bausteine erfassen:

Nutzer, Betreiber und andere Identitäten
Systemprompts, Policies und Routing-Logik
Retrieval, Speicher und externe Wissensquellen
Tools, Connectoren und Schreib- oder Ausführungsrechte
Inter-Agent-Kommunikation und Delegationspfade
externe Modelle, APIs und weitere Abhängigkeiten

Erst diese Gesamtsicht macht sichtbar, wo sich Risiken wie manipulative Kontextübernahme, Tool-Missbrauch oder unsichere Agentenübergaben wirklich ausbreiten können.

Warum Threat Modeling bei KI-Agenten besonders wichtig ist

Agenten verbinden Sprache, Planung und Aktion. Dadurch liegt die Angriffsoberfläche nicht nur im Modell selbst, sondern verteilt sich über Prompts, Speicher, Tools, Freigaben und Workflows. Wenn diese Komponenten getrennt betrachtet werden, bleiben Eskalationspfade oft unsichtbar.

Threat Modeling hilft dabei:

kritische Assets und Vertrauensgrenzen sauber zu benennen
Missbrauchspfade über mehrere Schritte hinweg sichtbar zu machen
Sicherheitskontrollen priorisiert statt rein reaktiv umzusetzen
Annahmen über Autonomie, Freigaben und Tool-Scope zu prüfen

Wie ein brauchbarer Modellierungsprozess aussieht

Ein guter Prozess startet mit der realen Zielarchitektur statt mit abstrakten Checklisten. Dokumentiert, welche Eingaben ein Agent bekommt, welche Zwischenschritte er ausführt, welche Tools er aufrufen darf und welche Folgen ein Fehler an jeder Stelle hätte.

Danach solltet ihr für jede Komponente fragen:

Was ist hier untrusted?
Welche Aktion wäre für einen Angreifer besonders wertvoll?
Welche Privilegien, Daten oder Folgeagenten könnten missbraucht werden?
Welche serverseitigen Kontrollen verhindern das, auch wenn der Prompt versagt?

Gerade bei Multi-Agent Security lohnt sich diese Analyse, weil Delegationsketten häufig mehr Rechte und mehr Kontext transportieren als beabsichtigt.

Typische Ergebnisse aus Threat Modeling

Ein gutes Threat Model führt nicht nur zu einer Risikoliste, sondern zu konkreten Architekturentscheidungen. Dazu gehören oft:

engere Tool-Scopes und Least Privilege
getrennte Kontexte für untrusted Input und Steuerlogik
Approval Gates für High-Impact-Aktionen
Sandbox-Isolation für riskante Ausführung
Logging und Alerts an den richtigen Kontrollpunkten

Typische Fehler

nur das Modell betrachten, nicht aber Tools und Folgeaktionen
Architekturdiagramme nicht mit der realen Laufzeitumgebung abgleichen
Bedrohungen einmalig dokumentieren und danach nicht mehr pflegen
Trust Boundaries zwischen Agenten, Services und Drittanbietern nicht explizit machen

Kurz gesagt

Threat Modeling schafft die Grundlage für wirksame Agentensicherheit. Erst wenn Rollen, Datenflüsse, Tools und Vertrauensgrenzen sauber erfasst sind, lassen sich Kontrollen gezielt priorisieren und nachhaltig umsetzen.