Zum Inhalt springen
AI Agent Security
29.03.2026Aktualisiert 29.03.2026

Best Practice

Threat Modeling für sichere KI-Agenten

Threat Modeling strukturiert die Analyse von Rollen, Datenflussen, Tools, Speicher, Ausführung und externen Abhängigkeiten, damit Agentenrisiken früh erkannt und gezielt abgesichert werden.

Threat Modeling ist für KI-Agenten keine optionale Vorarbeit, sondern die Grundlage für sinnvolle Sicherheitskontrollen. Bevor ihr Guardrails, Policies oder Sandboxes definiert, müsst ihr verstehen, wie euer Agentensystem tatsächlich aufgebaut ist: welche Rollen beteiligt sind, welche Daten einfliessen, welche Tools Aktionen auslösen und wo Vertrauen über Grenzen hinweg weitergereicht wird.

Was bei Agenten modelliert werden sollte

Bei agentischen Systemen reicht ein klassisches Datenflussdiagramm oft nicht aus. Ihr solltet mindestens diese Bausteine erfassen:

  • Nutzer, Betreiber und andere Identitäten
  • Systemprompts, Policies und Routing-Logik
  • Retrieval, Speicher und externe Wissensquellen
  • Tools, Connectoren und Schreib- oder Ausführungsrechte
  • Inter-Agent-Kommunikation und Delegationspfade
  • externe Modelle, APIs und weitere Abhängigkeiten

Erst diese Gesamtsicht macht sichtbar, wo sich Risiken wie manipulative Kontextübernahme, Tool-Missbrauch oder unsichere Agentenübergaben wirklich ausbreiten können.

Warum Threat Modeling bei KI-Agenten besonders wichtig ist

Agenten verbinden Sprache, Planung und Aktion. Dadurch liegt die Angriffsoberfläche nicht nur im Modell selbst, sondern verteilt sich über Prompts, Speicher, Tools, Freigaben und Workflows. Wenn diese Komponenten getrennt betrachtet werden, bleiben Eskalationspfade oft unsichtbar.

Threat Modeling hilft dabei:

  • kritische Assets und Vertrauensgrenzen sauber zu benennen
  • Missbrauchspfade über mehrere Schritte hinweg sichtbar zu machen
  • Sicherheitskontrollen priorisiert statt rein reaktiv umzusetzen
  • Annahmen über Autonomie, Freigaben und Tool-Scope zu prüfen

Wie ein brauchbarer Modellierungsprozess aussieht

Ein guter Prozess startet mit der realen Zielarchitektur statt mit abstrakten Checklisten. Dokumentiert, welche Eingaben ein Agent bekommt, welche Zwischenschritte er ausführt, welche Tools er aufrufen darf und welche Folgen ein Fehler an jeder Stelle hätte.

Danach solltet ihr für jede Komponente fragen:

  • Was ist hier untrusted?
  • Welche Aktion wäre für einen Angreifer besonders wertvoll?
  • Welche Privilegien, Daten oder Folgeagenten könnten missbraucht werden?
  • Welche serverseitigen Kontrollen verhindern das, auch wenn der Prompt versagt?

Gerade bei Multi-Agent Security lohnt sich diese Analyse, weil Delegationsketten häufig mehr Rechte und mehr Kontext transportieren als beabsichtigt.

Typische Ergebnisse aus Threat Modeling

Ein gutes Threat Model führt nicht nur zu einer Risikoliste, sondern zu konkreten Architekturentscheidungen. Dazu gehören oft:

  • engere Tool-Scopes und Least Privilege
  • getrennte Kontexte für untrusted Input und Steuerlogik
  • Approval Gates für High-Impact-Aktionen
  • Sandbox-Isolation für riskante Ausführung
  • Logging und Alerts an den richtigen Kontrollpunkten

Typische Fehler

  • nur das Modell betrachten, nicht aber Tools und Folgeaktionen
  • Architekturdiagramme nicht mit der realen Laufzeitumgebung abgleichen
  • Bedrohungen einmalig dokumentieren und danach nicht mehr pflegen
  • Trust Boundaries zwischen Agenten, Services und Drittanbietern nicht explizit machen

Kurz gesagt

Threat Modeling schafft die Grundlage für wirksame Agentensicherheit. Erst wenn Rollen, Datenflüsse, Tools und Vertrauensgrenzen sauber erfasst sind, lassen sich Kontrollen gezielt priorisieren und nachhaltig umsetzen.