AI & LLM Penetration Testing

AI Pentesting:
Sicherheitstests für LLMs, Agenten & KI-Systeme

KI-Systeme sind keine Black Box für Angreifer – aber oft eine für die eigene Sicherheitsabteilung. Wir testen LLMs, Agentic-AI-Systeme und KI-integrierte Applikationen auf Basis der OWASP LLM Top 10 und darüber hinaus: von Prompt Injection bis Tool Abuse, von RAG Poisoning bis zu klassischen Web-Schwachstellen in KI-Backends.

👤 USER 🛡️ FILTER 🧠 LLM CORE 🤖 AGENT 🗄️ DATA
Warum AI-Sicherheit anders ist

Neue Angriffsflächen durch KI

KI-Systeme bringen Angriffsvektoren mit, die klassische Penetrationstests nicht abdecken. Gleichzeitig bleiben alle bekannten Web- und Infrastruktur-Schwachstellen relevant.

Natürliche Sprache als Angriffsvektor

Prompt Injection ist der SQL Injection der KI-Ära. Angreifer manipulieren das Modellverhalten über sorgfältig konstruierte Eingaben – direkt oder über vergiftete externe Daten die das Modell verarbeitet.

Agenten mit echten Fähigkeiten

Ein AI-Agent der E-Mails lesen, Code ausführen und Datenbanken abfragen kann, ist ein hochprivilegiertes System. Wer den Agenten kontrolliert, kontrolliert alle seine Tools – ohne direkte Authentifizierung.

Unsichtbare Entscheidungslogik

Trainierte Modelle können durch adversarielle Eingaben zu falschen Klassifikationen gebracht werden. Fraud-Detection, Content-Moderation und medizinische KI-Systeme sind besonders exponiert.

Live Demonstration

Prompt Injection in Aktion

Erlebe selbst, warum KI-Systeme ohne Härtung anfällig sind. Klicke auf die Buttons, um mit einem typischen ungeschützten internen HR-Assistenten zu interagieren.

Erkenntnis: Ohne strikte Guardrails und Backend-Autorisierung führt ein simpler Jailbreak sofort zur Kompromittierung des gesamten Agenten-Kontextes.
AcmeCorp_Internal_HR_Bot_v2
Hallo! Ich bin der interne HR-Assistent. Wie kann ich dir heute helfen?
Strukturierte Sicherheit

AI-Pentest in 5 Phasen

Strukturiert, reproduzierbar und auf die Besonderheiten von KI-Systemen ausgelegt – mit klarer Dokumentation für technische Teams und Management.

01. Scoping & Systemverständnis

Welche KI-Systeme, Modelle und Datenquellen sind im Scope? Welche Tools und Berechtigungen hat der Agent? Wir analysieren die Architektur bevor wir testen.

02. Threat Modeling

Basierend auf der Architektur identifizieren wir die realistischsten Angriffspfade – nach OWASP LLM Top 10, MITRE ATLAS und eigenen Methoden für Agentic AI.

03. Aktives Testing

Manuelles Testing aller identifizierten Angriffsvektoren: Prompt Injections, Tool Abuse, RAG Attacks, API-Tests. Jeder Angriffsversuch wird vollständig protokolliert.

04. Exploitvalidierung

Findings werden auf tatsächliche Ausnutzbarkeit und Business Impact geprüft. Kein False-Positive-Rauschen – nur was wirklich exploitierbar ist, landet im Bericht.

05. Bericht & Remediation

Vollständiger Bericht mit OWASP-LLM-Mapping, Reproduktionsschritten, Management-Summary und priorisierten Handlungsempfehlungen. Re-Test nach Behebung auf Wunsch inklusive.

Testumfang

Was wir konkret testen

//LLM-Applikationsschicht

  • Prompt Injection (direkt & indirekt)
  • Jailbreaking & Guardrail Bypass
  • System Prompt Extraction
  • Output Handling & Injection in nachgelagerte Systeme
  • Rollenmanipulation & Context Confusion

//Agentic AI & Tool Use

  • Tool Call Authorization
  • Privilege Escalation über Agent-Aktionen
  • SSRF & Path Traversal via Tool-Calls
  • Indirect Prompt Injection über externe Datenquellen
  • Multi-Agent Trust Boundary Testing

//RAG & Datenpipeline

  • Unauthorized Data Retrieval
  • Embedding Poisoning & RAG Manipulation
  • Membership Inference Attacks
  • Datenisolation zwischen Nutzern
  • Chunking & Retrieval Logic Abuse

//ML-Modell & Infrastruktur

  • Adversarial Examples & Evasion Attacks
  • Model Extraction & Inversion
  • API Security & Rate Limiting
  • Authentifizierung & Autorisierung
  • Klassische Web-Schwachstellen (OWASP Top 10)
OWASP LLM Top 10

Die zehn kritischsten Schwachstellen in LLM-Applikationen

Die OWASP LLM Top 10 ist der anerkannte Standard für LLM-Security-Assessments. Wir testen systematisch alle zehn Kategorien – ergänzt durch proprietäre Testfälle für Agentic AI und RAG-Systeme.

LLM01

Prompt Injection

KRITISCH

Manipulation der LLM-Ausgabe durch konstruierte Eingaben. Direkt (Nutzer) oder indirekt (vergiftete externe Daten). Führt zu Guardrail-Bypass, Datenlecks, unautorisierten Aktionen.

LLM02

Sensitive Information Disclosure

KRITISCH

Das Modell gibt Trainingsdaten, System-Prompts, interne Konfiguration oder Nutzerdaten anderer Sitzungen preis – durch Memorization oder unzureichende Output-Filterung.

LLM03

Supply Chain Vulnerabilities

HOCH

Kompromittierte Basismodelle, Plugins oder Datenpipelines. Angreifer die die Lieferkette kontrollieren, beeinflussen das Modellverhalten ohne direkten Zugriff.

LLM04

Data & Model Poisoning

HOCH

Manipulierte Trainingsdaten oder Fine-Tuning-Datensätze erzeugen Backdoors oder verändern systematisch das Modellverhalten für bestimmte Eingaben.

LLM05

Insecure Output Handling

KRITISCH

LLM-Ausgaben werden ungefiltert an nachgelagerte Systeme weitergegeben. Führt zu XSS, SQL Injection, Code Execution – wenn Ausgaben als Code oder Queries interpretiert werden.

LLM06

Excessive Agency

HOCH

Der AI-Agent hat mehr Berechtigungen als für seine Aufgabe nötig. Über Prompt Injection kann ein Angreifer den Agenten missbrauchen, um privilegierte Aktionen auszuführen.

LLM07

System Prompt Leakage

MITTEL

Der System-Prompt – oft mit sensiblen Anweisungen, internen Prozessen oder Toolbeschreibungen – wird durch geschickte Formulierungen aus dem Modell extrahiert.

LLM08

Vector & Embedding Weaknesses

HOCH

Angriffe auf die Vektordatenbank eines RAG-Systems: Embedding Poisoning, unauthorized Retrieval, Membership Inference – wer die Vektorbasis kontrolliert, kontrolliert den Kontext.

LLM09

Misinformation

HOCH

Das Modell generiert plausibel klingende, aber falsche Informationen – mit oder ohne adversarielle Manipulation. Besonders kritisch in medizinischen, rechtlichen und finanziellen Kontexten.

LLM10

Unbounded Consumption

MITTEL

Angreifer provozieren exzessiven Ressourcenverbrauch durch aufwändige Anfragen – führt zu DoS, erhöhten API-Kosten oder Erschöpfung von Rate Limits.

Häufige Fragen

AI Pentesting – eure Fragen

Ein klassischer Pentest testet Infrastruktur, Netzwerke und Applikationen auf bekannte technische Schwachstellen. Ein AI-Pentest deckt zusätzlich modellspezifische Angriffsvektoren ab: Prompt Injection, Jailbreaking, Tool Abuse, RAG Poisoning und adversarielle Angriffe auf das Modellverhalten. Da KI-Systeme oft auch auf klassischer Infrastruktur laufen, kombinieren wir beide Ansätze – die API-Sicherheit, Authentifizierung und Zugriffskontrolle testen wir ebenso wie das Modellverhalten selbst.
Das hängt vom Scope ab. Für ein Black-Box-Assessment reicht uns der gleiche Zugang den auch ein normaler Nutzer hätte – wir interagieren mit dem System wie ein Angreifer ohne Insider-Wissen. Für ein Grey-Box- oder White-Box-Assessment ist Zugriff auf System-Prompts, Toolkonfigurationen und Architektur-Dokumentation hilfreich und ermöglicht tiefere Findings. Den optimalen Ansatz klären wir im Scoping-Call.
Ja – weil das Risiko nicht nur im Modell liegt, sondern in der Konfiguration und dem Deployment. Wie ist der System-Prompt aufgebaut? Welche Daten kann Copilot abrufen? Sind Nutzer-Berechtigungen korrekt durchgesetzt? Kann ein Nutzer über Prompt Injection auf Daten anderer Nutzer zugreifen? Diese Fragen betreffen eure Implementierung, nicht Microsoft – und genau das testen wir.
Indirect Prompt Injection bedeutet dass der Angriff nicht direkt vom Nutzer kommt, sondern über externe Daten die das Modell verarbeitet – eine E-Mail, ein Dokument, eine Webseite. Wenn ein AI-Agent eine vergiftete E-Mail liest und daraufhin eine Überweisung auslöst oder Zugangsdaten exfiltriert, hat der Angreifer das System kompromittiert ohne jemals direkt mit dem Agenten zu interagieren. Das ist eine der gefährlichsten Schwachstellen bei Agentic-AI-Systemen.
Der EU AI Act unterscheidet nach Risikokategorien. Hochrisiko-KI-Systeme – darunter KI in der Medizin, im Recruiting, im Kreditscoring, in der Strafverfolgung und in kritischer Infrastruktur – unterliegen strengen Anforderungen an Robustheit, Transparenz und Sicherheitstests. Auch Unternehmen die Hochrisiko-KI einsetzen ohne sie selbst zu entwickeln tragen Compliance-Verantwortung. Für General Purpose AI Models mit systemischem Risiko gelten ab 2025 zusätzliche Red-Teaming-Pflichten. Wir helfen euch im Erstgespräch einzuschätzen welche Kategorie auf euer System zutrifft.
Das hängt vom Scope ab – welche Systeme, wie viele Agenten und Tools, welches Testmodell (Black/Grey/White Box). Ein fokussierter LLM-Applikationstest ist in der Regel kompakter als ein vollständiges Agentic-AI-Assessment mit RAG-Analyse und Infrastruktur-Pentest. Nach einem kostenlosen Erstgespräch kennen wir euren Stack und ihr erhaltet ein transparentes Festpreisangebot.

Bereit für euren AI-Pentest?

In 30 Minuten besprechen wir euren AI-Stack, klären den Scope und ihr erhaltet ein unverbindliches Angebot – kostenlos.

Jetzt kostenloses Erstgespräch buchen

© AccessGranted X GmbH