AI Agents verstehen: Diese 10 Konzepte reichen aus

Kennst du das? Du startest ein neues AI-Agent-Projekt. Im Test läuft alles super. Dann bittet der User: „Schau in meinen Kalender und buch den günstigsten Flug nach Austin nächste Woche.“ Und was macht der Agent? Er friert ein. Oder noch schlimmer: Er liest die Tool-Ausgabe falsch und bucht einen Flug nach Australien.

Das ist mir passiert. Vor drei Monaten habe ich zugesehen, wie mein Agent in einer Endlosschleife versuchte, eine Seite zu scrapen, die ein Login erfordert. Bevor ich es bemerkte und ihn stoppte, hatte er schon 47 Dollar API-Gebühren verbraten.

Bei AI Agents geht es nicht nur darum, das schlaueste LLM auszuwählen oder coole Prompts zu schreiben. Der Kern liegt in der Systemarchitektur, damit der Agent auch ohne Aufsicht zuverlässig arbeitet.

Die 10 Konzepte im Detail

1 MCP: Das universelle Plugin-System

Du willst, dass dein Agent Gmail liest, Notion aktualisiert und eine Datenbank abfragt. Normalerweise müsstest du für jeden Dienst individuellen Code schreiben. MCP (Model Context Protocol) löst das, indem es einen Standard schafft. Es ist wie der USB-Anschluss für deine AI.

Beispiel: Du betreibst einen MCP-Server, der die Funktion „send_email“ anbietet. Der Agent sieht das Tool automatisch. Wenn der User sagt „Schick den Report an [email protected]“, nutzt der Agent den richtigen Parameter. Willst du später Stripe hinzufügen? Einfach den Stripe-MCP-Server starten – der Agent lernt es sofort, ohne dass du Code ändern musst.

2 Der Denk-Zyklus (Reasoning Loop)

Die meisten Entwickler nutzen LLMs wie eine Funktion: Frage rein, Antwort raus, Ende. Echte Aufgaben brauchen aber Anpassung. Der Reasoning Loop ist der Weg, wie der Agent Probleme löst: Denken → Handeln → Beobachten → Wiederholen.

Beispiel: Der Agent soll die Preise der Konkurrenz finden. Er denkt: „Ich gehe auf die Website“, klickt, bekommt einen 404-Fehler. Er beobachtet: „Seite fehlt.“ Er denkt neu: „Ich probiere die Startseite.“ Er findet den Preis-Link. Er passt sich also an, statt abzustürzen.

3 Gedächtnis (Memory)

Dein Agent spricht mit einem User. Drei Stunden später sagt der User: „Schick die E-Mail, über die wir gerade sprachen.“ Ohne Gedächtnis weiß der Agent nichts. Du brauchst Kurzzeitgedächtnis (aktueller Chat) und Langzeitgedächtnis (Fakten, Vorlieben).

Beispiel: User: „Ich mag Meetings am liebsten vor 10 Uhr.“ Das speicherst du langfristig. Nächste Woche sagt der User: „Mach ein Meeting mit Sarah.“ Der Agent checkt das Gedächtnis, sieht die Präferenz und schlägt 9:00 Uhr vor. Ohne Memory würde er raten.

4 Schutzplanken (Guardrails)

Der Agent will Dateien löschen. Das LLM ist sicher, dass der User das wollte. Aber was, wenn es Produktionsdaten sind? Guardrails sind Validierungen, bevor eine Aktion ausgeführt wird. Sie prüfen Rechte und Plausibilität.

Beispiel: User: „Alte Testdaten aufräumen.“ Der Agent interpretiert das als „50.000 Datenbankeinträge löschen“. Die Guardrail greift ein: „Sind 50.000 Einträge für ‚Testdaten‘ plausibel?“ Sie stoppt die Aktion und fragt nach. Katastrophe verhindert.

5 Tool-Entdeckung

Wenn du Tools fest in den Code einbaust, musst du bei jeder Änderung neu deployen. Tool Discovery bedeutet, dass der Agent zur Laufzeit lernt, was er kann. Tools beschreiben sich selbst, der Agent liest die Beschreibung und lernt die Nutzung automatisch.

Beispiel: Du deployt einen neuen Kalender-MCP-Server. Der Agent sieht beim nächsten Mal „create_event“ in der Liste, liest die Funktion und kann Termine machen, ohne dass du eine Zeile Agent-Code angefasst hast.

6 Fehlerbehebung (Error Recovery)

APIs stürzen ab, User sind unklar. Ein Agent wird auf Fehler stoßen. Die Frage ist, ob er crasht oder elegant reagiert. Fehlerbehebung bedeutet: Bei Timeout neu versuchen, bei fehlenden Infos nachfragen.

Beispiel: E-Mail-Versand scheitert (Timeout). Der Agent wartet 2 Sekunden, probiert es nochmal. Klappt immer noch nicht? Warten, Retry. Beim dritten Mal klappt es. Der User merkt nichts. Oder: Der Server ist down. Der Agent sagt: „Server down, ich habe den Entwurf gespeichert und probiere es später.“

7 Mensch im Loop

Vollständige Autonomie klingt toll, bis der Agent was Peinliches auf Twitter postet. Manche Entscheidungen brauchen menschliches Urteil. „Human in the Loop“ heißt nicht Mikromanagement, sondern: Risiko erkennen und zur Freigabe vorlegen.

Beispiel: Der Agent entwirft eine Antwort auf eine Kundenbeschwerde. Das ist riskant. Er pausiert und fragt: „Ich habe diese Antwort entworfen. Soll ich sie posten?“ Du prüfst, änderst Kleinigkeiten und gibst grünes Licht.

8 Context Engineering

Du hast das schlauste LLM, aber der Agent trifft dumme Entscheidungen. Warum? Ihm fehlen Infos. Context Engineering ist das Sammeln der richtigen Daten für jede Entscheidung: Wetter, Kalender, User-Präferenzen.

Beispiel: User: „Soll ich das Outdoor-Meeting morgen verschieben?“ Guter Kontext: Frage + Wettervorhersage (70% Regen) + User mag keinen Regen + Alternativer Raum B ist frei. Ergebnis: Der Agent schlägt vor, in Raum B zu wechseln. Ohne Kontext würde er raten.

9 Zustandsverwaltung (State Management)

User geben keine einfachen Fragen ein, sondern starten Projekte, die Stunden dauern. Der Agent muss wissen, wo er steht: Was ist geplant? Was läuft? Was wartet auf Input?

Beispiel: „Analysiere die Top-5-Konkurrenten.“ Der Agent erstellt Unterziele: 1. Identifizieren (läuft), 2. Analysieren (geplant). Wenn er User-Input braucht („Welche Metriken?“), setzt er den Status auf „Wartend“, fragt, und macht danach genau dort weiter, wo er aufgehört hat.

10 Runtime Orchestrierung

Ein Agent ist kein Skript, das einmal läuft. Er ist ein System, das Events hört, mehrere Tasks bearbeitet und Ressourcen begrenzen muss. Die Orchestrierung ist die Infrastruktur, die das alles managt.

Beispiel: Der Agent hört auf Slack, Timer und Webhooks. Eine Event-Queue leitet alles weiter. Wenn du ein Update einspielst, speichert das Shutdown-Handling den aktuellen Status. Das neue System startet, lädt den Status und macht genau da weiter. Ressourcen-Limits sorgen dafür, dass kein Task das Budget sprengt.

Wann du was brauchst: Der Spickzettel

Fängst du bei Null an? Starte mit MCP und Tool Discovery. Bau das Fundament, damit du später leicht neue Fähigkeiten hinzufügen kannst. Hartkodierte Integrationen wirst du bereuen.

Test läuft, Produktion crasht? Füge Guardrails und Error Recovery hinzu. Prüfe vor der Ausführung, versuche es bei Fehlern nochmal. Die Produktion hat immer Edge-Cases, die du im Test übersehen hast.

Agent vergisst Dinge? Implementiere Memory. Kurzzeit für den Chat, Langzeit für Fakten. Context Engineering sorgt dafür, dass er beim Entscheiden auch wirklich alles weiß.

Aufgaben hängen sich auf? Checke Reasoning Loop und State Management. Zerlege komplexe Anfragen in Unterziele. Lass den Agenten flexibel sein, wenn der Plan sich ändert.

Sorge um Sicherheit? Setze voll auf Guardrails und Human in the Loop. Fang konservativ an. Gib mehr Autonomie erst frei, wenn du dem Agenten vertraust.

API-Kosten explodieren? Füge Ressourcen-Limits hinzu. Begrenze Laufzeit und API-Calls pro Task. Lieber früh abbrechen, als das Budget sprengen.