Lass Claude-Agenten stundenlang laufen — einen Agenten oder eine ganze Flotte — ohne dass einer stillschweigend stirbt.
Ein Two-Pulse-Steuerungssystem für Claude Code mit objektivem Evaluator-Agenten, Recovery-Steering, Computer Use, Opus-steuert-Codex-Delegation, Flotten-Parallelität und Discord als Operator-UX. Aufbauend auf Anthropics veröffentlichter Forschung zu Long-Running-Agent-Harnesses.
Trage deine E-Mail unten ein, um den GitHub-Repository-Link und einen einseitigen Quickstart-Spickzettel zu erhalten.
Kurzfassung
Was das ist, in einfacher Sprache.
KI-Agenten, die stundenlang laufen, haben einen stillen Fehlermodus: Die Schleife weiß nur dann, dass sie weitermachen soll, wenn ein Turn endet. Wenn ein Turn nie endet — weil etwas hängt, ein Subagent eingefroren ist oder der Operator weggegangen ist — hat die Schleife keine Möglichkeit, das Schweigen zu bemerken. Du denkst, der Agent arbeitet noch. Er tut es nicht.
Dieser Harness fügt eine zweite Uhr ausserhalb des Agenten hinzu. Alle 15 Minuten liest sie einen Heartbeat, den der Agent eigentlich schreiben sollte. Wird der Heartbeat alt, postet sie eine Stall-Warnung und schreibt Recovery-Hinweise, die der Agent im nächsten Turn lesen wird.
Es funktioniert in zwei Modi. Steuere einen einzelnen Claude-Agenten an einem einzelnen langen Ziel. Oder lass einen Claude Opus eine Flotte aus Claude- und Codex-Subagenten orchestrieren, die parallel auf isolierten Worktrees arbeiten — und überwache jeden einzelnen mit demselben Heartbeat, demselben Evaluator und demselben Kill-Switch.
Das Ganze ist kostenlos, Open Source unter Apache-2.0 und liegt in einem GitHub-Repo. Es läuft auf Claude Code. Es basiert auf Anthropics eigener veröffentlichter Forschung zu Long-Running-Agent-Harnesses.
Das Problem
Warum Long-Running-Agenten still ausfallen.
Claude Code ist, wie die meisten Agent-Schleifen, event-getrieben. Es prüft nur an Turn-Grenzen, ob die Arbeit fertig ist — also genau dann, wenn das Modell zu Ende gesprochen hat. Das funktioniert gut, wenn Turns alle ein bis zwei Minuten passieren.
Bei einem Vier-Stunden-Ziel bricht die Annahme. Endet ein Turn nie, ist die Schleife tot — von aussen sieht sie aber genauso aus wie eine, die noch nachdenkt. Du merkst es erst am nächsten Morgen, dass der Agent um 23 Uhr stehen geblieben ist und die acht Stunden, die du nutzen wolltest, verloren sind.
Die Lösung ist strukturell: Du brauchst einen Watchdog ausserhalb des Agenten, der einen Heartbeat liest, den der Agent von innen schreibt. Genau das gibt dir der Harness, mit sinnvollen Defaults bereits verdrahtet.
So funktioniert es
Wie funktioniert der Long-Running-Agent-Harness wirklich?
Zwei Uhren. Die innere Uhr läuft im Tempo des Agenten. Die äussere Uhr läuft im Tempo der Wand.
| Pulse | When it runs | What it checks | How it reacts |
|---|---|---|---|
| Innerer Pulse | An jeder Turn-Grenze innerhalb von Claude Code. | Liest test-results.json. Prüft, ob jedes Kriterium wahr ist. | Blockiert den Turn und führt die Schleife fort, wenn ein Kriterium falsch ist. Schreibt einen frischen Heartbeat-Zeitstempel. |
| Äusserer Pulse | Alle 15 Minuten auf einer echten Uhr, ausserhalb des Agenten. | Liest den Heartbeat-Zeitstempel. | Ist der Heartbeat älter als 20 Minuten, steckt der Agent fest. Stall-Warnung posten. Recovery-Hinweise an STEER.md anhängen, damit der Agent sie im nächsten Turn liest. |
Ein letztes Stück macht den Harness ehrlich: Jedes Erfolgskriterium startet als false, und der einzige Weg, es auf true zu kippen, ist frische Evidenz, die über das Read-Tool von Claude Code gelesen und von einem Hook validiert wird. Der Agent kann keinen Sieg aus dem Bauch heraus melden. Das ist der Default-FAIL-Vertrag.
Aufbauend auf
Aufbauend auf Anthropics Forschung, nicht auf einer klugen Idee.
Das Two-Pulse-Muster, die Generator/Evaluator-Schleife, die Hooks, die den Default-FAIL-Vertrag erzwingen — all das stammt aus Forschung und Referenzimplementierungen, die Anthropic veröffentlicht hat. Der AI-Heroes-Harness verpackt sie, fügt einen Stall-Detektor hinzu, pinnt den Codex-Executor und liefert das Ganze als ein installierbares Plugin.
Anthropic Engineering • November 2025
Effective harnesses for long-running agents
Die ursprüngliche Formulierung des Two-Pulse-Musters, des Heartbeats und warum event-getriebene Schleifen ihre eigenen stillen Ausfälle nicht erkennen können.
Read sourceAnthropic Engineering • März 2026
Harness design for long-running application development
Die Generator/Evaluator-Schleife, Scope-Policies für ehrliches Terminieren und wie man einen Harness entwirft, der weiss, wann er aufhören muss.
Read sourceAnthropic auf GitHub • Referenzimplementierung
anthropics/cwc-long-running-agents
Referenz-Hooks — track-read, verify-gate, kill-switch, steer, commit-on-stop — und der Evaluator-Agent. Der Harness erweitert diese direkt.
Read sourceAuf diesen Primitiven baut der AI-Heroes-Harness sieben Dinge auf, die die öffentliche Version nicht hat — vom äusseren 15-Minuten-Stall-Detektor bis zur vollständigen Flotten-Orchestrierung. Hier ist die Liste.
Vertiefung im AI-Heroes-Blog: Harness Design for Long-Running AI Applications — Inside Anthropic's Generator-Evaluator Pattern.
Was wir ergänzen
Was AI Heroes zu Anthropics Primitiven hinzufügt.
Anthropic hat die Grundlagen veröffentlicht. Wir haben Monate damit verbracht, daraus etwas zu machen, das du wirklich laufen lassen kannst — einen Agenten oder eine ganze Flotte — und dem du vertraust. Sieben Ergänzungen leisten die Hauptarbeit.
Ein 15-Minuten-Heartbeat-Watchdog
Ein zweiter Prozess wacht alle 15 Minuten auf und prüft, ob der Agent noch lebt. Ist er stillschweigend gestorben, erfährst du es in Minuten — nicht erst am nächsten Morgen.
Ein objektiver Reviewer-Agent
Ein separater Evaluator-Agent prüft die tatsächliche Arbeit und weigert sich, sie als fertig zu erklären, bevor sie das Ziel wirklich erfüllt. Der arbeitende Agent kann seine eigenen Hausaufgaben nicht selbst benoten.
Ein Recovery-Schritt für lange Sessions
Über Stunden driften Agenten ab und vergessen das Ziel. Ein Recovery-Schritt erdet den Agenten bei jedem Fortsetzen neu im ursprünglichen Ziel, damit er den Faden nicht verliert.
Computer Use, nicht nur Browser Use
Über die Standard-Browser-Fähigkeit hinaus kann der Agent den Computer direkt bedienen, um seine eigene Arbeit zu testen und die Schleife zu schliessen — er klickt sich durch das Gebaute, um zu bestätigen, dass das Ziel erreicht ist.
Claude Opus führt Regie, Codex führt aus
Ein Claude-Opus-Orchestrator besitzt das Urteil — Planung, Review, Verantwortung — und delegiert die schwere Ausführung an Codex-Agenten. Das richtige Modell für jede Aufgabe.
Flotten-Modus: ein Orchestrator, viele Agenten
Steuere einen einzelnen Agenten an einem Ziel, oder lass einen Opus eine ganze Flotte aus Claude- und Codex-Subagenten parallel führen — jeder in seinem eigenen isolierten Worktree, alle vom selben Heartbeat überwacht.
Discord als Operator-UX
Sprich mit deinen Agenten wie mit Teamkollegen über Discord — Ziele starten, mitten im Lauf steuern, Fortschritt verfolgen — statt auf ein Terminal zu starren, von dem du den Blick nicht abwenden kannst.
Sicherungen
Was hält einen Long-Running-Agenten in der Spur?
Einen Agenten stundenlang laufen zu lassen funktioniert nur, wenn du ihm zutraust, anzuhalten. Der Harness liefert vier Sicherungen standardmässig mit.
Default-FAIL-Vertrag
Jedes Ergebnis startet als false. Nur frische Evidenz, die über das Read-Tool gelesen und vom verify-gate-Hook validiert wurde, kann es auf true kippen. Der Agent kann nicht durch "fertig sagen" abschliessen — er muss seine Arbeit zeigen.
Anti-Runaway-Limit
Nach acht aufeinanderfolgenden Turns, in denen das Ziel noch nicht erreicht ist, darf der nächste Turn auch dann weiterlaufen, wenn Kriterien noch falsch sind. Das verhindert Endlosschleifen. Das Limit setzt sich zurück, wenn du steuerst.
Kill-Switch
Eine AGENT_STOP-Datei in den Workspace legen — der Harness stoppt die Schleife sauber am nächsten Turn. Kein Prozess-Kill, keine verwaisten Dateien.
Mid-Run-Steering
Schreibe in STEER.md, während der Agent läuft. Der nächste Turn liest es, justiert den Kurs und setzt den Anti-Runaway-Zähler zurück. Du bleibst in der Schleife, ohne sie neu zu starten.
Bestes Fit
Für welche Ziele eignet sich der Harness?
Der Harness funktioniert nur, wenn es einen echten Terminator gibt — ein programmatisches Gate, das "fertig" oder "nicht fertig" sagt, ohne menschliches Urteil. Wenn du dieses Gate nicht schreiben kannst, hat der Harness nichts, worauf er warten könnte.
| Goal type | Example |
|---|---|
| Engineering mit Test-Suite | Baue drei Next.js-Routen mit Playwright-Coverage; alle Tests grün. |
| Migrationen, geprüft per Build und Lint | Migriere alles auf next/image; npm run build läuft durch, null Lint-Warnungen. |
| Content-Batches mit Audit | Generiere fünf GEO-Blogartikel; jeder besteht geo-article-audit mit null FAILs. |
| Multi-Sprint-Produktarbeit | Liefere eine kostenlose Tool-Route; Lighthouse-Score über 90, keine Konsolenfehler. |
| Parallele Flotten-Arbeit | Baue vier Features gleichzeitig, jedes in seinem eigenen Worktree und an seiner eigenen Test-Suite geprüft — Opus integriert, der Evaluator reviewt, alle vier grün vor dem Merge. |
Kein Fit für
- Offene Denk-Übungen (kein Terminator).
- Einzelne Beurteilungen (keine Schleife).
- Subjektive Design-Verfeinerung (kein programmatisches Gate).
- Einmalige Recherche-Memos (keine Iteration).
Harness holen
Hol dir den GitHub-Link.
Trage deine E-Mail ein. Wir schicken dir den GitHub-Repository-Link, einen einseitigen Quickstart-Spickzettel und gelegentliche Updates, wenn der Harness sinnvoll erweitert wird.
Harness holen
Trage deine E-Mail ein, um den GitHub-Repository-Link und einen einseitigen Quickstart-Spickzettel für den Long-Running-Agent-Harness zu erhalten.
Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.
Installation
Wie installierst du den Harness in Claude Code?
Fünf Befehle. Etwa fünf Minuten. Jeder zustandsändernde Schritt schreibt ein Backup mit Zeitstempel, sodass jede Änderung umkehrbar ist.
Step 1 — In Claude-Code-Plugins klonen
cd "$HOME/.claude/plugins" && \
git clone https://github.com/mlobo2012/ai-heroes-long-running-agent-harness.git discord-long-running-harnessStep 2 — Für einen Launcher aktivieren (erst Dry-Run, dann --apply)
"$HOME/.claude/plugins/discord-long-running-harness/bin/enable-for-launcher.sh" --slug klaus
"$HOME/.claude/plugins/discord-long-running-harness/bin/enable-for-launcher.sh" --slug klaus --applyStep 3 — Codex-Executor-Modell pinnen
cat > "$HOME/.claude/codex-current-model.env" <<'ENV'
CODEX_MODEL=gpt-5.5
ENVStep 4 — Installation verifizieren
"$HOME/.claude/plugins/discord-long-running-harness/scripts/verify-install.sh" --scope coreStep 5 — Workspace bootstrappen und ein Ziel registrieren
scripts/init-workspace.sh "$HOME/path/to/workspace"
"$HOME/.claude/plugins/discord-long-running-harness/scripts/register-goal.sh" --agent klaus --channel <channel_id> --workspace "$HOME/path/to/workspace" --launcher "$HOME/.claude/channels/discord/start-klaus.sh" "Dein Zieltext hier"Füge den /goal-Befehl, den das register-goal-Skript ausgibt, in deine Claude-Code-Session ein. Ab da übernimmt der Harness.
FAQ
Häufige Fragen zum Long-Running-Agent-Harness
Ja. Apache-2.0, Open Source, gehostet auf GitHub. Es gibt keine Bezahlstufe und keine Lizenz zum Verhandeln. AI Heroes verdient Geld, wenn Teams das Setup und die Integration übernommen haben wollen, nicht am Code selbst.
Heute ja. Der Harness baut auf Claude Codes Hook-System, dem Read-Tool und den Turn-Boundary-Events auf. Das Two-Pulse-Muster ist prinzipiell portierbar, aber diese Implementierung hängt an Claude-Code-Primitiven.
Zwei Uhren. Der innere Pulse läuft an jeder Turn-Grenze innerhalb des Agenten und prüft, ob die Arbeit fertig ist. Der äussere Pulse läuft alle 15 Minuten auf einer echten Uhr und prüft, ob der innere Pulse noch lebt. Schreibt der innere Pulse keine Heartbeats mehr, alarmiert der äussere und schreibt Recovery-Hinweise, die der Agent als Nächstes liest.
Ja. Über den Einzelagenten-Modus hinaus kann ein Claude-Opus-Orchestrator eine Flotte aus Claude- und Codex-Subagenten steuern, die parallel arbeiten — jeder in seinem eigenen isolierten Git-Worktree, sodass sie nie kollidieren. Derselbe 15-Minuten-Heartbeat, derselbe objektive Evaluator-Agent und derselbe Kill-Switch überwachen jeden Agenten der Flotte gleichzeitig. Du fährst ein langes Ziel mit einem Agenten oder viele Spuren mit einem ganzen Team — auf demselben Steuerungssystem.
Ein Claude-Opus-Modell führt Regie — es besitzt die Planung, das Review und die Verantwortung dafür, ob das Ziel erreicht ist. Es delegiert die schwere Ausführung an Codex-Agenten, die schnell Code schreiben und ändern. Opus entscheidet, wie gut aussieht, und prüft das Ergebnis; Codex erledigt das Volumen. Du bekommst Senior-Urteilsvermögen über durchsatzstarker Ausführung, statt dass ein Modell beide Jobs gleichzeitig macht.
Jedes Erfolgskriterium startet als false. Der einzige Weg, ein Kriterium auf true zu kippen, ist frische Evidenz, die über das Read-Tool gelesen und vom verify-gate-Hook validiert wird. Das verhindert, dass der Agent ein Ziel als erledigt meldet, ohne seine Arbeit zu zeigen. Das ist die wichtigste Sicherung des Harness.
Ziele mit einem echten programmatischen Terminator. Engineering-Arbeit mit Test-Suite, Migrationen geprüft per Build und Lint, Content-Batches mit automatischem Audit, Multi-Sprint-Produktarbeit mit messbarem Erfolgs-Gate. Wenn du keinen Check schreiben kannst, der ohne Mensch true oder false zurückgibt, hat der Harness nichts, worauf er warten könnte.
Ja. Er erweitert Anthropics Primitive direkt — den Effective-harnesses-for-long-running-agents-Beitrag (November 2025), den Harness-design-for-long-running-application-development-Beitrag (März 2026) und das anthropics/cwc-long-running-agents-Referenzrepo. AI Heroes ergänzt den äusseren 15-Minuten-Stall-Detektor, einen gepinnten Codex-Executor und einen optionalen OpenClaw-Supervisor.
Ja. Der Harness ist kostenlos, aber ihn sauber zu installieren, in Claude-Code-Launchern zu verdrahten, die richtigen Ziele zu wählen und einen ersten End-to-End-Über-Nacht-Lauf zu fahren ist Arbeit, die die meisten Teams nicht selbst übernehmen wollen. Buche ein Gespräch von dieser Seite aus und wir schätzen es ein.
Lege eine AGENT_STOP-Datei in den Workspace. Der Harness stoppt sauber am nächsten Turn. Kein Prozess-Kill, keine verwaisten Dateien. Jede andere Operator-Steuerung — STEER.md fürs Mid-Run-Steering, das Heartbeat-Audit-Log, das Session-Ledger — steht in der README im Repository.
Beim ersten Mal sauber aufgesetzt haben?
Der Harness ist kostenlos. Hooks zu konfigurieren, Ziele zu wählen, die zum Default-FAIL-Vertrag passen, und einen ersten Über-Nacht-Lauf zu begleiten ist es nicht. AI Heroes macht das mit dir.
Audit your AI search visibility while we're at it. Visit Schmitdy.