Kostenlos und Open SourceApache-2.0 • Claude Code

Lass Claude-Agenten stundenlang laufen — einen Agenten oder eine ganze Flotte — ohne dass einer stillschweigend stirbt.

Ein Two-Pulse-Steuerungssystem für Claude Code mit objektivem Evaluator-Agenten, Recovery-Steering, Computer Use, Opus-steuert-Codex-Delegation, Flotten-Parallelität und Discord als Operator-UX. Aufbauend auf Anthropics veröffentlichter Forschung zu Long-Running-Agent-Harnesses.

Trage deine E-Mail unten ein, um den GitHub-Repository-Link und einen einseitigen Quickstart-Spickzettel zu erhalten.

Kurzfassung

Was das ist, in einfacher Sprache.

KI-Agenten, die stundenlang laufen, haben einen stillen Fehlermodus: Die Schleife weiß nur dann, dass sie weitermachen soll, wenn ein Turn endet. Wenn ein Turn nie endet — weil etwas hängt, ein Subagent eingefroren ist oder der Operator weggegangen ist — hat die Schleife keine Möglichkeit, das Schweigen zu bemerken. Du denkst, der Agent arbeitet noch. Er tut es nicht.

Dieser Harness fügt eine zweite Uhr ausserhalb des Agenten hinzu. Alle 15 Minuten liest sie einen Heartbeat, den der Agent eigentlich schreiben sollte. Wird der Heartbeat alt, postet sie eine Stall-Warnung und schreibt Recovery-Hinweise, die der Agent im nächsten Turn lesen wird.

Es funktioniert in zwei Modi. Steuere einen einzelnen Claude-Agenten an einem einzelnen langen Ziel. Oder lass einen Claude Opus eine Flotte aus Claude- und Codex-Subagenten orchestrieren, die parallel auf isolierten Worktrees arbeiten — und überwache jeden einzelnen mit demselben Heartbeat, demselben Evaluator und demselben Kill-Switch.

Das Ganze ist kostenlos, Open Source unter Apache-2.0 und liegt in einem GitHub-Repo. Es läuft auf Claude Code. Es basiert auf Anthropics eigener veröffentlichter Forschung zu Long-Running-Agent-Harnesses.

Das Problem

Warum Long-Running-Agenten still ausfallen.

Claude Code ist, wie die meisten Agent-Schleifen, event-getrieben. Es prüft nur an Turn-Grenzen, ob die Arbeit fertig ist — also genau dann, wenn das Modell zu Ende gesprochen hat. Das funktioniert gut, wenn Turns alle ein bis zwei Minuten passieren.

Bei einem Vier-Stunden-Ziel bricht die Annahme. Endet ein Turn nie, ist die Schleife tot — von aussen sieht sie aber genauso aus wie eine, die noch nachdenkt. Du merkst es erst am nächsten Morgen, dass der Agent um 23 Uhr stehen geblieben ist und die acht Stunden, die du nutzen wolltest, verloren sind.

Die Lösung ist strukturell: Du brauchst einen Watchdog ausserhalb des Agenten, der einen Heartbeat liest, den der Agent von innen schreibt. Genau das gibt dir der Harness, mit sinnvollen Defaults bereits verdrahtet.

So funktioniert es

Wie funktioniert der Long-Running-Agent-Harness wirklich?

Zwei Uhren. Die innere Uhr läuft im Tempo des Agenten. Die äussere Uhr läuft im Tempo der Wand.

PulseWhen it runsWhat it checksHow it reacts
Innerer PulseAn jeder Turn-Grenze innerhalb von Claude Code.Liest test-results.json. Prüft, ob jedes Kriterium wahr ist.Blockiert den Turn und führt die Schleife fort, wenn ein Kriterium falsch ist. Schreibt einen frischen Heartbeat-Zeitstempel.
Äusserer PulseAlle 15 Minuten auf einer echten Uhr, ausserhalb des Agenten.Liest den Heartbeat-Zeitstempel.Ist der Heartbeat älter als 20 Minuten, steckt der Agent fest. Stall-Warnung posten. Recovery-Hinweise an STEER.md anhängen, damit der Agent sie im nächsten Turn liest.

Ein letztes Stück macht den Harness ehrlich: Jedes Erfolgskriterium startet als false, und der einzige Weg, es auf true zu kippen, ist frische Evidenz, die über das Read-Tool von Claude Code gelesen und von einem Hook validiert wird. Der Agent kann keinen Sieg aus dem Bauch heraus melden. Das ist der Default-FAIL-Vertrag.

Aufbauend auf

Aufbauend auf Anthropics Forschung, nicht auf einer klugen Idee.

Das Two-Pulse-Muster, die Generator/Evaluator-Schleife, die Hooks, die den Default-FAIL-Vertrag erzwingen — all das stammt aus Forschung und Referenzimplementierungen, die Anthropic veröffentlicht hat. Der AI-Heroes-Harness verpackt sie, fügt einen Stall-Detektor hinzu, pinnt den Codex-Executor und liefert das Ganze als ein installierbares Plugin.

Auf diesen Primitiven baut der AI-Heroes-Harness sieben Dinge auf, die die öffentliche Version nicht hat — vom äusseren 15-Minuten-Stall-Detektor bis zur vollständigen Flotten-Orchestrierung. Hier ist die Liste.

Vertiefung im AI-Heroes-Blog: Harness Design for Long-Running AI Applications — Inside Anthropic's Generator-Evaluator Pattern.

Was wir ergänzen

Was AI Heroes zu Anthropics Primitiven hinzufügt.

Anthropic hat die Grundlagen veröffentlicht. Wir haben Monate damit verbracht, daraus etwas zu machen, das du wirklich laufen lassen kannst — einen Agenten oder eine ganze Flotte — und dem du vertraust. Sieben Ergänzungen leisten die Hauptarbeit.

1

Ein 15-Minuten-Heartbeat-Watchdog

Ein zweiter Prozess wacht alle 15 Minuten auf und prüft, ob der Agent noch lebt. Ist er stillschweigend gestorben, erfährst du es in Minuten — nicht erst am nächsten Morgen.

2

Ein objektiver Reviewer-Agent

Ein separater Evaluator-Agent prüft die tatsächliche Arbeit und weigert sich, sie als fertig zu erklären, bevor sie das Ziel wirklich erfüllt. Der arbeitende Agent kann seine eigenen Hausaufgaben nicht selbst benoten.

3

Ein Recovery-Schritt für lange Sessions

Über Stunden driften Agenten ab und vergessen das Ziel. Ein Recovery-Schritt erdet den Agenten bei jedem Fortsetzen neu im ursprünglichen Ziel, damit er den Faden nicht verliert.

4

Computer Use, nicht nur Browser Use

Über die Standard-Browser-Fähigkeit hinaus kann der Agent den Computer direkt bedienen, um seine eigene Arbeit zu testen und die Schleife zu schliessen — er klickt sich durch das Gebaute, um zu bestätigen, dass das Ziel erreicht ist.

5

Claude Opus führt Regie, Codex führt aus

Ein Claude-Opus-Orchestrator besitzt das Urteil — Planung, Review, Verantwortung — und delegiert die schwere Ausführung an Codex-Agenten. Das richtige Modell für jede Aufgabe.

6

Flotten-Modus: ein Orchestrator, viele Agenten

Steuere einen einzelnen Agenten an einem Ziel, oder lass einen Opus eine ganze Flotte aus Claude- und Codex-Subagenten parallel führen — jeder in seinem eigenen isolierten Worktree, alle vom selben Heartbeat überwacht.

7

Discord als Operator-UX

Sprich mit deinen Agenten wie mit Teamkollegen über Discord — Ziele starten, mitten im Lauf steuern, Fortschritt verfolgen — statt auf ein Terminal zu starren, von dem du den Blick nicht abwenden kannst.

Sicherungen

Was hält einen Long-Running-Agenten in der Spur?

Einen Agenten stundenlang laufen zu lassen funktioniert nur, wenn du ihm zutraust, anzuhalten. Der Harness liefert vier Sicherungen standardmässig mit.

Default-FAIL-Vertrag

Jedes Ergebnis startet als false. Nur frische Evidenz, die über das Read-Tool gelesen und vom verify-gate-Hook validiert wurde, kann es auf true kippen. Der Agent kann nicht durch "fertig sagen" abschliessen — er muss seine Arbeit zeigen.

Anti-Runaway-Limit

Nach acht aufeinanderfolgenden Turns, in denen das Ziel noch nicht erreicht ist, darf der nächste Turn auch dann weiterlaufen, wenn Kriterien noch falsch sind. Das verhindert Endlosschleifen. Das Limit setzt sich zurück, wenn du steuerst.

Kill-Switch

Eine AGENT_STOP-Datei in den Workspace legen — der Harness stoppt die Schleife sauber am nächsten Turn. Kein Prozess-Kill, keine verwaisten Dateien.

Mid-Run-Steering

Schreibe in STEER.md, während der Agent läuft. Der nächste Turn liest es, justiert den Kurs und setzt den Anti-Runaway-Zähler zurück. Du bleibst in der Schleife, ohne sie neu zu starten.

Bestes Fit

Für welche Ziele eignet sich der Harness?

Der Harness funktioniert nur, wenn es einen echten Terminator gibt — ein programmatisches Gate, das "fertig" oder "nicht fertig" sagt, ohne menschliches Urteil. Wenn du dieses Gate nicht schreiben kannst, hat der Harness nichts, worauf er warten könnte.

Goal typeExample
Engineering mit Test-SuiteBaue drei Next.js-Routen mit Playwright-Coverage; alle Tests grün.
Migrationen, geprüft per Build und LintMigriere alles auf next/image; npm run build läuft durch, null Lint-Warnungen.
Content-Batches mit AuditGeneriere fünf GEO-Blogartikel; jeder besteht geo-article-audit mit null FAILs.
Multi-Sprint-ProduktarbeitLiefere eine kostenlose Tool-Route; Lighthouse-Score über 90, keine Konsolenfehler.
Parallele Flotten-ArbeitBaue vier Features gleichzeitig, jedes in seinem eigenen Worktree und an seiner eigenen Test-Suite geprüft — Opus integriert, der Evaluator reviewt, alle vier grün vor dem Merge.

Kein Fit für

  • Offene Denk-Übungen (kein Terminator).
  • Einzelne Beurteilungen (keine Schleife).
  • Subjektive Design-Verfeinerung (kein programmatisches Gate).
  • Einmalige Recherche-Memos (keine Iteration).

Harness holen

Hol dir den GitHub-Link.

Trage deine E-Mail ein. Wir schicken dir den GitHub-Repository-Link, einen einseitigen Quickstart-Spickzettel und gelegentliche Updates, wenn der Harness sinnvoll erweitert wird.

Harness holen

Trage deine E-Mail ein, um den GitHub-Repository-Link und einen einseitigen Quickstart-Spickzettel für den Long-Running-Agent-Harness zu erhalten.

Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.

Installation

Wie installierst du den Harness in Claude Code?

Fünf Befehle. Etwa fünf Minuten. Jeder zustandsändernde Schritt schreibt ein Backup mit Zeitstempel, sodass jede Änderung umkehrbar ist.

Step 1In Claude-Code-Plugins klonen

cd "$HOME/.claude/plugins" && \
  git clone https://github.com/mlobo2012/ai-heroes-long-running-agent-harness.git discord-long-running-harness

Step 2Für einen Launcher aktivieren (erst Dry-Run, dann --apply)

"$HOME/.claude/plugins/discord-long-running-harness/bin/enable-for-launcher.sh" --slug klaus
"$HOME/.claude/plugins/discord-long-running-harness/bin/enable-for-launcher.sh" --slug klaus --apply

Step 3Codex-Executor-Modell pinnen

cat > "$HOME/.claude/codex-current-model.env" <<'ENV'
CODEX_MODEL=gpt-5.5
ENV

Step 4Installation verifizieren

"$HOME/.claude/plugins/discord-long-running-harness/scripts/verify-install.sh" --scope core

Step 5Workspace bootstrappen und ein Ziel registrieren

scripts/init-workspace.sh "$HOME/path/to/workspace"
"$HOME/.claude/plugins/discord-long-running-harness/scripts/register-goal.sh" --agent klaus --channel <channel_id> --workspace "$HOME/path/to/workspace" --launcher "$HOME/.claude/channels/discord/start-klaus.sh" "Dein Zieltext hier"

Füge den /goal-Befehl, den das register-goal-Skript ausgibt, in deine Claude-Code-Session ein. Ab da übernimmt der Harness.

FAQ

Häufige Fragen zum Long-Running-Agent-Harness

Ja. Apache-2.0, Open Source, gehostet auf GitHub. Es gibt keine Bezahlstufe und keine Lizenz zum Verhandeln. AI Heroes verdient Geld, wenn Teams das Setup und die Integration übernommen haben wollen, nicht am Code selbst.

Heute ja. Der Harness baut auf Claude Codes Hook-System, dem Read-Tool und den Turn-Boundary-Events auf. Das Two-Pulse-Muster ist prinzipiell portierbar, aber diese Implementierung hängt an Claude-Code-Primitiven.

Beim ersten Mal sauber aufgesetzt haben?

Der Harness ist kostenlos. Hooks zu konfigurieren, Ziele zu wählen, die zum Default-FAIL-Vertrag passen, und einen ersten Über-Nacht-Lauf zu begleiten ist es nicht. AI Heroes macht das mit dir.

Audit your AI search visibility while we're at it. Visit Schmitdy.