Kostenlos & Open Source

Dein PM-Loop, eigenständig laufend — mit Evidenz

Anthropics Product-Management-Plugin ist ein brillanter Berater. Es entwirft Specs, prüft Metriken und sammelt Ideen — und wartet dann darauf, dass du handelst. Dieses Plugin übernimmt das Handeln: Es bewegt die Linear-Karte, argumentiert gegen die Spec, die es gerade geschrieben hat, merkt sich, ob die Wette aus dem letzten Quartal tatsächlich funktioniert hat, und unterbricht dich nur, wenn eine Entscheidung wirklich irreversibel ist.

Direkt auf Anthropics offiziellem Product-Management-Plugin aufgebaut. Die 7 übernommenen PM-Skills funktionieren ab Tag eins. Always-on unbeaufsichtigter Betrieb — geplante Signal-Pulls, autonome Schreibzugriffe in deine Tools — wird aktiv, wenn du deine eigenen Linear-, Notion- oder Amplitude-Connectoren verbindest. Dies ist ein funktionierendes Multi-Agent-PM-System mit einer realen Enforcement-Schicht, das du heute ausführen kannst; es ist keine Zero-Setup-Vollautonomie out of the box.

Warum die meisten KI-PM-Tools schneller das Falsche shippen

Jeder dokumentierte KI-PM-Fehler folgt demselben Muster: Das Modell schrieb eine selbstsichere Spec, nichts argumentierte dagegen, niemand prüfte, ob das Ausgelieferte genutzt wurde, und das Team shippte das Falsche effizienter als zuvor. Pendos Daten zeigen, dass 80% der Features selten oder nie genutzt werden. Kohavis Microsoft-Daten zeigen, dass nur ungefähr ein Drittel expertendesignter Wetten die Zielmetrik tatsächlich bewegt. Cemri et al. fanden, dass naive Multi-Agent-Systeme in 41–86% der Fälle scheitern. Der Fehler ist nie das Modell — es ist das Fehlen eines Gates, eines Adversary und eines geschlossenen Loops.

Wie KI-PM-Tools in Produktion brechen

  • Der Assistent schreibt einen selbstsicheren RICE-Score aus Zahlen, die ein Stakeholder behauptet hat. Niemand kann nachvollziehen, warum dieses Item oben im Backlog steht.
  • Eine Spec wird geschrieben. Nichts argumentiert, dass sie scheitern wird. Der Build wird ausgeliefert. Sechs Monate später liegt Adoption bei 3% des Ziels und es gibt keinen Record der ursprünglichen Prognose.
  • Metriken werden geprüft, wenn jemand daran denkt, den Befehl auszuführen — nicht wenn eine Roadmap-Annahme gerade durch die Daten der letzten Woche falsifiziert wurde.
  • Eine autonome Aktion läuft in einem Live-System. Niemand weiß, auf welcher Evidenz sie beruhte oder wie die dissenting view lautete.

Wie dieses Plugin anders konstruiert ist

  • Jeder Prioritätsscore, jedes Spec-Verdict und jede Launch-Entscheidung muss einen realen Evidence-Store-Eintrag zitieren — oder wird auf Hook-Ebene blockiert, nicht abgeschwächt.
  • Vier adversarial Verifier stehen strukturell gegen die Agenten, die selbstsichere Outputs erzeugen. Sie können nicht übersprungen werden, um einen Termin zu halten.
  • Jede ausgelieferte Wette registriert ihre vorhergesagte Metrik und ihr Ziel vorab. Ein Victory-Bias Auditor macht 'success' im Code unmöglich, wenn diese vorab registrierte Hürde nicht erreicht wurde.
  • Signal-Ingestion läuft nach Zeitplan, nicht auf Abruf. Der Drift Sentinel markiert falsifizierte Annahmen proaktiv — vor dem nächsten Quartalsreview.

Eine Produktwette, vom Signal bis zum Verdict — kein PM-Loop nötig

So läuft es tatsächlich ab, wenn ein neues Signal auftaucht. Folge ihm durch alle fünf Pods. Die Gates sind keine Vorschläge — sie blockieren oder eskalieren.

  1. 1

    Sense — Signal Ingestor + Drift Sentinel (Pod 2)

    Der geplante Pull des Signal Ingestor nimmt neue Kundentickets, Analytics-Bewegungen, Call-Transkripte und Wettbewerbsänderungen in den Evidence Store auf — jeder Datensatz mit Source URI, Capture Timestamp und Strength Rating. Der Drift Sentinel vergleicht das frische Signal mit deinen Strategiedokumenten und setzt ein Flag, wenn einer Roadmap-Annahme widersprochen wird, wobei sowohl die stehende Behauptung als auch die Gegenevidenz zitiert werden. Ohne beide Seiten darf kein Flag entstehen.

  2. 2

    Decide — Evidence Librarian + Prioritization Analyst + Evidence Adversary (Pod 1)

    Der Evidence Librarian löst jeden Backlog-Kandidaten auf seine stützenden Evidenzeinträge auf. Der Prioritization Analyst schlägt RICE-Scores vor, bei denen jede Komponente echte Evidenz-IDs zitiert — ein Confidence-Score ohne verknüpften Datensatz wird automatisch geklemmt. Danach läuft der Evidence Adversary gegen die Top-Items: Er muss ein disconfirming signal finden oder bestätigen, dass keines existiert. Jede Repriorisierung oberhalb der Reversibilitätsschwelle stoppt für menschliches Review — 20 Sekunden, vollständiger Widerspruch sichtbar.

  3. 3

    De-Risk — Spec Author + Assumption Mapper + Pre-Mortem Red Team + Discovery Runner (Pod 3)

    Der Spec Author entwirft die PRD. Der Assumption Mapper extrahiert jede tragende Annahme und trägt sie auf einer Risiko-gegen-Evidenz-Karte ein. Das Pre-Mortem Red Team nimmt an, dass das Feature bereits ausgeliefert wurde und gescheitert ist — es muss den stärksten disconfirming case und das günstigste Experiment liefern, um die riskanteste, am schwächsten belegte Annahme zuerst zu töten. Das Build-Epic in deinem Tracker ist am assumption-status gegatet. Der Discovery Runner startet den Test. Der Mensch ist immer der finale Ship-Gate-Approver und sieht den Kill-Case des Red Teams, bevor er approve klickt.

  4. 4

    Learn — Launch Tracker + Adoption Auditor + Outcome Adjudicator + Victory-Bias Auditor (Pod 4)

    Beim Shippen registriert der Launch Tracker die prognostizierte Metrik, das Ziel und das Entscheidungsdatum vorab. Am Entscheidungsdatum zieht der Adoption Auditor die Ist-Werte aus deinen Analytics. Der Outcome Adjudicator entscheidet iterate / hold / double-down / kill mit zitierter Abweichung. Der Victory-Bias Auditor prüft gegen das vorab registrierte Ziel — nicht gegen eine nachträgliche Umdefinition. Ein 'success'-Verdict ist im Code mechanisch unmöglich, wenn die tatsächliche Metrik das ursprüngliche Ziel nicht erreicht hat. Gescheiterte Wetten werden als Evidenzeinträge zurückgeschrieben und speisen die nächsten Prioritization- und Drift-Zyklen.

  5. 5

    Align — Alignment Broadcaster + Escalation Router + Consensus Checker (Pod 5)

    Jede autonome Entscheidung erzeugt ein zielgruppenspezifisches Update mit Evidenz-IDs und dem Widerspruch des Adversary. Der Escalation Router klassifiziert jede Entscheidung nach Reversibilität und Blast Radius — die seltene strategische Entscheidung geht als entscheidungsfertiges Briefing mit Deadline an den Menschen; alles Reversible und Vertrauenswürdige läuft ohne Unterbrechung. Der Consensus Checker scannt kontinuierlich nach Konflikten zwischen Pods oder gegen stehende Commitments — jeder offene Konflikt blockiert die Entscheidung, bis er aufgelöst ist.

Sechs Dinge, die das System kann und ein PM-Assistent nicht

Siebzehn spezialisierte Agenten in fünf Pods. Vier davon — Evidence Adversary, Pre-Mortem Red Team, Victory-Bias Auditor und Consensus Checker — haben nur einen Zweck: eine selbstsicher falsche Entscheidung zu blockieren, bevor sie zu einem ausgelieferten Feature wird, das niemand nutzt.

📥

Handelt in deinen Tools — mit gegatetem WRITE/ACT

Agenten arbeiten über deine Connector-MCPs: Linear oder Jira für die Roadmap, Notion für Wissen, Amplitude oder Pendo für Metriken, Slack für Broadcasts. Zwei Hooks — evidence-gate.sh und human-escalation.sh — entscheiden, ob eine Aktion automatisch weiterlaufen darf oder für menschliche Freigabe stoppen muss. Beispiel: 'Repriorisiere mein Backlog aus den Signalen dieser Woche' bewegt tatsächlich die Linear-Karten, öffnet das Investigation-Ticket und postet das Slack-Update — wenn die Aktion reversibel und gut belegt ist.

🔎

Evidenzsubstrat — keine Behauptung ohne Zitat

lib/evidence.py zeichnet jeden quellenbelegten Evidenzeintrag auf. hooks/evidence-gate.sh blockiert jeden Prioritätsscore, jedes Spec-Verdict und jede Launch-Entscheidung, die keinen realen Evidenzeintrag zitiert. Es gibt keinen weichen Pfad — fehlende Zitate führen zu einem harten Block, nicht zu einer Warnung. Beispiel: HiPPO stirbt hier. Nichts wird priorisiert, 'weil der CEO gefragt hat'; es zitiert eine Metrik, einen Ticket-Cluster oder ein Transkript, oder es wird am Gate abgewiesen.

🛡️

4 adversarial Verifier, die gegen die selbstsichere Entscheidung argumentieren

Vier Verifier — Evidence Adversary, Pre-Mortem Red Team, Victory-Bias Auditor und Consensus Checker — sitzen dort, wo selbstsichere Fehler am teuersten sind. lib/launch.py macht ein 'validated'-Ergebnis mechanisch unmöglich, solange die tatsächliche Metrik das vorab registrierte Ziel nicht erreicht. Beispiel: 'Spec out SSO' liefert den stärksten Fall, warum es floppen wird, plus den günstigsten Test, um das Risiko zuerst zu töten, bevor Engineering auch nur einen Sprint bindet.

🔁

Always-on Sensing plus zweiseitige Drift-Erkennung

Ein Signal Ingestor läuft nach Zeitplan, nicht auf Abruf. Ein Drift Sentinel nutzt die zweiseitige Regel aus lib/drift.py: Er darf eine Roadmap-Annahme nicht als contradicted markieren, ohne sowohl die dokumentierte Behauptung als auch das Gegensignal zu haben — das verhindert halluzinierte Drift. Beispiel: 'Welche Roadmap-Annahmen haben die Daten der letzten zwei Wochen gerade falsifiziert?' wird proaktiv gepusht, statt auf das Quartalsreview zu warten.

📚

Geschlossener Loop mit Gedächtnis — Wetten, Ist-Werte, Verdicts

Ein Launch Tracker registriert Erfolgsmetrik und Entscheidungsdatum beim Shippen vorab. Ein Adoption Auditor zieht die Ist-Werte am Entscheidungsdatum. Ein Outcome Adjudicator schreibt das nächste Iterate-Ticket, Hold-Signal oder die Sunset-Empfehlung — mit zitierter Ist-vs-Ziel-Abweichung. Beispiel: 'Wurde das, was wir letztes Quartal ausgeliefert haben, angenommen, und was sollten wir streichen?' wird zu einer normalen Betriebsfrage mit Evidenzspur — nicht zu einer Quartalsretro, die du erst terminieren musst.

📊

Kalibrierte Grenze für menschliche Eskalation

lib/escalation.py klassifiziert jede Aktion nach Reversibilität, Blast Radius, Confidence und Agentenwiderspruch. hooks/human-escalation.sh blockiert jede Auto-Aktion, die den Eskalationsschwellenwert trifft. Jede autonome Entscheidung wird mit Evidenz-IDs und Widerspruch vollständig auditierbar geloggt. Beispiel: Du beobachtest ein Dashboard und wirst nur für die seltene Entscheidung gepingt — 'dieses Live-Feature killen?' oder 'diese Repriorisierung überschreiben?' — nicht 'welchen Wettbewerber soll ich analysieren?'

Auf Anthropics offiziellem Product-Management-Plugin aufgebaut

Dieses Plugin beginnt dort, wo Anthropics offizielles Product-Management-Plugin aufhört — es ersetzt es nicht. Anthropic liefert sieben sauber ausgearbeitete PM-Skills. Sie sind das Fundament. Jeder Skill, jeder Befehl und jedes PM-Framework bleibt intakt. Was dieses Plugin ergänzt, ist die autonome Betriebsschicht, die das Original bewusst dem Builder überlässt: das Recht, in deinen Systemen zu handeln, ein Team querprüfender Agenten, ein Evidenzsubstrat und vier adversarial Verifier, die widersprechen. Hier ist genau, was Anthropics Plugin in jedem Bereich leistet und was die autonome Schicht daraus macht.

Anthropics offizielles Product-Management-Plugin auf GitHub ansehen

Spec Writing — /write-spec

Out of the box

Du führst /write-spec mit einem Problem oder einer Idee aus. Der Skill entwirft eine klare PRD: Anforderungen, Scope, Erfolgsmetriken und offene Fragen. Am Ende fragt er: 'Soll ich einen Edge-Case-Abschnitt ergänzen? Soll ich das für Engineering zuschneiden?'

With the autonomous agents

Der Spec Author entwirft weiterhin die PRD. Danach extrahiert ein Assumption Mapper jede tragende Annahme und markiert sie nach Evidenzstärke. Ein Pre-Mortem Red Team nimmt dann an, dass das Feature bereits ausgeliefert wurde und gescheitert ist — und benennt den günstigsten Test, um die riskanteste Annahme mit der schwächsten Evidenz zuerst zu töten. Das Build-Ticket in deinem Tracker bleibt gesperrt, bis dieser Test läuft oder bereits starke Evidenz vorliegt.

Roadmap Update — /roadmap-update

Out of the box

Du führst /roadmap-update aus. Der Skill hilft, eine Roadmap mit vertrauten Planungsformaten zu erstellen, zu aktualisieren oder neu zu priorisieren. Du lieferst den Kontext; er formatiert das Ergebnis und fragt, ob du Timelines anpassen oder eine Executive Summary ergänzen willst.

With the autonomous agents

Ein Prioritization Analyst leitet RICE-Scores aus deinen echten Analytics, Ticket-Clustern und Research-Transkripten ab — jede Komponente muss einen Evidence-Store-Eintrag zitieren, sonst wird sie automatisch auf den Bodenwert geklemmt. Ein Evidence Adversary läuft anschließend gegen die Top-Items: Er muss ein widersprechendes Signal finden oder bestätigen, dass keines existiert. Wenn die Repriorisierung ein zugesagtes Item bewegt, erhält der Mensch 20 Sekunden Review mit vollständigem Widerspruch vor sich.

Metrics Review — /metrics-review

Out of the box

Du führst /metrics-review aus. Der Skill liest deine verbundenen Analytics, zeigt Trends, markiert Bewegungen und endet mit vorgeschlagenen Follow-up-Aktionen — eine einmalige Scorecard, die du liest und dann entscheidest, was damit passiert.

With the autonomous agents

Ein Signal Ingestor zieht Metriken nach Zeitplan — nicht auf Abruf. Ein Drift Sentinel vergleicht das Live-Signal mit deinen Strategiedokumenten und markiert, wenn eine Roadmap-Annahme widersprochen wird. Ein Adoption Auditor vergleicht danach jedes ausgelieferte Feature zum Entscheidungsdatum mit seiner vorab registrierten Erfolgsmetrik. Ein Victory-Bias Auditor blockiert jedes 'Erfolg'-Urteil, das das ursprüngliche Ziel nicht erreicht hat — Goalpost-Moving ist im Code unmöglich.

Research Synthesis — /synthesize-research

Out of the box

Du führst /synthesize-research mit Interviews, Umfragen, Tickets und Notizen aus. Der Skill verwandelt Rohmaterial in Themen, Personas und Chancen — ein strukturiertes Synthesedokument, bereit für eine Planungssitzung.

With the autonomous agents

Ein Signal Ingestor nimmt kontinuierlich Kundenanrufe, Support-Tickets und Wettbewerbssignale in einen gemeinsamen Evidence Store auf — nicht erst, wenn du daran denkst zu fragen. Ein Synthesis Editor schreibt den wöchentlichen Digest und das Drift-Log. Der Drift Sentinel vergleicht neue Evidenz mit bestehenden Persona- und Annahmedokumenten und setzt ein 'contradicted'-Flag, das sowohl die Behauptung als auch das Gegensignal zitiert, wenn sich die Realität verschoben hat.

Competitive Brief — /competitive-brief

Out of the box

Du führst /competitive-brief aus. Der Skill erstellt ein Wettbewerbsbriefing mit Feature-Vergleichen, Positionierungslücken und strategischen Implikationen — ein poliertes Dokument, das ausgelöst wird, wenn ein Wettbewerber etwas ausliefert oder ein Sales-Call eine Lücke zeigt.

With the autonomous agents

Wettbewerbssignal wird zu einer stehenden Monitor-Lane im Signal Ingestor, die nach Zeitplan zitierte Wettbewerbsevidenz schreibt. Wenn ein Wettbewerber ein Feature ausliefert, das einer Roadmap-Annahme direkt widerspricht, markiert der Drift Sentinel es proaktiv — nicht erst, wenn jemand den Befehl erneut ausführt.

Stakeholder Update — /stakeholder-update

Out of the box

Du führst /stakeholder-update nach einer Entscheidung aus. Der Skill entwirft zielgruppenspezifische Updates für Executives, Engineering, Kunden oder cross-funktionale Partner — ein Dokument, das du prüfst und sendest, wenn du daran denkst.

With the autonomous agents

Ein Alignment Broadcaster feuert automatisch bei jeder autonomen Entscheidung — Repriorisierung, Ship-Gate-Block, Launch-Verdict — und hängt Evidenz-IDs sowie den Widerspruch des Adversary an. Ein Escalation Router klassifiziert Aktionen nach Reversibilität und Blast Radius und leitet nur die seltene strategische Entscheidung an den Menschen weiter, verpackt als entscheidungsfertiges Briefing. Ein Consensus Checker blockiert jede Entscheidung, solange zwei Pods im Konflikt stehen.

Brainstorm — /brainstorm

Out of the box

Du führst /brainstorm aus, um Produktideen zu stress-testen, Problemräume zu erkunden und Optionen zu generieren — eine Thinking-Partner-Sitzung, die divergiert und dir die Optionen zurückgibt.

With the autonomous agents

Divergentes Brainstorming bleibt erhalten und wird nun mit adversarial Convergence kombiniert: Die generative Hälfte des Pre-Mortem Red Teams produziert den stärksten Gegenfall zur gewählten Option und den günstigsten Test, um die riskanteste Annahme zu töten. Das Ergebnis ist eine Spec mit angehängtem Testplan, keine Ideenliste.

Ist das das richtige Tool?

Am besten geeignet

  • PMs, Gründer und Product Operators, die bereits in Claude Code oder Cowork arbeiten, in Linear, Notion, Amplitude und Intercom leben und einen PM-Loop beaufsichtigen möchten, statt ihn manuell auszuführen
  • Teams, bei denen HiPPO oder meinungsgetriebene Priorisierung wiederholt ein Problem ist und evidenzbasiertes Backlog Management das Ziel ist
  • Produktorganisationen, die Features shippen, die ungenutzt bleiben, und einen strukturellen Closed Loop wollen — vorab registrierte Prognosen, Ist-Werte am Entscheidungsdatum, Verdicts zurück in den Tracker
  • Teams, die Anthropics Product-Management-Plugin bereits nutzen und die autonome Betriebsschicht ergänzen möchten, ohne zu ersetzen, was funktioniert

Nicht die richtige Lösung

  • Teams ohne verbundene Analytics, Projekttracker oder Wissensbasis — Evidence Gate und Drift Detection brauchen Sources of Truth; ohne sie schlagen Agenten hauptsächlich vor und der autonome Nutzen ist begrenzt
  • Alle, die eine vollständig automatisierte PM-Funktion ohne menschliches Review wollen — dieses System ist für ein Mensch-beobachtet-Kennzahlen-Modell gebaut; irreversible Entscheidungen erfordern immer einen Menschen
  • Teams, die ein eigenständiges gehostetes SaaS-PM-Tool suchen — dieses läuft in Claude Code oder Cowork, nicht als unabhängiges Produkt

Von der Installation zum ersten autonomen PM-Zyklus in vier Schritten

  1. 1In Claude Code oder Cowork mit zwei Befehlen installieren — unter zwei Minuten
  2. 2Deinen bestehenden Stack verbinden: Linear oder Jira, Notion, Amplitude oder Pendo, Intercom und Slack
  3. 3/pm-cycle gegen dein aktuelles Backlog ausführen — beobachte Evidence Gate, Adversaries und Eskalationslogik mit echten Daten im propose-only-Modus
  4. 4WRITE/ACT-Lanes einzeln einschalten, während die Catch Rate des Adversary Vertrauen aufbaut. Der Mensch übernimmt die seltene strategische Entscheidung; die Agenten erledigen den Rest

Mit einem Pod starten. Dem Evidence Gate beim Arbeiten zusehen.

Zwei Befehle zur Installation. Jede Lane startet im propose-only-Modus — kein autonomer Schreibzugriff, bis du entscheidest, dass sie bereit ist. Kostenlos, Open Source und auf Anthropics offizieller Product-Management-Plugin-Grundlage aufgebaut.

Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.

Schritt für Schritt: Plugin installieren

1

Plugin-Quelle hinzufügen

Führe in Claude Code oder Cowork aus: claude plugin marketplace add mlobo2012/autonomous-pm-plugin — das registriert das Repository als vertrauenswürdige Plugin-Quelle.

2

Plugin installieren

Führe aus: claude plugin install autonomous-pm — Claude lädt 17 spezialisierte Agentendefinitionen, 6 Pod-Skills, 6 Driver Commands, die deterministische Enforcement-Schicht (4 Python-Module) und 2 Enforcement Hooks.

3

Deine Systeme verbinden

Öffne .mcp.json und authentifiziere deinen Projekttracker (Linear, Jira, Asana), deine Wissensbasis (Notion), Product Analytics (Amplitude, Pendo), Kundenfeedback (Intercom), Meeting-Transkription (Fireflies) und Team Chat (Slack). Jede Kategorie hat einen Connector Slot — bring deinen eigenen mit, wenn dein Tool nicht gelistet ist.

4

Im propose-only-Modus starten

Führe /pm-cycle aus. Jeder Pod läuft standardmäßig propose-only — Agenten entwerfen Outputs, öffnen Investigation Tickets als Kommentare und markieren Eskalationen, aber es passieren noch keine autonomen Writes. Beobachte die neun Dashboard-Signale und bestätige, dass Evidence Gate und Adversaries auf dein Backlog kalibriert sind.

5

WRITE/ACT-Lanes einschalten, wenn Vertrauen entsteht

Sobald adversary catch rate und escalation precision im gesunden Bereich liegen, aktivierst du reversible WRITE/ACT-Operationen pro Pod. Die Enforcement Hooks bleiben in jeder Phase aktiv. Jede Lane hat einen Kill-Switch, der sie ohne Systemausfall zurück in propose-only setzt.

Häufige Fragen

Anthropics Plugin ist ein ausgezeichneter Ausgangspunkt — sieben sauber ausgearbeitete PM-Skills für Spec Writing, Roadmap Planning, Stakeholder Updates, Research Synthesis, Competitive Briefs, Metrics Review und Brainstorming, die dieses Plugin alle als Fundament beibehält. Das Original ist ein PM-Berater: Jeder Skill endet mit einer Frage, es berührt deine Systeme nur lesend, und ein Mensch führt weiterhin jede Aktion aus. Dieses Plugin ergänzt darauf die autonome Betriebsschicht: 17 benannte Agenten in 5 Pods, einen gemeinsamen Evidence Store, in dem jede Behauptung einen realen Eintrag zitieren muss oder blockiert wird, vier adversarial Verifier mit Halte- und Eskalationsbefugnis und einen geschlossenen Loop, der Launch-Prognosen vorab registriert und prüft, ob sie eingetroffen sind. Mehr Details im Abschnitt 'Auf Anthropics Plugin aufgebaut' oben.

Nur innerhalb der Gates — und die Gates sind deterministischer Code, keine Vorschläge. hooks/evidence-gate.sh blockiert jeden Prioritätsscore, jedes Spec-Verdict und jede Launch-Entscheidung, die keinen realen Evidenzeintrag zitiert. hooks/human-escalation.sh blockiert jede Agentenaktion, die als irreversibel, mit hohem Blast Radius, Low Confidence oder von einem anderen Agenten angefochten klassifiziert wird. Irreversible und kundenwirksame Aktionen — Pricing, Billing, Datenlöschung, das Killen eines Live-Features — sind im Code hart gestoppt, unabhängig vom Confidence Score. Jede autonome Aktion wird mit Evidenz-IDs und Widerspruch des Adversary geloggt, sodass 'warum hat das System das getan?' immer beantwortbar bleibt. Der Research-Anker: Cemri et al. (arXiv:2503.13657) fanden, dass naive Multi-Agent-Systeme in 41–86% der Fälle scheitern; die Enforcement-Schicht ist die Gegenmaßnahme.

Quellen & Research

Jede Designentscheidung in diesem Plugin ist in einer dokumentierten, verifizierbaren Studie, einem Datensatz oder einem maßgeblichen Framework verankert — auf dieser Seite inline zitiert. Zuletzt geprüft am 2026-05-24.

Pendo — 2019 Feature Adoption Report (80% der Features selten oder nie genutzt)

Pendos anonymisierter Datensatz über Hunderte B2B- und B2C-Produkte fand, dass 80% der Features selten oder nie genutzt werden und ungefähr 12% der Features 80% der täglichen Nutzung treiben. Das darin dokumentierte Build-Trap-Muster ist die Hauptmotivation für das vorab registrierte Launch Tracking des Closed-Loop-Pods und den Victory-Bias Auditor. Quellen: https://www.pendo.io/resources/the-2019-feature-adoption-report/ und Berichterstattung unter https://wraltechwire.com/2020/01/28/pendo-study-with-80-of-features-not-used-software-execs-re-evaluating-success-metrics/

View source ↗

Standish Group CHAOS — 64% der Features selten oder nie genutzt

Die Standish-CHAOS-Daten, aggregiert von Ant Murphy, fanden 45% nie genutzte und 19% selten genutzte Features — insgesamt 64%. Das bestätigt die Pendo-Zahl mit einer separaten Methodik und ist der zweite Anker für die Messung des Feature-Factory-Failure-Mode, den der Closed-Loop-Pod schließen soll. Quelle: https://www.antmurphy.me/newsletter/why-you-should-remove-features

View source ↗

Kohavi et al. — Online Experimentation at Microsoft (ca. 1/3 der Experimente verbessert die Metrik)

Ronny Kohavis Microsoft-Experimentationsdaten, veröffentlicht in 'Online Experimentation at Microsoft', zeigen, dass von gut designten und gut ausgeführten Experimenten, die eine Kernmetrik bewegen sollen, nur ungefähr ein Drittel diese Metrik tatsächlich verbessert — ungefähr ein Drittel bewirkt nichts und ein Drittel verschlechtert sie. Das ist die primäre Evidenz dafür, dass selbstsichere PRDs eher falsch als richtig sind, und die direkte Begründung für das Pre-Mortem Ship-Gate und das Evidence Gate, das Zitate für jede Prioritätsbehauptung verlangt. Quellen: https://exp-platform.com/Documents/ExP_DMCaseStudies.pdf und O'Reilly-Zusammenfassung unter https://www.oreilly.com/radar/the-sobering-truth-about-the-impact-of-your-business-ideas/

View source ↗

HiPPO — Kaushik / Kohavi, ExP Platform

HiPPO — the Highest Paid Person's Opinion — wurde von Avinash Kaushik benannt und von Kohavis Experimentation Team bei Microsoft als 'one of the most significant impediments to greater evidence-based and data-driven decision-making' popularisiert. Der Evidence Adversary und das No-Claim-Without-Citation-Gate sind die direkten mechanischen Gegenmaßnahmen gegen diesen dokumentierten Failure Mode. Quellen: https://exp-platform.com/hippo/ und https://www.kaushik.net/avinash/seven-steps-to-creating-a-data-driven-decision-making-culture/

View source ↗

Cemri, Pan, Yang et al. — Why Do Multi-Agent LLM Systems Fail? MAST taxonomy, arXiv:2503.13657 (41–86.7% Failure)

Cemri et al. annotierten mehr als 1.600 Traces über 7 Multi-Agent-Frameworks und fanden Failure Rates von 41%–86.7% in State-of-the-Art-Systemen. Sie klassifizierten Fehler in der MAST-Taxonomie: Specification and Design Issues (41.8%), Inter-Agent Misalignment (36.9%) und Verification Failures (21.3%). Diese drei MAST-Buckets mappen direkt auf die Gegenmaßnahmen dieses Plugins: typisierte Handoff Payloads mit Evidenz-IDs gegen Misalignment, eine Gate-Sequenz mit expliziten Definitions of Done gegen Spec Failure und vier benannte adversarial Verifier gegen Verification Failure. Quelle: https://arxiv.org/abs/2503.13657

View source ↗

Teresa Torres — Continuous Discovery Habits / Opportunity Solution Trees

Torres' Continuous-Discovery-Framework fordert wöchentlichen Kundenkontakt und systematisches Testen der riskantesten Annahmen mit der schwächsten Evidenz, weil On-Demand-Synthese 'prevents outdated assumptions from lingering and ensures the roadmap is shaped by evidence, not guesswork.' Der always-on Signal Ingestor und die Freshness Alerts des Drift Sentinel sind die direkte Umsetzung dieser Vorgabe. Quelle: https://www.producttalk.org/opportunity-solution-trees/

View source ↗

Melissa Perri — Escaping the Build Trap / Feature Factory

Perris Build-Trap-Muster benennt die Ursache von ausgelieferten, aber nie genutzten Features: Teams werden an Output gemessen (ausgelieferte Features, eingehaltene Termine) statt an Outcomes (hat es Wert geschaffen). Die vorab registrierten Metriken, der Adoption Auditor und der Victory-Bias Auditor des Closed-Loop-Pods sind die strukturelle Gegenmaßnahme — Outcome-Messung wird automatisch, und ein 'success'-Verdict ist ohne Erreichen des vorab registrierten Ziels unmöglich. Quelle: https://www.befreed.ai/book/escaping-the-build-trap-by-melissa-perri

View source ↗

Mit einem Pod starten. Dem Evidence Gate beim Arbeiten zusehen.

Zwei Befehle zur Installation. Jede Lane startet im propose-only-Modus — kein autonomer Schreibzugriff, bis du entscheidest, dass sie bereit ist. Kostenlos, Open Source und auf Anthropics offizieller Product-Management-Plugin-Grundlage aufgebaut.

Soll das für dein Team laufen — ohne Setup-Aufwand?

AI Heroes konfiguriert den vollständigen Stack: Connector-Verkabelung, Kalibrierung der Enforcement-Schicht, Crawl-Walk-Run-Rollout und Operator-Dashboard-Design. Dein Team beobachtet ab Tag eins Kennzahlen, statt Wochen mit Integration zu verbringen.