Auto Skill Improver — Benchmark-gesteuerte Prompt-Optimierung für Claude Code & OpenClaw
Inspiriert von Andrej Karpathys Autoresearch — hör auf zu raten, ob deine Prompts besser geworden sind. Miss es.
Wähle deine Plattform
Auto Skill Improver funktioniert im gesamten Claude-Ökosystem. Wähle die Version, die zu deinem Workflow passt.
Für Claude Code
CLAUDE.md-Dateien, Projektanweisungen und Coding-Skill-Konfigurationen benchmarken und verbessern.
Mehr erfahren→👥Für Claude Cowork
Cowork-Skill-Dateien, teamorientierte Workflows und Projektanweisungen testen und optimieren.
Mehr erfahren→🐾Für OpenClaw
SKILL.md-Dateien, Agenten-Persona-Konfigurationen und Multi-Agenten-Koordination verbessern.
Mehr erfahren→So funktioniert es
- 1Klassifizieren — das Tool erkennt deinen Skill-Typ (Coding, Research, Workflow etc.)
- 2Benchmarken — es erstellt eine Testsuite, die Erfolg von Misserfolg unterscheidet
- 3Mutieren — eine Änderung nach der anderen, jede gegen den Benchmark getestet
- 4Behalten oder verwerfen — nur Mutationen, die den Score messbar verbessern, überleben
Guide-Datei herunterladen
E-Mail eingeben, um herunterzuladen auto-skill-improver-quickstart.md und Zugang zum GitHub-Repository zu erhalten.
Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.
Einrichtungsanleitung
Wähle oben deine Plattform
Wähle Claude Code, Claude Cowork oder OpenClaw — jede hat eine maßgeschneiderte Quickstart-Datei.
Quickstart-Datei herunterladen
Gib deine E-Mail ein, um den plattformspezifischen Leitfaden zu erhalten.
Datei in dein KI-Tool hochladen
Das Tool liest die Anweisungen und installiert Auto Skill Improver automatisch.
Auf eine Skill- oder Anweisungsdatei richten
Ausführen: npm run improve -- --skill path/to/your-skill.md
Baseline prüfen, Mutationen durchführen, Verbesserungen behalten
Das Tool misst jede Änderung gegen einen echten Benchmark und behält nur Verbesserungen.
Fertig, wenn der Benchmark saturiert
Wenn keine weiteren Verbesserungen möglich sind, ist deine Skill-Datei vollständig optimiert.
Warum die meiste Prompt-Iteration scheitert
Du änderst einen Prompt. Er klingt besser. Du behältst ihn. Aber nichts hat sich messbar verbessert. Die meiste Prompt-Arbeit ist redaktionell — Umschreiben basierend auf Intuition statt Evidenz. Auto Skill Improver behandelt Skill-Iteration als empirisch, nicht redaktionell.
Prompt-Gefühl
- ✗Formulierung ändern, hoffen dass es hilft
- ✗Keine Baseline — keine Möglichkeit zu wissen, ob es besser wurde
- ✗Mehrere Änderungen gleichzeitig verbergen, was tatsächlich gewirkt hat
- ✗Subjektive Bewertung: 'das fühlt sich richtig an'
Prompt-Wissenschaft
- ✓Messbare Baseline vor jeder Änderung etablieren
- ✓Eine Variable nach der anderen mutieren
- ✓Den gleichen Benchmark vorher und nachher durchführen
- ✓Nur behalten, was höher punktet — den Rest verwerfen
Was Auto Skill Improver findet
Das Tool deckt strukturelle Probleme auf, die beim manuellen Prompt-Editing unsichtbar sind — Probleme, die die Leistung über Durchläufe hinweg still verschlechtern.
Unklare Output-Verträge
Vage Erfolgskriterien, die dem Modell erlauben, bei jedem Durchlauf völlig unterschiedliche Ausgaben zu produzieren.
Fehlendes Fallback-Verhalten
Kein definierter Wiederherstellungspfad, wenn ein Tool-Aufruf fehlschlägt oder unerwartete Daten zurückgibt.
Widersprüchliche Instruktionsebenen
Widersprüchliche Anweisungen verteilt über System-Prompts, Skills und CLAUDE.md-Dateien.
Abhängigkeits- & Portabilitätsprobleme
Hart codierte Pfade, fehlende Imports oder Annahmen, die auf anderen Maschinen brechen.
Schwache Evidenzdisziplin
Behauptungen ohne Belege, Aussagen ohne Daten, Entscheidungen ohne Argumentationsketten.
Strukturelle Formatierungsprobleme
Inkonsistente Überschriftenebenen, fehlerhaftes Markdown oder Ausgaben, die nicht dem angegebenen Format entsprechen.
Die Karpathy-inspirierte Methode
Andrej Karpathys Autoresearch wendet Messdisziplin auf Forschungsiteration an — kontrollierte Experimente statt intuitiver Änderungen. Auto Skill Improver wendet das gleiche Prinzip auf Prompt-Engineering an: Jede Änderung wird gegen einen Benchmark getestet, und nur messbare Verbesserungen überleben.
Skill-Typ klassifizieren
Das Tool analysiert deine Skill-Datei und bestimmt ihre Kategorie — Coding-Assistent, Research-Agent, Workflow-Orchestrator oder anderes. Die Klassifizierung bestimmt, welche Benchmarks sinnvoll sind.
Einen echten Benchmark erstellen
Kein Gefühls-Check. Eine strukturierte Testsuite mit Bestanden/Nicht-bestanden-Kriterien, die die tatsächlichen Fähigkeiten des Skills gegen repräsentative Eingaben testet.
Baseline etablieren
Den Benchmark auf dem unveränderten Skill ausführen. Den Score aufzeichnen. Das ist dein Vergleichspunkt — jede Mutation wird an dieser Baseline gemessen.
Eine Sache nach der anderen mutieren
Eine einzelne Anweisung ändern, eine Einschränkung hinzufügen, eine Mehrdeutigkeit entfernen. Nie mehrere Variablen gleichzeitig ändern — sonst kann die Verbesserung nicht zugeordnet werden.
Nur behalten, was verbessert
Den Benchmark nach jeder Mutation erneut ausführen. Wenn der Score steigt, bleibt die Änderung. Wenn sie nicht verbessert — oder zurückfällt — wird sie verworfen. Keine Ausnahmen.
Aufhören wenn der Benchmark saturiert
Wenn aufeinanderfolgende Mutationen keine Verbesserungen mehr bringen, hat der Skill seine aktuelle Obergrenze erreicht. Weitere Änderungen sind Rauschen, kein Signal. Weitermachen oder einen schwierigeren Benchmark erstellen.
Wann verwenden — und wann nicht
Ideal für
- Claude Code Skills und CLAUDE.md-Konfigurationen
- OpenClaw Multi-Agenten-Skill-Dateien
- Cowork Skills, die messbare Verbesserung brauchen
- Jeden Prompt, bei dem du Belege brauchst, dass Änderungen tatsächlich helfen
Nicht die richtige Wahl
- —Einmal-Prompts, die du einmal verwendest und verwirfst
- —Kreatives Schreiben ohne objektive Erfolgsmetrik
- —Prompts, die bereits an der Leistungsgrenze sind
- —Situationen, in denen du nicht definieren kannst, was 'besser' bedeutet
Häufig gestellte Fragen
Auto Skill Improver ist ein Open-Source-Tool, das benchmark-gesteuerte Iteration auf KI-Skill-Dateien anwendet. Es klassifiziert deinen Skill, erstellt eine Testsuite, etabliert einen Baseline-Score und mutiert dann systematisch eine Sache nach der anderen — behält nur Änderungen, die die Leistung messbar verbessern. Es funktioniert mit Claude Code Skills, OpenClaw-Agentenkonfigurationen und Cowork-Skill-Dateien.
Andrej Karpathys Autoresearch-Methodik wendet Messdisziplin auf Forschungsiteration an — kontrollierte Experimente statt intuitiver Änderungen. Auto Skill Improver wendet das gleiche Prinzip auf Prompt-Engineering an: Jede Änderung wird gegen einen Benchmark getestet, und nur messbare Verbesserungen überleben.
Jede Skill-Datei, die Claude Code, Cowork oder OpenClaw verwendet — Coding-Assistenten, Research-Agenten, Workflow-Orchestratoren, Code-Reviewer und mehr. Das Tool klassifiziert den Skill-Typ automatisch und erstellt passende Benchmarks für diese Kategorie.
Ein Benchmark ist eine strukturierte Testsuite mit definierten Eingaben und Bestanden/Nicht-bestanden-Kriterien. Für einen Coding-Skill könnte das sein: 'Generiere eine Funktion, die diese Unit-Tests besteht'. Der Benchmark führt die gleichen Tests vorher und nachher durch und produziert einen numerischen Score, der Verbesserung objektiv macht.
Das Tool ist für Claude Code, Cowork und OpenClaw Skill-Dateien konzipiert — strukturierte Prompt-Dateien, die Agenten-Verhalten definieren. Es ist kein universeller Prompt-Optimierer für einmalige Prompts. Der Wert entsteht durch Iteration an Skills, die wiederholt verwendet werden, wo kleine Verbesserungen sich über Hunderte von Durchläufen aufaddieren.
Benchmark-Sättigung tritt auf, wenn aufeinanderfolgende Mutationen keine Score-Verbesserungen mehr produzieren. Der Skill hat die Obergrenze dessen erreicht, was der aktuelle Benchmark messen kann. Weitere Änderungen sind Rauschen statt Signal. Du kannst die aktuelle Leistung akzeptieren oder einen schwierigeren Benchmark erstellen.
Manuelle Iteration ist redaktionell: du schreibst einen Prompt um, er klingt besser, du behältst ihn. Aber 'klingt besser' ist kein Beweis. Auto Skill Improver ist empirisch: Es etabliert eine Baseline, ändert eine Variable nach der anderen, führt den gleichen Benchmark durch und behält nur, was höher punktet.
Ja. Auto Skill Improver ist vollständig Open Source und kostenlos nutzbar. Der Quellcode ist auf GitHub unter github.com/mlobo2012/auto-skill-improver verfügbar. Es gibt keine Nutzungslimits, keine API-Schlüssel für das Tool selbst und keine Premium-Stufen.
Aufhören zu raten. Anfangen zu messen.
Lade den Quickstart-Leitfaden herunter, klone das Repo und führe deine erste benchmark-gesteuerte Verbesserungsschleife in unter 10 Minuten durch.