Auto Skill Improver für Claude Code — Benchmark-gesteuerte Skill-Optimierung
Teste und verbessere deine CLAUDE.md-Dateien, Projektanweisungen und Coding-Skills mit empirischer Messung. Inspiriert von Karpathys Autoresearch.
So funktioniert es mit Claude Code
- 1Klassifizieren — das Tool erkennt deinen Claude Code Skill-Typ (Coding-Assistent, Reviewer, Orchestrator etc.)
- 2Benchmarken — es erstellt eine Testsuite, die deine CLAUDE.md-Anweisungen gegen reale Szenarien testet
- 3Mutieren — eine Anweisungsänderung nach der anderen, jede gegen den Benchmark getestet
- 4Behalten oder verwerfen — nur Mutationen, die Claude Code Output messbar verbessern, überleben
Guide-Datei herunterladen
E-Mail eingeben, um herunterzuladen auto-skill-improver-claude-code-quickstart.md und Zugang zum GitHub-Repository zu erhalten.
Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.
Schritt für Schritt: Auto Skill Improver in Claude Code einrichten
Quickstart-Datei oben herunterladen
Gib deine E-Mail im Formular oben ein, um die Claude Code Quickstart-Datei herunterzuladen.
Claude Code öffnen
Starte Claude Code in deinem Terminal oder deiner IDE.
Quickstart-Datei hochladen
Claude Code liest sie und klont das Repository automatisch.
Auf deine CLAUDE.md oder eine beliebige Anweisungsdatei richten
Das Tool zielt auf deine Projektanweisungen und beginnt mit der Einrichtung.
Baseline-Score prüfen
Dies ist dein Ausgangspunkt vor allen Änderungen.
Mutationen laufen lassen
Jede Änderung wird gebenchmarkt und nur behalten, wenn sie den Score verbessert.
Fertig, wenn der Benchmark saturiert
Wenn keine weiteren Verbesserungen möglich sind, ist deine verbesserte Skill-Datei bereit.
Warum die meiste Claude Code Skill-Iteration scheitert
Du optimierst deine CLAUDE.md. Die Anweisungen klingen klarer. Du behältst sie. Aber Claude Codes tatsächlicher Output hat sich nicht messbar verbessert. Die meiste Skill-Bearbeitung ist redaktionell — Umschreiben basierend auf Intuition statt Evidenz.
Anweisungs-Gefühl
- ✗CLAUDE.md umformulieren, hoffen dass Claude Code besser funktioniert
- ✗Keine Baseline — keine Möglichkeit zu wissen, ob Anweisungen den Output verbessert haben
- ✗Mehrere Anweisungsänderungen gleichzeitig verbergen, was tatsächlich geholfen hat
- ✗Subjektive Bewertung: 'der Output sieht richtig aus'
Anweisungs-Wissenschaft
- ✓Messbare Baseline vor jeder CLAUDE.md-Änderung etablieren
- ✓Eine Anweisung nach der anderen mutieren
- ✓Den gleichen Benchmark vorher und nachher durchführen
- ✓Nur behalten, was höher punktet — den Rest verwerfen
Was es in Claude Code Skills findet
Das Tool deckt strukturelle Probleme in deiner CLAUDE.md und deinen Projektanweisungen auf, die beim manuellen Editing unsichtbar sind — Probleme, die Claude Code Leistung still verschlechtern.
Unklare Output-Verträge
Vage Erfolgskriterien, die Claude Code erlauben, bei jedem Durchlauf völlig unterschiedliche Ausgaben zu produzieren.
Fehlendes Fallback-Verhalten
Kein definierter Wiederherstellungspfad, wenn ein Tool-Aufruf fehlschlägt oder unerwartete Daten zurückgibt.
Widersprüchliche Instruktionsebenen
Widersprüchliche Anweisungen verteilt über System-Prompts, Skills und CLAUDE.md-Dateien.
Abhängigkeits- & Portabilitätsprobleme
Hart codierte Pfade, fehlende Imports oder Annahmen, die auf anderen Maschinen brechen.
Schwache Evidenzdisziplin
Behauptungen ohne Belege, Aussagen ohne Daten, Entscheidungen ohne Argumentationsketten.
Strukturelle Formatierungsprobleme
Inkonsistente Überschriftenebenen, fehlerhaftes Markdown oder Ausgaben, die nicht dem angegebenen Format entsprechen.
Die Karpathy-inspirierte Methode
Andrej Karpathys Autoresearch wendet Messdisziplin auf Forschungsiteration an. Auto Skill Improver wendet das gleiche Prinzip auf Claude Code Skill-Engineering an — eine kontrollierte Schleife, in der jede CLAUDE.md-Änderung rechenschaftspflichtig ist.
Skill-Typ klassifizieren
Das Tool analysiert deine CLAUDE.md-Datei und bestimmt ihre Kategorie — Coding-Assistent, Code-Reviewer, Workflow-Orchestrator oder anderes. Die Klassifizierung bestimmt, welche Benchmarks sinnvoll sind.
Einen echten Benchmark erstellen
Kein Gefühls-Check. Eine strukturierte Testsuite mit Bestanden/Nicht-bestanden-Kriterien, die deine Claude Code Anweisungen gegen repräsentative Coding-Szenarien testet.
Baseline etablieren
Den Benchmark auf der unveränderten CLAUDE.md ausführen. Den Score aufzeichnen. Das ist dein Vergleichspunkt — jede Mutation wird an dieser Baseline gemessen.
Eine Sache nach der anderen mutieren
Eine einzelne Anweisung ändern, eine Einschränkung hinzufügen, eine Mehrdeutigkeit entfernen. Nie mehrere CLAUDE.md-Direktiven gleichzeitig ändern.
Nur behalten, was verbessert
Den Benchmark nach jeder Mutation erneut ausführen. Wenn der Score steigt, bleibt die Änderung. Wenn sie nicht verbessert — oder zurückfällt — wird sie verworfen.
Aufhören wenn der Benchmark saturiert
Wenn aufeinanderfolgende Mutationen keine Verbesserungen mehr bringen, hat deine CLAUDE.md ihre aktuelle Obergrenze erreicht. Weitere Änderungen sind Rauschen, kein Signal.
Wann verwenden — und wann nicht
Ideal für
- CLAUDE.md-Dateien, die projektweites Coding-Verhalten definieren
- Benutzerdefinierte Claude Code Skill-Konfigurationen
- Projektanweisungen, die messbare Verbesserung brauchen
- Jedes Claude Code Setup, bei dem du Belege brauchst, dass Änderungen tatsächlich helfen
Nicht die richtige Wahl
- —Einmal-Prompts, die du einmal verwendest und verwirfst
- —Kreatives Schreiben ohne objektive Erfolgsmetrik
- —Skills, die bereits an der Leistungsgrenze sind
- —Situationen, in denen du nicht definieren kannst, was 'besser' bedeutet
Häufig gestellte Fragen
Auto Skill Improver für Claude Code ist ein Open-Source-Tool, das benchmark-gesteuerte Iteration auf deine CLAUDE.md-Dateien und Projektanweisungen anwendet. Es klassifiziert deinen Skill-Typ, erstellt eine Testsuite, etabliert einen Baseline-Score und mutiert dann systematisch eine Anweisung nach der anderen.
Es behandelt deine CLAUDE.md als testbares Artefakt. Das Tool generiert Szenarien, die deine Anweisungen testen, misst Claude Codes Output-Qualität gegen definierte Kriterien und nimmt dann gezielte Änderungen vor — eine nach der anderen.
Jeden Skill-Typ — Coding-Assistenten, Code-Reviewer, Testgeneratoren, Dokumentations-Writer, Refactoring-Agenten und mehr. Das Tool klassifiziert den Skill-Typ automatisch aus deiner CLAUDE.md.
Ein Benchmark ist eine strukturierte Testsuite mit definierten Eingaben und Bestanden/Nicht-bestanden-Kriterien. Für einen Coding-Skill könnte das sein: 'Generiere eine Funktion, die diese Unit-Tests besteht'. Der Benchmark führt die gleichen Tests vorher und nachher durch.
Nein. Auto Skill Improver generiert Benchmarks automatisch basierend auf deinem Skill-Typ und CLAUDE.md-Inhalt. Es analysiert, was deine Anweisungen erreichen sollen, und erstellt passende Testszenarien.
Benchmark-Sättigung tritt auf, wenn aufeinanderfolgende CLAUDE.md-Mutationen keine Score-Verbesserungen mehr produzieren. Deine Anweisungen haben die Obergrenze erreicht.
Manuelle Bearbeitung ist redaktionell: du schreibst Anweisungen um, sie klingen klarer, du behältst sie. Aber 'klingt klarer' ist kein Beweis. Auto Skill Improver ist empirisch: Es etabliert eine Baseline, ändert eine Anweisung nach der anderen und behält nur, was höher punktet.
Ja. Auto Skill Improver ist vollständig Open Source und kostenlos nutzbar. Der Quellcode ist auf GitHub unter github.com/mlobo2012/auto-skill-improver verfügbar.
Aufhören zu raten. Anfangen zu messen.
Lade den Quickstart-Leitfaden herunter, klone das Repo und führe deine erste Claude Code benchmark-gesteuerte Verbesserungsschleife in unter 10 Minuten durch.