Kostenlos & Open Source

Auto Skill Improver für Claude Code — Benchmark-gesteuerte Skill-Optimierung

Teste und verbessere deine CLAUDE.md-Dateien, Projektanweisungen und Coding-Skills mit empirischer Messung. Inspiriert von Karpathys Autoresearch.

So funktioniert es mit Claude Code

  1. 1Klassifizieren — das Tool erkennt deinen Claude Code Skill-Typ (Coding-Assistent, Reviewer, Orchestrator etc.)
  2. 2Benchmarken — es erstellt eine Testsuite, die deine CLAUDE.md-Anweisungen gegen reale Szenarien testet
  3. 3Mutieren — eine Anweisungsänderung nach der anderen, jede gegen den Benchmark getestet
  4. 4Behalten oder verwerfen — nur Mutationen, die Claude Code Output messbar verbessern, überleben

Guide-Datei herunterladen

E-Mail eingeben, um herunterzuladen auto-skill-improver-claude-code-quickstart.md und Zugang zum GitHub-Repository zu erhalten.

Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.

Schritt für Schritt: Auto Skill Improver in Claude Code einrichten

1

Quickstart-Datei oben herunterladen

Gib deine E-Mail im Formular oben ein, um die Claude Code Quickstart-Datei herunterzuladen.

2

Claude Code öffnen

Starte Claude Code in deinem Terminal oder deiner IDE.

3

Quickstart-Datei hochladen

Claude Code liest sie und klont das Repository automatisch.

4

Auf deine CLAUDE.md oder eine beliebige Anweisungsdatei richten

Das Tool zielt auf deine Projektanweisungen und beginnt mit der Einrichtung.

5

Baseline-Score prüfen

Dies ist dein Ausgangspunkt vor allen Änderungen.

6

Mutationen laufen lassen

Jede Änderung wird gebenchmarkt und nur behalten, wenn sie den Score verbessert.

7

Fertig, wenn der Benchmark saturiert

Wenn keine weiteren Verbesserungen möglich sind, ist deine verbesserte Skill-Datei bereit.

Warum die meiste Claude Code Skill-Iteration scheitert

Du optimierst deine CLAUDE.md. Die Anweisungen klingen klarer. Du behältst sie. Aber Claude Codes tatsächlicher Output hat sich nicht messbar verbessert. Die meiste Skill-Bearbeitung ist redaktionell — Umschreiben basierend auf Intuition statt Evidenz.

Anweisungs-Gefühl

  • CLAUDE.md umformulieren, hoffen dass Claude Code besser funktioniert
  • Keine Baseline — keine Möglichkeit zu wissen, ob Anweisungen den Output verbessert haben
  • Mehrere Anweisungsänderungen gleichzeitig verbergen, was tatsächlich geholfen hat
  • Subjektive Bewertung: 'der Output sieht richtig aus'

Anweisungs-Wissenschaft

  • Messbare Baseline vor jeder CLAUDE.md-Änderung etablieren
  • Eine Anweisung nach der anderen mutieren
  • Den gleichen Benchmark vorher und nachher durchführen
  • Nur behalten, was höher punktet — den Rest verwerfen

Was es in Claude Code Skills findet

Das Tool deckt strukturelle Probleme in deiner CLAUDE.md und deinen Projektanweisungen auf, die beim manuellen Editing unsichtbar sind — Probleme, die Claude Code Leistung still verschlechtern.

📝

Unklare Output-Verträge

Vage Erfolgskriterien, die Claude Code erlauben, bei jedem Durchlauf völlig unterschiedliche Ausgaben zu produzieren.

🔄

Fehlendes Fallback-Verhalten

Kein definierter Wiederherstellungspfad, wenn ein Tool-Aufruf fehlschlägt oder unerwartete Daten zurückgibt.

Widersprüchliche Instruktionsebenen

Widersprüchliche Anweisungen verteilt über System-Prompts, Skills und CLAUDE.md-Dateien.

🔗

Abhängigkeits- & Portabilitätsprobleme

Hart codierte Pfade, fehlende Imports oder Annahmen, die auf anderen Maschinen brechen.

📊

Schwache Evidenzdisziplin

Behauptungen ohne Belege, Aussagen ohne Daten, Entscheidungen ohne Argumentationsketten.

🏗️

Strukturelle Formatierungsprobleme

Inkonsistente Überschriftenebenen, fehlerhaftes Markdown oder Ausgaben, die nicht dem angegebenen Format entsprechen.

Die Karpathy-inspirierte Methode

Andrej Karpathys Autoresearch wendet Messdisziplin auf Forschungsiteration an. Auto Skill Improver wendet das gleiche Prinzip auf Claude Code Skill-Engineering an — eine kontrollierte Schleife, in der jede CLAUDE.md-Änderung rechenschaftspflichtig ist.

1

Skill-Typ klassifizieren

Das Tool analysiert deine CLAUDE.md-Datei und bestimmt ihre Kategorie — Coding-Assistent, Code-Reviewer, Workflow-Orchestrator oder anderes. Die Klassifizierung bestimmt, welche Benchmarks sinnvoll sind.

2

Einen echten Benchmark erstellen

Kein Gefühls-Check. Eine strukturierte Testsuite mit Bestanden/Nicht-bestanden-Kriterien, die deine Claude Code Anweisungen gegen repräsentative Coding-Szenarien testet.

3

Baseline etablieren

Den Benchmark auf der unveränderten CLAUDE.md ausführen. Den Score aufzeichnen. Das ist dein Vergleichspunkt — jede Mutation wird an dieser Baseline gemessen.

4

Eine Sache nach der anderen mutieren

Eine einzelne Anweisung ändern, eine Einschränkung hinzufügen, eine Mehrdeutigkeit entfernen. Nie mehrere CLAUDE.md-Direktiven gleichzeitig ändern.

5

Nur behalten, was verbessert

Den Benchmark nach jeder Mutation erneut ausführen. Wenn der Score steigt, bleibt die Änderung. Wenn sie nicht verbessert — oder zurückfällt — wird sie verworfen.

6

Aufhören wenn der Benchmark saturiert

Wenn aufeinanderfolgende Mutationen keine Verbesserungen mehr bringen, hat deine CLAUDE.md ihre aktuelle Obergrenze erreicht. Weitere Änderungen sind Rauschen, kein Signal.

Wann verwenden — und wann nicht

Ideal für

  • CLAUDE.md-Dateien, die projektweites Coding-Verhalten definieren
  • Benutzerdefinierte Claude Code Skill-Konfigurationen
  • Projektanweisungen, die messbare Verbesserung brauchen
  • Jedes Claude Code Setup, bei dem du Belege brauchst, dass Änderungen tatsächlich helfen

Nicht die richtige Wahl

  • Einmal-Prompts, die du einmal verwendest und verwirfst
  • Kreatives Schreiben ohne objektive Erfolgsmetrik
  • Skills, die bereits an der Leistungsgrenze sind
  • Situationen, in denen du nicht definieren kannst, was 'besser' bedeutet

Häufig gestellte Fragen

Auto Skill Improver für Claude Code ist ein Open-Source-Tool, das benchmark-gesteuerte Iteration auf deine CLAUDE.md-Dateien und Projektanweisungen anwendet. Es klassifiziert deinen Skill-Typ, erstellt eine Testsuite, etabliert einen Baseline-Score und mutiert dann systematisch eine Anweisung nach der anderen.

Es behandelt deine CLAUDE.md als testbares Artefakt. Das Tool generiert Szenarien, die deine Anweisungen testen, misst Claude Codes Output-Qualität gegen definierte Kriterien und nimmt dann gezielte Änderungen vor — eine nach der anderen.

Aufhören zu raten. Anfangen zu messen.

Lade den Quickstart-Leitfaden herunter, klone das Repo und führe deine erste Claude Code benchmark-gesteuerte Verbesserungsschleife in unter 10 Minuten durch.