Kostenlos & Open Source

Auto Skill Improver — Benchmark-gesteuerte Prompt-Optimierung für Claude Code & OpenClaw

Inspiriert von Andrej Karpathys Autoresearch — hör auf zu raten, ob deine Prompts besser geworden sind. Miss es.

So funktioniert es

  1. 1Klassifizieren — das Tool erkennt deinen Skill-Typ (Coding, Research, Workflow etc.)
  2. 2Benchmarken — es erstellt eine Testsuite, die Erfolg von Misserfolg unterscheidet
  3. 3Mutieren — eine Änderung nach der anderen, jede gegen den Benchmark getestet
  4. 4Behalten oder verwerfen — nur Mutationen, die den Score messbar verbessern, überleben

Guide-Datei herunterladen

E-Mail eingeben, um herunterzuladen auto-skill-improver-quickstart.md und Zugang zum GitHub-Repository zu erhalten.

Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.

Einrichtungsanleitung

1

Wähle oben deine Plattform

Wähle Claude Code, Claude Cowork oder OpenClaw — jede hat eine maßgeschneiderte Quickstart-Datei.

2

Quickstart-Datei herunterladen

Gib deine E-Mail ein, um den plattformspezifischen Leitfaden zu erhalten.

3

Datei in dein KI-Tool hochladen

Das Tool liest die Anweisungen und installiert Auto Skill Improver automatisch.

4

Auf eine Skill- oder Anweisungsdatei richten

Ausführen: npm run improve -- --skill path/to/your-skill.md

5

Baseline prüfen, Mutationen durchführen, Verbesserungen behalten

Das Tool misst jede Änderung gegen einen echten Benchmark und behält nur Verbesserungen.

6

Fertig, wenn der Benchmark saturiert

Wenn keine weiteren Verbesserungen möglich sind, ist deine Skill-Datei vollständig optimiert.

Warum die meiste Prompt-Iteration scheitert

Du änderst einen Prompt. Er klingt besser. Du behältst ihn. Aber nichts hat sich messbar verbessert. Die meiste Prompt-Arbeit ist redaktionell — Umschreiben basierend auf Intuition statt Evidenz. Auto Skill Improver behandelt Skill-Iteration als empirisch, nicht redaktionell.

Prompt-Gefühl

  • Formulierung ändern, hoffen dass es hilft
  • Keine Baseline — keine Möglichkeit zu wissen, ob es besser wurde
  • Mehrere Änderungen gleichzeitig verbergen, was tatsächlich gewirkt hat
  • Subjektive Bewertung: 'das fühlt sich richtig an'

Prompt-Wissenschaft

  • Messbare Baseline vor jeder Änderung etablieren
  • Eine Variable nach der anderen mutieren
  • Den gleichen Benchmark vorher und nachher durchführen
  • Nur behalten, was höher punktet — den Rest verwerfen

Was Auto Skill Improver findet

Das Tool deckt strukturelle Probleme auf, die beim manuellen Prompt-Editing unsichtbar sind — Probleme, die die Leistung über Durchläufe hinweg still verschlechtern.

📝

Unklare Output-Verträge

Vage Erfolgskriterien, die dem Modell erlauben, bei jedem Durchlauf völlig unterschiedliche Ausgaben zu produzieren.

🔄

Fehlendes Fallback-Verhalten

Kein definierter Wiederherstellungspfad, wenn ein Tool-Aufruf fehlschlägt oder unerwartete Daten zurückgibt.

Widersprüchliche Instruktionsebenen

Widersprüchliche Anweisungen verteilt über System-Prompts, Skills und CLAUDE.md-Dateien.

🔗

Abhängigkeits- & Portabilitätsprobleme

Hart codierte Pfade, fehlende Imports oder Annahmen, die auf anderen Maschinen brechen.

📊

Schwache Evidenzdisziplin

Behauptungen ohne Belege, Aussagen ohne Daten, Entscheidungen ohne Argumentationsketten.

🏗️

Strukturelle Formatierungsprobleme

Inkonsistente Überschriftenebenen, fehlerhaftes Markdown oder Ausgaben, die nicht dem angegebenen Format entsprechen.

Die Karpathy-inspirierte Methode

Andrej Karpathys Autoresearch wendet Messdisziplin auf Forschungsiteration an — kontrollierte Experimente statt intuitiver Änderungen. Auto Skill Improver wendet das gleiche Prinzip auf Prompt-Engineering an: Jede Änderung wird gegen einen Benchmark getestet, und nur messbare Verbesserungen überleben.

1

Skill-Typ klassifizieren

Das Tool analysiert deine Skill-Datei und bestimmt ihre Kategorie — Coding-Assistent, Research-Agent, Workflow-Orchestrator oder anderes. Die Klassifizierung bestimmt, welche Benchmarks sinnvoll sind.

2

Einen echten Benchmark erstellen

Kein Gefühls-Check. Eine strukturierte Testsuite mit Bestanden/Nicht-bestanden-Kriterien, die die tatsächlichen Fähigkeiten des Skills gegen repräsentative Eingaben testet.

3

Baseline etablieren

Den Benchmark auf dem unveränderten Skill ausführen. Den Score aufzeichnen. Das ist dein Vergleichspunkt — jede Mutation wird an dieser Baseline gemessen.

4

Eine Sache nach der anderen mutieren

Eine einzelne Anweisung ändern, eine Einschränkung hinzufügen, eine Mehrdeutigkeit entfernen. Nie mehrere Variablen gleichzeitig ändern — sonst kann die Verbesserung nicht zugeordnet werden.

5

Nur behalten, was verbessert

Den Benchmark nach jeder Mutation erneut ausführen. Wenn der Score steigt, bleibt die Änderung. Wenn sie nicht verbessert — oder zurückfällt — wird sie verworfen. Keine Ausnahmen.

6

Aufhören wenn der Benchmark saturiert

Wenn aufeinanderfolgende Mutationen keine Verbesserungen mehr bringen, hat der Skill seine aktuelle Obergrenze erreicht. Weitere Änderungen sind Rauschen, kein Signal. Weitermachen oder einen schwierigeren Benchmark erstellen.

Wann verwenden — und wann nicht

Ideal für

  • Claude Code Skills und CLAUDE.md-Konfigurationen
  • OpenClaw Multi-Agenten-Skill-Dateien
  • Cowork Skills, die messbare Verbesserung brauchen
  • Jeden Prompt, bei dem du Belege brauchst, dass Änderungen tatsächlich helfen

Nicht die richtige Wahl

  • Einmal-Prompts, die du einmal verwendest und verwirfst
  • Kreatives Schreiben ohne objektive Erfolgsmetrik
  • Prompts, die bereits an der Leistungsgrenze sind
  • Situationen, in denen du nicht definieren kannst, was 'besser' bedeutet

Häufig gestellte Fragen

Auto Skill Improver ist ein Open-Source-Tool, das benchmark-gesteuerte Iteration auf KI-Skill-Dateien anwendet. Es klassifiziert deinen Skill, erstellt eine Testsuite, etabliert einen Baseline-Score und mutiert dann systematisch eine Sache nach der anderen — behält nur Änderungen, die die Leistung messbar verbessern. Es funktioniert mit Claude Code Skills, OpenClaw-Agentenkonfigurationen und Cowork-Skill-Dateien.

Andrej Karpathys Autoresearch-Methodik wendet Messdisziplin auf Forschungsiteration an — kontrollierte Experimente statt intuitiver Änderungen. Auto Skill Improver wendet das gleiche Prinzip auf Prompt-Engineering an: Jede Änderung wird gegen einen Benchmark getestet, und nur messbare Verbesserungen überleben.

Aufhören zu raten. Anfangen zu messen.

Lade den Quickstart-Leitfaden herunter, klone das Repo und führe deine erste benchmark-gesteuerte Verbesserungsschleife in unter 10 Minuten durch.