Auto Skill Improver für OpenClaw — Benchmark-gesteuerte Agenten-Skill-Optimierung
Teste und verbessere deine SKILL.md-Dateien, Agenten-Personas und Multi-Agenten-Koordination mit empirischer Messung. Inspiriert von Karpathys Autoresearch.
So funktioniert es mit OpenClaw
- 1Klassifizieren — das Tool erkennt deinen OpenClaw-Skill-Typ (Research-Agent, Coding-Agent, Orchestrator etc.)
- 2Benchmarken — es erstellt eine Testsuite, die deine SKILL.md-Anweisungen gegen reale Agenten-Szenarien testet
- 3Mutieren — eine Anweisungsänderung nach der anderen, jede gegen den Benchmark getestet
- 4Behalten oder verwerfen — nur Mutationen, die Agenten-Output messbar verbessern, überleben
Guide-Datei herunterladen
E-Mail eingeben, um herunterzuladen auto-skill-improver-openclaw-quickstart.md und Zugang zum GitHub-Repository zu erhalten.
Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.
Schritt für Schritt: Auto Skill Improver in OpenClaw einrichten
Quickstart-Datei herunterladen
Gib deine E-Mail im Formular oben ein, um die OpenClaw Quickstart-Datei herunterzuladen.
Datei an einen OpenClaw-Agenten übergeben
Im Chat einfügen oder die Datei direkt anhängen.
Der Agent klont das Repo und richtet alles ein
Auto Skill Improver wird automatisch aus den Anweisungen in der Datei installiert.
Auf eine SKILL.md-Datei in deinem Workspace richten
Das Tool zielt auf deine Agenten-Skill-Datei und beginnt mit der Einrichtung.
Baseline prüfen, Mutationen durchführen
Der Agent benchmarkt jede Änderung automatisch — nur Verbesserungen werden behalten.
Die verbesserte SKILL.md ersetzt das Original
Sobald der Benchmark saturiert, ist deine optimierte SKILL.md bereit.
Warum die meiste OpenClaw Skill-Iteration scheitert
Du bearbeitest deine SKILL.md. Die Agenten-Persona klingt schärfer. Du deployest erneut. Aber die tatsächliche Agenten-Leistung hat sich nicht messbar verbessert. Die meiste Skill-Bearbeitung ist redaktionell — Umschreiben basierend auf Intuition statt Evidenz.
Agenten-Gefühl
- ✗SKILL.md umformulieren, hoffen dass der Agent besser funktioniert
- ✗Keine Baseline — keine Möglichkeit zu wissen, ob Agenten-Verhalten sich verbessert hat
- ✗Mehrere Persona-Änderungen gleichzeitig verbergen, was tatsächlich geholfen hat
- ✗Subjektive Bewertung: 'der Agent scheint schlauer'
Agenten-Wissenschaft
- ✓Messbare Baseline vor jeder SKILL.md-Änderung etablieren
- ✓Eine Anweisung nach der anderen mutieren
- ✓Den gleichen Benchmark vorher und nachher durchführen
- ✓Nur behalten, was höher punktet — den Rest verwerfen
Was es in OpenClaw Skills findet
Das Tool deckt strukturelle Probleme in deinen SKILL.md-Dateien und Agenten-Konfigurationen auf, die beim manuellen Editing unsichtbar sind — Probleme, die Multi-Agenten-Leistung still verschlechtern.
Unklare Output-Verträge
Vage Erfolgskriterien, die Agenten erlauben, bei jedem Durchlauf völlig unterschiedliche Ausgaben zu produzieren.
Fehlendes Fallback-Verhalten
Kein definierter Wiederherstellungspfad, wenn ein Tool-Aufruf fehlschlägt oder Agenten-Koordination zusammenbricht.
Widersprüchliche Instruktionsebenen
Widersprüchliche Anweisungen verteilt über SKILL.md-Dateien, Persona-Configs und Orchestrierungsregeln.
Abhängigkeits- & Portabilitätsprobleme
Hart codierte Pfade, fehlende Imports oder Annahmen, die in verschiedenen Agenten-Umgebungen brechen.
Schwache Evidenzdisziplin
Agenten, die Behauptungen ohne Belege aufstellen, Aussagen ohne Daten, Entscheidungen ohne Argumentationsketten.
Strukturelle Formatierungsprobleme
Inkonsistente Überschriftenebenen, fehlerhaftes Markdown oder Ausgaben, die nicht dem Format entsprechen.
Die Karpathy-inspirierte Methode
Andrej Karpathys Autoresearch wendet Messdisziplin auf Forschungsiteration an. Auto Skill Improver wendet das gleiche Prinzip auf OpenClaw Skill-Engineering an — eine kontrollierte Schleife, in der jede SKILL.md-Änderung rechenschaftspflichtig ist.
Skill-Typ klassifizieren
Das Tool analysiert deine SKILL.md-Datei und bestimmt ihre Kategorie — Research-Agent, Coding-Agent, Orchestrator, Reviewer oder anderes.
Einen echten Benchmark erstellen
Kein Gefühls-Check. Eine strukturierte Testsuite mit Bestanden/Nicht-bestanden-Kriterien, die die tatsächlichen Fähigkeiten deines Agenten gegen repräsentative Multi-Agenten-Szenarien testet.
Baseline etablieren
Den Benchmark auf der unveränderten SKILL.md ausführen. Den Score aufzeichnen. Das ist dein Vergleichspunkt.
Eine Sache nach der anderen mutieren
Eine einzelne Anweisung ändern, eine Einschränkung hinzufügen, eine Mehrdeutigkeit entfernen. Nie mehrere SKILL.md-Direktiven gleichzeitig ändern.
Nur behalten, was verbessert
Den Benchmark nach jeder Mutation erneut ausführen. Wenn der Score steigt, bleibt die Änderung. Wenn nicht — wird sie verworfen.
Aufhören wenn der Benchmark saturiert
Wenn aufeinanderfolgende Mutationen keine Verbesserungen mehr bringen, hat deine SKILL.md ihre aktuelle Obergrenze erreicht.
Wann verwenden — und wann nicht
Ideal für
- OpenClaw SKILL.md-Dateien, die Agenten-Verhalten definieren
- Agenten-Persona-Konfigurationen in Multi-Agenten-Setups
- Orchestrierungsregeln, die messbare Verbesserung brauchen
- Jedes OpenClaw-Setup, bei dem du Belege brauchst, dass Änderungen tatsächlich helfen
Nicht die richtige Wahl
- —Einmal-Prompts, die du einmal verwendest und verwirfst
- —Kreative Agenten ohne objektive Erfolgsmetrik
- —Skills, die bereits an der Leistungsgrenze sind
- —Situationen, in denen du nicht definieren kannst, was 'besser' für Agenten-Output bedeutet
Häufig gestellte Fragen
Auto Skill Improver für OpenClaw ist ein Open-Source-Tool, das benchmark-gesteuerte Iteration auf deine SKILL.md-Dateien und Agenten-Konfigurationen anwendet. Es klassifiziert deinen Agenten-Typ, erstellt eine Testsuite und mutiert systematisch eine Anweisung nach der anderen.
Es behandelt deine SKILL.md als testbares Artefakt. Das Tool generiert Szenarien, die deine Agenten-Anweisungen testen, misst Output-Qualität und nimmt gezielte Änderungen vor — eine nach der anderen.
Jeden Agenten-Typ — Research-Agenten, Coding-Agenten, Orchestratoren, Reviewer, Datenanalysten und mehr. Das Tool klassifiziert den Agenten-Typ automatisch aus deiner SKILL.md.
Ja. Wenn Agenten in einem OpenClaw Multi-Agenten-Setup interagieren, kann die Verbesserung der SKILL.md eines Agenten das gesamte System beeinflussen. Auto Skill Improver benchmarkt den Output im Kontext.
Ein Benchmark ist eine strukturierte Testsuite mit definierten Eingaben und Bestanden/Nicht-bestanden-Kriterien. Für einen Research-Agenten könnte das sein: 'Finde und zitiere drei Quellen zu diesem Thema korrekt'.
Benchmark-Sättigung tritt auf, wenn aufeinanderfolgende SKILL.md-Mutationen keine Score-Verbesserungen mehr produzieren. Dein Agent hat die Obergrenze erreicht.
Manuelle Bearbeitung ist redaktionell: du schreibst Agenten-Anweisungen um, sie klingen präziser, du deployest erneut. Aber 'klingt präziser' ist kein Beweis. Auto Skill Improver ist empirisch.
Ja. Auto Skill Improver ist vollständig Open Source und kostenlos nutzbar. Der Quellcode ist auf GitHub unter github.com/mlobo2012/auto-skill-improver verfügbar.
Aufhören zu raten. Anfangen zu messen.
Lade den Quickstart-Leitfaden herunter, klone das Repo und führe deine erste OpenClaw benchmark-gesteuerte Verbesserungsschleife in unter 10 Minuten durch.