Kostenlos & Open Source

Auto Skill Improver für OpenClaw — Benchmark-gesteuerte Agenten-Skill-Optimierung

Teste und verbessere deine SKILL.md-Dateien, Agenten-Personas und Multi-Agenten-Koordination mit empirischer Messung. Inspiriert von Karpathys Autoresearch.

So funktioniert es mit OpenClaw

  1. 1Klassifizieren — das Tool erkennt deinen OpenClaw-Skill-Typ (Research-Agent, Coding-Agent, Orchestrator etc.)
  2. 2Benchmarken — es erstellt eine Testsuite, die deine SKILL.md-Anweisungen gegen reale Agenten-Szenarien testet
  3. 3Mutieren — eine Anweisungsänderung nach der anderen, jede gegen den Benchmark getestet
  4. 4Behalten oder verwerfen — nur Mutationen, die Agenten-Output messbar verbessern, überleben

Guide-Datei herunterladen

E-Mail eingeben, um herunterzuladen auto-skill-improver-openclaw-quickstart.md und Zugang zum GitHub-Repository zu erhalten.

Kein Spam, niemals. Deine E-Mail wird sicher gespeichert, damit wir dir Updates zu neuen Anwendungsfällen und Workflows senden können.

Schritt für Schritt: Auto Skill Improver in OpenClaw einrichten

1

Quickstart-Datei herunterladen

Gib deine E-Mail im Formular oben ein, um die OpenClaw Quickstart-Datei herunterzuladen.

2

Datei an einen OpenClaw-Agenten übergeben

Im Chat einfügen oder die Datei direkt anhängen.

3

Der Agent klont das Repo und richtet alles ein

Auto Skill Improver wird automatisch aus den Anweisungen in der Datei installiert.

4

Auf eine SKILL.md-Datei in deinem Workspace richten

Das Tool zielt auf deine Agenten-Skill-Datei und beginnt mit der Einrichtung.

5

Baseline prüfen, Mutationen durchführen

Der Agent benchmarkt jede Änderung automatisch — nur Verbesserungen werden behalten.

6

Die verbesserte SKILL.md ersetzt das Original

Sobald der Benchmark saturiert, ist deine optimierte SKILL.md bereit.

Warum die meiste OpenClaw Skill-Iteration scheitert

Du bearbeitest deine SKILL.md. Die Agenten-Persona klingt schärfer. Du deployest erneut. Aber die tatsächliche Agenten-Leistung hat sich nicht messbar verbessert. Die meiste Skill-Bearbeitung ist redaktionell — Umschreiben basierend auf Intuition statt Evidenz.

Agenten-Gefühl

  • SKILL.md umformulieren, hoffen dass der Agent besser funktioniert
  • Keine Baseline — keine Möglichkeit zu wissen, ob Agenten-Verhalten sich verbessert hat
  • Mehrere Persona-Änderungen gleichzeitig verbergen, was tatsächlich geholfen hat
  • Subjektive Bewertung: 'der Agent scheint schlauer'

Agenten-Wissenschaft

  • Messbare Baseline vor jeder SKILL.md-Änderung etablieren
  • Eine Anweisung nach der anderen mutieren
  • Den gleichen Benchmark vorher und nachher durchführen
  • Nur behalten, was höher punktet — den Rest verwerfen

Was es in OpenClaw Skills findet

Das Tool deckt strukturelle Probleme in deinen SKILL.md-Dateien und Agenten-Konfigurationen auf, die beim manuellen Editing unsichtbar sind — Probleme, die Multi-Agenten-Leistung still verschlechtern.

📝

Unklare Output-Verträge

Vage Erfolgskriterien, die Agenten erlauben, bei jedem Durchlauf völlig unterschiedliche Ausgaben zu produzieren.

🔄

Fehlendes Fallback-Verhalten

Kein definierter Wiederherstellungspfad, wenn ein Tool-Aufruf fehlschlägt oder Agenten-Koordination zusammenbricht.

Widersprüchliche Instruktionsebenen

Widersprüchliche Anweisungen verteilt über SKILL.md-Dateien, Persona-Configs und Orchestrierungsregeln.

🔗

Abhängigkeits- & Portabilitätsprobleme

Hart codierte Pfade, fehlende Imports oder Annahmen, die in verschiedenen Agenten-Umgebungen brechen.

📊

Schwache Evidenzdisziplin

Agenten, die Behauptungen ohne Belege aufstellen, Aussagen ohne Daten, Entscheidungen ohne Argumentationsketten.

🏗️

Strukturelle Formatierungsprobleme

Inkonsistente Überschriftenebenen, fehlerhaftes Markdown oder Ausgaben, die nicht dem Format entsprechen.

Die Karpathy-inspirierte Methode

Andrej Karpathys Autoresearch wendet Messdisziplin auf Forschungsiteration an. Auto Skill Improver wendet das gleiche Prinzip auf OpenClaw Skill-Engineering an — eine kontrollierte Schleife, in der jede SKILL.md-Änderung rechenschaftspflichtig ist.

1

Skill-Typ klassifizieren

Das Tool analysiert deine SKILL.md-Datei und bestimmt ihre Kategorie — Research-Agent, Coding-Agent, Orchestrator, Reviewer oder anderes.

2

Einen echten Benchmark erstellen

Kein Gefühls-Check. Eine strukturierte Testsuite mit Bestanden/Nicht-bestanden-Kriterien, die die tatsächlichen Fähigkeiten deines Agenten gegen repräsentative Multi-Agenten-Szenarien testet.

3

Baseline etablieren

Den Benchmark auf der unveränderten SKILL.md ausführen. Den Score aufzeichnen. Das ist dein Vergleichspunkt.

4

Eine Sache nach der anderen mutieren

Eine einzelne Anweisung ändern, eine Einschränkung hinzufügen, eine Mehrdeutigkeit entfernen. Nie mehrere SKILL.md-Direktiven gleichzeitig ändern.

5

Nur behalten, was verbessert

Den Benchmark nach jeder Mutation erneut ausführen. Wenn der Score steigt, bleibt die Änderung. Wenn nicht — wird sie verworfen.

6

Aufhören wenn der Benchmark saturiert

Wenn aufeinanderfolgende Mutationen keine Verbesserungen mehr bringen, hat deine SKILL.md ihre aktuelle Obergrenze erreicht.

Wann verwenden — und wann nicht

Ideal für

  • OpenClaw SKILL.md-Dateien, die Agenten-Verhalten definieren
  • Agenten-Persona-Konfigurationen in Multi-Agenten-Setups
  • Orchestrierungsregeln, die messbare Verbesserung brauchen
  • Jedes OpenClaw-Setup, bei dem du Belege brauchst, dass Änderungen tatsächlich helfen

Nicht die richtige Wahl

  • Einmal-Prompts, die du einmal verwendest und verwirfst
  • Kreative Agenten ohne objektive Erfolgsmetrik
  • Skills, die bereits an der Leistungsgrenze sind
  • Situationen, in denen du nicht definieren kannst, was 'besser' für Agenten-Output bedeutet

Häufig gestellte Fragen

Auto Skill Improver für OpenClaw ist ein Open-Source-Tool, das benchmark-gesteuerte Iteration auf deine SKILL.md-Dateien und Agenten-Konfigurationen anwendet. Es klassifiziert deinen Agenten-Typ, erstellt eine Testsuite und mutiert systematisch eine Anweisung nach der anderen.

Es behandelt deine SKILL.md als testbares Artefakt. Das Tool generiert Szenarien, die deine Agenten-Anweisungen testen, misst Output-Qualität und nimmt gezielte Änderungen vor — eine nach der anderen.

Aufhören zu raten. Anfangen zu messen.

Lade den Quickstart-Leitfaden herunter, klone das Repo und führe deine erste OpenClaw benchmark-gesteuerte Verbesserungsschleife in unter 10 Minuten durch.