Zum Hauptinhalt springen
Dieser Inhalt ist noch nicht in Ihrer Sprache verfügbar und wird auf Englisch angezeigt.

Agent Evaluation

Skill Verifiziert Aktiv

Use when testing skills, commands, or agents for quality. Use after creating new skills, before deploying agents, or when debugging inconsistent agent behavior. Triggers on "evaluate", "test quality", "is this skill working", or QA of AI workflows.

Zweck

Systematically assess and improve the quality and reliability of AI agents and skills through a structured evaluation process.

Funktionen

  • Structured 5-dimension evaluation rubric
  • Methods for direct scoring and LLM-as-judge
  • Bias detection and mitigation strategies
  • Workflow examples for new skills and agent QA
  • Test case design principles including edge cases

Anwendungsfälle

  • Evaluating new skills before deployment
  • Debugging inconsistent agent behavior
  • Comparing different agent approaches or models
  • Performing systematic QA reviews of AI workflows

Nicht-Ziele

  • Performing one-off manual reviews of simple outputs
  • Evaluating purely creative or subjective tasks
  • Adding significant latency to real-time evaluations

Workflow

  1. Define criteria and thresholds
  2. Create test cases (easy, medium, hard, adversarial)
  3. Run direct scoring or LLM-as-judge evaluation
  4. Compare outputs and validate against ground truth
  5. Monitor agreement and iterate on prompts/skills

Praktiken

  • Evaluation methodology
  • Quality assurance
  • Agent testing
  • Rubric design

Installation

npx skills add guia-matthieu/clawfu-skills

Führt das Vercel skills CLI (skills.sh) via npx aus — benötigt Node.js lokal und mindestens einen installierten skills-kompatiblen Agent (Claude Code, Cursor, Codex, …). Setzt voraus, dass das Repo dem agentskills.io-Format folgt.

Qualitätspunktzahl

Verifiziert
99 /100
Analysiert 1 day ago

Vertrauenssignale

Letzter Commitabout 1 month ago
Sterne104
LizenzMIT
Status
Quellcode ansehen

Ähnliche Erweiterungen

Telegram Crabbox E2e Proof

100

Use when reviewing, reproducing, or proving OpenClaw Telegram behavior with a real Telegram user on Crabbox, including PR review workflows that need an agent-controlled Telegram Desktop recording, TDLib user-driver commands, Convex-leased credentials, WebVNC observation, and motion-trimmed artifacts.

Skill
steipete

Review Skill Format

99

Review a SKILL.md file for compliance with the agentskills.io standard. Checks YAML frontmatter fields, required sections, line count limits, procedure step format, and registry synchronization. Use when a new skill needs format validation before merge, an existing skill has been modified and requires re-validation, performing a batch audit of all skills in a domain, or reviewing a contributor's skill submission in a pull request.

Skill
pjt222

Init

100

Erstellt, aktualisiert oder optimiert eine AGENTS.md-Datei für ein Repository mit minimalen, hochgradig aussagekräftigen Anweisungen, die nicht entdeckbare Codierungs-Konventionen, Eigenheiten der Werkzeuge, Workflow-Präferenzen und projektspezifische Regeln abdecken, die Agenten nicht aus dem Code ableiten können. Verwenden Sie dies beim Einrichten von Agent-Anweisungen oder der Claude-Konfiguration für ein neues Repository, wenn eine vorhandene AGENTS.md zu lang, generisch oder veraltet ist, wenn Agenten wiederholt vermeidbare Fehler machen oder wenn sich die Repository-Workflows geändert haben und die Agent-Konfiguration bereinigt werden muss. Wendet einen Entdeckbarkeitsfilter an – der alles weglässt, was Claude aus README, Code, Konfiguration oder Verzeichnisstruktur lernen kann – und ein Qualitätstor, um zu überprüfen, ob jede Zeile korrekt und betrieblich relevant bleibt.

Skill
mcollina

Context Compression

100

This skill should be used when the user asks to "compress context", "summarize conversation history", "implement compaction", "reduce token usage", or mentions context compression, structured summarization, tokens-per-task optimization, or long-running agent sessions exceeding context limits.

Skill
muratcankoylan

Qa

100

Interactive QA session where user reports bugs or issues conversationally, and the agent files GitHub issues. Explores the codebase in the background for context and domain language. Use when user wants to report bugs, do QA, file issues conversationally, or mentions "QA session".

Skill
mattpocock

Context7 Cli

100

Verwenden Sie die ctx7 CLI, um die Dokumentation von Bibliotheken abzurufen, KI-Codierungsfähigkeiten zu verwalten und Context7 MCP zu konfigurieren. Aktivierung, wenn der Benutzer „ctx7“ oder „context7“ erwähnt, die aktuelle Dokumentation für eine beliebige Bibliothek benötigt, Fähigkeiten installieren/suchen/generieren möchte oder Context7 für seinen KI-Codierungsagenten einrichten muss.

Skill
upstash