Eval
Skill Verifiziert AktivEvaluate and rank agent results by metric or LLM judge for an AgentHub session.
To provide a structured and objective way to assess the performance and quality of agent results within an AgentHub session.
Funktionen
- Evaluate agent results by metric
- Evaluate agent results using LLM judge
- Support for hybrid evaluation modes
- Rank agent results for a session
- Update session state after evaluation
Anwendungsfälle
- Use when comparing multiple agent runs in a session.
- Use to objectively rank agent performance based on predefined metrics.
- Use when qualitative assessment of agent outputs is needed to break ties or provide context.
- Use after an agent session concludes to determine the best performing agent.
Nicht-Ziele
- Running agent sessions themselves.
- Modifying agent configurations or parameters.
- Directly merging or deploying agent results.
Installation
Zuerst Marketplace hinzufügen
/plugin marketplace add alirezarezvani/claude-skills/plugin install agenthub@claude-code-skillsQualitätspunktzahl
VerifiziertVertrauenssignale
Ähnliche Erweiterungen
Context Compression
100This skill should be used when the user asks to "compress context", "summarize conversation history", "implement compaction", "reduce token usage", or mentions context compression, structured summarization, tokens-per-task optimization, or long-running agent sessions exceeding context limits.
Horizon Track
100Track long-horizon objectives across multiple sessions with milestone checkpoints, progress persistence, and drift detection
Treat
100Bereinigen Sie aufgeblähte Sitzungen mit einer Verordnung. Entfernt Fortschrittspunkte, veraltete Lesevorgänge, doppelte Inhalte und mehr.
Guard
100Schützen Sie Claude Code-Sitzungen vor Kontextüberlauf, indem Sie einen Hintergrund-Daemon ausführen, der die Sitzungsgröße überwacht und automatisch bereinigt, bevor die Komprimierung erreicht wird. Verwenden Sie dies, wenn der Benutzer "guard", "protect session", "context getting long", "prevent compaction", "session management" sagt oder Agententeams ausführt, die einen kontinuierlichen Kontextschutz benötigen.
Claude Handoff
100Führen Sie /handoff aus, um Sitzungsdaten zu erfassen, und schreiben Sie dann einen phasenweisen Implementierungsplan, der darauf verweist. Erstellt Beads für die Nachverfolgung.
List Topics
100Verwenden Sie dies, wenn der Benutzer nach Themen fragt, die in der aktuellen Sitzung besprochen wurden, eine Themenliste sehen möchte oder fragt, worüber gesprochen wurde.