Zum Hauptinhalt springen

OraClaw Bandit

Skill Verifiziert Aktiv

A/B-Tests und Funktionsoptimierung für KI-Agenten. Wählen Sie automatisch die beste Option mit Multi-Armed Bandits und kontextbezogenen Bandits (LinUCB). Kein Data Warehouse erforderlich – funktioniert ab der Anfrage.

Zweck

KI-Agenten mit präzisen, deterministischen Optimierungsalgorithmen für die Entscheidungsfindung auszustatten, damit sie die besten Optionen auswählen, effektive A/B-Tests durchführen und Funktionen optimieren können, ohne auf potenziell fehleranfällige LLM-Heuristiken angewiesen zu sein.

Funktionen

  • Automatische Auswahl der besten Varianten mittels Bandits
  • Kontextbezogene Optimierung mit LinUCB
  • Latenzarme (<25ms) und tokenfreie Berechnungen
  • Mehrere Integrationsmethoden (MCP-Server, REST-API, SDK)
  • Unterstützung für verschiedene Optimierungsalgorithmen

Anwendungsfälle

  • Auswahl der besten Variante aus mehreren Optionen für A/B-Tests
  • Optimierung von Feature-Flags, Prompts, E-Mail-Betreffzeilen oder beliebigen Auswahlmöglichkeiten
  • Kontextbezogene Auswahl basierend auf Benutzer, Zeit oder Situation
  • Durchführung adaptiver Experimente ohne vordefinierte Stichprobengrößen

Nicht-Ziele

  • Durchführung beliebiger mathematischer Berechnungen über die Optimierung hinaus
  • Als allgemeines Werkzeug für Datenanalyse oder Data Warehousing fungieren
  • Ersetzung von LLM-Argumentation für Aufgaben, die keine deterministischen mathematischen Lösungen erfordern

Praktiken

  • Optimierung
  • Experimentelles Design
  • Machine Learning Operations

Voraussetzungen

  • ORACLAW_API_KEY Umgebungsvariable für Premium-Funktionen
  • Node.js/npm für lokale MCP-Server-Einrichtung

Installation

npx skills add Whatsonyourmind/oraclaw

Führt das Vercel skills CLI (skills.sh) via npx aus — benötigt Node.js lokal und mindestens einen installierten skills-kompatiblen Agent (Claude Code, Cursor, Codex, …). Setzt voraus, dass das Repo dem agentskills.io-Format folgt.

Qualitätspunktzahl

Verifiziert
99 /100
Analysiert about 23 hours ago

Vertrauenssignale

Letzter Commit12 days ago
Sterne8
LizenzMIT
Status
Quellcode ansehen

Ähnliche Erweiterungen

Measure Experiment Design

100

Designs an A/B test or experiment with clear hypothesis, variants, success metrics, sample size, and duration. Use when planning experiments to validate product changes or test hypotheses.

Skill
product-on-purpose

CE Optimize

100

Run metric-driven iterative optimization loops -- define a measurable goal, run parallel experiments, measure each against hard gates or LLM-as-judge scores, keep improvements, and converge on the best solution. Use when optimizing clustering quality, search relevance, build performance, prompt quality, or any measurable outcome that benefits from systematic experimentation.

Skill
EveryInc

Experiment Designer

99

Use when planning product experiments, writing testable hypotheses, estimating sample size, prioritizing tests, or interpreting A/B outcomes with practical statistical rigor.

Skill
alirezarezvani

Ab Test Setup

98

When the user wants to plan, design, or implement an A/B test or experiment. Also use when the user mentions "A/B test," "split test," "experiment," "test this change," "variant copy," "multivariate test," "hypothesis," "conversion experiment," "statistical significance," or "test this." For tracking implementation, see analytics-tracking.

Skill
alirezarezvani

Run Ab Test Models

95

Design and execute A/B tests for ML models in production using traffic splitting, statistical significance testing, and canary/shadow deployment strategies. Measure performance differences and make data-driven decisions about model rollout. Use when validating a new model version before full rollout, comparing candidate models trained with different algorithms, measuring business metric impact of model changes, or when regulatory requirements mandate gradual rollout.

Skill
pjt222

Creating Experiments

79

Guides agents through the 3-step experiment creation flow: defining the hypothesis, configuring rollout, and setting up analytics. Delegates rollout decisions to configuring-experiment-rollout and metric setup to configuring-experiment-analytics. TRIGGER when: user asks to create a new experiment or A/B test, OR when you are about to call experiment-create. DO NOT TRIGGER when: user is updating an existing experiment, managing lifecycle, or only browsing experiments.

Skill
PostHog