Ml Model Eval Benchmark

by Muhammad Mazhar Saeed v0.1.0

Compare model candidates using weighted metrics and deterministic ranking outputs. Use for benchmark leaderboards and model promotion decisions.

Downloads

Versions

Latest Changes

Get a managed OpenClaw server and install this skill from your dashboard. No SSH, no Docker, no configuration needed.