Profile of xdotli

benchflow

Last released Jul 11, 2026

Multi-turn agent benchmarking with ACP — run any agent, any model, any provider.

envzero

Last released Jun 15, 2026

Placeholder package for future envzero tooling.

latentevals

Last released Jun 13, 2026

Placeholder package for future latent evaluation tooling.

gicsbench

Last released Apr 24, 2026

GICS benchmarking framework for AI agents

govbench

Last released Apr 24, 2026

Governance benchmarking framework for AI agents

benchskills

Last released Apr 23, 2026

Agent skills benchmarking framework

neoswe

Last released Apr 21, 2026

NeoSWE — next-generation software engineering benchmark

clawsbench

Last released Apr 8, 2026

ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

onlylabs

Last released Apr 4, 2026

OnlyLabs

srbench

Last released Mar 28, 2026

SRBench — self-rewarding benchmark

selfreward

Last released Mar 28, 2026

SelfReward — self-rewarding agents

autoreward

Last released Mar 28, 2026

AutoReward — automated reward modeling

rsibench

Last released Mar 28, 2026

RSI Bench — agent benchmark suite

skillsbench

Last released Jan 27, 2026

Skillsbench - A placeholder package

pokemon-gym

Last released Mar 24, 2025

A placeholder package for pokemon-gym

benchmarkthing

Last released Dec 2, 2024

Evals as an API - The easiest way to evaluate and benchmark AI models and systems

Xiangyi Li

16 projects

benchflow

envzero

latentevals

gicsbench

govbench

benchskills

neoswe

clawsbench

onlylabs

srbench

selfreward

autoreward

rsibench

skillsbench

pokemon-gym

benchmarkthing