FEATUREDr/LocalLLaMA· rssEN12:34 · 05·01
MiMo-V2.5-Pro:实际最强开源权重模型?
Reddit 用户 cjami 测了 Xiaomi MiMo-V2.5-Pro,在 Blood on the Clocktower 自主对局基准中进入头部梯队。其好人阵营胜率 88%,坏人阵营 48%;每局平均 183,639 输出 token,成本 0.99 美元,工具调用错误率 0.4%。真正值得盯的是性价比:Kimi K2.6 每局 580,000 token、2.65 美元、10-15 小时。
#Agent#Reasoning#Tools#Xiaomi
精选理由
单个 Reddit 基准源权威有限,不能按模型发布处理;但它是具名实测,给出胜率、token、成本和工具错误率,HKR 三项都成立。放在 78–84 档,适合精选但不到 P1。
一句话点评
MiMo-V2.5-Pro 这条别急着封王:BOTC 单基准很窄,但 $0.99/局和 0.4% 工具错误率确实扎眼。
锐评
MiMo-V2.5-Pro 的看点不是“最佳开权重”,是小米把 agent 成本打到能反复跑实验的区间。cjami 给出的 BOTC 数据是好人 88%、坏人 48%,每局 183,639 输出 token、$0.99、工具调用错误率 0.4%。这个基准偏社交推理,不能直接外推到 SWE-bench 或企业工具流,但它压中了 agent 系统最烦的两件事:长局推理成本和工具稳定性。Kimi K2.6 每局 580,000 token、$2.65、10–15 小时,MiMo 这组数更像工程效率信号。Reddit 正文 403,复现实验细节没拿到,先别把榜单标题当结论。
HKR 分解
hook ✓knowledge ✓resonance ✓