AI HOT 精选· aihot-apiZH23:08 · 06·06
MiniMax M3 代码审计:花 7 分钱抓到 13 个 bug,效果和 1.3 美元的 Claude Opus 一样
MiniMax 拿自己的 M3 模型和 Claude Opus 4.8 做了一次代码审计对比:同一份代码里预先埋了 17 个 bug,用同样的提示词去抓。结果 M3 花了 7 美分找到 13 个,最便宜的 Claude 运行也找到 13 个,但花了 1.3 美元,成本差了将近 19 倍。这个对比挺直观的——如果代码审计这类任务对模型能力要求没那么极致,...
#Code#Benchmarking#MiniMax#Claude
精选理由
MiniMax 拿自家 M3 和 Claude Opus 4.8 比代码审计,17 个预埋 bug 各抓到 13 个,M3 花 7 美分,最便宜的 Claude 也要 1.3 美元,成本差了 19 倍。对比条件清楚(同一仓库、同一提示词),数字直观,对选代码审计模型的开发者有参考价值。但这是 MiniMax 自测,正文没披露完整仓库、提示词和可复现步骤,结论先当参考看,别直接当采购依据。
一句话点评
MiniMax 拿自家 M3 和 Claude Opus 4.8 比代码审计:同一份代码埋了 17 个 bug,同样提示词。M3 花 7 美分找到 13 个,最便宜的 Claude 也找到 13 个,但花了 1.3 美元,成本差 19 倍。
关键数字:17 个 bug 只抓到 13 个,说明两者能力上限差不多,都没全对。成本差距主要来自模型定价,M3 走性价比路线。
缺什么:没披露 bu...
HKR 分解
hook ✓knowledge ✓resonance ✓