r/LocalLLaMA· rssEN01:03 · 05·01
Qwen 3.6 27B vs Gemma 4 31B:谁写个吃豆人游戏更强?
Reddit 用户用同一个提示词让两个模型写一个单文件吃豆人游戏。Qwen 3.6 27B 输出了 33,946 个 token,耗时 18 分 4 秒;Gemma 4 31B 只输出了 6,209 个 token,耗时 3 分 51 秒。发帖人觉得 Gemma 更强,但没给出可复现的评分标准,所以这点先别太激动。
#Code#Benchmarking#Qwen#Gemma
精选理由
HKR 三项都达标,但证据仅来自 Reddit 单次测试,没有评分细则、生成产物或重复验证。这个信息量放在 60–71 分档合理,够吸引人但不足以进精选。
一句话点评
Gemma 4 31B 输出量只有 Qwen 3.6 27B 的五分之一,耗时却不到四分之一,但发帖人没给评分标准,这点先别太激动。
锐评
Reddit 用户用同一个提示词让两个模型写单文件吃豆人游戏。Qwen 3.6 27B 输出了 33,946 个 token,耗时 18 分 4 秒;Gemma 4 31B 只输出了 6,209 个 token,耗时 3 分 51 秒。发帖人主观判断 Gemma 更强,但正文没披露可复现的评分标准,所以这个结论只能当参考。
关键限制:来源是 Reddit 个人测试,不是标准化 benchmark;正文没给出每分钟通话成本、支持哪些国家号码、API 机制或调用限制。如果 Gemma 真的用更少 token 生成同等质量的代码,那对本地部署挺省钱——但缺了客观评分,这个判断挂不住。
HKR 分解
hook ✓knowledge ✓resonance ✓