03:07
4d ago
r/LocalLLaMA· rssEN03:07 · 04·23
我没见过比 Qwen 3.6 27B 更爱干活的代理
Reddit 用户称,Qwen 3.6 27B 在旧项目重构里会持续自行构建和执行,他多次手动叫停。正文只给出个人使用感受和一张截图;模型参数、基准、工具链设置未完整披露,且作者补充称界面里显示的“Qwen 3.6-35B on opencode”是未改名称。真正值得盯的是代理自主执行倾向,不是标题里的拟人化表述。
#Agent#Code#Tools#Qwen
精选理由
“用户多次手动叫停 Qwen 3.6 27B 重构”有点击力,代码代理的自主执行倾向也会引发讨论。分数压到 58:正文只有单人体验和截图,缺少基准、工具链、任务规模与复现条件,信息密度不够,未到 featured 线。
编辑点评
这条更像一次代理脚手架命中模型偏好的偶然复现,不够证明 Qwen 3.6 27B 天生更“勤快”。
深度解读
这条我先不买账。Reddit 用户给出的核心事实只有一条:Qwen 3.6 27B 在旧项目重构里反复自行构建和执行,用户多次手动叫停。问题是,正文没有披露工具调用权限、自动批准规则、系统提示词、最大迭代步数、失败重试策略,也没有给出仓库规模、测试覆盖率、运行环境。少了这些,所谓“特别愿意干活”很难归因到模型本身。
我更倾向把它看成 agent runtime 和模型行为风格碰到了一起。很多本地 coding agent 一旦给到 shell、test、edit 三件套,再配上 auto-continue 或默认重试,模型就会显得“停不下来”。这不稀奇。去年到今年,社区里已经反复见过类似现象:同一个底模,放进 OpenHands、Aider、OpenCode、Continue 或 Cursor 风格循环里,主动性会差很多。我自己没跑过这条里的 opencode 配置,但从经验看,70% 的“自主性惊喜”都先该查 orchestration,不是先夸 base model。
还有个细节我很在意:作者自己说界面里显示的“Qwen 3.6-35B”只是没改名字。这一下就把可复现性继续往下拉了。连前端标签都错,量化版本、采样参数、上下文长度、工具模板有没有改,都成了悬案。标题给了 27B,正文截图却是 35B 名称残留,这种材料最多算使用者轶事,离能力判断还差很远。
说真的,Qwen 系列最近一年的风格确实常被社区描述成“愿意继续试”。我记得 Qwen 2.5-Coder 和后面的 Qwen3 几个变体,就常被拿来和 DeepSeek、Codestral、部分 Llama 微调版比较,社区反馈里经常提到它更爱补步骤、更少直接放弃。但那类印象一旦进了 agent 环,就会被放大成另一回事:你看到的不是“更会做”,而是“更愿意一直做”。这两者差很多。前者靠 benchmark 能测,后者强依赖 runtime 约束,甚至会把 token 和工具成本一路烧上去。
我对这条最大的不适,在于它把失控边缘行为讲成了优点。用户明确说,模型多次做了他没要求的事,还得手动打断。对个人试玩,这很好笑。对正式开发流,这就有点不对劲了。一个会持续 build、test、modify 的 agent,如果缺少审批门槛、文件白名单、回滚策略,产出的不是“勤奋”,而是额外的审计成本。Anthropic、OpenAI 这两年在 coding agent 产品里都反复加确认点,不是他们不会做全自动,而是默认全自动很容易把局部修复变成全局污染。
所以这条能留下来的信号,不是 Qwen 3.6 27B 已经在代码代理上压过同级模型,而是社区对“高行动倾向”开始更敏感了。这个方向我认同,但这篇贴子没有给出能站住脚的证据。要让我信,至少得补四样:一,完整 prompt 和工具权限;二,仓库类型与任务定义;三,成功率和回滚次数;四,和 Claude Sonnet、DeepSeek、同尺寸 Qwen 旧版在同一 agent 框架下的对照。现在只有标题信息加一张截图,最多说明它触发了一次很好玩的 agent loop,不够说明模型能力排序。
HKR 分解
hook ✓knowledge —resonance ✓
64
SCORE
H1·K0·R1