FEATUREDr/LocalLLaMA· rssEN23:54 · 04·19
有人在 32GB Mac 上用 Qwen3.6-35B-A3B-UD-Q4_K_M 做成真实编码工作吗?
一名 Reddit 用户称,Qwen3.6-35B-A3B-UD-Q4_K_M 在 32GB M2 MacBook Pro 上做真实代码修复时,需把 llama.cpp 上下文压到 32768 tokens 才不 OOM,但多轮 compaction 后会丢失关键信息。帖文给出配置:llama-server 使用 -c 32768、-ngl 99,关闭 subagents 后首轮 compaction 还能维持任务,第二轮常把摘要退化回原始提示,连当前目录名都会记错。真正该盯的是模型卡条件:官方默认上下文 262,144 tokens,并建议复杂任务至少保留 128K;在 32GB 机器上,这个组合更像内存约束,不是单纯代码能力问题。
#Code#Memory#Tools#llama.cpp
精选理由
HKR 三项都命中:标题抓住 32GB Mac 跑本地代码代理的痛点,正文也给出可复现参数。分数压在 71,因为证据只有单个 Reddit 实测,没有系统 benchmark 或多源确认。
编辑点评
Qwen3.6-35B-A3B 在 32GB Mac 上被压到 32K 上下文后,掉链子的先是记忆,不是代码能力。
深度解读
这条帖子把一个常被混着聊的问题拆开了:本地代码 agent 失败,很多时候不是模型“不会写”,而是你把它训练和对齐时依赖的上下文条件直接砍没了。这里给出的条件很明确:Qwen3.6-35B-A3B-UD-Q4_K_M 在 32GB M2 MacBook Pro 上,llama.cpp 只能把上下文设到 32768 才不 OOM;官方模型卡默认是 262144,复杂任务建议至少保留 128K。32K 对 128K,不是小幅降级,是把这类长链路 coding agent 的工作记忆砍到四分之一以下。帖子里那种“首轮 compaction 还能撑,第二轮开始把摘要退化回原始提示,连当前目录都记错”的表现,我看着很像典型的 context starvation,不像单纯模型变笨了。
我一直觉得,2025 到 2026 这波“本地替代 Claude Code”的讨论,最大误导就是把参数规模、量化尺寸、工具调用、上下文预算全塞进一个结论里。35B-A3B 这种配方,宣传点通常会落在“激活参数少,单位显存更友好”。这话没错,但只说了一半。对代码 agent 来说,常驻成本不只在权重,还在 KV cache、工具回填、diff、目录树、报错栈、子代理轨迹。你把 task/subagent 关掉以后,第一轮 compaction 变好,已经说明瓶颈就在“同一时刻要保留多少工作记忆”,不是“这模型连 bug 都看不懂”。很多人拿“我能在笔记本上跑起来”去替代“我能稳定做完真实任务”,这两个判断差很远。
回到外部对比,我对 Claude Code 这类托管方案的看法一直很直接:它们贵,但贵得并不神秘,钱基本花在上下文、推理冗余和失败恢复上。帖子里拿 Anthropic Claude Opus 4.7 做参照,虽然正文没给同任务 token 消耗、轮数和文件规模,我还是倾向于认为差距主要不在裸模型智力。Claude Code 过去一年把 repo map、edit loop、summarization、tool retries 打磨得很深,背后还默认站在远高于 32K 的可用上下文上。你本地把窗口压到 32K,再走 opencode 这类 agent 框架,等于同时吃三层损失:量化损失、上下文损失、框架 compaction 策略损失。输给托管方案,不丢人,也不说明 Qwen 这代不行。
我对帖子里另一个细节也有点在意:作者试过 k/v cache quantization,目录名立刻开始拼错。这种现象很说明问题。很多本地玩家把 KV cache 量化当成“白捡内存”,可一旦任务依赖精确字符串、路径、变量名、测试输出,误差会先打在最脆弱的短期记忆上。代码任务不是聊天。聊天里把一个名词记偏一点,用户还能容忍;agent 一旦把 cwd、文件名、函数名记错,后面每一步工具调用都在扩大误差。我自己没复现这组参数,但从机理上说,这个抱怨完全讲得通。
还有个背景,文章里没展开:llama.cpp、opencode、Aider、Continue 这一类本地 coding 栈,过去一年都在补同一个洞——怎样在有限上下文里做 repo-level work。有人做分层检索,有人做语义摘要,有人做文件 pinning,有人直接限制 agent 自主探索。到 2026 年,这个问题还是没被“更强开源模型”自动解决。模型卡明写复杂任务要 128K,你给它 32K,再指望 compaction 两三轮后还能稳住全局状态,这个预期本身就偏乐观。说真的,这不是某个开源模型的独有问题,Llama、DeepSeek、Qwen 在本地代码代理里都碰过,只是 Qwen 这次把最低可用条件写得更直白。
我对这条叙事唯一想 push back 的地方,是“需要更强机器”这句结论还不够精确。对,32GB Mac 跑这种任务大概率不够。但升级方向未必只是“更大内存”。如果任务是跨前后端定位 bug,很多时候先拆 agent 流程,比先换机器更有效:把 repo map 固定、把高频文件 pin 住、限制并发子代理、减少无关终端输出、把失败摘要改成结构化状态而不是自然语言压缩。帖子里已经验证了关掉 subagents 会好一些,这就说明工程栈还有优化空间。只是别自欺欺人:当模型卡都写着 128K 才能保住复杂推理时,32GB 本地机想稳定替代云端 coding agent,我不买这个说法。
所以这条给从业者的信号很简单。第一,别再把“跑得动 Q4”当成“能做真实代码工作”。第二,开源 coding agent 的瓶颈正在从 base model 质量,转到 memory budget 和 compaction 设计。第三,凡是宣传“Mac 本地够用了”的演示,先问上下文开到多少、是否跨文件、压缩几轮后还能不能记住路径名。连这些都没给,那个 demo 参考价值就很有限。
HKR 分解
hook ✓knowledge ✓resonance ✓