r/LocalLLaMA· rssEN03:31 · 05·11
同一个本地模型,OpenClaw 缓存命中率为 0,Hermes 却正常,问题出在哪?
一位用户在 Mac 上用 oMLX v0.3.8 跑 Qwen3.6-35B-A3B-RotorQuant-MLX-4bit 模型,发现 OpenClaw 发请求时缓存命中率始终为 0%,而直接重复调用 /v1/chat/completions 接口能缓存 61,440 个 token(提示词共 63,020 个),Hermes 客户端对同一个 oML...
#Agent#Inference-opt#OpenClaw#oMLX
精选理由
HKR 全部通过:H 靠的是同一个模型在不同工具里表现不同,给了一个可 debug 的钩子;K 给了三个具体数字(版本号、缓存量、效率百分比);R 确实戳到了本地推理的成本和延迟痛点,但只针对 oMLX + OpenClaw 这一套组合,不是产品发布或研究突破,所以重要性压在 40–59 区间。
一句话点评
oMLX 的 KV 缓存对不同客户端表现不一致:Hermes 能命中 93%,OpenClaw 却始终 0%。问题大概率出在 OpenClaw 的请求格式或对话 ID 管理上,导致服务端不认缓存。正文没披露 OpenClaw 的具体请求日志,排查得先抓包看 prompt 是否完全一致。
HKR 分解
hook ✓knowledge ✓resonance ✓