r/LocalLLaMA· rssEN20:11 · 05·14
llama.cpp 每次对话都重算整个提示词,40k token 的缓存几乎没用上
有用户在 LocalLLaMA 反映,llama.cpp 在 150k 上下文窗口下,每次对话都重新处理 4 万多个 token 的提示词。虽然缓存相似度高达 0.996(几乎完全命中),但实际命中的 token 数只有约 4,750,导致提示词评估时间从 19 token 的 473 毫秒暴涨到 44,016 token 的 222 秒。缓存占用 4...
#Agent#Code#Inference-opt#llama.cpp
精选理由
这是一个 Reddit 单点事故,没有确认根因或影响范围,所以 tier 和 importance 不动。但数据本身够硬:30k prompt、450W、PP 2273、TG 49.3,对本地推理用户来说是一个明确的 latency 异常信号。hook 来自 LCP 0.996 却重算 4 万 tokens 的反直觉现象,knowledge 靠具体 benchmark 数字撑住,relevance 落在本地 agent 构建者的 latency 和算力浪费痛点上。评分 63 合理,不升 featured。
一句话点评
llama.cpp 在 150k 上下文下,每次对话都重算 4 万 token 的提示词,缓存相似度 0.996 但实际命中不到 5k token,导致单次评估从 0.5 秒飙到 222 秒。问题出在缓存上限设了 2.5GB,实际占用 4.6GB,超限后旧缓存被踢。正文没披露具体复现步骤和 llama.cpp 版本。短评:缓存命中率虚高,实际没省时间,调大缓存上限或换更智能的驱逐策略能缓解。
HKR 分解
hook ✓knowledge ✓resonance ✓