FEATUREDr/LocalLLaMA· rssEN21:01 · 05·11
用于 RL 训练的 prompt caching:长提示短回答负载提速 7.5 倍
作者提出 RL 训练版 prompt caching。Qwen3.5-4B 在 16k prompt、64 输出条件下提速 7.5 倍,G=8 的 1000/100 token 示例从 8800 token 降到 1800 个唯一 token。
#Fine-tuning#Inference-opt#Qwen#girishkumama
精选理由
HKR 三项都成立:标题有“RL 版 prompt caching”的新鲜角度,正文给出 16k/64 与 G=8 token 去重数字。分数压在 78,因为来源是 Reddit 单帖,尚缺独立复现与代码/论文背书。
一句话点评
这个 Reddit 贴只剩标题和摘要,但 7.5x 若能复现,RL 长提示训练的浪费会被直接打穿。
锐评
7.5 倍加速这个数很香,但我先不把它当成训练系统突破;正文 403,只有标题和摘要,benchmark 细节没露。已知条件是 Qwen3.5-4B、16k prompt、64 输出,另一个 G=8 例子把 1000/100 token 的 8800 token 处理量压到 1800 unique token。
这路子对长题干、短答案的 RL 很对症,比如数学、多轮工具轨迹、代码评测前缀。它吃的是重复前缀的 KV/计算复用红利,不是优化器或 credit assignment 的红利。要紧的是它会不会破坏 per-sample logprob、advantage、masking 的一致性;如果实现只在 rollout 前缀复用,价值很实在。若连反传路径也省,细节必须摊开。
HKR 分解
hook ✓knowledge ✓resonance ✓