r/LocalLLaMA· rssEN16:58 · 06·04
编译加个 OpenBLAS,上下文窗口多塞 28%
Reddit 用户 Warrenio 发现,用 Vulkan + OpenBLAS 编译 llama.cpp 后,Qwen 3.6 27B 模型能塞约 112,896 token 的上下文,比只用 Vulkan 的 87,808 token 多了 28%。帖子贴了编译命令和 CMake 参数,但没解释这是预期行为、bug 还是测量误差。正文没披露硬件配...
#Inference-opt#llama.cpp#OpenBLAS#Qwen
精选理由
HKR 三项都达标,但来源是单个 Reddit 帖子,正文没说是预期行为、测量误差还是 bug。具体复现细节让它够格进 all,但不够 featured。
一句话点评
编译时加个 OpenBLAS 库,llama.cpp 跑 Qwen 3.6 27B 的上下文窗口从 87k 涨到 113k token,多了 28%。用户自己测的,没解释是预期行为还是 bug,也没说硬件配置。如果是真的,等于白捡 25k token 的上下文,但得先复现再说。
HKR 分解
hook ✓knowledge ✓resonance ✓