FEATUREDr/LocalLLaMA· rssEN16:50 · 05·19
6GB GPU 本地会议摘要下限:Qwen3.5 0.8B 57 秒可用,Granite 4 350M 幻觉
作者在 RTX 3060 Laptop 6GB 上测试 VoiceFlow 1.6.0,Qwen3.5 0.8B 以 16K context 用 57 秒总结 4 分钟会议,Granite 4 350M 虽快到 0.6-2.8 秒但编造 Binance 与 Star Trek 内容。
#Audio#Inference-opt#Tools#Qwen
精选理由
单人 Reddit 实测不是行业大事,但有可复现硬件、模型、context 与耗时,且本地会议总结正贴近隐私和成本需求;命中 HKR 三项,按低位 featured 给 73。
一句话点评
6GB 本地会议摘要的底线不是“能跑”,而是 0.8B 也要花 57 秒;350M 快到秒回却胡编,速度在这里很廉价。
锐评
6GB 本地会议摘要已经能用,但下限比很多“端侧 AI”叙事难看:Qwen3.5 0.8B 在 RTX 3060 Laptop 6GB 上,用 16K context 总结 4 分钟会议要 57 秒。这个速度离实时助理还远,却至少没有把任务带歪。
Granite 4 350M 的 0.6-2.8 秒反而是反证。它快,但编出 Binance 和 Star Trek,说明小模型在摘要任务里先坏的是事实约束,不是吞吐。正文被 Reddit 403 挡住,我只能用摘要里的条件;但这个结果跟端侧语音链路的经验一致:ASR 后摘要,宁可慢一分钟,也不能给用户一份自信的幻觉。
HKR 分解
hook ✓knowledge ✓resonance ✓