00:06
1h ago
新FEATUREDX · @dotey(宝玉)· x-apiZH00:06 · 04·29
微软 VibeVoice-ASR 在 Mac 上完成 1 小时播客实测
Simon Willison 用 4-bit VibeVoice-ASR 在 M5 Max MacBook Pro 转写 1 小时播客,耗时 8 分 45 秒。模型为 9B 参数、MIT 协议,支持 60 分钟音频、50 多种语言和说话人结构化输出。真正值得盯的是内存:prefill 峰值 61.5GB,32GB 笔电基本跑不动。
#Audio#Inference-opt#Microsoft#Simon Willison
精选理由
HKR 三项都成立:Simon Willison 的本地实测给出速度、参数量和内存峰值,能直接影响从业者判断开源 ASR 的可用硬件。题材是单点评测,非新模型发布,落在 featured 下沿。
编辑点评
VibeVoice-ASR 最狠的不是 8分45秒转完一小时,而是把本地长音频 ASR 的门槛抬到 64GB 内存。
深度解读
VibeVoice-ASR 这次把一小时播客压到 8分45秒,但门槛也被 61.5GB prefill 峰值钉死了。
我对这条的判断挺直接:它不是 Whisper 的普通替代品,而是把“转写、分离说话人、时间段结构化”塞进一个 9B 模型后的第一批可用形态。Simon Willison 跑的是 4-bit 社区量化版,文件 5.71GB,原模型 17.3GB,机器是 128GB 内存的 M5 Max MacBook Pro。这个组合转写 1 小时播客耗时 8分45秒,生成阶段内存约 18GB。听起来很漂亮,但 prefill 峰值冲到 61.5GB,已经把 32GB 笔电排除在外。很多本地 AI demo 最后都死在这里:模型权重看着小,KV cache、长上下文音频 token、prefill 临时张量一起上来,真实门槛比下载页面高一档。
这和 Whisper 的差异很关键。OpenAI Whisper 当年强在鲁棒性和分发,large-v3 大概 1.55B 参数,社区围绕 faster-whisper、whisper.cpp、mlx-whisper 做了大量优化。可 Whisper 自己不解决 diarization。实际生产里要接 pyannote、WhisperX 或自研 VAD 和对齐模块。VibeVoice-ASR 的卖点是单次处理 60 分钟音频,还直接输出“谁在说、什么时候说、说了什么”。对播客、访谈、会议纪要,这个机制比单纯 WER 低几个点更值钱。正文没披露 WER、CER、多语言分项,也没给和 Whisper large-v3、NVIDIA Parakeet、AssemblyAI、Deepgram 的对照。没有这些数,我不会把它叫成“更强 ASR”。但我会把它看成一个更顺手的长音频工作流模型。
有意思的是它的错误形态。模型把两人对谈识别成三个说话人,因为 Lenny 的开场白和广告口播录音环境不同。这类错不新,diarization 系统一直会把音色、麦克风、房间混响当成人的边界。区别在于 VibeVoice-ASR 把这个问题藏进单模型输出里。传统拼接方案里,你至少知道 pyannote 在哪一步分错了,还能调阈值、聚类参数、VAD 切片。一个端到端输出看起来干净,调试空间反而小。对个人用户这没事,对媒体库、法务记录、医疗访谈这类场景就麻烦。正文没有披露说话人一致性指标,也没有说跨切片 ID 怎么合并。它单次最多 60 分钟,超过就要自己切片,再手动对齐说话人 ID。这说明“长音频”还没有真的进入无限流式状态。
我还会盯 MIT 协议这点。微软今年把 Phi、BitNet、VibeVoice 这类小到中等模型频繁放出来,策略跟 OpenAI 当年的 Whisper 不一样。Whisper 是一次性把 ASR 社区底座打穿,很多 SaaS 公司被迫把差异化挪到工作流、合规和 UI。VibeVoice-ASR 如果质量接近商用 API,它会先打到播客工具、字幕工具、采访整理工具的底层成本。1 小时音频 8分45秒本地完成,等于个人创作者可以在无云端上传条件下跑完初稿。可这个前提是 64GB 内存以上机器。苹果 M 系列统一内存给了它一个舒服落点,普通 Windows 笔电和公司发的 32GB MacBook Pro 不够。
我对“5.71GB 量化版就能跑”这种传播口径有点警觉。权重大小不是部署成本,特别是长上下文音频模型。这里最扎眼的数字不是 5.71GB,而是 max-tokens 要从默认 8192 手动调到 32768,否则只能覆盖约 25 分钟音频。这个细节说明模型把长音频转成了很长的生成序列,使用体验还带着研究代码味。普通用户不会知道为什么半小时后开始截断。工具开发者要把 token 预算、切片、重试、说话人合并全包起来,才算产品。
所以我不把它读成“本地 ASR 已经普及”。我更愿意给它一个克制的评价:本地长音频转写终于开始从拼管线走向单模型,但硬件门槛和可控性还没跟上。Simon 的实测很好,因为它把下载页不会写的东西暴露出来了:128GB 内存机器上很快,64GB 可能勉强,32GB 基本没戏;结构化说话人输出很香,但录音环境变化会制造假说话人;60 分钟上限够播客,够不上全天会议和呼叫中心批处理。对 AI 从业者来说,这条最实用的结论是:如果你在做音频产品,别只问 WER,先问峰值内存、切片策略、speaker ID 稳定性,以及默认 token 上限会不会坑掉用户。
HKR 分解
hook ✓knowledge ✓resonance ✓
76
SCORE
H1·K1·R1