FEATUREDAI HOT 精选· aihot-apiZH16:53 · 06·04
Boson AI 和 LMSYS 把 Higgs Audio v3 TTS 跑在了 SGLang-Omni 上,一个 4B 参数的语音合成模型,主打低延迟...
Higgs Audio v3 TTS 是 Boson AI 的语音合成模型,参数量大约 4B,底层用了 Qwen3-4B。它支持 100 种语言,在内部测试集上词错率/字错率能压到个位数。这个模型专门为语音助手那种边说边生成的场景设计,不等句子结束就能开始合成,后续文本到了还能保持声音、情绪和节奏连贯。开发者可以直接在输入文本里插标签来控制 20 多种...
#Audio#Inference-opt#Multimodal#Boson AI
精选理由
H 和 K 靠 4B/100 语言/流式合成这几个硬指标撑住。R 偏弱,因为文章没给延迟、定价和权重,更像一个能力宣告而非可立刻复用的发布,所以放在 featured 低位。
一句话点评
Boson AI 把语音合成塞进了 Qwen3-4B 里,支持 100 种语言,还能边说边生成,但正文没给延迟和并发数据,实际落地成本得打个问号。
锐评
Higgs Audio v3 是一个约 4B 参数的语音合成模型,底层用了 Qwen3-4B,相当于让一个语言模型学会了说话。它最特别的地方是流式生成:不用等句子结束就能开始合成,后续文本到了还能保持声音、情绪和节奏连贯,这对语音助手这类需要即时响应的场景很关键。模型支持 100 种语言,内部测试的词错率/字错率压到了个位数,说明准确度不错。开发者还能直接在输入文本里插标签来控制 20 多种情绪、风格和音效,灵活性比传统 TTS 高出一截。
不过,这篇公告主要讲的是架构和部署方式,没有给出首包延迟、实时率或并发吞吐这些硬指标。对于实际业务来说,这些数字比参数规模更重要。另外,模型权重和推理代码虽然提到了可以自己部署,但正文没披露商业授权条款,想商用的人得自己去确认。
HKR 分解
hook ✓knowledge ✓resonance —