FEATUREDAI HOT 精选· aihot-apiZH21:45 · 05·23
阶跃星辰发了 StepAudio 2.5 实时语音模型,能听懂语气、停顿和情绪,还支持自定义人格
这个模型不只是把语音转成文字再回复,它会捕捉你说话时的语气、语速、停顿甚至微表情这些“副语言”信息,让对话更自然。你可以通过 API 给它设定人格、背景故事和说话风格,官方说原生人格选项超过一万种,组合起来能有数百万种特征。产品内置了 5 个预设人格可以直接试,并且用 RLHF(基于人类反馈的强化学习)做了调优,在复杂的角色扮演压力测试里也能保持人设不...
#Audio#Agent#Alignment#StepFun
精选理由
我会先打个折:这是官方推文,没给延迟、定价、基准测试和实际铺开范围,所以只能当个中等体量的产品更新来看。亮点在于副语言感知——就是能听懂语气、停顿、笑声这些非文字信号,再配上可调的人格,对想做出有“人味儿”的语音助手团队来说,确实是个值得跟的信号。但没实测数据之前,先别太激动。
一句话点评
StepFun 发了实时语音模型 StepAudio 2.5,能听懂语气、停顿这些副语言信息,还支持自定义人格,但没给延迟、成本和实际测试数据,先当 demo 看。
锐评
StepAudio 2.5 主打的是“听懂你怎么说”,不只是“你说了什么”。它声称能捕捉语气、语速、停顿甚至微表情,这比传统语音助手多了一层副语言理解,理论上能让对话更自然。人格化是另一个卖点:通过 API 可以设定角色的背景故事和说话风格,官方说原生人格选项超过一万种,组合起来能有数百万种特征,还内置了 5 个预设人格可以直接试。用 RLHF 做调优,在角色扮演压力测试里保持人设不崩,这点听起来不错,但正文没披露测试的具体设置和失败率,也没说延迟多少、单次调用成本多少。实时语音模型最怕的就是响应慢和幻觉崩人设,这两项没数据就很难判断实际可用性。另外,微表情捕捉是怎么实现的、需要什么硬件支持,正文也没提。我会先打个折,等看到 API 文档和实测延迟再判断它是不是真能进生产环境。
HKR 分解
hook ✓knowledge ✓resonance ✓