● P1Latent Space· rssEN04:33 · 05·12
Thinking Machines 发布 TML-Interaction-Small 276B-A12B 原生交互模型
Thinking Machines 发布 TML-Interaction-Small,276B MoE 模型每次激活 12B 参数,正文称其在实时语音、200ms 微轮次交互和多项音视频基准上超过 GPT-Realtime-2 与 Gemini 3.1-Flash。
#Multimodal#Audio#Agent#Thinking Machines
精选理由
TML-Interaction-Small给出架构、激活参数、200ms交互条件和对标对象,HKR三项全中;基准仍要第三方复测,但实时语音模型若成立属于当天必写。
一句话点评
Thinking Machines 把实时语音从 VAD 管线打到模型内部;276B MoE、12B 激活、200ms 微轮次,这比又一个聊天榜单凶多了。
锐评
Thinking Machines 这次押的是交互时钟,不是语音外壳。TML-Interaction-Small 用 276B MoE、12B 激活,把音频和图像做 encoder-free early fusion,并把微轮次压到 200ms;这会直接挤掉传统 VAD、ASR、LLM、TTS 串联管线里的手写轮转逻辑。
我对官方榜单先打折:BigBench Audio、IFEval、FD-bench 赢 GPT-Realtime-2 和 Gemini 3.1-Flash,正文没给可复现实验细节。更有料的是 TimeSpeak、CueSpeak、RepCount-A 这类内部基准,它们测的是该不该开口、何时闭嘴、何时看见动作。OpenAI 的 4o “Her” 演示当年卖的是幻觉感,这次 Thinking Machines 卖的是调度权。
HKR 分解
hook ✓knowledge ✓resonance ✓