● P1量子位 · 公众号· rssZH01:05 · 04·11
中国具身模型在 MolmoSpace 基准上拿了第一,同时开源了 10 万小时人类操作数据集
Psibot 说他们的 Psi-R2 模型在 AllenAI 的 MolmoSpace 基准上排到了第一,但正文没披露具体任务设置和完整对比基线,所以这个“第一”的含金量得先打个折。他们同时放出了一个 100,889 小时的操作数据集,其中 95,472 小时是人类数据,5,417 小时是机器人数据,目前只开源了 1,000 小时。数据覆盖 294 个...
#Robotics#Multimodal#Benchmarking#Psibot
精选理由
我会先打个折:正文说“成功率高近10倍”,但没交代任务设置、基线模型全名和统计细节,这个第一的含金量暂时没法核实。不过数据集的规模和构成是实打实的——近10万小时人类数据加真机数据,还混了失败样本进去,这对训练机器人操作模型是个值得跟的信号。推理延迟压到100毫秒内,说明工程上做了不少优化。整体看,信息量够、有讨论空间,但榜单那部分先别太激动,等更多细节放出来再说。
一句话点评
这条消息来自量子位,但原文页面被微信环境验证挡住了,正文内容完全没读到,标题里的“全球第一”和“人类数据”具体指什么、怎么比的,全都看不到。
锐评
标题说中国具身模型拿了全球第一,还提到“机器人的人类数据时代来了”,听起来像是某个具身智能模型在利用人类操作数据训练机器人上拿了榜单第一,或者发布了新方法。但问题是,原文链接点进去只显示微信环境异常、要求验证,整篇文章一个字都没露出来。所以这个“全球第一”到底是哪个榜单、什么任务、跟谁比、领先多少,正文没披露。标题里“人类数据”可能指用人类遥操作或视频数据训练机器人,但具体是用了多少数据、成本降了多少、泛化能力怎么样,全都不清楚。这类标题容易让人激动,但没看到实验细节和对比基准之前,先别太当真。如果后续能拿到原文,我会重点看三件事:第一,这个第一是在仿真还是真机上跑的;第二,人类数据占比多大、采集成本高不高;第三,跟现有方法比,成功率提升到底有多少。现在只能说,标题很猛,信息量为零。
HKR 分解
hook ✓knowledge ✓resonance ✓