ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-11

13 items · updated 3m ago
RSS live
2026-04-11 · 星期六2026年4月11日
09:00
63d ago
最佳拍档· atomZH09:00 · 04·11
Greg Brockman:AGI 已走完 70%,新预训练模型 Spud 完成,Sora 因算力暂停,OpenAI 要推超级应用
OpenAI 总裁 Greg Brockman 在专访中给出几个关键判断:AGI 进度条已到 70%-80%,核心依据是模型已能帮物理学家 12 小时解出难题;新预训练基础模型 Spud 已完成训练,但只是迭代节点而非终点,具体参数和发布时间未披露;Sora 大规模推广被暂停,原因是算力紧张且它与 GPT 走的是不同技术分支,OpenAI 选择集中资源...
#Reasoning#Code#Agent#OpenAI
精选理由
HKR-H和HKR-R通过:标题抓眼球,OpenAI路线图调整有行业共鸣。HKR-K不通过:这是二手视频转述,缺一手访谈时间、Spud规格、基准和发布日期,所以留在all。
一句话点评
Greg Brockman 说 AGI 已实现 70%-80%,核心判断是纯文本模型路线能直通 AGI,多模态统一在 GPT 架构下。关键信息:新预训练模型 Spud 已完成,但正文没披露参数量或训练成本;Sora 暂缓是因算力紧张,优先推 GPT 推理和超级应用;1100 亿美元基建投入被解释为收入中心而非成本。短评:OpenAI 内部路线清晰,但 70% 这个数字缺乏可验证的衡量标准,更...
锐评
OpenAI 把 1100 亿美元基建和 GPT 主线绑在一起,Sora 则因算力约束被放慢。我的判断很直接:这段转述里最硬的信息,不是“AGI 70% 到 80%”,而是 OpenAI 已经把资源分配逻辑说穿了——先保能变现、能留存、能形成日常入口的模型与应用,视频生成排到后面。 我对“AGI 已完成 70% 到 80%”这句话不太买账。先别谈哲学定义,连原始访谈时间都没给,口径也没有可复现标准。文中给的定义是“像人类一样高效操控电脑处理智力工作”。按这个定义,行业过去一年确实在逼近:Anthropic 押代码与 agent,Google 把 Gemini 往工具调用和多模态工作流推,OpenAI 自己也一直把 Codex 式能力往通用助手里塞。但把这些进展折算成“70% 到 80%”是典型的内部信号外放,不是可验证里程碑。没有任务集,没有失败边界,没有成本阈值,这个百分比更像鼓舞组织的语言,不像给外部从业者的技术指标。 我反而相信“暂停 Sora 扩张”这部分。原因很现实。视频生成的训练和推理都吃算力,单位用户价值却未必高过代码、办公、搜索式问答这些高频场景。OpenAI 如果手上真有更强的预训练底座要继续做强化学习、后训练、部署,再叠加 ChatGPT 日活、企业 API、代码产品,算力会先流向主航道。这个取舍并不罕见。去年到今年,几家头部实验室都在把 flashy demo 往后排,把能进工作流、能收 seat fee 或 usage fee 的能力往前推。说真的,这比“统一架构”那套宏大说法更可信。 “大一统 GPT 架构”这句我也留个问号。文中说图像、语音、文本都统一到 GPT 底座,连图像生成都不是传统扩散路线。这个方向我信一半。过去一年,行业确实越来越喜欢把感知、推理、工具调用塞进同一个产品层,让用户感觉自己面对的是一个系统,不是一堆模型拼盘。但产品统一,不等于训练范式已经统一。OpenAI 正文没给架构、loss 设计、数据配比、推理路径,也没给任何 benchmark。没有这些,外部没法判断这是“单一底座”还是“多个专用子系统被包装成一个 GPT 体验”。这两件事差很多,成本结构也差很多。 Spud 这段信息量也有限。正文只说它完成了预训练,是新基础模型,是后续强化学习和后训练的地基。这个描述本身没问题,几乎所有前沿模型都这么走。但只要没有参数规模、训练 token、上下文长度、基准成绩、蒸馏关系,你就没法判断它是一次代际跳跃,还是给产品线补库存。OpenAI 以前就很会把“研究节点”包装成“进步引擎的一部分”。这回我更想知道的是,Spud 服务的是哪条线:通用聊天、代码 agent、研究 agent,还是内部 teacher model。标题给了名字,正文没给角色。 “超级应用”反倒是这条里最像真战略的部分。ChatGPT 早就不是单一聊天框生意了。行业这两年已经证明,用户不会长期为“更聪明一点”单独买单,用户会为“少切三个工具、少走十步流程”买单。Anthropic 把 Claude 往代码和企业工作流推,Microsoft 继续把 Copilot 贴进 Office,Google 也在 Workspace 和搜索入口反复试。OpenAI 若把长期记忆、浏览、代码、表格、代理执行揉成一个前台,这不是新鲜概念,但它确实是最有机会吃到留存和 ARPU 的路线。问题在于,超级应用不是模型问题,而是权限、可靠性、回滚、审计和 UI 问题。Greg 如果承认 OpenAI 过去输在最后一公里易用性,这个自我诊断我基本认同。 自动化 AI 研究员那段,我会更谨慎。让 AI 帮研究员做文献整理、实验设计、结果分析,这件事已经在发生。把它说成“今年秋季见”的端到端研究员,我自己先打个折。过去一年,很多“AI scientist”系统在封闭 benchmark 上都很好看,一碰到开放课题、脏数据、实验异常、负结果解释,就容易掉链子。你可以把它当高强度 research intern,用来并行试错;把它当能独立提出并验证新理论的研究员,正文没有证据。 安全那段也有叙事张力。文中一边强调提示词注入和对齐投入,一边又给“开放参与、韧性治理”站台。这个说法我有点怀疑。OpenAI 这两年的实际路线并不偏开放,至少前沿权重层面是这样。把“广泛参与”当治理原则可以,说成当前做法就不严丝合缝。标题和正文都没有给新的安全评测、红队数据、误用拦截率,所以这部分我只能当价值表态,不能当能力进展。 我的结论是,这条转述最该信三件事:OpenAI 算力仍然紧,GPT 主线优先级继续上升,产品团队开始把易用性当核心工程。最不该直接吞下的是 AGI 百分比、Spud 的代际意义、自动化研究员的时间表。没有原始访谈、没有基准、没有发布时间,这些判断先别替 OpenAI 做完。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
08:09
63d ago
X · @op7418(歸藏)· x-apiZH08:09 · 04·11
Hermes Agent 也能连微信了,但走的是逆向接口
Hermes Agent 现在原生支持连接微信,但用的不是官方插件,而是逆向工程。正文没披露具体怎么实现的、覆盖范围、账号风险或发布时间。关键问题是:逆向集成稳定性差,有封号风险。
#Agent#Tools#Hermes Agent#WeChat
精选理由
HKR-H 落在'原生支持微信但靠逆向'这个反转上;HKR-R 成立是因为国内开发者很在意微信自动化和封号风险;HKR-K 不成立:正文没给机制、范围、时机或风险细节,所以这条只能算 60 分出头的 all 级内容。
一句话点评
Hermes Agent 现在也能直接连微信了,但和之前那些方案一样,也是逆向微信协议,不是官方接口。这意味着随时可能被封,稳定性没保障。正文没披露具体怎么实现的、支持哪些功能、有没有额外风险。如果你只是想在微信里跑个自动化助手,可以试试,但别拿来做生产级服务。
锐评
Hermes Agent 这次把微信接进 agent,前提是它不是官方接口而是逆向接入;标题已经给出路线,正文没披露协议层做法、登录方式、消息同步延迟、封号边界。我的判断很直接:这条先别按“能力扩展”看,先按“灰色基础设施”看。能不能跑,不只取决于模型和工具调用,而是取决于微信风控多久出手一次。 我一直觉得,做中国市场 agent 的团队迟早都会撞上这个口子。企业微信有开放能力,微信个人号没有,于是大家都会被逼到逆向、RPA、桌面自动化、Hook 这几条路里选一条。问题是,这几条路过去一年已经反复证明:demo 很快,持续运行很难。早些时候不少 AI 助手、私域 CRM、聊天中台都演过一遍,首周很惊艳,后面死在登录态、设备指纹、消息丢失、批量封禁。我没看到 Hermes 这次给出任何稳定性数字,所以我不买“原生支持”这四个字。没有官方 API 的原生,很多时候只是把脆弱性包进产品里。 还有一层经常被故意讲轻:账号风险不是附带问题,是主问题。你把个人微信接给 agent,涉及的不只是收发消息,还包括联系人关系、聊天频率、自动回复节奏、异地登录特征。风控看的是行为模式,不是你产品页怎么命名。要是 Hermes 用的是常见逆向方案,理论上就绕不开协议变更和对抗升级;微信只要改一次校验,产品侧就得跟一次。我自己还没查到他们用了哪条技术栈,所以没法判断是高频小修,还是一改就断。 外部对比也很清楚。海外 agent 接 Gmail、Slack、Notion,争议点多半是权限范围和执行可靠性,因为官方接口在。接微信个人号不是这个逻辑,它更像早年各种 unofficial WhatsApp client 的命运:能起量,但生命周期被平台牢牢攥着。要是 Hermes 后面拿不出明确的适用范围,比如仅测试号、仅单设备、仅低频收发,这条发布就有点过,容易让用户误判成稳定能力。现在我能确认的只有标题那一句,别的关键条件正文都没给。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
04:33
63d ago
X · @op7418(歸藏)· x-apiZH04:33 · 04·11
Claude Code 代码质量突然变好,不再偷懒了
用户 op7418 反馈 Claude Code 生成的代码质量明显提升,之前常见的“偷懒”行为(比如省略实现、留空占位)消失了。推测是 Anthropic 做了底层优化,但正文没披露具体改了哪个模型版本、更新了什么时间、测试了什么任务,也没有对比样本或可复现的配置。这只是一个用户的主观感受,不是官方公告,但值得持续观察——如果真能稳定输出完整代码,对...
#Code#Anthropic#op7418#Commentary
精选理由
这是一条用户侧信号,不是产品更新公告。正文只有一条主观反馈,没给模型版本、更新时间、任务类型、前后对比样例或复现条件;HKR-H 和 HKR-R 弱成立,HKR-K 不成立,按 hard-exclusion-6 规则重要性上限卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
04:16
63d ago
新智元 · 公众号· rssZH04:16 · 04·11
60岁硅谷前高管转行当神父,给Claude重写“灵魂”,还拒了五角大楼的单
标题说一位60岁的前硅谷高管、现神父,重写了Claude的“灵魂”,并拒绝了五角大楼的军用合作。但正文是空的,没披露这人是谁、改的是哪个版本的Claude、“重写灵魂”具体是改模型权重还是只改系统提示、拒军用是他个人立场还是Anthropic公司政策。信息缺口很大,标题更像一个故事梗概,不是事实报道。
#Anthropic#Pentagon#Commentary#Safety/alignment
精选理由
标题有钩子,但正文一个字都没有,连基本事实都缺。HKR-H靠神父+Claude+五角大楼的罕见组合通过,HKR-R靠军用对齐话题引起共鸣。HKR-K直接挂零,因为没披露任何人名、模型版本、机制或政策来源,硬性零来源把分数压在40以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
03:05
63d ago
X · @op7418(歸藏)· x-apiZH03:05 · 04·11
Claude 账号早上被封,发帖后 Anthropic 又解了
龙虾作者 Peter 的 Claude 账号今早被封,他在 X 上发帖后 Anthropic 又给解了。正文只确认了事件顺序,没披露封号原因、申诉路径和解封耗时。关键缺口是:什么触发了人工审核。
#Peter#Anthropic#Incident#Commentary
精选理由
这是一起单例 Claude 账号事件,封禁后发帖即解封,所以 HKR-H 和 HKR-R 通过。HKR-K 不通过,因为帖子没给原因、申诉机制或处理时长,信息密度低,适合 all 层级。
一句话点评
短评:账号封禁和解封都靠发帖,说明 Anthropic 的风控和客服流程还有不少手动成分。 点评:龙虾作者 Peter 的 Claude 账号被封,发帖后 Anthropic 又给解了。这件事本身信息量不大,正文没披露封号原因和解封的具体沟通细节,所以只能看个热闹。值得注意的点是:Anthropic 的风控和客服流程似乎还依赖公开舆论压力来加速处理,这对普通用户来说不算好消息——如果你没粉...
锐评
Peter 今早被封了 Claude 账号,发帖后 Anthropic 又给他解封了。现阶段能确认的只有这条时间顺序,正文没披露封禁原因、申诉入口、处理时长,也没说是自动风控还是人工误判。 我对这类事的判断一直很直接:单次误封不稀奇,发到 X 上就解封才说明问题。平台做风控,本来就会接受一定误伤率,OpenAI、Google、Meta 这些年都出过误封案例,这不新鲜。难看的是线下申诉没被看见,线上声量一出来就有人工介入。对用户来说,这会把“合规流程”变成“社交媒体 escalations”。你不是在跟系统交互,你是在赌自己有没有传播力。 这对 Anthropic 尤其伤,因为 Claude 现在卖的不只是模型分数,还有“更稳、更安全、企业可托管”的感觉。我没看到这条有任何数字能证明误封率有多高,所以不能拿个案当普遍现象。问题在别处:如果一个知名创作者的正常使用都会触发封禁,而且恢复依赖公开发帖,那企业客户会自然追问两件事——第一,账号级风控和 API 级风控是不是同一套策略;第二,误判后有没有 SLA,还是只能等人工捞。标题给了前者的风险感,后两项正文都没披露。 我还想补一个上下文。过去一年,几家主流模型厂都在把安全策略从“内容拦截”往“账户与工作流拦截”推,原因很现实:agent 调工具、批量跑任务、长上下文持久会话一上来,单条输出审查已经不够了。问题是,拦截面一扩大,误伤就会从一句回复变成整个账号不可用。产品体验的损失会陡很多。Anthropic 如果最近也在收紧 abuse 检测,这类误封并不意外;但我对“发帖后立刻解封”这个信号有点警觉,它像是在告诉外界:系统没有把高价值正常用户稳定分出来。 说真的,这条信息太薄,没法下更重结论。我还没查到 Peter 当时具体做了什么,也没看到 Anthropic 官方解释。现阶段比较稳的判断只有一个:Anthropic 需要把申诉路径讲清楚,至少给出封禁类别、复核入口、预计时长。没有这些,所谓安全感就是靠品牌信用硬扛。一两次还能扛,案例多了就会反噬。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
01:49
63d ago
X · @op7418(歸藏)· x-apiZH01:49 · 04·11
Waypoint-1.5:一个能实时交互的世界模型,动作流畅还能玩武器
Waypoint-1.5 号称是新的实时可交互世界模型,从演示看角色动作流畅,还能跟武器互动。但正文没披露开发者、延迟、帧率、分辨率以及具体怎么交互,所以“实时”到底多实时、效果多稳定,这点先别太激动。
#Multimodal#Vision#Product update
精选理由
H 通过是因为“实时可交互世界模型”这个说法本身就有传播力,武器交互是加分项。K 和 R 不通过:正文没披露延迟、帧率、分辨率、交互机制、开发方、可复现测试,所以只能放 all 而不是 featured。
一句话点评
Waypoint-1.5 号称能实时交互生成世界,听起来像游戏引擎的 AI 版。但正文完全没披露延迟多低、分辨率多高、能跑多复杂的场景。如果真能做到秒级响应且不崩,那对游戏和仿真行业是好事;但这类 demo 往往只对特定场景优化,通用性存疑。建议等第三方实测或论文细节。
锐评
这条信息量很薄:Waypoint-1.5 只展示了流畅动作和武器交互,正文未披露开发方、端到端延迟、帧率、分辨率、持续交互时长。少了这几项,"实时可交互世界模型"这个标签就还站不稳。做过这类系统的人都知道,单段 demo 流畅不难,难的是连续 30 秒以上不漂移、不掉帧、状态还能闭环。 我对这类演示一直比较谨慎。过去一年里,世界模型 demo 常见两种取巧:一种是短窗口 autoregressive rollout,看起来像在实时响应,实际延迟被剪掉了;一种是把交互做成有限状态机触发,武器能拿、能挥,但环境并没有被稳定建模。标题里说了交互,正文没说交互机制,所以现在还不能判断它更接近生成视频,还是接近可执行模拟。 外部参照也很清楚。DeepMind 的 Genie 2、Decart 那类实时生成世界的演示,至少会让人追着问分辨率、可控时长、动作到画面的响应延迟;NVIDIA Cosmos 那一路更偏 world foundation model,但离玩家级实时闭环也还有工程距离。我自己还没看到 Waypoint-1.5 的任何硬指标,所以没法把它放进同一张表里比。 我不太买账的是社交平台上动不动就把"能互动的视频"直接叫世界模型。要配得上这个词,最少得给三样东西:输入到画面的毫秒级延迟、连续运行条件下的稳定性、物体交互的一致性测试。现在只有标题信息,这条最多算一个方向感不错的 demo,离产品级、研究级结论都还早。
HKR 分解
hook knowledge resonance
打开信源
59
SCORE
H1·K0·R0
01:14
63d ago
机器之心 · 公众号· rssZH01:14 · 04·11
国防科大 CVPR 论文:让无人机自己认路并锁定目标
这篇 CVPR Highlight 论文想解决无人机同时自主导航和锁定目标的问题,但正文没披露模型设计、训练数据、基准测试、成功率或延迟。关键看点在于一个方法能否把“认路”和“锁目标”两个环节串起来,而不是只改进其中一步。信息缺口较大,目前只能确认任务方向,具体效果和实现细节未知。
#Robotics#Vision#NUDT#CVPR
精选理由
标题有钩子,所以HKR-H通过;但HKR-K和HKR-R不通过,因为帖子只披露了论文标签和任务名称,模型、数据集、基准、成功率、延迟一概没有。这个故事也符合硬排除标准——技术可及性差,对目标读者来说价值有限,所以定为excluded。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
01:14
63d ago
机器之心 · 公众号· rssZH01:14 · 04·11
灵初智能 Psi-R2 用 10 万小时人类数据登顶 MolmoSpaces,没做对齐
灵初智能的 Psi-R2 模型在 MolmoSpaces 榜单上拿了第一,靠的是 10 万小时人类数据,而且没做对齐(也就是没用 RLHF 之类的方法让模型迎合人类偏好)。10 万小时数据量不小,相当于一个人连续录 11 年多的操作视频,但正文没披露模型参数量、具体跑什么任务、分数多少,也没说 MolmoSpaces 的评测设置。所以这个“登顶”含金量...
#Benchmarking#灵初智能#Benchmark
精选理由
标题有冲击力,但正文一个字都没有,等于只有一张海报。10万小时人类数据具体怎么用、模型多大、MolmoSpaces测什么、分数多少,全都没说。这种“只发标题”的新闻,信息缺口太大,没法判断实际价值。HKR-H和HKR-R靠标题的冲突感通过,但HKR-K因为零信源直接卡死,总分上不了40。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
01:05
63d ago
● P1量子位 · 公众号· rssZH01:05 · 04·11
刘壮陈丹琦团队开源Vero:一个通用视觉推理强化学习框架,没用到任何思考数据就刷新了SOTA
普林斯顿刘壮和陈丹琦团队开源了Vero,一个用强化学习训练视觉推理模型的通用框架。它从59个数据集里筛出60万条样本,按六类任务分别给奖励,单阶段RL训练后,在30个基准里有23个超过了Qwen3-VL-8B-Thinking。最值得看的是它没用到任何私有的思考数据,纯靠任务路由奖励机制让模型学会推理。不过正文没披露训练成本和基座模型的具体配置,这点先...
#Reasoning#Vision#Alignment#Princeton University
精选理由
我会先打个折:正文没披露训练成本和基座模型配置,复现条件还不清楚。但“零思考数据”这个说法本身就有冲击力,加上23/30的基准成绩和明确的方法细节,对从业者来说是个值得关注的开源信号。所以给featured、82分,不往上拉是因为关键复现信息还缺着。
一句话点评
刘壮和陈丹琦团队开源了一个视觉推理强化学习框架,没用到任何现成的思考数据就刷到了SOTA,这点挺狠。但正文被微信环境拦截,具体方法、实验数字和开源地址都没看到,先别急着激动。
锐评
这条消息的核心卖点是“零思考数据”和“开源通用框架”。通常训练模型做视觉推理,需要大量人工标注的推理步骤数据,成本高、难扩展。如果这个框架真的不需要这类数据就能让模型学会推理,那意味着训练门槛大幅降低,小团队也能玩。但问题在于,目前唯一的信息源是微信公众号文章,且页面被环境验证拦截,正文完全不可见。我没法确认他们具体用了什么方法——是纯强化学习试错、还是靠环境反馈信号、或者用了某种隐式监督。也没有任何数字:在哪个基准上刷了SOTA、比之前方法高多少、训练用了多少算力。这些关键信息全缺。建议等论文或开源仓库公开后再看,现在只能当个方向信号,不能当结论用。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
01:05
63d ago
● P1量子位 · 公众号· rssZH01:05 · 04·11
上海AI实验室把OpenClaw那套方法搬到了多模态生成上,6B小模型在部分任务跑赢了Nano Banana 2
上海AI实验室的团队搞了个叫GEMS的方法,给多模态生成模型加上了Agent循环、记忆和技能模块,相当于让模型在生成图片时能自己规划步骤、记住中间结果。他们用6B参数的Z-Image-Turbo做实验,在5个主流任务上平均提升14.22分,在4个下游任务上比之前最好的基线又高了8.92分,部分指标超过了Nano Banana 2。论文和代码都公开了,但...
#Agent#Multimodal#Memory#Shanghai AI Laboratory
精选理由
这条的钩子很直接——6B 模型在多模态生成上叫板 Nano Banana 2。文章把做法讲清楚了:不是单纯换模型,而是把 agent 循环、记忆和技能模块塞进生成流程,相当于让模型边画边改、边查资料。给出的数字也具体,5 个任务平均涨 14.22,下游再涨 8.92,论文和代码都有,可以自己验。我会先打个折,因为正文没披露 Nano Banana 2 的完整对比设置,不知道对方有没有用同样的 agent 套路,所以不能直接当碾压局看。但方向本身值得关注,小模型靠推理时多跑几步来追大模型,这条路如果走通,部署成本会友好很多。
一句话点评
正文被微信环境验证拦截,实际内容没读到,标题里的“6B小模型超越Nano Banana 2”暂时没法核实。
锐评
这条消息目前只能看个标题,文章本身因为微信的环境验证被挡在外面,具体怎么比的、在哪些任务上超的、用了什么评测标准,全都看不到。标题提到 OpenClaw 的方法被用到多模态生成上,一个 6B 的小模型声称超过了 Nano Banana 2,如果属实,说明小模型在多模态生成上可能又有新的性价比突破。但“超越”这个词太模糊了,不知道是单项指标、综合评分还是特定场景下的表现。另外,OpenClaw 本身是一套让模型学会“用工具”的训练框架,把它迁移到多模态生成,具体怎么做的、数据怎么配的、有没有开源权重,这些关键信息都因为文章读不到而没法判断。建议等原文能正常访问或者有其他来源交叉验证之后再看,现在这个标题只能当个信号,别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
01:05
63d ago
● P1量子位 · 公众号· rssZH01:05 · 04·11
中国具身模型在 MolmoSpace 基准上拿了第一,同时开源了 10 万小时人类操作数据集
Psibot 说他们的 Psi-R2 模型在 AllenAI 的 MolmoSpace 基准上排到了第一,但正文没披露具体任务设置和完整对比基线,所以这个“第一”的含金量得先打个折。他们同时放出了一个 100,889 小时的操作数据集,其中 95,472 小时是人类数据,5,417 小时是机器人数据,目前只开源了 1,000 小时。数据覆盖 294 个...
#Robotics#Multimodal#Benchmarking#Psibot
精选理由
我会先打个折:正文说“成功率高近10倍”,但没交代任务设置、基线模型全名和统计细节,这个第一的含金量暂时没法核实。不过数据集的规模和构成是实打实的——近10万小时人类数据加真机数据,还混了失败样本进去,这对训练机器人操作模型是个值得跟的信号。推理延迟压到100毫秒内,说明工程上做了不少优化。整体看,信息量够、有讨论空间,但榜单那部分先别太激动,等更多细节放出来再说。
一句话点评
这条消息来自量子位,但原文页面被微信环境验证挡住了,正文内容完全没读到,标题里的“全球第一”和“人类数据”具体指什么、怎么比的,全都看不到。
锐评
标题说中国具身模型拿了全球第一,还提到“机器人的人类数据时代来了”,听起来像是某个具身智能模型在利用人类操作数据训练机器人上拿了榜单第一,或者发布了新方法。但问题是,原文链接点进去只显示微信环境异常、要求验证,整篇文章一个字都没露出来。所以这个“全球第一”到底是哪个榜单、什么任务、跟谁比、领先多少,正文没披露。标题里“人类数据”可能指用人类遥操作或视频数据训练机器人,但具体是用了多少数据、成本降了多少、泛化能力怎么样,全都不清楚。这类标题容易让人激动,但没看到实验细节和对比基准之前,先别太当真。如果后续能拿到原文,我会重点看三件事:第一,这个第一是在仿真还是真机上跑的;第二,人类数据占比多大、采集成本高不高;第三,跟现有方法比,成功率提升到底有多少。现在只能说,标题很猛,信息量为零。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1

更多

频道

后台