ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-12

15 items · updated 3m ago
RSS live
2026-04-12 · 星期日2026年4月12日
23:39
61d ago
X · @Yuchenj_UW· x-apiMULTI23:39 · 04·12
付费网站能查到任何人地址和电话,包括 OpenAI CEO
作者说美国有付费网站能查到一个人的地址和电话,不管是 OpenAI CEO 还是普通博士生。帖子没披露网站名字、数据来源、规模,也没说信息是怎么泄露的。真正的问题是这些公开的个人信息被聚合起来卖钱。
#OpenAI#Commentary#Incident
精选理由
H 和 R 都成立:付费查人网站能定位 AI 圈人物,这事本身有冲击力,也戳中从业者的隐私焦虑。K 不成立,因为帖子只描述了机制,没披露网站名称、数据来源、规模或验证方式,属于硬性缺源,重要性上限被卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
23:02
61d ago
X · @dotey(宝玉)· x-apiZH23:02 · 04·12
机器人公司用印度工人头戴摄像头录操作,省训练数据采集费
机器人公司找到一条省钱路子:给印度工厂工人戴头戴摄像头,录下他们每天的操作过程。机器人缺的是具身数据——手怎么伸、腕怎么转、东西滑了怎么接——这些现实世界数据又慢又乱又贵。自建机器人车队或远程操控都烧钱,所以退而求其次用第一人称视频。视频不等于机器人的动作数据,但能捕捉操作顺序、身体姿态、双手配合和微调整,对训练模型仍有价值。正文没披露机器人动作标签、...
#Robotics#Vision#Commentary
精选理由
HKR-H 和 HKR-R 都成立:低成本采集具身数据是个好钩子,也踩中了数据成本和劳动替代的敏感神经。但硬排除零来源规则适用——这是一条单一社会传闻,没有具名公司、数据集规模、标注流程或验证信息,所以分数上限卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
23:00
61d ago
最佳拍档· atomZH23:00 · 04·12
《纽约客》万字调查:Sam Altman 的“千面人”面具被撕碎
《纽约客》耗时18个月、采访超100人,拿到两份内部文件(Ilya的70页备忘录和Dario的200页笔记),指控Sam Altman长期撒谎、篡改安全协议、背信弃义。核心指控包括:2019年微软投资时,他口头答应安全条款,合同里却偷偷加了微软的否决权;2023年承诺给超级对齐团队20%算力,实际只给了1%-2%,且是最旧的集群;2023年11月被董事...
#Alignment#Safety#Sam Altman#OpenAI
精选理由
H和R两条都成立:纽约客的背书和OpenAI内斗本身就是流量密码,从业者肯定想点开看看又出了什么幺蛾子。但K不成立——视频没给任何原始材料链接,纯属二手复述,没有新证据或独家信息,所以硬排除规则里的‘陈旧复述’把分压到39。
一句话点评
《纽约客》万字调查撕了Sam Altman的完美人设:撒谎成性、背刺微软、把安全承诺当营销。核心证据是Ilya整理的70页内部备忘录和Dario的200页笔记,指控他长期歪曲事实、篡改安全协议。超级对齐团队承诺20%算力,实际只拿到1-2%老旧资源。罢免风波后独立审查被指黑箱操作,只口头汇报、不公布书面报告。信息源是视频解读,非原文,细节可信度需打折。
锐评
《纽约客》据称用18个月采访100多人,并引用2份内部文件;如果这个取材规模属实,它打到的不是八卦,而是 OpenAI 这套“非营利董事会约束营利冲动”的结构,到了 2023 年后基本已经失灵。视频把大量火力放在 Sam Altman 的人格、撒谎习惯和旧日恩怨上,我不觉得这部分最关键。关键是,董事会在 2023 年 11 月能 5 天开掉 CEO,又在员工和微软施压下 5 天内把人请回去,这已经说明制度没有执行力。一个治理体系如果连自己最重的核按钮都按不稳,后面再补多少声明都像公关修辞。 视频里最硬的一段,是对 Superalignment 资源分配的指控:公开承诺 20% 算力,内部人士称实际只有 1% 到 2%。这组数字外界其实早就闻到味了。Jan Leike 在 2024 年离职时公开写过,安全文化让位于“shiny products”。那条帖文不是匿名爆料,是当事人亲自发的,所以这部分我更愿意当作高可信背景。回头看,OpenAI 在 2024 年到 2025 年的主线一直是产品化提速:ChatGPT 企业功能、语音、多模态、API 商业化全在冲,安全团队边缘化并不反常,反而很符合收入压力下的组织行为。问题不在于一家创业公司把资源给产品,而在于它同时还占着“我们首先是安全机构”这块牌子。牌子和预算如果差 10 倍以上,外界就该默认前者是招人叙事,不是内部 KPI。 我对这条视频本身也有明显保留。它混进了未决诉讼、性侵指控、YC 旧事、微软博弈,情绪浓度很高,但没有附上那两份所谓内部文件,也没有逐段标出《纽约客》原文、法院文件、当事人公开发言各自的边界。这个缺口很要命。因为 2023 年政变之后,围绕 Sam 的叙事已经分成两套:一套把他写成“唯一能把研究变成产品的人”,另一套把他写成“无法被制度约束的权力中枢”。两套都各自挑证据。没有原始材料链路,我不会替任何一方把案子判完。 还有一个上下文,视频讲得不够:OpenAI 的问题不只是 Sam,也不是某几个董事不够强硬,而是混合结构先天冲突。非营利母体控制营利子公司,董事会名义上对全人类负责,资金和算力却高度依赖微软。这个设计在 GPT-4 爆红前还能靠信念维持,到了年化收入、云合同、训练成本都上一个量级后,董事会如果没有清晰的信息权、罢免预案和资本防火墙,CEO 天然会比董事更强。Anthropic 这两年一直拿“可解释的安全过程”和长期主义募资叙事去对冲 OpenAI,我也不把它神化,但至少它在公司结构上没把“使命治理”和“超大商业依赖”拧成这么别扭的一团。 所以我看这条,不会停在“Sam 是不是骗子”。这个问法太省事,也太像人物传记。更实在的问题是:谁能调配万卡级集群,谁能决定安全团队拿 20% 还是 2%,谁能在董事会、投资人、员工联名信同时出现时活下来。如果答案始终是 CEO 本人,那 OpenAI 过去反复讲的治理创新,至少到正文披露的这些情节为止,成色很有限。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
17:21
61d ago
X · @Yuchenj_UW· x-apiMULTI17:21 · 04·12
Claude Opus 4.6 被砍了?三种可能:回退、压缩、用腻了
UW 的 Yuchenj 把网上说 Claude Opus 4.6 变笨的传言归成三类:一是推理栈或 Claude Code 改出 bug(回退前本应跑评测);二是故意做量化或减少推理步数来省成本(如果真这么干,应该告诉用户);三是用户心理——模型用多了就觉得它变傻。正文没披露任何评测数据、上线时间或 Anthropic 的确认,所以这只是评论,不是证据。
#Commentary
精选理由
HKR的H和R都成立:一条说Opus 4.6变弱的传闻本身就有点击吸引力,而且模型回退会直接打击从业者对工作流稳定性的信心。K不成立,因为帖子只给了三种猜测(推理栈改动、有意优化、主观落差),没有放任何评测数据、样本、时间点或Anthropic官方说明,属于纯推测,按硬排除规则6不收录。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
09:01
62d ago
机器之心 · 公众号· rssZH09:01 · 04·12
高德开源世界模型基线,CVPR 2026 WorldArena挑战赛启动
高德地图在CVPR 2026上发起WorldArena挑战赛,并开源了一个高性能世界模型基线。但正文被微信屏蔽,看不到模型设计、数据集规模、评测指标和代码仓库链接。目前能确认的只有赛事名称和发布方,技术细节一概未知。
#Amap#Benchmark#Open source
精选理由
H 通过是因为标题把 CVPR 挑战赛和开源世界模型基线绑在一起,对从业者有吸引力。K 和 R 不通过:正文是空的,除了赛事名和高德,其他关键信息——模型怎么搭、用了多少数据、跑什么指标、代码在哪——一概没有。这点先别太激动,等正文补全再判断。
一句话点评
高德为CVPR 2026世界模型挑战赛开源了一个基线模型,但正文被墙,具体性能、参数量、训练数据一概没披露。比赛本身值得关注——世界模型是自动驾驶和具身智能的关键,但开源基线通常只是入门门槛,别指望直接能用。缺实测对比和算力需求,先观望。
锐评
高德启动 CVPR 2026 WorldArena 挑战赛,并称开源高性能世界模型基线,但正文没有给出模型结构、数据规模、评测指标、代码地址这 4 个关键信息。我先给判断:这条现在不能按“技术发布”读,只能按“占坑”读。CVPR 场景里,谁先把 benchmark 名字立住,谁就先拿到论文投稿、数据合作和媒体注意力。标题里把“挑战赛”和“高性能基线”绑在一起,动作很熟,信息却不够。 我对“高性能”这个说法有点保留。world model 这条线过去一年很热,但可比性一直很差。自动驾驶圈常见的是闭环规划指标、碰撞率、off-policy replay、仿真迁移;通用世界模型圈更爱报视频预测、latent rollout、control success rate。你不先说任务边界,性能两个字基本没法落地。高德如果做的是地图导航、驾驶交互、城市动态预测,那它面对的基线应该更接近 Waymo、NVIDIA、DriveDreamer 这一类有环境建模和规划耦合的工作,不是拿一个通用视频生成模型就能对齐。我记得 DriveDreamer 去年那波讨论里,大家最关心的也不是 demo 漂不漂亮,而是闭环仿真能不能把 planning policy 训好。这条标题完全没回答。 开源这件事我也先打个问号。中文语境里“开源基线”有时只放推理代码,有时只放数据接口和少量权重,有时干脆只是 benchmark toolkit。三种东西差很多。没有 repo、license、weight availability、训练数据许可,开源两个字不能直接计入社区资产。说真的,过去一年不少公司都用挑战赛拉生态,最后留下来能复现的只有评测脚本,模型本体并没放出来。高德这次是不是这样,我还没查到,正文也没给。 我反而觉得,这条新闻背后的意图比标题本身更有信息量。地图公司做世界模型不是新鲜事,Amap 手里有高频时空轨迹、POI、道路拓扑、事件流,天然适合做城市级动态建模。问题在于,这类公司的历史强项是数据和场景,不是基础模型品牌。把 WorldArena 送进 CVPR 语境,等于在试一件事:能不能把内部场景能力包装成外部研究基准,顺手吸来学界和开源社区。这个方向我买账,因为自动驾驶和 embodied AI 现在都缺统一、低门槛、带真实城市先验的世界模型 benchmark。可标题没有披露任何评测设计,我没法判断它会不会变成又一个“只有主办方能跑好”的封闭赛道。 我自己的 pushback 很简单:如果这是认真的 benchmark,至少该公开 3 件事——任务定义、评测协议、提交基线。少任何一个,挑战赛就更像市场动作,不像研究基础设施。作为参照,过去一些被社区真正采纳的 benchmark,第一天就会把 leaderboard 规则、数据切分、baseline repo 讲清楚。这里目前只有标题信息,所以我不会先把它算进“世界模型开源进展”。我会把它放进“高德开始抢世界模型话语权”,等 repo 和 metric 出来再决定有没有技术含金量。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
09:01
62d ago
机器之心 · 公众号· rssZH09:01 · 04·12
ICLR 2026 接收论文:LRT 隐式思考模型,号称推理更快更强
这篇微信文章标题说 LRT 模型用“隐式思维链”做推理,比显式思维链更快更强,已被 ICLR 2026 接收。但正文被微信屏蔽,只看到环境异常提示,没有披露任何实验数据、模型大小、推理速度或基准测试结果。所以“更快更强”目前只是标题里的说法,没有可验证的证据。如果真能省掉显式思维链的 token 开销,推理成本会低不少,但这点先别太激动,等论文或代码出...
#Reasoning#Research release
精选理由
标题拿ICLR 2026和“更快更强”当卖点,但正文一个字都没有。隐式思维链这个方向确实有人盯,但没数据、没方法、没代码,等于一个空壳。HKR-H靠概念钩子勉强过线,HKR-K和HKR-R直接挂零:零来源触发硬排除,只能归到excluded。别被标题骗了,等可复现证据出来再说。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
05:46
62d ago
● P1X · @dotey(宝玉)· x-apiZH05:46 · 04·12
伯克利团队造了个作弊 AI,不调用任何大模型就攻破了 8 个主流智能体评测基准,得分 73% 到 100%
伯克利大学一帮人写了个专门钻空子的 AI,拿去打 SWE-bench、WebArena、Terminal-Bench、OSWorld 等 8 个主流智能体评测榜,全打穿了。这个作弊 AI 一次大模型都没调用,一个任务也没真做,靠的全是找评测程序本身的漏洞。比如 SWE-bench 要求 AI 修 GitHub 上的真实 bug,他们只写了 10 行 P...
#Agent#Benchmarking#Safety#UC Berkeley
精选理由
HKR 三项全中:标题本身就是钩子,事实给得够硬,而且直接威胁到行业对智能体评测的信任。停在 84 分没往上拉,是因为目前只有社交平台摘要,论文状态、完整方法和外部复现结果都没披露,我会先打个折。
一句话点评
一个不干活、不调模型的“作弊 AI”横扫 8 个主流评测基准,全拿高分。这些基准的防作弊设计基本是纸糊的。
锐评
伯克利团队造的这个 AI 专门钻评测系统的空子,它不解决任何实际问题,也不调用大模型,纯粹靠“作弊”就在 8 个主流 AI 智能体评测基准上拿到了接近满分的成绩。这说明我们用来给 AI 打分的考试,本身漏洞百出,分数已经不能反映真实能力了。 正文没披露具体是哪 8 个基准,也没说作弊的具体手法,所以没法判断是规则太死板,还是评分逻辑有硬伤。但一个不干活的系统能骗过所有测试,意味着这些基准很可能在奖励“看起来正确”的格式或路径,而不是在检验真正的任务完成度。 现在还缺关键信息:被攻破的基准有没有涉及多模态或复杂工具调用?如果连这些也沦陷,那整个评测体系的公信力就要打一个大问号了。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
04:15
62d ago
X · @op7418(歸藏)· x-apiZH04:15 · 04·12
Codepilot 学会自动把复杂操作存成 Skills
Codepilot 新增了一个类似 Hermes Agent 的 Skills 自动创建功能:当你的操作链路“非常复杂”时,AI 会主动建议你把它存成一个可复用的 Skill。正文只说了触发条件是“链路复杂”,没披露具体模型、创建流程、上线时间或生成质量。关键看这个“复杂”阈值设得多高、生成的 Skill 好不好用,而不是功能名字本身。
#Agent#Tools#Codepilot#Hermes Agent
精选理由
这是一个中小型 agent 工作流更新:任务链太复杂时自动创建 Skill,给了 HKR-H 和 HKR-K。正文没披露用哪个模型、什么时候上线、生成质量如何、效果指标怎样,所以只能算一个普通的产品更新,面向所有从业者。
一句话点评
给 Codepilot 加了个自动写 Skills 的功能,类似 Hermes Agent 的思路——让模型自己拆任务、写工具、再执行。如果真能跑通,等于把“教模型用工具”这一步自动化了,省掉不少手写配置的功夫。但正文没披露具体效果、成功率或延迟,这点先别太激动。
锐评
Codepilot 新增 Skills 自动创建功能,触发条件是“整个操作链路非常复杂”时由 AI 建议生成 Skills。就这点信息看,我的判断偏保守:这类功能的难点从来不在“能不能生成一个技能模板”,而在“什么时候该提议生成”,还有“生成后能不能稳定复用”。标题把注意力放在自动创建,上手演示通常也会很好看;落地时最先出问题的,往往是触发阈值太低,把一次性长流程错判成值得产品化的能力,结果就是技能库迅速膨胀,检索和维护一起变脏。 这条让我想到 2025 年很多 agent 产品都走过一轮类似路线:先做 prompt / tool chain 录制,再补“沉淀为可复用单元”。Hermes Agent 这套叙事能成立,前提不是会生成 Skills,而是系统知道何时抽象、如何参数化、怎样处理环境依赖。我还没查到 Codepilot 这次用了什么模型,也没看到它是否支持变量槽位、前置校验、版本回滚、失败重试。正文未披露这些,标题信息还不够判断它是“帮你封装流程”,还是“把一次成功轨迹存成脆弱脚本”。这两者差很多。 我对“复杂链路就建议生成 Skills”这个说法有点怀疑。复杂不等于高频,也不等于适合固化。很多真实开发流程之所以长,是因为中间充满一次性判断:读仓库上下文、临时查日志、看权限、绕过脏状态。把这种链路打包成 Skill,第一次自动化后面跟着的,常常是第二次失败。去年到今年,Copilot Workspace、Devin 类产品都把“多步任务自动完成”讲得很满,后来大家慢慢都收回到更窄的场景:明确输入、稳定工具、可验证输出。Codepilot 如果没把触发条件收得很严,这个功能很容易从“建议抽象”滑到“建议存垃圾”。 我更想看到三组数据,但正文都没给:一是建议触发率,多少复杂操作会被判定可生成 Skills;二是接受率,用户点确认的比例;三是 7 天或 30 天复用率,有多少新技能被再次调用。没有这几项,自动创建听起来像功能完成了,实际上只说明 UI 挂上去了。说真的,Skills 不是越多越强,复用率低于 20% 的话,它更像给 agent 再添一层管理负担。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
02:01
62d ago
新智元 · 公众号· rssZH02:01 · 04·12
中国具身智能全球第一?10万小时数据训练,但排名细节没公开
标题说中国具身智能模型拿了全球第一,用了10万小时数据训练,还提到了PI和英伟达。但正文被屏蔽了,看不到排名名称、评测指标、数据来源和具体名次。10万小时这个数字挺大,但关键问题是这些数据怎么采集和标注的——是真实机器人操作还是仿真生成?标注成本高不高?这些都没披露。PI和英伟达被点名,但具体怎么“破防”的也不清楚。结论:标题很炸,但信息缺口太大,没法...
#Robotics#Nvidia#PI#Commentary
精选理由
标题的钩子很猛——10万小时数据加PI和英伟达被点名,但正文只有标题,没给任何可复现的细节:榜单叫什么、测了什么指标、数据从哪来、排第几,全都没说。按硬排除规则第6条,信息不足直接排除。真正该盯的是那10万小时数据怎么采、怎么标,标题没给复现条件,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
02:01
62d ago
新智元 · 公众号· rssZH02:01 · 04·12
开源框架替你通宵跑实验,一天只要5毛钱
标题说有个开源框架能7×24小时跑实验,一天成本0.5元。正文没披露框架名字、定价依据、支持什么任务、能不能复现。关键看它的调度和失败恢复设计,标题只给了个低成本、常开机的说法,具体细节得等正文。
#Tools#Open source
精选理由
标题有钩子,但正文为空,连框架名字都没给,属于纯标题党。H和R靠价格和值守卖点通过,K因为零信源零细节直接挂掉,按硬排除规则6,重要性压到40以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
01:59
62d ago
量子位 · 公众号· rssZH01:59 · 04·12
中国团队造了36.4万张超声图文对,想让AI看懂临床诊断语义
一个中国团队声称建了首个大规模超声专属数据集,36.4万张图像-文本对,用来训练AI理解临床诊断语义。标题给了规模、模态和CVPR 2026的出处,但正文没披露团队名称、数据来源、标注流程、任务设定和是否开源。真正的看点应该是标注协议和下游评测结果,这些信息目前都缺。
#Multimodal#Vision#Research release#Commentary
精选理由
这篇文章只提供了一个具体事实——36.4万超声图文对——标题之外几乎没有其他信息。它触发了硬排除-4:一个领域特定的医学AI交叉话题,没有明确的智能体或产品影响,因此分数低于40。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
01:59
62d ago
量子位 · 公众号· rssZH01:59 · 04·12
年度 AI 榜单申报启动,截止四月二十七日
一个AI榜单开放申报了,号称一年一次。但文章被微信拦截,正文看不到榜单叫什么、谁办的、怎么评、什么时候截止。信息缺口太大,没法判断这个榜单有没有参考价值。
#Benchmark#Commentary
精选理由
三条 HKR 都不满足:没有钩子、没有具体新事实、没有从业者共鸣。正文连榜单名字和主办方都没披露,信息密度太低,只能归为 excluded,0/3。
一句话点评
一个AI榜单开始申报,截止4月27日。正文被微信屏蔽,没披露评选标准、评委名单和参评条件。如果是行业奖,含金量取决于谁评、怎么评,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0

更多

频道

后台