ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
44 srcsignal 72%cycle 04:32

全部 · 2026-02-13

7 items · updated 3m ago
RSS live
2026-02-13 · 星期五2026年2月13日
17:11
72d ago
● P1Dwarkesh Patel 访谈· atomEN17:11 · 02·13
Anthropic CEO称AI模型指数增长即将在一到两年内结束
Anthropic CEO Dario Amodei 在一场长访谈中称,模型能力的指数级提升仍在延续,但已接近终点,时间尺度只差“1到2年”。他把进展归因于算力、数据、训练时长与可扩展目标函数,并称 RL 在数学、编程等任务上也呈对数线性收益;访谈未披露具体实验曲线、模型版本或复现参数。真正值得盯的是他的判断:预训练与 RL 不是两套故事,而是一套持续扩展的训练经济学。
#Reasoning#Code#Alignment#Dario Amodei
精选理由
这是头部实验室 CEO 对扩展曲线、RL 收益和时间线的直接判断,HKR 三轴都成立。分数压在 85,因为正文未披露实验曲线、模型版本或复现条件,新增信号主要是观点密度,不是产品或论文发布。
编辑点评
Amodei 把时间线压到“几年”,我买紧迫感,但不买他把公共怀疑写成迟钝。RL 时代缺公开 scaling law,正是怀疑该存在的地方。
深度解读
Dario Amodei 在 Dwarkesh 访谈里把 AGI 叙事推到“几年内接近天才国家级算力体”。这次覆盖只有 2 个来源,且都是 Dwarkesh 的文字版和 YouTube 版,不能当作独立媒体交叉验证。两边标题完全一致,说明事件的信号不是“多家媒体确认”,而是 Anthropic CEO 选择在一个长访谈里释放高强度时间线判断。 这里最重的不是那句“near the end of the exponential”。重的是 Amodei 把三件事绑在一起讲:模型能力按预期指数推进;代码能力已经越过一般博士或专业水平;公众仍在用常规政治议题处理一个短时间窗里的能力跃迁。这个组合很 Anthropic:一边强调安全和治理紧迫性,一边不断提醒市场,自己坐在前沿能力曲线的最内侧。 Dwarkesh 的文字稿角度更偏“思想路线图”。它把问题拆成 RL scaling、经济扩散、算力投入、实验室利润、监管、美国和中国竞争。YouTube 标题没有新增事实,主要放大那句可传播的警报。两源一致不是独立判断收敛,而是同一访谈资产的双渠道分发。这个要分清,否则很容易把“播客爆款标题”误读成行业共识。 我对 Amodei 的核心判断一半认同,一半保留。认同的部分是:过去一年多,前沿模型在代码、长任务、工具调用、agentic workflow 上的斜率确实比聊天体验更陡。Claude Sonnet 4.5 这类模型如果放在软件工程上下文里看,已经不是“会写函数”的级别,而是在很多 repo 级任务里开始触碰初级工程师的工作边界。OpenAI、Anthropic、Google、xAI 都把模型发布讲成推理、代码、工具使用、长上下文和多步任务,说明前沿实验室内部也不再只盯 next-token loss 的展示指标。 保留的部分在 RL。Dwarkesh 问得很准:三年前大家还能讨论预训练 scaling law,至少有公开曲线和跨数量级 compute 的故事。现在 RL regime 里,外部看不到同等级别的公开规律。我们不知道 Anthropic 看到的是 reward model、verifier、合成任务环境,还是代码和数学 benchmark 上的局部幂律。正文只披露了访谈问题和 Amodei 的高层说法,未披露可复现实验、训练 compute、数据配方、RL 预算占比、能力曲线斜率。拿“指数快结束了”当结论可以,拿它当证据不行。 说真的,我也不太买“公众没有认出我们有多接近终点”这个责备口吻。公众看不到 Anthropic 内部 eval,看不到失败样本,看不到训练后能力的分布尾部,也看不到模型在真实企业流程里的可靠性曲线。外部只能看到发布会、基准榜、产品 demo、价格表和宕机记录。要求外部像实验室 CEO 一样相信时间线,本身就不合理。前沿实验室过去反复用安全理由要求政策信任,又用商业理由保留关键证据,这里面有张力。 更微妙的是算力和利润问题。访谈时间戳里有“如果 AGI 临近,为什么不买更多算力”和“AI labs 如何盈利”。这两个问题把 Amodei 叙事里最硬的矛盾摆出来了:如果只差几年,理性策略应该极端扩张 compute;如果实验室还要讲利润模型,那就说明资本、供电、芯片、产品化、监管都在约束这条指数曲线。所谓“end of the exponential”并不只受算法控制,它还受数据中心交付周期、GPU/ASIC 供应、推理毛利、客户愿付价格约束。正文未给 Amodei 对这些矛盾的完整回答,所以不能替他补。 外部参照也让这句话更复杂。2025 到 2026 的主线不是单纯模型变聪明,而是推理成本下降、代码 agent 上线、企业集成变慢、监管和版权诉讼继续拖住部署。很多 AI 从业者已经在生产环境里看到两条曲线分叉:benchmark 能力升得快,可靠落地升得慢。Amodei 说“diffusion cope”这个章节标题很挑衅,但现实是扩散确实有摩擦。ERP、医疗、金融、政府采购不会因为模型能解 PhD 题就自动改流程。 我的判断是:这次访谈是一个强烈的“内部时间线外泄式发言”,不是一篇能验证时间线的技术披露。它的价值在于告诉我们 Anthropic CEO 仍然把能力曲线看得非常短,并且认为社会反应严重滞后。它的弱点也清楚:没有公开 RL scaling law,没有给出 eval 方法,没有解释从代码超强到经济重构之间的可靠性鸿沟。AI 从业者该认真听这个警报,但别把 CEO 的紧迫感误当成物理定律。
HKR 分解
hook knowledge resonance
打开信源
91
SCORE
H1·K1·R1
11:00
73d ago
OpenAI 博客· rssEN11:00 · 02·13
GPT-5.2 推导出一项理论物理新结果
OpenAI 在标题中称,GPT-5.2 推导出一项理论物理新结果;当前只有标题这 1 条信息。RSS 摘要为空,正文未披露具体结果、推导方法、验证方式与参与研究者。真正值得盯的是可复现性;没有公式、实验或同行评审,这还不是可核验结论。
#Reasoning#OpenAI#Research release#Commentary
精选理由
标题有点击力,但信息量接近零:正文未给出公式、验证方式、参与研究者或同行评审。该题材属于“传统科学+AI 交叉且无产品/agent 含义”硬排除,所以判为 excluded,分数压在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
10:00
73d ago
OpenAI 博客· rssEN10:00 · 02·13
OpenAI 在 ChatGPT 中推出 Lockdown Mode 和 Elevated Risk 标签
OpenAI 宣布在 ChatGPT 中加入 Lockdown Mode 和 Elevated Risk 标签,已确认是两项新安全功能。正文为空,除产品名与功能名外,触发条件、覆盖用户范围、上线时间、默认设置均未披露。别被标题骗了,当前能确认的是方向是安全分级,不是完整机制。
#Safety#OpenAI#ChatGPT#Product update
精选理由
OpenAI 官方只确认 ChatGPT 将加入 Lockdown Mode 和 Elevated Risk labels。正文未披露触发条件、覆盖人群、默认状态与上线节奏,HKR 只有标题钩子,没有足够机制信息,所以进 all,不进 featured。
编辑点评
OpenAI 给 ChatGPT 加了 2 个安全入口,但正文为空;我先不买账,没触发条件的“安全模式”更像叙事占位。
深度解读
OpenAI 宣布 ChatGPT 新增 2 项安全功能,但正文未披露触发条件、默认开关、覆盖人群和上线节奏。我的第一反应不是“更安全了”,而是 OpenAI 在把 ChatGPT 的风控界面做成分级系统,先把产品语义占住,再补执行细节。Lockdown Mode 这个名字很重,听起来接近高风险账户保护、会话限制,或者更强的外部访问隔离;Elevated Risk labels 则像内容、账号、会话、工具调用中的风险标记层。问题在于,标题只给了名字,没给机制,这两者落差很大。 我一直觉得,消费级 AI 产品走到 2026 年,安全能力的竞争点早就不是“有没有拒答”,而是谁先把风险状态显式暴露给用户和管理员。去年到今年,Anthropic、Google、Microsoft 都在往这条路走:不是单点拦截,而是给模型输出、账号状态、企业策略挂标签。我没查到这篇正文,因为它就是空的;但按行业节奏看,OpenAI 现在补这层并不意外,反而算偏晚。ChatGPT 先前更像统一交互面板,很多安全决策藏在系统侧,用户只看到结果,看不到判定级别。 我对这条的保留意见很明确:如果 Elevated Risk 只是前台标签,没有配套的动作矩阵,比如限速、禁用工具、加强审计、管理员告警,那它就是 UI,不是控制面。Lockdown Mode 也一样。默认关闭的话,实际采用率通常不会高;默认开启的话,误伤率、申诉流程、企业兼容性就会立刻变成问题。标题已给出方向,正文未披露代价。这个信息缺口很关键,因为安全功能最容易被公司写成“能力上线”,最难讲清的是谁来承担 friction。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R0
00:30
73d ago
少数派 · 直链· rssZH00:30 · 02·13
派早报:智谱上线并开源 GLM-5 模型,网信办开展春节清朗行动
标题给出 2 条事实:智谱上线并开源 GLM-5 模型,网信办开展春节清朗行动。RSS 摘要还提到字节跳动发布视频创作模型 Seedance 2.0、小米 Tag 追踪器已在欧洲上市;参数、许可证、时间表与行动范围,正文未披露。别被单一标题骗了,这更像多条新闻汇总,不是一篇只讲 GLM-5 的独立稿件。
#Multimodal#Zhipu#ByteDance#Xiaomi
精选理由
“智谱上线并开源 GLM-5”是有效信号,但这篇是早报汇总,不是围绕该发布的独立稿。正文未给出参数、许可证、评测或上线条件,HKR 主要命中 R,重要性落在低价值新闻带,给 all。
编辑点评
少数派这条把 4 件事塞进 1 个标题。对 GLM-5 下判断还太早,正文连参数和许可证都没给。
深度解读
标题同时挂出 GLM-5、清朗行动、Seedance 2.0、Xiaomi Tag 四件事。这个信息密度不等于信息含量,因为正文只剩一段 RSS 摘要,连 GLM-5 的参数、上下文长度、许可证、基准、发布日期都没披露。 我先把态度摆明:这条现在没法当作“GLM-5 发布”来读,更像中文科技媒体常见的晨报拼盘。你如果真在做模型选型,眼下拿不到任何可执行信息。开源这两个字当然抓眼球,但开源差别很大。权重开放、代码开放、商用许可、蒸馏限制、地域限制,落地结果完全不是一回事。正文没给,任何“智谱开始正面冲击开源头部”的结论都站不住。 回到 GLM 这条,我一直觉得国内模型厂商现在最需要交代的,不是又迭代到第几代,而是三组硬指标:一,许可证到底宽不宽;二,推理成本压到什么水平;三,代码、工具调用、长上下文这几个高频场景有没有实测。去年到今年,开源圈已经被 Qwen、DeepSeek、Llama 这几家把标准抬得很高。Qwen 系列通常会把尺寸、评测、部署方式讲得比较全;DeepSeek 真正打到开发者心智,靠的也不是“我们又发新模型”,而是价格和可复现 benchmark 一起出来。我没看到 GLM-5 的任何对应数据,所以现在讨论实力排位,基本都在空转。 清朗行动那半句也一样。网信办开展行动是事实,行动范围、平台类型、处罚口径、是否点到 AI 生成内容,正文都没写。这个缺口不能轻轻带过。过去一年,国内平台最敏感的不是“有没有治理”,而是治理是否开始更细地落到 AIGC 分发、推荐、账号矩阵、训练数据来源这些接口层。我还没查到这次春节行动的正式通报,所以不想硬猜。但如果连行动边界都没有,只把“清朗”三个字塞进标题,对从业者帮助很有限。 Seedance 2.0 反而让我多看一眼,因为字节最近在视频生成上动作不小。问题还是同一个:没有分辨率、时长、可控性、生成速度、是否对外开放 API,这条消息就只能停留在“字节也在继续推视频模型”。拿过去一年的行业节奏看,视频模型竞争早就不是 demo 竞赛了。Runway、Pika、Kling、即梦这一圈打到后面,比的是稳定性、编辑链路和成本,不是单次样片够不够惊艳。标题没给这些,判断不了。 Xiaomi Tag 在欧洲上市这句更像消费电子动态,和前面三条放在一起,只会稀释焦点。说真的,我不太买账这种标题写法。它会制造一种“今天信息很多”的感觉,但对 AI 从业者最需要的那部分细节,几乎没有增加。 所以这条最稳的读法只有一个:把它当线索,不当结论。GLM-5 是否值得认真看,至少要等智谱公开模型卡、许可证、参数规模、评测口径,最好再加一组第三方部署反馈。没有这些,标题里的“上线并开源”只是一句起点,不是能力证明。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K0·R1

更多

频道

后台