全部 · 2026-02-04

▸ 5 items · updated 3m ago

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 262 2722 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 273282930

2026-02-04 · 星期三2026年2月4日

15:14

82d ago

Google 研究院· rssEN15:14 · 02·04

Sequential Attention：让 AI 模型更轻更快且不降准确率

Google Research 发布了题为 Sequential Attention 的工作，标题声称可在不牺牲准确率条件下，让 AI 模型更轻、更快。当前只有 RSS 标题，正文为空；方法机制、提速幅度、参数规模、基准名称均未披露。真正该盯的是可复现证据，别被标题先带节奏。

#Inference-opt#Google Research#Research release

精选理由

Google Research 的标题有吸引力，HKR-H 与 HKR-R 成立：它把“更轻、更快、不降准确率”放在一起，直指推理成本焦虑。HKR-K 不成立，因正文为空，机制、提速数字、参数规模和基准都未披露，所以只能给低分 all。

编辑点评

Google Research 只放出标题就宣称“更轻更快且不掉点”。这类三连好消息，我先按营销上限看，除非它把基准、算子路径、硬件条件一次讲清。

深度解读

Google Research 现在只给出一条标题，声称 Sequential Attention 能在“不牺牲准确率”条件下，把模型做得更轻更快。正文空缺，机制未披露，提速幅度未披露，参数或 KV cache 变化未披露，跑分基准也未披露。信息量到这一步，其实还不够判断它是新注意力公式、推理时重排、还是特定硬件上的 kernel trick。我对这种标题天然会压一档看。注意力优化这条线，过去一年已经被讲得太满了：FlashAttention 系列主要吃的是 IO 感知和 kernel 实现；MQA、GQA 吃的是 KV cache 和带宽；paged attention、speculative decoding、sliding window 则是在服务系统和长上下文里抠延迟。每一类都能在某个条件下给出漂亮数字，但条件一换，收益就会塌。标题里把“leaner”“faster”“without sacrificing accuracy”三件事绑在一起，我会先问三个问题：省的是参数、激活、还是 KV；快的是训练、prefill、还是 decode；准确率不掉，是在 ImageNet 这类老基准，还是在 LLM 的 long-context、code、reasoning 上。现在这些都没有。我还有个疑虑：这名字听起来像算法层改动，不像纯工程优化。如果它改了 attention 顺序或近似路径，准确率“无损”往往只在作者选的任务上成立。去年很多线性注意力、稀疏注意力、状态空间替代方案都碰过这个墙：吞吐提升是真的，分布一偏、上下文一长，质量回撤也是真的。我没看到正文，所以不能说它会重演这条路；我只能说，标题没给可复现条件前，这个结论不该先收。 Google Research 自己过去也有两种发布节奏：一种是像 Flash/TPU 相关工作那样，paper、代码、硬件设定一起给，行业能很快复现；另一种是 blog 先放概念，细节晚到，最后只在自家栈上成立。现在这条更像后者，至少公开信息是这样。我会等三样东西：具体 benchmark 名称，和 FlashAttention-3 或 GQA 的对比口径；在哪类模型上测，尤其是 decoder-only LLM 还是视觉模型；有没有代码或伪代码。没有这三样，这条先别高估。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:10

82d ago

MIT 科技评论· rssEN13:10 · 02·04

MIT Technology Review《The Download》：AI企业投注下一代核电，GPT-5数学成果引发争议

MIT Technology Review 在 2026 年 2 月 4 日的《The Download》同时点名两件事：AI 公司押注下一代核电，社交媒体放大 GPT-5 数学突破宣传。正文可确认的细节是，争议源于 OpenAI 研究员 Sébastien Bubeck 发帖称 GPT-5 参与解出 10 个未解数学题，Google DeepMind CEO Demis Hassabis 公开回称“这很尴尬”。真正值得盯的是，帖子是 newsletter 摘要，核电投资规模、数据中心用电数字与数学结果验证条件都未披露。

#Reasoning#MIT Technology Review#OpenAI#Google DeepMind

精选理由

这是一篇 newsletter 式重述，正文只确认 Bubeck 的“10 个未解题”发帖与 Hassabis 回应，未给出验证条件、核电投资规模或数据中心用电数字。HKR 的 H、R 勉强成立，但命中 hard-exclusion 的陈旧重述，重要性封顶在 39 以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:00

82d ago

OpenAI 博客· rssEN13:00 · 02·04

解构 Codex harness：OpenAI 如何构建 App Server

OpenAI 发布一篇关于 Codex harness 的 App Server 文章，但 RSS 正文为空，架构、接口与部署条件未披露。标题只确认主题是“如何构建 App Server”；别被标题骗了，真正缺的是可复现细节与技术参数。

#Code#Tools#OpenAI#Codex

精选理由

标题只确认 OpenAI 发布了 Codex harness App Server 构建文，RSS 正文为空，架构、接口、部署条件都未披露。HKR 三轴都不成立，且触发零来源内容硬排除，importance 压到 34，tier 记为 excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

00:00

82d ago

FEATURED硅谷101 播客· atomZH00:00 · 02·04

E224｜Mac mini 被抢购，Clawdbot为何会成 2026 年首个现象级产品？｜Moltbot｜MoltBook｜OpenClaw

播客称，Clawdbot 项目数天内突破 10 万 GitHub stars，2 月 2 日升至 14.6 万，并在一周内连续改名为 Moltbot、OpenClaw。正文给出的机制是：它把 Claude 模型、长期记忆、IM 消息入口和主动触发心跳拼成一个 Agent 形态；标题提到 Mac mini 抢购，正文只讨论了“Agent 电脑”需求，未披露销量数据。真正值得盯的是交互层，不是单点模型能力：这期更多是行业评论与用户案例，不是官方参数发布。

#Agent#Memory#Tools#Anthropic

精选理由

这是一篇热点 Agent 现象的评论型拆解，不是官方发布。HKR 三项都过：14.6 万 stars 与连环改名有点击力，正文也给出长期记忆、IM 入口、主动触发等具体机制，还碰到 Agent 入口、独立机器与安全账单三根行业神经；一手数据和可验证指标不够完整，所以只到 featured 低段。

编辑点评

Clawdbot 一周冲到 14.6 万星，爆点不在 Claude，而在它把 IM、记忆、主动触达揉成了一个可上瘾的壳。

深度解读

Clawdbot 在 2 月 2 日冲到 14.6 万 GitHub stars，这波爆红先证明了一件事：2026 年用户先买的是“关系感”，不是更强的模型分数。播客里反复提到的长期记忆、IM 入口、heartbeat 主动触发，其实都不是首发能力。Claude Code、Manus、各类 companion 产品、去年那批 memory layer 创业公司，很多部件早就有人做。OpenClaw 把这些部件拼进一个足够顺手的交互回路里，用户才第一次大规模觉得“这东西在陪我过日子”，不是“我又开了一个聊天窗口”。我一直觉得这类产品的分水岭，不在 benchmark，而在谁先把 agent 从任务态拉到待机态。网页 chat 是显式调用。你得打开它，给它一个任务，再等它回你。IM+主动提醒改掉了这个节奏。它开始占据你的碎片时间，甚至开始替你保持一些低频但持续的注意力，像播客里那个“牛肉快过期”“服务器蹲一天再建议降配”的例子。这里最值钱的不是推理深度，而是触发频率。一个 agent 只要每天能合法地打扰你 5 到 20 次，它的存在感就会快速超过单次能力更强、但只能被动等待的工具。这也是我对“Mac mini 遭疯抢”这个标题有点保留的原因。标题给了硬件抢购，正文没给销量、库存、渠道、时间范围，没法判断这是供应链紧张、极客圈跟风，还是稳定需求。播客本身讲得更像“Agent 电脑”这个概念被点燃，而不是 Mac mini 这个 SKU 已经成了新基建。别把社媒热度直接翻译成硬件换代。2024 年本地 AI PC 也热过一轮，最后真正落地的常常是云端推理加轻本地守护进程，不是每个人都在桌上再放一台机器。外部参照其实很清楚。Manus 那轮火，靠的是“我把活派出去”；Claude Code 那轮火，靠的是“我把电脑交出去”；Clawdbot 这轮火，靠的是“我把日常入口交出去”。三者都不是单点能力突破，都是控制权转移。这个差异很关键。把终端、文件系统、浏览器交给模型，用户会紧张；把 WhatsApp、微信、飞书这种已经高频的入口交给模型，用户更容易先上瘾，再补权限。产品路径上，这比做一个全新 app 更凶，因为它借了现成的行为习惯。我对这条叙事也有两层怀疑。第一层是安全。正文提到 MoltBook 曝出敏感信息泄露，还说“150 万个 AI 中多数是人类假扮”，这些细节没有更硬的技术披露。要是真把个人资料、IM、提醒事项、服务器操作全打通，最薄弱的环节大概率不是模型幻觉，而是权限治理、日志留存、密钥管理、第三方插件调用。过去一年几乎每个 agent 爆款都会在这里掉链子：能跑通 demo，不等于能长期托管身份。第二层是成本。正文只说服务器账单成了“天文数字”，没给 token、带宽、消息轮询、工具调用的拆分。这个缺口很大。主动 agent 的商业死线从来不是日活，而是后台空转成本占比。heartbeat 一旦过密，钱会烧得非常快。还有一点我比较买账：它让“记忆”从 infra 词汇变成了用户可感知功能。去年很多团队都在卖 memory as infrastructure，讲压缩、召回、个性化 profile、长期状态存储。开发者懂，普通用户没感觉。OpenClaw 把记忆变成一句句会自己找上门的话，价值瞬间具体了。这个转化很像 2023 年 RAG 从论文概念变成“能引用我文档”的产品时刻。技术并没突然变新，包装和调用场景变了，市场才认账。我不太买“现象级等于护城河”这个说法。GitHub 星数涨得快，说明开发者 FOMO 很强，也说明它踩中了开源社区的传播结构；它不自动等于留存、付费、低事故率。播客提到它一周内连改名两次，从 Clawdbot 到 Moltbot 再到 OpenClaw，这已经说明产品定义跑得比组织和法务快。早期当然可以靠这种速度赢关注，可一旦你接入 IM、记忆、个人数据、自动执行，品牌、权限边界、审计能力都会变成产品的一部分，不再是后补件。我自己的判断是，这波不会把市场带到“人人一台 Agent 电脑”那么快，它会先把行业带到“人人需要一个常驻入口 agent”。入口可能在 IM，可能在邮箱，可能在系统菜单栏，未必在独立硬件。谁先把权限模型、记忆淘汰策略、低成本心跳调度做稳，谁才有资格吃下一阶段。只靠 Claude 套壳冲出来不稀奇，把主动触达做成可靠服务，这才是硬仗。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

82d ago

Hugging Face 博客· rssEN00:00 · 02·04

Community Evals：我们不再只信黑箱排行榜，而是转向社区评测

Hugging Face 以“Community Evals”为题，直接质疑黑箱排行榜的可信度，并把对比基准指向社区评测。正文为空，除标题外未披露评测任务、参与机制、样本规模或上线时间；真正值得盯的是，它把“谁来评”放到“谁排第一”之前。

#Benchmarking#Hugging Face#Commentary#Benchmark

精选理由

标题把黑箱排行榜与社区评测对打，H、R 成立。正文为空，只确认项目名，没有任务设计、参与机制、样本规模或上线时间，触发“零来源内容”硬排除，分数封顶 39。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

全部 · 2026-02-04

更多

频道

后台