全部 · 2026-02-12

▸ 8 items · updated 3m ago

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 262 2722 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 273282930

2026-02-12 · 星期四2026年2月12日

18:34

73d ago

阮一峰的网络日志· rssZH18:34 · 02·12

科技爱好者周刊（第385期）：马斯克害怕中国车企吗？

阮一峰在第385期周刊中讨论 Tesla 停产 Model S 和 Model X 后，马斯克是否因 2025 年销量下滑而回避与中国车企竞争。正文给出的具体条件是，Tesla 家用车款从 4 款减到 2 款，高管称公司更像交通运输服务商，马斯克称长期只生产自动驾驶车辆。真正值得盯的是战略转向本身，不是“怕不怕中国车企”；这篇文章是作者评论，不是 Tesla 官方公告。

#Robotics#Agent#Tesla#Elon Musk

精选理由

只有 HKR-H 命中：标题用“马斯克怕不怕中国车企”制造冲突。HKR-K 缺少自动驾驶技术、数据或可复现条件，HKR-R 也弱；正文核心是 Tesla 车型与商业战略评论，不是 AI 产品或研究更新，所以压到 34 分并排除。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

13:10

74d ago

MIT 科技评论· rssEN13:10 · 02·12

The Download：AI 加强网络犯罪，与安全 AI 助手

MIT Technology Review 在 2 月 12 日的 The Download 汇总了 3 个 AI 议题：AI 正在降低网络攻击门槛，OpenClaw 暴露个人助手安全风险，中国开源模型继续推进。RSS 摘要点名 DeepSeek R1 于 2025 年 1 月发布，也点名 OpenClaw 会接触邮件和硬盘数据；各文完整参数、防护方案与量化影响，正文未披露。真正值得盯的是已发生的诈骗提速，不是“全自动黑客”标题党。

#Safety#Agent#Reasoning#MIT Technology Review

精选理由

这是一篇日更汇总，不是单一事件报道。HKR 只有 R 成立；正文没有给出诈骗增幅、防护方案或复现条件，也没有新增报道角度，按“陈旧重述”处理，重要性封顶在 39 以下。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

11:00

74d ago

● P1MIT 科技评论· rssEN11:00 · 02·12

AI 已经让网络犯罪更容易，情况还会更糟

微软称其截至2025年4月前一年拦截了40亿美元诈骗与欺诈交易，其中很多内容很可能由AI生成。正文给出的研究称，至少一半垃圾邮件已由LLM生成；定向邮件攻击中，LLM占比从2024年4月的7.6%升至2025年4月的14%。别被“全自动AI黑客”标题带偏，真正该盯的是AI已在放大钓鱼、深伪和恶意代码生成，正文未披露这些攻击的总体增幅。

#Safety#Code#Multimodal#Microsoft

精选理由

HKR 三项都成立：标题抓人，正文也给出 40 亿美元拦截额、至少半数垃圾邮件由 LLM 生成、定向邮件攻击占比从 7.6% 升至 14% 这些硬数据。给 featured，不到 p1，因为它是高质量趋势报道，不是会改写行业节奏的单一突发事件。

编辑点评

微软称其一年拦下40亿美元诈骗交易；我看这条不是“AI黑客觉醒”，而是诈骗工业先把生成式AI吃干抹净了。

深度解读

微软在截至2025年4月的一年里拦截了40亿美元诈骗交易。这个数字很硬，叙事却容易跑偏。我对“全自动AI黑客”这套说法不太买账。文章自己已经给了反证：PromptLock 是纽约大学研究样本，不是野外大规模勒索软件。眼下更现实的变化，是生成式AI把诈骗链条里最贵、最慢、最容易露馅的环节压低了成本。先看文中最能落地的两组数。研究者分析近50万条恶意消息后估计，至少一半垃圾邮件由LLM生成。定向邮件攻击里，LLM占比从2024年4月的7.6%升到2025年4月的14%。这说明两件事。第一，AI已经不是边角料，它在批量内容生成里成了默认工具。第二，定向攻击里的采用率还没高到“全面接管”。14%是增长，不是统治。标题如果让人以为攻防已经进入自治恶意体阶段，这就有点过了。我更在意的是 economics。垃圾邮件、商务邮件诈骗、假客服、伪造简历、养号、钓鱼落地页，这些活过去靠低成本人工外包。现在换成LLM，攻击者拿到的是三样东西：文案更像人，迭代更快，覆盖语种更多。这个变化和两年前很多公司把客服、销售外联、代码补全接进模型，本质是同一条曲线。合法业务先证明了“把沟通劳动压成推理成本”能跑通，欺诈方只是在复用同一套生产函数。WormGPT、FraudGPT 这类地下工具去年就已经在卖，能力未必顶尖，卖点就是省时、省训练、降低入门门槛。文章里最缺的一块，是总体攻击量和转化率。微软给了40亿美元拦截额，却没拆出其中多少来自AI辅助，多少是老式诈骗。14%的定向邮件由LLM生成，也没告诉你这类邮件总体量涨了多少，点击率涨了多少，最终转账损失涨了多少。没有这些分母，很难判断AI带来的是“更多垃圾”还是“更高成功率”。我倾向于两者都有，但幅度不能靠想象补。深伪这块也一样。文中提到Arup员工在视频会议里被骗走2500万美元。这个案例够说明问题：攻击者不需要一个会自主横向移动的智能体，只需要在一个关键触点上把“像真人”做到足够过关。对企业风控来说，这比讨论自主恶意软件更麻烦。因为它击中的不是EDR、沙箱、签名库，而是审批流程、组织信任、付款习惯。很多公司嘴上说零信任，财务流程还是默认“熟悉的人脸+熟悉的声音”可信，这个假设已经失效。我还想补一层文章外的背景。过去一年，OpenAI、Anthropic、Google 都在加强模型的生物、网络滥用防护，也会拦截明显的恶意请求。问题是，诈骗生成常常卡在灰区。写一封更像真人的催款邮件，改一段更地道的英语，做一段模仿口音的语音，这些请求单看表面很难判成“攻击”。安全护栏对“教你提权、写勒索器”有用，对“帮我写一封更会骗人的信”就没那么有效。攻击面因此不只来自开源权重，也来自主流商用模型的正常能力外溢。还有一点我觉得业界容易自我安慰：把风险理解成“低水平骗子现在也能做高水平攻击”。这只说对了一半。更麻烦的是，成熟团伙会把AI塞进现有流水线，做A/B测试，做地域化脚本，做多模态冒充，做实时应答。那不是把一个菜鸟抬到高手水平，而是把本来就赚钱的诈骗业务继续工业化。电诈园区、黑产工作室、地下支付网络，本来就擅长流程拆分和指标优化。生成式AI天然适合这种场景。所以我对这条的判断很直接：风险已经发生，且主要落在社会工程，不落在科幻式自主入侵。文章有价值的地方，是把PromptLock从神话拉回实验室，把注意力放回邮件、语音、视频和恶意脚本辅助。文章没给出的关键，则是成功率、损失率、渠道分布、不同模型的贡献度。没有这些数据，厂商很容易把一切坏事都算到“AI威胁升级”账上。对从业者来说，防线也不该只放在模型拒答率。更该补的是转账复核、语音活体验证、出款冷静期、跨渠道二次确认，还有员工对“高拟真但低上下文一致性”信号的训练。诈骗行业已经把AI当成运营工具了，防守方还把它当新闻题材，这个节奏差才危险。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:00

74d ago

● P1MIT 科技评论· rssEN10:00 · 02·12

中国开源 AI 的下一步是什么

MIT Technology Review称，2025年1月DeepSeek发布R1后，中国公司连续推出接近西方头部模型的开源权重模型，Moonshot AI的Kimi K2.5早期基准接近Anthropic Claude Opus，价格约为后者的七分之一。正文还给出Qwen在2024年占Hugging Face下载量30%以上、到2025和2026年累计下载反超Meta Llama；真正值得盯的是，中国开源路线正从少数通用模型转向大量可微调、可蒸馏的专用变体。

#Reasoning#Code#Fine-tuning#DeepSeek

精选理由

HKR 三项都命中。文章不是新品发布，但给出 1/7 定价、Hugging Face 下载占比和“通用模型转向可微调/可蒸馏变体”的清晰判断，对开源选型和竞争格局有直接参考，所以进 featured；缺点是缺少一手实验，达不到 p1。

编辑点评

Qwen 在 2025、2026 两年累计下载反超 Llama，这不是情绪宣言，是开源 AI 分发权开始换手。

深度解读

Qwen 在 2025、2026 两年累计下载反超 Llama，这条比“Kimi K2.5 便宜七分之六”更硬，因为它说的是开发者默认选型，不是单次 benchmark 漂亮。我的判断很直接：中国开源模型这波已经走出“追平美国”的阶段，开始进入“谁来定义开源默认底座”的阶段，而且中国公司现在手里的优势，不只是低价，而是发布频率、可蒸馏性、中文与多语种数据密度、还有对开发者分发渠道的占领。先看文中给到的几个数。Kimi K2.5 在早期基准接近 Claude Opus，价格约是后者七分之一；Qwen 在 2024 年吃下 Hugging Face 30% 以上下载，到 2025 和 2026 的累计下载反超 Llama。只靠这几条，已经足够说明一件事：开源世界的竞争单位，从“哪家最强”变成了“哪家最常被拿来改、蒸、部署、二次训练”。这个变化很关键。闭源模型的护城河是 API 收费和产品闭环，开权重模型的护城河是被多少下游工作流当作母体。谁先变成蒸馏底座，谁就开始吃生态复利。 MIT 这篇把重心放在“中国坚持开源”上，我基本同意，但我对“因为开源所以会赢”这个叙事没那么买账。开源从来不是自动胜利按钮。Meta 当年把 Llama 2、Llama 3 推到全球，靠的也不只是权重开放，而是社区教程、推理框架支持、云厂商预装、论文与 demo 一起铺开。中国模型现在补上的，正是这套分发机器。Qwen 能冲到 30%+ 下载，占的不是一句“便宜”就能解释的便宜，而是版本密度够高，尺寸带够全，从 0.5B 到大参数基本都有，做 agent、做代码、做本地部署的人都能找到可用起点。这个策略比“做一个旗舰通杀”现实得多。文章里还有一句我觉得方向是对的：市场正从少数通用模型，转向大量可微调、可蒸馏的专用变体。这个判断其实跟过去一年开发侧的真实动作一致。大家嘴上还在聊前沿基准，手上做的已经是 LoRA、蒸馏、合成数据清洗、推理成本压缩、场景专模。R1 当时炸开的，不只是推理能力，还有“高能力链路能不能被复刻”的想象空间。只要一条能力链被开源复现过，后面就会出现一串行业版、语言版、端侧版。美国大厂近一年越来越把价值锁在 API、工具调用和企业分发里，中国团队反过来把价值撒进权重层。这两条路会把创新地理重新分配：不是所有人都去买最强 API，而是更多团队在开权重之上长出自己的产品层。我自己的疑虑有两点。第一，文中拿“Kimi K2.5 接近 Claude Opus”做对比，但正文没有披露 benchmark 名称、测试条件、上下文长度、推理预算，也没说是哪些“early benchmarks”。这种说法我会先打折。接近哪一组分数，差 1 分还是 10 分，部署时延和稳定性差多少，正文都没给。过去一年大家见过太多“接近 SOTA”的宣传，真到生产环境里，经常输在 tool use、长程稳定、格式遵循和 eval 污染。第二，下载量不等于商业闭环。Hugging Face 下载能证明采用意愿，证明不了谁把钱赚到了。Meta 早就演示过一件事：生态热度可以很高，收入捕获却未必在模型提供方手里。还有一层上下文，文章没展开，但做从业的人应该会想到。美国这边 2025 年后几家前沿实验室越来越少放出强权重，更多转向 API、agent 平台、企业安全和专有数据连接器。这个真空本身就在给 Qwen、DeepSeek、Kimi 送机会。开源社区不是突然更爱中国模型了，而是美国头部厂商主动撤出了很多可下载能力层。你把供给空出来，别人就会补位。这里面有技术竞争，也有策略误判。我还想补一句政策和文化面的现实。文中提到中国高校开始把 GitHub、Gitee 开源贡献纳入激励，国务院在 8 月放出草案。这种制度信号很重要，因为它改变的是人才把时间投到哪里。美国实验室的顶尖研究员，近年更多被产品化和安全流程绑定；中国很多团队还愿意把成果先做成可传播的模型资产。短期看，这会继续推高发布频率。长期能不能持续，还是要看钱从哪里回来。正文最后也提到财务可持续性，但这一段被截断了，没给具体公司数据。我没法替它补。所以我对这条的结论是：别把它读成“中国模型又便宜了一点”。更像是开源 AI 的基础设施层开始东移，而且迁移的单位不是单个旗舰模型，是一串可改、可蒸、可复用的模型家族。谁掌握这层，谁就更容易定义默认工具链、中文和新兴市场的评测口径、还有下一批 agent 的底模选择。商业结果现在还没定，分发结果已经在变了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:00

74d ago

FEATUREDOpenAI 博客· rssEN10:00 · 02·12

推出 GPT-5.3-Codex-Spark

OpenAI 发布题为《Introducing GPT-5.3-Codex-Spark》的条目，标题确认型号为 GPT-5.3-Codex-Spark。正文为空，只有 RSS 标题；参数、定价、上下文长度、是否面向代码场景均未披露。

#Code#OpenAI#Product update

精选理由

官方来源确认 OpenAI 发布 GPT-5.3-Codex-Spark，HKR-H 与 HKR-R 成立：新型号名本身有新鲜度，也会牵动代码模型竞争讨论。HKR-K 不成立，正文没有参数、定价、上下文长度或性能数据，所以只给 featured 下沿分。

编辑点评

OpenAI 只放出 GPT-5.3-Codex-Spark 这一个型号名，正文零参数。我看这更像产品线切分信号，不像一次完整发布。

深度解读

OpenAI 这次只公开了 GPT-5.3-Codex-Spark 这个名字，正文没有参数、定价、上下文长度、可用范围。我的判断很直接：这不是一条够用户立即迁移的发布信息，更像内部路线图先漏出一个节点，顺手给市场打预期。型号名本身已经给了两层信息。第一层是“5.3”，说明 OpenAI 还在沿用 GPT-5 之后的小版本迭代，而不是把每次能力调整都包装成全新代际。第二层是“Codex-Spark”，这让我更在意产品分层。OpenAI 过去一年一直在把“通用模型”“代码代理”“工作流入口”拆开卖：Codex 这个词回来了，通常不是怀旧，是在告诉开发者这条线要单独运营。我还没查到官方说明，所以这里只能说到这一步，不能替它补完“是否专做代码”。我对“Spark”这个后缀有点警觉。行业里带 Spark、Flash、Mini 的名字，很多时候对应的是低延迟、小上下文、便宜路由，目标不是把 benchmark 顶满，而是把 IDE、PR review、终端代理这种高频调用场景跑顺。Anthropic 之前把 Sonnet 系列卡在性价比位，Google 也长期用 Flash 这类命名去暗示速度优先。OpenAI 现在拿出一个带 Codex 的 Spark，我第一反应不是“更强代码模型来了”，而是“他们在补一个更便宜、更快、更好路由的代码位”。但这里我得承认，正文没给 latency、price、tool-use 细节，这个判断只能算基于命名习惯的推断。我不太买账的一点，是标题里如果只剩型号名，外界很容易自动脑补能力跃迁。代码模型现在早就不是“会不会写函数”的问题，而是三件硬指标：仓库级检索能否稳定、工具调用是否可控、长任务回滚成本多大。去年到今年，大家在 SWE-bench、terminal agent、IDE copilot 场景里已经看得很清楚：单次答题分高，不等于团队愿意接入生产。没有这些指标，单报一个名字，信息量其实很有限。所以这条消息我会先当成 OpenAI 正在继续细化代码产品矩阵的信号，而不是能力结论。等正文补上 pricing、context window、tool API、是否进 ChatGPT 或 API，再判断它究竟是替代现有 Codex 位，还是给代码代理单独开一档。现在只有标题，这个空白本身就是新闻的一部分。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:07

74d ago

● P1Lex Fridman 播客· atomEN03:07 · 02·12

OpenClaw：爆红 AI Agent 背后的 Peter Steinberger｜Lex Fridman Podcast #491

Lex Fridman 第491期播客采访 Peter Steinberger，讨论开源 AI agent OpenClaw；正文称其 GitHub 星标已超17.5万到18万。正文确认它可接入 Telegram、WhatsApp、Signal、iMessage，并允许用户选择 Claude Opus 4.6、GPT 5.3 Codex 等模型；具体架构、评测与安全边界未完整披露。真正值得盯的是系统级权限与自修改能力带来的安全面，这不是“会聊天”，而是可执行真实操作的 agent。

#Agent#Tools#Safety#Peter Steinberger

精选理由

这不是普通播客串谈。OpenClaw 作为高关注开源 agent，正文给出 17.5万到18万 GitHub 星标、Telegram/WhatsApp/Signal/iMessage 接入和自修改能力，HKR 三项都成立。分数停在 featured，不到 p1，因为架构、评测与安全边界都没讲透。

编辑点评

OpenClaw 把 18 万星换成了系统权限，这条我不敢按“产品出圈”看，它先是一次大规模安全实验。

深度解读

OpenClaw 这波爆红，我的判断很直接：它火，不是因为 agent 终于“可用”了，而是它把很多团队一直回避的权限问题，公开塞进了一个人人能 fork 的开源壳里。GitHub 星标到 17.5 万到 18 万，传播速度已经说明一件事：开发者现在要的不是更会聊的模型，要的是能碰 Telegram、WhatsApp、Signal、iMessage，能改自己代码，能直接替人执行动作的系统。问题也出在这里。能力边界一旦从 token 输出，换成系统调用、消息收发、文件读写，风险面就不是聊天机器人那一套了。正文给出的关键信息其实很少。已披露的是 OpenClaw 可接入多类消息端，可选 Claude Opus 4.6、GPT 5.3 Codex 这类模型；Peter 还明确说过，agent 知道自己的源码，知道自己运行的 harness，还会按提示修改自己的软件。没披露的是更要命的部分：权限模型怎么切，默认能拿到哪些系统能力，是否做了工具级 allowlist，是否有跨应用确认，是否跑过越权、提示注入、数据外传这类安全评测，失败率是多少，回滚机制是什么。标题给了“viral agent”，正文没给这些，我不会替它补。我对这条叙事有个明显 pushback：很多人把它讲成“从语言到行动的分水岭”，这个说法我不太买账。能操作电脑、能调工具、能看消息，这些部件 2024 年就齐了。OpenAI 去年那套 Computer Use，Anthropic 也做过类似方向，开源侧像 Open Interpreter、AutoGen、browser-use、还有一批 desktop agent 项目，思路都不新。OpenClaw 赢在组装方式和分发方式，不在底层科学突破。它把“个人电脑上的全权限 agent”做成了一个可复制、可围观、可二创的公共事件，所以才形成了这次情绪外溢。说白一点，技术积木早就在那，OpenClaw 把引信点着了。我一直觉得，开源 agent 的门槛不在 planner，也不在 prompt，而在权限工程。消息应用接入是最敏感的一层。因为这里面混着身份验证、联系人关系、历史语境、外链点击、附件下载、支付和验证码。播客里甚至提到它会点“我不是机器人”按钮，这一下我有点愣住了。不是因为它多聪明，而是因为很多网站和风控系统默认把这一步当成人机边界。今天它点的是按钮，明天它读的是短信验证码，再往后就是帮你确认银行转账。只要同一执行链条里没有硬隔离，所谓个人助理和高权限木马，差的就只是一条 system prompt。文章外的上下文也很关键。过去一年，几家大厂都在往 agent 推，但落地形态明显更保守：要么放在企业 SaaS 里，权限由工作流和 RBAC 卡死；要么放在浏览器沙箱里，动作范围受限；要么把高风险操作拆成必须人工确认的 checkpoint。原因很现实，不是他们不会做“全自动”，而是做了也不敢直接放给大众机器。OpenClaw 反过来走，把本地权限、私有数据、自由模型选择放在一起，这种产品决策很像早期 jailbreak 社区的速度感：先把边界撞出来，再看哪里会出血。开发者会爱这种自由，安全团队看到的会是另一张图。还有一点别被播客气氛带走。Lex 把它讲成“ChatGPT 之后又一个历史节点”，这个包装很顺耳，但证据还不够。18 万星说明它抓住了开发者注意力，不说明它能长期稳定运行，更不说明普通用户会把自己的消息、文件、联系人、系统控制权长期交给它。agent 产品过去一年最常见的死法，不是 demo 做不出来，而是连续运行 3 天以后开始漂移：权限累积、上下文污染、工具调用串错、重试风暴、日志泄密。OpenClaw 如果真要从病毒式项目变成耐用系统，迟早得交出几样硬东西：任务成功率、长程运行稳定性、权限审计、失败回放、默认拒绝策略。正文一个都没给。 Peter 说 agent 知道自己的源码，还能改自己的软件，这个点很抓眼球。我承认，这对独立开发者有极强吸引力，因为它把“写程序”和“维护程序”合成了一条闭环。可我对自修改默认开启这件事保留很大怀疑。自修改最怕的不是一次改坏，而是你不知道哪一次改动让系统失去可解释性。代码 diff 能看，行为漂移更难看。要是再叠加多模型切换，比如 Claude Opus 4.6 和 GPT 5.3 Codex 在工具使用偏好、函数调用稳定性、拒答边界上都不同，复现实验会变得很难。你今天测通的路径，明天换个模型版本就未必还成立。所以我看 OpenClaw，不会先问“它是不是 agent 元年代表作”，我会先问三个工程问题：默认权限是不是最小化，敏感动作是不是强确认，自修改是不是可回滚。三条里少一条，它都更像一场面向开发者社区的大型试玩。这个试玩当然有价值，甚至可能逼着整条赛道更快面对权限设计。但如果有人把它讲成“个人 AI 助手的终局形态”，我不会跟。现在已知的是它拿到了注意力和想象力，未知的是它能不能穿过安全、稳定性和责任归属这三关。后面这三关，才决定它是 Linux 式基础设施，还是又一个一周爆红的 agent 标本。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:26

74d ago

● P1阮一峰的网络日志· rssZH01:26 · 02·12

智谱旗舰 GLM-5 实测：对比 Claude Opus 4.6 和 GPT-5.3-Codex

阮一峰用 4 道编程题实测 GLM-5、Claude Opus 4.6、GPT-5.3-Codex，结论是 GLM-5 整体可与两款闭源旗舰同场比较。文中给出网页重构、3D 沙盒、网页游戏、Laravel 转 Next.js 四项结果；迁移任务里 GLM-5 与 GPT-5.3 约 5 分钟完成，Opus 4.6 约 20 分钟。真正值得盯的是，结论来自单作者实测与公开视频对比，不是统一基准跑分。

#Code#Agent#Benchmarking#Zhipu AI

精选理由

单作者实测比常规测评更有料：4 个任务、公开视频、5 分钟对约 20 分钟，HKR 三项都成立。分数不给更高，因为这不是统一基准，也不是多源共同追踪的正式发布事件。

编辑点评

阮一峰用 4 道题把 GLM-5 放进 Opus 4.6、GPT-5.3-Codex 同场，结论能看但别当 benchmark；这更像一份高质量用户报告，不是能力坐标系。

深度解读

阮一峰用 4 个真实编程任务测了 GLM-5、Claude Opus 4.6、GPT-5.3-Codex，给出的结果是 GLM-5 能跟两家闭源旗舰同桌比较。这个结论我基本接受，但接受的范围很窄：它证明 GLM-5 已经进入了“拿来干活不会立刻掉队”的区间，还证明不了它在代码 agent 上已经稳定站进全球第一梯队。我先说判断。这篇最有价值的地方，不是“GLM-5 赢了几项”，而是它暴露出一个很现实的分层：前端审美、交互拼装、单文件游戏生成，这些任务现在已经越来越像模型风格差异，不太像代际差异；一旦进入迁移、重构、长链执行，才开始看出 agent 框架、工具调用、错误恢复、上下文管理的硬实力。文里最扎眼的数据其实不是网页设计，也不是愤怒的小鸟，而是 Laravel 转 Next.js 这题里，GLM-5 和 GPT-5.3 约 5 分钟，Opus 4.6 约 20 分钟。这个时间差如果复现稳定，它说明的不是“谁更聪明”，而是谁的执行链更短、试错更少、默认策略更贴近工程任务。但我对这组对比有两个保留。第一，它不是统一环境下的 A/B test。文中已经写明，Opus 4.6 和 GPT-5.3 的表现部分来自 Alejandro AO 的公开视频，GLM-5 是作者自己复跑。同一题目，不同运行日期、不同账户权限、不同默认工具、不同沙箱速度，都会把 5 分钟和 20 分钟这种差距放大。第二，样本只有 4 题，里面 3 题都偏“可视化生成”，这会天然放大审美偏好。你拿它判断“适不适合做独立开发项目”，可以；你拿它判断“谁在 SWE-bench、仓库级修复、长程多文件协作上更强”，证据还远远不够。我自己更在意文里另外两句。其一，作者说 GLM-5 跑了一个 2 小时个人任务，最后没乱掉。其二，官方把重点压在“复杂系统工程”和“长程 Agent”。这两句要是成立，GLM-5 的竞争位置就不是“国产开源能写代码”，而是“开源阵营里少数能把长任务跑完的模型”。过去一年大家已经见过太多“demo 很华丽，仓库一大就散架”的代码模型。开源侧从 DeepSeek-Coder、Qwen-Code 到各类 agent tuning，普遍问题都不是首轮生成，而是第 8 步以后开始漂。如果智谱这次真把错误恢复和任务持续性做上去了，意义比单题赢一两分大得多。不过我对“开源平替 Opus 4.6 与 GPT-5.3”这个表述不太买账。平替这词太轻松了，尤其放在企业采购里更不成立。企业看代码模型，至少还要看 4 个维度：价格、上下文长度、并发稳定性、工具生态。标题和正文都没披露 GLM-5 的 pricing、context window、函数调用限制、速率限制，也没披露这 4 题是否全程使用同一套工具链。没有这些信息，你没法判断它是不是“平替”，最多只能说“能力观感接近”。我还想知道仓库级 diff 成功率、回滚率、重试次数、token 消耗，正文都没有。回到竞争格局，这篇文章给智谱的正面信号已经够清楚了：GLM-5 至少不再是“只能在中文语境里看起来不错”的模型。它能放进 Opus 4.6、GPT-5.3-Codex 的讨论里，本身就是门槛。过去一年，国内模型在公开叙事里常见的问题是榜单分数能打，真实软件任务一上来就散；这篇实测至少说明，GLM-5 在网页、小游戏、迁移改造这类高频开发任务上，已经过了“演示品”阶段。我的结论很简单：这篇能提高你对 GLM-5 的先验，但不能替代正式评测。要是你本来就在挑代码模型，我会建议把它加入候选集，亲自跑 3 类任务：旧仓库迁移、多文件 bug 修复、带外部 API 的 agent 执行。只要这 3 类还能复现文中的稳定性，GLM-5 才算真的站稳。现在这篇文章给到的是一个积极信号，不是终局证据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

74d ago

Hugging Face 博客· rssEN00:00 · 02·12

OpenEnv 实战：在真实世界环境中评测工具使用型智能体

Hugging Face 博客标题称，OpenEnv 用于在真实世界环境中评测工具使用型智能体；当前条件是正文为空，只能确认主题与评测场景。RSS 片段未给出基准任务、环境数量、评分方法或参与模型。真正该盯的是复现实验细节；这篇条目目前只有标题信息。

#Agent#Tools#Benchmarking#Hugging Face

精选理由

标题把“真实环境中的工具智能体评测”这个钩子抛出来了，H 和 R 只在题目层面成立。正文未披露任务数、环境数、评分机制或参评模型，K 不成立，触发 hard-exclusion-零来源内容，重要性压到 39 以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

全部 · 2026-02-12

更多

频道

后台