全部 · 2026-03-11

▸ 7 items · updated 3m ago

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 262 2722 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 273282930

2026-03-11 · 星期三2026年3月11日

20:21

46d ago

Lex Fridman 播客· atomEN20:21 · 03·11

Jeff Kaplan 谈《魔兽世界》《守望先锋》、Blizzard 与游戏的未来｜Lex Fridman 播客第493期

Jeff Kaplan 在 Lex Fridman 播客中确认，他 2021 年离开 Blizzard 后，正开发新作《The Legend of California》。正文给出的可核信息是：该作设定在 1800 年代加州淘金潮，类型为开放世界多人在线、生存加动作冒险，3 月稍晚开放 alpha，抢先体验在路上。对 AI 从业者更有价值的是他直说现阶段把 AI 接进游戏开发“多数是 hot mess”；他举例称 ChatGPT 解 Unreal Engine UI 问题“10 次对 1 次”，并反对未经许可抓取创作者作品。

#Jeff Kaplan#Blizzard#Lex Fridman#Commentary

精选理由

这不是 AI 主线新闻，标题也没把 AI 争议放到前台，所以 H 弱。K 与 R 仍成立：Jeff Kaplan 给出 ChatGPT 处理 Unreal UI 的 1/10 体感，并明确反对未经许可抓取作品；对做工具、做版权策略的人有参考，但分量停留在单人观点。

编辑点评

Jeff Kaplan 把现阶段 AI 游戏开发定性为“hot mess”，这话我买账；行业把 demo 当流水线，已经吹过头了。

深度解读

Jeff Kaplan 直接否定了现阶段 AI 游戏开发的成熟度，还给了一个很伤人的使用体验数字：ChatGPT 处理 Unreal Engine UI 小问题，10 次里只对 1 次。这个判断我基本同意。游戏开发不是写一段能跑的脚本就算完，它要跨引擎版本、编辑器状态、资产依赖、多人同步、性能预算和美术管线一起工作。LLM 在这类链条里最容易出现的，不是“完全不会”，而是“看着会，落地很脆”。1/10 这种命中率，放在写周末原型还行，放进团队生产就是返工税。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

16:58

46d ago

Google 研究院· rssEN16:58 · 03·11

Google Research 探索对话式诊断 AI 在真实临床研究中的可行性

Google Research 发文讨论对话式诊断 AI 在真实临床研究中的可行性，条件仅限标题可见。RSS 摘要为空，正文未披露研究设计、样本量、模型名称、评估指标与结果；真正该盯的是临床终点与误诊风险，而不是“可行性”表述。

#Google Research#Research release

精选理由

这篇更像医疗研究与 AI 的交叉进展，不是面向通用 AI 从业者的产品或 agent 信号。标题只确认 Google Research 在做真实临床研究，正文未披露设计、样本量、终点和误诊风险；HKR 三轴都不成立，触发“传统科学+AI 交叉且缺少产品含义”硬排除。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

16:00

47d ago

● P1NVIDIA 博客· rssEN16:00 · 03·11

NVIDIA Nemotron 3 Super 发布：面向 Agentic AI，吞吐提升 5 倍

NVIDIA 发布 1200 亿参数开源模型 Nemotron 3 Super，推理时仅激活 120 亿参数，并宣称面向 Agentic AI 的吞吐提升最高 5 倍。该模型提供 100 万 token 上下文，采用混合 MoE、Latent MoE 和多 token 预测；正文称在 Blackwell 的 NVFP4 下推理较 Hopper 的 FP8 最快 4 倍，训练数据规模超 10 万亿 token。真正值得盯的是开放权重、训练配方和 RL 环境一并披露，便于复现与二次微调。

#Agent#Reasoning#Fine-tuning#NVIDIA

精选理由

这是一条高质量模型发布：HKR 三项都成立，尤其是 K 很强，给了参数规模、激活规模、上下文长度、训练数据和 Blackwell/Hopper 对比。分数没有进 85+，因为来源是 NVIDIA 自家博客，核心性能结论仍需第三方复现。

编辑点评

NVIDIA 这次放出的不只是 Nemotron 3 Super，而是在试着把“开源模型”绑回自家 Blackwell 与 NeMo 工具链。开放是真的，出口也还是它自己。

深度解读

NVIDIA 把 Nemotron 3 Super 做成了 1200 亿参数、120 亿激活的开源模型，还把 100 万上下文、10 万亿 token 训练数据口径、15 个 RL 环境一起摆出来。我的判断很直接：这不是单纯冲一次开源榜单，这是在给 Blackwell 找一个“开源也得跑我家栈”的样板。文章给了几组很抓眼球的数字。吞吐最高 5 倍，Blackwell 上 NVFP4 相比 Hopper 上 FP8 最快 4 倍，多 token 预测带来 3 倍推理加速，多智能体工作流会产生最高 15 倍 token。问题也在这里：这些数字来自 NVIDIA 自己的博客，正文没给基准任务、batch size、并发条件、KV cache 策略，也没拆清楚 5 倍吞吐里有多少来自模型结构，有多少只是 Blackwell 精度和系统栈加成。我对“无精度损失”这句尤其保留。NVFP4 这类低精度路径在摘要任务和检索式任务上经常站得住，到了长程推理、复杂工具调用、代码修复，掉点通常得看具体 workload，正文没披露。模型设计本身倒是有点东西。120B 总参、12B 激活，配 hybrid MoE、latent MoE、Mamba 层和 multi-token prediction，这套组合明显是冲 agent 场景的成本曲线去的。因为 agent 不是单轮聊天，最贵的往往不是“答得聪不聪明”，而是长上下文反复重送、工具调用前后状态维护、还有每一步都要先想再做。NVIDIA 把“thinking tax”单拎出来讲，这个判断我买账。过去一年大家做 coding agent、research agent、security agent，普遍都被这件事卡过：不是模型不会做，是每一步都用大模型过一遍，延迟和账单一起炸。但我不太买“1M 上下文就能防 goal drift”这个表述。长上下文能减少重送历史，不能天然解决目标漂移。很多 agent 漂移不是忘了上下文，而是规划器写得差、工具反馈噪声高、奖励信号不稳。Anthropic、OpenAI、Google 过去一年都在把 attention 拉长，可实际做多步代理时，大家还是要靠 memory compression、planner-verifier、retrieval gating 这类工程补丁。NVIDIA 这里把长上下文和目标对齐绑得太紧，像产品叙事，不像结论。我反而更看重它把训练配方、后训练数据方法、RL 环境一起放出。这个动作比“开放权重”更有信息量。开源圈过去一年最缺的不是 base model 文件，而是能复现 agent 行为的后训练细节。Meta 放 Llama 权重时，社区很快就发现，真正难复刻的是数据筛选、偏好优化、工具使用轨迹。阿里 Qwen、DeepSeek 也都证明了，同样参数规模下，后训练分布能把实用性拉开一大截。NVIDIA 这次如果真把 15 个 RL 环境和 evaluation recipe 公开到可复现程度，那价值会高于又多一个 100B 级 checkpoint。这里我得承认一个缺口：正文没列出这些环境的具体任务、许可范围、是否包含专有数据模板，所以现在还不能下“可完整复现”的判断。另一个要放进上下文里的点，是 NVIDIA 这两年做开源模型从来不是为了和 Meta 抢“谁最开放”，而是为了卖算力、卖 NIM、卖企业部署标准件。Nemotron 早期版本就带着这种味道：模型本身是入口，目标是让企业接受 NeMo 微调、Guardrails、NIM 服务封装，再自然落到 DGX、云上 NVIDIA 实例、推理服务伙伴。你看这次可用渠道就知道了，Hugging Face、OpenRouter、Perplexity 都有，但正文同时把 Dell、HPE、Vertex AI、OCI、Bedrock、Azure、CoreWeave、Fireworks 一串列出来。这个分发方式很像“我允许你自由拿模型，但最好在我定义好的供应链里用”。这不虚伪，商业上也合理，只是别把它读成纯粹的社区理想主义。我还有一个疑虑：文章强调 Artificial Analysis 排名、DeepResearch Bench 第一，却没给出和具体对手的并排数字。是赢了 Qwen 还是 Llama？是接近 Claude Sonnet 4.5 这类闭源中型模型，还是只在“同尺寸开源模型”里领先？正文没披露。我自己没查到当日榜单快照，所以不想替它补这块空白。没有对手名和测试设置，榜单第一的参考价值有限，尤其是 agent benchmark 很容易被工具编排和提示词工程放大。说真的，这条新闻里最清楚的信号不是“NVIDIA 做出一个很强的开源模型”，而是它开始更系统地争夺 agent 时代的中间层：模型、后训练、评测、NIM 封装、企业渠道、Blackwell 推理路径一起卖。Meta 主要赌权重分发，OpenAI 主要赌闭环产品，Anthropic 主要赌安全与 API 质量，NVIDIA 走的是另一条路：把开源模型变成硬件需求生成器。如果 Nemotron 3 Super 后面真被 Cadence、Palantir、Siemens 这类企业软件商大规模定制，受益最大的未必是开源生态，先吃到红利的大概率还是 Blackwell 出货和 NeMo/NIM 的部署黏性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:46

47d ago

● P1MIT 科技评论· rssEN12:46 · 03·11

投机者正从中国的 OpenClaw AI 热潮中赚钱

北京工程师 Feng Qingyang 在 1 月开始做 OpenClaw 安装服务，2 月底辞职后把副业扩成 100 多人团队，累计处理 7000 单，每单约 248 元。淘宝、京东已出现数百个相关商品，价格 100 到 700 元；真正值得盯的是安装门槛和数据隔离风险，把开源 agent 直接装进了服务业。

#Agent#Tools#Safety#Feng Qingyang

精选理由

给到 featured。HKR 三项都成立：标题有强反差，正文有 7000 单和客单价等硬数字，还把开源 agent 的安装门槛与数据隔离风险落到服务市场。它不是产品发布，但属于高质量行业现场报道。

编辑点评

Feng 团队两个月做了 7000 单，这先说明 OpenClaw 还没产品化，先产品化的是“代装服务”。

深度解读

Feng 团队两个月处理 7000 单、客单价 248 元，这个数字先把结论定了：OpenClaw 在中国的第一波红利，不是模型方吃走，也不是云厂商先吃走，而是“会装、会隔离、会排障”的灰领技术服务商先吃走。按文中数字粗算，流水约 173.6 万元。对一家 100 多人团队说，这不是暴利生意，甚至人效未必好看；但它非常说明问题：产品还没把 onboarding 做平，用户已经带着支付意愿冲进来了。我一直觉得，这类“代装热”是 AI 落地里很硬的一种信号。用户愿意先买麻烦的解决方案，说明需求不是媒体热词，而是已经跨过了“尝鲜”那道线。去年中国本地模型圈也有过一轮类似现象：ComfyUI 工作流、Stable Diffusion 整机、RAG 私有化部署，全都催生过一批安装、调参、远程运维卖家。差别在于，OpenClaw 不是画图，也不是问答，它直接接管设备、执行任务。风险面一下大很多，所以安装门槛本身就变成了商业门槛。文章里提到的安全问题，我觉得还没说透。把 agent 装进用户日常电脑，风险不是抽象的“隐私外泄”四个字。它至少包含三层：第一层是权限继承，agent 能看到什么，取决于这台机子已经登录了什么；微信、企业邮箱、浏览器 Cookie、网盘同步目录，全都可能暴露。第二层是提示注入和工具滥用，agent 一旦能访问网页、文件系统、终端，恶意页面和恶意文档就不再只是骗人点击，而是在骗 agent 执行动作。第三层是代装链路本身，远程协助、脚本打包、第三方镜像、预配置硬件，这些环节任何一个被动手脚，问题都不是装坏一次，而是批量复制。正文给了风险方向，没给出隔离方案细节，这块信息还不够。我对“全民养龙虾”这套热闹叙事有点保留。线下活动 500 人、1000 人，直播 2 万观看，地方政府给算力券，这些都说明热度高，但热度和留存不是一回事。过去一年，很多 agent 产品都卡在同一个坎：demo 很会演，连续 30 分钟的真实办公流就开始掉链子。我没在正文里看到 OpenClaw 的任务成功率、平均执行时长、失败回滚机制，也没看到它对中文桌面软件的兼容数据。没有这些指标，很难判断这是稳定工具，还是高热度实验品。还有一层我比较在意：腾讯和地方政府下场，不只是“蹭热点”。这往往意味着大厂已经把开源 agent 当成云消耗入口。谁帮用户装上 OpenClaw，谁就更有机会把模型 API、推理配额、云主机、远程桌面和企业安全服务一起卖掉。我印象里，去年很多云厂商推 AI IDE 和工作流平台时，逻辑也是先用低门槛工具获客，再把算力和托管运维打包卖。OpenClaw 这波如果继续走高，后面很可能出现两极分化：一端是 100 到 700 元的一次性代装，另一端是按月收费的托管 agent 桌面、隔离浏览器、审计日志和企业版权限控制。我不太买“开源天然带来普惠”这套说法。眼下看到的恰恰相反：开源把需求点燃了，但复杂度把利润让给了中间商。谁能把安装从命令行、驱动、依赖、云账号、权限隔离这些步骤里抽走，谁才会收掉这批服务商的利润。要是 30 分钟远程代装还能长期成立，那不是生态繁荣，而是产品设计还没到普通人能安全用的程度。标题已经给出中国 OpenClaw 狂热和淘金叙事，正文片段也给了订单、价格和活动人数。正文没披露更关键的几项：OpenClaw 具体依赖哪类模型与硬件，商家复购率多少，企业客户占比多少，代装后数据隔离怎么做，安全事故是否已经发生。没有这些信息，我不会把它看成成熟市场。我更愿意把它看成一个早期信号：agent 的需求是真的，但现阶段最先爆发的，不是“自主执行”，而是“替用户处理复杂性”的人工服务。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:38

47d ago

MIT 科技评论· rssEN12:38 · 03·11

The Download：Pokémon Go 训练世界模型，与中美寻找外星生命竞赛

Niantic Spatial称，Pokémon Go 上线60天安装量达5亿，现正用这批众包空间数据训练世界模型，目标是让配送机器人获得英寸级环境感知。RSS 摘要还称 NASA 的火星取样返回计划在 2024 年 7 月发现斑点岩石后陷入停摆，而中国正推进自有方案；正文未披露模型参数、机器人部署规模与中方任务时间表。

#Robotics#Vision#Multimodal#Niantic Spatial

精选理由

HKR-H 和 HKR-K 成立：Pokémon Go 数据转做机器人世界模型有反差，摘要也给出 5 亿安装量与英寸级感知目标。HKR-R 偏弱，文章又是双话题快报，太空竞赛半段偏离 AI 主线，模型与部署细节也没展开，所以只到 all。

编辑点评

Niantic Spatial 拿 5 亿次安装沉淀做世界模型，这条像数据护城河变现，不像机器人能力突进。

深度解读

Niantic Spatial 先把 5 亿次安装沉淀改造成训练资产，但正文没给模型规格、采样密度、标注方式与机器人实测数据。我的判断很直接：这更像一场把消费级 AR 数据重新包装给机器人行业的资本叙事，不是已经被验证的导航突破。 RSS 片段里最抓人的词是“英寸级感知”。我对这个说法有点警觉。机器人导航里，英寸级不是一句 marketing line 就能成立，它至少要拆成定位误差、更新频率、遮挡恢复、动态障碍处理四组指标。文章正文没披露任何一项，也没说是室外配送、园区配送，还是只在结构稳定的半封闭环境里跑。如果只是把 Pokémon Go 玩家走过的街道、路口、建筑外观做成大规模视觉先验，那它能解决的是“见过这个地方”后的重定位问题，不等于机器人第一次到场就能稳跑 last‑meter delivery。我一直觉得，Niantic 的价值不在“世界模型”这个新词，而在它手里那批别家公司很难补采的长期空间轨迹。2016 年之后，手机 AR 大规模众包这件事，能做到全球量级的公司很少。Google 有 Street View 和地图，Apple 有 Look Around 与设备侧视觉，Tesla 有车端视频，Meta 在 AR 眼镜上押未来，但 Niantic 这类数据有一个独特点：它来自人拿着手机在真实步行路径上反复扫环境，覆盖的是城市微尺度语义和视角变化。这个资产如果清洗得够好，确实适合做 place recognition、语义地图补全、跨季节重定位。我自己没看到他们公开过像 Waymo Open Dataset、Argoverse 那样可对标的 benchmark，所以现在很难判定它是研究资产，还是可直接转成商用 SLA 的基础设施。还有个叙事我不太买账：把“世界模型”直接等同于机器人可部署能力。过去一年，业内把 world model 这个词用得很宽，从视频生成、3D 场景重建，到 agent 的环境模拟都往里装。真到机器人侧，决定效果的往往不是预训练模型名字，而是闭环控制里那几件脏活：传感器对齐、地图刷新、异常恢复、长尾天气、成本约束。去年到今年，很多机器人公司都在讲 VLA、spatial intelligence、embodied foundation model，但落地最快的依旧是仓内、园区、固定线路这些约束高的场景。Niantic 这条如果没有部署规模和失败率，我更愿意把它看成“高质量地理视觉先验供应商”，不是通用机器人平台。从商业上看，这倒未必是坏事。地图和空间先验本来就是稀缺货。配送机器人、AR 导航、无人机巡检、甚至自动驾驶边缘场景，都需要比传统 HD map 更轻、更易更新的表示。如果 Niantic Spatial 真能把历史玩家数据压成可增量更新的 3D 表征，再卖给机器人公司做 localization layer，它的护城河会比自己下场做机器人健康得多。问题还是那个问题：文章没给出客户、收入模式、部署数量，连“英寸级”是在仿真、离线回放还是线上运行里拿到都没说。这篇里第二条火星样本返回，我的看法更简单：这是航天治理和预算失序，不是“中国突然技术反超”的单线故事。片段说 NASA 在 2024 年 7 月发现异常斑点岩石后，样本返回计划进入停摆，中国在推进自有方案。但正文没披露中国任务时间表，也没拆 NASA 卡在哪一环，是着陆器、上升器、轨道交会，还是总预算与国会博弈。我对“美国已让出头名”这种写法会保留一截。火星采样返回本来就是系统工程地狱，NASA 这些年被成本和架构反复拖住，不代表中国已经把同等难度的问题都解完了；只能说明，谁的组织能把复杂任务压进确定时间表，谁就先拿到科学叙事权。两条新闻放一起看，其实挺有意思：一个行业在把十年前的消费级数据重新铸成 AI 资产，另一个行业在提醒你，最难的竞争常常不是模型或探测器本身，而是能不能把漫长链条真的跑通。Niantic 这条，我想先看三件东西再决定要不要高估它：公开 benchmark、真实部署场景、持续更新成本。火星这条，我想看的不是口号，而是谁先把样本安全带回地球。标题给了方向，正文还没给足证据。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

11:30

47d ago

FEATUREDOpenAI 博客· rssEN11:30 · 03·11

设计能够抵抗提示注入的 AI agents

OpenAI 发布了一篇题为《Designing AI agents to resist prompt injection》的文章，主题是如何在设计 AI agents 时降低提示注入攻击的影响。当前可确认的信息只有标题，正文未提供，因此能落实的具体细节仅包括文章聚焦“AI agents”和“prompt injection”这两个对象。

#Agent#Safety#OpenAI#Commentary

精选理由

HKR-R 命中，因为 prompt injection 是 agent 团队的真实上线风险。HKR-H 偏弱，HKR-K 也不足：摘录只确认社会工程框架和 ChatGPT 防御章节，没给出具体机制、数字或复现条件，所以放在 all，不到 featured。

编辑点评

OpenAI 把 prompt injection 讲成社工问题，还给了一个 2025 年案例：对 ChatGPT deep research 攻击成功率达 50%。

深度解读

OpenAI 这篇先给了一个很硬的判断：AI agent 的 prompt injection，已经不像早期那种“网页里塞一句覆盖指令”那么简单。文中直接说，现实里更有效的攻击越来越像 social engineering。这个定性我认同，因为 agent 现在会读邮件、翻网页、代用户执行动作，攻击面早就不是单轮提示词了。它给了一个具体例子。2025 年外部安全研究员上报过一类针对 ChatGPT 的攻击，目标是让系统在“帮我深度研究今天邮件”这种任务里，被邮件内容诱导去提取姓名、地址，再提交到外部接口。OpenAI 写到，测试里这招在用户提示固定为 deep research 邮件分析时，成功率是 50%。有数字就比空谈强，这至少说明“模型更聪明了”不等于 agent 已经抗注入。我觉得文中第二个重点，是它直接点名了“AI firewalling”这类中间层方案的局限。理由也写得很直白：当攻击文本长得像正常业务邮件、审批说明、合规通知时，分类器要分辨恶意输入，难度接近分辨谎言和误导，而且常常缺上下文。这个判断很贴近实务。很多团队现在还在赌输入侧检测，文章是在提醒你，单靠 classifier 挡不住成熟攻击。可惜这份抓取文本后半段被截断了。标题和目录已经给出它会讲“这如何影响 ChatGPT 的防御”，正文在当前材料里没展开具体机制。我没看到权限分层、工具确认、内存隔离、外呼白名单、执行前复核这些设计是否被明确写出，也没看到评测基准、误报率、拦截率。所以这篇我会当成一篇方向判断，不当成防御手册。能落地的公开信息目前只有两点：一，OpenAI 把 prompt injection 定义成更接近社工；二，它承认真实案例里 50% 成功率级别的攻击存在。后面的系统设计细节，正文未完整披露。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

11:00

47d ago

● P1OpenAI 博客· rssEN11:00 · 03·11

从模型到代理：为 Responses API 配备计算机环境

OpenAI 在 2026 年 3 月 11 日为 Responses API 引入 shell 工具与托管容器工作区，让模型在隔离环境中执行命令并循环完成任务。正文写明 GPT-5.2 及后续模型已训练为可提议 shell 命令，API 可流式回传输出并并发执行多条命令；容器配文件系统、可选 SQLite 和受限网络。真正值得盯的是编排层而非“代理”标题，正文后半段截断，定价、配额与安全边界未披露。

#Agent#Tools#Code#OpenAI

精选理由

这是 OpenAI 面向开发者的实质性代理能力更新：Responses API 不只会调工具，还能在托管容器里执行 shell、并发回传结果并处理上下文压缩，H/K/R 三轴都成立。正文后半段截断，定价、配额与安全边界未披露，所以给到 featured 高位，不上 P1。

编辑点评

OpenAI 把 Responses API 接上托管容器和 shell 工具，目标很直接：先吃掉开发者自建 agent runtime 这一层。

深度解读

OpenAI 这次不是在加一个工具，而是在把 Responses API 往“可托管执行层”上推。文中已经给出两个硬点：一是 shell tool 直接暴露 Unix 命令能力，点名 `grep`、`curl`、`awk`；二是平台自己托管隔离容器，带文件系统、可选结构化存储如 SQLite、受限网络访问。这个组合的意义很实际：过去你做 agent，模型调用只占一小段，难的是工具编排、文件落地、重试、超时、权限、网络隔离。OpenAI 现在想把这段一起收走。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

全部 · 2026-03-11

更多

频道

后台