ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
44 srcsignal 72%cycle 04:32

全部 · 2026-03-11

7 items · updated 3m ago
RSS live
2026-03-11 · 星期三2026年3月11日
20:21
46d ago
Lex Fridman 播客· atomEN20:21 · 03·11
Jeff Kaplan 谈《魔兽世界》《守望先锋》、Blizzard 与游戏的未来|Lex Fridman 播客第493期
Jeff Kaplan 在 Lex Fridman 播客中确认,他 2021 年离开 Blizzard 后,正开发新作《The Legend of California》。正文给出的可核信息是:该作设定在 1800 年代加州淘金潮,类型为开放世界多人在线、生存加动作冒险,3 月稍晚开放 alpha,抢先体验在路上。对 AI 从业者更有价值的是他直说现阶段把 AI 接进游戏开发“多数是 hot mess”;他举例称 ChatGPT 解 Unreal Engine UI 问题“10 次对 1 次”,并反对未经许可抓取创作者作品。
#Jeff Kaplan#Blizzard#Lex Fridman#Commentary
精选理由
这不是 AI 主线新闻,标题也没把 AI 争议放到前台,所以 H 弱。K 与 R 仍成立:Jeff Kaplan 给出 ChatGPT 处理 Unreal UI 的 1/10 体感,并明确反对未经许可抓取作品;对做工具、做版权策略的人有参考,但分量停留在单人观点。
编辑点评
Jeff Kaplan 把现阶段 AI 游戏开发定性为“hot mess”,这话我买账;行业把 demo 当流水线,已经吹过头了。
深度解读
Jeff Kaplan 直接否定了现阶段 AI 游戏开发的成熟度,还给了一个很伤人的使用体验数字:ChatGPT 处理 Unreal Engine UI 小问题,10 次里只对 1 次。这个判断我基本同意。游戏开发不是写一段能跑的脚本就算完,它要跨引擎版本、编辑器状态、资产依赖、多人同步、性能预算和美术管线一起工作。LLM 在这类链条里最容易出现的,不是“完全不会”,而是“看着会,落地很脆”。1/10 这种命中率,放在写周末原型还行,放进团队生产就是返工税。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K1·R1
16:58
46d ago
Google 研究院· rssEN16:58 · 03·11
Google Research 探索对话式诊断 AI 在真实临床研究中的可行性
Google Research 发文讨论对话式诊断 AI 在真实临床研究中的可行性,条件仅限标题可见。RSS 摘要为空,正文未披露研究设计、样本量、模型名称、评估指标与结果;真正该盯的是临床终点与误诊风险,而不是“可行性”表述。
#Google Research#Research release
精选理由
这篇更像医疗研究与 AI 的交叉进展,不是面向通用 AI 从业者的产品或 agent 信号。标题只确认 Google Research 在做真实临床研究,正文未披露设计、样本量、终点和误诊风险;HKR 三轴都不成立,触发“传统科学+AI 交叉且缺少产品含义”硬排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
16:00
47d ago
● P1NVIDIA 博客· rssEN16:00 · 03·11
NVIDIA Nemotron 3 Super 发布:面向 Agentic AI,吞吐提升 5 倍
NVIDIA 发布 1200 亿参数开源模型 Nemotron 3 Super,推理时仅激活 120 亿参数,并宣称面向 Agentic AI 的吞吐提升最高 5 倍。该模型提供 100 万 token 上下文,采用混合 MoE、Latent MoE 和多 token 预测;正文称在 Blackwell 的 NVFP4 下推理较 Hopper 的 FP8 最快 4 倍,训练数据规模超 10 万亿 token。真正值得盯的是开放权重、训练配方和 RL 环境一并披露,便于复现与二次微调。
#Agent#Reasoning#Fine-tuning#NVIDIA
精选理由
这是一条高质量模型发布:HKR 三项都成立,尤其是 K 很强,给了参数规模、激活规模、上下文长度、训练数据和 Blackwell/Hopper 对比。分数没有进 85+,因为来源是 NVIDIA 自家博客,核心性能结论仍需第三方复现。
编辑点评
NVIDIA 这次放出的不只是 Nemotron 3 Super,而是在试着把“开源模型”绑回自家 Blackwell 与 NeMo 工具链。开放是真的,出口也还是它自己。
深度解读
NVIDIA 把 Nemotron 3 Super 做成了 1200 亿参数、120 亿激活的开源模型,还把 100 万上下文、10 万亿 token 训练数据口径、15 个 RL 环境一起摆出来。我的判断很直接:这不是单纯冲一次开源榜单,这是在给 Blackwell 找一个“开源也得跑我家栈”的样板。 文章给了几组很抓眼球的数字。吞吐最高 5 倍,Blackwell 上 NVFP4 相比 Hopper 上 FP8 最快 4 倍,多 token 预测带来 3 倍推理加速,多智能体工作流会产生最高 15 倍 token。问题也在这里:这些数字来自 NVIDIA 自己的博客,正文没给基准任务、batch size、并发条件、KV cache 策略,也没拆清楚 5 倍吞吐里有多少来自模型结构,有多少只是 Blackwell 精度和系统栈加成。我对“无精度损失”这句尤其保留。NVFP4 这类低精度路径在摘要任务和检索式任务上经常站得住,到了长程推理、复杂工具调用、代码修复,掉点通常得看具体 workload,正文没披露。 模型设计本身倒是有点东西。120B 总参、12B 激活,配 hybrid MoE、latent MoE、Mamba 层和 multi-token prediction,这套组合明显是冲 agent 场景的成本曲线去的。因为 agent 不是单轮聊天,最贵的往往不是“答得聪不聪明”,而是长上下文反复重送、工具调用前后状态维护、还有每一步都要先想再做。NVIDIA 把“thinking tax”单拎出来讲,这个判断我买账。过去一年大家做 coding agent、research agent、security agent,普遍都被这件事卡过:不是模型不会做,是每一步都用大模型过一遍,延迟和账单一起炸。 但我不太买“1M 上下文就能防 goal drift”这个表述。长上下文能减少重送历史,不能天然解决目标漂移。很多 agent 漂移不是忘了上下文,而是规划器写得差、工具反馈噪声高、奖励信号不稳。Anthropic、OpenAI、Google 过去一年都在把 attention 拉长,可实际做多步代理时,大家还是要靠 memory compression、planner-verifier、retrieval gating 这类工程补丁。NVIDIA 这里把长上下文和目标对齐绑得太紧,像产品叙事,不像结论。 我反而更看重它把训练配方、后训练数据方法、RL 环境一起放出。这个动作比“开放权重”更有信息量。开源圈过去一年最缺的不是 base model 文件,而是能复现 agent 行为的后训练细节。Meta 放 Llama 权重时,社区很快就发现,真正难复刻的是数据筛选、偏好优化、工具使用轨迹。阿里 Qwen、DeepSeek 也都证明了,同样参数规模下,后训练分布能把实用性拉开一大截。NVIDIA 这次如果真把 15 个 RL 环境和 evaluation recipe 公开到可复现程度,那价值会高于又多一个 100B 级 checkpoint。这里我得承认一个缺口:正文没列出这些环境的具体任务、许可范围、是否包含专有数据模板,所以现在还不能下“可完整复现”的判断。 另一个要放进上下文里的点,是 NVIDIA 这两年做开源模型从来不是为了和 Meta 抢“谁最开放”,而是为了卖算力、卖 NIM、卖企业部署标准件。Nemotron 早期版本就带着这种味道:模型本身是入口,目标是让企业接受 NeMo 微调、Guardrails、NIM 服务封装,再自然落到 DGX、云上 NVIDIA 实例、推理服务伙伴。你看这次可用渠道就知道了,Hugging Face、OpenRouter、Perplexity 都有,但正文同时把 Dell、HPE、Vertex AI、OCI、Bedrock、Azure、CoreWeave、Fireworks 一串列出来。这个分发方式很像“我允许你自由拿模型,但最好在我定义好的供应链里用”。这不虚伪,商业上也合理,只是别把它读成纯粹的社区理想主义。 我还有一个疑虑:文章强调 Artificial Analysis 排名、DeepResearch Bench 第一,却没给出和具体对手的并排数字。是赢了 Qwen 还是 Llama?是接近 Claude Sonnet 4.5 这类闭源中型模型,还是只在“同尺寸开源模型”里领先?正文没披露。我自己没查到当日榜单快照,所以不想替它补这块空白。没有对手名和测试设置,榜单第一的参考价值有限,尤其是 agent benchmark 很容易被工具编排和提示词工程放大。 说真的,这条新闻里最清楚的信号不是“NVIDIA 做出一个很强的开源模型”,而是它开始更系统地争夺 agent 时代的中间层:模型、后训练、评测、NIM 封装、企业渠道、Blackwell 推理路径一起卖。Meta 主要赌权重分发,OpenAI 主要赌闭环产品,Anthropic 主要赌安全与 API 质量,NVIDIA 走的是另一条路:把开源模型变成硬件需求生成器。如果 Nemotron 3 Super 后面真被 Cadence、Palantir、Siemens 这类企业软件商大规模定制,受益最大的未必是开源生态,先吃到红利的大概率还是 Blackwell 出货和 NeMo/NIM 的部署黏性。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
12:46
47d ago
● P1MIT 科技评论· rssEN12:46 · 03·11
投机者正从中国的 OpenClaw AI 热潮中赚钱
北京工程师 Feng Qingyang 在 1 月开始做 OpenClaw 安装服务,2 月底辞职后把副业扩成 100 多人团队,累计处理 7000 单,每单约 248 元。淘宝、京东已出现数百个相关商品,价格 100 到 700 元;真正值得盯的是安装门槛和数据隔离风险,把开源 agent 直接装进了服务业。
#Agent#Tools#Safety#Feng Qingyang
精选理由
给到 featured。HKR 三项都成立:标题有强反差,正文有 7000 单和客单价等硬数字,还把开源 agent 的安装门槛与数据隔离风险落到服务市场。它不是产品发布,但属于高质量行业现场报道。
编辑点评
Feng 团队两个月做了 7000 单,这先说明 OpenClaw 还没产品化,先产品化的是“代装服务”。
深度解读
Feng 团队两个月处理 7000 单、客单价 248 元,这个数字先把结论定了:OpenClaw 在中国的第一波红利,不是模型方吃走,也不是云厂商先吃走,而是“会装、会隔离、会排障”的灰领技术服务商先吃走。按文中数字粗算,流水约 173.6 万元。对一家 100 多人团队说,这不是暴利生意,甚至人效未必好看;但它非常说明问题:产品还没把 onboarding 做平,用户已经带着支付意愿冲进来了。 我一直觉得,这类“代装热”是 AI 落地里很硬的一种信号。用户愿意先买麻烦的解决方案,说明需求不是媒体热词,而是已经跨过了“尝鲜”那道线。去年中国本地模型圈也有过一轮类似现象:ComfyUI 工作流、Stable Diffusion 整机、RAG 私有化部署,全都催生过一批安装、调参、远程运维卖家。差别在于,OpenClaw 不是画图,也不是问答,它直接接管设备、执行任务。风险面一下大很多,所以安装门槛本身就变成了商业门槛。 文章里提到的安全问题,我觉得还没说透。把 agent 装进用户日常电脑,风险不是抽象的“隐私外泄”四个字。它至少包含三层:第一层是权限继承,agent 能看到什么,取决于这台机子已经登录了什么;微信、企业邮箱、浏览器 Cookie、网盘同步目录,全都可能暴露。第二层是提示注入和工具滥用,agent 一旦能访问网页、文件系统、终端,恶意页面和恶意文档就不再只是骗人点击,而是在骗 agent 执行动作。第三层是代装链路本身,远程协助、脚本打包、第三方镜像、预配置硬件,这些环节任何一个被动手脚,问题都不是装坏一次,而是批量复制。正文给了风险方向,没给出隔离方案细节,这块信息还不够。 我对“全民养龙虾”这套热闹叙事有点保留。线下活动 500 人、1000 人,直播 2 万观看,地方政府给算力券,这些都说明热度高,但热度和留存不是一回事。过去一年,很多 agent 产品都卡在同一个坎:demo 很会演,连续 30 分钟的真实办公流就开始掉链子。我没在正文里看到 OpenClaw 的任务成功率、平均执行时长、失败回滚机制,也没看到它对中文桌面软件的兼容数据。没有这些指标,很难判断这是稳定工具,还是高热度实验品。 还有一层我比较在意:腾讯和地方政府下场,不只是“蹭热点”。这往往意味着大厂已经把开源 agent 当成云消耗入口。谁帮用户装上 OpenClaw,谁就更有机会把模型 API、推理配额、云主机、远程桌面和企业安全服务一起卖掉。我印象里,去年很多云厂商推 AI IDE 和工作流平台时,逻辑也是先用低门槛工具获客,再把算力和托管运维打包卖。OpenClaw 这波如果继续走高,后面很可能出现两极分化:一端是 100 到 700 元的一次性代装,另一端是按月收费的托管 agent 桌面、隔离浏览器、审计日志和企业版权限控制。 我不太买“开源天然带来普惠”这套说法。眼下看到的恰恰相反:开源把需求点燃了,但复杂度把利润让给了中间商。谁能把安装从命令行、驱动、依赖、云账号、权限隔离这些步骤里抽走,谁才会收掉这批服务商的利润。要是 30 分钟远程代装还能长期成立,那不是生态繁荣,而是产品设计还没到普通人能安全用的程度。 标题已经给出中国 OpenClaw 狂热和淘金叙事,正文片段也给了订单、价格和活动人数。正文没披露更关键的几项:OpenClaw 具体依赖哪类模型与硬件,商家复购率多少,企业客户占比多少,代装后数据隔离怎么做,安全事故是否已经发生。没有这些信息,我不会把它看成成熟市场。我更愿意把它看成一个早期信号:agent 的需求是真的,但现阶段最先爆发的,不是“自主执行”,而是“替用户处理复杂性”的人工服务。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
12:38
47d ago
MIT 科技评论· rssEN12:38 · 03·11
The Download:Pokémon Go 训练世界模型,与中美寻找外星生命竞赛
Niantic Spatial称,Pokémon Go 上线60天安装量达5亿,现正用这批众包空间数据训练世界模型,目标是让配送机器人获得英寸级环境感知。RSS 摘要还称 NASA 的火星取样返回计划在 2024 年 7 月发现斑点岩石后陷入停摆,而中国正推进自有方案;正文未披露模型参数、机器人部署规模与中方任务时间表。
#Robotics#Vision#Multimodal#Niantic Spatial
精选理由
HKR-H 和 HKR-K 成立:Pokémon Go 数据转做机器人世界模型有反差,摘要也给出 5 亿安装量与英寸级感知目标。HKR-R 偏弱,文章又是双话题快报,太空竞赛半段偏离 AI 主线,模型与部署细节也没展开,所以只到 all。
编辑点评
Niantic Spatial 拿 5 亿次安装沉淀做世界模型,这条像数据护城河变现,不像机器人能力突进。
深度解读
Niantic Spatial 先把 5 亿次安装沉淀改造成训练资产,但正文没给模型规格、采样密度、标注方式与机器人实测数据。我的判断很直接:这更像一场把消费级 AR 数据重新包装给机器人行业的资本叙事,不是已经被验证的导航突破。 RSS 片段里最抓人的词是“英寸级感知”。我对这个说法有点警觉。机器人导航里,英寸级不是一句 marketing line 就能成立,它至少要拆成定位误差、更新频率、遮挡恢复、动态障碍处理四组指标。文章正文没披露任何一项,也没说是室外配送、园区配送,还是只在结构稳定的半封闭环境里跑。如果只是把 Pokémon Go 玩家走过的街道、路口、建筑外观做成大规模视觉先验,那它能解决的是“见过这个地方”后的重定位问题,不等于机器人第一次到场就能稳跑 last‑meter delivery。 我一直觉得,Niantic 的价值不在“世界模型”这个新词,而在它手里那批别家公司很难补采的长期空间轨迹。2016 年之后,手机 AR 大规模众包这件事,能做到全球量级的公司很少。Google 有 Street View 和地图,Apple 有 Look Around 与设备侧视觉,Tesla 有车端视频,Meta 在 AR 眼镜上押未来,但 Niantic 这类数据有一个独特点:它来自人拿着手机在真实步行路径上反复扫环境,覆盖的是城市微尺度语义和视角变化。这个资产如果清洗得够好,确实适合做 place recognition、语义地图补全、跨季节重定位。我自己没看到他们公开过像 Waymo Open Dataset、Argoverse 那样可对标的 benchmark,所以现在很难判定它是研究资产,还是可直接转成商用 SLA 的基础设施。 还有个叙事我不太买账:把“世界模型”直接等同于机器人可部署能力。过去一年,业内把 world model 这个词用得很宽,从视频生成、3D 场景重建,到 agent 的环境模拟都往里装。真到机器人侧,决定效果的往往不是预训练模型名字,而是闭环控制里那几件脏活:传感器对齐、地图刷新、异常恢复、长尾天气、成本约束。去年到今年,很多机器人公司都在讲 VLA、spatial intelligence、embodied foundation model,但落地最快的依旧是仓内、园区、固定线路这些约束高的场景。Niantic 这条如果没有部署规模和失败率,我更愿意把它看成“高质量地理视觉先验供应商”,不是通用机器人平台。 从商业上看,这倒未必是坏事。地图和空间先验本来就是稀缺货。配送机器人、AR 导航、无人机巡检、甚至自动驾驶边缘场景,都需要比传统 HD map 更轻、更易更新的表示。如果 Niantic Spatial 真能把历史玩家数据压成可增量更新的 3D 表征,再卖给机器人公司做 localization layer,它的护城河会比自己下场做机器人健康得多。问题还是那个问题:文章没给出客户、收入模式、部署数量,连“英寸级”是在仿真、离线回放还是线上运行里拿到都没说。 这篇里第二条火星样本返回,我的看法更简单:这是航天治理和预算失序,不是“中国突然技术反超”的单线故事。片段说 NASA 在 2024 年 7 月发现异常斑点岩石后,样本返回计划进入停摆,中国在推进自有方案。但正文没披露中国任务时间表,也没拆 NASA 卡在哪一环,是着陆器、上升器、轨道交会,还是总预算与国会博弈。我对“美国已让出头名”这种写法会保留一截。火星采样返回本来就是系统工程地狱,NASA 这些年被成本和架构反复拖住,不代表中国已经把同等难度的问题都解完了;只能说明,谁的组织能把复杂任务压进确定时间表,谁就先拿到科学叙事权。 两条新闻放一起看,其实挺有意思:一个行业在把十年前的消费级数据重新铸成 AI 资产,另一个行业在提醒你,最难的竞争常常不是模型或探测器本身,而是能不能把漫长链条真的跑通。Niantic 这条,我想先看三件东西再决定要不要高估它:公开 benchmark、真实部署场景、持续更新成本。火星这条,我想看的不是口号,而是谁先把样本安全带回地球。标题给了方向,正文还没给足证据。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
11:00
47d ago
● P1OpenAI 博客· rssEN11:00 · 03·11
从模型到代理:为 Responses API 配备计算机环境
OpenAI 在 2026 年 3 月 11 日为 Responses API 引入 shell 工具与托管容器工作区,让模型在隔离环境中执行命令并循环完成任务。正文写明 GPT-5.2 及后续模型已训练为可提议 shell 命令,API 可流式回传输出并并发执行多条命令;容器配文件系统、可选 SQLite 和受限网络。真正值得盯的是编排层而非“代理”标题,正文后半段截断,定价、配额与安全边界未披露。
#Agent#Tools#Code#OpenAI
精选理由
这是 OpenAI 面向开发者的实质性代理能力更新:Responses API 不只会调工具,还能在托管容器里执行 shell、并发回传结果并处理上下文压缩,H/K/R 三轴都成立。正文后半段截断,定价、配额与安全边界未披露,所以给到 featured 高位,不上 P1。
编辑点评
OpenAI 把 Responses API 接上托管容器和 shell 工具,目标很直接:先吃掉开发者自建 agent runtime 这一层。
深度解读
OpenAI 这次不是在加一个工具,而是在把 Responses API 往“可托管执行层”上推。文中已经给出两个硬点:一是 shell tool 直接暴露 Unix 命令能力,点名 `grep`、`curl`、`awk`;二是平台自己托管隔离容器,带文件系统、可选结构化存储如 SQLite、受限网络访问。这个组合的意义很实际:过去你做 agent,模型调用只占一小段,难的是工具编排、文件落地、重试、超时、权限、网络隔离。OpenAI 现在想把这段一起收走。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1

更多

频道

后台