全部 · 2026-03-13

▸ 7 items · updated 3m ago

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 262 2722 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 273282930

2026-03-13 · 星期五2026年3月13日

16:29

45d ago

Ben's Bites· rssEN16:29 · 03·13

我这周在构建什么，以及怎么构建

Ben Tossell 披露他上周工作坊吸引 1.3k 人报名，并发布一个给 Codex 或 Claude Code 使用的交互式 cookbook alpha0.1。正文列出其当前栈：GPT 5.4 XHigh 负责“proper code”，Opus 4.6 负责规划与设计；他还称自己做的 visualise skill 在 GitHub 已超过 200 stars。别被标题骗了，这不是产品发布，核心是个人 agent 开发流程与工具偏好复盘。

#Agent#Code#Tools#Ben Tossell

精选理由

这篇文章更像个人 builder log，不是正式产品发布。HKR 里只有 K 成立：它披露了模型分工、1.3k workshop 报名和 GitHub 200+ stars；但没有系统对比、可复现流程和更广的行业影响，所以放在 all。

编辑点评

Ben Tossell 用 1.3k 报名和 200 GitHub stars 证明了一件事：个人 agent 工作流内容已经能自带分发，但这离产品还很远。

深度解读

Ben Tossell 把 1.3k 人带进工作坊，又把一份 alpha0.1 cookbook 丢给 Codex 和 Claude Code，这条我看成“个人工作流商品化”的样板，不看成产品发布。重点不在那个教程链接，也不在 200 stars；重点在他把“我怎么和 agent 配合”直接包装成可复制体验，而且已经有人愿意先报名再试。我一直觉得，2026 年很多 AI builder 的默认栈已经收敛到双模型分工：一个模型负责长代码生成，一个模型负责规划、拆解、设计。Ben 这里点名 GPT 5.4 XHigh 写“proper code”，Opus 4.6 做 planning 和 design，这个组合很像不少独立开发者这几个月公开说过的做法。原因不神秘：代码正确率、补全速度、上下文稳定性，往往不是同一模型同时最强。Anthropic 这半年在写作、结构化规划、前端品味上口碑更稳；OpenAI 系模型在代码执行链路和工具调用上更常被拿来干重活。我自己没系统跑过他这套 cookbook，但这个分工逻辑我买账。我不太买账的是另一层叙事：把这些信号直接读成“新产品验证通过”。1.3k 报名是很好的内容分发数据，不是留存数据，不是付费数据，也不是完成率数据。正文没披露 workshop 转化率、cookbook 跑通率、部署成功率，也没披露 Codex 和 Claude Code 各自的失败率。Ben 还直接写了 Codex 在 workshop 里掉链子，这反而比漂亮截图更有信息量——今天所谓 agent 教学，最脆弱的一环还是现场稳定性，不是 prompt 设计。另一个有意思的点，是他把“interactive cookbook”放在“step-by-step tutorial”对立面。这个判断我基本同意。过去一年，大量 AI 教学内容都卡在一个老问题：用户要在教程、IDE、终端、浏览器之间来回切，认知上下文一直断。把教程直接喂给 agent，让 agent 边做边教，确实更接近学徒制，而不是看文档做填空。去年到今年，OpenAI Codex、Claude Code、Cursor 的很多高留存用法，本质都在往这个方向靠：不是给你一个答案，而是给你一段可执行过程。但这里也有个明显风险。把教程嵌进 agent，不等于教学质量自动上升。模型会补全，也会乱讲；会生成页面，也会把错误模式包装得很像最佳实践。Ben 推荐用户去读 agent 中间的 thinking/output，这个建议是对的，可惜大部分初学者并不会真的审。于是“交互式 cookbook”很容易滑成另一种外包：用户得到一个能跑的站点，却没建立排错能力。标题里那种“become a builder”式热情，我理解；真落到能力迁移，正文还没给出证据。 visualise skill 这段也挺说明问题。Claude 前一天刚上交互式图表和图解 beta，他第二天就 reverse-engineer 成一个可装到 agent 里的 skill，还拿到 200+ stars。这个速度说明两件事。第一，模型厂商刚放出一个可见能力，外围开发者马上会做二次封装，延展到别的平台。第二，所谓护城河经常不是“能力是否存在”，而是谁先把它变成默认工作流。200 stars 当然不算大项目，离插件级爆发还早；但对一个个人实验仓库，它足够说明需求真实存在。我对“code is basically free nowadays”这句有点保留。token 单价这两年确实压下来了，Claude Code、Codex 这类工具也把生成门槛拉低了，但真不免费的部分从来不是首版代码，而是反复返工、审阅、设计取舍、上线后的维护。Ben 自己也承认 cookbook 站点还要再做 design pass，contrast 都不对。这个细节很诚实，也刚好说明现实：代码更便宜了，审美和判断反而更贵。所以这条的价值，在于它把 agent 时代一个越来越清晰的分层摆到台面上：底层模型能力在趋同，上层差异开始落到工作流编排、教学体验、默认技能包、还有个人品牌带来的分发。Ben 这次拿到的不是产品胜利，更像先手卡位。要不要把它当成 business，我还没看到足够证据；要不要把它当成信号，我觉得得认真看。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

16:00

45d ago

Dwarkesh Patel 播客· rssEN16:00 · 03·13

Dylan Patel 详解扩展 AI 算力的 3 个主要瓶颈

Dylan Patel 围绕扩展 AI 算力，点出 3 个主要瓶颈。当前只有标题信息，正文为空；瓶颈的具体名称、数据口径与复现条件均未披露。真正该盯的是约束维度本身，不是标题里的“deep dive”表述。

#Inference-opt#Dylan Patel#Commentary

精选理由

标题抓住算力扩展这个高关注议题，HKR-H 与 R 成立。正文为空，缺少任何数据、机制或例子，触发 hard-exclusion-zero-sourcing，分数封顶 39，只能列为 excluded。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:16

45d ago

MIT 科技评论· rssEN15:16 · 03·13

为什么 physical AI 正成为制造业的下一项优势

Microsoft 与 NVIDIA 在 NVIDIA GTC 2026 宣称，将面向制造业展示可“今天部署、明天扩展”的 physical AI 系统。正文列出仿真、机器人、AI agents 与实时数据的组合，但未披露客户名单、价格、性能指标或落地时间；别被标题骗了，这更像合作方赞助评论，不是独立测评。

#Agent#Robotics#Tools#Microsoft

精选理由

这更像 Microsoft 与 NVIDIA 在 GTC 上围绕 physical AI 的制造业宣发，不是有数据的独立报道。HKR 三项都弱，且正文没有客户、价格、性能指标或落地时间，触发硬排除：厂商宣传 / 纯营销，importance capped below 40。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

12:16

45d ago

FEATUREDMIT 科技评论· rssEN12:16 · 03·13

The Download：AI 如何用于军事目标排序，以及五角大楼对 Claude 的警惕

美国国防部官员称，军方可把目标名单输入机密环境生成式 AI，由系统分析并排序打击优先级，人工再核查结果。标题还给出五角大楼 CTO 称 Claude 会“污染”国防供应链，理由是模型内置“政策偏好”；正文未披露具体模型、部署时间和约束机制。真正值得盯的是，生成式 AI 已被放进高风险决策链，但可审计细节仍缺位。

#Reasoning#Safety#Pentagon#Anthropic

精选理由

HKR 三项都过线：军方把目标名单交给生成式 AI 排序，本身就有强话题性；Pentagon CTO 点名 Claude 的“政策偏好”会污染供应链，也直指模型中立性争议。正文没给出模型、部署时间和审计机制，所以只给 featured 低位。

编辑点评

五角大楼把目标名单送进机密生成式AI排序。流程已越过演示阶段，审计细节却还没跟上。

深度解读

美国军方已把目标名单送入机密生成式AI做优先级排序，人工只在后面复核。这个动作最刺眼的地方，不是“AI参战”四个字，而是它已经卡进打击决策链的前段，可正文连模型名、评估集、误报率、留痕方式都没给。流程一旦从“检索资料”走到“排序建议”，系统就不再只是副驾驶，它开始塑造人类先看谁、先打谁。高风险决策里，这一步经常比最后那句“是否批准”更有支配力。我对文里那句“human review”并不太买账。人类复核只有在三个条件下才有实际意义：一，操作者能看到模型依据，不是只看一个排序结果；二，复核人有时间和权限推翻建议；三，系统会记录每次改写、退回和误判来源。正文没披露这三项。没有这些约束，“人在回路中”很容易退化成签字责任在人，注意力引导在机器。做过情报分析或风控的人都知道，排序本身就是很强的诱导器，排第一的目标会天然吃掉更多注意力。这不是全新路线。美国国防体系过去几年一直在把机器学习塞进ISR、目标识别、威胁分级这些环节，Project Maven就是早期样板。以色列相关报道里，像 Lavender 这类系统也让外界看到一个老问题：当模型把海量候选人压成一个可执行名单，人类常常审的是节奏，不是逻辑。两边场景不完全一样，我也不把它们直接等同；但机制很像，都是先把不确定性包装成可操作的优先级。军事系统里，这种包装会被“效率”迅速合法化。标题里五角大楼 CTO 说 Claude 会“污染”国防供应链，理由是模型内置“政策偏好”。这个说法我也有疑虑。任何对齐过的模型都有政策偏好，ChatGPT 有，Claude 有，Grok 也有，区别只在偏好写得多显性、拒答阈值设得多硬。把 Anthropic 单独拎出来批，听着更像采购政治，不像技术判断。除非国防部拿出了可复现证据：同一机密任务、同一提示、同一工具权限下，Claude 的拒答率、偏置方向、任务完成率显著差于其他模型。正文没有这些数据。还有一层背景不能省。过去一年，OpenAI、Anthropic、微软、Palantir、Anduril 这几条线都在加速靠近国防场景，只是姿态不同。OpenAI的口径已经从早期禁军用，转到允许部分国家安全合作；Anthropic嘴上更谨慎，但也没有彻底站到体系外。这里的分水岭从来不是“做不做军方”，而是“做到哪一层”：文书和检索是一层，任务规划是一层，目标排序又是一层。现在最敏感的恰好是最后这一层，因为它把模型输出从解释世界，推到安排行动顺序。我还没查到这套“机密环境生成式AI”到底是自研、闭源商用模型私有化部署，还是多模型网关。这个差别很大。若是商用模型加护栏，供应链风险会落在权重更新、系统提示、日志主权和离线微调。若是军方自托管蒸馏版，问题会转成数据污染、评估漂移、维护团队能否持续复现实战表现。标题给了方向，正文没给结构。所以这条消息不该被读成“军方终于用上聊天机器人了”。更准确的读法是：目标优先级这个原本要靠情报官、分析师和指挥链共同承担的判断，开始被语言模型压缩成一个可消费输出，但外部几乎看不到它怎样被验证。没有模型卡、没有红队结果、没有误伤回溯机制，连最基本的对比基线都没披露。坦率地讲，这不是透明度不够的问题，这是把问责前移成了保密理由。对从业者来说，关键不是站队 Claude 还是 ChatGPT，而是盯住一个更硬的问题：谁能调这个排序器，谁能覆盖它的默认价值，谁又能在事后证明某次打击建议不是模型把噪声排到了最前面。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:00

45d ago

FEATUREDMIT 科技评论· rssEN09:00 · 03·13

未来 AI 芯片可能改用玻璃基板

Absolics 计划于 2026 年启动玻璃基板商用生产，瞄准 AI 数据中心芯片封装。正文给出 3 个硬指标：玻璃可把每毫米互连密度提到有机基板的 10 倍、同面积封装可多塞 50% 硅芯片，Absolics 现有产能上限为每年 1.2 万平方米。真正值得盯的是封装瓶颈，不是材料噱头；Intel 已做出可启动 Windows 的玻璃基板器件，但大规模良率与成本正文未披露。

#Inference-opt#Absolics#Intel#AMD

精选理由

玻璃基板切中 AI 数据中心封装瓶颈，标题有钩子，正文也给了 10 倍互连密度、50% 封装增益和 1.2 万平方米年产能，HKR 三轴成立。量产良率、成本和客户导入节奏正文未披露，所以停在 featured 下沿，不到 must-write。

编辑点评

Absolics 计划 2026 年量产玻璃基板；这条我买账一半，封装确实卡住了，但良率和成本没出来前，它还不是 AI 芯片的新共识。

深度解读

Absolics 计划 2026 年启动玻璃基板商用生产，年产能上限 1.2 万平方米。我的判断很直接：这不是“新材料要接管芯片”的故事，它是在给先进封装续命。AI 数据中心这两年先撞上的墙，本来就不是晶体管缩放，而是封装尺寸、供电密度、散热和 warpage。文章给了 3 个能落地的数字：互连密度最高 10 倍、同面积多塞 50% 硅芯片、现有产能 1.2 万平方米。光看方向，我觉得靠谱；光看商业化节奏，我还是保留意见。因为决定它能不能进主流的，不是 Intel 把 Windows 启起来了，而是大板子、大封装、长时间热循环下的良率曲线，正文没披露。我一直觉得，过去一年很多人把先进封装讲得太轻了，像是“工艺节点放缓后的补丁”。实际不是。CoWoS、SoIC、EMIB、Foveros、HBM 堆叠，这些已经是 AI 芯片性能曲线的一部分。Nvidia 这一轮的供货紧张，很多时候卡的就不是 GPU die 本身，而是 HBM 和封装能力；这个行业背景，文章点到了封装瓶颈，但没展开。玻璃基板的意义，恰好在这里：它解决的是有机基板在大封装下容易翘曲、孔位密度受限、热循环形变不可控的问题。AMD 的 Deepak Kulkarni 直接点名 warpage，这个判断我认同。你封装做大、chiplet 变多、功耗继续抬，机械稳定性就不再是配角。但我对文中的乐观口径有点警觉。Intel 说玻璃热稳定性更好、表面可做到比有机基板平滑 5000 倍、还展示了能启动 Windows 的器件，这些都说明“能做”。它们没有说明“能便宜地大量做”。半导体里从 demo 到量产，最难的一段常常就埋在材料脆性、搬运治具、切割良率、金属化缺陷、返修难度这些地方。文章提到早期测试时每几天会裂几百片玻璃，现在改善了，但改善到多少，没数字。没有良率、成本、封装厂兼容性，这条离大规模上车还差最关键的一页。外部参照其实很清楚。Intel 在 2023 年就高调讲过 glass core substrate，时间表是 2020 年代后半段进入高性能封装；现在到 2026 年，叙事已经从“研究可行”推到“供应链开始备货”。这说明路线没死。另一边，台积电和日月光这类主流先进封装体系，过去两年押注的核心还是 CoWoS 扩产、chip-on-wafer 和 2.5D/3D 集成，并不是全面转向玻璃。我没查到台积电公开承诺玻璃基板量产的时间点，这本身就说明一件事：行业承认问题存在，但对解法还没收敛。玻璃更像一个中长期选项，不是 2026 年就会替代有机基板的短期答案。 Absolics 自己的位置也很微妙。1.2 万平方米听着不小，但如果 AI 封装需求继续按头部云厂的资本开支速度拉升，这个量未必够。正文没有把面积换算成可交付多少 package，也没给客户名单，所以现在很难判断它是“验证线升级版”，还是足以支撑一代主流 AI 模组的量产能力。说真的，没有这层换算，产能数字的解释空间很大。我比较买账的一点，是玻璃把封装问题重新拉回“系统设计”而不是“材料噱头”。它让更高互连密度、更稳的平整度、潜在的光互连兼容性放到同一块板上考虑，这和 chiplet 时代的需求是对得上的。可我不买“一定会很快普及”的语气。先进封装历史上，任何新材料只要碰到供应链改造和成本摊销，落地速度都会比论文和 demo 慢。现在标题给出了方向，正文给了几个漂亮指标，但没给最关键的量产 economics。没有那组数，这条新闻还只是封装路线图里的强信号，不是定局。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:31

45d ago

FEATURED阿里技术 · 公众号· rssZH00:31 · 03·13

给“氛围编程”系上安全带：阿里集团开源 AI 代码评审实践与 Benchmark

阿里集团宣布开源 AI 代码评审实践与一个 Benchmark，目标指向“氛围编程”的安全控制。当前只有标题信息可确认，正文未披露 Benchmark 名称、评测集规模、开源协议、代码仓库地址与评审机制；真正该盯的是复现条件，不是标题里的口号。

#Code#Safety#Benchmarking#Alibaba Group

精选理由

阿里官方发布“AI 代码评审实践 + Benchmark 开源”，题材贴近 AI 编程安全，HKR-H 与 HKR-R 成立。分数压在 all，是因为 HKR-K 明显偏弱：正文未披露 Benchmark 名称、规模、协议、仓库地址与评审机制，现阶段更像预告，不够到 featured。

编辑点评

阿里只放出“开源代码评审实践与 Benchmark”这句标题，关键细节全没给。我对这条先保留热情：没有评测集规模和复现条件，“安全带”更像口号。

深度解读

阿里这条先别急着鼓掌。标题给出的事实只有一层：阿里要开源 AI 代码评审实践和一个 Benchmark，目标是给“氛围编程”加安全控制。正文没有评测集规模、标注口径、开源协议、仓库地址，也没有说评审对象是 PR、commit、diff，还是 agent 自动提交的 patch。少了这些，外界根本没法判断它是在评审代码质量、漏洞风险、合规问题，还是只做一层静态规则包装。我对“vibe coding 安全”这套说法一直有点警觉。过去一年这类叙事很容易滑向演示式安全：挑几类明显 bad case，做一个模型裁判，再把命中率写进海报。问题是代码评审不是聊天安全。它至少分三层：语义正确性、可维护性、安全漏洞。一个 benchmark 如果只覆盖 SQL 注入、权限绕过、硬编码密钥这类高频问题，它有价值，但那只是 AppSec 的子集，不等于“给氛围编程系上安全带”。Cursor、GitHub Copilot、CodeRabbit 这一波产品都在补 review 环节，但公开材料里很少有人把“发现 bug”与“阻止坏变更进入主干”分开算。阿里如果也把这两件事混在一起，分数会很好看，落地价值会打折。文章外的参照其实很多。SWE-bench 这类基准测的是修 bug 能力，不是 code review。CodeQL、Semgrep、Snyk 这类工具长于规则和已知模式，不长于理解业务上下文。Anthropic 和 OpenAI 去年都在推 coding agent，但公开 benchmark 还是偏生成和修复，review 一直是缺口。所以阿里如果真把 review benchmark 做细，方向是对的。我卡住的点是复现条件：有没有真实企业 diff，是否脱敏，是否包含多语言仓库，评审结论由人类 senior reviewer 还是另一个模型打标，正负样本比例是多少。标题已给出“开源”，正文未披露这些核心条件，我没法把它当成一个成熟基准看。说真的，这条最后会不会有分量，不取决于“安全”两个字写得多大，而取决于三件很土的事：repo 能不能今天打开，license 能不能商用，baseline 里有没有 Claude、GPT、Qwen、DeepSeek 这类现成强模型。如果只有阿里自家模型跑分，或者数据集只适配内部研发流程，这个 benchmark 的外部说服力会很有限。反过来，如果它公开了失败样本、误报率、漏报率，我会高看一眼。代码评审这件事最怕的不是模型笨，是团队被一个高分 benchmark 骗出虚假的安全感。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

45d ago

硅谷101 播客· atomZH00:00 · 03·13

E228｜谷歌 TPU 能撼动英伟达吗？前 TPU 工程师首次揭秘

这期第228集视频聚焦谷歌 TPU 与英伟达的竞争，并以前 TPU 工程师“首次揭秘”作为核心信息。标题已给出主角是 Google、TPU 和 Nvidia；正文为空，未披露工程师姓名、具体技术点、性能数字或时间范围。真正值得盯的是一手工程细节，但这条 RSS 只有标题信息。

#Google#Nvidia#Commentary

精选理由

标题把 Google TPU 与 NVIDIA 的竞争做成了悬念，HKR-H 和 HKR-R 成立。正文没有数据、案例、工程师姓名或技术细节，属于零来源观点内容，触发硬排除，分数封顶在 39。

编辑点评

这条只有标题，没有工程细节与性能数字；我先不买“能撼动英伟达”这种标题党。

深度解读

这条标题把 Google TPU 对 Nvidia 的竞争抬到了“能不能撼动”的层级，但正文是空的，连前 TPU 工程师是谁、做过哪代 TPU、讲的是训练还是推理，都没披露。能下的判断其实很有限：这更像一条内容导流标题，不足以支持产业判断。我一直觉得，TPU 和 Nvidia 的竞争，外界最容易看错的点，是把芯片性能当成唯一变量。Google 真有优势的地方，从来不只是矩阵算力，而是它把 TPU、JAX/XLA、内部集群调度、模型团队和自家业务负载绑在一起用。这个模式在 Google 内部成立，在外部市场就没那么顺。Nvidia 过去两年吃下的，不只是 H100、B200 这类单卡优势，更是 CUDA、NCCL、推理框架适配、云厂商供给、开发者习惯这整套惯性。单说“TPU 能否撼动 Nvidia”，问题设得就有点粗。如果这位前工程师讲的是架构史，价值会在细节。比如 TPU v4 到 Trillium 这一线，Google 在 pod 规模、互连、能效和自用负载匹配上到底踩过哪些坑。要是讲的是商业化，那就要看 Google Cloud 到底把多少内部能力变成了外部可买服务。我记得过去一年，Google 一直在推 Trillium TPU 给 Gemini 训练和推理背书，但公开世界里，开发者默认栈还是 Nvidia 更稳。我没查到这期视频有没有拿出客户迁移、成本对比、吞吐数字；标题没有，摘要也没有。我对“前 TPU 工程师首次揭秘”这个包装也有点怀疑。前员工的价值，取决于他离开 Google 的时间点。假设他参与的是 TPU v3 或 v4，那对 2026 年的竞争判断未必够新。过去一年大模型训练的瓶颈，已经不只是芯片 MAC 数，更多是网络、内存、编译器、checkpoint、故障恢复和集群利用率。离开时间一拉长，很多一手信息会迅速过期。这个行业 18 个月就能换一代叙事，老内部视角不等于当下答案。还有一个常被忽略的现实：Google 自己大量使用 TPU，并不自动等于 TPU 能在开放市场复制 Nvidia 的地位。这个差别，类似 AWS 自研芯片在自家云里很强，但并没有把外部开发者生态整体搬走。Nvidia 的强，不只因为它芯片快，也因为别人围着它写软件、做优化、配供应链。Google 若想“撼动”，至少要同时回答三个问题：外部客户迁移成本降了多少，主流训练框架支持到了什么深度，供给能不能稳定扩大。标题一个都没给。所以这条我只能先给很保守的判断：如果视频里没有具体代际、基准、成本和部署案例，那它更像观点节目，不是情报源。要让我改观，最少得有几样硬信息：哪代 TPU 对哪代 Nvidia；训练还是推理；tokens/s、每美元吞吐、集群规模、软件迁移代价。没有这些，“撼动英伟达”就是情绪词，不是分析。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

全部 · 2026-03-13

更多

频道

后台