全部 · 2026-04-22

▸ 108 items · updated 3m ago

2026年4月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1531 1694 1768 1853 1962 2095 2198 22108 2393 2472 2535 2629 2773 28109 29102 3094

2026年5月

一二三四五六日

176 260 362 473 5107 693 7132 890 970 1057 1199 12121 13135 14145 15128 1663 1764 18104 19167 20116 21121 22114 2348 2446 2570 26107 27116 28140 29113 3058 3161

2026年6月

一二三四五六日

1132 2140 3130 4111 5118 668 766 8124 9114 1075 1175 1275 13191415161718192021222324252627282930

2026-04-22 · 星期三2026年4月22日

23:53

51d ago

FEATURED彭博科技· rssEN23:53 · 04·22

SK海力士因AI芯片涨价季度利润增长五倍

SK海力士说季度利润涨了5倍，原因是AI用的内存芯片涨价了。公司还重申2026年资本支出会“大幅”增加。正文没披露具体利润额、涨价幅度、资本支出数字或产品线细节，所以没法判断涨了多少、花在哪。

#Inference-opt#SK Hynix#Bloomberg#Product update

精选理由

HKR-K和HKR-R通过：正文确认了利润同比5倍增长和2026年资本开支大幅上调，这两点直接关联AI存储芯片的供给和成本。HKR-H较弱，因为这是一条常规财报新闻，正文还缺利润绝对值、涨价幅度和HBM/DRAM产品线分布，所以维持原判。

一句话点评

SK海力士利润暴增五倍，但市场还在吵这波AI需求是长期饭票还是短期快钱。

锐评

SK海力士最新一个季度利润涨了五倍，靠的是AI芯片（主要是HBM高带宽内存）价格猛涨。公司管理层把这叫“结构性转变”，意思是需求不是一阵风，而是长期趋势。但彭博的报道也点出一个尴尬：利润虽然暴涨，却没达到市场最乐观的预期，所以关于“超级周期”的争论反而更凶了。这里的关键数字是“五倍增长”，说明AI对上游硬件的拉动有多猛。但要注意，FT的原文被付费墙挡了，具体营收和利润率数字没看到。彭博的标题直接用了“Falls Short”（不及预期），说明股价可能已经提前透支了利好。还缺什么？正文没披露HBM的具体出货量、客户集中度（比如英伟达占多少），也没说其他存储芯片业务是不是还在拖后腿。光看利润暴增容易上头，得等完整财报出来，看增长质量和持续性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:49

51d ago

FT · 科技· rssEN23:49 · 04·22

马斯克说他的 Terafab 会用 Intel 最新制程，Intel 股价涨了

马斯克公开表示，他的 Terafab 超级工厂将采用 Intel 的 14A 制造工艺。消息一出，Intel 股价应声上涨。Intel 一直在为 14A 工艺寻找一个大客户，这次马斯克相当于给了个背书。但正文没披露具体时间、订单规模或交易条款，所以这更像一个意向信号，还不是板上钉钉的订单。

#Intel#Musk#Terafab#Partnership

精选理由

标题有钩子，Musk 给 Intel 14A 背书确实让人多看两眼。但正文只说了会用这个工艺，订单多大、什么时候投产、造什么芯片都没提，信息量撑不起高分。对 AI 读者来说，这是半导体供应链消息，不是 AI 模型或产品更新，所以分数压在 40 以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

23:46

51d ago

Hacker News 首页· rssEN23:46 · 04·22

tanh 近似方法大比拼：泰勒、帕德、样条和位运算谁更快？

这篇博客对比了 5 种快速计算 tanh 的方法：泰勒展开、帕德近似、样条插值，以及利用 IEEE-754 浮点数格式的位运算技巧（如 K-TanH）。作者给出了具体阈值：泰勒展开在 |x|>1.365 时直接返回 ±1，帕德近似建议输入限制在 [-5,5] 内，K-TanH 只用整数运算加一个 512 位的查表。对做推理加速的人来说，关键是在误差、区...

#Inference-opt#J Tom Schroeder#JUCE#IEEE

精选理由

触发硬排除-技术可读性不足：全文讲 tanh 近似和位级实现，对主流 AI 产品或 agent 场景几乎没有入口。HKR-K 靠具体阈值通过，但 HKR-H 和 HKR-R 都弱，所以维持 excluded。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

23:34

51d ago

FEATURED彭博科技· rssEN23:34 · 04·22

特斯拉花30亿美元建芯片研发厂，用Intel技术

特斯拉计划在德州投约30亿美元建一座芯片研发工厂，马斯克称这只是更大规模芯片制造计划的早期阶段。正文没披露产能、时间表、工艺节点或合作细节，所以目前只能当“先投钱探路”看。30亿对芯片厂来说不算大数，但作为研发线够用，而且用Intel技术意味着特斯拉没打算从头造轮子，可能是在现有架构上做定制或测试。

#Tesla#Elon Musk#Intel#Product update

精选理由

彭博确认特斯拉花30亿美元在得州建研究晶圆厂，并采用Intel技术。但产能、制程节点、时间表、合作形式都没披露，也没说跟AI训练或推理有什么关系，所以放在all层级。

一句话点评

正文被 Bloomberg 的反爬机制挡住了，只看到标题，没拿到具体细节。

锐评

这条新闻目前能确认的信息只有标题：特斯拉要花 30 亿美元建一座“研究晶圆厂”，并且会用英特尔的技术。30 亿这个数字在芯片制造领域不算特别大，但作为研究用途的投入，说明特斯拉可能想在自动驾驶芯片或 AI 训练芯片的工艺上掌握更多自主权，而不是单纯依赖代工厂。不过，因为 Bloomberg 原文被 403 拦截，我们看不到任何具体内容。不知道这 30 亿是分几年投、工厂建在哪、用的是英特尔的哪一代制程或封装技术，也不清楚英特尔在这件事里是技术授权方还是代工合作方。标题里“关系解冻”这个说法也缺少上下文——之前双方有什么摩擦，这次合作又解决了什么，全都不清楚。这条值得关注，但判断要等拿到原文细节再说。如果合作确实落地，对特斯拉的芯片自研和英特尔的代工业务都是个信号，但现在信息缺口太大，没法下结论。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

23:31

51d ago

FEATUREDHacker News 首页· rssEN23:31 · 04·22

你家后院要建数据中心？蒙特利公园居民用公共记录请求逼退开发商

加州蒙特利公园居民发现市政府准备批准一个25万平方英尺（约2.3万平方米）的数据中心，距离住宅仅500英尺（约152米）。他们通过公共记录请求挖出关键信息：城市只通知了500英尺内的居民，此前社区会议仅20-60人参加，约20票就决定了支持建数据中心。开发商还悄悄收购了街对面更大地块，但拒绝说明用途。组织者利用已有的志愿者网络，在最后一轮投票前召集数百...

#SGV Progressive Action#Monterey Park#Thomas Wong#Policy

精选理由

H/K/R都成立：标题的实操角度吸引点击，故事提供了通知半径、规模和到场投票数。定在all而非featured，因为影响限于单一城市案例，摘录未展示更广的市场或政策外溢。

一句话点评

加州蒙特利公园居民用公共记录申请挖出开发商和市政府的利益关联，三个月逼退一座25万平方英尺的数据中心。

锐评

这篇报道讲的是居民怎么靠组织动员和信息公开把数据中心项目挡回去，不是技术分析，是社区行动指南。核心武器是加州阳光法案下的公共记录申请——组织者一查就发现，市政府用了开发商自己的环评报告来替代更严格的州级审查，还说项目“没有显著环境影响”。更微妙的是，投赞成票的市议员本人就在给项目供电的电力公司上班。这些信息一公开，下次听证会直接来了几百人，开发商当场撤回申请。报道没提数据中心的具体用途、算力规模或能耗数字，只说了建筑面积25万平方英尺，离住宅150米。也没交代开发商撤了之后那块地现在怎么办。如果你关心的是怎么在本地阻止类似基建，这篇的操作路径很实在：先查公共记录找利益关联，再用人海战术冲听证会。但如果你想知道这个数据中心到底耗多少电、水、会不会影响电网，正文没给。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:30

51d ago

● P1FT · 科技· rssEN23:30 · 04·22

Tesla将资本支出计划上调至250亿美元用于AI及自动驾驶

特斯拉把资本支出计划上调到 250 亿美元，马斯克要把更多钱砸向 AI 相关项目。从 RSS 片段看，这些项目包括自动驾驶出租车、卡车、机器人以及芯片工厂，增幅被形容为“非常显著”。不过正文被付费墙挡住，没披露这笔钱覆盖的时间范围、具体怎么分项，也没提模型细节。能确定的一个信号是：特斯拉在投的不只是训练模型，而是从芯片到终端产品的整套体系。

#Agent#Robotics#Inference-opt#Tesla

精选理由

FT报了一个具体的资本支出跳升数字，直接关联自动驾驶出租车、卡车、机器人和芯片工厂。我会先打个折：时间范围和分项花销都没给，模型细节也缺，所以不是必写级别。但250亿这个数够大，而且投向的是车、机器人和芯片产能整条链，不是只训模型，战略意义摆在那。HKR三项都踩中了，只是信息缺口让它停在featured中段。

一句话点评

特斯拉把未来资本支出计划提到250亿美元，主要砸向AI和自动驾驶。数字很大，但正文没披露具体怎么分、用在哪些项目上，先别急着喊“All in AI”。

锐评

特斯拉上调资本支出计划至250亿美元，马斯克继续在AI方向下重注。这个数字本身说明公司对算力、自动驾驶研发的投入预期在拉高，但FT的报道正文被付费墙挡住，看不到具体细节。TechCrunch的标题也指向同一件事，但同样没展开资金分配比例、时间跨度和预期回报。对从业者来说，这笔钱如果真的大头流向自研芯片、数据中心或训练集群，意味着特斯拉在算力基建上要和微软、谷歌这些云厂商抢资源。但现阶段能确认的只有“计划上调”这个动作，实际执行率、项目优先级都还是未知数。另外，250亿是多年累计还是单年峰值，报道也没说清，这点直接影响判断——如果是多年分摊，每年增量其实没那么夸张。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:44

51d ago

FEATUREDTechCrunch AI· rssEN22:44 · 04·22

Google为Workspace推出AI助手Workspace Intelligence

Google 在 Cloud Next 上给 Workspace 加了一批自动化功能，背后统一叫 Workspace Intelligence。这个系统能读你的 Gmail、日历、聊天记录和云端硬盘里的文档表格，然后帮你写邮件、整理表格之类的。管理员可以随时关掉它对某些数据的访问权限——给的数据越多，它越能干。正文没披露具体有哪些功能、覆盖哪些应用、怎...

#Agent#Tools#Google#Workspace

精选理由

H 和 R 通过：标题的“办公室实习生”比喻有传播力，且办公套件做 Agent 确实戳中生产力痛点。K 不通过：正文只确认了系统名称，功能、应用覆盖、定价和上线时间都没说，所以只能算常规产品更新，信息密度不够。

一句话点评

Google给办公套件加了个叫Workspace Intelligence的AI助手，能帮你写邮件、理表格。但它的聪明程度取决于你愿意开放多少个人数据给它看，这点得自己掂量。

锐评

Google这次把AI直接塞进了Workspace，取名Workspace Intelligence。说白了，就是让AI能读你的邮件、日历、聊天记录和网盘文件，然后在这些应用里帮你干活，比如起草邮件或整理表格。TechCrunch的报道把它比作“新来的办公室实习生”，挺贴切——能干杂活，但前提是你得把资料都交给它。关键点在于权限设计：管理员可以控制AI能看哪些数据，用户也能随时关掉某个数据源的访问。这算是个安全兜底，但报道没提如果关掉大部分权限，这个“实习生”还剩多少本事。另外，文章只说了它能做什么，完全没给性能数据，比如处理复杂表格的准确率、跨应用调度的延迟，或者误操作率。这些数字才是企业采购时会盯着的。目前看，这更像是一次功能整合，把已有的AI能力打包进办公流，而不是底层模型的大突破。实际省不省时间，还得等用户上手后的反馈，尤其是那些数据权限开得比较保守的团队。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

22:25

51d ago

TechCrunch AI· rssEN22:25 · 04·22

X 用 Grok 取代“社区”功能，AI 自动生成话题时间线并塞广告

X 本周上线了 Grok 驱动的自定义时间线，替代原有的“社区”功能。Grok 会读完每条帖子、打上话题标签，然后给你生成一个按话题聚合的时间线，目前有超过 75 个话题可选，还能钉在首页。X 产品负责人说，你平时越爱聊什么，Grok 给你推的就越准。但正文没披露这个功能是逐步开放还是全量上线，也没说 Grok 是怎么排序帖子的、广告会插多密。唯一确定...

#Tools#X#Product update

精选理由

HKR-H 通过，因为 X 用 Grok 策划的信息流替换 Communities 并加入广告位，这个产品变动本身有钩子。HKR-K 不通过，因为上线范围、排序逻辑和广告规则都没披露，信息缺口大。HKR-R 偏弱，对 AI 从业者来说缺乏模型能力、成本或工作流变化的直接关联，属于低优先级全行业更新。

一句话点评

X用Grok AI替代了社区功能，推出AI自定义信息流。它能理解每篇帖子并打标签，比关键词匹配更准。但正文没披露Grok的幻觉率，如果推荐了不存在的帖子或错误信息，用户很难发现。另外，广告位也嵌进去了，这点先别太激动。

锐评

X 正在用 Grok 策划时间线替换 Communities，还加入广告位。我的判断很直接：这不是一次普通的信息流改版，这是把“谁能被看见”从社群运营者手里，交回模型排序和商业化系统。标题已给出替换对象、Grok 参与、广告位三点，正文未披露上线范围、排序信号、广告加载规则，这几个缺口都很关键。我不太买“AI 让发现更好”这套说法。产品史上，社区页一旦被推荐流接管，目标通常会从关系维系转成停留时长和广告填充。Meta 当年把 Facebook Group 的分发更深地并进推荐系统后，活跃是上去了，但管理员对触达的可控性明显下降；X 这次像是同一路数，只是把推荐器换成了 Grok。要是 Grok 既负责归纳话题，又参与排序，再叠加广告位，模型就不只是助手，它成了新的流量闸门。说真的，我这里最大的疑虑是激励错配。社区需要稳定规则，广告系统需要可预期库存，生成式策划需要高频改写三者天然拉扯。正文没给任何可复现条件，我还没法判断广告是按时间线固定插入，还是按意图动态匹配；这两个机制对创作者和品牌安全是两套完全不同的产品。如果 X 连最基本的频控、去重、误分流规则都没公开，这条更新先看成商业分发重构，比“AI 社交新体验”靠谱得多。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

22:25

51d ago

Hacker News 首页· rssEN22:25 · 04·22

微软发了个 Teams SDK 指南：把你已有的 Agent 直接挂进 Teams，不用重写

微软 4 月 17 日发了一篇 Teams SDK 使用指南，核心就一招：用 HTTP server adapter 在你现有的 Express 服务器上注册一个 `POST /api/messages` 端点，Teams 发来的消息就走这个入口。文章给了三个起点：Slack bot、LangChain 链、Azure Foundry agent。好处...

#Agent#Tools#Microsoft#Teams SDK

精选理由

HKR-K 成立，因为文章给出了具体的集成机制：HTTP server adapter、POST /api/messages 和 Teams 请求校验。HKR-H/R 弱：这是微软自家的 Teams 指南，受众窄，没有更广泛的生态信号，所以维持 tier 1。

一句话点评

微软 Teams SDK 改名后首个大更新：你已有的任何 HTTP 服务（Slack bot、LangChain 链、Azure Foundry agent）都能直接挂进 Teams，不用重写。核心就一行代码——用 HTTP server adapter 在现有 Express 服务上注册一个 /api/messages 端点，Teams 消息自动路由进来。正文给了三个完整示例，代码可跑。但...

锐评

Microsoft 这篇指南把 Teams 接入收敛到 1 个 `POST /api/messages` 端点。我的判断很直接：它卖的不是开发便利，而是分发控制权。你已经有 Slack bot、LangChain 链、Azure Foundry agent，都能挂进同一个 Express 进程，这一步把 Teams 从“要单独适配的渠道”降成了“顺手多接一个前台”。对企业开发者，这种摩擦下降很实在；对 Microsoft，自家工作入口就更难被绕开。文章给的技术动作很少，核心就是 3 步：`ExpressAdapter` 包住现有 server，`TeamsApp` 初始化，SDK 自动注册路由并验签。正文没披露吞吐、延迟、认证细节，也没讲多租户、权限边界、会话状态怎么落。这里我得泼点冷水：把接入写成“复用同一进程和同一业务逻辑”很好看，生产里最麻烦的通常不是 handler 复用，而是平台差异。Slack 的事件模型、Teams 的 activity schema、身份上下文、文件权限、线程语义都不一样。你能共用 70% 代码，我信；你能长期只维护一套逻辑，我不太买账，尤其碰到审批流、会议上下文、Graph 权限时，分叉迟早会长出来。我一直觉得 Microsoft 过去两年的路线很清楚：先用 Copilot 抢心智，再把 Teams、M365、Graph、Foundry 这些入口和底座绑紧。2024 年 Build 之后，Copilot extensibility 一直在讲“把能力带到工作流里”；现在这篇文章把门槛再压低一层。对比 Slack/Salesforce 那边的 Agentforce 和传统 bot 框架，Microsoft 的优势从来不只在模型。它手里有 Teams 客户端、Entra 身份、Graph 数据面、管理员策略和采购关系。你把 agent 挂进去，技术上只是多一条路由，组织上却是在接受它的界面、审计、权限和分发规则。这个位置一旦站稳，模型换不换、链路是不是 LangChain，反而没那么关键。有意思的地方在于，它连 Slack bot 都拿来做示例。这个姿态很明确：不是要求你重写成 Teams 原生应用，而是允许你把现成资产搬进来。我看着像很典型的平台吸附策略。先让迁移成本接近 0，再慢慢把企业使用场景从“跨平台 bot”引到“Teams 内原生协作 + M365 数据调用”。历史上 Microsoft 做开发者平台经常这么走：先兼容，后内化。VS Code 对前端工具链、GitHub Copilot 对 IDE 工作流，都有这个味道。我对文章叙事还有一个保留。它把“SDK 负责验证请求来自 Teams”讲得很轻松，但企业真正卡住的不是这一层。审计日志去哪，数据驻留在哪，消息内容会不会进模型训练，管理员能不能按用户组关停，跨 tenant 的 guest 用户怎么处理，正文都没给。你要是内部试点，这篇足够；你要是上生产，这些问题一个都绕不过去。标题给了 BYO Agent，正文展示了接线方式，但缺了企业上云最贵的那半截。所以这条消息我会当成平台战争信号，不会当成 agent 技术突破。Microsoft 在做的事很朴素：把 Teams 变成企业 agent 的默认收件箱。谁先占住消息入口，谁就更接近后面的身份、数据和治理入口。至于“同一套业务逻辑跑 Slack 和 Teams”这件事，我建议团队先把共享层限定在 agent orchestration、tool calling 和 observability，别一上来就幻想 UI、权限和对话状态也能完全统一。那样后面返工更贵。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

22:05

51d ago

FEATUREDX · @dotey（宝玉）· x-apiZH22:05 · 04·22

陈天桥借Manus谈跨境AI公司：一次性搬家不是真解决方案

陈天桥发推文，拿Manus从北京搬到新加坡的事，聊在监管、地缘政治和公众审视都在快速变化的时代，跨多个司法管辖区建一家AI公司到底需要什么。他的核心判断：任何一次性的转移都不是真正的解决方案。他认为真正重要的是持续调整组织结构、边界和责任，让合规内置于设计里，而不是靠架构腾挪“洗干净”自己。他用自己的公司举例——MiroMind总部在硅谷红木城，团队8...

#Chen Tianqiao#Manus#MiroMind#Commentary

精选理由

这是一条行业评论，有具体事件（Manus 迁址）和人物（陈天桥），切入点是跨境 AI 公司治理这个实操问题。H 和 R 都成立：话题有钩子，判断也打到痛点上。但 K 弱，因为正文没给出合规步骤、组织设计或运营数据，只有论点。

一句话点评

陈天桥借 Manus 的事发推，讨论跨司法管辖区建 AI 公司要面对什么。正文没披露，只有标题，信息量很薄。

锐评

这条推文本身不是产品发布或技术突破，更像一个老江湖的行业观察。陈天桥拿 Manus 当引子，核心是想说：在监管、地缘政治和公众情绪都快速变化的今天，跨多个司法管辖区建一家 AI 公司，已经不是单纯的技术或商业问题。标题点出了三个变量——监管、地缘、公众审视，但没有展开具体案例或数据。目前能看到的只有推文标题，正文内容缺失。我们不知道陈天桥具体提到了哪些司法管辖区的冲突，也不知道他给了什么建议或判断。Manus 本身的情况也没在现有信息里交代。对从业者来说，这个话题确实踩中了痛点，但这条推文目前只能当一个引子看。如果后续有全文或他本人的详细阐述，才值得认真拆解。现在先别急着下结论，信息缺口太大。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:46

51d ago

FEATURED彭博科技· rssEN21:46 · 04·22

比特币矿商 Core Scientific 靠发 AI 垃圾债融了 33 亿美元

Core Scientific 通过发行高收益债券（也就是垃圾债）一口气拿到 33 亿美元，钱要用来建 AI 基础设施。正文没披露票面利率、期限和具体买家，所以这笔融资的实际资金成本到底划不划算还不好说。能确定的是，一家原本挖比特币的公司现在靠 AI 概念在债市圈钱，说明市场对 AI 算力基建的胃口很大，但风险也不小——毕竟垃圾债的利息压力摆在那，后续...

#Core Scientific#Bloomberg#Funding#Commentary

精选理由

我会先打个折：正文只说了融资规模和工具类型，票息、期限、认购方、具体项目全都没写，所以别急着下结论。标题里的“AI”更像资本开支的叙事包装，不等于已经锁定了算力交付。真正值得盯的是这笔债的成本和公司现金流能不能匹配上，这点目前信息缺口很大。

一句话点评

Core Scientific 靠发垃圾债融了 33 亿美元，赌的是 AI 公司对算力的需求会持续爆表。

锐评

这条消息的核心是：一家比特币矿企转型做 AI 算力托管，通过发行高风险债券（垃圾债）一次性拿到了 33 亿美元。这个数字很大，说明市场现在愿意为 AI 基础设施砸钱，哪怕借钱的主体信用评级不高。不过，正文因为 Bloomberg 的付费墙限制，没披露这笔债券的具体利率、期限和认购方。33 亿是总额，实际到手多少、资金分几批到账、有没有对赌条款，这些关键信息都看不到。所以“融了 33 亿”这个判断得先打个折，它更像一个融资框架，而不是已经落袋的现金。还缺什么：这笔钱具体用来建多少兆瓦的算力中心，客户是哪些 AI 公司，以及如果 AI 算力需求降温，Core Scientific 拿什么还债。这些没看到之前，别急着把它当成 AI 基建的胜利。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:38

51d ago

X · @dotey（宝玉）· x-apiZH21:38 · 04·22

GPT Image 2 提示词模板：一张图融合两个时代

这个帖子分享了一个 GPT Image 2 的提示词模板，用来生成左右分屏、无缝融合两个时代的照片。默认时间跨度约100年，示例是纽约时代广场，左边1920年代，右边今天，比例4:3。模板里把场景、时代A、时代B设成了变量，可以复用。核心要求是中间不能有硬分割线，两个时代的人、建筑、道具要自然互动，比如旧时代的人惊讶地看着现代人的手机。帖子没披露模型规...

#Multimodal#Tools#Commentary

精选理由

HKR-H和HKR-K通过：百年分屏对比有钩子，模板给出了可复用的提示词结构。HKR-R不通过：没有工作流、成本、安全或模型边界含义；有用的提示词技巧，但不是有意义的行业更新。

一句话点评

GPT Image 2 的提示词被扒出来了，但正文没给任何细节，只有标题。目前只能确认有人在逆向或分享生成图片的 prompt，具体效果、成本、是否官方都没提。如果是社区玩法，参考价值有限；如果是官方泄露，那才值得跟进。先别急着套用，等更多验证。

锐评

这条帖子放出 1 个 GPT Image 2 模板，核心不是审美词，而是它把同一场景的跨时代生成拆成了 4 组可控变量：场景、时代 A、时代 B、中心融合机制。这个拆法很实用，因为多数“复古对比图”提示词只会堆形容词，最后得到的是两张并排海报，不是一个能批量复用的生成结构。我对这类模板一向有个判断：只要 prompt 开始显式约束服饰、道具、建筑材料、人物动作，图像模型就从“出一张好看的图”转向“执行一个镜头设计”。这件事比帖子里的 cinematic、8k、photorealistic 这些词重要得多。后者基本已经成了 2025 年后图像社区的默认噪声词，很多模型加不加都差不多；前者才决定你能不能稳定复现“1920 年代纽约”和“今天的纽约”同时出现，而且彼此有互动。这里最聪明的一笔，是中心区域不许硬切，还要求跨时代人物互看、穿行、受惊。这会逼模型去做关系建模，不只是做左右两块素材拼接。我跟你说，这种模板的价值更像是一个小型 scene graph，只是用自然语言写出来了。过去一年里，Midjourney、Flux 系和 OpenAI 图像模型最明显的进步，不只是清晰度，而是对多主体、多属性、空间过渡的服从度高了一截。早一代模型看到“左边 1920s、右边 present day、中心自然融合”，常见结果是中心直接糊掉，或者把 LED 屏和黄包车乱炖。现在能不能做得像样，关键就在这种变量拆解有没有足够细。这个模板把建筑、材料、载具、手持物、发型配饰都点出来，已经接近 production prompt 的写法了。但我对帖子叙事也有保留。正文没披露模型版本细节、价格、生成张数、失败率，也没给 seed、负面约束、迭代次数。没有这些信息，你很难判断这是“模板本身强”，还是“作者挑中了 1 张最好看的结果”。图像社区这类分享最常见的问题，就是把筛选后的单张样本包装成稳定能力。我自己没看到批量测试，所以不会把它直接当成可靠工作流。要验证很简单：把 Scene 从 Times Square 换成上海外滩、东京涩谷、柏林墙旧址，再把时代差从 100 年改成 30 年或 300 年，看中心融合是否还稳。过不了这个测试，它就只是一个适合社媒传播的 prompt，不是可迁移的方法。还有一点我不太买账：historically accurate 这种要求写进 prompt，不等于模型真的有历史准确性。训练语料里最容易学到的是大众刻板印象，不是严肃史实。1920 年代时报广场该出现什么招牌、车辆比例、街面密度，模型未必知道，很多时候只是在生成“大家以为的 1920s 纽约”。这一点其实和视频生成里“documentary style”很像，风格能到位，史实常常飘。做内容创作没问题，做教育或品牌项目就得有人审图。所以这条我会把它看成一个 prompt engineering 小样板，不是模型能力证明。它说明的不是 GPT Image 2 突然会“穿越叙事”了，而是好用的图像提示词开始从形容词堆砌，转向结构化约束。这个方向我认可。标题给了模板，正文没给稳定性证据；先别把一张好图误判成一个成熟能力。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

21:29

51d ago

X · @dotey（宝玉）· x-apiZH21:29 · 04·22

一个寓言讲透 Agent Harness：模型是脑子，外面那套身体才是关键

这篇用寓言讲 Agent Harness 的文章很直观。故事里齐国和楚国都有同一个聪明先生（LLM），但齐国只凿洞喊话，楚国却给先生配了文吏（感知层）、执行队（行动层）、校验官（容错层）和记录官（记忆层）。结果楚国先生能解决实际问题，齐国先生却频频翻车。核心判断：模型能力是地板，Harness 质量才是天花板。同一个模型，套上不同的 Harness，表...

#Agent#Tools#Memory#Shen Kuo

精选理由

HKR-H 靠寓言角度能吸引点击，但 HKR-K 只是把 Harness 分层复述了一遍，没有数字、可复现的设置或一手测试。硬性排除规则“零来源”生效，所以重要性上限卡在 40 以下，层级定为 excluded。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

21:00

51d ago

FEATURED彭博科技· rssEN21:00 · 04·22

AI生成的儿童性虐待图像激增，调查人员筛不过来

执法部门现在得从海量AI生成的儿童性虐待图像里，找出真正有危险的儿童。问题不是模型能不能生成，而是怎么在假图里筛出真线索。正文没披露具体数量、用了哪些模型、发生在哪些地区，也没说调查流程怎么改。核心看点是：证据筛选和优先级排序怎么做，而不是模型能力本身。

#Safety#Vision#Bloomberg#Incident

精选理由

HKR-H和HKR-R通过：故事把AI生成的剥削图像数量与执法能力对立起来，是强烈的安全和治理痛点。HKR-K不通过：现有文本没有给出数量、地区、模型名称或分流流程，所以留在all层级。

一句话点评

AI 让制作儿童性虐待材料（CSAM）的门槛降到几乎为零，但执法部门的工具和人力完全跟不上。

锐评

这条新闻来自彭博，正文片段缺失，只能从标题和已知背景做判断。核心事实是：生成式 AI 正在被用来大量制作新的儿童性虐待材料，甚至能把普通照片“裸体化”，这让本就超负荷的执法系统更难分辨受害者和真实案件。标题里“emboldened”这个词很重，说明犯罪者不再只是传播旧材料，而是用 AI 主动生产，这直接改变了犯罪形态。目前缺的关键信息是：AI 生成的材料在案件中的占比到底有多大，有没有具体数字；执法部门用了什么技术来对抗，效果如何；以及平台方的检测和删除机制是否也在升级。没有这些，就只能说趋势严峻，但没法评估严重程度。对从业者来说，这提醒了一个残酷的现实：生成模型的滥用成本极低，而防御和溯源的成本极高。在讨论模型能力时，安全对齐和内容审核的投入不是附加项，是必须项。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:00

51d ago

FEATURED彭博科技· rssEN21:00 · 04·22

地产大佬警告：数据中心债务压顶，私募甩卖潮要来了

Goodman Group CEO Greg Goodman 说，私募支持的数据中心公司债务快扛不住了，接下来会有一波全球并购和资产甩卖。正文没披露具体交易规模、公司名字和债务数字，但核心信号是融资压力在加剧，不光是需求端的问题。

#Goodman Group#Greg Goodman#Commentary

精选理由

H 和 R 都成立：H 靠反转叙事抓住注意力——数据中心从'抢着建'变成'急着卖'；R 击中 AI 基建的资本结构痛点，私募杠杆高、利率敏感，一旦债务到期或再融资困难，资产抛售会传导到算力定价和项目回报预期。K 不通过：RSS 摘要只给了 Goodman 的警告，没有债务数据、公司名单或交易规模，信息密度不够上 featured，留在 all 层合理。

一句话点评

彭博这篇正文被付费墙挡了，只看到标题，具体是哪位地产大佬、哪家数据中心公司、债务规模多大，正文都没披露。

锐评

这条新闻目前只有标题能看，正文因为 Bloomberg 的付费墙直接返回了 403，等于信息基本为零。标题说一位地产亿万富翁警告数据中心可能因债务膨胀而被抛售，但关键信息全缺：谁在警告、哪家公司、债务到底多高、抛售是已经发生还是只是预测，这些都不知道。对 AI 从业者来说，数据中心是算力的物理底座，如果真出现大规模资产甩卖，可能意味着上游供给过剩或者融资环境收紧，会间接影响算力成本和供应稳定性。但就目前这点信息，完全没法判断是孤立个案还是行业信号。建议等有全文或交叉信源再下结论，现在这条只能当个标题党先放着。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:55

51d ago

彭博科技· rssEN20:55 · 04·22

IBM软件销售符合预期但AI威胁投资者仍担忧

IBM 最新季度软件销售额符合预期，但投资者更担心 AI 对业务的冲击。Jefferies 分析师 Brent Thill 在 Bloomberg 上表态，认为 AI 才是 IBM 当前的核心议题。正文没披露具体营收数字、增长率或 AI 相关指标，所以没法判断 IBM 的 AI 业务到底跑得怎么样。真正该盯的是 IBM 能不能拿出可量化的 AI 落地成...

#IBM#Jefferies#Brent Thill#Commentary

精选理由

彭博给了来源权威性，但本质上还是一段很薄的电视评论。正文没披露 IBM 任何 AI 营收、订单、增速或产品细节；HKR-R 勉强靠“老牌厂商的 AI 压力”过关，H 和 K 都不达标，所以留在低分段的 all 档。

一句话点评

IBM软件业务收入符合预期，但市场不买账，因为投资者担心AI会吃掉传统软件份额。正文被Bloomberg paywall挡住，具体数字和AI业务增速没披露。Jefferies分析师说AI是IBM面临的大问题，但没展开。关键缺口：AI咨询和软件收入占比、客户是否在砍传统预算。

锐评

Jefferies分析师Brent Thill在Bloomberg上表态，AI才是IBM当前的核心议题。但正文被Bloomberg paywall挡住，没披露IBM软件营收的具体数字、增长率或AI相关指标，所以没法判断IBM的AI业务到底跑得怎么样。真正该盯的是IBM能不能拿出可量化的AI落地成果——比如咨询业务里AI项目的占比、Watsonx的客户数或收入贡献。分析师喊话只是信号，没有财报数字支撑，这点先别太激动。信息缺口：正文缺失，无法确认IBM AI业务的实际表现和增速。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

20:29

51d ago

The Verge · AI· rssEN20:29 · 04·22

沃伦警告：AI行业崩盘可能引发下一场金融危机

参议员伊丽莎白·沃伦在华盛顿一场活动上说，AI行业如果出问题，可能触发下一场金融危机，她认为现在的局面和2008年金融危机前很像——企业大量借钱、疯狂烧钱。她呼吁国会赶紧行动。不过正文没披露具体是哪几家公司、欠了多少债，也没提任何草案内容。

#Elizabeth Warren#Vanderbilt Policy Accelerator#Congress#Policy

精选理由

HKR-H和HKR-R通过，因为Warren把AI崩盘和2008年金融危机挂钩，从业者会关心泡沫风险和监管走向。HKR-K不通过：正文没有给出任何债务数字、点名公司或政策文本，信息缺口太大，按硬排除规则6，分数上限卡在40以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:19

51d ago

FEATUREDX · @claudeai· x-apiEN20:19 · 04·22

Claude Cowork 现在能直接在对话里生成可交互的图表了

Anthropic 给 Claude Cowork 加上了交互式图表和示意图功能，目前是 beta 版，所有付费套餐都能用。正文只说了这两点，没提支持哪些图表格式、怎么编辑、什么时候全量放开，也没说权限上有没有限制。

#Tools#Anthropic#Claude#Product update

精选理由

这条放在 featured 低段，靠的是 Anthropic 的信源分量和 Claude 用户群匹配度。钩子够具体——交互式图表直接进协作界面，不是画饼；知识增量也有，beta 覆盖所有付费方案这点是实打实的新信息。但我会先打个折：正文没交代怎么生成、支持哪些图表格式、能不能在协作流里直接改，这些缺口让讨论深度上不去，所以 R 分弱。整体判断是值得从业者扫一眼，但暂时没法展开聊。

一句话点评

Claude Cowork 现在能直接生成可交互图表了，但官方只发了标题，没给细节。

锐评

Anthropic 给 Claude 的协作模式 Cowork 加了一个新能力：生成可交互的图表和示意图。这不再是以前那种静态截图，而是你可以在对话里直接拖拽、缩放、调整参数的那种动态图表。对做数据分析、写报告的人来说，省掉了把数据导出再丢进其他工具画图的步骤。但这次的信息量非常有限。官方只在 X 上发了个标题，没有演示视频，没有说明支持哪些图表类型，也没提交互能做到什么程度——是只能缩放，还是能实时改数据源重新渲染？这些都没说。另外，这个功能是只在 Cowork 模式下有，还是普通对话也能用，正文也没披露。我会先打个折：功能方向是对的，但实际体验要看它对复杂数据和中文图表的支持怎么样。等有上手案例再判断值不值得切过去用。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

20:04

51d ago

彭博科技· rssEN20:04 · 04·22

德州仪器盘后大涨：数据中心需求拉动模拟芯片回暖

德州仪器发布强劲业绩预告，盘后股价大涨。核心驱动力是数据中心和工业设备支出回升，带动模拟芯片和嵌入式芯片需求。正文被 paywall 挡住，没披露具体涨幅、营收区间和产品线细节。关键信号是：AI 数据中心资本开支是否持续溢出到模拟芯片这类传统半导体品类。

#Texas Instruments#Commentary

精选理由

这是半导体财报新闻，不是直接的 AI 模型、产品或平台进展。HKR-H/K/R 全不达标：文章确认了需求与上调指引，但省略了关键数字、产品线以及任何 AI 专属的收入敞口，所以评分 36 且排除。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

19:33

51d ago

FEATUREDLatent Space· rssEN19:33 · 04·22

Shopify 的 AI 用量在 2026 年爆发，CTO 聊了无限 Opus-4.6 预算和内部工具 Tangle、Tangent、SimGym

Shopify CTO Mikhail Parakhin 在这期播客里详细拆解了公司怎么把 AI 用进骨子里。他说 2025 年 12 月模型质量有个明显跃升，之后内部 AI 工具的使用量就炸了，而且命令行工具的增长比传统 IDE 插件还猛。现在写代码已经不是瓶颈，瓶颈变成了代码审查、CI/CD 流程和部署稳定性，所以他们自己搞了一套 AI 代码审查系...

#Agent#Code#Tools#Shopify

精选理由

这篇是 Shopify CTO 的深度访谈，信息密度高，没有公关腔。我会先打个折：正文没披露 2026 年使用激增的具体数据，所以不能当硬证据用。但真正值得盯的是他们内部把 AI 编程的瓶颈从生成代码推到了评审和部署环节，这个判断对从业者比一个孤立的增长数字更有用。三个内部项目名字和定位都给了，不是空泛的趋势发言。整体属于有料、有判断、缺一点量化验证的优质一手信源，放在 featured 没问题。

一句话点评

Shopify CTO 说去年 12 月模型质量跳了一级，之后内部 AI 工具用量就炸了，但瓶颈已从写代码变成代码审查和部署稳定性。

锐评

Shopify CTO 这次聊得挺实在，核心判断是：AI 写代码已经不是瓶颈，真正的卡点变成了代码审查、CI/CD 和部署别崩。他们内部数据也印证了这点——去年 12 月模型质量有个明显跃升后，内部 AI 工具使用量暴涨，而且命令行工具的增长比 IDE 插件还猛。这说明工程师在用脚投票，更愿意把 AI 嵌进自己的流程里，而不是在编辑器里点点点。他们搞了三个内部项目来解决新瓶颈：Tangle 做可复现的机器学习实验，Tangent 搞自动调优搜索和主题，SimGym 用真实历史数据模拟客户行为来做 A/B 测试和优化建议。Mikhail 特别提到，客户模拟这玩意儿很贵，得多模态模型、浏览器集群、蒸馏一起上，但 Shopify 手里有真实交易数据，别人很难抄。不过整篇没给具体用量数字，只说“爆炸式增长”，也没披露 Opus-4.6 无限 token 预算实际花了多少钱、bug 率到底升了多少。这些缺口让判断得打个折——方向对，但省钱省到哪一步还不清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:59

51d ago

Dwarkesh Patel 访谈· atomEN18:59 · 04·22

黄仁勋解释为什么英伟达最初没投Anthropic

黄仁勋在视频里聊了英伟达当初为什么没投Anthropic。但正文没披露具体时间、决策依据和投资金额，所以只能知道结果，不知道当时是嫌贵、嫌技术路线不确定，还是其他原因。

#Jensen Huang#Nvidia#Anthropic#Commentary

精选理由

H 和 R 通过：黄仁勋、Nvidia、Anthropic 三个名字放一起就是 hook。K 不通过：正文为空，所以分数卡在低价值区间的上沿。

一句话点评

黄仁勋聊英伟达当初没投Anthropic，但正文没披露具体原因和金额。

锐评

黄仁勋在视频里承认英伟达第一次没投Anthropic，但正文是空的，只靠标题和摘要撑场。所以能确认的事实就一个：没投。至于为什么——嫌估值高、技术路线不确定、还是内部决策流程问题——全没讲。信息缺口很大，没法判断这是战略失误还是理性放弃。对关注AI投资逻辑的人来说，这条的价值在于黄仁勋本人开口聊了，但内容密度极低，等于一个预告片。想看细节的得等完整访谈或更靠谱的信源。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:48

51d ago

FEATUREDFT · 科技· rssEN18:48 · 04·22

Builder.ai 创始人被印度当局指控接收转移资金

印度当局在一份刑事指控中点了 Builder.ai 创始人 Sachin Dev Duggal 的名，说他接收了一家已倒闭电子集团转移出来的资金。目前这还只是一份指控，没升级成正式起诉，金额、时间线和资金怎么转的正文都没披露。

#Builder.ai#Sachin Dev Duggal#Incident#Policy

精选理由

H 和 R 都成立：创始人被刑事投诉点名，是强 scandal 信号，也直击 AI 公司治理和尽调痛点。K 不成立，因为正文没给金额、时间线、资金路径，信息不足以支撑 featured 级别。

一句话点评

FT 原文被付费墙挡住，正文没披露指控的具体证据和资金路径，标题里的“被指控”目前只能当个信号看。

锐评

这条新闻本身信息量很薄，因为 FT 的文章被 403 挡在付费墙后面，我们只拿到了标题。标题说 Builder.ai 的创始人 Sachin Dev Duggal 被指控接收了被挪走的资金，但指控方是谁、资金从哪来、金额多大、发生在什么时间点，正文全都没披露。Builder.ai 是一家主打“用 AI 搭 App”的公司，之前拿过软银等机构的钱，估值一度很高。如果指控属实，对这家公司的治理和资金管理会是很大的问号。但现在能看到的只有一句话标题，既没有调查进展，也没有当事人的回应，所以这条消息只能当作一个需要持续跟进的线索。我会先打个折：在更多细节出来之前，别急着下判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:46

51d ago

r/LocalLLaMA· rssEN18:46 · 04·22

Qwen3 TTS 本地实时跑，表现力在开源里算第一梯队

一位 Reddit 用户发帖说 Qwen3 TTS 能在本地实时运行，是他试过表现力最强的开源 TTS 模型之一。帖子正文被 Reddit 屏蔽（403），所以硬件配置、延迟数据、部署步骤和采样参数都没披露。目前能确认的只有用户的主观评价，缺少可复现的细节。

#Audio#Qwen#Reddit#Commentary

精选理由

标题确实有钩子——本地实时+高表现力的开源TTS，但正文被墙，延迟、硬件、部署方式和音频证据全缺。HKR-H 通过，HKR-K/R 不通过；按硬排除-零信源/缺证据处理，分数压在40以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

18:04

51d ago

● P1Hacker News 首页· rssEN18:04 · 04·22

OpenAI 推出 Workspace agents 在企业工具间执行自动化工作流

OpenAI 给 ChatGPT Business、Enterprise、Edu 和 Teachers 套餐加了一个叫 Workspace agents 的功能。你可以把它理解成在聊天工具里建一个能自动跑流程的助手：建一次就能共享给全团队，可以定时执行重复任务（比如整理销售线索、生成报表），也能直接操作 Slack、Google Drive、微软系应用...

#Agent#Tools#Safety#OpenAI

精选理由

OpenAI 放出了一个实打实的企业代理预览，HKR 三项全中：钩子是跨应用工作流自动化，正文给了治理控制的具体名目，又切中了企业采纳的核心顾虑。没给 P1 是因为价格、模型规格、上线时间全都没说，实际效果也还没验证，所以先打个折。

一句话点评

OpenAI 把能自己跑流程的 AI 助手塞进了企业版 ChatGPT，但别急着叫它“数字员工”，目前只是研究预览版。

锐评

OpenAI 这次发布的 Workspace agents，说白了就是让企业用户能在 ChatGPT 里搭一些能跨工具、按时间表自动干活的 AI 助手。比如自动筛选销售线索、汇总用户反馈、生成报表这些重复性工作。它支持连接 Slack、Google Drive、微软系应用等，管理员可以设权限和人工审批节点，防止 AI 乱来。但要注意，官方公告里全是功能描述和示意图，没给任何实际性能数据。我们不知道这些 agent 的任务完成率是多少，会不会在长流程里跑偏，也没看到延迟或成本数字。它目前只在企业版、教育版等付费计划里以“研究预览”形式开放，说明还是个半成品，稳定性没经过大规模验证。对企业来说，如果真能稳定运行，确实能省掉不少协调和等待的时间。但正文没披露错误处理机制，也没说 agent 在遇到模糊指令时会怎么决策。在把核心业务交给它之前，最好先拿非关键流程试试水。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:01

51d ago

FEATUREDHacker News 首页· rssEN18:01 · 04·22

Flipbook：一个完全由图片模型实时生成的无限视觉浏览器

Flipbook 把整个网页变成一张张像素图片，你点击任何地方，它都会生成一张更深一层的新图片，没有 HTML、没有代码、没有文字图层。所有文字都是图片模型直接画出来的，所以偶尔会画歪或写错，这点随着模型变强会改善。内容来自智能体联网搜索和模型自己的知识，准确度大概跟用 ChatGPT、Gemini 这类对话产品查到的差不多。团队说他们做这个是因为现在...

#Agent#Multimodal#Tools#Flipbook

精选理由

我会先打个折：正文没披露延迟、成本、模型栈和实际用量，所以分数停在 76。但 Flipbook 这个实验值得盯，因为它把网站变成了一串实时生成的像素图，点击哪里就继续画哪里，连文字都是画出来的，不是叠上去的。信息来自 agentic 网页搜索加模型知识，交互机制比普通生成式 UI 激进得多。视频流功能目前还是高耗资源的实验开关，这点先别太激动。

一句话点评

一个把整个网页变成实时生成图片的实验项目，连文字都是模型画出来的像素，不是代码。

锐评

Flipbook 做了一个很极端的实验：你看到的每一个“页面”都是一张由模型实时生成的图片，没有 HTML、没有代码，连文字都是画出来的像素。点击图片里的任何东西，它会再生成一张新图，像一本无限翻页的视觉百科。信息来自智能体联网搜索和模型自己的知识，准确度大概跟 ChatGPT 这类对话模型差不多。项目方说，他们想摆脱“文字加色块”的界面，让计算机直接用最有效的方式——可能是一个词、一张插画或一张照片——把信息传达给你。还有个实验性的“直播视频流”功能，能把静态图片串成连续视频，但目前行为不太稳定，而且非常吃资源，需要手动开启。正文没披露模型的具体架构、推理延迟和单次生成成本。这点先别太激动：它更像一个概念验证，离替代现有网页和应用还差得远。项目方自己也说，未来要等模型更准更快，才能把订机票这类实际操作也塞进去。现在能玩，但别当生产力工具。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:51

51d ago

FEATUREDHacker News 首页· rssEN17:51 · 04·22

代码模型修 bug 时总爱把整个函数重写一遍

作者用程序给 BigCodeBench 的 400 道题植入单点 bug，发现很多模型在修 bug 时会过度编辑——明明改一行就能修好，它却把半个函数重写了，甚至加一堆没必要的检查。文章用 token 级编辑距离来量化这种“改多了”的程度，并尝试通过训练让模型学会只做最小改动。正文没披露最终测试结果和模型排名，也没说训练后到底省了多少编辑量。

#Code#Benchmarking#GitHub#Benchmark

精选理由

这篇文章的切入点很巧，用 400 道题的 bug 注入实验把“模型修 bug 时过度改写”这个模糊感受变成了可量化的编辑距离。对 AI 编程工具的用户来说，多改一行正确代码就是多一份审查成本和上线风险，所以相关性直接拉满。不过正文截取没给出具体结果、模型排名和效果幅度，我会先打个折——知道问题存在，但不知道严重到什么程度、哪些模型更爱乱改，这点先别太激动。

一句话点评

代码模型修个小 bug 却把整个函数重写一遍，diff 大到没法审，这篇文章用实验把这事量化了。

锐评

这篇文章指出了一个用 AI 写代码时很常见的毛病：模型修 bug 时总爱顺手把没坏的地方也重写一遍，作者管这叫“过度编辑”。他拿 BigCodeBench 的 400 道题，用程序故意植入单一错误（比如把 < 改成 <=），这样正确答案就是只改回那一个地方，多改的任何东西都算过度。评测时用 Python 分词后的编辑距离来算模型到底多改了多少，比看字符数更合理。实验发现，即使明确要求“只做最小改动”，GPT-5.4 这类模型还是会输出大段重写，diff 巨大但测试照样能过。这说明只看 Pass@1 不够，因为过度编辑对测试是隐形的，却会拖慢代码审查、增加理解成本。作者还试了用强化学习训练模型做最小编辑，初步看能缓解，但泛化效果和是否必须全参数微调还没完全验证。文章没给出不同模型之间的横向对比数据，也没说明训练样本量和计算开销。如果你日常用 AI 辅助改代码，这篇值得一读，但别指望它现在就给出一个开箱即用的解决方案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:38

51d ago

FEATUREDHacker News 首页· rssEN17:38 · 04·22

Zed 编辑器推出并行 Agent 功能，一个窗口里能同时跑多个 AI 助手

Zed 在 4 月 22 日更新了并行 Agent 功能，核心是在一个窗口里同时跑多个 AI 助手干活。新增的线程侧边栏可以给每个线程单独设置能访问哪些文件夹和代码仓库，还能随时停止、归档或新建线程。默认界面布局也改了，线程和 Agent 面板挪到了左边，项目文件树挪到右边，老用户需要手动切换才会生效。Zed 团队说这个设计是为了让开发者既能用 AI ...

#Agent#Tools#Code#Zed

精选理由

Zed 官方产品更新，HKR 三项都踩实了：并行 agent 加线程级权限隔离。分数停在 76 是因为正文没给性能对比、价格影响、用户量或外部验证，目前还只是单个工具自己的迭代，我会先打个折。

一句话点评

Zed 编辑器把多智能体并行跑进了同一个窗口，你可以给每个线程指定不同的模型和能碰的文件夹，但正文没提多线程之间能不能直接通信或协作。

锐评

Zed 这次更新的核心是把“让模型进业务流程干活”这件事做得更顺手了。新加的线程侧边栏让你能同时跑多个 AI 线程，每个线程可以指定不同的模型，还能控制它只能访问特定文件夹或仓库——这对实际项目来说很实用，避免了 AI 乱翻代码。界面布局也改了，线程面板默认放左边，官方说这是为了让你在多个 AI 任务间切换时更顺手，老用户需要手动切换，可以先试试再决定要不要换回去。文章反复强调他们追求“人机结合的工程手艺”，不是让 AI 全自动写代码，而是人保持对代码的直接掌控。他们内部测试时塞了几百个线程进去跑，打磨了不少细节，但没给出具体的性能数据，比如多线程并发时的资源占用或响应延迟。另外，虽然叫“并行智能体”，正文没说明这些线程之间能不能互相调用或共享上下文，这点对复杂工作流挺关键的，目前看更像是独立任务的并行管理，而不是真正的多智能体协作。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:30

51d ago

FEATUREDTechCrunch AI· rssEN17:30 · 04·22

Google 把 Chrome 变成企业 AI 同事：浏览器里直接干活

Google 在 Cloud Next 上宣布给企业版 Chrome 加一个叫“auto browse”的功能，让 Gemini 看懂你当前浏览器标签页里的内容，然后帮你填 CRM 数据、比价、约会议、查候选人资料。说白了就是把 AI 塞进浏览器里当助手，不用再单独开一个 AI 聊天窗口。正文没披露什么时候上线、怎么收费、覆盖多少用户，也没说用户怎么跟...

#Agent#Tools#Google#Gemini

精选理由

把 Gemini auto browse 塞进 Chrome Enterprise，故事拿到了 HKR-H 和 HKR-R：浏览器成了自动化表面，不只是聊天壳。分数压在 71 是因为 RSS 摘要没给出上线时间、推广范围、定价和交互细节，HKR-K 偏弱。

一句话点评

Google 把 Gemini 塞进企业版 Chrome，让它能看懂你打开的标签页并替你干活，但别急着叫它同事，正文没提错误率和权限边界。

锐评

Google 在 Cloud Next 上宣布，要给企业版 Chrome 加上“自动浏览”功能。说白了，就是让 Gemini 模型直接读取你当前打开的浏览器标签页内容，然后替你完成填表、比价、总结候选人作品集这类网页上的重复工作。这相当于把浏览器变成了一个能看懂屏幕并动手操作的 AI 助手，而不是只会在聊天框里给建议。目前的信息都来自一篇 TechCrunch 的报道，正文只举了几个应用场景，比如把 Google 文档里的内容填进 CRM 系统、跨标签页比价。但关键的技术细节和限制全都没提：它怎么区分不同网页里的敏感信息？如果 AI 填错了客户数据，责任算谁的？IT 管理员能控制它访问哪些网站吗？这些企业采购时最关心的问题，文章一个字都没涉及。另外，报道也没给出任何实际测试数据或早期用户的反馈。功能听起来实用，但在没有看到错误率、延迟和权限管理方案之前，我会先打个折。毕竟让 AI 直接操作浏览器，出错的代价比聊天答错一句话高得多。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:13

51d ago

Hacker News 首页· rssEN17:13 · 04·22

监视定价：商家用你的个人数据给你报不同的价

Patrick K. Lin 在 LPE 项目博客发文，梳理了从 2011 年到 2025 年商家利用个人信息对同一商品向不同顾客报不同价的做法。案例包括 Ticketmaster 动态定价、Uber 高峰加价、Orbitz 给 Mac 用户推更贵的酒店、Instacart 上同款商品价差最高达 23%。2025 年 5 月纽约通过了披露法，要求算法定...

#Patrick K. Lin#New York#Instacart#Policy

精选理由

H和K都过关：'监控式定价'概念抓人，正文给了Instacart 23%价差和纽约披露法这些实锤。R不过关：对AI从业者来说这是政策评论，跟模型、成本、AI竞争关系不大，所以分数压在40以下，直接排除。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

17:10

51d ago

Hacker News 首页· rssEN17:10 · 04·22

Anker 自研芯片 Thus，先塞进耳机再铺到全线产品

Anker 宣布自研了一颗叫 Thus 的芯片，专门给自家产品加 AI 功能。首发产品是耳机，后续会铺到充电头、音箱等全系。正文没披露这颗芯片用多少纳米工艺、算力多少、跑什么模型，也没说什么时候上市。目前能确认的就一个产品路线：耳机先上。这点先别太激动，自研芯片成本高、周期长，Anker 之前没做过芯片，落地效果和实际体验都还是未知数。

#Inference-opt#Audio#Anker#John Higgins

精选理由

HKR-H 靠的是意外角度：Anker 说自己造了芯片要铺到全线产品。HKR-K 和 HKR-R 不通过，因为正文只确认了耳机首发，制程、算力、模型形态、落地节奏都没披露，信息量太低，从业者没什么可讨论的。

一句话点评

Anker 自研了 AI 芯片 Thus，先用在耳机上，再铺到全系产品。正文没披露算力、功耗或成本，只说“把 AI 带到所有产品”，目前看更像品牌叙事而非技术突破。短评：自研芯片是条长路，先看耳机端效果再激动。

锐评

Anker 只确认 Thus 芯片先上耳机，全文没给制程、算力、模型和量产时间。我的判断很直接：这更像一张供应链和产品定义权的门票，不是一次已经落地的 AI 能力发布。标题故意把叙事拉到“all its products”，正文能落地的条件只有一个：earbuds first。这个落差很关键。耳机是最适合先塞自研低功耗语音 / 音频推理芯片的品类，约束明确，任务也窄，常见就是 ANC、波束成形、关键词唤醒、离线翻译的一小段前处理，或者把一部分语音增强搬到端上。要把这条线扩到充电设备、家居、投影、安防，难度不是多做几颗芯片，而是每个品类的传感器、功耗预算、散热、BOM 和固件周期都不一样。正文没披露任何统一软件栈，我先不信“全部产品线”已经有可执行路线。我一直觉得，消费电子公司做自研芯片，先看的不是峰值算力，是能不能把成本、待机功耗和体验稳定性一起控住。Apple 的 H1、H2，Google 的 Tensor，Amazon 在 Alexa 设备上的边缘 AI，走的都不是“把模型做得多大”，而是把固定场景吃透。Anker 如果真想学这条路，最像的参照不是手机 SoC，而是 NXP、Qualcomm S3 这类低功耗音频 / IoT 路线，再往上接云端模型。问题在于，文章没说 Thus 是完整 SoC、独立 NPU，还是带一点 DSP / MCU 定制的封装方案。这个差别很大：前者说明 Anker 在长期下注，后者更像定制化集成。我对“自研”这个词也有点怀疑。消费硬件公司现在很喜欢把定制 IP、联合设计、参考设计改版都装进“our chip”里。不是说这样不算数，而是行业里“自研”跨度太大了：从 Apple 那种深度自控，到找现成架构做一层定制，媒体标题常常混在一起。正文没有披露代工、IP 来源、EDA、封装伙伴，也没讲首代芯片由谁主导定义。我还没查到更多材料，所以没法把 Thus 放进真正的芯片公司那一档。还有一个现实问题：耳机上的 AI 卖点，这一年已经很拥挤。Qualcomm 一直在推 S7 / S7 Pro Gen 1 一类平台，主打低功耗音频处理和混合 AI；苹果把很多体验包进系统级联动里；三星、Nothing、字节系硬件都在讲翻译、摘要、语音交互。Anker 的机会不在“我也有 AI 芯片”，而在它能不能把中端价位的大货 SKU 做出稳定差异。Anker 的强项一直是渠道、出货节奏、BOM 控制，不是模型研发。要是 Thus 只是把公版方案换成自家命名，护城河不会太厚；要是它能把 ANC、通话降噪、离线指令、续航四件事一起做出一档体验，那这颗芯片才算有存在感。所以这条新闻我先按“组织能力变化”看，不按“AI 产品突破”看。Anker 愿意为一个耳机优先的芯片项目买单，说明它不满足于只做品牌和组装整合，想往上拿一点 silicon control。这个方向没错，很多消费硬件公司最后都会走到这一步。问题是，正文没给任何能验证成色的数字：TOPS 没有，毫瓦级功耗没有，延迟没有，离线能力边界没有，量产节点也没有。没有这些，现阶段只能说 Anker 进场了，不能说它已经赢到下一阶段。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

17:09

51d ago

FEATUREDProduct Hunt · AI· rssEN17:09 · 04·22

Claude Code 上线 ultrareview：云端并行代码审查，细节全没披露

Claude Code 推出了 ultrareview，定位是云端代码审查，背后跑着一组并行 agent。正文只给了这一句话，没交代 agent 数量、支持哪些语言、审查标准是什么、怎么收费、能不能接入现有 CI。信息缺口很大，目前只能知道方向：把代码审查搬到云端，用多个 agent 同时跑。具体效果和成本都未知，先别太激动。

#Agent#Code#Tools#Product update

精选理由

Claude Code /ultrareview 的 HKR-H 和 HKR-R 成立：并行代理做代码审查是个强钩子，且直接关联开发者日常流程。HKR-K 不成立，因为 Product Hunt 摘要只披露了定位，代理数量、审查范围、价格、接入方式均未公开，所以这条只能标记为“hooked”，不能算“known”。

一句话点评

Product Hunt 页面被 Cloudflare 验证墙挡住了，正文没披露 /ultrareview 具体是什么功能，只能看到标题。

锐评

这条消息目前只有个标题“Claude Code /ultrareview”，来源是 Product Hunt，但页面被 Cloudflare 的防爬验证拦住了，正文内容完全没抓到。所以没法判断这到底是个新命令行功能、一个评审模式，还是社区搞的第三方工具。从命名习惯猜，/ultrareview 可能是在 Claude Code 里加了一条斜杠指令，用来做代码审查，比如自动读 diff、给修改建议、检查逻辑漏洞。但这些都是推测，官方文档和更新日志里暂时没看到对应条目。我会先打个折：标题看着像产品发布，实际上连功能描述、使用方式、适用场景都没披露。如果后续有截图或文档放出来，才能判断它是不是真能省掉一轮人工 review。现在只能当一条待验证的动态看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:58

51d ago

FEATUREDTechCrunch AI· rssEN16:58 · 04·22

Google 推出 Gemini Enterprise Agent Platform 企业 AI agent 平台

Google 在 Cloud Next 上发布了 Gemini Enterprise Agent Platform，用来搭建和管理 AI 智能体（让模型进业务流程干活）。跟 Amazon Bedrock AgentCore、Microsoft Foundry 对标。但有意思的是，Google 明确说这个平台主要面向 IT 和技术团队，不是给业务人员直接...

#Agent#Tools#Google#Gemini

精选理由

H 通过，因为 Google 把 agent 搭建平台先推给企业 IT 团队而非通用业务用户，这个 go-to-market 角度值得盯。K 偏弱，价格、集成、模型版本、上线时间、部署方式都没披露，所以只能算中等体量的产品新闻。R 通过，它确实戳中从业者关心的内部采购与落地分工问题。

一句话点评

Google 把企业 AI agent 搭建工具直接交给 IT 团队，业务人员反而被引导去用另一个 App，这个分工挺务实。

锐评

Google 这次发布的 Gemini Enterprise Agent Platform，定位很明确：给 IT 和技术团队用的 agent 搭建和管理平台，对标的是亚马逊 Bedrock AgentCore 和微软 Foundry。它没有试图让所有人都能无代码搓 agent，而是把业务人员分流到去年秋天推出的 Gemini Enterprise App 里，让他们用 IT 建好的 agent，或者自己搭一些日程安排、重复任务自动化之类的小工具。这个分工思路比较务实，毕竟现在 agent 在编程这类技术任务上跑得最远，企业里安全顾虑也还很大，让技术团队先把关是合理的。平台底层模型除了 Google 自家的 Gemini 大语言模型和 Nano Banana 2 图像生成器，还接入了 Anthropic 的 Claude，包括旗舰版 Opus、推理版 Sonnet 和低成本版 Haiku，连上周刚发的 Opus 4.7 也支持。这种多模型接入在 Google 自己的平台上出现，说明它至少在工具层面愿意给企业更多选择，而不是只推自家模型。不过文章没提定价、实际部署门槛和客户案例，也没说这个平台跟 Google 已有的 Vertex AI Agent Builder 是什么关系、会不会让用户更困惑。这些信息缺口让“大规模管理 agent”这句话暂时只能先打个折听。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:57

51d ago

X · @Yuchenj_UW· x-apiMULTI16:57 · 04·22

Anthropic 该花 100 亿美元找 SpaceX 买/租 GPU

华盛顿大学助理教授 Yuchenj 认为，Anthropic 算力短缺已经拖累了它的编程产品竞争。证据是：Claude Code 从 Pro 套餐里撤掉、API 限频更严、封杀第三方应用、对外沟通混乱。如果算力够，Anthropic 可能早就赢了 AI 编程战。正文没披露任何实际 GPU 交易、算力数字或 Anthropic 的回应。

#Code#Inference-opt#Anthropic#SpaceX

精选理由

HKR-H和HKR-R成立：100亿美元找SpaceX买GPU这个点子够劲爆，而且算力卡住Claude Code确实戳中行业神经。HKR-K不成立：帖子只有四个抱怨，没有库存、交易、财务或公司回应，属于硬排除的零信源内容。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:57

51d ago

FEATUREDThe Verge · AI· rssEN16:57 · 04·22

Anthropic 的漏洞挖掘模型 Mythos 进了多个联邦机构，唯独漏了美国网络安全局 CISA

Axios 的消息说，Anthropic 那个专门找漏洞的模型 Mythos Preview 已经在商务部、国安局（NSA）等几个联邦机构用上了，但负责全国网络防御的 CISA 反而没拿到访问权限。文章没解释为什么偏偏跳过 CISA，也没提模型的具体性能、收费方式和部署规模。目前特朗普政府正在和 Anthropic 谈更广泛的合作，但 CISA 在现政...

#Safety#Tools#Anthropic#CISA

精选理由

我会先打个折：正文只说了谁在用、谁没在用，模型本身长什么样、花多少钱一概没提。但这条消息的看点不在技术，而在安排——管网络安全的部门反而没拿到漏洞发现模型，这要么是流程卡壳，要么是有意绕开。对从业者来说，这比一个模型刷榜更值得留意，因为它直接关系到联邦 AI 采购的走向和权限分配。

一句话点评

Anthropic 把最厉害的模型 Mythos 给了美国能源部实验室，却漏掉了本该最先用上的网络安全局 CISA，这操作有点迷。

锐评

Anthropic 在推广自家最强模型 Mythos 时，把美国网络安全和基础设施安全局（CISA）给漏了。CISA 是负责国家网络防御的核心机构，按理说最需要这类工具来检测漏洞和威胁。但根据报道，Mythos 的早期使用权给了能源部的国家实验室，CISA 却没拿到。这事发生在特朗普政府持续削弱 CISA 的背景下，机构本身就在挣扎求生。报道没说明 Anthropic 是主动跳过还是流程疏忽，也没提 CISA 是否申请过。如果连最直接的防御部门都用不上，那所谓“国家安全优先”的发布策略就得打个问号。还缺的关键信息是：Anthropic 的客户筛选标准到底是什么，以及 CISA 有没有被其他同类模型补位。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:46

51d ago

FEATUREDTechCrunch AI· rssEN16:46 · 04·22

Google 要把 AI 概览塞进你的工作 Gmail 里了

Google 在 Cloud Next 大会上宣布，会把类似搜索结果的 AI 概览功能搬到企业版 Gmail 里。你可以用大白话提问，比如问项目进度、发票情况或差旅细节，AI 会直接跨多封邮件抓取信息，生成一段简短的总结，不用你一封封点开看。这个功能默认开启，前提是管理员已经打开了 Gemini for Workspace 和 Workspace In...

#RAG#Tools#Google#Gmail

精选理由

Google 要把 AI 自动摘要塞进企业版 Gmail，不是给单封邮件划重点，而是跨多封邮件直接生成总结。这点和普通邮件摘要不一样，更像是在收件箱里加了一层工作流收束。但正文没写什么时候上线、哪些套餐能用、背后模型是什么，所以我会先打个折。HKR 里 K 和 R 都过了，H 偏弱，整体放在 featured 低档就行。

一句话点评

Google 把搜索里的 AI 摘要搬进了企业版 Gmail，能跨邮件直接回答问题，但默认开启，管理员得手动关。

锐评

Google 在 Cloud Next 大会上宣布，把类似搜索结果的 AI Overviews 功能塞进了企业版 Gmail。简单说，就是你可以用大白话在邮箱里搜问题，比如“上次说的项目里程碑是什么”，AI 会直接跨多封邮件给你拼出一个答案，不用一封封点开看。这个功能默认开启，前提是公司管理员已经打开了 Gemini for Workspace 和 Workspace Intelligence 的权限。从演示看，它确实能省掉在邮件海里翻找的时间，尤其适合快速捞取发票、差旅、项目进度这类分散在对话里的信息。但文章没提两个关键点：一是 AI 摘要的准确率到底怎么样，会不会把不同项目的信息张冠李戴；二是隐私和权限控制，它跨邮件抓取时，会不会把本不该你看到的邮件内容也总结进去。这点先别太激动，等实际用起来再看翻车率。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

16:38

51d ago

FEATUREDThe Verge · AI· rssEN16:38 · 04·22

Google Meet 的 AI 笔记功能现在也能用在面对面会议上了

Google 把 Gemini 的会议纪要功能从线上视频扩展到了线下面对面开会。你只要在房间里用手机或平板打开 Meet，它就能直接录下现场对话并生成文字稿和摘要。之前这个功能只在安卓测试版里小范围试过，现在正式开放了。另外，就算你用的是 Zoom 或微软 Teams 开会，它也能帮你记笔记，不再只绑在 Meet 自己的通话里。正文没提这个功能对多人说...

#Audio#Tools#Google#Zoom

精选理由

一条中等体量的产品更新。H 打在线下加跨平台这个组合拳上，K 落在对 Zoom 和 Teams 的具体支持以及摘要转录能力，R 则指向各家争夺会议记录工作流的暗线。正文没披露定价、铺开节奏和实际转录质量，所以我会先打个折，不把它当成颠覆性发布。

一句话点评

Google Meet 的 AI 笔记功能要进线下会议室了，还能跨平台给 Zoom 和 Teams 做总结，但正文没提跨平台转录的准确率怎么样。

锐评

Google 把 Meet 的 AI 笔记功能从线上搬到了线下，以后面对面开会，手机或电脑开着 Meet 就能自动出文字记录和总结。更实用的是，这个功能还能给 Zoom 和 Teams 的会议生成摘要和转录，等于一个工具管三个平台。不过文章只说了功能要上线，没给具体时间表，也没提线下场景的收音效果怎么保证——多人围着桌子说话，设备拾音和说话人区分一直是难点。跨平台转录的延迟和准确率也没披露，这点先别太激动。另外，这个功能是免费还是得买 Google Workspace 的付费版，正文也没说清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:34

51d ago

FEATUREDHacker News 首页· rssEN16:34 · 04·22

有创业公司开始炫耀 AI 账单比员工工资还高，把 token 花费当成增长指标

Swan AI 的 CEO 发帖说，他们 4 个人的团队一个月给 Claude 花了 11.3 万美元，他把这笔钱看作本该用来招人的预算，目标是不到 10 个人做到 1000 万美元年收入。Fundable AI 的联合创始人也在底下附和，说 AI 能顶一个 15 人的文档处理团队。文章点出一个风向：token 花费正在被当成一种新的虚荣指标，但花得多...

#Agent#Code#Swan AI#Anthropic

精选理由

我会先打个折：这篇不是硬核技术进展，而是一篇评论性质的趋势观察。H 分给得高，是因为它把“AI 账单超过人力成本”这个反转直接摆到台面上，容易引发讨论。K 分靠的是 Swan AI 那个 11.3 万美元/月的 Claude 账单，数字够具体，能让人直观感受小团队在模型调用上的投入有多猛。R 分确实有，它踩中了“用 token 消耗替代人头”的焦虑，但正文自己也承认这更像一种增长指标而非已验证的 ROI，Fundable AI 说能替代 15 人团队的说法也没给出验证细节，所以不能当市场级事件来推。整体判断：值得从业者看一眼，但别急着把它当成行业拐点。

一句话点评

有批新创公司开始炫耀每月花在AI上的钱比雇人还多，把这当成增长指标。但文章没给出这些AI支出到底带来了多少实际营收或留存，先别太激动。

锐评

这篇报道抓到了一个挺荒诞的现象：一些新创公司创始人把高昂的AI账单当成勋章来晒。比如一家叫Swan AI的四人公司，一个月烧了11.3万美元在Claude上，CEO说这钱本该是人力预算，现在全给了AI，目标是千万美元年收入、团队不超过10人。另一家做远程医疗的Medvi，靠两个正式员工加几个外包，用AI撑起号称18亿美元的年收入，但正文也提到它正面临监管审查。这些数字看着唬人，但文章没披露任何能验证效率的数据——比如AI生成的代码有多少能上线、客户投诉率有没有飙升、单位经济模型到底能不能跑通。把AI花费等同于生产力，跟以前吹服务器数量一样，是个虚荣指标。Salesforce已经在推新的衡量标准，说明业界自己也意识到光看token消耗不靠谱。还缺什么？缺这些公司真实的利润率、用户留存和员工实际工作体验。如果AI真能10倍产出，为什么Medvi还在被监管盯上？高额AI账单到底是竞争优势，还是烧钱换PR，目前信息不够判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:31

51d ago

r/LocalLLaMA· rssEN16:31 · 04·22

小米发布Mimo-V2.5开放权重模型

Reddit 上有人发帖说小米发布了 Mimo-V2.5，标题还强调这是“开源模型的大日子”。但点进去只有 Reddit 的 403 拦截页，正文一个字都没抓到。目前能确认的只有模型名字和“开源权重”这个说法，权重、许可证、跑分、上下文长度一概没披露。想下载或评估的话，得等官方渠道放更多信息。

#Xiaomi#Reddit#Product update#Open source

精选理由

硬排除-零信源。标题说小米发布了Mimo-V2.5开源权重，但抓到的页面只有Reddit的403拦截页。权重链接、许可证、参数量、基准成绩、上下文长度全都没披露，所以HKR-K不成立，条目保持排除。

一句话点评

小米开源了 Mimo-V2.5 和 V2.5 Pro 两个视觉语言模型，权重开放可本地跑。但 Reddit 原文被屏蔽，正文没披露参数量、训练数据、评测分数等关键信息，目前只能确认是开源动作。短评：开源是好事，但信息太少，先别急着吹。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:28

51d ago

FT · 科技· rssEN16:28 · 04·22

AI 不该用来定今天利率

这篇评论文章的核心观点是：央行现在别拿 AI 模型来指导加息或降息，因为 AI 对物价的影响到底多大、多快，目前根本算不准。正文被付费墙挡住了，看不到具体引用了哪家央行、哪个模型或什么数据。所以只能告诉你：这是一篇政策评论，不是技术进展，没有披露任何实证或时间窗口。

#Commentary#Policy

精选理由

HKR-H和HKR-R靠'AI定利率'这个挑衅角度过关，但HKR-K不通过：RSS摘要只说了'价格影响未明'，没给数据、案例、央行范围或方法。适用hard-exclusion-6，因为这是零信源的评论观点，所以维持排除。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:15

51d ago

Product Hunt · AI· rssEN16:15 · 04·22

IFTTT 给 Claude 开了个接口，能连 1000 多个应用

IFTTT 推出了一个 MCP 接口，让 Claude 可以直接调用它那 1000 多个应用（比如发邮件、记笔记、控制智能家居）。但官方只说了这一句，没透露具体怎么连（接口地址、认证方式、能执行哪些操作），也没说要不要钱。所以关键不是它连了多少应用，而是每个应用能干什么——比如是只能读通知，还是能发消息、改设置。正文没披露这些细节，目前只能当个预告看。

#Tools#Agent#IFTTT#Claude

精选理由

HKR 的 H 靠 Claude + MCP + 1000 应用的钩子通过。K 和 R 都挂掉，因为这条帖子只给了一句广告语，没有实质信息；硬排除规则里“纯营销”和“零信源”两条都命中，分数压不到 40 以上。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

16:11

51d ago

FEATUREDHacker News 首页· rssEN16:11 · 04·22

Martin Fowler：技术债、认知债和意图债

Martin Fowler 在 4 月 14 日的碎片笔记里，主要聊了 AI 辅助编程的副作用。他转了一段和 Kent Beck、Gergely Orosz 的半小时对谈视频，核心观点是：大模型写代码太容易了，反而会让代码量和认知负担膨胀。Fowler 引用 Bryan Cantrill 的话说，LLM 没有“懒惰”这种程序员美德——它不觉得多写一行代...

#Agent#Code#Martin Fowler#Kent Beck

精选理由

Martin Fowler 的权威加上“意图债”这个提法，让这条值得标记和转发（H、R）。但正文就是一段碎片随笔加视频链接，没给出三类债的定义、具体例子或可复现的条件，信息量撑不起“精选”（K 弱）。结论：一条有话题性的评论，不是深度分析。

一句话点评

Martin Fowler 把技术债拆成三种：代码烂是技术债，理解难是认知债，目标歪是意图债。这篇不是论文，是他看了几件事后的碎碎念，但比很多长文都到位。

锐评

Fowler 这次没写长文，而是把近期几件事串起来聊了一个核心问题：AI 写代码太快，反而可能让我们丢掉程序员最重要的美德——懒。这里的“懒”不是贬义，是指为了以后省事，现在愿意花功夫把抽象做好、把系统做简单。他引用了 Bryan Cantrill 的观点，说大模型没有“懒”的概念，生成代码零成本，所以会无节制地堆垃圾代码，让系统变大变烂，迎合“日产三万七千行”这种虚荣指标。Fowler 自己周末改播放列表生成器时也发现，忍住不用 AI 代理，多想一步，用 YAGNI 原则砍掉不需要的功能，几十行代码就搞定了。他还提到 Jessica Kerr 用 TDD 的思路管 AI 代理：先写验证规则再让代理干活。整篇没有给出什么框架或结论，更像是一个老程序员在提醒：工具越强，越要警惕我们是不是在偷该偷的懒，还是在偷不该偷的懒。正文没提供任何量化数据，所有判断都基于个人经验和逻辑推演，所以别当行业报告看，当成一次高质量的代码审查旁听就好。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:09

51d ago

Hacker News 首页· rssEN16:09 · 04·22

Broccoli：一个把 Linear 工单自动变成 PR 的开源工具，跑在你的 Google Cloud 上

Broccoli 是一个刚开源的“一键编码代理”，声称能把 Linear 上的开发工单直接变成可合并的 PR。底层用的是 Claude 和 Codex，但正文没披露具体模型版本、执行流程、权限边界和评测结果。项目目前 34 个 Star、3 个 Fork，还很小。值得关注的点是它试图做一个可复现的“工单→PR”流水线，而不是吹“一次搞定”。跑在自己的 ...

#Agent#Code#Tools#besimple-oss

精选理由

HKR-H 和 HKR-R 通过：'Linear 工单到已提交 PR' 是一个强 coding agent 钩子，也是真实工作流痛点。HKR-K 不通过，因为仓库页几乎没有可验证的细节——没有模型版本、执行流程、权限边界或评测结果，所以分数停留在 60 出头。

一句话点评

Broccoli 是一个把 Linear 工单自动转成 PR 的开源工具，底层用 Claude 和 Codex，跑在自己的 Google Cloud 上。目前 GitHub 34 星，3 个 fork，属于早期项目。亮点是“一次触发，全自动出 PR”，省掉人工拆任务、写代码、提 PR 的步骤。但正文没披露成功率、代码质量评估、以及处理复杂工单时的表现，这点先别太激动。适合小团队试水，生产环境慎用。

锐评

Broccoli 在 34 星时把目标写成工单直达 PR，我的判断是它卖的是流程想象，不是已验证能力。标题给了 Linear、Google Cloud、Claude、Codex 这四个锚点。正文没给模型版本、上下文拼装、代码执行沙箱、仓库写权限、回滚机制，也没给成功率。这类项目过去一年冒得很快。OpenHands、Devin、Factory、Sweep、Copilot Workspace，讲的都是把需求变成改动。分水岭从来不在“能不能写出一版代码”，而在“能不能稳定过 review”。我自己一直觉得，ticket-to-PR 这条链最难的环节不是生成补丁，而是把隐含约束补全：历史 commit 风格、测试夹具、权限配置、依赖版本、失败后的补救。少一项，自动化就会从工程系统退化成 demo。 Broccoli 现在强调“running on your own Google Cloud”，这点我反而比较认可。代码代理只要碰到私库和生产凭证，部署位置就不是包装问题，而是采购门槛。很多团队不愿把仓库、issue、CI token 全交给托管 agent，这也是为什么去年一批 coding agent 演示很热，企业落地却慢。把执行面放进自有云，至少把网络边界和审计日志留在自己手里。问题是，标题只说了运行地点，没说权限最小化怎么做。它如果拿的是 broad repo write、CI trigger、cloud secret read，这套东西在安全评审里还是会被卡住。我对 “one shot” 这个表述有点警觉。软件任务不是单轮问答，尤其 Linear 工单经常缺验收条件。像修一个 flaky test、补一个 billing edge case、改一次 migration，通常都要先读失败日志，再试，再回退。Anthropic 和 OpenAI 过去几代编码模型都在强化 tool loop，不是在强化“一步到位”神话。我没查到 Broccoli 是否有 planner、critic、test-repair 之类的多阶段流程。如果底层其实也是多轮 agent，只是前台包装成 one shot，那这个说法就偏营销了。还有一个现实问题：谁来定义“shipped PR”。开了 PR，不等于可合并。能过单测，不等于能过 reviewer。仓库页没披露评测集，也没披露样本数。我想看的是 50 到 100 个真实 Linear 工单里，有多少能在无人接管下进主干；平均跑几轮；单次成本多少；失败主要卡在测试、检索还是权限。没有这些数，这条还只能算值得试的开源编排层，不是成熟代理产品。说真的，名字和口号都好记，硬度还得靠那条可复现链路自己证明。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:00

51d ago

FEATUREDHacker News 首页· rssEN16:00 · 04·22

Sam Altman 的虹膜扫描公司搭上了 Zoom 和 Tinder

Sam Altman 那家靠扫眼球验证身份的创业公司，刚宣布跟 Zoom 和 Tinder 合作。正文没披露公司名、合作金额、上线时间或具体条款，所以目前只知道两个大客户愿意接入它的生物识别系统。对用户来说，以后用 Zoom 开会或刷 Tinder 可能得先扫一下眼睛——隐私争议肯定少不了。

#Sam Altman#Zoom#Tinder#Partnership

精选理由

HKR-H 和 HKR-R 通过：眼球扫描绑 Zoom 和 Tinder 是强钩子，也确实踩中隐私和反机器人神经。评分维持 67 是因为 HKR-K 不通过：现有信息只列了合作方名字，没有落地流程、机制或商业条款，判断还下不了。

一句话点评

Worldcoin 的眼球扫描身份系统要接入 Zoom 和 Tinder 了，但正文没披露具体怎么用、数据怎么处理。

锐评

这条消息来自一篇标题很耸动的 HN 帖子，正文是空的，所以所有判断都得先打个折。标题说 Sam Altman 那个让人排队扫虹膜换代币的 Worldcoin，现在要跟 Zoom 和 Tinder 合作。如果属实，核心变化是 World ID 这套“证明你是真人”的系统不再只是加密圈的小众玩具，开始往主流社交和视频会议场景里塞。但关键信息全是缺口：合作具体是让用户用虹膜登录 Zoom，还是给 Tinder 做真人认证防假号？数据流向谁管？Worldcoin 在不同国家的监管争议怎么解决？这些正文都没提。对从业者来说，值得盯的是这种链上身份方案能不能跑通大规模消费级场景，以及隐私和合规成本会高到什么程度。目前只能当一条需要后续验证的线索看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:53

51d ago

Hacker News 首页· rssEN15:53 · 04·22

Hailey Somerville 开源 WSL9x 项目实现 Linux 在 Windows 9x 内运行

Hailey Somerville 开源了 WSL9x，一个在 Windows 9x 系统上协同运行 Linux 6.19 内核的项目。它由三部分组成：打过补丁的 Linux 内核、一个 VxD 驱动（Windows 9x 的设备驱动格式）和一个叫 wsl.com 的客户端程序。驱动通过 DOS 中断加载内核镜像，固定基址在 0xd0000000，并分...

#Tools#Hailey Somerville#Codeberg#Open source

精选理由

HKR 的 H 和 K 都过了——反转够新奇，机制细节也扎实。但 R 直接触发了硬排除：技术可及性门槛太高，价值完全依赖 Win9x/VxD/中断内部知识，跟 AI 产品、模型或工作流没有半点关系。正文也没提任何 AI 相关的东西，所以 tier 给 excluded 是对的。

一句话点评

Hailey 在 Windows 95 上跑起了现代 Linux 内核，而且不用硬件虚拟化，486 都能用。原理是让 Linux 内核跟 Windows 内核在 ring 0 协作运行，类似当年的 coLinux。目前只是个人项目，没提兼容性和稳定性，跑生产负载别想。但作为复古硬件的玩具，这 hack 确实漂亮。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

15:40

51d ago

Hugging Face 博客· rssEN15:40 · 04·22

英伟达在 8GB 边缘设备上跑通 Gemma 4 语音视觉对话

英伟达在 Hugging Face 上发了一个本地 demo，把 Gemma 4 跑在 Jetson Orin Nano Super（8GB 内存）上，实现语音对话+按需调用摄像头。流程是：Parakeet 语音转文字 → Gemma 4 理解 → 必要时拍一张照片 → Kokoro 文字转语音输出。模型自己判断要不要“睁眼”，不需要关键词触发。代码和...

#Agent#Vision#Audio#NVIDIA

精选理由

HKR 三项都轻度命中：在 8GB Jetson 上跑通 VLA 风格的本地语音-视觉循环，管线具体、脚本公开。但正文没披露延迟、吞吐和量化参数，所以停留在“有意思但不够上首页”的区间。

一句话点评

英伟达把Gemma 4塞进8GB边缘设备，能语音对话+按需拍照，但没提延迟和量化细节。

锐评

这条demo的核心看点是：一个多模态流程（语音→模型→摄像头→语音）全跑在Jetson Orin Nano Super（8GB内存）上，模型自己决定什么时候拍照，不用关键词触发。英伟达给了完整GitHub脚本和部署步骤，但正文没披露任何延迟数据、吞吐量或量化精度——这点先别太激动。实际体验可能卡顿，尤其是8GB内存跑视觉模型+语音合成。另外，Parakeet和Kokoro都是轻量模型，Gemma 4本身用了llama.cpp量化，但具体是4-bit还是8-bit没说。如果你手头有Jetson设备，可以跑跑看，但别指望实时流畅。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:00

52d ago

FEATUREDFT · 科技· rssEN15:00 · 04·22

索尼乒乓球机器人 Ace 击败精英人类选手

索尼的乒乓球机器人 Ace 在比赛中赢了精英人类选手，FT 把它说成是人机交互的里程碑。但正文没披露对手人数、比赛规则、胜率，也没说用了什么模型。真正的看点不是体育新闻，而是机器人在物理世界里做到了闭环控制——实时感知、决策、执行，这在机器人领域比下棋难得多。不过信息缺口太大，没法判断这个“赢”有多少水分。

#Robotics#Sony#Research release#Benchmark

精选理由

HKR-H 靠的是机器人击败人类精英这个干净、意外的钩子。HKR-R 落在现实世界闭环控制上，这是机器人从业者真正关心的点。HKR-K 不成立是因为文章没给对手人数、规则、胜率、模型或控制细节，所以留在 all 而不是 featured。

一句话点评

索尼的乒乓球机器人 Ace 在实战中打赢了顶尖业余选手，但别急着喊“人类输了”——正文没披露对手具体排名和比赛局数，样本量也未知。

锐评

索尼这个叫 Ace 的乒乓球机器人，在真实比赛中击败了精英级的人类选手，算是一个挺直观的机器人控制与实时决策的进展。它不像下棋那样纯拼计算，乒乓球对机械臂的速度、轨迹预测和物理交互要求高得多，能赢说明在“看-想-打”这个闭环上做得不错。不过，目前能看到的公开信息很有限。FT 的原文被付费墙挡住，只露出标题和摘要，没有交代对手的具体水平（是省队级别还是业余高手）、打了多少局、胜率是多少，也不知道机器人有没有针对特定打法做专门训练。这些缺口直接决定了这个“里程碑”的含金量——如果只是赢了一场表演赛，那和真正在开放环境下稳定击败高水平选手是两回事。另外，也没看到成本、延迟、部署条件这些工程细节。对从业者来说，这条新闻的价值在于确认了索尼在机器人运动智能上的方向，但离“机器人能当陪练”或者“技术可以泛化到其他精细操作”还有多远，正文没给答案。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:00

52d ago

FEATUREDOpenAI 博客· rssEN15:00 · 04·22

OpenAI 给美国医生、执业护士和药剂师免费开放了临床版 ChatGPT

OpenAI 推出了一个专为临床工作设计的 ChatGPT 版本，主要用来辅助写病历、查文献和做医学研究。目前这个版本对美国境内经过身份验证的医生、执业护士、医师助理和药剂师免费开放。它能联网搜索经过同行评审的医学资料并给出引用来源，可以把病历摘要、转诊信、预授权申请这类重复性工作做成固定流程，还能在查资料的同时自动累积继续医学教育学分。正文没披露具体...

#Tools#OpenAI#ChatGPT#Product update

精选理由

这条消息的钩子在于 OpenAI 开始直接拉个人临床用户，而不是只做机构生意。我会先打个折：正文没写模型版本、免费额度上限、上线时间和认证怎么走通，所以实际落地节奏还不清楚。但方向本身值得盯——医疗场景的 AI 工具以前多是医院买单、IT 部门部署，现在直接给一线医生、护士和药师免费入口，试用和反馈循环会快很多。覆盖的三类场景（临床、文档、研究）也说明不是单点功能，而是想嵌入日常诊疗流。这点先别太激动，等认证流程和实际使用限制出来再看，但准入逻辑确实在变。

一句话点评

OpenAI 给美国医生、执业护士、药师开了个免费版 ChatGPT，主打查文献、写病历和搜临床指南，但别当它能直接看诊。

锐评

OpenAI 推出了 ChatGPT for Clinicians，一个专门给临床人员用的版本，目前在美国对通过验证的医生、执业护士、药师免费开放。它主要干三件事：回答复杂临床问题、处理文书和文档、做医学文献综述。功能上加了可信临床搜索，能实时引用同行评审的医学资料；还能把重复性工作流（比如转诊信、预授权）做成可复用的“技能”。另外，如果涉及病人隐私数据，可以签商业伙伴协议走 HIPAA 合规通道，对话也不会被拿去训练模型。 OpenAI 同步发了一个叫 HealthBench Professional 的开源基准，用来测模型在真实临床聊天任务上的表现。他们说自己模型在斯坦福 MedHELM 等第三方评测里排第一，但正文没给出这个新基准的具体分数或对比结果。医生顾问已经审了超过 70 万条模型回复，这个量不小，说明他们在持续做人工反馈。目前信息缺口很明显：没有披露模型在真实临床流程里的错误率、延迟，也没说免费版有没有用量限制。免费能降低试用门槛，但医院大规模部署还得看实际省下多少时间、会不会产生新的核对成本。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:56

52d ago

Hacker News 首页· rssEN14:56 · 04·22

在 Hacker News 发帖的最佳时间：周二到周四 UTC 14-17 点，但周日凌晨竞争更小

Alcazar Security 分析了多份数据后给出建议：想覆盖最大美国技术受众，默认选周二到周四 UTC 14-17 点（美西早 7-10 点）。但一篇 2025 年对 2.3 万条帖子的分析发现，周日太平洋时间凌晨 0-1 点发帖的“单帖胜率”反而更高，因为竞争少。核心区别在于“总读者量” vs “每帖上榜概率”——前者选高峰时段，后者选低竞争窗...

#Hacker News#Alcazar Security#Max Woolf#Commentary

精选理由

HKR-H 和 HKR-K 靠的是那个具体的发帖时机问题和 2.3 万帖数据，但 HKR-R 不通过。分数 34 是因为这不是 AI 行业新闻，只是一份单来源的 Hacker News 发帖指南，而且热力图方法没完整披露。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:44

52d ago

FEATUREDHacker News 首页· rssEN14:44 · 04·22

Show HN 提交量翻了三倍，现在大部分是 AI 一键生成的页面

Adrian Krebs 用脚本扫了 500 个 Show HN 落地页，发现 67% 的页面至少命中 2 个 AI 设计特征，比如 Inter 字体、紫色渐变、卡片彩色左边框、图标功能网格这些模板化痕迹。检测方法是用 Playwright 跑无头浏览器，在页面里直接检查 DOM 和计算样式，靠 15 条硬规则判断，人工抽查下来误判率大概 5% 到 1...

#Code#Benchmarking#Tools#Hacker News

精选理由

这条值得推给做 AI 工具和产品的人看。Adrian Krebs 没在评模型能力，而是用一套土办法——Playwright 跑脚本检查 DOM 和样式——发现 Show HN 现在 67% 的页面都命中至少两个 AI 设计特征。我会先打个折：这是单人实验，不是严格审计，误报他自己也认了 5% 到 10%。但信号比数字本身重要：AI 默认生成的前端模板正在让产品页面快速趋同，这对靠差异化吃饭的早期项目不是好事。正文没披露具体是哪 15 个特征，也没给误报的详细拆解，所以别当行业报告用，当个警钟看刚好。

一句话点评

Show HN 提交量三年翻三倍，但近七成页面都带着 AI 生成的设计痕迹，作者用脚本扫了 500 个页面，21% 是重度“AI 味”。

锐评

Adrian Krebs 这篇博客干了一件挺直观的事：他写了个脚本，用无头浏览器去扫 500 个 Show HN 项目的落地页，检查 15 种 AI 生成设计的常见特征，比如紫色渐变、Inter 字体、卡片左边框带颜色、毛玻璃效果这些。结果 21% 的页面触发了 5 个以上特征，被归为“重度 AI 味”，46% 有 2 到 4 个特征。这个检测方法不是让大模型看图，而是直接读 DOM 和计算样式，作者自己说误判率大概 5% 到 10%。这个数据说明两件事：一是 Claude Code 这类工具确实让提交量暴增，以至于 HN 管理员不得不限制新账号发 Show HN；二是 AI 生成的默认审美已经形成了一种可被规则识别的“模版感”。作者的态度比较平和，认为这和当年遍地 Bootstrap 网站差不多，验证想法本来就不靠设计。不过这篇分析有个明显的缺口：它只检查了视觉样式，没有区分项目本身是 AI 写的还是人写的。一个纯手写代码的项目完全可能用了 shadcn/ui 默认主题，然后被误判。另外，正文没披露这 500 个样本是怎么选的，是最近提交还是随机抽样，这会影响结论的代表性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:25

52d ago

r/LocalLLaMA· rssEN14:25 · 04·22

把 Nemotron-3-Super 从 512 专家剪到 256，再微调量化，单卡跑 AIME 2026 超 90%

作者把 NVIDIA 的 Nemotron-3-Super-120B-A12B（一种混合了 MoE 和 Mamba2 的模型）从 512 个专家剪到 256 个，又用大约 270 道数学题做了 GRPO 微调（一种强化学习，让模型自己试错改进），最后量化成 FP8 和 AWQ 两种格式。模型从 120B 参数降到 64B，但 AIME 2026 数学测...

#Reasoning#Fine-tuning#Inference-opt#NVIDIA

精选理由

触发硬排除-6：正文只有标题和一段摘要，实际内容是Reddit 403拦截页，没有可复现的数据、示例或可验证的claim。HKR-H和HKR-K虽然成立（剪半专家+90%+AIME是钩子，分数、显存、vLLM崩溃条件都给了），但HKR-R不成立——这更像一份本地部署的hacker笔记，不是行业级讨论。importance 38，tier excluded。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:22

52d ago

TechCrunch AI· rssEN14:22 · 04·22

OpenAI 找印度 IT 巨头 Infosys 卖企业工具，先盯上写代码和修旧系统

OpenAI 跟印度 IT 服务商 Infosys 合作，把 Codex 等工具塞进 Infosys 的 Topaz AI 平台，帮客户做软件工程、老系统现代化和 DevOps（开发运维一体化）。说白了就是让 Infosys 的销售团队去推 OpenAI 的产品，第一批客户大概率是那些想用 AI 改代码但自己不会搭的甲方。正文没披露合同金额、定价方式，...

#Code#Tools#OpenAI#Infosys

精选理由

这是一条分销合作新闻，不是模型或产品发布。HKR 三个维度都不达标：正文只列了三个企业场景，但产品型号、定价、合作规模、落地条件全没披露，属于硬排除——纯营销通稿。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

14:19

52d ago

FEATUREDFT · 科技· rssEN14:19 · 04·22

EQT警告：AI风险让私募软件股权卖不动了

瑞典私募巨头EQT说，投资者担心AI会冲击软件公司的商业模式，导致他们手里的软件股权卖不出去。这不是AI产品本身的故事，而是AI带来的风险折价正在压低退出价格。正文没披露具体涉及哪些公司、交易规模和时间节点，所以这点先别太激动——但逻辑很直接：市场在重新评估技术风险，软件股权的流动性变差了。

#EQT#Commentary

精选理由

HKR-H 和 HKR-R 成立：AI 给软件退出重新定价是一个很强的市场角度钩子。HKR-K 受限，因为正文没有披露公司名称、交易规模或估值影响，所以这条留在 all 而非 featured。

一句话点评

EQT 公开说 AI 会让手里的软件公司股权更难卖，但 FT 正文被付费墙挡了，具体论据和数字看不到。

锐评

这条消息来自 FT，但文章本身是付费内容，我们只能看到标题和网站导航，正文完全没披露。所以 EQT 到底在担心什么、是哪些软件资产受影响、有没有给出估值下调的幅度或交易延期的案例，这些关键信息目前都是空白。从标题判断，EQT 作为大型私募股权基金，手里应该有不少企业软件公司的股份。他们的逻辑大概是：AI 发展太快，买家会担心现在买的软件公司过两年就被 AI 原生工具替代，所以不敢接盘。这个担忧本身不新鲜，但由 EQT 这种级别的卖家公开说出来，说明二级市场对软件资产的定价分歧已经大到影响交易流程了。不过，没看到正文就没法判断这是 EQT 在给自己卖不出去找台阶，还是真的在警告行业。建议等全文解锁后再看具体提到了哪些赛道和估值数据，现在先别急着下结论。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

14:18

52d ago

r/LocalLLaMA· rssEN14:18 · 04·22

Qwen3.6-27B GGUF 量化版本发布

Reddit 用户 KvAk_AKPlaysYT 发帖说 Qwen3.6-27B 的 GGUF 格式已经有人打包好了，直接贴了 Hugging Face 仓库链接。27B 参数意味着本地部署需要至少 16GB 显存（4-bit 量化下），GGUF 格式方便用 llama.cpp 或 Ollama 直接跑。帖子本身没提量化等级、上下文长度、许可证或跑分，...

#Hugging Face#AaryanK#Qwen#Open source

精选理由

这是一个具体的社区工件发布，不是空谈，所以不会被排除。HKR-H 因为可立即下载而通过，但 HKR-K 和 HKR-R 不通过，因为位宽、许可证、上下文长度和基准测试都没披露；这使它保持在 all 层级。

一句话点评

Qwen3.6-27B 的 GGUF 量化版来了，主打“无审查+激进”风格，适合本地跑。社区发了多个量化版本（K_P 等），但原帖被 Reddit 屏蔽，正文没披露具体量化参数和效果对比。如果你需要本地部署且偏好少限制的模型，可以试试；但“无审查”实际效果和基准测试分数未知，先别太激动。

锐评

Qwen3.6-27B 已经出现 GGUF 工件，这个事实比 Reddit 帖子本身更有用。标题给了 27B 和 GGUF，正文没给量化位宽、上下文长度、许可证、模板格式，也没给任何测试结果。信息到这里，其实只能下一个很窄的判断：Qwen 系模型在本地生态里的移植链路已经足够成熟，新权重一出来，社区通常会很快补齐 llama.cpp 这套消费层。我一直觉得，LocalLLaMA 里这类帖子的价值不在“有新模型”，而在“多快能跑起来”。去年到今年，Llama、Qwen、Mistral 几条线谁更容易扩散，看的不是官方 release note 写得多漂亮，而是谁能在 24 小时内补出 GGUF、exl2、vLLM、Ollama 这些常用形态。Qwen 这方面一向不慢，这也是它在开发者圈层黏性高的原因之一。很多团队嘴上讲 benchmark，真落地时先问的是：Mac 能不能塞下，单张 4090 能不能跑，Q4_K_M 还是 IQ 量化掉多少血。这里正文全没披露，所以性能判断现在没法做。我对这条帖子也有保留。GGUF 出现，不等于这个版本已经“可用”。同样是 27B，Q8 和 Q4 的体验差很多，chat template 设错也能把模型直接跑废；如果是新架构或新 tokenizer，兼容性还会再掉一层。我还没查这个仓库的文件列表，也没核实是官方转换、第三方转换，还是从别处分发过来的镜像。这个差别很大：前者更接近稳定入口，后两者更像抢首发。所以这条我会先当作一个部署信号，不当能力信号。要让我认真更新判断，至少还得看到三样东西：一是具体量化规格和推荐 prompt format；二是实际上下文长度与 llama.cpp 兼容状态；三是哪怕很粗的对比结果，比如和 Qwen 3.5 同尺寸、Llama 3.x 30B 左右量化版在本地推理上的速度和损失。现在只有标题信息，离“模型好不好”还差很远。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

14:11

52d ago

r/LocalLLaMA· rssEN14:11 · 04·22

LocalLLaMA用户对比Qwen 3.5 122B与3.6 35B性能

Reddit 用户实测对比 Qwen 3.6 35B（A3B）和 Qwen 3.5 122B（A10B），结论是 3.5 大模型明显更强，任务只要多几个推理步骤，3.6 就开始掉链子。用户用的是量化版（3.5 是 Q5_K_XL，3.6 是 Q8_K_XL），CUDA 版本 13.1，排除了已知的量化兼容问题。但正文没披露具体任务类型、样本量或跑分数据...

#Reasoning#Benchmarking#Qwen#LocalLLaMA

精选理由

这条帖子的价值在于它提供了一个真实用户的对比反馈，而且结果有反直觉性——Qwen 3.6 35B 在量化配置更高的情况下，反而输给了老版 122B。但正文没披露具体任务、样本量和 benchmark 数据，所以只能算个体使用反馈，不能当正式评测。对本地模型用户来说，这个信息有参考意义，但别太当真。

一句话点评

用户拿Qwen 3.5 122B和3.6 35B比，发现35B小模型在Artificial Analysis的编程和智能体评分上反超122B大模型。如果数据靠谱，35B性价比很高，但Reddit帖子只有一个人问，没实测对比，结论要打折。缺的是社区自己的跑分和实际编码体验。

锐评

这位用户在 UD-Q5_K_XL 对 UD-Q8_K_XL、CUDA 13.1 的条件下，报告 Qwen 3.5 122B A10B 明显强于 Qwen 3.6 35B A3B。我的判断是，这更像量化配置和任务分布把差异放大了，不像一次能直接下结论的模型代际比较。先把最硬的信息摆出来：正文只给了 2 个模型名、2 个量化版本、1 个 runtime 版本，没有任务列表，没有样本量，没有 prompt 模板，没有 temperature，也没有上下文长度。连“需要多几步推理”到底是数学、代码、规划还是长上下文抽取，都没说。这种材料拿来聊体感可以，拿来判谁“全面更强”就太早了。我对这个帖子的第一个保留，是它把 122B A10B 和 35B A3B 放在一起比。就算抛开版本号，参数级别和激活参数本来就不是一个量级。过去一年本地圈反复出现同一种情况：小一代新模型在公开榜单上更漂亮，到了多步推理、长链纠错、复杂约束跟随，老一代更大模型还是更稳。这个现象在 Llama 系列和一些 Qwen 旧版量化讨论里都见过。我没法拿这条帖子去证明 Qwen 3.6 设计失误，最多只能说 35B 这档位没有自动兑现“榜单提升 = 复杂任务更强”。第二个保留，是量化并不对称。122B 用 UD-Q5_K_XL，35B 用 UD-Q8_K_XL，表面看是 35B 量化更高，按直觉像是更占便宜；但本地推理里决定结果的从来不只是一位数字。MoE 的路由、KV cache 压力、实现细节、是否有特定 kernel 回退，都会把“纸面更高量化”变成实际更差的稳定性。用户自己也提到 CUDA 13.2 和 smaller quants 有问题，说明这套栈本身就不干净。说实话，我对“BF16 不会差太多”这个判断不太买账。对 dense 模型也许还行，对 A3B 这种更吃路由和实现状态的模型，BF16 和量化版在多步任务上拉开肉眼可见差距，我一点也不意外。还有个背景得补上。阿里这几代 Qwen 在公开 benchmark 上一直追得很凶，尤其会把速度、成本和榜单分数一起讲。这个叙事对云端 API 很成立，因为服务方能控 tokenizer、kernel、batching、路由和 prompt recipe。到了 LocalLLaMA，用户拿不同量化、不同 runtime、不同前端去跑，模型的“实验室版本”经常会掉形。Qwen 不是唯一这样，Mixtral、DeepSeek 的小参数 MoE 也遇到过：榜单很好看，私有工作流里一旦多了几步计划和修正，体感会突然塌。所以我现在的结论很简单：这帖子的价值，不是说明 Qwen 3.6 不如 Qwen 3.5，而是提醒大家别把官方或社区榜单直接外推到本地量化部署。要把这事说清，至少得补 3 组东西：同一任务集、同一采样参数、最好再加一组 BF16 或官方推荐量化。正文没披露这些前提，我不会把它当模型能力结论，只会把它当一个需要复现实验的异常信号。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

14:10

52d ago

FEATUREDr/LocalLLaMA· rssEN14:10 · 04·22

ServiceNow 放出一个 15B 模型，一个权重包能切出 8 种速度档位，最快解码吞吐量翻 10 倍

ServiceNow 在 Hugging Face 上发了 SuperApriel-15B-Instruct，一个 15B 参数的指令模型。它最特别的地方是用了“超级网络”设计：48 层解码器里，每层都塞了 4 种不同的注意力机制（全注意力、滑动窗口、Gated DeltaNet、Kimi Delta Attention），运行时可以像换挡一样选不同组...

#Inference-opt#Fine-tuning#Reasoning#ServiceNow

精选理由

一个 15B 模型靠单一检查点覆盖 8 档推理速度，吞吐跨度超过 10 倍，对实际部署的吸引力很强，H 和 K 都站得住。R 来自它把成本-延迟-质量的权衡做成可调开关，而不是让你换模型。不过这只是推理优化方向的发布，不是前沿实验室的旗舰更新，影响范围偏窄，所以 76 分、featured 合理。

一句话点评

ServiceNow 放出了一个 15B 的指令模型，但正文没给技术细节和评测数据，先别急着跟风下载。

锐评

ServiceNow 在 Hugging Face 上发布了 SuperApriel-15B-Instruct，一个 150 亿参数的指令微调模型。从名字和发布方看，这应该是他们内部做 AI 自动化流程的产物，现在开源出来给社区用。但这次放出的页面信息量很少，没有模型卡、没有技术报告、也没有跑分对比，我们只知道它是个 15B 的指令模型，其他全靠猜。 15B 这个尺寸在开源圈里属于“能跑但吃配置”的档位，单张 24G 显存的消费级显卡跑量化版还行，全精度就比较勉强。如果它的定位是让企业把模型塞进自己的业务流程里干活，那推理成本和延迟会是落地时绕不开的坎，但这方面目前没有任何数据。我会先打个折看待这条消息。模型本身可能不差，但发布方式太简陋，缺了最关键的评测基准、训练数据说明和授权条款。想知道它到底行不行，得等社区有人跑完实际任务再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:42

52d ago

r/LocalLLaMA· rssEN13:42 · 04·22

本地漫画翻译器：Rust 写的，自带大模型，跑在本地

有人在 Reddit 上发了个本地漫画翻译器，用 Rust 写，集成了 llama.cpp，所以翻译模型跑在本地，不需要联网。正文被 Reddit 屏蔽了，看不到具体支持哪些语言、翻译流程怎么走、用了什么模型、有没有开源、仓库在哪。标题信息很明确，但细节全缺。

#Tools#llama.cpp#Product update

精选理由

HKR-H 成立，因为本地优先 + Rust + llama.cpp 的组合对动手派有钩子。但 HKR-K 直接卡死：正文只有 403 页面，仓库、语言、OCR/翻译管线、模型规格、输出样例全部缺失，无法验证任何实际能力。故事信息密度太低，重要性低于 40，排除。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

13:19

52d ago

● P1Hacker News 首页· rssEN13:19 · 04·22

Qwen3.6-27B开源发布，27B稠密模型达旗舰级编码性能

Qwen 放出了 Qwen3.6-27B，一个 270 亿参数的稠密模型，主打编程，而且直接开源。它最狠的地方是跑分超过了上一代 3970 亿总参数（每次激活 170 亿）的 MoE 模型 Qwen3.5-397B-A17B。在 SWE-bench Verified 上拿了 77.2 分，比老旗舰的 76.2 高；在 Terminal-Bench 2....

#Agent#Code#Multimodal#Qwen

精选理由

Qwen3.6-27B 是一次有分量的开源模型发布，权重直接可下，编程基准分数明确，而且走的是稠密路线而非更大的 MoE。对 AI 从业者来说，这意味着用更低的部署成本去试一个旗舰级编程模型。HKR 三项都站得住，按规则，国内大模型的重要发布应该和同等美国实验室的发布给到同一档分数。

一句话点评

27B的稠密模型在编程智能体跑分上干掉了自家397B的MoE旗舰，部署门槛低很多，但别急着信，正文没提推理成本和延迟。

锐评

Qwen3.6-27B这次最狠的一点，是用一个27B参数的稠密模型，在SWE-bench Verified（77.2 vs 76.2）、Terminal-Bench 2.0（59.3 vs 52.5）等所有主要编程智能体基准上，全面超过了自家上一代397B总参数的MoE旗舰。这意味着你不用再折腾MoE的路由复杂度，单卡或少量卡就能跑出接近顶级的代码能力，对开发者来说部署门槛直接降了一个数量级。不过得留个心眼。官方博客只放了跑分，没给推理延迟和显存占用的具体数据。稠密27B虽然比MoE好部署，但全参数激活时的计算量并不小，实际用起来快不快、贵不贵，还得等社区实测。另外，SkillsBench从30.0跳到48.2这个涨幅有点夸张，是基准本身波动大还是模型真开窍了，需要第三方复现验证。视觉多模态部分算是附赠，跑分中规中矩，没有像编程那样拉开代差。如果你主要冲着写代码和做智能体任务去，这个模型值得一试；如果看重通用对话或长文本理解，建议等更完整的消融实验和成本报告出来再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:09

52d ago

r/LocalLLaMA· rssEN13:09 · 04·22

Qwen 3.6 27B 参数版本发布

Qwen 3.6 出了一个 27B 的版本，目前唯一能确认的就是参数量。Reddit 原帖正文被屏蔽（返回 403），所以发布方、许可证、量化版本、上下文长度、跑分结果全都没披露。如果你在等这个模型的详细评测，目前只能先知道它存在。

#Product update

精选理由

标题说 Qwen 3.6 27B 发布了，但正文被 403 挡住，目前能确认的只有型号名和 27B 规模，其他关键信息（发布方、许可、量化、上下文长度、基准分）全没披露。H 和 R 靠标题本身能过——新模型名对开源和本地部署人群有钩子；K 明确失败，因为信息缺口太大，实际等于零来源。按规则硬排除，分数压在 40 以下，标记 excluded。

一句话点评

Qwen 3.6 27B 已发布，社区等得指甲都啃没了。目前只有 Reddit 帖子标题，正文被屏蔽，没拿到任何技术细节。27B 参数适合本地部署，但性能、架构、开源协议全未知。建议先观望，等官方或可信源放出实测。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:00

52d ago

TechCrunch AI· rssEN13:00 · 04·22

AI 生成候选药越来越多，这家公司想筛出哪些值得做

10x Science 拿了 480 万美元种子轮，帮药企研究人员理解复杂分子。核心不是“AI 能生成更多候选药”——这已经是事实——而是怎么从海量分子里挑出值得推进的那几个。正文没披露投资人、模型方法、验证数据或市场策略，所以这点先别太激动。真正值得关注的是它的筛选机制，不是标题里“更多候选药”这个老话题。

#10x Science#Funding#Commentary

精选理由

这是一笔480万美元的种子轮，只有一句帮研究人员理解分子的笼统说法。触发了硬排除规则4：AI+药物发现，但没有清晰的agent或产品含义；HKR的K和R都弱，因为方法、验证和商业化细节全没披露。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

12:30

52d ago

Hacker News 首页· rssEN12:30 · 04·22

列式存储就是数据库范式化

Justin Jaffray 用一个简单例子说明：列式存储本质上就是把一张宽表拆成每个字段一张小表，靠行号（隐式主键）对齐。重建一行数据就是做一次 join。这个视角的好处是统一了查询处理和存储格式——列存不是底层编码黑魔法，而是关系模型的一种极端范式化。行存写一行快、读一行快，但扫全表读大量无关列；列存只扫需要的列，但写和读单行变慢。正文没披露具体性...

#Justin Jaffray#Buttondown#Commentary

精选理由

H 和 K 都过了：规范化类比有钩子，机制解释也扎实。但 R 没过——这是数据库领域的存储讨论，正文没提任何 AI 模型、训练、推理或产品，对 AI 雷达读者来说缺乏直接神经。所以维持 38 分，排除。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

12:28

52d ago

Hacker News 首页· rssEN12:28 · 04·22

Google 发布第八代 TPU 芯片 TPU 8t 和 TPU 8i

谷歌云发了一篇博客，正式命名第八代 TPU 为 TPU 8t 和 TPU 8i，并做了架构深度解析。但正文只给了名字和发布日期（2026年4月22日），没有披露吞吐量、带宽、拓扑、功耗、定价和可用区域这些关键硬件参数。所以目前没法做技术对比，想拿它跟 H100 或 Trainium 比还缺数据。

#Google Cloud#Google#Product update#Commentary

精选理由

这篇直接命中硬排除规则——云厂商促销文，而且抓到的内容只有标题和型号名。H/K/R 三项全不达标，因为没有披露任何规格、定价、可用性或可验证的机制，所以重要性分数低于排除阈值。

一句话点评

Google 发布第八代 TPU，分两款：TPU 8t 用于训练，TPU 8i 用于推理。官方称专为“agentic era”（让模型自主执行任务）设计，但正文没披露具体性能数字或能效提升幅度，目前只能当路线图看。亮点是双芯片分工策略，类似英伟达 H100 和 B200 的路线，但 Google 强调自家网络和编译器优化。缺实测数据，别急着对标。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

12:10

52d ago

MIT 科技评论· rssEN12:10 · 04·22

MIT 科技评论发布“AI 领域当下最重要的 10 件事”清单，每天拆解一件

MIT 科技评论推出了一份新指南，列出当前 AI 领域最值得关注的 10 个趋势和技术，号称能帮人从铺天盖地的发布和炒作中理出头绪。从今天起，他们的每日 newsletter 会逐条拆解。不过正文只给了清单链接，没透露具体是哪 10 项，想看全貌得点进去。同一期还提了两条新闻：有人未经授权访问了 Anthropic 的 Mythos 模型（Anthro...

#Safety#Code#Alignment#MIT Technology Review

精选理由

HKR 的 H 靠榜单标题过了，但 K 和 R 都不过，因为完整列表、评选标准和具体主张全缺。这是一篇轻量导览，不是当天 AI 行业的硬新闻。

一句话点评

MIT 科技评论出了份 AI 十大趋势清单，但正文只给了链接，没列具体内容。

锐评

MIT 科技评论今天宣布推出一份新指南，号称从铺天盖地的发布和炒作中理出 AI 领域最值得关注的 10 个趋势和技术。从今天起，他们的每日 newsletter 会逐条拆解。不过正文只给了清单链接，没透露具体是哪 10 项，想看全貌得点进去。同一期还提了两条新闻：有人未经授权访问了 Anthropic 的 Mythos 模型（Anthropic 之前说这模型太危险没敢全量发布），以及 Meta 在追踪员工点击行为。这份清单本身有 MIT 的编辑信誉背书，但正文没披露任何一条趋势的具体内容，也没说明筛选标准。想判断这 10 项是真正有技术拐点的东西，还是媒体选题会拍脑袋的结果，得先点开链接看完再说。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

12:03

52d ago

FT · 科技· rssEN12:03 · 04·22

苹果掐着科技行业的“霍尔木兹海峡”

FT 这篇评论把苹果比作霍尔木兹海峡——谁过路都得看它脸色。文章承认苹果在 AI 竞赛里确实落后了，但新 CEO 接手时手里还攥着几个别人没有的筹码。正文被付费墙挡住，没披露新 CEO 是谁、具体有哪些优势、以及苹果到底靠什么卡住别人脖子。

#Apple#Financial Times#Commentary

精选理由

标题比喻有钩子，话题也切中行业痛点，但正文信息严重不足——没有数字、没有具体业务细节、没有CEO姓名，只有一句判断。按规则，信息缺口触发硬性排除，评分压在40以下，定为excluded。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

12:00

52d ago

NVIDIA 博客· rssEN12:00 · 04·22

NVIDIA 与 Google Cloud 联手推 A5X 实例，Vera Rubin NVL72 号称推理成本降 10 倍

NVIDIA 在 Google Cloud Next 上发布了 A5X 裸金属实例，搭载 Vera Rubin NVL72 系统。官方数据是：相比上一代，每 token 推理成本最高降 10 倍，每兆瓦 token 吞吐量也提升 10 倍——这两个数字放在一起看，说明新架构在能效和单位成本上都有明显改善。A5X 单站点可扩展到 8 万块 Rubin G...

#Agent#Robotics#Multimodal#NVIDIA

精选理由

这是一篇 NVIDIA 与 Google Cloud 的合作发布，核心是 A5X 裸金属实例基于 Vera Rubin NVL72，宣称推理成本降至 1/10、吞吐提升 10 倍，并给出 8 万/96 万 GPU 的扩展规模。数字扎实，但本质仍是云厂商的硬件促销稿，按硬排除规则归为 excluded。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

12:00

52d ago

● P1TechCrunch AI· rssEN12:00 · 04·22

Google 和 Thinking Machines Lab 签了笔几十亿美元的算力大单，用的是英伟达最新的 GB300 芯片

Mira Murati 创办的 Thinking Machines Lab 跟 Google Cloud 签了一份新的多年合同，金额在几十亿美元级别。这笔交易的核心是他们要用上英伟达目前最顶级的 GB300 芯片来做 AI 训练和推理。文章没披露具体合同年限、总算力规模、交付时间表，也没说这些算力具体要跑什么模型或业务。但一个顶级 AI 实验室开始批量...

#Thinking Machines Lab#Google Cloud#Nvidia#Partnership

精选理由

TechCrunch 这条独家把三个信号绑在一起：Google Cloud、数十亿美元合作、Nvidia GB300。标题和摘要给了交易规模和芯片代际，但合同期限、算力量级、交付节奏和用例全是空白，所以重要性停在 82 没往上走。我会先打个折：金额听着吓人，可没期限就没法算年均投入。真正值得盯的是 GB300 已经进入头部实验室的采购链，这点比参数发布更有说服力。

一句话点评

Mira Murati 的 Thinking Machines Lab 跟 Google Cloud 签了份几十亿美元的大单，用 Nvidia GB300 芯片跑训练。钱数没公布，但金额本身比技术细节更值得看。

锐评

这条消息的核心不是技术路线，而是钱和站队。Mira Murati 离开 OpenAI 后创立的 Thinking Machines Lab，直接跟 Google Cloud 绑定了数十亿美元的算力合同，用的还是 Nvidia 最新的 GB300 芯片。这说明两件事：第一，这家新公司不缺钱，而且愿意把重注压在 Google 的云上，而不是 AWS 或微软；第二，GB300 是 Nvidia 刚发布不久的旗舰芯片，能拿到这个规模的配额，侧面印证了 Murati 团队的资源调动能力。不过，正文没披露具体金额、合同年限，也没说这些算力是用来训练什么模型。几十亿这个量级听着吓人，但如果是分摊到多年、包含大量预留实例的框架协议，实际每年的支出可能没那么夸张。另外，这家公司目前对外公开的技术成果还很少，这么大一笔基础设施投入，最终能不能转化成有竞争力的模型，现在完全看不出来。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:00

52d ago

FEATUREDTechCrunch AI· rssEN12:00 · 04·22

Google Maps 要加生成式 AI：能看图生成街景，也能用卫星数据做分析

Google 在 Cloud Next 上宣布给 Maps 加生成式 AI 功能，主要面向企业用户。一个是 Maps Imagery Grounding，你可以在 Gemini 里打字描述场景（比如电影布景或施工规划），它直接在 Street View 里生成对应的画面，还能用 Veo 让画面动起来。另一个是 Aerial and Satellite ...

#Tools#Vision#Google#Google Maps

精选理由

Google 在 Cloud Next 上宣布给 Maps 加生成式 AI，目前只透露了视觉和数据分析两个方向，没给模型名、上线时间、定价或 API 细节。Maps 是十亿级用户产品，AI 落地到搜索、路线、本地发现这些高频场景，影响面很大，所以 H 和 R 成立。K 弱是因为信息太少，正文基本是预告片，没有实质技术或产品细节，所以留在 all 层级，不上 featured。

一句话点评

Google 给地图加了生成式 AI，企业用户可以直接在街景里用文字生成场景预览，但别急着激动，目前只面向企业端，个人用户还用不上。

锐评

Google 在 Cloud Next 上给地图平台塞了一波生成式 AI，核心是让企业用户用文字指令在街景里“画”出想要的效果，比如电影布景或工地规划，还能用 Veo 把静态图变成动画。另一个功能是让用户直接在 BigQuery 里分析卫星图数据，号称能把几周的工作压缩到几分钟。这些听起来挺省事，但正文没披露实际延迟、生成准确率，也没说成本。企业用户最关心的“省了多少人力”和“会不会出离谱结果”都没给数字，这点先打个折。另外，新推出的两个 Earth AI 模型只提了名字，具体能做什么、效果如何都没展开，信息缺口不小。整体看，Google 是在把地图从“看”的工具往“算”和“造”的方向推，但落地效果还得等企业实际用起来才知道。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

11:58

52d ago

Hacker News 首页· rssEN11:58 · 04·22

GitHub CLI 开始收集匿名遥测数据

GitHub CLI 现在会收集所谓的“伪匿名”遥测数据，但官方页面只列了文档导航，没说明具体采集哪些字段、默认是否开启、以及怎么关掉。标题确认了这件事，但正文没披露数据范围、默认设置和关闭步骤。

#GitHub#Product update#Policy

精选理由

HKR-H 通过：gh 默认开启遥测是一个强钩子。HKR-R 通过：开发者隐私问题触及行业神经。HKR-K 不通过：摘录未披露采集字段、默认状态和退出路径，且与 AI 关联度弱，因此评分低于 40。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

11:51

52d ago

硅谷101 播客· atomZH11:51 · 04·22

导演陆川聊AI：未来实拍电影还会存在吗？

标题说导演陆川聊AI对影视行业的影响，但正文没披露他的具体观点、案例、工具或时间线。信息缺口明显，无法判断他是乐观还是悲观，也没提他是否用过AI工具拍片。

#Lu Chuan#Commentary

精选理由

HKR-H和HKR-R通过，但HKR-K不通过：只披露了访谈主题和嘉宾，没有可验证的论断、案例或工具细节。这篇留在all层级，作为一条信息量低的评论类条目。

一句话点评

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

11:48

52d ago

FEATUREDHacker News 首页· rssEN11:48 · 04·22

LLM 生成的安全报告太多，Linux 内核开始删掉一批老旧的网络代码

内核维护者正在提议删掉一批没人维护的网络组件，包括 ISA、PCMCIA 以太网驱动、两个 PCI 驱动、业余无线电子系统（ax25）、ATM 和 ISDN。直接原因不是 LLM 帮忙清理代码，而是这些老代码长期没人管，现在又被 LLM 生成的安全报告淹没了。其中一份补丁说，业余无线电代码一直是 bug 和 syzbot 的吸铁石，没人站出来处理 AI...

#Safety#Linux kernel#LWN#syzbot

精选理由

LWN 这篇文章讲了一个 AI 带来的副作用：LLM 自动生成的安全缺陷报告大量涌入，但没人手去验证处理，内核维护者干脆提议把没人维护的老旧网络代码全删了，包括业余无线电协议、ATM、ISDN 这些。标题容易让人以为 LLM 在帮忙清理代码，实际是这些代码长期没人管、本来就是 bug 磁铁，现在被 AI 报告一冲，维护压力直接爆表，删掉反而更省事。我会先打个折：这不是技术突破，而是一个维护成本压过代码价值的现实案例。

一句话点评

内核维护者被 AI 生成的垃圾安全报告淹没了，他们选择直接删代码而不是修 bug，这招挺狠。

锐评

这件事的核心不是 AI 发现了多少漏洞，而是 AI 制造了太多噪音，把维护者逼疯了。Linux 内核网络子系统的维护者决定删除一批老旧驱动和协议，包括业余无线电、ISDN、ATM 以及一些 ISA/PCMCIA 以太网卡驱动。原因很直白：这些代码长期无人维护，但 AI 工具（比如 syzbot 结合大模型）却在持续生成大量安全报告，处理这些报告的工作量已经大到“影响维护者心理健康”的程度。这暴露了一个现实问题：当自动化工具的报告产出速度远超人类修复能力时，删代码反而成了最理性的止损方案。正文里维护者的原话是“既然没人站出来帮我们处理 AI 生成的 bug 报告，我们就把代码移出内核树以保护我们的理智”。不过，文章没披露这些 AI 报告里到底有多少是有效漏洞，多少是误报。如果大部分是无效报告，那问题出在 AI 的准确度上；如果确实有真实漏洞，那删代码只是把风险转移给了还在用这些老硬件的用户，让他们困在旧内核上。这点信息缺口让整件事的性质还不好下定论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:39

52d ago

● P1彭博科技· rssEN11:39 · 04·22

腾讯、阿里巴巴洽谈参与DeepSeek首轮融资

这是 DeepSeek 成立以来第一次对外融资，目前还在谈判阶段。正文没披露具体金额、估值和领投方，也没说钱会怎么用。腾讯和阿里这两家互联网大厂同时出现，我会先打个折——关键不是他们投不投钱，而是会不会附带算力或渠道上的合作条件，但这篇报道没提。

#Tencent#Alibaba#DeepSeek#Funding

精选理由

Bloomberg 给了一个实打实的信息点：DeepSeek 在推进首轮融资，腾讯和阿里都在谈。我会先打个折，因为金额、估值、领投方全都没说，正文也没给条款细节，所以重要性到不了顶。但 HKR 三项都成立——首轮融资本身就够新，两家巨头同时出现让故事性拉满，而且一旦成真，股权和云算力合作会同步放大，这对国内模型格局的影响比一轮融资大得多。

一句话点评

腾讯阿里在谈投 DeepSeek 首轮，估值可能到 200 亿美元以上，但正文被付费墙挡了，具体条款和金额都没看到。

锐评

这条消息的核心是 DeepSeek 第一次对外融资，而且谈的对象是腾讯和阿里这两家国内大厂。估值数字 200 亿美元往上，说明市场对它的技术能力和模型影响力给了很高的定价，不是早期试水那种级别。但要注意，信息源是 Bloomberg 引用 The Information 的报道，我们拿到的正文被反爬机制拦住了，实际只看到标题，没读到谈判进度、持股比例、资金用途这些关键细节。从行业角度看，大厂参投一家独立模型公司，通常不只是财务投资，后面往往跟着算力合作、云服务绑定或者产品分发上的安排。DeepSeek 之前靠开源模型和极低的推理成本打出了口碑，如果这次融资落地，可能会加速它在企业端和开发者生态里的铺量。不过现在所有判断都得打个折，因为连融资是否已经 close、有没有其他投资方参与，正文都没披露。等看到完整条款再下结论会更稳。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:31

52d ago

FEATUREDr/LocalLLaMA· rssEN11:31 · 04·22

MIT 和 IMO 发布 MathNet：全球最大国际奥数数据集，规模是之前的 5 倍

MIT 和国际数学奥赛（IMO）联合发布了 MathNet，一个包含 40 多个国家、跨越 40 年的奥数题目和解答的数据集。标题说它比之前最大的同类数据集大 5 倍，但正文被 Reddit 屏蔽了，所以具体有多少条样本、用什么格式标注、是否开源、有没有划分训练/测试集，这些关键信息都没披露。对做数学推理的团队来说，这个数据集的价值取决于能不能复现——...

#Reasoning#Benchmarking#MIT#IMO

精选理由

这条的钩子很清晰——IMO 数据集直接大了5倍，做数学推理的人会想点进去。但正文因为 Reddit 403 完全没拿到，样本总量、许可证、清洗规则、评测切分全都没披露，所以信息缺口很大。目前只能当个“有料但没细节”的发布预告看，离能直接用的 benchmark 还差一截。

一句话点评

MIT 和 IMO 放出了目前最大的奥数题库 MathNet，体量是之前数据集的 5 倍，但 Reddit 原文被屏蔽，看不到具体规模和下载方式。

锐评

这条消息本身挺实在：一个覆盖 40 多个国家、横跨 40 年的国际奥数题库，对训练模型做数学推理肯定有用，尤其是现在大家都在卷数学基准分。5 倍于之前数据集这个数字说明样本量上了一个台阶，不再是几百道题的小打小闹。但问题在于信息源断了。Reddit 帖子被网络屏蔽，正文里除了标题什么都没有，我没法确认数据集到底多大、是纯文本还是带公式渲染、有没有配解题步骤的评分标注、许可是不是真开放。这些直接决定它能不能直接拿来训模型，还是得先做一堆清洗。另外，奥数题和实际应用里的数学推理差距不小，模型刷高分不一定代表逻辑真变强了。这点先别太激动，等看到实际数据和评测再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

10:54

52d ago

Hacker News 首页· rssEN10:54 · 04·22

Uber 花 800 万美元买了个 DynamoDB 教训，没人被开除

Uber 2017 年把账本系统搬到 DynamoDB 上，两年后成本高到撑不住，只好把热数据只留 12 周，冷数据挪到自建对象存储 TerraBlob。作者算了一笔账：每天 1500 万单，每单多次记账，DynamoDB 按读写次数收费，规模一大就烧钱。更关键的是，账本系统需要全局一致性，DynamoDB 只保证分区内强一致，跨分区做不到，这跟支付场...

#Uber#DynamoDB#ByteByteGo#Commentary

精选理由

HKR-H靠'800万美元失误+没人被开除'这个标题钩子得分，HKR-K有每天1500万次行程和12周热数据保留的具体细节。HKR-R不达标，因为这是基础设施的成本分析，没有模型、智能体或AI产品角度，而且标题里的800万美元核算细节正文没披露，所以总分低于4。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

10:00

52d ago

● P1OpenAI 博客· rssEN10:00 · 04·22

OpenAI 在 ChatGPT 中推出工作区代理功能

OpenAI 给 ChatGPT 的企业版、教育版等付费计划加了一个叫“工作区智能体”的功能。你可以把它理解成能共享给整个团队用的自动化助手，背后由 Codex 驱动，在云端运行，人不在线它也能继续干活。它能跨多个工具（比如 Slack、CRM）执行多步骤任务，像自动筛选销售线索、写跟进邮件、每周五拉数据出报表、审核软件采购请求并生成 IT 工单。团队...

#Agent#Code#Tools#OpenAI

精选理由

OpenAI 在 ChatGPT 里加了 workspace agents，等于把 Codex 塞进云端去跑跨工具的工作流，从纯聊天往团队自动化工作台又挪了一步。我会先打个折：正文没写价格、没列支持的工具、也没给延迟或成功率这些硬指标，所以重要性停在 86 分。H 打钩是因为从对话到 agent 的转变本身就有话题性；K 打钩是因为 Codex 驱动云端执行这个事实是新的，但信息缺口也明显；R 打钩是因为它直接踩在团队协作和自动化的关注点上，对做类似产品的团队会有压力。

一句话点评

OpenAI 给 ChatGPT 加了“工作区代理”，让模型能跑重复性流程，不是只聊天。但别当它是全自动员工，它更像一个按你写的步骤干活、会自己判断上下文的助手。

锐评

OpenAI 这次把 ChatGPT 从“一问一答”推到了能跑流程的代理。简单说，你可以设定一个触发条件（比如每周一早 9 点）、一套步骤和它能用的工具（Slack、CRM 等），让它定期去拉数据、做分析、写摘要，甚至把草稿分发给对应的人。官方举了营销复盘、产品反馈分流、销售管道监控三个例子，模式都是“收集-分析-打包-分发”。文章把代理和传统 API 流程做了区分：传统流程是死板的，每一步都定死了；代理是概率性的，模型会在你给的规则内自己判断上下文、调整执行路径。这点挺关键，意味着它更灵活，但也更容易出偏差。所以官方强调要设好“治理”边界，比如涉及预算或对外发信必须人工审批。不过，正文没披露任何性能数据，比如任务完成率、延迟、出错率，也没提成本。这些代理到底有多可靠、跑一次要花多少钱，目前全是空白。如果是真的稳定又省钱，对重复性知识工作会是实打实的减负；但没看到验证前，我会先打个折，把它当成一个需要持续盯着的实习生，而不是能撒手不管的正式员工。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

10:00

52d ago

FEATUREDOpenAI 博客· rssEN10:00 · 04·22

OpenAI 给 Responses API 加了 WebSocket，让 Codex 这类 agent 跑起来更快

OpenAI 发现，当模型推理速度从每秒 65 个 token 飙到近 1000 个 token 时，API 本身的处理开销反而成了拖慢 agent 循环的瓶颈。他们给 Responses API 加上了 WebSocket 支持，思路是把多次独立的 HTTP 请求换成一个长连接，在连接存活期间缓存住对话状态和可复用的上下文，只传新的工具调用结果，省掉...

#Agent#Tools#Inference-opt#OpenAI

精选理由

这是 OpenAI 面向开发者的系统层更新：用 WebSocket 长连接加连接级缓存，把 agent 循环里反复建连、重复请求的开销压下去。HKR 三项都踩中了，但正文没给出延迟降了多少、吞吐多大、适合什么负载，所以只能算中等偏上的 featured，不能拉满。真正值得盯的是长连接怎么省掉往返成本，这不是换模型，是工程侧省钱省时间的优化。

一句话点评

OpenAI 给 Responses API 加了 WebSocket 长连接，让 Codex 这类需要反复调 API 的智能体流程端到端快了 40%。

锐评

这条更新解决了一个很实际的问题：模型推理越来越快，但反复建 HTTP 连接、重复处理对话历史的开销反而成了拖后腿的环节。OpenAI 的做法是把多次 API 请求改成一条 WebSocket 长连接，只传新增信息，把可复用的状态缓存在内存里。他们自己测下来，单次请求的首 token 延迟先优化了约 45%，加上长连接后，整个智能体流程端到端快了 40%，让用户能真正感受到模型从每秒 65 token 跳到近 1000 token 的速度提升。文章没给具体的延迟数字对比，也没说这个 WebSocket 方案在非 Codex 场景下的表现。另外，他们提到早期原型把整个 rollout 当成一次长 Response，但为了保持 API 形状不变，最终上线版还是沿用了 `response.create` 的调用方式——这个取舍对开发者体验是友好的，但可能牺牲了一部分原型里的极致效率。如果是真的，对频繁调工具的应用来说挺省钱，但实际收益还得看自己的业务逻辑里有多少重复的上下文处理。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:02

52d ago

Hacker News 首页· rssEN09:02 · 04·22

Meta 员工抗议强制用工作数据训练 AI，但具体追踪什么还没说清

Business Insider 报道 Meta 内部一个强制项目引发员工不满：公司要求用员工的活动数据来训练 AI，且是强制的。但正文没披露具体追踪哪些活动、涉及多少人、能否退出以及数据怎么用。目前 HN 上只有 19 分和 5 条评论，信息缺口很大，这点先别太激动。

#Meta#Business Insider#Incident#Commentary

精选理由

HKR-H和HKR-R通过：Meta强制追踪员工行为用于AI训练，是现成的劳资/隐私钩子。HKR-K不通过：RSS片段只给了标题和HN数据，正文没披露监控范围、数据类别、退出机制和员工人数，所以维持中段全层级。

一句话点评

Meta 强制员工用内部数据训练 AI，员工炸了。关键矛盾：公司说数据会脱敏，但员工担心聊天记录、绩效评价等敏感信息被模型记住。Meta 内部向来对 AI 安全敏感，这次强制令让信任危机升级。正文没披露员工是否有退出机制、数据具体怎么脱敏，这点先别太激动——如果只是脱敏后用于训练通用模型，实际风险可能没那么大。但强制+不透明，情绪已经点燃了。

锐评

标题已给出 Meta 员工反对强制 AI 训练计划，已知条件只有 mandatory。正文未披露追踪项、覆盖人数、数据保留期、用途边界，也没说是否存在退出机制。我对这类叙事一向很警惕：公司常把“训练 AI”包装成效率工程，落地却先变成员工遥测。回到对比上，微软、谷歌这两年都在内部大规模上 Copilot 与代码分析工具，但公开披露里通常会把安全审计、生产力度量、模型训练分开写；这次如果 Meta把三者混在一起，争议不会小。说实话我还没查到 BI 正文，所以没法判断员工反对的是监控强度，还是数据被拿去训模型。现在能下的判断只有一个：只要是 mandatory，而且涉及行为数据，同意机制就不是法务细节，而是组织信任测试。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

08:45

52d ago

X · @op7418（歸藏）· x-apiZH08:45 · 04·22

GPT-Image-2.0 + Seedance 2.0 跑出《黑神话：林冲》游戏演示，UI 和台词全动

博主用 GPT-Image-2.0 和 Seedance 2.0 生成了《黑神话：林冲》的游戏演示，声称所有 UI 元素都是动画且带台词。效果看起来不错，但画面有明显涂抹感。正文只提了模型名和主观感受，没交代运行时长、分辨率、工作流步骤，也没说后期人工修了多少。别急着当成品看——确认的事实是演示感很强，但离可复现的技术规格还差得远。

#Multimodal#Vision#Commentary

精选理由

标题党成分重，实际信息缺口大：没披露生成时长、分辨率、工作流或人工后期比例，目前只能确认演示感强，不可复现。HKR-H靠游戏演示角度能吸引点击，但K和R都不达标，所以归为all层级低价值内容，不升featured。

一句话点评

《黑神话：林冲》又流出实机演示，画面和动作效果确实惊艳，但正文没披露任何技术细节或来源。目前只有一条来源，信息缺口大，建议等官方或更多信源验证后再下判断。

锐评

发帖者用了 GPT-Image-2.0 和 Seedance 2.0 跑出 1 条《黑神话：林冲》演示，但正文没给生成时长、分辨率、镜头数、后期占比。这条我先按“好看的 proof-of-concept”看，不按“游戏内容生产链已经跑通”看。差别很大。前者说明模型审美和镜头连续性在进步，后者要看 assets consistency、UI 状态管理、分镜可控性、返工成本，原帖一个都没交代。我对“所有交互 UI 全都是动的，而且还有台词”这句会先打个问号。因为动态 UI 最容易被短视频错觉放大：你可以先出一段主画面，再叠几层 motion graphic，观感就很像可交互系统。问题在于，这些 UI 是一次生成绑定在场景里的，还是后面单独合成的？台词是角色口型驱动，还是音频后配？原帖没说。标题已经给出效果感，正文没披露制作链路，这种素材没法外推成“某模型已经能稳定做游戏 PV”。说真的，这类视频最近一年越来越多，路径也差不多：先用图像模型定风格，再用视频模型补运动，最后靠剪辑把不稳定处藏掉。去年 Runway、Pika、Luma 那波 demo 也是这个套路；今年很多团队把 Kling、Vidu、即梦、Seedance 接进来，成片观感确实比 2024 年强一截，但可复现性还是老问题。我自己没跑过这条同款 workflow，不过按行业常见做法，越是“像成品”的 20 秒片子，越要问镜头失败了多少次、人工修了多少层。没这些数字，判断不了生产价值。我还有一点怀疑：这条借了《黑神话》式视觉语汇，天然会抬高观众容忍度。强美术风格本来就能遮掉一部分时序错误和材质涂抹感，所以“我真看不出来”不等于模型已经接近可上线资产标准。游戏团队真要用，至少得补两类信息：一类是成本，单条 30 秒要跑多久、多少钱、多少轮返工；另一类是一致性，同一角色换 5 个镜头后脸、甲胄、武器会不会漂。原帖都没有。我的判断很直接：这条证明了 AI 视频很会做“像游戏宣传片”的幻觉，没证明它已经进入游戏工业化流程。要让我改观，发帖者至少得放出完整 prompt、shot list、分辨率、生成轮次，外加未剪版本。现在这条，够吸睛，不够立论。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

08:33

52d ago

● P1Hacker News 首页· rssEN08:33 · 04·22

Meta 计划采集员工击键数据用于训练 AI 模型遭反对

Meta 通知员工，很快要在工作电脑上部署一个叫“模型能力计划”的工具，用来记录键盘敲击和鼠标移动。员工对此很不满。公司对外说这是为了收集数据来训练 AI 模型，但正文没披露这个工具具体会抓取哪些数据、什么时候开始推、以及员工能不能选择不装。最讽刺的地方在于，一家靠监控用户行为卖广告的公司，现在把同一套逻辑用到了自己员工身上。

#Meta#Reuters#Mark Zuckerberg#Incident

精选理由

别被标题里的讽刺带跑，真正该盯的是 Meta 有没有把员工行为数据直接喂进 AI 能力建设流程。帖子给了工具名和监控方式，但没披露采集范围、启用时间和退出机制，信息缺口不小。我会先打个折，因为细节不全，但话题本身够敏感，对 AI 从业者有警示意义。

一句话点评

Meta 要用自家员工的鼠标轨迹和键盘记录来训练 AI，内部已经炸锅了。

锐评

Meta 搞了个内部工具，会记录员工在某些应用里的鼠标移动、点击和键盘操作，把这些数据拿去训练 AI 模型，目标是让 AI 学会“人是怎么用电脑的”。公司发言人说会过滤敏感内容，数据不作他用。但员工反对声很大，Hacker News 上直接嘲讽这是“监控软件”。这件事的讽刺点在于，一家靠用户数据起家的公司，现在把数据采集的矛头对准了自己人。文章没披露具体会采集哪些应用、怎么界定“敏感内容”、员工能不能拒绝。这些缺口让“有保护措施”的说法暂时只能打个折。更值得留意的是，这已经不是孤例。上周有报道说，一些倒闭创业公司的 Slack 聊天记录和 Jira 工单也被拿去当训练数据了。AI 训练数据的饥渴正在把职场隐私边界逼到墙角，而 Meta 这次是拿在职员工开了第一枪。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:33

52d ago

X · @op7418（歸藏）· x-apiZH07:33 · 04·22

Seedance 2.0 把 GPT 生成的游戏截图做成了可玩 Demo

有人用 Seedance 2.0 把 GPT Image 2 生成的一张 ARPG 游戏截图（《金瓶梅》），直接变成了带 UI 交互和场景切换的动态演示。视频里能看到两个画面之间的衔接，但正文没披露具体用了什么工作流、提示词、做了多久、以及用户能控制到什么程度。真正的看点不是标题的噱头，而是“从一张静态图到可交互 Demo”这条管线已经能跑通了。

#Vision#Multimodal#Tools#Commentary

精选理由

H 和 R 成立，因为帖子把 GPT Image 2 的静态图做成了带 UI 和转场的 ARPG 演示，视觉上很抓人，而且这条拼接链路是游戏和产品团队正在关注的方向。K 不成立：提示词、时长、分镜控制方式、可复现步骤全没披露，所以这条归入 all 层级。

一句话点评

标题党，正文没披露任何具体信息。从标题看可能是某个AI应用或游戏玩法有了突破，但缺乏细节无法判断真假。建议等更多信源验证，别急着激动。

锐评

帖子给出的事实很少：创作者把 Seedance 2.0 和 GPT Image 2 接在一起，做出了一个 ARPG《金瓶梅》的动态演示，还补了 UI 交互和两段画面衔接。问题也很直接：正文没有流程，没有提示词，没有镜头控制，没有时长，没有分层素材，没有任何可复现条件。只看这些信息，我最多承认它做出了“像游戏的短视频”，还不能直接叫“能玩”。我对这类演示一直卡得很细，因为过去一年里，很多“可交互”“可游戏化”视频，拆开看其实只是三件事：静态图一致性、镜头过渡、再加一层后期 UI。Runway、Pika、Luma 那波 demo 就反复出现过这个问题：观看时像 prototype，落到工程上只是 linear clip。Google 当时做 Genie 一类世界模型，卖点是从视频里学出可响应环境；这一条如果成立，最少要看到输入如何改变状态、状态如何影响下一帧。这个帖子没有给。有意思的地方不在题材，也不在情绪化标题，在于它暴露出一条越来越短的拼接链：GPT Image 2 负责把美术风格定住，Seedance 2.0 负责把帧间运动和镜头衔接补起来，外面再套一层 UI，就能产出一个足够像“游戏开场演示”的东西。对独立团队和工作室，这条链路是有价值的，因为它把“立项视频”成本继续往下打。以前你要概念图、分镜、动效、剪辑四套人，现在两三个工具就能先把气质做出来。但我还是要泼点冷水：从“像能玩”到“真能玩”，中间隔着一整层系统。至少要有状态切换、碰撞或导航规则、角色控制映射、失败条件、资源加载方式。哪怕是最简陋的交互小说，也得说明输入和输出怎么闭环。视频里有 UI，不等于有游戏循环；有转场，不等于有世界状态。这个差别，对做产品的人很关键，对投融资判断也很关键。我自己更愿意把这条看成 pre-production 工具链的进展，不是游戏生成已经跨线。外部参照也差不多是这个方向：去年不少团队用 Midjourney 或 GPT Image 做 key art，再用视频模型补 trailer，最后拿去测市场反馈。好用的是 pitching，不是 shipping。除非作者后续放出可操作 demo、输入响应录屏，或者公开从图像到交互脚本的链路，不然这条最多说明“AI 已经很会伪装成可玩内容”，还说明不了“AI 已经把游戏 runtime 做出来了”。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

06:51

52d ago

● P1量子位 · 公众号· rssZH06:51 · 04·22

商汤绝影把32B总参、3B激活的模型塞进车机，跑分压过GPT-5.4和Opus 4.6

商汤绝影发布了一个叫Sage的车载端侧多模态模型，总参数32B，但每次推理只激活3B参数。它在PinchBench上拿了94%，比Claude Opus 4.6的93.3%和GPT-5.4的90.5%都高。模型跑在Nvidia OrinX上，首字延迟约0.5秒，单token生成约0.03秒，吞吐80 tok/s。训练用了两个方法：SCOUT省了约60%...

#Agent#Multimodal#Inference-opt#SenseAuto

精选理由

我会先打个折：所有数据都是商汤自报，没有第三方复现，PinchBench 的对比对象和测试条件正文也没细说。但亮点在于它把 3B 激活模型塞进 OrinX，还给出了推理延迟和吞吐，这对车载场景比跑分更有参考价值。后训练省 60% GPU 小时、复杂任务完成率提 20% 这两个数，缺训练规模和消融细节，先别太激动。整体看，信息量够、落地指向明确，但验证链不完整，所以重要性给 79，放在 featured 里提醒大家关注端侧 Agent 的进展和水分。

一句话点评

标题说3B参数模型干翻GPT-5.4和Opus4.6，但正文被微信环境验证挡住，实际评测数据、测试集和对比条件全看不到，这点先别太激动。

锐评

这条新闻的标题信息量很大，但能核实的东西很少。商汤绝影做了一个只有3B激活参数的模型，声称在车载场景下表现超过GPT-5.4和Opus4.6。3B参数意味着模型跑在车机端侧时对算力要求很低，如果属实，确实能把大模型能力塞进车里而不依赖云端。问题是正文完全无法访问，微信页面显示环境异常需要验证。标题里提到的对比对象GPT-5.4和Opus4.6本身就不是公开可用的标准模型，评测基准、任务类型、延迟数据、是否同场景对比，这些关键信息一概缺失。没有这些，就没法判断这个“干翻”是真实力还是特定窄任务上的数字游戏。我会先打个折：端侧小模型在特定车载任务上做到可用是合理的，但跨模型代际碾压的说法需要看到具体评测报告才能信。目前缺的是公开的技术报告、可复现的评测设置，以及第三方验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:51

52d ago

量子位 · 公众号· rssZH06:51 · 04·22

360 的挖洞智能体挖出两个微软高危漏洞，一个藏了 5 年一个藏了 8 年

360 说他们的漏洞挖掘智能体找到了两个微软漏洞：Windows 内核提权漏洞 CVE-2026-24293（潜伏近 5 年）和 Office 远程代码执行漏洞（潜伏 8 年），影响超 10 亿用户。两个漏洞都已上报并修复，拿到了微软 MSRC 致谢。360 还声称累计发现近 1000 个漏洞，其中 50 多个高危已获 CNNVD、CNVD 和厂商确认...

#Agent#Safety#Code#360

精选理由

HKR-H和HKR-K都成立：故事有具体漏洞和影响数据，信息量足够。HKR-R不通过，因为正文大部分是360自述，没有独立评测或模型细节，对AI从业者的参考价值打折扣，所以保持all层级。

一句话点评

正文被微信屏蔽，只拿到标题和异常页面。标题说国产智能体在挖漏洞上已跑通，但没披露具体方法、效果或与Mythos的对比。信息缺口太大，无法判断是技术突破还是营销话术。

锐评

360这次拿出的硬结果是2个微软漏洞，且都已分配CVE并完成修复。光这一点，就比大多数“AI 挖洞”演示强很多。安全圈里，能从“模型看出可疑点”走到“厂商确认并修补”，中间差着利用链构造、复现环境、误报控制、披露流程四道坎。文章给出的最好证据，不是“分钟级发现”，也不是“300亿+样本”，而是MSRC致谢和CVE落地。能过这一步，说明它至少不是PPT智能体。我对文章叙事不太买账的地方也很明显。它一直把360和Anthropic Mythos摆成一组对打，还顺手拉到地缘安全上。这个讲法太满。Mythos被限制开放，核心争议是高阶模型是否会把漏洞发现和利用自动化到危险阈值；360这篇稿子讲的，则是一个面向特定场景、多智能体编排、强约束沙箱里的漏洞生产线。两者有交集，但不是同一道题。前者押模型上限，后者押流程工程和数据资产。把它写成“何必Mythos”，我觉得有点过。说真的，安全行业过去一年已经给过很多参照。Google Project Zero、微软MSRC、还有一些顶级漏洞研究员，早就证明高价值漏洞发现不是单轮代码理解，而是长链路假设生成、符号执行、差分分析、PoC收敛、环境复现的组合活。去年到今年，大家对 agentic security 的兴趣上来，也是因为单模型在这件事上误报太多、最后一公里太差。360文中那套“攻击面分析—代码审计—利用验证—报告生成”的拆法，我反而觉得是可信的部分，因为这就是把人工漏洞研究流程程序化。若只靠一个大模型长上下文硬读代码，我基本不会信它能稳定产出内核提权和 Office RCE。但文章最关键的缺口，也恰好在这里。它没有披露模型底座、训练方式、误报率、人工介入比例、沙箱约束、复现成功率，也没有给独立评测。它说“全程无需人工介入”，这个口径我保留意见。安全自动化里，“无需人工介入”常见的写法，是人类没有参与单次执行；可前面的规则编写、语料清洗、目标选择、环境预配置，往往全是人做的。若没有这些条件，分钟级发现的说法没有可比性。发现的是补丁差异里的 n-day，还是在海量代码里首发 0-day，难度差几个量级。正文没拆。我还想补一层文章外的上下文。Anthropic那条 Mythos 叙事，外界之所以紧张，不只因为它“会找洞”，还因为大家担心通用推理模型把发现、利用、扩散压进同一条能力曲线。OpenAI、Anthropic、Google 过去一年都把网络安全能力放进高风险评估里，很多系统卡和 red teaming 报告都会单列 cyber。360这条则更像把能力收在垂直体系里，强调定向服务、强隔离、受控上报。这个路线在国家级和政企场景里更现实，也更容易被监管接受。问题是，它的可迁移性未必高。对Windows、Office、国产软硬件打得深，不自动等于对任意新框架、云原生堆栈、AI 基础设施都同样强。文中提到 OpenClaw 和“AI原生基础设施”那段，我自己就想多问一句：是什么漏洞类型，复现条件是什么，影响版本是什么，和传统开源组件漏洞相比新意在哪。标题给了野心，正文没给技术拆解。没有这些细节，我不会把它直接判成“已超越 Mythos 当前触及范围”。还有个行业现实，文章故意淡化了。高价值漏洞挖掘的瓶颈，已经不只是模型聪明不聪明，而是数据闭环、执行环境、法律边界、披露关系和客户信任。360手里如果真有近千漏洞、50多高危确认，这比“用了多大模型”更有价值。因为安全这行最后拼的是交付可信度。你能不能把误报压下去，能不能让厂商接收，能不能在补丁发布前守住信息，这些都比单次 benchmark 漂亮更难。所以我对这条的判断是：它证明了中国厂商已经把“漏洞研究员工作流”做成了可批量运行的智能体系统，这件事是真的，也很重要；它还没有证明“国产智能体已经解决了通用型自主挖洞问题”，更没有证明 Mythos 那类前沿模型路线不重要。安全行业接下来大概率不是单模型吃掉一切，而是强模型做推理中枢，配合符号执行、模糊测试、补丁比对、沙箱验证和披露编排。360若想把这次声量坐实，下一步别再堆口号，直接披露更多可核验样本、误报数据和复现条件。那会比任何地缘叙事都更有说服力。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

06:51

52d ago

量子位 · 公众号· rssZH06:51 · 04·22

2026苹果学者名单出炉：20人里8个华人，西安交大校友表现亮眼

苹果公布了2026年AIML学者名单，20个名额中华人占了8个。这个项目不是公开申请的，得由受邀大学提名，苹果再根据研究原创性、领导力和领域影响力来选。过去7年一共资助了120多人，实习生和苹果合著了60多篇顶会论文。苹果没在公告里说具体给多少钱，但一些大学通知里写的是每年3.5万到4.5万美元。说白了，这更像苹果在提前锁定人才，不单纯是个奖学金。

#Agent#Reasoning#Multimodal#Apple

精选理由

HKR-K 成立是因为苹果给出了20个名额、7年120+学者、60+篇联合论文以及受邀提名路径。HKR-H 和 HKR-R 都弱：这仍然是一份奖学金名单，不是模型、产品或关键人事变动，而且官方资助金额未披露，正文只援引高校通知说年资助约3.5万到4.5万美元。

一句话点评

短评：苹果学者名单，华人占比高是亮点，但具体研究方向和成果才是关键。点评：2026年苹果学者名单公布，20个席位中华人占8席，西安交大校友表现突出。这反映了华人学者在AI领域的持续影响力，但名单本身更像荣誉标签，不直接代表技术突破。正文因环境异常无法获取，缺少每位学者的具体研究方向、成果或项目细节。对于从业者，更值得关注的是这些学者在哪些细分领域（如大模型、计算机视觉、强化学习）做出了实...

锐评

苹果把2026年 Apple Scholars in AIML 给了20名博士生，7年累计支持超120人，还让相关实习生合作发了60多篇顶会论文。我的判断很直接：这不是奖学金新闻，这是苹果在补自己的研究供给线，而且补得很慢、很长期。标题把注意力放在“20席里8位华人”。这个角度我不太买账。名单结构当然能看出华人学者在全球 AI PhD 里的存在感，但它解释不了苹果到底想要什么人。正文给出的筛选条件其实更关键：受邀高校提名、苹果按研究创新性、领导力、领域影响筛。再叠加研究方向，苹果挑的不是“最会刷榜的人”，而是能贴住它产品约束的人：可靠性、隐私、多模态、Agent、健康、无障碍、机器人。这套口味非常苹果。问题也在这里。苹果现在最缺的，不是再多几篇论文，也不是再多一个 scholar badge。苹果最缺的是把研究、模型、系统、产品节奏接上。过去一年，行业已经把路径走得很清楚了：OpenAI 和 Anthropic 靠旗舰模型不断拉高能力上限，Google 把 Gemini 往搜索、Workspace、Android 全面塞，Meta 用 Llama 抢开发者分发，NVIDIA 则把研究实习、算力平台、企业关系绑成一套。苹果还在用 scholar、intern、paper 这条老路做储备，这条路没错，但节奏偏慢。你给博士生两年资助，就算按文中援引的 3.5 万到 4.5 万美元一年算，钱不算少，可它解决不了苹果眼前的模型落差。我一直觉得，苹果在 AI 上最典型的强项和短板是同一件事：它特别擅长把技术塞进受约束的产品环境，代价是研究转产品的链路会更保守。正文提到 2025 年苹果强调隐私保护和算法可靠性，今年又把 Agent、AI for Health、AI for Accessibility 提上来。这条线和 Apple Intelligence、Siri、Apple Watch 的方向是连着的，判断并不难。但别把这种方向感误读成进展速度。Agent 写进 scholar 主题，不等于苹果已经解决了跨应用执行、长期记忆、权限编排、失败恢复这些硬问题。标题给了方向，正文没给任何模型指标、部署规模、产品转化率。还有一个地方要泼点冷水。文章把“参与苹果实习的学者合作发表60多篇顶会论文”当成项目含金量证据，这数字当然好看，但它并不自动等于研究到产品的转化效率高。Apple 的 AIML 团队这些年论文一直不少，业内也承认他们在端侧学习、隐私计算、多模态压缩上有积累。可大家都看到了，真正定义 2024 到 2026 行业节奏的，不是 paper count，而是模型能力迭代速度、API 生态、开发者心智和产品落地密度。苹果在前两项上并不占先。我还想补一个文章里没有的背景。大厂的人才计划这两年都在悄悄变形。Meta 会把学生直接卷进开源模型生态，NVIDIA 更像把学生提前带入它的硬件—软件体系，OpenAI、Anthropic 则更偏向少量高密度招募，直接吸成熟研究员和工程负责人。苹果这套 scholar 机制仍然保留强烈的学院派味道：邀请制、高校提名、长期培养、再接实习。好处是稳定，坏处是离最激烈的人才战场隔了一层。你很难指望它靠这20个席位，立刻改写苹果在基础模型上的位置。资助金额这块也得说清。官方未披露，正文只援引高校通知，范围大约每年 3.5 万到 4.5 万美元。我不能把这当成苹果统一标准。不同学校通知口径、税务处理、额外 travel grant 是否计入，正文都没披露。拿这个数字去推苹果投入强度，证据还不够。所以我看这条，重点根本不是“哪国学者占多少”，也不是“苹果豪不豪”。重点是苹果承认自己还得继续从博士阶段埋人，补那些它短期买不到、挖不到、也不愿意用激进组织方式去换的能力。这个动作说明苹果没放弃 AI，而且押的还是它熟悉的长线打法。说真的，这打法能不能赢，要看两件事：一是这些 scholar 的研究能不能进入系统栈，而不只停在论文；二是苹果愿不愿意把内部产品节奏改得更像一家 AI 公司。前者要两三年，后者我现在还没看到强证据。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

06:51

52d ago

量子位 · 公众号· rssZH06:51 · 04·22

大厂AI抢人，从实习生开始卷

标题说大厂把AI人才争夺战打到了实习生阶段，但正文页面被微信验证墙挡住了，看不到具体有哪些公司、多少岗位、薪资待遇。目前唯一能确认的信息就是标题本身，其他像转正率、团队规模、具体方向都没披露。

#Personnel#Commentary

精选理由

标题有钩子，但正文完全不可读，零有效信息。HKR-H 和 HKR-R 成立，HKR-K 因为无源可查直接归零，硬性扣分上限卡在 40 以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:35

52d ago

r/LocalLLaMA· rssEN04:35 · 04·22

Reddit 用户感叹：AI 三年像过了一个时代

一位 Reddit 用户在 LocalLLaMA 板块发帖，回顾了 ChatGPT、GPT-3.5、GPT-4、BabyAGI、DALL·E 3 和 ElevenLabs 这三年来的进展，觉得已经像过了一个完整的时代。他提到 OpenAI 的 API 注册曾送 5 美元额度，早期 GPT-4 有使用次数限制，而 BabyAGI“99% 的时候会失败”。...

#Agent#Audio#Code#OpenAI

精选理由

这是一篇社区怀旧帖，不是产品更新或研究发布。HKR的h来自‘仅3年就感觉像历史’的反差感，r来自从业者共同的记忆点，k不成立因为帖子没提供任何新事实或可验证细节，所以维持all层级。

一句话点评

Reddit 用户翻出三年前本地跑大模型的帖子，感叹当年连 7B 模型都稀罕。正文被 Reddit 屏蔽，看不到具体讨论。这条更多是社区怀旧情绪，没有新信息或技术突破。

锐评

这篇帖子把3年AI迭代写成怀旧史。正文能核对的细节只有3个：OpenAI 新账号 5 美元 API 额度、GPT-4 早期消息限额、BabyAGI“99%失败”属于作者个人观察。我对这类帖子有点复杂。一方面，这种情绪是真的。2023 年那批人第一次拿到 GPT-4，确实会记得“把难题攒到 quota 重置再问”的日子，也会记得到处注册“送几次 GPT-4 消息”的站点，或者去 Bing 白嫖 DALL·E 3。那一代体验有很强的稀缺感，像早期云服务额度时代。你拿到的不是稳定生产力，而是几次高价值调用机会，所以社区会长出 prompt 珍惜、额度套利、外部壳站分发这些很具体的使用文化。但我不太买“只是进步太快，所以像过了一个时代”这个讲法。速度当然快，问题是变化不只发生在模型能力。更大的断层在分发方式。2023 年很多人接触 AI，先接触的是 ChatGPT 网页、Bing、各种 GPT-4 套壳和注册送额度；到 2024 年以后，开源权重、长上下文、函数调用、代码代理、语音交互、本地推理一起成熟，入口从“抢额度”变成“选工作流”。这不是单纯的 Moore 定律叙事，帖子把关键差异抹平了。 BabyAGI 那段我尤其想泼点冷水。它早期经常跑崩，不只因为模型“不够聪明”。当时还有一堆更基础的问题：tool use 没有稳定协议，长链任务几乎没有像样 eval，向量检索质量参差不齐，prompt chaining 靠玄学调参，成本和延迟也不允许你无限回环。我自己一直觉得，2023 年 agent demo 最误导人的地方，就是把 orchestration 缺陷都算在模型头上。后来大家把函数调用、环境约束、检查点、回滚、结构化输出补上，agent 才从玩具慢慢变成系统。这个上下文，原帖没展开。还有一个我不太舒服的点：它把 ChatGPT、DALL·E 3、ElevenLabs、图像定位、Mythos 这些体验并排摆在一起，读感很爽，但信息密度其实不高。标题已经给出“3 年像一个时代”，正文没披露各节点的日期、价格、模型版本，也没说明哪些是首次可用、哪些只是个人第一次接触。对从业者来说，这种“我记得当时很震撼”有情绪价值，技术价值有限。说真的，这条更像社区代际感的样本，不像趋势判断。它记录的不是“AI 已经成熟”，而是第一波 API 原住民开始意识到：当年那些看起来很神奇的能力，已经从稀缺特权变成默认配置了。怀旧感来自这个落差，不来自时间本身。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:31

52d ago

r/LocalLLaMA· rssEN04:31 · 04·22

MoE 模型低于 10B 活跃参数，写代码像在赌博

Reddit 用户反映，每 token 活跃参数低于 10B 的 MoE 模型（如 qwen3-coder-next、qwen3.5-35b、qwen3.6-35b-A3b）在代码生成时连贯性差，需要多次对话引导才能稳定输出。相比之下，同系列的稠密模型 qwen3.5-27b 表现更稳定。帖子没有给出具体评测数据、提示词、成功率或延迟信息，所以这点先别...

#Code#Agent#Qwen#LocalLLaMA

精选理由

这是一条Reddit上的观点帖，不是实验报告。HKR-H靠'赌博'这个比喻吸引点击；HKR-R踩中了dense vs MoE在编码场景下的可靠性争议，对用本地模型写代码的人有共鸣。HKR-K不成立，因为正文没给任何可复现的测试数据，结论目前没法验证，所以分数低。

一句话点评

正文被 Reddit 屏蔽，只留下标题。标题说 10B 以下 MoE 像赌博——小 MoE 模型因为专家少、路由不稳定，推理效果忽高忽低，不像大 MoE 那样可靠。缺具体实验数据和模型名称，无法判断是架构问题还是训练不足。

锐评

发帖人把问题说得很直：qwen3.5-27b dense 在编码代理里比 qwen3.6-35b-A3b 更稳，条件是工具很多、需要连续多步决策。这个结论我不会直接采纳，因为正文没给测试集、提示词、温度、量化方式、成功率、时延，也没说是在单轮补全还是多轮 agent harness 里跑的。只凭体感，下不了“10B 活跃参数以下就不行”这种线。但这条抱怨我基本信一半。MoE 在本地推理里常见的问题，不是单题 benchmark 分数低，而是轨迹抖动大：同样任务，路由一变，工具选择、子目标拆分、停手时机都会飘。代码代理对这种抖动特别敏感，因为它不是只要答对一段代码，还要连续做对 3 到 10 步。一步选错工具，后面全是修补。dense 模型即便绝对能力差一点，策略往往更连续，人在环里会轻松很多。我一直觉得，LocalLLaMA 圈子对小 MoE 的乐观有点过。大家容易把“tokens/s 更高、榜单分数不差”直接映射成“代理更好用”，这中间差了一层 execution reliability。去年到今年，很多开源 coder 都出现过这个现象：单轮补全很亮眼，一进带工具环境就开始乱摸文件、乱调用 shell、抓住无关工具不放。我没核到 Qwen 这几版的官方 agent benchmark拆分，但这类问题在 SWE-bench 之外的真实仓库修复里很常见。我对“10B”这个数本身有怀疑。更像是经验阈值，不像普适规律。活跃参数只是一层，路由器训练、专家专门化程度、KV cache 压力、量化后 router 是否失真、工具调用样本占比，都会影响稳定性。一个 A3B 如果 router 训得好、工具数据够多，未必输给 27B dense；反过来，一个账面 active params 更高的 MoE，也照样会在 agent loop 里犯蠢。正文没有这些信息，只能先把它当成用户侧告警，不是模型定律。所以这帖的价值，不在“MoE 小于 10B 不行”这句口号，在它提醒了一件很实际的事：你评估代码代理，别只看 pass@1 和吞吐。至少要补三组数：多轮任务成功率、无效工具调用率、人工纠偏次数。没有这三组数，dense 和 MoE 的优劣很容易看反。说真的，要是一个模型每 5 分钟就要我关一次工具、改一次轨迹，它再快也只是把人的精力搬成了隐藏成本。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:30

52d ago

FEATUREDr/LocalLLaMA· rssEN04:30 · 04·22

个人实测：Qwen 3.5 27B 和 Gemma 4 31B 修代码全满分，但 Qwen 省一半 token

一位用户在 Reddit 上做了个代码修复测试，对比了五组量化模型。Qwen 3.5 27B Q4 和 Gemma 4 31B Q4 都修好了全部 37 道题，满分 37。Qwen 3.6 35B Q4 修好 32 道，Gemma 4 26B Q4 修好 28 道，而 Gemma 4 26B Q8（8 位量化）反而只修好 17 道——说明提高精度没带来...

#Code#Tools#Benchmarking#Benchmark

精选理由

这篇的价值在于实测数据，不是标题。H 来自 Q8 反而不如 Q4 的意外结果；K 来自 37/37 修复数和 16K vs 32K tokens 的效率对比；R 弱是因为这只是个人评测，不是行业标准基准，结论不能直接外推。

一句话点评

Reddit 帖子被屏蔽，正文没拿到，只有标题说这是个人评测对比三款模型，结论和测试方法都看不到。

锐评

这条信息本身是个空壳。标题提到一位用户用自己的评测集对比了 Gemma4 26B MoE（混合专家模型，Q8 量化版）、Qwen3.5 27B 稠密模型和 Gemma4 31B 稠密模型，但 Reddit 原文被网络策略拦截，返回了 403 错误，我们拿不到任何测试细节、评分或结论。从标题能猜出这是本地部署场景下的性能对比，26B 的 MoE 模型因为每次只激活部分参数，推理成本可能比 31B 稠密模型低，但实际效果如何完全未知。评测方法、任务类型、硬件环境这些关键信息全部缺失，没法判断这个对比有没有参考价值。如果是真的个人实测，这类一手数据对选模型挺有用，但现在只能当一条线索记下，等原文恢复或有人搬运后再看。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

04:00

52d ago

● P1FT · 科技· rssEN04:00 · 04·22

OpenAI洽谈向私募股权合资企业承诺最多15亿美元

OpenAI 打算掏钱当 LP，和私募股权机构成立一家合资公司，专门把 AI 塞进 PE 投的那些公司里干活。金额上限是 15 亿美元。这篇报道正文被付费墙挡住了，没披露合作方是谁、交易结构怎么搭、时间表怎么排。这跟发新模型没关系，更像是 OpenAI 在赌企业端落地——通过私募的钱和项目渠道，把自己的模型铺进更多传统行业。

#Tools#OpenAI#Partnership#Funding

精选理由

FT 信源报出的 OpenAI 资本动作，15 亿美元上限给了 K 分，私募渠道的部署意图给了 H 和 R 分。合资方、结构和落地时间全缺，所以分数压在 80 出头：放 featured，不上头版。

一句话点评

OpenAI 打算拿 15 亿美元投进一个私募股权合资项目，但 FT 正文被付费墙挡了，具体投向和结构都不清楚。

锐评

这条消息目前能确认的信息很有限。FT 的标题说 OpenAI 在谈，要往一个私募股权合资企业里投最多 15 亿美元，但文章正文需要订阅才能看，所以交易细节、合资方是谁、资金具体用来做什么，这些关键点都没法核实。另一篇相关报道提到私募股权在同时接触 OpenAI 和 Anthropic，说明这可能是 AI 公司跟传统资本之间一种新的合作试探，而不只是常规融资。15 亿这个数字本身不小，但放在 OpenAI 的体量下，更像是在用别人的钱和渠道去撬动某些资产或项目，而不是单纯缺钱。现在下判断还太早，得等更多条款和参与方浮出水面。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

52d ago

FEATUREDFT · 科技· rssEN04:00 · 04·22

保险公司开始给 AI 和“LLMjacking”相关的网络攻击理赔设上限

Beazley 和 QBE 这两家保险公司打算在网络安全险里，对由 AI 和“LLMjacking”（偷用别人大模型算力）引发的损失设置赔付上限。文章正文被付费墙挡住，没披露具体上限金额、触发条件，也没说什么时候开始执行。核心争议在于保单条款怎么界定“跟 AI 有关的损失”——这个定义会直接决定企业能拿到多少赔偿。

#Safety#Beazley#QBE#Policy

精选理由

FT 这条消息本身是个信号：Beazley 和 QBE 这些承保方开始把 AI 和“LLMjacking”单独拎出来设赔付上限，说明 AI 风险已经进入核保条款，不再是概念炒作。我会先打个折——正文没给具体上限数字、触发条件和生效时间，所以没法判断力度有多大。这点先别太激动，真正值得盯的是后续保单措辞怎么定义 AI 相关事件，而不是标题里的技术热词。

一句话点评

保险公司开始对 AI 和“LLM 劫持”相关的网络攻击损失设赔付上限了，但 FT 这篇正文被付费墙挡住，具体上限数字和条款细节都没披露。

锐评

这条新闻的核心信号是：保险业已经把 AI 带来的新型网络风险写进保单限制条款了。“LLMjacking”指的是攻击者偷用别人的大模型 API 密钥来跑自己的任务，账单却算在受害者头上。保险公司现在要对这类损失设赔付上限，说明他们判断这种攻击的损失规模可能很大，而且不好定价。但文章正文被 FT 的付费墙完全挡住，我们看不到任何具体数字——上限是多少、哪些险种受影响、哪些保险公司在带头做这件事，全都不清楚。也没有披露他们依据什么数据做出这个决定，是已经出现过大额理赔案例，还是纯粹基于风险建模的预防性调整。对 AI 从业者来说，这条值得关注的点在于：如果你的公司在用大模型 API，被劫持密钥产生的费用可能不在传统网络保险的全额保障范围内了。但具体影响多大，得等看到条款细节才能判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

52d ago

FT · 科技· rssEN04:00 · 04·22

宾州芯片复兴卡在特朗普手里，联邦拨款没到账

宾夕法尼亚州的芯片制造复兴计划停摆了，因为承诺的联邦资金一直没到位。选址在利哈伊谷，这地方早年有过芯片产业历史。正文没披露拨款金额、项目名称和延迟多久，所以先别太激动，关键看钱什么时候能拨下来，而不是听复兴故事。

#Donald Trump#Pennsylvania#Lehigh Valley#Policy

精选理由

冲突钩子清晰，FT 给了基础信源背书，不算噪音。但披露的事实很薄：只确认宾州联邦拨款卡住，项目名称、金额、延迟时长都没写；只有 HKR-H 通过，所以维持原判。

一句话点评

宾夕法尼亚的芯片制造复兴因特朗普政策不确定性陷入停滞。FT报道，但全文需付费，具体项目、投资额和受影响企业未披露。关键看《芯片法案》资金能否落地，以及新政府是否会调整补贴条件。

锐评

联邦承诺资金卡住了宾夕法尼亚芯片项目，这个事实已经够说明问题：美国芯片政策的难点从来不只在立法批准，也在拨款落地。标题给了地点 Lehigh Valley，也给了结果“陷入搁置”；正文没披露项目名称、资金规模、对应工艺节点、延迟多久，这些关键条件都缺。信息这么薄，我不会接受“宾州复兴受挫”这种大词，眼下只能判断成一件更朴素的事：地方制造计划对华盛顿付款节奏高度依赖，而这套节奏在特朗普治下显然不稳。我对“comeback”这个说法不太买账。芯片制造回流不是靠历史情怀启动的，也不是靠州政府讲祖产故事就能推进。晶圆厂、先进封装、材料配套，任何一环都吃长期资本开支、稳定电力、熟练工人和多年采购承诺。标题只说“ promised federal funds have not come through ”，这已经足够把问题指向执行层，不是叙事层。没有到账日期，地方政府没法签总包；没有确定补贴，设备商和材料商也不会按满产预期配套。说真的，这类项目最怕的不是反对，而是悬着。外部参照其实很清楚。拜登时期 CHIPS Act 讨论最热时，市场就高估了“宣布”和“开工”之间的距离。Intel 俄亥俄项目、台积电亚利桑那项目、三星得州扩产，过去两年都反复证明一件事：土地、劳动力、供应链和补贴兑现，任何一项晚几个月，整条时间表都会往后滑。我记得 2024 年开始，美国商务部才陆续敲定几笔大额奖励，很多项目在官宣后隔了很久才看到明确条款；具体月份我这里没核实，但“钱批了”和“钱到位了”一直不是同一个动作。宾州这条更像是这个老问题的地方版。还有个更尖一点的判断。特朗普如果把 CHIPS 相关拨款改成更强的政治筛选工具，受伤最深的不会是已经开工的大厂，而是这种还在等待首笔关键资金的次级地区项目。先进制造吃的是可预期性。大客户愿意为 Arizona、Texas、Ohio 的超大项目忍受波动，是因为厂商自己能先垫资本，地方配套也更成熟。Lehigh Valley 这种地方如果没有联邦资金先把风险压下去，就很容易在内部排位里被挤掉。标题没给公司名，这里我不能硬猜，但无论是 IDMs、化合物半导体，还是特色工艺厂，逻辑都一样：资金晚到，项目就会先缩，再拖，最后改口成“重新评估”。我还想补一句行业语境。2025 到 2026 这轮美国制造叙事里，最常见的误判就是把芯片政策看成单次财政刺激。它更像多年期信用承诺。企业不是只看补贴总额，也看政府会不会换口径、会不会换条件、会不会把审批和拨付拆成好几段。一次延迟，影响的不只是这一个州的项目 IRR，还会抬高下一批项目对美国本土制造折现率的判断。这个后果比标题里的“宾州复兴搁浅”严重得多。所以我对这条的结论很直接：目前只有标题信息，但已经能看出问题核心是联邦兑现能力，不是宾州有没有芯片历史。等更多细节出来，我最想先看三件事：具体项目是谁，承诺金额是多少，卡在审批、拨付还是配套条件。没有这三项，任何“回归制造”口号都不该当真。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

03:30

52d ago

● P1机器之心 · 公众号· rssZH03:30 · 04·22

苹果把 Transformer 改成了 Mamba，推理成本从平方级压到线性

苹果发了一篇技术文章，讲怎么把一个训好的 Transformer 模型（Pythia-1B）蒸馏成 Mamba 架构，让推理时的计算量从平方级降到线性。他们没直接硬蒸，因为直接蒸效果会崩（困惑度直接飙到 100 以上）。实际分了两步：先把 Transformer 的注意力换成一种叫 Hedgehog 的线性注意力，让模型适应线性计算；再把这个中间模型映...

#Inference-opt#Reasoning#Benchmarking#Apple

精选理由

我会先打个折：这还是个论文结果，不是已经落地的产品。但路线本身有意思——不是从头训 Mamba，而是把现成的 Transformer 蒸馏过去，省了大量训练成本。正文给出的下游任务（ARC、PIQA、BoolQ 等）说接近教师，但没放具体数字，这点先别太激动。如果真能在长上下文场景把推理成本压到线性，对需要处理长文档或长对话的产品是实打实的省钱。

一句话点评

苹果把 Transformer 改成 Mamba 架构，推理成本从平方级降到线性，但正文被验证页挡了，看不到具体方法和实验数据。

锐评

这条消息说苹果搞了个方法，能把 Transformer 模型改装成 Mamba 那种状态空间模型，推理时的计算量不再随输入长度平方增长，而是线性增长。对长文本处理来说，这意味着成本会大幅下降，延迟也更可控。但问题是，原文来自微信公众号，现在被环境异常验证挡住了，我拿不到任何技术细节。不知道他们是怎么改的、改了哪些层、性能掉多少、在什么规模上验证的。标题里“推理成本直接打成线性”听起来很诱人，但没有实验数字支撑，也没说清楚是训练时就改还是事后转换。这点先别太激动，等看到论文或技术报告再说。目前能确认的只有：苹果确实在探索把 Transformer 往更省钱的架构上迁移，方向本身不新鲜，但如果是无损或低损转换，那对落地部署会很有价值。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:30

52d ago

● P1机器之心 · 公众号· rssZH03:30 · 04·22

ICLR 2026 | ProSafePrune：用低秩剪枝治大模型过度防御，不训练、不拖慢推理

合肥工业大学和讯飞团队提出 ProSafePrune，一种低秩参数剪枝方法，专门解决大模型“过度防御”——把正常请求也误判为有害而拒绝回答。做法是用 SVD 把模型中间层的参数空间拆成安全、有害和伪有害三个子空间，然后剪掉重叠的“过度有害”方向。在 LLaMA-2-7B 上，OR-Bench 合规率从 11.0% 跳到 73.0%，安全评分只掉了不到 ...

#Alignment#Safety#Interpretability#Hefei University of Technology

精选理由

我会先打个折：这是篇研究论文，不是产品发布，所以放 featured 而不是 p1。但 HKR 三项全中——用剪枝来缓解过度拒答这个思路本身就够反直觉，正文给了 7B-70B 的规模、OR-Bench 从 11.0% 到 73.0% 的跳升，以及 SVD 拆子空间的机制，信息量够。更关键的是它不增加训练和推理成本，这点对实际部署太友好了，从业者一看就懂价值在哪。安全分数只是“小幅下降”，MMLU 还升了，说明不是牺牲有用性换的。

一句话点评

正文被微信环境验证页挡住了，看不到具体方法、剪枝比例和安全测试数据，只能从标题判断方向。

锐评

这篇论文标题说能通过剪枝解决大模型“过度防御”的问题，但文章内容完全没加载出来，只显示微信环境异常需要验证。所以没法确认它具体剪了什么、怎么剪、在哪些安全基准上测的、防御能力下降多少、有用性有没有跟着掉。标题里“一剪见效”听起来像剪枝后模型不再乱拒答，但没看到数字就没法判断是省了算力还是丢了安全。如果后续能看到原文，我会重点看它剪枝前后的安全评分变化、有用性变化，以及是不是只在单一模型上做的实验。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:30

52d ago

FEATURED机器之心 · 公众号· rssZH03:30 · 04·22

荣耀在 MagicBook 上预装 YOYO 爪，管它叫全球首款“智能体笔记本”

荣耀把 YOYO 智能体直接做进了 MagicBook 系统里，出厂自带 5 个主智能体和 23 个子智能体。官方说这套方案比外接 OpenClaw 省一半的 token 消耗，还加了本地处理、二次确认和内核级加密。说白了就是把智能体打包成笔记本默认功能，不用自己折腾部署。但正文没提具体用了哪个模型、硬件配置、卖多少钱、什么时候开卖，这些关键信息都缺着...

#Agent#Memory#Inference-opt#Honor

精选理由

荣耀把 YOYO Claw 直接预装进 MagicBook，等于把智能体做成出厂能力，这点比跑分更有意思。文章列了 5 个主智能体、23 个子智能体，覆盖教育到内容创作，还提到本地处理、二次确认和内核级加密，信息量够硬。词元消耗降 50% 这个数我会先打个折，因为没给对比基准和测试条件。真正让我把分停在 76 的原因是正文没披露模型、硬件配置、价格和上市时间——缺了这些，没法判断实际成本和落地节奏。

一句话点评

标题很唬人，但正文被微信验证页挡住了，实际产品长什么样、怎么工作完全看不到，这条先别当真。

锐评

这条消息目前没法认真评价。机器之心公众号推文标题写的是“全球首个养虾本”，听起来像某种针对水产养殖的软硬件一体设备，主打懒人养虾、开箱即食。但点进去后，文章正文被微信环境异常验证页完全拦截，除了标题和“去验证”按钮，没有任何产品细节、技术方案、价格或实际使用案例。从标题推测，这可能是一个集成传感器、自动投喂或水质监控的养殖终端，但正文没披露任何关键信息：硬件配置、数据采集方式、是否联网、算法介入程度、实际养殖效果对比，全都不清楚。标题里“千万养虾人”这个数字也缺乏来源，更像营销话术。我会先打个折：在能看到完整内容之前，这条只能当作一个未经验证的产品预告。如果后续有实测数据或拆机报告，才值得再拿出来讨论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:20

52d ago

FEATUREDr/LocalLLaMA· rssEN03:20 · 04·22

在 M2 Max 上本地跑 Qwen3.6-35B-A3B 做编程 agent，配置全公开

一位用户在 64GB M2 Max MacBook Pro 上通过 llama.cpp 本地跑 Qwen3.6-35B-A3B，然后接上 pi coding agent 干活。关键配置：用 Unsloth 的 UD-Q5_K_XL 量化版，显存占用约 19GB，上下文窗口开到 131072，最大输出 32768 token，batch-size 和 u...

#Agent#Code#Tools#Apple

精选理由

一篇可复现的本地部署记录，数字和配置都给了，H 和 K 没问题。R 偏窄：对本地跑模型的人有价值，但对整个 AI 行业来说不算关键节点，所以 tier 留在 all 合理。

一句话点评

这条帖子正文被 Reddit 屏蔽了，只看到标题，具体配置和实测效果都没拿到。

锐评

这条信息能说的很有限。标题讲的是把 Qwen3.6-35B-A3B 这个模型跑在本地当编程助手用，还分享了配置。但 Reddit 原文被网络策略挡了，我们拿到的只有标题，没有正文。所以模型怎么部署的、用了什么量化方式、显存占用多少、代码生成效果怎么样，这些关键信息全缺。 Qwen3.6-35B-A3B 本身是个 MoE 模型，总参数量 35B，激活参数只有 3B，理论上本地跑的门槛不高，一张消费级显卡可能就够。但没看到实际配置之前，这点先别太激动。如果你正好在试这个模型做 coding agent，建议直接去 Reddit 搜原帖，或者等作者后续补发。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

03:00

52d ago

新智元 · 公众号· rssZH03:00 · 04·22

南洋理工开源单图重建可交互3D模型，不用多视角也能出结构

南洋理工开源了一个结构推理框架，能从单张图片直接重建出可交互的3D模型，不需要多视角输入。正文没披露模型名称、训练数据、质量指标或仓库链接，所以具体效果和门槛还不清楚。核心卖点是省掉了多视角采集的麻烦，但单图重建的几何精度和交互流畅度目前没有验证数据支撑。

#Vision#Reasoning#Tools#Nanyang Technological University

精选理由

H 通过：单图到可交互 3D 这个 hook 确实少见，不是常见的多视角重建路线。K 不通过：正文只复述了标题，模型名、评测指标、训练数据、开源地址一概没有，信息量等于零。R 不通过：没披露任何对实际部署、成本或竞争的影响，暂时看不出能改变什么。

一句话点评

南洋理工开源了一个单图重建3D模型的框架，号称不用多视角，直接推理结构。但正文被屏蔽，技术细节、效果对比、开源地址全没披露。单图重建3D一直是难题，如果真能稳定出可交互模型，对游戏、电商场景挺实用。但这类工作通常依赖大量训练数据或强先验，泛化性存疑。建议等完整论文或代码出来再评估，目前信息不足以判断含金量。

锐评

标题给出南洋理工开源单图重建可交互3D框架，正文却未披露模型名、数据集、指标和仓库地址。就这组信息量，我的判断很直接：这条现在还不能当技术突破看，只能当一个待验证的研究信号看。单图到3D这件事，2025年已经不新了。社区这两年看过不少路线：Zero-1-to-3 先把单图补成多视角，再进重建；OpenLRM、Stable Fast 3D、Tripo 一类方法把前馈速度做快；腾讯混元3D和几家创业公司则把“可编辑、可打印、可游戏资产化”讲得更完整。现在再说“无需多视角”，门槛已经不是能不能做出来，而是三件更硬的事：几何是否闭合、纹理是否稳定、交互格式是否真能进 Blender/Unity/Unreal。这篇正文一项都没给。我对“结构推理框架”这个表述也有点保留。这个词听起来像在强调比纯生成更懂对象结构，但没有 benchmark，它也可能只是给已有单图3D流程换了个包装。比如如果没有 GSO、Objaverse、ABO 或自建数据的测试结果，没有 Chamfer Distance、F-score、法线一致性，连最基本的几何质量都没法对齐；如果“可交互”只是网页里能旋转，那跟可用的 3D asset 差得很远。我还没查到 repo，也没看到 demo。要让我把这条往上调一级，至少得看到四样东西：公开代码；输入输出耗时；和 OpenLRM、SF3D 或 Tripo 这类基线的同口径对比；导出格式和失败案例。现在只有标题信息，先别急着把它算进生产可用的 3D 生成栈。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

02:43

52d ago

X · @dotey（宝玉）· x-apiZH02:43 · 04·22

用户分享GPT Image 2生成日式少年漫画提示词

X 用户 dotey 分享了一个 GPT Image 2 的提示词，用来生成一张彩色少年漫画页面。提示词要求画主角发现一支叫“Quill of GPT Image”的魔法笔，笔上要有 OpenAI 标志，页面要像拍下来的实体漫画书，比例是 1440x2560 竖版。正文没给出生成结果，也没说模型设置或多次生成是否稳定，所以效果和一致性未知。

#Multimodal#Vision#OpenAI#Commentary

精选理由

这是一条单纯的GPT Image 2提示词分享，没有输出、参数、复现或一致性证据。重要性28分，低于40分且无行业切入点，因此归为excluded。

一句话点评

有人分享了用 GPT Image 2 生成日式少年漫画和中国漫画的提示词，目前只有标题，正文没给具体 prompt 内容。如果提示词真能稳定输出特定画风，对做漫画或视觉内容的人挺实用，但效果和可控性还得实测。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

02:18

52d ago

X · @dotey（宝玉）· x-apiZH02:18 · 04·22

用户分享GPT Image 2杂志拼贴提示词

dotey 发了一条 GPT Image 2 的提示词，要求生成一张 4:5 竖版杂志拼贴，中心标题固定为“Create Everything at Once”。画面要包含科学图表、老地图、UI 截图、漫画分镜、工程蓝图等，布局不能是网格，颜色要鲜艳。这条帖子没提用了哪个模型版本、生成参数或实际出图效果。可复用的是提示词结构，不是产品更新。

#Multimodal#Vision#Tools#GPT Image 2

精选理由

这是一段提示词片段，不是产品更新或经过验证的工作流。HKR-H、HKR-K、HKR-R 三项都不满足：没有展示输出，没有模型设置或结果，也没有明确的行业痛点，因此排除。

一句话点评

用户分享了让 GPT Image 2 生成杂志拼贴风的提示词。正文没给具体词或效果图，所以只能当个线索看。如果你正好想试这种风格，可以自己去搜原推或社区帖子。目前信息量约等于零，别急着当教程用。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

02:15

52d ago

Hacker News 首页· rssEN02:15 · 04·22

Kuri：用 Zig 写的浏览器自动化工具，对标 agent-browser

justrach 在 GitHub 上开源了 Kuri，一个用 Zig 写的浏览器自动化与网页爬取工具，定位是 agent-browser 的替代品。它主打 Zig 原生、token 高效的 CDP 快照（Chrome DevTools Protocol 的截图，比传统方式省 token）、HAR 录制（记录网络请求）和独立抓取器。目前 GitHub ...

#Agent#Tools#GitHub#justrach

精选理由

这是一个角度有点意思的开源仓库，但披露的信息太薄。HKR-H 靠新颖性通过；HKR-K 不通过，因为文章没给机制、许可证或基准；HKR-R 也不通过，目前没有热度或行业争论。

一句话点评

一个用 Zig 写的浏览器自动化工具，主打 token 高效和 CDP 快照。作者一个人在做，GitHub 115 星。亮点是自称比 Playwright/Selenium 省 token，适合 AI agent 抓网页。但项目刚起步，没 benchmark 数据，也没说跟主流工具比到底快多少、省多少。Zig 生态小众，真要集成进现有 agent 流程还得自己踩坑。先观望。

锐评

Kuri 这条现在能确认的事实很少：项目作者 justrach 放出了一个 GitHub 仓库，标题把它叫作“基于 Zig 的 agent-browser 替代方案”，HN 只有 7 分和 1 条评论。标题给了语言和对标对象，正文没披露架构、能力边界、许可证、沙箱方式，也没给 benchmark。信息到这个程度，我不会把它当成“新一代 agent runtime”，最多当成一个待核实的实现草案。我对这里面的“Zig”标签有点保留。Zig 适合做系统层、CLI、低依赖分发，拿来写浏览器自动化或 agent 执行器并不奇怪，编译产物也干净。这些优点能解决的是部署摩擦，不直接解决 agent-browser 这一类项目最难的三件事：状态管理、失败恢复、权限收敛。去年到现在，做 browser agent 的开源项目已经很多了，常见栈还是 Playwright、Chrome DevTools Protocol、Python/TypeScript glue code。它们卡住的地方，不是语言太慢，而是网页环境太脆、工具调用太松、步骤一长就失控。Kuri 如果只是把同一套控制逻辑换成 Zig，工程味会更强，产品结论未必变。我还想追问一个很实际的问题：它替代的到底是哪一层？是替代 agent-browser 的浏览器控制器，替代 agent runtime，还是替代整套“模型+工具+页面执行”框架？这几个层级差很多。正文没说，我不想替作者补叙事。开源圈很容易把“我也能驱动浏览器”讲成“我也能做可靠代理”，这中间差着观测、回放、幂等、审计、凭证隔离一整套基础设施。没有这些，demo 能跑，生产照样掉坑。外部参照其实很明确。Browser Use、Open Operator 那一路把重点放在网页任务完成率和模型协同；Playwright 生态把重点放在稳定自动化；不少本地 agent 项目又把重点放在 sandbox 和权限边界。我没看到 Kuri 站在哪一边，因为正文根本没给。要是仓库后面补出可复现的执行日志、错误恢复策略、页面状态抽象，再配一个清楚的许可证，这条才开始有讨论价值。现在这更像一个 repo 入口，不像一个已经成立的产品判断。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

01:42

52d ago

FEATURED彭博科技· rssEN01:42 · 04·22

日本财相本周约谈大银行，专门聊 Anthropic 新模型 Mythos 可能带来的风险

日本财务大臣片山皋月计划最早本周内召集国内主要银行开会，议题直指 Anthropic 最新模型 Mythos 对金融业的威胁。目前公开信息里没写 Mythos 具体能干什么、风险是哪种类型，也没提会不会出台监管措施。但这件事本身说明，日本可能要把前沿模型的风险正式摆到银行桌面上谈了。

#Safety#Satsuki Katayama#Anthropic#Policy

精选理由

Bloomberg 的信源给这条消息加了分：日本财务大臣要见大银行，点名讨论 Anthropic 的 Mythos 模型，这在政策层面是个实打实的信号，所以 H 和 R 都过了。分数停在 72，因为 K 太薄了——正文没披露 Mythos 的能力、风险类型和处置方向，我会先打个折。标题容易让人以为出了大事，但真正值得盯的是日本金融监管有没有把前沿模型塞进银行风险会议议程，这点先别太激动，等后续细节出来再说。

一句话点评

日本财相要跟银行开会聊 Mythos 威胁，但正文被 Bloomberg 的机器人验证墙挡了，具体威胁是什么、会议要讨论啥措施都没披露。

锐评

这条新闻本身挺值得关注——日本财政大臣主动召集银行讨论一个叫 Mythos 的威胁，说明事态已经上升到需要政府层面协调的程度。但问题在于，Bloomberg 原文被反爬机制拦住了，我们拿到的只有标题和 403 报错页面，正文内容完全缺失。所以 Mythos 到底是什么、是技术漏洞还是某种新型攻击手段、涉及哪些银行、财相打算拿出什么应对方案，这些关键信息一概不知。从标题判断，这很可能跟金融系统的网络安全或某种新兴技术风险有关，但没看到正文就不能确认。我会给这条新闻的重要性打个折——标题有信号，但信息缺口太大，没法做进一步判断。建议直接找 Bloomberg 原文或者等日本财务省发正式公告，才能知道这到底是个真威胁还是例行沟通。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

01:41

52d ago

X · @dotey（宝玉）· x-apiZH01:41 · 04·22

一个提示词把四季塞进同一张图，GPT Image 2 的玩法

dotey 发了一个 GPT Image 2 的提示词，能让一张图从左到右依次显示冬春夏秋，场景是上海外滩看陆家嘴。提示词要求 8K、电影光效、季节之间没有明显分界线。这只是一个可复用的风格化提示词，不是模型更新。正文没提用了哪个模型版本、生成参数或对比效果，想复现得自己调。

#Multimodal#Tools#GPT Image 2#Shanghai Bund

精选理由

这是一条提示词分享，不是模型、产品或工作流更新。HKR-H靠“四季融一图无分割线”这个具体钩子通过；HKR-K因为版本、参数、失败案例和效果对比全没披露而失败；HKR-R对从业者价值很弱，所以整体定为低价值全量推送。

一句话点评

GPT-4o 原生图像生成功能（GPT Image 2）被网友挖出一条提示词，能在一张图里无缝融合春夏秋冬四个季节，效果像延时摄影。目前只有一条推文在传，来源是个人账号，没有官方文档或评测。正文完全没披露提示词原文、生成耗时、是否需多次抽卡。如果是真的，对做封面图、概念设计的人挺实用，但这点先别太激动——等更多人复现再说。

锐评

这条的核心事实很简单：dotey 发布了 1 条 4:3 四季连续过渡提示词，正文只给场景、风格词和季节顺序，模型版本、采样参数、生成张数、失败率都没披露。我的判断是，这条信息量不在“模型又会了什么”，而在“提示词模板正在变成内容产品”。我一直觉得，图像模型到了 2025 年后半段，很多爆款案例已经不是能力突破，而是把一组稳定出片的约束词打包成可复制格式。这条就很典型：左到右季节顺序、无分割线、电影感光照、8K、高细节纹理，全是为了压住构图漂移和语义断层。问题也在这儿——“8K”“cinematic lighting”这类词，经常更像审美口令，不等于可复现质量。没有 seed、没有对比图、没有多次生成结果，我不买“这条 prompt 本身很强”这个说法，最多只能说它写得完整。文章外的上下文也很清楚。Midjourney 时代就有大量“神级 prompt 包”在卖，真正起作用的通常不是华丽形容词，而是构图约束、镜头语言、主体关系和负面限制。到了 GPT Image 这代，模型的自然语言跟随能力更强，长 prompt 的边际收益其实在下降，结构化约束反而更重要。这条能复用，靠的不是“诗意”，靠的是把一个常见需求拆成了连续构图+时间流动+季节显式排序。我还有个保留意见：上海外滩看陆家嘴这个场景，本身就自带强识别地标，模型更容易维持画面统一。你把 {Scene} 换成室内、人物群像、复杂街景，是否还能稳定做到四季无缝过渡，正文没给证据。只有标题信息和 snippet 时，我会把它看成一个可抄的 prompt scaffold，不会把它当成 GPT Image 2 的能力验证。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

01:14

52d ago

FEATURED彭博科技· rssEN01:14 · 04·22

澳大利亚央行盯上 Anthropic 的 Mythos 模型，担心它被用来搞网络攻击

澳大利亚储备银行（RBA）正在关注 Anthropic 的 Mythos AI 模型。起因是 Anthropic 自己说这个模型有能力发动复杂的网络攻击，但彭博这篇报道的正文被付费墙挡住了，看不到具体的技术细节、评估范围和落地时间表。我会先打个折：目前只知道监管机构在盯着，但没披露他们打算怎么盯、盯到什么程度，也没说 Mythos 到底在什么条件下会构...

#Safety#Reserve Bank of Australia#Anthropic#Policy

精选理由

澳洲联储在盯着 Anthropic 的 Mythos AI，理由是这模型被说成能执行复杂网络攻击。我会先打个折：正文只给了彭博 RSS 摘要里那句能力声明，监测范围、技术细节、时间表全都没写。所以这条新闻的看点在于“央行下场盯模型”这个动作本身，而不是已经坐实了什么风险。对从业者来说，这更像一个信号——监管对模型安全能力的关注正在从纸面讨论走向具体盯防，但具体怎么盯、盯到什么程度会动手，现在全是空白。

一句话点评

澳大利亚央行盯上了Anthropic的Mythos模型，担心它被用来搞网络攻击。但正文被付费墙挡了，具体担心什么、有没有实锤都没看到。

锐评

这条消息来自彭博，标题说澳大利亚储备银行（RBA）正在监控Anthropic的Mythos AI，原因是担心网络攻击风险。但文章本身被付费墙拦住了，我们拿到的只有反爬虫提示，正文内容完全缺失。所以目前能确认的只有“RBA在关注”这个动作，至于他们具体在监控什么——是Mythos的代码生成能力被滥用、还是模型本身存在可被利用的漏洞、或者只是监管层面的常规风险评估——这些关键信息一概不知。Anthropic之前对Mythos的定位是能处理复杂任务的AI系统，如果监管机构真的因为安全顾虑盯上它，那说明模型的能力边界可能已经触及了敏感地带。但没看到原文之前，这点先别太激动，等有完整报道再判断不迟。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:45

52d ago

X · @dotey（宝玉）· x-apiZH00:45 · 04·22

GPT Image 2 提示词：四格“Out the Window”办公室梗图

这条推文分享了一个 GPT Image 2 的提示词，用来生成 9:16 的四格“Out the Window”办公室梗图。提示词指定了 4 个角色、4 个场景和双语对话气泡，最后以“Vibe Coding”作为笑点。这不是模型更新，只是公开了一个可复用的提示词，没有输出图、性能细节或发布信息。

#Vision#GPT Image 2#Commentary

精选理由

这不是模型更新，是一个可复用的 GPT Image 2 梗图提示词。HKR-H 靠办公室段子抓人，HKR-R 靠程序员文化共鸣扩散，但 HKR-K 不成立，因为帖子没给图、参数、失败案例或可验证的出图质量。

一句话点评

GPT Image 2 能直接生成“窗外” meme 四格漫画了，输入提示词就出图，省掉手动拼图。但正文完全没披露生成质量、风格一致性、文字渲染能力，也没说是否支持中文 meme。目前只有一条推文截图，样本太少，先别太激动。

锐评

这条帖子只公开了 1 段 GPT Image 2 四格漫画提示词，没有效果图，也没有参数、版本号、生成次数。我的判断很直接：它证明的是社媒上“模板化梗图提示词”还在涨，不证明 GPT Image 2 在漫画一致性上已经稳了。我对这类内容一直有点保留。四格漫画最难的地方，从来不是把台词写进气泡，而是角色跨分镜一致、构图稳定、文字不乱、笑点节奏不塌。正文给了 4 个角色、4 个分镜、9:16 比例和双语文案，这些都属于提示词层的约束；模型有没有按约束执行，完全没展示。连一张输出都没有，你很难判断 GPT Image 2 是一次出图就中过，还是跑了 20 次才挑到能发的版本。回到行业上下文，这种“公开一个长提示词”的传播方式，过去一年已经很常见了。OpenAI 图像模型、Flux 社区、Midjourney 用户都干过同样的事：先用一个熟悉的 meme 模板压低创作门槛，再把模型包装成“会做内容”的工具。问题是，单条 prompt 的复用价值通常没有看起来那么高。模型一改安全策略、字体渲染、长文本跟随，成品就会变；同一条 prompt 在不同日期、不同账号、不同流量负载下，结果都可能漂。这个帖子没给 seed、没给采样条件、没给失败案例，我不太买“可直接复刻”的暗示。还有一点我会多看一眼：它拿“Vibe Coding”做 punchline，说明图像生成的传播已经开始吃 AI 圈内梗，而不是面向泛用户叙事。这对社媒扩散有用，对产品判断没那么有用。你可以把它当成一个 prompt asset，但别当成能力证据。要让我改观，至少得看到同一角色跨 4 格的稳定输出、文字可读率、失败率，或者官方明确这是 GPT Image 2 的哪一版。现在这些，正文都没披露。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:28

52d ago

FEATURED彭博科技· rssEN00:28 · 04·22

黑石旗下AirTrunk拟发行数据中心资产支持债券，规模至少5亿澳元

黑石旗下的亚太数据中心运营商AirTrunk计划发行至少5亿澳元（约3.58亿美元）的资产支持债券。如果落地，这可能是亚洲首批数据中心资产证券化交易之一。正文没披露票息、期限、抵押物范围或发行时间表，所以暂时没法判断融资成本是否划算。这类债券把数据中心机柜的长期租约现金流打包卖给投资者，对AirTrunk来说是把重资产变现、降低负债压力的路子。

#Blackstone#AirTrunk#Funding#Commentary

精选理由

HKR-H和HKR-K通过：新意在于数据中心资产包被包装成债券，且有5亿澳元的具体规模。HKR-R不通过：这是基础设施融资，不是模型、定价或开发者工作流的直接变化；票息、期限、抵押资产范围和发行时间正文都没披露。

一句话点评

AirTrunk 要拿数据中心未来收入发债，但正文被 Bloomberg 反爬挡了，具体利率、规模、评级都没看到。

锐评

这条新闻本身挺直接：黑石旗下的数据中心运营商 AirTrunk 打算发行它的第一笔“数据中心-backed”债券，也就是用数据中心未来的租金或运营收入作为还款来源。这种操作在基础设施融资里不算新鲜，但在数据中心行业，尤其是 AI 算力需求把这类资产炒热的当下，值得看一眼。可惜 Bloomberg 原文被反爬机制拦住了，我们拿不到任何具体数字。发债规模多大、利率定在什么水平、评级机构怎么看、底层资产是哪些机房、租约多长——这些关键信息全是空白。没有这些，就没法判断这笔债是“资产优质所以融资成本低”，还是“趁市场热先圈一笔钱”。对从业者来说，这条消息的信号意义大于分析价值。它说明数据中心正在从私募/股权融资往公开债券市场走，资产证券化的口子可能越开越大。但到底是不是个好 deal，得等条款出来再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

00:15

52d ago

r/LocalLLaMA· rssEN00:15 · 04·22

月之暗面开源 FlashKDA：Kimi 的 Delta Attention 在 H20 上比 Triton 快 2.22 倍

月之暗面开源了 FlashKDA，这是为 Kimi 的 Delta Attention 写的 CUTLASS 内核。在 H20 上比 Triton 基线快 2.22 倍。但帖子没交代测试用的序列长度、batch size 和具体硬件配置，也没给仓库链接。所以这个 2.22 倍目前只能当个标题数字看，没法直接复现验证。

#Inference-opt#Moonshot#Open source#Product update

精选理由

标题给了一个具体声称——在 H20 上比 Triton 基线快 2.22 倍。正文被屏蔽，所以仓库和测试条件缺失，而且话题是底层 CUDA/CUTLASS 工作，没有面向普通读者的入口，触发了硬排除——技术可及性不达标。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

00:15

52d ago

FEATUREDFT · 科技· rssEN00:15 · 04·22

TikTok 想在巴西海岸砸 95 亿美元建数据中心，当地人不干了

FT 这篇报道正文被付费墙挡住了，只能看到标题和摘要。已知信息是：TikTok 计划在巴西海岸建一个 95 亿美元的数据中心，但项目因为环境问题遇到了阻力。标题把这事跟中国 AI 的全球扩张挂上了钩。至于这个数据中心具体要用多少电、电从哪来、审批走到哪一步、反对者是谁，正文没披露，这些才是判断项目能不能落地的关键。

#TikTok#ByteDance#Brazil#Commentary

精选理由

FT 把'全球 AI 推进'这个大词落到了一个具体的 95 亿美元巴西数据中心项目上，还带出了环境阻力。我会先打个折：正文只是 RSS 摘要，缺装机量、电力结构和审批状态，所以别急着下结论。真正值得盯的是，AI 扩张现在开始撞上电、地和许可这三堵墙，这点比地缘叙事更实在。

一句话点评

FT 这篇报道正文被付费墙完全挡住，标题和引语暗示中国 AI 出海在能源消耗上遇到了当地阻力，但具体案例、数据和各方说法都没披露。

锐评

这条新闻目前只能看到标题和一句引语：“为什么能源没用在人身上？”——听起来像是海外项目所在地的居民或官员在质疑中国 AI 设施抢了当地的电力资源。但正文被 FT 的付费墙遮得严严实实，我们看不到任何具体信息：是哪个国家、哪个项目、涉及多少用电量、当地电网压力有多大、中方企业怎么回应的，全都不清楚。标题里“global AI push hits resistance”说明这不是孤立事件，可能涉及多个海外市场对中国 AI 基础设施扩张的反弹。不过在没有看到原文的情况下，没法判断这种阻力是零星的社区抗议，还是已经上升到政策审查层面。如果你能拿到全文，我可以帮你把里面的关键数字和各方立场拆开来看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:04

52d ago

彭博科技· rssEN00:04 · 04·22

ASMPT 业绩超预期，AI 需求推高股价至历史新高

ASMPT 第二季度营收预测高于市场预期，股价一度涨 8.7% 创历史新高。原因是 AI 拉动了半导体业务增长。正文没披露具体营收数字、市场共识或产品线细节，所以这个“超预期”到底超了多少、靠哪块业务，目前还不清楚。

#ASMPT#Product update#Commentary

精选理由

确认的信息：ASMPT 给出 Q2 营收指引高于预期，股价一度涨 8.7% 创新高。HKR-H 靠股价创新高这个钩子通过；HKR-K 和 HKR-R 弱，因为营收金额、预期口径和 AI 产品线占比都没披露，所以这条留在 all 层级，不是完整分析。

一句话点评

ASMPT（先进封装设备商）Q2营收指引超预期，股价创新高，主因AI芯片封装需求拉动。但正文被Bloomberg paywall挡住，具体数字（营收指引增幅、超预期幅度）和订单细节均未披露。利好方向明确，但缺数据支撑，短期情绪驱动为主。

锐评

ASMPT 公布二季度营收指引高于预期，股价盘中一度涨 8.7%。先别急着把这条归进“AI 需求继续爆单”。目前能确认的只有两件事：公司给了更强的指引，市场用股价追价回应。标题把增长直接挂到 AI，正文却没披露营收金额、市场一致预期口径，也没拆半导体业务里到底是哪条线在拉动。这类设备链新闻，我一直觉得最怕一句“受益于 AI”把周期、补库存、先进封装扩产全揉在一起。ASMPT 做的是后段封装和表面贴装相关设备，AI 确实会拉动先进封装、HBM、服务器板级制造需求，但这跟“AI 订单直接兑现到 ASMPT 哪个产品”不是一回事。去年到今年，真正被市场反复验证的是 ASML、Applied Materials、Lam Research、KLA 这几家前段与制程控制公司；后段设备链也受益，但弹性通常更看封装资本开支节奏。我没查到 ASMPT 这次指引里有没有把先进封装设备单列，文章也没给。我对这条叙事有个保留：如果是 AI 需求强到足以改写预期，管理层通常会顺手给更清楚的口径，比如某类半导体设备订单增速、某个客户群补单、或者先进封装相关收入占比。这里都没有。所以现阶段更像“市场愿意把任何超预期半导体设备指引先按 AI 估值去交易”。这不是没道理，只是证据还不够硬。等公司财报原文出来，先看三项：指引区间和一致预期差多少；半导体业务增长是不是高于 SMT 业务很多；订单能见度有没有拉长到下半年。没有这些数字，这条最多算情绪确认，不算产业链定点验证。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

00:00

52d ago

FEATUREDOpenAI 博客· rssEN00:00 · 04·22

OpenAI 发布隐私过滤模型用于个人信息检测和脱敏

OpenAI 今天开源了一个叫 Privacy Filter 的小模型（15 亿参数，但每次推理只激活 5000 万），专门用来检测和遮盖文本里的个人身份信息（PII），比如姓名、地址、邮箱、电话、银行卡号、密码、API Key 等。它是个双向 token 分类模型，一次前向就能给整段文本打标签，支持最长 12.8 万 token 的上下文，而且可以完...

#Safety#Tools#OpenAI#Product update

精选理由

重要性 69。HKR-K/R 通过，因为提供了具体的隐私脱敏机制，且与企业合规需求直接相关。HKR-H 偏弱，且正文未披露模型大小、许可证、支持语言、评测集和误报漏报数据，因此留在 all 而非 featured。

一句话点评

OpenAI 开源了一个能在本地跑的小模型，专门从文本里揪出并遮盖姓名、电话、密码等隐私信息，但别急着当万能药，它自己列了一堆局限。

锐评

OpenAI 放出了一个叫 Privacy Filter 的开源模型，用来检测和遮盖文本里的个人隐私信息。这模型只有 15 亿总参数，激活参数才 5000 万，意味着它非常轻量，可以在你自己的机器上本地运行，不用把敏感数据传到服务器上处理。它能识别八类隐私，包括人名、地址、邮箱、电话、账号和密钥等，并且支持最长 12.8 万 token 的上下文，一次就能扫完长文档。官方说它在 PII-Masking-300k 这个基准上达到了最高水平，但特别提了一句，是修正了原基准里的标注错误之后才拿到的成绩。这点挺关键，说明实际表现可能没纸面数字那么漂亮。另外，正文没披露这个模型在真实业务场景下的误杀率和漏网率，也没给出具体的推理延迟数据。它更适合当作一个基础组件，开发者可以拿回去用自己的数据微调。如果你指望它开箱就能完美处理所有隐私场景，可能会失望。但作为一个能在本地跑、不用联网的隐私过滤工具，它确实给不想把数据送出去的用户提供了一个新选择。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

00:00

52d ago

Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·22

AI 编程工具的配置文件，现在是攻击入口

过去12个月，安全研究者在 Copilot、Claude Code、Cursor、Amazon Q 和 Codex 上发现了至少8个 prompt injection 漏洞，最高 CVSS 8.8。攻击方式高度一致：在项目的配置文件或代码注释里藏自然语言指令，AI agent 读取后当成命令执行。.cursorrules、.claude/setting...

#Agent#Code#Safety#GitHub

精选理由

HKR三项都过：配置文件攻击面是个强钩子，8个CVE的数字够具体，覆盖主流编程工具。评分维持65，因为CVE/安全分析对AI从业者偏小众，而且正文没给CVE编号和修复状态，信息缺口明显。

一句话点评

AI编程工具的配置文件（如.cursorrules、.claude/settings.json）已成攻击入口，至少8个CVE，最高CVSS 8.8。攻击方式：在项目文件里藏自然语言指令，AI agent读取后当命令执行。所有漏洞已修补，但同类问题反复出现，因为LLM分不清指令和数据。91%的用户在YOLO模式下运行，自动批准是最大风险。正文没披露具体受影响用户数。

锐评

过去12个月，研究者在5类AI编程工具里报出至少8个配置文件注入CVE。这个数字已经够说明问题：它不是某家实现粗糙，而是这一代 coding agent 的输入边界从一开始就没立住。我对“配置文件是新攻击入口”这个说法只买一半。配置文件一直都是高价值入口，CI、shell、IDE、package manager 早就反复出事。新东西不在“文件危险”，而在模型把自然语言注释、字段值、README式描述，一并吸进执行链。代码和指令原本靠语法、权限、解释器分层隔开；到了 agent 这里，先统一降成 token，再靠提示词和工具策略补边界。这个设计天生偏软，配置文件只是最容易被稳定复现的载体。外部参照其实很多。2024年到2025年，社区已经反复讨论过 indirect prompt injection：网页、邮件、文档、issue ticket 都能投毒。Simon Willison 那条线我记得讲得很早，核心判断就是“只要模型会读不可信文本，再去调用高权限工具，注入就不是例外”。这次把战场收缩到 Copilot、Cursor、Claude Code、Amazon Q、Codex，麻烦更大，因为开发环境的权限比聊天机器人高得多：能读 repo、改文件、跑命令、提 PR，少一步人工确认就够出事。但我也得泼点冷水。正文没给 CVE 编号、触发条件、修复状态，也没说是否需要用户确认、是否默认开启 agent 模式、是否跨工作区生效。没有这些细节，没法判断这8个洞里有多少属于“高危默认路径”，有多少只是“研究环境可打”。我不愿意把它直接讲成行业失控，不过趋势已经很清楚：谁还在宣传“把规则写进 system prompt 就能管住代码代理”，谁就在重复浏览器安全史里最贵的错误。接下来拼的不是模型更聪明，而是工具调用前的权限拆分、可信上下文标注、还有默认拒绝策略。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

52d ago

Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·22

AI 伪造一切：金融安全正在失去视觉信任

这篇文章讲的是 AI 图像和视频生成正在系统性地摧毁金融行业依赖的视觉验证体系。活体检测可以被虚拟摄像头注入的 deepfake 视频绕过，一张照片就能生成换脸视频，成本低至 5 美元。证件伪造更夸张，合成身份文档欺诈一年涨了 195%，连水电费账单都能伪造，而且没有数据库可以交叉验证。支票欺诈也在升级，AI 生成的假支票能通过 mobile depo...

#Multimodal#Vision#Audio#Commentary

精选理由

HKR-H和HKR-R都成立：标题把AI伪造和金融诈骗直接挂钩，触及信任与安全的敏感神经，从业者会想点开看。HKR-K不成立，因为正文只给了两个数字但没交代来源、样本、案例细节或防御方案，属于硬信息缺失，评分上限被压在40以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

52d ago

Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·22

公众号监控方案对比：五类旁路里只有两条路能长期跑

文章对比了监控公众号更新的五类方案：网页抓取、协议模拟、UI自动化、微信读书API和本地SQLite数据库。前三种要么入口已死要么维护成本高，长期能用的只有微信读书API（适合拿正文做搜索和摘要）和本地数据库（适合拿更新流做监控和自动化）。作者开源了一个CLI工具wechat_db_parser，两条命令就能导出当天订阅更新或某个号最近几篇文章，输出C...

#Tools#WeChat#Open source#Commentary

精选理由

HKR-H和HKR-K通过：文章对比了5种公众号监控方案并开源了CLI工具。HKR-R不通过：这是微信数据接入的基建话题，不是AI模型、产品、成本或行业事件，且正文缺失稳定性数据和版本兼容性，重要性维持38分。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

全部 · 2026-04-22

更多

频道

后台