ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部

200 items · updated 3m ago
RSS live
2026-04-23 · 星期四2026年4月23日
14:00
52d ago
TechCrunch AI· rssEN14:00 · 04·23
Delve 又出事:另一家客户 Context AI 也遭安全事件
TechCrunch 确认,合规初创公司 Delve 曾为 Context AI 做安全认证,而 Context AI 上周刚披露了一起安全事件,导致网站托管巨头 Vercel 数据泄露。目前正文没披露事件规模、攻击路径、受影响数据,也没说 Delve 是否该直接负责。关键信息是客户关联,不是确凿的因果链。
#Agent#Safety#Delve#Context AI
精选理由
HKR-H 通过,因为'又一家客户'的钩子能抓住眼球;HKR-R 通过,因为第三方安全风险对 AI 买家是敏感话题;HKR-K 不通过:报道只确认了 Delve 的认证关系和第二起事件,没有攻击路径、影响范围、数据泄露或归责细节。
一句话点评
Delve 这家合规初创又出事了——它给 Context AI 做的安全认证没拦住数据泄露,还连累了托管巨头 Vercel。TechCrunch 确认了这层关系,但没披露具体泄露了多少条记录、涉及哪些客户。Delve 本身已陷入困境,这次事件等于在伤口上撒盐。对 AI 公司来说,选合规供应商时得多个心眼,认证报告好看不等于真能防漏。
锐评
TechCrunch 证实 Delve 为 Context AI 做过安全认证,当前只有 1 层客户关系被坐实。标题把“另一家 Delve 客户出事”和“Delve 有责任”贴得很近,这个写法我觉得有点过。正文只有 RSS 摘要,事件规模、入侵路径、受影响数据、认证时间点、Delve 的服务范围,全都未披露;没有这些条件,就没法判断是审计失效、控制执行失效,还是认证后环境早已漂移。 我一直觉得,AI 公司近一年最容易被混淆的就是“合规”和“安全”这两个词。SOC 2、ISO 27001、第三方审计,能证明某个时点存在流程和控制;它们从来不保证不会被攻破。2024 年到 2025 年好几起云厂商和 SaaS 事故都说明了这点:拿到认证,不等于没有令牌泄露、权限蔓延、供应链依赖暴露。我没看到本文给出 Delve 认证的具体标准,也没看到认证覆盖生产环境还是只覆盖组织流程,这个缺口很关键。 我对 Delve 的叙事也有保留。很多“自动化合规”创业公司把速度当卖点,几周出报告,接上若干 SaaS 就说控制闭环了。速度当然有市场,但安全认证如果被卖成了低摩擦通行证,客户就容易把“通过审计”误听成“系统够安全”。这次新闻先别急着判 Delve 有罪,也别替这类公司洗白。更合理的读法是:AI 创业公司会开始追问,认证供应商到底验证了什么,抽样深度多深,认证后有没有持续监测。标题已给出关联,正文没给责任边界。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
13:59
52d ago
r/LocalLLaMA· rssEN13:59 · 04·23
OpenAI 把隐私过滤器开源了,Apache 2.0 协议
OpenAI 把一个叫 Privacy Filter 的模型开源了,协议是 Apache 2.0,意味着可以商用。但正文只抓到了 Reddit 的 403 页面,没披露模型名字、权重下载地址、训练数据、评测结果和发布日期。所以目前能确认的只有许可证干净,其他信息一概缺失。
#Safety#Tools#OpenAI#Reddit
精选理由
HKR-H 和 HKR-R 成立:OpenAI 加 Apache 2.0 开源隐私过滤器,标题本身有吸引力,且对可部署的安全栈有实际参考价值。HKR-K 不成立:只有标题,权重地址、基座模型、评测、发布时间、使用限制都看不到,信息不足以支撑判断。
一句话点评
OpenAI 把隐私过滤器开源了,Apache 2.0 协议,权重可商用。但正文被 Reddit 屏蔽,没披露模型大小、过滤精度、训练数据。如果是轻量级分类器,本地部署成本低,适合自建敏感内容拦截。但没跑过基准测试前,先别当主力方案。
锐评
标题称 OpenAI 以 Apache 2.0 释放 Privacy Filter 权重,正文却只拿到 Reddit 403 页面。现在能确认的只有两点:对象叫 Privacy Filter,许可被写成 Apache 2.0。模型名、参数量、权重地址、训练语料、误杀率、漏检率、发布时间,正文未披露。 我对这条的第一反应是:这像一次防守性开源,不像能力前沿的主动外放。隐私过滤器这类组件离主模型更远,商业风险小,合规价值高,也更适合给企业做本地部署。过去一年里,开源社区已经有很多 PII redaction 和 moderation 小模型,常见做法是 token classification、span extraction,或者在小型 encoder 上做多标签分类。OpenAI 现在如果把这一层放出来,我会把它看成两件事:一是给“OpenAI 不开”的舆论降温,二是顺手把安全链路里的一个标准件变成生态入口。 我还是有个保留。Apache 2.0 只说明代码或权重许可宽松,不自动说明数据可追溯、评测可复现、商用限制为零。很多公司嘴上说 open-weight,落地时却不放训练配方、不放阈值建议,最后你拿到的是能跑不能审的黑盒。隐私过滤器又比聊天模型更怕这个,因为企业买的不是“能跑”,是误报和漏报的边界。我还没查到 OpenAI 以前是否公开过同类过滤模型的完整卡片;如果这次也没有 system card 或 datasheet,这条的含金量会打折。 说真的,这事一旦坐实,影响不在模型大小,而在谁敢把它塞进生产链路。能不能进邮件、客服、医疗转录、代码日志清洗,取决于三组信息:一是支持哪些 PII 类别,二是多语种表现,三是延迟和吞吐。标题一条都没给。现阶段我只能说,方向是对的,信息远远不够。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
13:58
52d ago
Hacker News 首页· rssEN13:58 · 04·23
英国生物样本库数据反复泄露到GitHub,已发110次下架通知
英国生物样本库(UK Biobank)握有50万志愿者的基因、健康和生活数据,只允许2万名研究人员在严格协议下使用,禁止二次分享。但研究人员反复把参与者数据误传到公开的GitHub仓库。一个追踪页面显示,UK Biobank已向GitHub提交110份DMCA下架通知,涉及197个仓库和170名开发者,目标遍布至少14个国家。最早的通知在2025年7月...
#UK Biobank#GitHub#The Guardian#Incident
精选理由
HKR 的 H 和 K 都过了:重复泄露的钩子成立,数字和重识别例子也够具体。但 R 没过,因为这件事跟 AI 模型、产品、开源或政策发展没有直接关联,对 AI RADAR 受众的相关性低于 40。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K1·R0
13:00
52d ago
TechCrunch AI· rssEN13:00 · 04·23
天文学家也来抢GPU了:NASA新望远镜数据量暴增,AI找星系加剧显卡荒
天文学家开始用GPU跑AI模型,从海量太空数据里找星系目标——这给本来就紧张的全球GPU供应又添了一把火。NASA的南希·格雷斯·罗曼太空望远镜今年9月发射,预计整个生命周期传回20PB数据;智利的维拉·鲁宾天文台每晚产生20TB;詹姆斯·韦伯每天也有57GB。相比之下,哈勃一天才1-2GB。数据量暴涨,靠人眼看已经不可能了,所以天文学家转向GPU做加...
#Commentary#Incident
精选理由
标题抛出一个反直觉的钩子——天文学家也在加剧GPU紧张,但正文只有一句比喻,没有模型名、采购量、时间线,信息量撑不起40分以上,所以按硬排除规则卡在38分。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
11:50
52d ago
Hacker News 首页· rssEN11:50 · 04·23
博客评论区出现AI生成的连环垃圾评论,伪装成正常对话
博主Terence Eden发现三条伪装成互相回复的垃圾评论,第二条里藏了一个赌场链接。三条评论来自菲律宾同一个IP,每条间隔正好3分钟。他的WordPress用Antispam Bee插件每天能拦掉几百条垃圾评论(截图显示一天拦了272条),但这三条因为没填URL字段、链接也没加https://,绕过了检测。关键手法是伪造对话结构:每条评论都像AI写...
#Terence Eden#Antispam Bee#WordPress#Incident
精选理由
HKR-H 和 HKR-K 都成立:伪对话 spam 模式具体且可测试。HKR-R 不达标,因为对目标受众而言,这只是一个博客审核的轶事,不是 AI 产品、研究或工作流故事,所以分数低于 40,归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K1·R0
11:34
52d ago
● P1The Verge · AI· rssEN11:34 · 04·23
Microsoft 在 Word、Excel、PowerPoint 中推出 Copilot Agent Mode
微软这周把 Copilot 的 Agent Mode 推给了 Microsoft 365 Copilot 和 Premium 用户,不再是只回答问题的聊天框,而是能直接在文档、表格、幻灯片里执行操作。Copilot 办公副总裁 Sumit Chauhan 说,之前的基础模型不够强,没法可靠地控制应用界面。不过这篇报道没写具体能执行哪些操作、覆盖哪些地区...
#Agent#Tools#Microsoft#Sumit Chauhan
精选理由
微软把 Agent Mode 塞进 Word、Excel 和 PowerPoint,等于让 Copilot 从“陪你聊”变成“替你干”,这个转向比单纯升级模型更值得关注。高管自己承认早期模型能力不够,只能被动回答,现在才敢放代理进画布,说明技术门槛确实在降。但正文没提开放范围、定价和具体能执行哪些动作,所以我会先打个折——如果后续披露的动作列表很窄或者只限企业版,实际影响就没标题听起来那么大。
一句话点评
微软把Copilot的“自己干活”模式直接塞进Word、Excel和PPT默认界面了,个人版也能用,但别指望它替你背锅。
锐评
微软把Copilot的Agent Mode(让AI自己规划步骤、调用工具去完成一个任务,而不是你问一句它答一句)设成了Word、Excel、PPT的默认体验。这件事最直接的影响是,你打开办公软件,AI不再是等着你下指令的对话框,而是可以主动去搜你电脑里的文件、写公式、做幻灯片。The Verge管这叫“vibe working”,挺贴切——你给个大概方向,它先跑起来。 这次覆盖范围很广,Microsoft 365 Copilot和Premium订阅用户都能用,连个人和家庭版都支持,不是只给企业客户画饼。但文章没给出任何关于任务成功率、出错率或者用户实际省了多少时间的数据。这种“默认开启”的做法,意味着微软对自家模型的可靠性有了一定信心,但反过来,普通用户也可能被迫面对AI自作主张带来的混乱。 还缺两个关键信息:一是Agent Mode具体能调用哪些工具、权限边界在哪,比如它能不能直接发邮件或改共享文档;二是如果它搞砸了,用户怎么快速撤回或纠正。这些没讲清楚之前,这个功能更像一个高级的自动补全,离真正的“数字员工”还有距离。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
11:25
52d ago
FT · 科技· rssEN11:25 · 04·23
英国50万人医疗数据在中国网站出售
英国生物样本库(UK Biobank)发现,一份包含50万人医疗数据的信息被挂在中国网站上出售。阿里迅速删除了相关商品链接。50万这个数字说明数据量很大,但正文没披露卖家是谁、要价多少、数据是怎么泄露的,以及具体涉及哪些字段(比如基因、病史还是影像)。这点先别太激动,目前只能确认有人试图卖,不能确认数据真实或完整。
#UK Biobank#Alibaba#Incident#Safety/alignment
精选理由
HKR-H靠50万条医疗数据挂售这个事件钩子通过。HKR-K和HKR-R不通过,因为故事只确认了规模和下架动作,卖家、泄露路径、受影响字段以及任何直接的AI模型或产品关联都缺失,所以分数低于40,被排除。
一句话点评
英国生物样本库50万人医疗数据被挂在中国网站叫卖,包含基因、体检等敏感信息。FT报道但正文被付费墙挡住,没披露数据量、售价、卖家身份。HN讨论提到可能是旧数据或爬虫抓取,这点先别太激动。关键缺口:数据真实性未验证,泄露途径不明,是否涉及内部人员或第三方漏洞未知。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R0
11:09
52d ago
机器之心 · 公众号· rssZH11:09 · 04·23
DeepSeek 启动 Tile Kernels 和 DeepEP V2 更新
标题说 DeepSeek 最近更新变勤快了,提到了两个项目名:Tile Kernels 和 DeepEP V2。但正文只有微信验证页,没披露发布时间、更新频率、代码链接或具体技术改动。目前能确认的就这两个名字和“更新更频繁”这个说法。
#Inference-opt#Tools#DeepSeek#Product update
精选理由
这篇实际是标题党:正文无法访问,唯一能确认的事实是 DeepSeek 有两个项目名和一句“开始频繁更新”。HKR 里 H 靠项目名勉强成立,K 和 R 都失败,所以重要性上限被压在 40 以下,最终 34 合理。
一句话点评
DeepSeek 开源了 Tile Kernels 和 DeepEP V2,前者优化 GPU 计算效率,后者提升专家并行通信。Reddit 原文被屏蔽,具体细节只能看机器之心。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R0
11:00
52d ago
FT · 科技· rssEN11:00 · 04·23
碳移除市场能跟上AI的用电增长吗?
一家大型碳移除供应商的CEO说,买碳信用的客户已经不限于科技巨头了,文章标题把这事和AI boom挂钩。但正文被付费墙挡住,没披露供应商名字、需求增速、碳信用单价或合同量。核心问题其实是:AI拉高用电和碳排放之后,碳移除的供应端能不能跟上。这点先别太激动,因为全文没有给出任何可验证的数字,连这家供应商是谁都不知道。
#Commentary
精选理由
标题把碳移除需求和AI热潮挂钩,这个张力本身值得点开。但正文只有RSS摘要,没披露供应商名称、需求增速、信用价格和具体采购规模,信息缺口太大,无法判断市场是否真的在加速。AI用电和排放是行业真痛点,碳移除供给能否跟上直接影响企业碳中和成本,读者会关心。按硬排除规则6(关键信息缺失),这条只能标记为excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
10:04
52d ago
● P1FT · 科技· rssEN10:04 · 04·23
DeepSeek 首次寻求融资,估值冲到 200 亿美元,主要为了留住被挖角的研究员
DeepSeek 正在启动第一轮外部融资,目标估值约 200 亿美元。核心目的不是缺钱扩张,而是用更高的股权激励来对抗竞争对手对核心研究员的挖角。FT 的报道提到此前已有人员流失,但正文没披露具体融资金额、投资方名单和流失人数。这个估值放在还没拿过外部钱的 AI 公司里算很高,但信号很直白:人才争夺战里,光靠技术理想留不住人,得靠真金白银的股权。
#DeepSeek#Funding#Personnel
精选理由
我会先打个折:正文没披露融资规模、投资方和具体离职人数,所以估值数字本身先别太激动。真正值得盯的是人才防守这个角度——DeepSeek 把首次融资直接和阻止研究员跳槽挂钩,说明内部人才流失压力已经大到需要靠估值来筑墙。这点对从业者比估值更有信号意义,因为前沿模型竞争拼的就是那几十个核心研究员。
一句话点评
FT 这篇正文被付费墙挡住了,只看到标题。DeepSeek 想靠 200 亿美元估值来防止员工被挖,这个数字和动机先打个折看。
锐评
标题透露了两个关键信息:一是 DeepSeek 正在寻求一轮约 200 亿美元的估值,二是这轮融资的直接目的被描述为“阻止员工被挖角”。如果这个估值属实,说明资本市场对这家中国 AI 公司的技术能力和商业前景给出了很高的定价,但正文没披露具体投资人、融资轮次和资金用途,没法判断是战略融资还是纯财务投资。 把融资和“防挖人”直接挂钩,在 AI 圈并不常见。通常公司会通过提高薪酬、给期权或技术壁垒来留人,很少把整轮融资的叙事押在员工留存上。这背后可能意味着 DeepSeek 核心团队正面临非常激烈的人才争夺,尤其是来自字节、阿里等大厂的挖角压力。但正文没提供离职率、关键岗位流失情况或竞业条款细节,这个因果关系暂时只能当标题党看待。 还缺几个关键信息:200 亿估值对应的营收或用户数据是什么水平?这轮融资是纯现金还是附带资源置换?以及,DeepSeek 目前的开源模型商业化路径是否清晰,能不能撑起这个估值。这些 FT 正文可能都有,但付费墙挡住了,建议找原文核实。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
10:00
52d ago
OpenAI 博客· rssEN10:00 · 04·23
Codex 设置指南:个性化、防休眠、权限控制
OpenAI 发了一篇 Codex 的设置教程,主要讲三块:个性化(像 ChatGPT 一样调语气、加自定义指令)、防休眠(跑长任务时电脑别自动睡眠)、以及显示详细程度(默认模式少刷屏,编码模式会打出具体命令)。还提了可以拖个小头像到屏幕上,边干别的边看它跑。正文没披露支持哪些 Codex 版本、默认值是什么、权限边界在哪——所以如果你想知道“默认防休...
#Agent#Tools#OpenAI#Codex
精选理由
这是 OpenAI Codex 的文档级更新:文章确认了任务运行和工作流控制的三个设置类别——个性化、细节级别和权限。HKR-K 通过,但 HKR-H 和 HKR-R 较弱;支持的版本、默认值和权限边界未披露。
一句话点评
OpenAI 发了一篇 Codex 设置教程,教你怎么调个性化语气、防休眠、改显示详细度。纯操作指南,没提任何新功能或技术细节。适合刚上手的人看,老用户可以直接跳过。
锐评
OpenAI 这次只公布了 Codex 的 3 类设置,正文却没给支持版本、默认值、权限边界。信息量很有限,所以我先下一个直接判断:这条更像把 agent 产品做成“可治理软件”的补课,不是 Codex 能力突然上了一个台阶。 我这么看,原因很简单。对做 agent 的人来说,“个性化、细节级别、权限”这 3 个旋钮,决定的不是模型分数,决定的是系统能不能进团队流程。个性化影响提示词漂移和输出风格。细节级别影响 token 成本、日志可读性和审查负担。权限设置更硬,关系到读仓库、跑命令、调外部工具、写回结果这些动作能不能被约束。标题已经给出 3 类设置,正文没披露默认值,也没说权限是 allowlist、scope 还是逐步升级授权。我不想替它脑补,因为这里每一项都直接关系到企业敢不敢开。 这条让我想到 Anthropic 去年到今年那条线:Claude Code 之所以被工程团队认真对待,不只是模型写码强,而是它把 shell、文件、网络这些能力的边界讲得相对清楚。GitHub Copilot 往 agent 走时,也在拼命补审批流、仓库权限、审计痕迹。行业已经验证过一件事:代码 agent 的天花板不先卡在模型,而是先卡在权限模型和失败回滚。OpenAI 现在开始单独写 Codex settings,至少说明他们知道产品已经不是“给你一个会写代码的聊天框”那么简单。 但我对这条叙事还是有保留。只讲“可以配置权限”远远不够,关键是权限在什么粒度生效。是按任务生效,还是按工作区生效。是只限制工具调用,还是连上下文注入都限制。有没有默认拒绝。有没有执行前确认。有没有审计日志。RSS 摘要一个都没给。说实话,我对很多厂商写 agent 设置页都有点警觉,因为最容易被包装成“可控”的,恰好是最需要细节证明的部分。没有默认值,你就不知道产品到底偏保守还是偏激进。没有权限边界,你就不知道它是在做治理,还是只是在 UI 里加了几个开关。 还有一个上下文,文章里没有,但做平台的人会很在意:一旦设置项开始增多,产品就在从“单次交互”转向“可复用工作流”。这通常是好事,也通常带来新问题。设置越多,团队模板、项目级 preset、管理员策略、个人覆盖这些层级就会冒出来。Slack、GitHub Actions、Cursor 这类工具都走过这条路:先给个人开关,后面就得补组织治理。不然同一个 agent 在不同开发者机器上表现不一致,排障会非常痛苦。OpenAI 这次如果只是先把个人设置讲清,还算起步;如果它已经有团队级策略,但正文没写,那信息缺口就更大了。 我的推断很克制:OpenAI 在 Codex 上开始补“设置层”,说明他们想把 agent 从 demo 感产品,往长期驻留的工程工具推。这个方向我认。但在没有默认值、支持版本、权限粒度之前,我不会把它当成企业可用性的实质升级。标题给了框架,正文没给牙齿。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
10:00
52d ago
OpenAI 博客· rssEN10:00 · 04·23
Codex 插件和技能:让 AI 连工具、走流程
OpenAI 发了一篇 Academy 教程,讲 Codex 的两个功能:插件(plugins)让 AI 连上 Google Drive、邮箱等外部工具取数据;技能(skills)让 AI 按你团队固定的步骤干活,比如写周报、审品牌文案。操作上,点左上角选插件或技能库,调用时在对话里打 $ 加名字就行。正文没披露支持哪些具体工具、权限怎么设、要不要额外...
#Agent#Tools#Commentary
精选理由
正文像一份简略的产品文档:没披露支持的插件类型、配置流程、权限模型、价格或实测结果。标题里的“自动化任务”听起来厉害,但执行机制、工具接入方式、数据访问边界全没讲。对从业者来说,信息缺口太大,不值得作为新闻跟进。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
07:55
52d ago
r/LocalLLaMA· rssEN07:55 · 04·23
Qwen3.6-27B 被一个人说能写代码,但只测了一次
Reddit 用户把 Qwen3.6-27B 接进 opencode,完成了一个 Svelte 5 的编码任务。样本量只有 1,而且用户说它比付费的 OpenAI API 慢。正文没透露用了什么提示词、跑了多久、延迟多少,也没有可复现的评测。这不算基准测试,只是一次个人体验——在 OpenAI 反复出错之后换模型试了一把。
#Code#OpenAI#Commentary
精选理由
这是一条单人编码体验,不是可复现的评测。HKR-R落在成本替代问题上,但HKR-H和HKR-K不成立,因为标题钩子单薄,帖子又没交代提示词、环境、延迟和评分细节,所以只能给all,不能上featured。
一句话点评
标题说Qwen3.6能写代码,但正文被Reddit屏蔽了,看不到任何实测或数据。目前只有标题一个信息点,没有样本量、基准分数或对比模型,无法判断是真强还是标题党。建议等第三方跑分或开源后实测再下结论。
锐评
这条帖子只给出 1 次成功样本。我的判断很直接:它证明了本地 27B 模型已经能接住一部分日常编码流量,没证明 Qwen3.6-27B 在代码能力上追平了付费 OpenAI API。 正文只有四个关键信息:OpenAI 当晚第 5 次报错、Qwen3.6-27B 接进了 opencode、做了 1 个 Svelte 5 任务、作者主观判定“Perfect result”。提示词没给,仓库规模没给,工具调用有没有开没给,运行硬件没给,耗时只说“更慢”,慢多少也没给。材料到这一步,其实连最基本的复现都做不了。你没法区分这是模型真会写 Svelte 5,还是任务刚好落在模板分布里,也没法知道 opencode 在中间做了多少补偿。 我对这种帖子一直有点警觉,因为 coding 体验最容易被“服务可用性”偷换成“模型能力”。如果 OpenAI API 连续 5 次报错,那比较对象已经不是最强输出,而是“能不能先把活干完”。这对本地模型是实打实的机会。去年很多团队评估代码 agent 时,最后留下来的首要指标都不是 benchmark 分数,而是失败率、重试次数、平均完成时间。我自己没看到这条里任何一项。只有 N=1 的成功案例,离工程采购结论还差很远。 文章外的上下文也很重要。Qwen 系列过去一年在开源代码任务上一直进步很快,尤其是 14B、32B 这个量级,经常能在单轮补全和轻 agent 场景里打到“够用”。但“够用”跟“替代付费 API”是两回事。闭源 API 的优势从来不只是一条 benchmark 曲线,还包括延迟、并发、工具调用稳定性、长上下文回收、故障恢复。这条帖子自己都承认更慢,那它更像成本敏感场景下的备用线路,不是主线路已经切换完成。 我还不太买账“the next 12 months will be quite interesting”这种泛判断。说真的,接下来更具体的问题只有两个:第一,Qwen3.6-27B 在公开代码集上到底多少分,像 SWE-bench、Aider polyglot、或 repo-level agent 任务有没有结果;第二,本地部署在什么硬件上能把延迟压到团队可接受范围。标题给了“can code”,正文没披露这两件最关键的事。没有这些,结论只能收在一句:开源模型已经足够当备胎,有时还能把单子接住;离稳定替代 OpenAI API,还差一整套可复现证据。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K0·R1
04:10
52d ago
● P1新智元 · 公众号· rssZH04:10 · 04·23
踏石智航拿了4.55亿美金Pre-A轮,红杉和高瓴一起领投
踏石智航在4月16号宣布完成4.55亿美元Pre-A轮融资,红杉中国、高瓴创投和美团联合领投。这笔钱创下了国内具身智能单轮和Pre-A轮融资的纪录。公司说他们的AWE3.0四模态模型把没见过视角的任务成功率提升了3倍,执行抖动降低了约45%,A1机器人还拿了个一小时完成亚毫米线束组装的吉尼斯纪录。不过正文没披露估值和具体交易条款,模型、数据和实际部署能...
#Robotics#Multimodal#它石智航#Sequoia China
精选理由
这条我会先打个折,因为所有关键指标都是公司自己说的,正文没披露本轮估值和具体交割条件,外部验证也缺。但4.55亿美金这个数本身就够硬,红杉高瓴联手领投在具身智能里不常见,AWE3.0给的3倍成功率和45%抖动下降如果是真的挺省钱,A1那个吉尼斯纪录也说明在往工厂场景走。所以HKR三条都过,分数维持83,不升P1就是因为信息源单一,等第三方复现或估值细节出来再调。
一句话点评
正文被微信环境验证挡住了,实际内容没读到,标题里的4.55亿美金和红杉高瓴联手先打个折看。
锐评
这条新闻的标题信息量其实就一句话:红杉和高瓴罕见地一起投了4.55亿美金给一家做“大脑”的公司。但正文因为微信环境验证完全没加载出来,所以没法确认这个“大脑”具体指什么——是类脑芯片、大模型基础设施,还是某种新的计算架构,正文没披露。4.55亿美金这个数字放在AI赛道里算头部量级,能同时拉来红杉和高瓴,说明标的在商业化或技术壁垒上有让两家都认可的东西。不过目前能做的判断很有限,缺的信息太多:公司名字、产品形态、团队背景、估值逻辑,全都没有。这条先当个信号看,别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
04:10
52d ago
● P1新智元 · 公众号· rssZH04:10 · 04·23
浙大开源多智能体叙事系统 OpenStory:把孙悟空扔进大观园,几分钟后角色全跑光了
浙大放出了一个叫 OpenStory 的多智能体系统,专门用来跑开放剧情。他们搭了个 1:1 的《红楼梦》大观园沙盒,把孙悟空塞进去当变量。结果几分钟内,记忆模块就把“孙悟空滥杀无辜”这条信息广播了出去,恐惧直接压过了角色的日常行为逻辑。王熙凤被物理移除后,恐慌连锁反应让整个大观园变成了空城。这个实验暴露的是多智能体系统里记忆和共识链路有多脆。不过正文...
#Agent#Memory#Safety#Zhejiang University
精选理由
我会先打个折:正文没写用了什么模型、怎么评测、实验能不能复现,所以别急着把它当成熟系统看。但这个故事本身很直观——孙悟空 Agent 被放进《红楼梦》1:1 数字沙盒,系统用记忆模块向所有活跃角色广播“孙悟空滥杀无辜”,恐惧权重直接压过日常行为逻辑,王熙凤被物理移除后,其他 Agent 集体逃离,大观园变空城。真正值得盯的不是孙悟空有多强,而是记忆广播和共识链路太脆弱:一条消息就能让整个 Agent 社会崩掉,说明多 Agent 之间的信息传递和信任机制几乎没有韧性。对做 Agent 安全、多智能体协作的人来说,这是一个很具体的压力测试案例,暴露了...
一句话点评
标题很热闹,但正文被微信环境验证挡住了,实际技术细节和评测数据都没看到,先别太激动。
锐评
这条消息目前只能看个标题,正文因为微信的环境验证完全无法访问。标题里提到浙大开源了一个多智能体演化系统,用《红楼梦》和《西游记》的角色做了演示,听起来像是让不同小说里的 AI 角色在一个虚拟世界里互动、演化出剧情。这种跨作品角色扮演的玩法在学术 demo 里挺抓眼球,但正文没披露,我们不知道这个系统到底解决了什么技术问题——是让多个智能体更稳定地协作,还是单纯做了个有趣的交互实验。开源代码和论文链接也没法确认,没法判断它的泛化能力、资源消耗或者跟现有框架的对比。如果后续能拿到论文,我会重点看它的演化机制是规则驱动还是模型自主决策,以及有没有定量的稳定性或任务完成率指标。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
04:10
52d ago
● P1新智元 · 公众号· rssZH04:10 · 04·23
Anthropic 在私募二级市场报价冲到 1.05 万亿到 1.15 万亿美元,首次超过 OpenAI 的约 8800 亿美元
这个数字来自私募二级平台(比如 Forge Global)上的报价,不是新一轮融资估值。三个月前 Anthropic 的融资估值还是 3800 亿美元,现在二级市场直接翻了三倍左右。市场给出的理由是流通股少、Claude Code 和收入增长势头猛。但正文没披露实际成交量、具体收入数字,也没公司官方确认,所以这个万亿身价更像少数交易撑起来的价格,先别太当真。
#Code#Agent#Anthropic#OpenAI
精选理由
我会先打个折:这不是官方融资估值,而是私募二级平台的报价,成交量、收入规模和公司确认都没披露,所以别太激动。但信息本身有嚼头——它把 Anthropic 从三个月前 3800 亿的融资估值直接拉到万亿级别,背后是流通股少、Claude 产品势头和投资者情绪在起作用。对从业者来说,这更像一个市场温度计,而不是一张成绩单。
一句话点评
这条消息来自一篇被微信环境验证拦截的文章,正文内容完全没读到,标题里的“万亿美元估值”和“超越OpenAI”目前无法核实。
锐评
标题说 Anthropic 估值突破万亿美元并首次超过 OpenAI,但点进去只看到微信的“环境异常”验证页面,正文一个字都没披露。没有融资轮次、投资方、估值计算方式,也没有对比 OpenAI 最新估值的数据来源。这种标题很容易让人以为是里程碑,但信息缺口太大:是新一轮融资推高的估值,还是二级市场交易价格?对比的 OpenAI 估值又是哪个时间点的?这些关键事实全缺。在没看到可靠信源和具体数字前,这条只能当传闻看,别急着下判断。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
04:07
52d ago
● P1纽约时报中文网· rssZH04:07 · 04·23
Anthropic 造了个能找软件漏洞的模型 Mythos,现在只给美国用,连盟友都急了
Anthropic 发布了一个叫 Mythos 的模型,专门用来发现银行、电网和政府软件里的隐藏漏洞。公司说它太危险,不能公开,目前只跟美国 11 家科技公司和 40 多家关键基础设施机构共享,海外只有英国拿到了访问权。英国安全研究所的测试证实,Mythos 能完成以前任何 AI 都做不到的复杂网络攻击。欧盟、德国等盟友还没拿到模型,只能干着急;中国和...
#Safety#Code#Benchmarking#Anthropic
精选理由
这篇不是常规模型发布,更像一次准地缘政治的网络能力管制实验。Anthropic 把 Mythos 圈在极小范围,只给美国及英国部分机构用,还拉上 11 家合作方修漏洞,说明他们自己都怕这东西被滥用。正文没披露具体评测方法和基准分数,所以“比核弹还糟糕”这种说法先打个折,但 18 个月内类似能力扩散的预估值得盯紧。
一句话点评
Anthropic 造了个能自动找系统漏洞的模型 Mythos,但只给英美看,其他国家连评估资格都没有,这比模型本身更像地缘政治武器。
锐评
这条新闻的核心不是 Mythos 的技术有多强,而是它被当成战略资产在分配。Anthropic 自己说模型“太危险不能广泛发布”,但转头就点名了 11 家美国合作方,外加一个英国。英国安全研究所的独立评估证实了它的网络攻击能力确实前所未有,但正文没披露具体测试了哪些系统、成功率多高,也没说误报率。 加拿大财长把它比作霍尔木兹海峡被关,英国央行行长说它“撕开了整个网络风险世界”,这些措辞很重,但都来自没拿到模型的国家,更像在施压要权限。欧盟见了三次面还没谈拢怎么给模型,德国安全局长只能飞去旧金山聊,这本身就说明规则完全由一家公司单方面定。 对中国和俄罗斯来说,最扎心的不是模型本身,而是美国通过芯片管制和这种选择性分享,正在把 AI 领先变成一种可以卡脖子的基础设施霸权。正文没提 Mythos 的参数量、训练成本或推理延迟,也没说它发现的漏洞是零日还是已知漏洞的变种,这些信息缺口让“比核弹还糟糕”的判断暂时只能打对折。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
04:00
52d ago
FT · 科技· rssEN04:00 · 04·23
私募股权公司向 OpenAI 和 Anthropic 示好
标题说私募股权公司正在向 OpenAI 和 Anthropic 示好,但正文被付费墙挡住,没有披露具体是哪家私募、交易规模或结构。唯一确认的信息是目标公司是这两家 AI 公司;至于交易是二级股票、可转债还是新股,都没有说明。
#OpenAI#Anthropic#Funding#Commentary
精选理由
FT这条标题有H和R,因为私募同时盯上两家实验室,说明资本市场的玩法在变,大家会讨论。K不成立:没披露机构名称、规模、估值、是二级份额还是新一轮股权,所以这条归all,不上featured。
一句话点评
FT爆料私募向OpenAI和Anthropic示好,但全文被付费墙挡住,没披露具体哪家、多少钱、什么结构。
锐评
标题说私募在追OpenAI和Anthropic,但正文只有付费墙,连是哪家私募、交易是二级股票、可转债还是新股都没说。唯一确认的是目标公司。这类消息通常意味着AI头部公司估值还在涨,私募想上车。但信息缺口太大——没有金额、没有估值、没有交易结构,没法判断是战略投资还是财务套利。如果真是大额私募进场,可能说明这些公司离IPO还远,需要更多长期资本。但正文没披露任何细节,建议等FT出全文或找其他信源交叉验证。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
04:00
52d ago
FT · 科技· rssEN04:00 · 04·23
共和党高层要求党内避开一个3亿美元AI游说团体
一位资深共和党人正在推动党内与一个3亿美元规模的AI游说团体保持距离。文章被付费墙挡住,正文没披露这位议员的名字、游说团体的具体身份以及政策争议点。信号是党内对AI政策的立场分歧,但可见信息太少,没法深读。
#Policy#Commentary
精选理由
HKR-H靠标题的党内vs游说团体冲突和3亿美元金额通过。HKR-K和HKR-R都因为正文被墙,关键信息缺失,所以只能给all,不能上featured。
一句话点评
共和党高层呼吁党内抵制AI行业3000万美元的政治游说,认为这会削弱对大型科技公司的监管。正文被付费墙挡住,没披露具体是哪位高层、针对哪些AI公司、以及他主张的替代监管路径。这件事本身说明AI在华盛顿的游说规模已经大到让保守派内部开始分裂,但缺少细节就没法判断这是一次政治表态还是真有立法动作。
锐评
一名共和党高层推动党内避开一个3亿美元AI游说团体,这个动作先说明一件事:AI 在华盛顿已经不是“科技公司去游说政府”,而是党内各派开始争夺谁代表行业。标题给了金额和党内对抗,正文没披露该人士姓名、团体名称、政策分歧,也没给时间线;信息缺口很大,细判断现在做不了。 我对“3亿美元”这组数字很敏感。单看规模,它已经不像传统单议题倡议组织,更像要长期塑造立法口径、联邦采购、州级规则和竞选捐助的组合盘。回想 2023 到 2025 年,美国 AI 政策博弈大多还是公司 CEO 直接进国会听证,或几个大厂围着安全、版权、开源门槛各说各话。现在如果共和党内部都开始出现“别靠这个 AI 金主团”的公开劝阻,说明利益切口已经从“要不要监管”变成“谁来写监管”。 我也不太买账标题里可能暗含的道德戏码。党内人物反对某个游说团体,不等于他反对行业绑架政策;也可能只是反对这笔钱流向别的派系。没有正文,我没法判断这是鹰派安全路线、反大厂路线,还是单纯派系斗争。说实话,眼下最重要的信息反而缺了:这个3亿美元是承诺额、募资目标,还是已部署资金;差别非常大。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R0
04:00
52d ago
FT · 科技· rssEN04:00 · 04·23
量化先驱警告:别把交易全交给AI
量化投资先驱Martin Lueck公开表态,反对把交易决策完全交给AI。FT这篇报道标题很抓人,但正文被付费墙挡住了,没披露具体案例、模型、亏损金额或市场范围。目前能确认的只有FT把这事包装成一位量化老将的警告,但从业者想验证这个判断,缺证据。
#Martin Lueck#Financial Times#Commentary
精选理由
HKR-H靠反直觉标题过关:量化老兵说别把交易交给AI。HKR-K直接挂掉,因为付费墙后面的正文没给出任何案例、亏损数字、模型或市场信息,按硬性排除-零来源处理,所以tier=excluded,分数压在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
03:54
52d ago
彭博科技· rssEN03:54 · 04·23
特斯拉在华高级辅助驾驶再次跳票
特斯拉又推迟了在中国上线最先进辅助驾驶功能的时间。正文没披露具体是哪个功能、原定上线日期和新的时间表。真正信号是监管节奏,不是“又”字本身。
#Robotics#Safety#Tesla#Product update
精选理由
硬排除-老调重弹:又是一次推迟报道,没有新功能细节或时间表。HKR-H 靠特斯拉-中国-监管的钩子通过,但 HKR-K 因缺少具体信息不通过,重要性低于 39 分上限。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R0
03:22
52d ago
彭博科技· rssEN03:22 · 04·23
AI 热潮把中国光模块股票买成了最拥挤交易
投资者押注 AI 对光模块的需求会带动中国光学股继续跑赢大盘。正文只给了这个需求逻辑,没披露具体公司、涨幅、估值区间或时间窗口。关键要看订单能不能落地,别光信情绪。
#Inference-opt#Tools#Bloomberg#Commentary
精选理由
只有HKR-H命中:AI交易轮动到中国光学股这个钩子成立。HKR-K和HKR-R都落空,因为摘要没给公司名、股价变动、估值范围或订单数据,读者没法判断这波是基本面还是情绪先跑。
一句话点评
彭博报道称AI热潮正推动中国光学股成为热门交易,但正文被墙,实际内容不可见。无法确认具体是哪几只股票、涨幅多少、交易量变化。如果真是资金涌入光学赛道,逻辑可能是光模块、光芯片受益于算力基建需求。但这点先别太激动,来源受限,信息缺口大,建议等可读版本或找其他信源交叉验证。
锐评
Bloomberg 这条只给出一个事实:投资者正买入中国光学股,前提是 AI 光学需求继续上升。标题给了方向,正文未披露公司名单、股价涨幅、估值区间、订单周期。这种信息密度,只够支持“情绪在前”,不够支持“基本面已兑现”。 我对这类交易的直觉一直很简单:先看光模块代际,再看谁能吃到订单。过去一年市场反复围绕 800G、1.6T、CPO 轮动,A 股和港股里只要沾到数通光器件,估值就容易先抬。问题是,AI 集群扩容带来的是链路带宽需求,不是所有“光学”都会等比例受益。DSP、EML、硅光、封装良率、客户认证节奏,卡住任何一环,收入确认都会往后推。标题没给这些条件,我不会直接买“下一阶段龙头”这套说法。 外部参照也摆在那儿。2024 到 2025 年,美股里跟 AI 光互连最强绑定的,很多时候不是最会讲故事的公司,而是先拿到 hyperscaler 订单、并把 800G 出货做成财报数字的公司。我记得 Coherent、Lumentum、Credo、Marvell 都在不同阶段被资金拿来映射 AI 网络升级,但股价和订单兑现并不同步,指引一弱就回撤。中国光学股如果这次也被当成“AI 基建下一棒”,那先问两个问题:订单来自北美云厂,还是来自国内训练集群;ASP 和毛利率有没有跟着代际升级一起抬。标题没说,正文也没说。 我还想泼点冷水。中国光学链条的交易弹性很大,这没错;但弹性大,不等于护城河厚。很多公司历史上都吃过一轮高景气,再被价格竞争和客户切换打回去。AI 现在把需求曲线拉陡了,市场就容易把“短期缺货”当成“长期定价权”。这个说法我不太买账,除非后面能看到三类硬数据:一是 800G/1.6T 产品的季度出货;二是北美大客户或头部国内云厂的认证进度;三是毛利率在放量后没有被价格战打穿。现在只有标题信息,我最多承认这是一笔顺着 AI 互连瓶颈做的交易,不承认它已经是基本面共识。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
03:07
52d ago
r/LocalLLaMA· rssEN03:07 · 04·23
Qwen 3.6 27B 干活太主动,用户得手动叫停
Reddit 用户发帖说,他在用 Qwen 3.6 27B 重构旧项目时,模型自己不停地写代码、跑测试,他不得不打断好几次。用户还开玩笑说“前任因为偷懒被干掉了”,模型居然在日志里回了一句“他们觉得我太积极了”。帖子只有一张截图和一段描述,没有跑分、没有完整工具链配置,也没说具体用了什么 agent 框架。UI 上标的“Qwen 3.6-35B on ...
#Agent#Code#Tools#Qwen
精选理由
HKR-H 落在“不得不手动叫停”这个钩子上,HKR-R 落在代码 agent 的控制权是当前工作流的真实痛点。HKR-K 不成立:这只是一条 Reddit 个人体验加一张截图,没有基准、工具链、任务规模或可复现的设置,所以整体维持 58 分。
一句话点评
Qwen 3.6 27B 在 agent 任务上表现惊人,Reddit 用户称“从没见过这么愿意干活的模型”。但正文完全没披露测试场景、工具调用次数或成功率,也没说跟谁比。如果真能在本地跑 27B 模型完成多步 agent 流程,成本确实低,但这点先别太激动——缺验证。
锐评
这条我先不买账。Reddit 用户给出的核心事实只有一条:Qwen 3.6 27B 在旧项目重构里反复自行构建和执行,用户多次手动叫停。问题是,正文没有披露工具调用权限、自动批准规则、系统提示词、最大迭代步数、失败重试策略,也没有给出仓库规模、测试覆盖率、运行环境。少了这些,所谓“特别愿意干活”很难归因到模型本身。 我更倾向把它看成 agent runtime 和模型行为风格碰到了一起。很多本地 coding agent 一旦给到 shell、test、edit 三件套,再配上 auto-continue 或默认重试,模型就会显得“停不下来”。这不稀奇。去年到今年,社区里已经反复见过类似现象:同一个底模,放进 OpenHands、Aider、OpenCode、Continue 或 Cursor 风格循环里,主动性会差很多。我自己没跑过这条里的 opencode 配置,但从经验看,70% 的“自主性惊喜”都先该查 orchestration,不是先夸 base model。 还有个细节我很在意:作者自己说界面里显示的“Qwen 3.6-35B”只是没改名字。这一下就把可复现性继续往下拉了。连前端标签都错,量化版本、采样参数、上下文长度、工具模板有没有改,都成了悬案。标题给了 27B,正文截图却是 35B 名称残留,这种材料最多算使用者轶事,离能力判断还差很远。 说真的,Qwen 系列最近一年的风格确实常被社区描述成“愿意继续试”。我记得 Qwen 2.5-Coder 和后面的 Qwen3 几个变体,就常被拿来和 DeepSeek、Codestral、部分 Llama 微调版比较,社区反馈里经常提到它更爱补步骤、更少直接放弃。但那类印象一旦进了 agent 环,就会被放大成另一回事:你看到的不是“更会做”,而是“更愿意一直做”。这两者差很多。前者靠 benchmark 能测,后者强依赖 runtime 约束,甚至会把 token 和工具成本一路烧上去。 我对这条最大的不适,在于它把失控边缘行为讲成了优点。用户明确说,模型多次做了他没要求的事,还得手动打断。对个人试玩,这很好笑。对正式开发流,这就有点不对劲了。一个会持续 build、test、modify 的 agent,如果缺少审批门槛、文件白名单、回滚策略,产出的不是“勤奋”,而是额外的审计成本。Anthropic、OpenAI 这两年在 coding agent 产品里都反复加确认点,不是他们不会做全自动,而是默认全自动很容易把局部修复变成全局污染。 所以这条能留下来的信号,不是 Qwen 3.6 27B 已经在代码代理上压过同级模型,而是社区对“高行动倾向”开始更敏感了。这个方向我认同,但这篇贴子没有给出能站住脚的证据。要让我信,至少得补四样:一,完整 prompt 和工具权限;二,仓库类型与任务定义;三,成功率和回滚次数;四,和 Claude Sonnet、DeepSeek、同尺寸 Qwen 旧版在同一 agent 框架下的对照。现在只有标题信息加一张截图,最多说明它触发了一次很好玩的 agent loop,不够说明模型能力排序。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
02:59
52d ago
r/LocalLLaMA· rssEN02:59 · 04·23
RTX 3090 vs Intel Arc Pro B70:同机器跑 llama.cpp,B70 慢 71%
Reddit 用户在同一台机器上分别用 RTX 3090 和 Intel Arc Pro B70 跑 llama.cpp 基准测试。处理 512 token 的 prompt 时,B70 平均比 3090 慢 71.1%。生成阶段(128 token)B70 用 Vulkan 后端比 SYCL 后端慢 160%,但全文被截断,没给出完整的生成平均速度。...
#Inference-opt#Benchmarking#Tools#Nvidia
精选理由
一个 Reddit 用户的单来源跑分,HKR-K 过关是因为给了同机器实测数字:71.1% 和 160.0%。HKR-R 也过关,本地推理读者确实关心显卡和后端选择。但 HKR-H 偏弱,tg128 均值还被截断了,所以留在 all 层。
一句话点评
这篇帖子标题是 RTX 3090 和 Intel Arc Pro B70 在 llama.cpp 下的跑分对比,但正文被 Reddit 屏蔽了,实际内容为零。没有数据、没有结论,连图都加载不出来。所以这条信息目前只有标题有价值——它提示有人在做这个对比,但结果未知。如果你关心 Intel 独显跑大模型的性价比,可以自己去搜原帖或等后续更新。目前没法判断谁赢,也别信任何转述。
锐评
这组测试先把一个残酷事实摆明了:Arc Pro B70 在同机 pp512 里平均落后 RTX 3090 71.1%。我对这条的判断很简单,这不是一张卡“差一点没调好”,这是 Intel 在本地推理生态里还没把执行路径做平。你看表就知道,B70 用 Vulkan 时多数模型都在 3090 的四分之一附近,SYCL 有些模型能救回来,像 gemma-4-E2B-it 提升 50.3%,Qwen3.5-4B 提升 23.5%,但另一些反而更差,Qwen3.5-35B 和 Qwen3.6-35B 都慢了 49.7%。同一张卡,同一个 benchmark,后端切一下就从加速变减速,这不是“略有波动”,这是栈还没收敛。 我对这贴最大的保留也在这里:它不是一个干净的 apples-to-apples 对比。3090 跑的是主线 llama.cpp 的 Vulkan。B70 的 SYCL 跑的是 Docker 里的 Ubuntu 24.04,加的是 aicss-genai 的 fork。也就是说,比较里同时混进了 GPU、后端、代码分支、运行环境四个变量。这个条件下,结论只能写成“今天普通人按这套装法跑出来会这样”,不能写成“B70 硬件就是比 3090 慢 71.1%”。更何况 3090 这里都没上 CUDA。熟悉 llama.cpp 的人都知道,Nvidia 在这个项目上的主场一直不是 Vulkan。我自己没复跑,但如果把 3090 换成 CUDA 路径,差距大概率只会更大,不会更小。 这也是 Intel 这两年的老问题。它每次进本地 AI 讨论,卖点都容易落到显存容量、价格、某些模型能装下,少数 workload 还能打出好看的比值;一到通用开源栈,开发者先撞上的还是后端成熟度。去年到今年,不管是 oneAPI、SYCL,还是各类社区适配,Intel 都不是完全不能用,而是“你得先接受路径很多、结果很飘”。这对折腾党没问题,对想把机器变成稳定生产工具的人就很致命。3090 这种老卡到 2026 还在被拿来当基线,原因不神秘:不是它新,而是 CUDA 这套东西把可预期性做出来了。 还有一个标题里没讲透、正文也被截断的点:tg128 后半张表没给完,所以生成阶段的均值正文未披露。现在只能确认单个例子里,Qwen2.5-Coder-7B 的 B70 SYCL 比 B70 Vulkan 快 160.0%。这个数字看着猛,我反而更警觉。为什么 prompt processing 里多数模型只差个位数到 50%,到 generation 某个模型就能跳到 160%?是 kernel 选型差异,还是 batch、KV cache、quant 配置碰到了特别吃后端的点?帖子截断后没有条件说明,我不买“SYCL 已经全面翻身”这种讲法。 所以这条我会这样读:它证明的不是 B70 完全没戏,而是 Intel 还没拿到“默认可推荐”的资格。要让本地开发者改口,下一步需要的不是再发一组单点跑分,而是在主线 llama.cpp、统一环境、统一后端选项下,把 pp 和 tg 两段都稳定拉到能和 3090 Vulkan 接近,最好再公开完整命令、驱动版本、offload 层数。现在这贴已经有价值了,它把问题钉在软件栈,而不是继续把锅含糊地甩给硬件。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K1·R1
02:45
52d ago
Latent Space· rssEN02:45 · 04·23
AI 新闻:有品味的 Token 最大化
Latent Space 总结了 4 月 21-22 日的 AI 新闻,覆盖 12 个子版块和 544 个 Twitter 账号。重点包括:阿里发布 Qwen3.6-27B,一个密集型的开源模型,在编程评测上击败了更大的 Qwen3.5-397B-A17B,并且支持视觉语言推理,社区迅速适配了 vLLM、Ollama 等工具。OpenAI 低调开源了一...
#Agent#Code#Multimodal#Latent Space
精选理由
Latent Space 这期周报选了个好角度——算力和 token 的性价比。Qwen3.6-27B、OpenAI 隐私过滤、小米多模态、Google TPU 8t/8i 这些名字都出现了,但正文基本是会议流水账,没展开任何一条的具体数字或实测。H 和 R 理由充分,K 太薄,所以总分压在 62 这个偏低区间。
一句话点评
阿里Qwen3.6-27B用27B参数在编程评测上赢了自家397B大模型,本地跑得动,值得一试。
锐评
阿里开源了Qwen3.6-27B,一个纯密集模型(不是MoE),Apache 2.0协议。亮点是27B参数在SWE-bench Verified(77.2 vs 76.2)和Terminal-Bench(59.3 vs 52.5)上超过了自家397B的Qwen3.5,成本低得多。还支持看图、视频推理。社区反应快:vLLM、Ollama、llama.cpp当天就适配了,Unsloth说18GB显存就能跑GGUF版。早期用户反馈不错,尤其前端和图像任务。但注意:评测集可能偏编程,其他任务(如数学、长文)表现未知;正文没披露训练数据、推理速度或具体硬件需求,本地部署的实际延迟和精度还得自己测。另外,OpenAI低调开源了一个Privacy Filter,但细节太少,没法判断实用性。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
02:02
52d ago
X · @op7418(歸藏)· x-apiZH02:02 · 04·23
Codepilot 0.53.0 接入了 GPT Image 2.0 图像模型
Codepilot 0.53.0 更新后支持 GPT Image 2.0 图像模型,官方和三方渠道都能用。另外 Nano Banana 2 也可以通过三方调用了。正文没披露 API 参数、定价、速率限制或上线时间,关键看三方路由会不会改变成本和配额结构。
#Multimodal#Vision#Tools#Codepilot
精选理由
一个常规的工具兼容更新。HKR-K 靠一条具体新事实通过:Codepilot 0.53.0 新增 GPT Image 2.0,并提到官方和第三方接入都可用;但 HKR-H/R 偏弱,因为价格、限制和 API 细节都没披露,所以留在 all。
一句话点评
短评:Codepilot 0.53.0 接入了 GPT Image 2.0,但正文没披露具体效果和成本,先别太激动。 点评:Codepilot 0.53.0 更新后直接支持 GPT Image 2.0 图像模型,相当于在代码补全工具里塞了个画图入口。但正文是空的,来源只有一条 RSS 摘要,没说明调用方式、生成速度、定价或是否支持批量出图。GPT Image 2.0 本身画质和指令跟随比 ...
锐评
Codepilot 0.53.0 已接入 GPT Image 2.0,正文只给出“官方和三方都可以”这一个条件。我的判断很直接:这条先看分发层,不先看模型层。图像模型接进去不稀奇,稀奇的是同一前端同时给官方与第三方通路,还顺手把 Nano Banana 2 也挂上第三方。这种更新通常不是在卷产品定义,而是在卷可用性、配额弹性和结算路径。 我对这类“已支持某模型”的公告一向比较保守。原因很简单,文章没披露 API 参数,没披露价格,没披露速率限制,也没披露图像尺寸、编辑模式、批量任务、失败重试这些实际决定体验的东西。没有这些信息,你没法判断它只是把模型名加进下拉框,还是做了完整适配。图像产品里,这个差别很大。只支持单轮出图,和支持参考图编辑、局部重绘、一致性角色、多图条件输入,工程价值完全不是一个量级。 说真的,我更在意“第三方可用”这句。过去一年不少 AI IDE、聚合器、模型市场都在走这条路:同一个 UI,后面挂多家 provider,把官方 API、代理渠道、区域转售混在一起给用户选。这样做的好处很现实。第一是可用区更灵活,某家限流时能绕过去。第二是账单更好看,尤其是面对中小团队,月费产品比按 token 或按图计费更容易卖。第三是地域问题能被部分中间层吸收。我没看到 Codepilot 这次披露任何成本结构,所以现在还不能下结论说它一定更便宜;但只要第三方通路存在,价格和配额就不再只由模型原厂决定,这才是这条更新的交易含义。 外部参照也很清楚。2024 到 2025 年,代码工具和多模型前端普遍从“绑定单一模型”转向“绑定路由能力”。Cursor、OpenRouter、一批国内聚合平台都吃到过这个红利:用户表面上在挑模型,平台实际上在卖可得性和切换成本。我印象里,很多团队最后留下来的原因不是某个模型绝对更强,而是故障时还能切、超额时还能补、报销时还能统一走一张单。我没核实 Codepilot 现在的后端结构,但如果它也往这个方向走,那它在卖的就不是 GPT Image 2.0 本身,而是“你不用自己管接哪家”。 我也有个明确的保留意见:图像模型一旦走第三方,能力一致性经常出问题。安全过滤、参数暴露、种子控制、返回格式、生成时延,都会因为中间层再包一层而变化。很多聚合接入会把原厂特性压平,最后只剩“能出图”,高级编辑能力却被吃掉。Nano Banana 2 现在也能走第三方,听着方便,但如果第三方没把上下文图、风格保持、批处理接口对齐好,用户看到的只是“能调用”,不是“能稳定工作”。这类差异,标题从来不会告诉你。 所以这条我不会高估。标题已经给出两件事:Codepilot 0.53.0 支持 GPT Image 2.0,且官方与第三方都可接;正文没有给出四个关键事实:价格、限制、参数、质量对齐。没有这四项,它还只是渠道层更新,不足以证明 Codepilot 在图像工作流上形成了新优势。要让我改观,至少得看到一组可复现信息:同一 prompt 下官方与第三方的出图耗时、失败率、单图成本,外加是否支持编辑类接口。没有这些,先把它当接入面扩张,别急着当产品跃迁。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
00:31
52d ago
● P1彭博科技· rssEN00:31 · 04·23
软银打算用持有的 OpenAI 股份做抵押,借 100 亿美元
软银在谈一笔 100 亿美元的贷款,抵押品是它手里的 OpenAI 股票。这属于保证金贷款,不是普通的公司债,说明软银在拿已有股权加杠杆继续押注 AI。正文没披露贷款期限、利率、抵押率,也没说这笔钱具体要花在哪。我会先打个折:100 亿这个数不小,但关键要看银行愿意按 OpenAI 估值打几折放款,这点目前还不清楚。
#SoftBank#OpenAI#Funding#Commentary
精选理由
彭博给的是一个具体的融资信号,不是泛泛的“看好 AI”。软银要用 OpenAI 股份质押借 100 亿美元,这件事本身比金额更值得盯:它说明软银在继续加杠杆押注 AI,也间接给 OpenAI 的估值提供了一个压力测试场景。我会先打个折——正文没披露贷款条件,所以没法判断这笔钱是便宜还是贵、风险敞口多大。但质押融资这个动作,比单纯宣布再投一轮钱更能反映资本层面的真实判断。
一句话点评
软银想用还没上市的 OpenAI 股票做抵押去借 100 亿美元,正文被付费墙挡了,具体利率和质押率都没披露。
锐评
这条消息的核心是软银在玩一种很新的杠杆:拿一家还没 IPO、估值极高但收入模式仍在爬坡的公司的股权去借钱。100 亿美元不是小数目,说明软银要么极度看好 OpenAI 的后续融资和上市前景,要么自己现金流吃紧,需要快速腾挪。但风险也在这——OpenAI 的估值很大程度建立在未来收入预期上,一旦市场情绪转向,质押的股票可能面临追加担保的压力。Bloomberg 的原文被付费墙拦住了,我们看不到贷款的具体条件,比如利率、贷款方是谁、质押率打了几折。这些数字才是判断这笔交易是激进还是稳健的关键。另外,OpenAI 对这笔贷款的态度也没披露,他们是否知情或同意这种股权质押安排,会直接影响后续的股权结构稳定性。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
00:00
52d ago
● P1OpenAI 博客· rssEN00:00 · 04·23
OpenAI 启动 GPT-5.5 生物安全漏洞赏金计划
OpenAI 搞了一个针对 GPT-5.5 的生物安全漏洞悬赏计划,想找能一次性绕过五道生物安全题的通用越狱提示词。测试只能在 Codex Desktop 上进行,成功者可以拿到 2.5 万美元,部分突破也可能酌情给点小奖。申请从 2026 年 4 月 23 日开放到 6 月 22 日,测试窗口是 4 月 28 日到 7 月 27 日。不过正文没披露具...
#Safety#Alignment#Benchmarking#OpenAI
精选理由
OpenAI 给 GPT-5.5 开生物安全漏洞赏金,HKR 三项全中:钩子够尖锐,2.5 万美元封顶是实打实的数字,生物风险红队测试也确实是行业敏感点。分数停在 80,因为摘要没披露报名条件、评测协议、覆盖范围和截止时间,这些缺口让我没法给更高。
一句话点评
OpenAI 悬赏 2.5 万美元找能一次性绕过 GPT-5.5 五道生物安全题的“万能越狱提示词”,测试仅限 Codex Desktop 版。
锐评
OpenAI 这次不是自己关起门来测,而是花钱请外部安全研究员来找 GPT-5.5 在生物风险上的漏洞。规则很直接:你要找到一个“万能越狱提示词”,在一个干净的对话窗口里,一次性让模型答对全部五道生物安全问题,还不触发内容审核。赏金 2.5 万美元,只给第一个做到的人,部分成功也可能给点小奖。 这个挑战的难度在于“万能”和“不触发审核”。它不是在测模型知不知道危险知识,而是在测防护层有没有一个通用缺口。测试范围限定在 Codex Desktop 版,说明这个版本可能开放了更多执行能力,风险更高。申请需要签保密协议,所有发现都不公开,这很符合安全漏洞赏金的行规,但也意味着外界看不到具体漏洞细节。 正文没披露这五道题具体是什么、难度如何,也没说 GPT-5.5 在内部测试中已经扛住了多少攻击。所以这个赏金到底是真难拿,还是 OpenAI 想借外部力量快速补漏,现在不好判断。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
00:00
52d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·23
团队共享 AI skill 的原则:不强制统一,让共识自己浮出来
文章讨论团队共享 AI skill(即喂给 AI 的认知资产)时遇到的矛盾:个人视角有价值但会互相打架,统一版本又维护不起。作者提出不追求“一份权威版本”,而是让每个人维护自己的 skill 集合,放到共享池里,允许重复和矛盾。AI 定期扫描所有人的 skill,发现高度重合的内容就提示作者,但不强制合并。团队再维护一份 baseline INDEX ...
#Memory#Tools#Commentary
精选理由
有个可讨论的治理角度——团队共享 AI 技能但不设中央审核层,所以 HKR-R 保留。但文章没给例子、数字、失败案例或可复现的流程,触发硬性排除(零来源),分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R1
00:00
52d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·23
Claude Design 和 Google DESIGN.md 到底是想取代设计师还是想取代码农
文章核心判断:在小公司和简单项目上,设计师和码农的岗位正在合并,而当前所有主流 AI 设计工具(Claude Design、Google DESIGN.md、Stitch、Lovable、Bolt、v0、Cursor)都默认让懂一点设计的码农取代只懂设计的设计师。Claude Design 的入口是对话框加 HTML 预览,目标用户是“非设计师”;Go...
#Code#Tools#Google#Figma
精选理由
HKR-H 和 HKR-R 靠“岗位合并”这个钩子过关,但 HKR-K 彻底失败:全文只有论点,没有数据、测试、定价、规格或工作流细节。按硬规则“零来源直接排除”,重要性压不到 40 以上,tier 定为 excluded。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
2026-04-22 · 星期三2026年4月22日
23:49
53d ago
FT · 科技· rssEN23:49 · 04·22
马斯克说他的 Terafab 会用 Intel 最新制程,Intel 股价涨了
马斯克公开表示,他的 Terafab 超级工厂将采用 Intel 的 14A 制造工艺。消息一出,Intel 股价应声上涨。Intel 一直在为 14A 工艺寻找一个大客户,这次马斯克相当于给了个背书。但正文没披露具体时间、订单规模或交易条款,所以这更像一个意向信号,还不是板上钉钉的订单。
#Intel#Musk#Terafab#Partnership
精选理由
标题有钩子,Musk 给 Intel 14A 背书确实让人多看两眼。但正文只说了会用这个工艺,订单多大、什么时候投产、造什么芯片都没提,信息量撑不起高分。对 AI 读者来说,这是半导体供应链消息,不是 AI 模型或产品更新,所以分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
23:46
53d ago
Hacker News 首页· rssEN23:46 · 04·22
tanh 近似方法大比拼:泰勒、帕德、样条和位运算谁更快?
这篇博客对比了 5 种快速计算 tanh 的方法:泰勒展开、帕德近似、样条插值,以及利用 IEEE-754 浮点数格式的位运算技巧(如 K-TanH)。作者给出了具体阈值:泰勒展开在 |x|>1.365 时直接返回 ±1,帕德近似建议输入限制在 [-5,5] 内,K-TanH 只用整数运算加一个 512 位的查表。对做推理加速的人来说,关键是在误差、区...
#Inference-opt#J Tom Schroeder#JUCE#IEEE
精选理由
触发硬排除-技术可读性不足:全文讲 tanh 近似和位级实现,对主流 AI 产品或 agent 场景几乎没有入口。HKR-K 靠具体阈值通过,但 HKR-H 和 HKR-R 都弱,所以维持 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
23:30
53d ago
● P1FT · 科技· rssEN23:30 · 04·22
Tesla将资本支出计划上调至250亿美元用于AI及自动驾驶
特斯拉把资本支出计划上调到 250 亿美元,马斯克要把更多钱砸向 AI 相关项目。从 RSS 片段看,这些项目包括自动驾驶出租车、卡车、机器人以及芯片工厂,增幅被形容为“非常显著”。不过正文被付费墙挡住,没披露这笔钱覆盖的时间范围、具体怎么分项,也没提模型细节。能确定的一个信号是:特斯拉在投的不只是训练模型,而是从芯片到终端产品的整套体系。
#Agent#Robotics#Inference-opt#Tesla
精选理由
FT报了一个具体的资本支出跳升数字,直接关联自动驾驶出租车、卡车、机器人和芯片工厂。我会先打个折:时间范围和分项花销都没给,模型细节也缺,所以不是必写级别。但250亿这个数够大,而且投向的是车、机器人和芯片产能整条链,不是只训模型,战略意义摆在那。HKR三项都踩中了,只是信息缺口让它停在featured中段。
一句话点评
特斯拉把未来资本支出计划提到250亿美元,主要砸向AI和自动驾驶。数字很大,但正文没披露具体怎么分、用在哪些项目上,先别急着喊“All in AI”。
锐评
特斯拉上调资本支出计划至250亿美元,马斯克继续在AI方向下重注。这个数字本身说明公司对算力、自动驾驶研发的投入预期在拉高,但FT的报道正文被付费墙挡住,看不到具体细节。TechCrunch的标题也指向同一件事,但同样没展开资金分配比例、时间跨度和预期回报。 对从业者来说,这笔钱如果真的大头流向自研芯片、数据中心或训练集群,意味着特斯拉在算力基建上要和微软、谷歌这些云厂商抢资源。但现阶段能确认的只有“计划上调”这个动作,实际执行率、项目优先级都还是未知数。另外,250亿是多年累计还是单年峰值,报道也没说清,这点直接影响判断——如果是多年分摊,每年增量其实没那么夸张。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
22:25
53d ago
TechCrunch AI· rssEN22:25 · 04·22
X 用 Grok 取代“社区”功能,AI 自动生成话题时间线并塞广告
X 本周上线了 Grok 驱动的自定义时间线,替代原有的“社区”功能。Grok 会读完每条帖子、打上话题标签,然后给你生成一个按话题聚合的时间线,目前有超过 75 个话题可选,还能钉在首页。X 产品负责人说,你平时越爱聊什么,Grok 给你推的就越准。但正文没披露这个功能是逐步开放还是全量上线,也没说 Grok 是怎么排序帖子的、广告会插多密。唯一确定...
#Tools#X#Product update
精选理由
HKR-H 通过,因为 X 用 Grok 策划的信息流替换 Communities 并加入广告位,这个产品变动本身有钩子。HKR-K 不通过,因为上线范围、排序逻辑和广告规则都没披露,信息缺口大。HKR-R 偏弱,对 AI 从业者来说缺乏模型能力、成本或工作流变化的直接关联,属于低优先级全行业更新。
一句话点评
X用Grok AI替代了社区功能,推出AI自定义信息流。它能理解每篇帖子并打标签,比关键词匹配更准。但正文没披露Grok的幻觉率,如果推荐了不存在的帖子或错误信息,用户很难发现。另外,广告位也嵌进去了,这点先别太激动。
锐评
X 正在用 Grok 策划时间线替换 Communities,还加入广告位。我的判断很直接:这不是一次普通的信息流改版,这是把“谁能被看见”从社群运营者手里,交回模型排序和商业化系统。标题已给出替换对象、Grok 参与、广告位三点,正文未披露上线范围、排序信号、广告加载规则,这几个缺口都很关键。 我不太买“AI 让发现更好”这套说法。产品史上,社区页一旦被推荐流接管,目标通常会从关系维系转成停留时长和广告填充。Meta 当年把 Facebook Group 的分发更深地并进推荐系统后,活跃是上去了,但管理员对触达的可控性明显下降;X 这次像是同一路数,只是把推荐器换成了 Grok。要是 Grok 既负责归纳话题,又参与排序,再叠加广告位,模型就不只是助手,它成了新的流量闸门。 说真的,我这里最大的疑虑是激励错配。社区需要稳定规则,广告系统需要可预期库存,生成式策划需要高频改写三者天然拉扯。正文没给任何可复现条件,我还没法判断广告是按时间线固定插入,还是按意图动态匹配;这两个机制对创作者和品牌安全是两套完全不同的产品。如果 X 连最基本的频控、去重、误分流规则都没公开,这条更新先看成商业分发重构,比“AI 社交新体验”靠谱得多。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R0
22:25
53d ago
Hacker News 首页· rssEN22:25 · 04·22
微软发了个 Teams SDK 指南:把你已有的 Agent 直接挂进 Teams,不用重写
微软 4 月 17 日发了一篇 Teams SDK 使用指南,核心就一招:用 HTTP server adapter 在你现有的 Express 服务器上注册一个 `POST /api/messages` 端点,Teams 发来的消息就走这个入口。文章给了三个起点:Slack bot、LangChain 链、Azure Foundry agent。好处...
#Agent#Tools#Microsoft#Teams SDK
精选理由
HKR-K 成立,因为文章给出了具体的集成机制:HTTP server adapter、POST /api/messages 和 Teams 请求校验。HKR-H/R 弱:这是微软自家的 Teams 指南,受众窄,没有更广泛的生态信号,所以维持 tier 1。
一句话点评
微软 Teams SDK 改名后首个大更新:你已有的任何 HTTP 服务(Slack bot、LangChain 链、Azure Foundry agent)都能直接挂进 Teams,不用重写。核心就一行代码——用 HTTP server adapter 在现有 Express 服务上注册一个 /api/messages 端点,Teams 消息自动路由进来。正文给了三个完整示例,代码可跑。但...
锐评
Microsoft 这篇指南把 Teams 接入收敛到 1 个 `POST /api/messages` 端点。我的判断很直接:它卖的不是开发便利,而是分发控制权。你已经有 Slack bot、LangChain 链、Azure Foundry agent,都能挂进同一个 Express 进程,这一步把 Teams 从“要单独适配的渠道”降成了“顺手多接一个前台”。对企业开发者,这种摩擦下降很实在;对 Microsoft,自家工作入口就更难被绕开。 文章给的技术动作很少,核心就是 3 步:`ExpressAdapter` 包住现有 server,`TeamsApp` 初始化,SDK 自动注册路由并验签。正文没披露吞吐、延迟、认证细节,也没讲多租户、权限边界、会话状态怎么落。这里我得泼点冷水:把接入写成“复用同一进程和同一业务逻辑”很好看,生产里最麻烦的通常不是 handler 复用,而是平台差异。Slack 的事件模型、Teams 的 activity schema、身份上下文、文件权限、线程语义都不一样。你能共用 70% 代码,我信;你能长期只维护一套逻辑,我不太买账,尤其碰到审批流、会议上下文、Graph 权限时,分叉迟早会长出来。 我一直觉得 Microsoft 过去两年的路线很清楚:先用 Copilot 抢心智,再把 Teams、M365、Graph、Foundry 这些入口和底座绑紧。2024 年 Build 之后,Copilot extensibility 一直在讲“把能力带到工作流里”;现在这篇文章把门槛再压低一层。对比 Slack/Salesforce 那边的 Agentforce 和传统 bot 框架,Microsoft 的优势从来不只在模型。它手里有 Teams 客户端、Entra 身份、Graph 数据面、管理员策略和采购关系。你把 agent 挂进去,技术上只是多一条路由,组织上却是在接受它的界面、审计、权限和分发规则。这个位置一旦站稳,模型换不换、链路是不是 LangChain,反而没那么关键。 有意思的地方在于,它连 Slack bot 都拿来做示例。这个姿态很明确:不是要求你重写成 Teams 原生应用,而是允许你把现成资产搬进来。我看着像很典型的平台吸附策略。先让迁移成本接近 0,再慢慢把企业使用场景从“跨平台 bot”引到“Teams 内原生协作 + M365 数据调用”。历史上 Microsoft 做开发者平台经常这么走:先兼容,后内化。VS Code 对前端工具链、GitHub Copilot 对 IDE 工作流,都有这个味道。 我对文章叙事还有一个保留。它把“SDK 负责验证请求来自 Teams”讲得很轻松,但企业真正卡住的不是这一层。审计日志去哪,数据驻留在哪,消息内容会不会进模型训练,管理员能不能按用户组关停,跨 tenant 的 guest 用户怎么处理,正文都没给。你要是内部试点,这篇足够;你要是上生产,这些问题一个都绕不过去。标题给了 BYO Agent,正文展示了接线方式,但缺了企业上云最贵的那半截。 所以这条消息我会当成平台战争信号,不会当成 agent 技术突破。Microsoft 在做的事很朴素:把 Teams 变成企业 agent 的默认收件箱。谁先占住消息入口,谁就更接近后面的身份、数据和治理入口。至于“同一套业务逻辑跑 Slack 和 Teams”这件事,我建议团队先把共享层限定在 agent orchestration、tool calling 和 observability,别一上来就幻想 UI、权限和对话状态也能完全统一。那样后面返工更贵。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R0
21:38
53d ago
X · @dotey(宝玉)· x-apiZH21:38 · 04·22
GPT Image 2 提示词模板:一张图融合两个时代
这个帖子分享了一个 GPT Image 2 的提示词模板,用来生成左右分屏、无缝融合两个时代的照片。默认时间跨度约100年,示例是纽约时代广场,左边1920年代,右边今天,比例4:3。模板里把场景、时代A、时代B设成了变量,可以复用。核心要求是中间不能有硬分割线,两个时代的人、建筑、道具要自然互动,比如旧时代的人惊讶地看着现代人的手机。帖子没披露模型规...
#Multimodal#Tools#Commentary
精选理由
HKR-H和HKR-K通过:百年分屏对比有钩子,模板给出了可复用的提示词结构。HKR-R不通过:没有工作流、成本、安全或模型边界含义;有用的提示词技巧,但不是有意义的行业更新。
一句话点评
GPT Image 2 的提示词被扒出来了,但正文没给任何细节,只有标题。目前只能确认有人在逆向或分享生成图片的 prompt,具体效果、成本、是否官方都没提。如果是社区玩法,参考价值有限;如果是官方泄露,那才值得跟进。先别急着套用,等更多验证。
锐评
这条帖子放出 1 个 GPT Image 2 模板,核心不是审美词,而是它把同一场景的跨时代生成拆成了 4 组可控变量:场景、时代 A、时代 B、中心融合机制。这个拆法很实用,因为多数“复古对比图”提示词只会堆形容词,最后得到的是两张并排海报,不是一个能批量复用的生成结构。 我对这类模板一向有个判断:只要 prompt 开始显式约束服饰、道具、建筑材料、人物动作,图像模型就从“出一张好看的图”转向“执行一个镜头设计”。这件事比帖子里的 cinematic、8k、photorealistic 这些词重要得多。后者基本已经成了 2025 年后图像社区的默认噪声词,很多模型加不加都差不多;前者才决定你能不能稳定复现“1920 年代纽约”和“今天的纽约”同时出现,而且彼此有互动。这里最聪明的一笔,是中心区域不许硬切,还要求跨时代人物互看、穿行、受惊。这会逼模型去做关系建模,不只是做左右两块素材拼接。 我跟你说,这种模板的价值更像是一个小型 scene graph,只是用自然语言写出来了。过去一年里,Midjourney、Flux 系和 OpenAI 图像模型最明显的进步,不只是清晰度,而是对多主体、多属性、空间过渡的服从度高了一截。早一代模型看到“左边 1920s、右边 present day、中心自然融合”,常见结果是中心直接糊掉,或者把 LED 屏和黄包车乱炖。现在能不能做得像样,关键就在这种变量拆解有没有足够细。这个模板把建筑、材料、载具、手持物、发型配饰都点出来,已经接近 production prompt 的写法了。 但我对帖子叙事也有保留。正文没披露模型版本细节、价格、生成张数、失败率,也没给 seed、负面约束、迭代次数。没有这些信息,你很难判断这是“模板本身强”,还是“作者挑中了 1 张最好看的结果”。图像社区这类分享最常见的问题,就是把筛选后的单张样本包装成稳定能力。我自己没看到批量测试,所以不会把它直接当成可靠工作流。要验证很简单:把 Scene 从 Times Square 换成上海外滩、东京涩谷、柏林墙旧址,再把时代差从 100 年改成 30 年或 300 年,看中心融合是否还稳。过不了这个测试,它就只是一个适合社媒传播的 prompt,不是可迁移的方法。 还有一点我不太买账:historically accurate 这种要求写进 prompt,不等于模型真的有历史准确性。训练语料里最容易学到的是大众刻板印象,不是严肃史实。1920 年代时报广场该出现什么招牌、车辆比例、街面密度,模型未必知道,很多时候只是在生成“大家以为的 1920s 纽约”。这一点其实和视频生成里“documentary style”很像,风格能到位,史实常常飘。做内容创作没问题,做教育或品牌项目就得有人审图。 所以这条我会把它看成一个 prompt engineering 小样板,不是模型能力证明。它说明的不是 GPT Image 2 突然会“穿越叙事”了,而是好用的图像提示词开始从形容词堆砌,转向结构化约束。这个方向我认可。标题给了模板,正文没给稳定性证据;先别把一张好图误判成一个成熟能力。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R0
21:29
53d ago
X · @dotey(宝玉)· x-apiZH21:29 · 04·22
一个寓言讲透 Agent Harness:模型是脑子,外面那套身体才是关键
这篇用寓言讲 Agent Harness 的文章很直观。故事里齐国和楚国都有同一个聪明先生(LLM),但齐国只凿洞喊话,楚国却给先生配了文吏(感知层)、执行队(行动层)、校验官(容错层)和记录官(记忆层)。结果楚国先生能解决实际问题,齐国先生却频频翻车。核心判断:模型能力是地板,Harness 质量才是天花板。同一个模型,套上不同的 Harness,表...
#Agent#Tools#Memory#Shen Kuo
精选理由
HKR-H 靠寓言角度能吸引点击,但 HKR-K 只是把 Harness 分层复述了一遍,没有数字、可复现的设置或一手测试。硬性排除规则“零来源”生效,所以重要性上限卡在 40 以下,层级定为 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
20:55
53d ago
彭博科技· rssEN20:55 · 04·22
IBM软件销售符合预期但AI威胁投资者仍担忧
IBM 最新季度软件销售额符合预期,但投资者更担心 AI 对业务的冲击。Jefferies 分析师 Brent Thill 在 Bloomberg 上表态,认为 AI 才是 IBM 当前的核心议题。正文没披露具体营收数字、增长率或 AI 相关指标,所以没法判断 IBM 的 AI 业务到底跑得怎么样。真正该盯的是 IBM 能不能拿出可量化的 AI 落地成...
#IBM#Jefferies#Brent Thill#Commentary
精选理由
彭博给了来源权威性,但本质上还是一段很薄的电视评论。正文没披露 IBM 任何 AI 营收、订单、增速或产品细节;HKR-R 勉强靠“老牌厂商的 AI 压力”过关,H 和 K 都不达标,所以留在低分段的 all 档。
一句话点评
IBM软件业务收入符合预期,但市场不买账,因为投资者担心AI会吃掉传统软件份额。正文被Bloomberg paywall挡住,具体数字和AI业务增速没披露。Jefferies分析师说AI是IBM面临的大问题,但没展开。关键缺口:AI咨询和软件收入占比、客户是否在砍传统预算。
锐评
Jefferies分析师Brent Thill在Bloomberg上表态,AI才是IBM当前的核心议题。但正文被Bloomberg paywall挡住,没披露IBM软件营收的具体数字、增长率或AI相关指标,所以没法判断IBM的AI业务到底跑得怎么样。 真正该盯的是IBM能不能拿出可量化的AI落地成果——比如咨询业务里AI项目的占比、Watsonx的客户数或收入贡献。分析师喊话只是信号,没有财报数字支撑,这点先别太激动。 信息缺口:正文缺失,无法确认IBM AI业务的实际表现和增速。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K0·R1
20:29
53d ago
The Verge · AI· rssEN20:29 · 04·22
沃伦警告:AI行业崩盘可能引发下一场金融危机
参议员伊丽莎白·沃伦在华盛顿一场活动上说,AI行业如果出问题,可能触发下一场金融危机,她认为现在的局面和2008年金融危机前很像——企业大量借钱、疯狂烧钱。她呼吁国会赶紧行动。不过正文没披露具体是哪几家公司、欠了多少债,也没提任何草案内容。
#Elizabeth Warren#Vanderbilt Policy Accelerator#Congress#Policy
精选理由
HKR-H和HKR-R通过,因为Warren把AI崩盘和2008年金融危机挂钩,从业者会关心泡沫风险和监管走向。HKR-K不通过:正文没有给出任何债务数字、点名公司或政策文本,信息缺口太大,按硬排除规则6,分数上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
20:04
53d ago
彭博科技· rssEN20:04 · 04·22
德州仪器盘后大涨:数据中心需求拉动模拟芯片回暖
德州仪器发布强劲业绩预告,盘后股价大涨。核心驱动力是数据中心和工业设备支出回升,带动模拟芯片和嵌入式芯片需求。正文被 paywall 挡住,没披露具体涨幅、营收区间和产品线细节。关键信号是:AI 数据中心资本开支是否持续溢出到模拟芯片这类传统半导体品类。
#Texas Instruments#Commentary
精选理由
这是半导体财报新闻,不是直接的 AI 模型、产品或平台进展。HKR-H/K/R 全不达标:文章确认了需求与上调指引,但省略了关键数字、产品线以及任何 AI 专属的收入敞口,所以评分 36 且排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
18:59
53d ago
Dwarkesh Patel 访谈· atomEN18:59 · 04·22
黄仁勋解释为什么英伟达最初没投Anthropic
黄仁勋在视频里聊了英伟达当初为什么没投Anthropic。但正文没披露具体时间、决策依据和投资金额,所以只能知道结果,不知道当时是嫌贵、嫌技术路线不确定,还是其他原因。
#Jensen Huang#Nvidia#Anthropic#Commentary
精选理由
H 和 R 通过:黄仁勋、Nvidia、Anthropic 三个名字放一起就是 hook。K 不通过:正文为空,所以分数卡在低价值区间的上沿。
一句话点评
黄仁勋聊英伟达当初没投Anthropic,但正文没披露具体原因和金额。
锐评
黄仁勋在视频里承认英伟达第一次没投Anthropic,但正文是空的,只靠标题和摘要撑场。所以能确认的事实就一个:没投。至于为什么——嫌估值高、技术路线不确定、还是内部决策流程问题——全没讲。信息缺口很大,没法判断这是战略失误还是理性放弃。对关注AI投资逻辑的人来说,这条的价值在于黄仁勋本人开口聊了,但内容密度极低,等于一个预告片。想看细节的得等完整访谈或更靠谱的信源。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R1
18:46
53d ago
r/LocalLLaMA· rssEN18:46 · 04·22
Qwen3 TTS 本地实时跑,表现力在开源里算第一梯队
一位 Reddit 用户发帖说 Qwen3 TTS 能在本地实时运行,是他试过表现力最强的开源 TTS 模型之一。帖子正文被 Reddit 屏蔽(403),所以硬件配置、延迟数据、部署步骤和采样参数都没披露。目前能确认的只有用户的主观评价,缺少可复现的细节。
#Audio#Qwen#Reddit#Commentary
精选理由
标题确实有钩子——本地实时+高表现力的开源TTS,但正文被墙,延迟、硬件、部署方式和音频证据全缺。HKR-H 通过,HKR-K/R 不通过;按硬排除-零信源/缺证据处理,分数压在40以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
18:04
53d ago
● P1Hacker News 首页· rssEN18:04 · 04·22
OpenAI 推出 Workspace agents 在企业工具间执行自动化工作流
OpenAI 给 ChatGPT Business、Enterprise、Edu 和 Teachers 套餐加了一个叫 Workspace agents 的功能。你可以把它理解成在聊天工具里建一个能自动跑流程的助手:建一次就能共享给全团队,可以定时执行重复任务(比如整理销售线索、生成报表),也能直接操作 Slack、Google Drive、微软系应用...
#Agent#Tools#Safety#OpenAI
精选理由
OpenAI 放出了一个实打实的企业代理预览,HKR 三项全中:钩子是跨应用工作流自动化,正文给了治理控制的具体名目,又切中了企业采纳的核心顾虑。没给 P1 是因为价格、模型规格、上线时间全都没说,实际效果也还没验证,所以先打个折。
一句话点评
OpenAI 把能自己跑流程的 AI 助手塞进了企业版 ChatGPT,但别急着叫它“数字员工”,目前只是研究预览版。
锐评
OpenAI 这次发布的 Workspace agents,说白了就是让企业用户能在 ChatGPT 里搭一些能跨工具、按时间表自动干活的 AI 助手。比如自动筛选销售线索、汇总用户反馈、生成报表这些重复性工作。它支持连接 Slack、Google Drive、微软系应用等,管理员可以设权限和人工审批节点,防止 AI 乱来。 但要注意,官方公告里全是功能描述和示意图,没给任何实际性能数据。我们不知道这些 agent 的任务完成率是多少,会不会在长流程里跑偏,也没看到延迟或成本数字。它目前只在企业版、教育版等付费计划里以“研究预览”形式开放,说明还是个半成品,稳定性没经过大规模验证。 对企业来说,如果真能稳定运行,确实能省掉不少协调和等待的时间。但正文没披露错误处理机制,也没说 agent 在遇到模糊指令时会怎么决策。在把核心业务交给它之前,最好先拿非关键流程试试水。
HKR 分解
hook knowledge resonance
打开信源
98
SCORE
H1·K1·R1
17:13
53d ago
Hacker News 首页· rssEN17:13 · 04·22
监视定价:商家用你的个人数据给你报不同的价
Patrick K. Lin 在 LPE 项目博客发文,梳理了从 2011 年到 2025 年商家利用个人信息对同一商品向不同顾客报不同价的做法。案例包括 Ticketmaster 动态定价、Uber 高峰加价、Orbitz 给 Mac 用户推更贵的酒店、Instacart 上同款商品价差最高达 23%。2025 年 5 月纽约通过了披露法,要求算法定...
#Patrick K. Lin#New York#Instacart#Policy
精选理由
H和K都过关:'监控式定价'概念抓人,正文给了Instacart 23%价差和纽约披露法这些实锤。R不过关:对AI从业者来说这是政策评论,跟模型、成本、AI竞争关系不大,所以分数压在40以下,直接排除。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K1·R0
17:10
53d ago
Hacker News 首页· rssEN17:10 · 04·22
Anker 自研芯片 Thus,先塞进耳机再铺到全线产品
Anker 宣布自研了一颗叫 Thus 的芯片,专门给自家产品加 AI 功能。首发产品是耳机,后续会铺到充电头、音箱等全系。正文没披露这颗芯片用多少纳米工艺、算力多少、跑什么模型,也没说什么时候上市。目前能确认的就一个产品路线:耳机先上。这点先别太激动,自研芯片成本高、周期长,Anker 之前没做过芯片,落地效果和实际体验都还是未知数。
#Inference-opt#Audio#Anker#John Higgins
精选理由
HKR-H 靠的是意外角度:Anker 说自己造了芯片要铺到全线产品。HKR-K 和 HKR-R 不通过,因为正文只确认了耳机首发,制程、算力、模型形态、落地节奏都没披露,信息量太低,从业者没什么可讨论的。
一句话点评
Anker 自研了 AI 芯片 Thus,先用在耳机上,再铺到全系产品。正文没披露算力、功耗或成本,只说“把 AI 带到所有产品”,目前看更像品牌叙事而非技术突破。短评:自研芯片是条长路,先看耳机端效果再激动。
锐评
Anker 只确认 Thus 芯片先上耳机,全文没给制程、算力、模型和量产时间。我的判断很直接:这更像一张供应链和产品定义权的门票,不是一次已经落地的 AI 能力发布。 标题故意把叙事拉到“all its products”,正文能落地的条件只有一个:earbuds first。这个落差很关键。耳机是最适合先塞自研低功耗语音 / 音频推理芯片的品类,约束明确,任务也窄,常见就是 ANC、波束成形、关键词唤醒、离线翻译的一小段前处理,或者把一部分语音增强搬到端上。要把这条线扩到充电设备、家居、投影、安防,难度不是多做几颗芯片,而是每个品类的传感器、功耗预算、散热、BOM 和固件周期都不一样。正文没披露任何统一软件栈,我先不信“全部产品线”已经有可执行路线。 我一直觉得,消费电子公司做自研芯片,先看的不是峰值算力,是能不能把成本、待机功耗和体验稳定性一起控住。Apple 的 H1、H2,Google 的 Tensor,Amazon 在 Alexa 设备上的边缘 AI,走的都不是“把模型做得多大”,而是把固定场景吃透。Anker 如果真想学这条路,最像的参照不是手机 SoC,而是 NXP、Qualcomm S3 这类低功耗音频 / IoT 路线,再往上接云端模型。问题在于,文章没说 Thus 是完整 SoC、独立 NPU,还是带一点 DSP / MCU 定制的封装方案。这个差别很大:前者说明 Anker 在长期下注,后者更像定制化集成。 我对“自研”这个词也有点怀疑。消费硬件公司现在很喜欢把定制 IP、联合设计、参考设计改版都装进“our chip”里。不是说这样不算数,而是行业里“自研”跨度太大了:从 Apple 那种深度自控,到找现成架构做一层定制,媒体标题常常混在一起。正文没有披露代工、IP 来源、EDA、封装伙伴,也没讲首代芯片由谁主导定义。我还没查到更多材料,所以没法把 Thus 放进真正的芯片公司那一档。 还有一个现实问题:耳机上的 AI 卖点,这一年已经很拥挤。Qualcomm 一直在推 S7 / S7 Pro Gen 1 一类平台,主打低功耗音频处理和混合 AI;苹果把很多体验包进系统级联动里;三星、Nothing、字节系硬件都在讲翻译、摘要、语音交互。Anker 的机会不在“我也有 AI 芯片”,而在它能不能把中端价位的大货 SKU 做出稳定差异。Anker 的强项一直是渠道、出货节奏、BOM 控制,不是模型研发。要是 Thus 只是把公版方案换成自家命名,护城河不会太厚;要是它能把 ANC、通话降噪、离线指令、续航四件事一起做出一档体验,那这颗芯片才算有存在感。 所以这条新闻我先按“组织能力变化”看,不按“AI 产品突破”看。Anker 愿意为一个耳机优先的芯片项目买单,说明它不满足于只做品牌和组装整合,想往上拿一点 silicon control。这个方向没错,很多消费硬件公司最后都会走到这一步。问题是,正文没给任何能验证成色的数字:TOPS 没有,毫瓦级功耗没有,延迟没有,离线能力边界没有,量产节点也没有。没有这些,现阶段只能说 Anker 进场了,不能说它已经赢到下一阶段。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R0
16:57
53d ago
X · @Yuchenj_UW· x-apiMULTI16:57 · 04·22
Anthropic 该花 100 亿美元找 SpaceX 买/租 GPU
华盛顿大学助理教授 Yuchenj 认为,Anthropic 算力短缺已经拖累了它的编程产品竞争。证据是:Claude Code 从 Pro 套餐里撤掉、API 限频更严、封杀第三方应用、对外沟通混乱。如果算力够,Anthropic 可能早就赢了 AI 编程战。正文没披露任何实际 GPU 交易、算力数字或 Anthropic 的回应。
#Code#Inference-opt#Anthropic#SpaceX
精选理由
HKR-H和HKR-R成立:100亿美元找SpaceX买GPU这个点子够劲爆,而且算力卡住Claude Code确实戳中行业神经。HKR-K不成立:帖子只有四个抱怨,没有库存、交易、财务或公司回应,属于硬排除的零信源内容。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
16:31
53d ago
r/LocalLLaMA· rssEN16:31 · 04·22
小米发布Mimo-V2.5开放权重模型
Reddit 上有人发帖说小米发布了 Mimo-V2.5,标题还强调这是“开源模型的大日子”。但点进去只有 Reddit 的 403 拦截页,正文一个字都没抓到。目前能确认的只有模型名字和“开源权重”这个说法,权重、许可证、跑分、上下文长度一概没披露。想下载或评估的话,得等官方渠道放更多信息。
#Xiaomi#Reddit#Product update#Open source
精选理由
硬排除-零信源。标题说小米发布了Mimo-V2.5开源权重,但抓到的页面只有Reddit的403拦截页。权重链接、许可证、参数量、基准成绩、上下文长度全都没披露,所以HKR-K不成立,条目保持排除。
一句话点评
小米开源了 Mimo-V2.5 和 V2.5 Pro 两个视觉语言模型,权重开放可本地跑。但 Reddit 原文被屏蔽,正文没披露参数量、训练数据、评测分数等关键信息,目前只能确认是开源动作。短评:开源是好事,但信息太少,先别急着吹。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H1·K0·R1
16:28
53d ago
FT · 科技· rssEN16:28 · 04·22
AI 不该用来定今天利率
这篇评论文章的核心观点是:央行现在别拿 AI 模型来指导加息或降息,因为 AI 对物价的影响到底多大、多快,目前根本算不准。正文被付费墙挡住了,看不到具体引用了哪家央行、哪个模型或什么数据。所以只能告诉你:这是一篇政策评论,不是技术进展,没有披露任何实证或时间窗口。
#Commentary#Policy
精选理由
HKR-H和HKR-R靠'AI定利率'这个挑衅角度过关,但HKR-K不通过:RSS摘要只说了'价格影响未明',没给数据、案例、央行范围或方法。适用hard-exclusion-6,因为这是零信源的评论观点,所以维持排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
16:15
53d ago
Product Hunt · AI· rssEN16:15 · 04·22
IFTTT 给 Claude 开了个接口,能连 1000 多个应用
IFTTT 推出了一个 MCP 接口,让 Claude 可以直接调用它那 1000 多个应用(比如发邮件、记笔记、控制智能家居)。但官方只说了这一句,没透露具体怎么连(接口地址、认证方式、能执行哪些操作),也没说要不要钱。所以关键不是它连了多少应用,而是每个应用能干什么——比如是只能读通知,还是能发消息、改设置。正文没披露这些细节,目前只能当个预告看。
#Tools#Agent#IFTTT#Claude
精选理由
HKR 的 H 靠 Claude + MCP + 1000 应用的钩子通过。K 和 R 都挂掉,因为这条帖子只给了一句广告语,没有实质信息;硬排除规则里“纯营销”和“零信源”两条都命中,分数压不到 40 以上。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
16:09
53d ago
Hacker News 首页· rssEN16:09 · 04·22
Broccoli:一个把 Linear 工单自动变成 PR 的开源工具,跑在你的 Google Cloud 上
Broccoli 是一个刚开源的“一键编码代理”,声称能把 Linear 上的开发工单直接变成可合并的 PR。底层用的是 Claude 和 Codex,但正文没披露具体模型版本、执行流程、权限边界和评测结果。项目目前 34 个 Star、3 个 Fork,还很小。值得关注的点是它试图做一个可复现的“工单→PR”流水线,而不是吹“一次搞定”。跑在自己的 ...
#Agent#Code#Tools#besimple-oss
精选理由
HKR-H 和 HKR-R 通过:'Linear 工单到已提交 PR' 是一个强 coding agent 钩子,也是真实工作流痛点。HKR-K 不通过,因为仓库页几乎没有可验证的细节——没有模型版本、执行流程、权限边界或评测结果,所以分数停留在 60 出头。
一句话点评
Broccoli 是一个把 Linear 工单自动转成 PR 的开源工具,底层用 Claude 和 Codex,跑在自己的 Google Cloud 上。目前 GitHub 34 星,3 个 fork,属于早期项目。亮点是“一次触发,全自动出 PR”,省掉人工拆任务、写代码、提 PR 的步骤。但正文没披露成功率、代码质量评估、以及处理复杂工单时的表现,这点先别太激动。适合小团队试水,生产环境慎用。
锐评
Broccoli 在 34 星时把目标写成工单直达 PR,我的判断是它卖的是流程想象,不是已验证能力。标题给了 Linear、Google Cloud、Claude、Codex 这四个锚点。正文没给模型版本、上下文拼装、代码执行沙箱、仓库写权限、回滚机制,也没给成功率。 这类项目过去一年冒得很快。OpenHands、Devin、Factory、Sweep、Copilot Workspace,讲的都是把需求变成改动。分水岭从来不在“能不能写出一版代码”,而在“能不能稳定过 review”。我自己一直觉得,ticket-to-PR 这条链最难的环节不是生成补丁,而是把隐含约束补全:历史 commit 风格、测试夹具、权限配置、依赖版本、失败后的补救。少一项,自动化就会从工程系统退化成 demo。 Broccoli 现在强调“running on your own Google Cloud”,这点我反而比较认可。代码代理只要碰到私库和生产凭证,部署位置就不是包装问题,而是采购门槛。很多团队不愿把仓库、issue、CI token 全交给托管 agent,这也是为什么去年一批 coding agent 演示很热,企业落地却慢。把执行面放进自有云,至少把网络边界和审计日志留在自己手里。问题是,标题只说了运行地点,没说权限最小化怎么做。它如果拿的是 broad repo write、CI trigger、cloud secret read,这套东西在安全评审里还是会被卡住。 我对 “one shot” 这个表述有点警觉。软件任务不是单轮问答,尤其 Linear 工单经常缺验收条件。像修一个 flaky test、补一个 billing edge case、改一次 migration,通常都要先读失败日志,再试,再回退。Anthropic 和 OpenAI 过去几代编码模型都在强化 tool loop,不是在强化“一步到位”神话。我没查到 Broccoli 是否有 planner、critic、test-repair 之类的多阶段流程。如果底层其实也是多轮 agent,只是前台包装成 one shot,那这个说法就偏营销了。 还有一个现实问题:谁来定义“shipped PR”。开了 PR,不等于可合并。能过单测,不等于能过 reviewer。仓库页没披露评测集,也没披露样本数。我想看的是 50 到 100 个真实 Linear 工单里,有多少能在无人接管下进主干;平均跑几轮;单次成本多少;失败主要卡在测试、检索还是权限。没有这些数,这条还只能算值得试的开源编排层,不是成熟代理产品。说真的,名字和口号都好记,硬度还得靠那条可复现链路自己证明。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
15:53
53d ago
Hacker News 首页· rssEN15:53 · 04·22
Hailey Somerville 开源 WSL9x 项目实现 Linux 在 Windows 9x 内运行
Hailey Somerville 开源了 WSL9x,一个在 Windows 9x 系统上协同运行 Linux 6.19 内核的项目。它由三部分组成:打过补丁的 Linux 内核、一个 VxD 驱动(Windows 9x 的设备驱动格式)和一个叫 wsl.com 的客户端程序。驱动通过 DOS 中断加载内核镜像,固定基址在 0xd0000000,并分...
#Tools#Hailey Somerville#Codeberg#Open source
精选理由
HKR 的 H 和 K 都过了——反转够新奇,机制细节也扎实。但 R 直接触发了硬排除:技术可及性门槛太高,价值完全依赖 Win9x/VxD/中断内部知识,跟 AI 产品、模型或工作流没有半点关系。正文也没提任何 AI 相关的东西,所以 tier 给 excluded 是对的。
一句话点评
Hailey 在 Windows 95 上跑起了现代 Linux 内核,而且不用硬件虚拟化,486 都能用。原理是让 Linux 内核跟 Windows 内核在 ring 0 协作运行,类似当年的 coLinux。目前只是个人项目,没提兼容性和稳定性,跑生产负载别想。但作为复古硬件的玩具,这 hack 确实漂亮。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K1·R0
15:40
53d ago
Hugging Face 博客· rssEN15:40 · 04·22
英伟达在 8GB 边缘设备上跑通 Gemma 4 语音视觉对话
英伟达在 Hugging Face 上发了一个本地 demo,把 Gemma 4 跑在 Jetson Orin Nano Super(8GB 内存)上,实现语音对话+按需调用摄像头。流程是:Parakeet 语音转文字 → Gemma 4 理解 → 必要时拍一张照片 → Kokoro 文字转语音输出。模型自己判断要不要“睁眼”,不需要关键词触发。代码和...
#Agent#Vision#Audio#NVIDIA
精选理由
HKR 三项都轻度命中:在 8GB Jetson 上跑通 VLA 风格的本地语音-视觉循环,管线具体、脚本公开。但正文没披露延迟、吞吐和量化参数,所以停留在“有意思但不够上首页”的区间。
一句话点评
英伟达把Gemma 4塞进8GB边缘设备,能语音对话+按需拍照,但没提延迟和量化细节。
锐评
这条demo的核心看点是:一个多模态流程(语音→模型→摄像头→语音)全跑在Jetson Orin Nano Super(8GB内存)上,模型自己决定什么时候拍照,不用关键词触发。英伟达给了完整GitHub脚本和部署步骤,但正文没披露任何延迟数据、吞吐量或量化精度——这点先别太激动。实际体验可能卡顿,尤其是8GB内存跑视觉模型+语音合成。另外,Parakeet和Kokoro都是轻量模型,Gemma 4本身用了llama.cpp量化,但具体是4-bit还是8-bit没说。如果你手头有Jetson设备,可以跑跑看,但别指望实时流畅。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
14:56
53d ago
Hacker News 首页· rssEN14:56 · 04·22
在 Hacker News 发帖的最佳时间:周二到周四 UTC 14-17 点,但周日凌晨竞争更小
Alcazar Security 分析了多份数据后给出建议:想覆盖最大美国技术受众,默认选周二到周四 UTC 14-17 点(美西早 7-10 点)。但一篇 2025 年对 2.3 万条帖子的分析发现,周日太平洋时间凌晨 0-1 点发帖的“单帖胜率”反而更高,因为竞争少。核心区别在于“总读者量” vs “每帖上榜概率”——前者选高峰时段,后者选低竞争窗...
#Hacker News#Alcazar Security#Max Woolf#Commentary
精选理由
HKR-H 和 HKR-K 靠的是那个具体的发帖时机问题和 2.3 万帖数据,但 HKR-R 不通过。分数 34 是因为这不是 AI 行业新闻,只是一份单来源的 Hacker News 发帖指南,而且热力图方法没完整披露。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K1·R0
14:25
53d ago
r/LocalLLaMA· rssEN14:25 · 04·22
把 Nemotron-3-Super 从 512 专家剪到 256,再微调量化,单卡跑 AIME 2026 超 90%
作者把 NVIDIA 的 Nemotron-3-Super-120B-A12B(一种混合了 MoE 和 Mamba2 的模型)从 512 个专家剪到 256 个,又用大约 270 道数学题做了 GRPO 微调(一种强化学习,让模型自己试错改进),最后量化成 FP8 和 AWQ 两种格式。模型从 120B 参数降到 64B,但 AIME 2026 数学测...
#Reasoning#Fine-tuning#Inference-opt#NVIDIA
精选理由
触发硬排除-6:正文只有标题和一段摘要,实际内容是Reddit 403拦截页,没有可复现的数据、示例或可验证的claim。HKR-H和HKR-K虽然成立(剪半专家+90%+AIME是钩子,分数、显存、vLLM崩溃条件都给了),但HKR-R不成立——这更像一份本地部署的hacker笔记,不是行业级讨论。importance 38,tier excluded。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K1·R0
14:22
53d ago
TechCrunch AI· rssEN14:22 · 04·22
OpenAI 找印度 IT 巨头 Infosys 卖企业工具,先盯上写代码和修旧系统
OpenAI 跟印度 IT 服务商 Infosys 合作,把 Codex 等工具塞进 Infosys 的 Topaz AI 平台,帮客户做软件工程、老系统现代化和 DevOps(开发运维一体化)。说白了就是让 Infosys 的销售团队去推 OpenAI 的产品,第一批客户大概率是那些想用 AI 改代码但自己不会搭的甲方。正文没披露合同金额、定价方式,...
#Code#Tools#OpenAI#Infosys
精选理由
这是一条分销合作新闻,不是模型或产品发布。HKR 三个维度都不达标:正文只列了三个企业场景,但产品型号、定价、合作规模、落地条件全没披露,属于硬排除——纯营销通稿。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
14:18
53d ago
r/LocalLLaMA· rssEN14:18 · 04·22
Qwen3.6-27B GGUF 量化版本发布
Reddit 用户 KvAk_AKPlaysYT 发帖说 Qwen3.6-27B 的 GGUF 格式已经有人打包好了,直接贴了 Hugging Face 仓库链接。27B 参数意味着本地部署需要至少 16GB 显存(4-bit 量化下),GGUF 格式方便用 llama.cpp 或 Ollama 直接跑。帖子本身没提量化等级、上下文长度、许可证或跑分,...
#Hugging Face#AaryanK#Qwen#Open source
精选理由
这是一个具体的社区工件发布,不是空谈,所以不会被排除。HKR-H 因为可立即下载而通过,但 HKR-K 和 HKR-R 不通过,因为位宽、许可证、上下文长度和基准测试都没披露;这使它保持在 all 层级。
一句话点评
Qwen3.6-27B 的 GGUF 量化版来了,主打“无审查+激进”风格,适合本地跑。社区发了多个量化版本(K_P 等),但原帖被 Reddit 屏蔽,正文没披露具体量化参数和效果对比。如果你需要本地部署且偏好少限制的模型,可以试试;但“无审查”实际效果和基准测试分数未知,先别太激动。
锐评
Qwen3.6-27B 已经出现 GGUF 工件,这个事实比 Reddit 帖子本身更有用。标题给了 27B 和 GGUF,正文没给量化位宽、上下文长度、许可证、模板格式,也没给任何测试结果。信息到这里,其实只能下一个很窄的判断:Qwen 系模型在本地生态里的移植链路已经足够成熟,新权重一出来,社区通常会很快补齐 llama.cpp 这套消费层。 我一直觉得,LocalLLaMA 里这类帖子的价值不在“有新模型”,而在“多快能跑起来”。去年到今年,Llama、Qwen、Mistral 几条线谁更容易扩散,看的不是官方 release note 写得多漂亮,而是谁能在 24 小时内补出 GGUF、exl2、vLLM、Ollama 这些常用形态。Qwen 这方面一向不慢,这也是它在开发者圈层黏性高的原因之一。很多团队嘴上讲 benchmark,真落地时先问的是:Mac 能不能塞下,单张 4090 能不能跑,Q4_K_M 还是 IQ 量化掉多少血。这里正文全没披露,所以性能判断现在没法做。 我对这条帖子也有保留。GGUF 出现,不等于这个版本已经“可用”。同样是 27B,Q8 和 Q4 的体验差很多,chat template 设错也能把模型直接跑废;如果是新架构或新 tokenizer,兼容性还会再掉一层。我还没查这个仓库的文件列表,也没核实是官方转换、第三方转换,还是从别处分发过来的镜像。这个差别很大:前者更接近稳定入口,后两者更像抢首发。 所以这条我会先当作一个部署信号,不当能力信号。要让我认真更新判断,至少还得看到三样东西:一是具体量化规格和推荐 prompt format;二是实际上下文长度与 llama.cpp 兼容状态;三是哪怕很粗的对比结果,比如和 Qwen 3.5 同尺寸、Llama 3.x 30B 左右量化版在本地推理上的速度和损失。现在只有标题信息,离“模型好不好”还差很远。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R0
14:11
53d ago
r/LocalLLaMA· rssEN14:11 · 04·22
LocalLLaMA用户对比Qwen 3.5 122B与3.6 35B性能
Reddit 用户实测对比 Qwen 3.6 35B(A3B)和 Qwen 3.5 122B(A10B),结论是 3.5 大模型明显更强,任务只要多几个推理步骤,3.6 就开始掉链子。用户用的是量化版(3.5 是 Q5_K_XL,3.6 是 Q8_K_XL),CUDA 版本 13.1,排除了已知的量化兼容问题。但正文没披露具体任务类型、样本量或跑分数据...
#Reasoning#Benchmarking#Qwen#LocalLLaMA
精选理由
这条帖子的价值在于它提供了一个真实用户的对比反馈,而且结果有反直觉性——Qwen 3.6 35B 在量化配置更高的情况下,反而输给了老版 122B。但正文没披露具体任务、样本量和 benchmark 数据,所以只能算个体使用反馈,不能当正式评测。对本地模型用户来说,这个信息有参考意义,但别太当真。
一句话点评
用户拿Qwen 3.5 122B和3.6 35B比,发现35B小模型在Artificial Analysis的编程和智能体评分上反超122B大模型。如果数据靠谱,35B性价比很高,但Reddit帖子只有一个人问,没实测对比,结论要打折。缺的是社区自己的跑分和实际编码体验。
锐评
这位用户在 UD-Q5_K_XL 对 UD-Q8_K_XL、CUDA 13.1 的条件下,报告 Qwen 3.5 122B A10B 明显强于 Qwen 3.6 35B A3B。我的判断是,这更像量化配置和任务分布把差异放大了,不像一次能直接下结论的模型代际比较。 先把最硬的信息摆出来:正文只给了 2 个模型名、2 个量化版本、1 个 runtime 版本,没有任务列表,没有样本量,没有 prompt 模板,没有 temperature,也没有上下文长度。连“需要多几步推理”到底是数学、代码、规划还是长上下文抽取,都没说。这种材料拿来聊体感可以,拿来判谁“全面更强”就太早了。 我对这个帖子的第一个保留,是它把 122B A10B 和 35B A3B 放在一起比。就算抛开版本号,参数级别和激活参数本来就不是一个量级。过去一年本地圈反复出现同一种情况:小一代新模型在公开榜单上更漂亮,到了多步推理、长链纠错、复杂约束跟随,老一代更大模型还是更稳。这个现象在 Llama 系列和一些 Qwen 旧版量化讨论里都见过。我没法拿这条帖子去证明 Qwen 3.6 设计失误,最多只能说 35B 这档位没有自动兑现“榜单提升 = 复杂任务更强”。 第二个保留,是量化并不对称。122B 用 UD-Q5_K_XL,35B 用 UD-Q8_K_XL,表面看是 35B 量化更高,按直觉像是更占便宜;但本地推理里决定结果的从来不只是一位数字。MoE 的路由、KV cache 压力、实现细节、是否有特定 kernel 回退,都会把“纸面更高量化”变成实际更差的稳定性。用户自己也提到 CUDA 13.2 和 smaller quants 有问题,说明这套栈本身就不干净。说实话,我对“BF16 不会差太多”这个判断不太买账。对 dense 模型也许还行,对 A3B 这种更吃路由和实现状态的模型,BF16 和量化版在多步任务上拉开肉眼可见差距,我一点也不意外。 还有个背景得补上。阿里这几代 Qwen 在公开 benchmark 上一直追得很凶,尤其会把速度、成本和榜单分数一起讲。这个叙事对云端 API 很成立,因为服务方能控 tokenizer、kernel、batching、路由和 prompt recipe。到了 LocalLLaMA,用户拿不同量化、不同 runtime、不同前端去跑,模型的“实验室版本”经常会掉形。Qwen 不是唯一这样,Mixtral、DeepSeek 的小参数 MoE 也遇到过:榜单很好看,私有工作流里一旦多了几步计划和修正,体感会突然塌。 所以我现在的结论很简单:这帖子的价值,不是说明 Qwen 3.6 不如 Qwen 3.5,而是提醒大家别把官方或社区榜单直接外推到本地量化部署。要把这事说清,至少得补 3 组东西:同一任务集、同一采样参数、最好再加一组 BF16 或官方推荐量化。正文没披露这些前提,我不会把它当模型能力结论,只会把它当一个需要复现实验的异常信号。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
13:42
53d ago
r/LocalLLaMA· rssEN13:42 · 04·22
本地漫画翻译器:Rust 写的,自带大模型,跑在本地
有人在 Reddit 上发了个本地漫画翻译器,用 Rust 写,集成了 llama.cpp,所以翻译模型跑在本地,不需要联网。正文被 Reddit 屏蔽了,看不到具体支持哪些语言、翻译流程怎么走、用了什么模型、有没有开源、仓库在哪。标题信息很明确,但细节全缺。
#Tools#llama.cpp#Product update
精选理由
HKR-H 成立,因为本地优先 + Rust + llama.cpp 的组合对动手派有钩子。但 HKR-K 直接卡死:正文只有 403 页面,仓库、语言、OCR/翻译管线、模型规格、输出样例全部缺失,无法验证任何实际能力。故事信息密度太低,重要性低于 40,排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
13:19
53d ago
● P1Hacker News 首页· rssEN13:19 · 04·22
Qwen3.6-27B开源发布,27B稠密模型达旗舰级编码性能
Qwen 放出了 Qwen3.6-27B,一个 270 亿参数的稠密模型,主打编程,而且直接开源。它最狠的地方是跑分超过了上一代 3970 亿总参数(每次激活 170 亿)的 MoE 模型 Qwen3.5-397B-A17B。在 SWE-bench Verified 上拿了 77.2 分,比老旗舰的 76.2 高;在 Terminal-Bench 2....
#Agent#Code#Multimodal#Qwen
精选理由
Qwen3.6-27B 是一次有分量的开源模型发布,权重直接可下,编程基准分数明确,而且走的是稠密路线而非更大的 MoE。对 AI 从业者来说,这意味着用更低的部署成本去试一个旗舰级编程模型。HKR 三项都站得住,按规则,国内大模型的重要发布应该和同等美国实验室的发布给到同一档分数。
一句话点评
27B的稠密模型在编程智能体跑分上干掉了自家397B的MoE旗舰,部署门槛低很多,但别急着信,正文没提推理成本和延迟。
锐评
Qwen3.6-27B这次最狠的一点,是用一个27B参数的稠密模型,在SWE-bench Verified(77.2 vs 76.2)、Terminal-Bench 2.0(59.3 vs 52.5)等所有主要编程智能体基准上,全面超过了自家上一代397B总参数的MoE旗舰。这意味着你不用再折腾MoE的路由复杂度,单卡或少量卡就能跑出接近顶级的代码能力,对开发者来说部署门槛直接降了一个数量级。 不过得留个心眼。官方博客只放了跑分,没给推理延迟和显存占用的具体数据。稠密27B虽然比MoE好部署,但全参数激活时的计算量并不小,实际用起来快不快、贵不贵,还得等社区实测。另外,SkillsBench从30.0跳到48.2这个涨幅有点夸张,是基准本身波动大还是模型真开窍了,需要第三方复现验证。 视觉多模态部分算是附赠,跑分中规中矩,没有像编程那样拉开代差。如果你主要冲着写代码和做智能体任务去,这个模型值得一试;如果看重通用对话或长文本理解,建议等更完整的消融实验和成本报告出来再说。
HKR 分解
hook knowledge resonance
打开信源
98
SCORE
H1·K1·R1
13:09
53d ago
r/LocalLLaMA· rssEN13:09 · 04·22
Qwen 3.6 27B 参数版本发布
Qwen 3.6 出了一个 27B 的版本,目前唯一能确认的就是参数量。Reddit 原帖正文被屏蔽(返回 403),所以发布方、许可证、量化版本、上下文长度、跑分结果全都没披露。如果你在等这个模型的详细评测,目前只能先知道它存在。
#Product update
精选理由
标题说 Qwen 3.6 27B 发布了,但正文被 403 挡住,目前能确认的只有型号名和 27B 规模,其他关键信息(发布方、许可、量化、上下文长度、基准分)全没披露。H 和 R 靠标题本身能过——新模型名对开源和本地部署人群有钩子;K 明确失败,因为信息缺口太大,实际等于零来源。按规则硬排除,分数压在 40 以下,标记 excluded。
一句话点评
Qwen 3.6 27B 已发布,社区等得指甲都啃没了。目前只有 Reddit 帖子标题,正文被屏蔽,没拿到任何技术细节。27B 参数适合本地部署,但性能、架构、开源协议全未知。建议先观望,等官方或可信源放出实测。
HKR 分解
hook knowledge resonance
打开信源
51
SCORE
H1·K0·R1
13:00
53d ago
TechCrunch AI· rssEN13:00 · 04·22
AI 生成候选药越来越多,这家公司想筛出哪些值得做
10x Science 拿了 480 万美元种子轮,帮药企研究人员理解复杂分子。核心不是“AI 能生成更多候选药”——这已经是事实——而是怎么从海量分子里挑出值得推进的那几个。正文没披露投资人、模型方法、验证数据或市场策略,所以这点先别太激动。真正值得关注的是它的筛选机制,不是标题里“更多候选药”这个老话题。
#10x Science#Funding#Commentary
精选理由
这是一笔480万美元的种子轮,只有一句帮研究人员理解分子的笼统说法。触发了硬排除规则4:AI+药物发现,但没有清晰的agent或产品含义;HKR的K和R都弱,因为方法、验证和商业化细节全没披露。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
12:30
53d ago
Hacker News 首页· rssEN12:30 · 04·22
列式存储就是数据库范式化
Justin Jaffray 用一个简单例子说明:列式存储本质上就是把一张宽表拆成每个字段一张小表,靠行号(隐式主键)对齐。重建一行数据就是做一次 join。这个视角的好处是统一了查询处理和存储格式——列存不是底层编码黑魔法,而是关系模型的一种极端范式化。行存写一行快、读一行快,但扫全表读大量无关列;列存只扫需要的列,但写和读单行变慢。正文没披露具体性...
#Justin Jaffray#Buttondown#Commentary
精选理由
H 和 K 都过了:规范化类比有钩子,机制解释也扎实。但 R 没过——这是数据库领域的存储讨论,正文没提任何 AI 模型、训练、推理或产品,对 AI 雷达读者来说缺乏直接神经。所以维持 38 分,排除。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K1·R0
12:28
53d ago
Hacker News 首页· rssEN12:28 · 04·22
Google 发布第八代 TPU 芯片 TPU 8t 和 TPU 8i
谷歌云发了一篇博客,正式命名第八代 TPU 为 TPU 8t 和 TPU 8i,并做了架构深度解析。但正文只给了名字和发布日期(2026年4月22日),没有披露吞吐量、带宽、拓扑、功耗、定价和可用区域这些关键硬件参数。所以目前没法做技术对比,想拿它跟 H100 或 Trainium 比还缺数据。
#Google Cloud#Google#Product update#Commentary
精选理由
这篇直接命中硬排除规则——云厂商促销文,而且抓到的内容只有标题和型号名。H/K/R 三项全不达标,因为没有披露任何规格、定价、可用性或可验证的机制,所以重要性分数低于排除阈值。
一句话点评
Google 发布第八代 TPU,分两款:TPU 8t 用于训练,TPU 8i 用于推理。官方称专为“agentic era”(让模型自主执行任务)设计,但正文没披露具体性能数字或能效提升幅度,目前只能当路线图看。亮点是双芯片分工策略,类似英伟达 H100 和 B200 的路线,但 Google 强调自家网络和编译器优化。缺实测数据,别急着对标。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K0·R0
12:10
53d ago
MIT 科技评论· rssEN12:10 · 04·22
MIT 科技评论发布“AI 领域当下最重要的 10 件事”清单,每天拆解一件
MIT 科技评论推出了一份新指南,列出当前 AI 领域最值得关注的 10 个趋势和技术,号称能帮人从铺天盖地的发布和炒作中理出头绪。从今天起,他们的每日 newsletter 会逐条拆解。不过正文只给了清单链接,没透露具体是哪 10 项,想看全貌得点进去。同一期还提了两条新闻:有人未经授权访问了 Anthropic 的 Mythos 模型(Anthro...
#Safety#Code#Alignment#MIT Technology Review
精选理由
HKR 的 H 靠榜单标题过了,但 K 和 R 都不过,因为完整列表、评选标准和具体主张全缺。这是一篇轻量导览,不是当天 AI 行业的硬新闻。
一句话点评
MIT 科技评论出了份 AI 十大趋势清单,但正文只给了链接,没列具体内容。
锐评
MIT 科技评论今天宣布推出一份新指南,号称从铺天盖地的发布和炒作中理出 AI 领域最值得关注的 10 个趋势和技术。从今天起,他们的每日 newsletter 会逐条拆解。不过正文只给了清单链接,没透露具体是哪 10 项,想看全貌得点进去。同一期还提了两条新闻:有人未经授权访问了 Anthropic 的 Mythos 模型(Anthropic 之前说这模型太危险没敢全量发布),以及 Meta 在追踪员工点击行为。这份清单本身有 MIT 的编辑信誉背书,但正文没披露任何一条趋势的具体内容,也没说明筛选标准。想判断这 10 项是真正有技术拐点的东西,还是媒体选题会拍脑袋的结果,得先点开链接看完再说。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
12:03
53d ago
FT · 科技· rssEN12:03 · 04·22
苹果掐着科技行业的“霍尔木兹海峡”
FT 这篇评论把苹果比作霍尔木兹海峡——谁过路都得看它脸色。文章承认苹果在 AI 竞赛里确实落后了,但新 CEO 接手时手里还攥着几个别人没有的筹码。正文被付费墙挡住,没披露新 CEO 是谁、具体有哪些优势、以及苹果到底靠什么卡住别人脖子。
#Apple#Financial Times#Commentary
精选理由
标题比喻有钩子,话题也切中行业痛点,但正文信息严重不足——没有数字、没有具体业务细节、没有CEO姓名,只有一句判断。按规则,信息缺口触发硬性排除,评分压在40以下,定为excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
12:00
53d ago
NVIDIA 博客· rssEN12:00 · 04·22
NVIDIA 与 Google Cloud 联手推 A5X 实例,Vera Rubin NVL72 号称推理成本降 10 倍
NVIDIA 在 Google Cloud Next 上发布了 A5X 裸金属实例,搭载 Vera Rubin NVL72 系统。官方数据是:相比上一代,每 token 推理成本最高降 10 倍,每兆瓦 token 吞吐量也提升 10 倍——这两个数字放在一起看,说明新架构在能效和单位成本上都有明显改善。A5X 单站点可扩展到 8 万块 Rubin G...
#Agent#Robotics#Multimodal#NVIDIA
精选理由
这是一篇 NVIDIA 与 Google Cloud 的合作发布,核心是 A5X 裸金属实例基于 Vera Rubin NVL72,宣称推理成本降至 1/10、吞吐提升 10 倍,并给出 8 万/96 万 GPU 的扩展规模。数字扎实,但本质仍是云厂商的硬件促销稿,按硬排除规则归为 excluded。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R1
12:00
53d ago
● P1TechCrunch AI· rssEN12:00 · 04·22
Google 和 Thinking Machines Lab 签了笔几十亿美元的算力大单,用的是英伟达最新的 GB300 芯片
Mira Murati 创办的 Thinking Machines Lab 跟 Google Cloud 签了一份新的多年合同,金额在几十亿美元级别。这笔交易的核心是他们要用上英伟达目前最顶级的 GB300 芯片来做 AI 训练和推理。文章没披露具体合同年限、总算力规模、交付时间表,也没说这些算力具体要跑什么模型或业务。但一个顶级 AI 实验室开始批量...
#Thinking Machines Lab#Google Cloud#Nvidia#Partnership
精选理由
TechCrunch 这条独家把三个信号绑在一起:Google Cloud、数十亿美元合作、Nvidia GB300。标题和摘要给了交易规模和芯片代际,但合同期限、算力量级、交付节奏和用例全是空白,所以重要性停在 82 没往上走。我会先打个折:金额听着吓人,可没期限就没法算年均投入。真正值得盯的是 GB300 已经进入头部实验室的采购链,这点比参数发布更有说服力。
一句话点评
Mira Murati 的 Thinking Machines Lab 跟 Google Cloud 签了份几十亿美元的大单,用 Nvidia GB300 芯片跑训练。钱数没公布,但金额本身比技术细节更值得看。
锐评
这条消息的核心不是技术路线,而是钱和站队。Mira Murati 离开 OpenAI 后创立的 Thinking Machines Lab,直接跟 Google Cloud 绑定了数十亿美元的算力合同,用的还是 Nvidia 最新的 GB300 芯片。这说明两件事:第一,这家新公司不缺钱,而且愿意把重注压在 Google 的云上,而不是 AWS 或微软;第二,GB300 是 Nvidia 刚发布不久的旗舰芯片,能拿到这个规模的配额,侧面印证了 Murati 团队的资源调动能力。 不过,正文没披露具体金额、合同年限,也没说这些算力是用来训练什么模型。几十亿这个量级听着吓人,但如果是分摊到多年、包含大量预留实例的框架协议,实际每年的支出可能没那么夸张。另外,这家公司目前对外公开的技术成果还很少,这么大一笔基础设施投入,最终能不能转化成有竞争力的模型,现在完全看不出来。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
11:58
53d ago
Hacker News 首页· rssEN11:58 · 04·22
GitHub CLI 开始收集匿名遥测数据
GitHub CLI 现在会收集所谓的“伪匿名”遥测数据,但官方页面只列了文档导航,没说明具体采集哪些字段、默认是否开启、以及怎么关掉。标题确认了这件事,但正文没披露数据范围、默认设置和关闭步骤。
#GitHub#Product update#Policy
精选理由
HKR-H 通过:gh 默认开启遥测是一个强钩子。HKR-R 通过:开发者隐私问题触及行业神经。HKR-K 不通过:摘录未披露采集字段、默认状态和退出路径,且与 AI 关联度弱,因此评分低于 40。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
11:51
53d ago
硅谷101 播客· atomZH11:51 · 04·22
导演陆川聊AI:未来实拍电影还会存在吗?
标题说导演陆川聊AI对影视行业的影响,但正文没披露他的具体观点、案例、工具或时间线。信息缺口明显,无法判断他是乐观还是悲观,也没提他是否用过AI工具拍片。
#Lu Chuan#Commentary
精选理由
HKR-H和HKR-R通过,但HKR-K不通过:只披露了访谈主题和嘉宾,没有可验证的论断、案例或工具细节。这篇留在all层级,作为一条信息量低的评论类条目。
一句话点评
标题说导演陆川聊AI对影视行业的影响,但正文没披露他的具体观点、案例、工具或时间线。信息缺口明显,无法判断他是乐观还是悲观,也没提他是否用过AI工具拍片。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
11:39
53d ago
● P1彭博科技· rssEN11:39 · 04·22
腾讯、阿里巴巴洽谈参与DeepSeek首轮融资
这是 DeepSeek 成立以来第一次对外融资,目前还在谈判阶段。正文没披露具体金额、估值和领投方,也没说钱会怎么用。腾讯和阿里这两家互联网大厂同时出现,我会先打个折——关键不是他们投不投钱,而是会不会附带算力或渠道上的合作条件,但这篇报道没提。
#Tencent#Alibaba#DeepSeek#Funding
精选理由
Bloomberg 给了一个实打实的信息点:DeepSeek 在推进首轮融资,腾讯和阿里都在谈。我会先打个折,因为金额、估值、领投方全都没说,正文也没给条款细节,所以重要性到不了顶。但 HKR 三项都成立——首轮融资本身就够新,两家巨头同时出现让故事性拉满,而且一旦成真,股权和云算力合作会同步放大,这对国内模型格局的影响比一轮融资大得多。
一句话点评
腾讯阿里在谈投 DeepSeek 首轮,估值可能到 200 亿美元以上,但正文被付费墙挡了,具体条款和金额都没看到。
锐评
这条消息的核心是 DeepSeek 第一次对外融资,而且谈的对象是腾讯和阿里这两家国内大厂。估值数字 200 亿美元往上,说明市场对它的技术能力和模型影响力给了很高的定价,不是早期试水那种级别。但要注意,信息源是 Bloomberg 引用 The Information 的报道,我们拿到的正文被反爬机制拦住了,实际只看到标题,没读到谈判进度、持股比例、资金用途这些关键细节。 从行业角度看,大厂参投一家独立模型公司,通常不只是财务投资,后面往往跟着算力合作、云服务绑定或者产品分发上的安排。DeepSeek 之前靠开源模型和极低的推理成本打出了口碑,如果这次融资落地,可能会加速它在企业端和开发者生态里的铺量。不过现在所有判断都得打个折,因为连融资是否已经 close、有没有其他投资方参与,正文都没披露。等看到完整条款再下结论会更稳。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
10:54
53d ago
Hacker News 首页· rssEN10:54 · 04·22
Uber 花 800 万美元买了个 DynamoDB 教训,没人被开除
Uber 2017 年把账本系统搬到 DynamoDB 上,两年后成本高到撑不住,只好把热数据只留 12 周,冷数据挪到自建对象存储 TerraBlob。作者算了一笔账:每天 1500 万单,每单多次记账,DynamoDB 按读写次数收费,规模一大就烧钱。更关键的是,账本系统需要全局一致性,DynamoDB 只保证分区内强一致,跨分区做不到,这跟支付场...
#Uber#DynamoDB#ByteByteGo#Commentary
精选理由
HKR-H靠'800万美元失误+没人被开除'这个标题钩子得分,HKR-K有每天1500万次行程和12周热数据保留的具体细节。HKR-R不达标,因为这是基础设施的成本分析,没有模型、智能体或AI产品角度,而且标题里的800万美元核算细节正文没披露,所以总分低于4。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K1·R0
10:00
53d ago
● P1OpenAI 博客· rssEN10:00 · 04·22
OpenAI 在 ChatGPT 中推出工作区代理功能
OpenAI 给 ChatGPT 的企业版、教育版等付费计划加了一个叫“工作区智能体”的功能。你可以把它理解成能共享给整个团队用的自动化助手,背后由 Codex 驱动,在云端运行,人不在线它也能继续干活。它能跨多个工具(比如 Slack、CRM)执行多步骤任务,像自动筛选销售线索、写跟进邮件、每周五拉数据出报表、审核软件采购请求并生成 IT 工单。团队...
#Agent#Code#Tools#OpenAI
精选理由
OpenAI 在 ChatGPT 里加了 workspace agents,等于把 Codex 塞进云端去跑跨工具的工作流,从纯聊天往团队自动化工作台又挪了一步。我会先打个折:正文没写价格、没列支持的工具、也没给延迟或成功率这些硬指标,所以重要性停在 86 分。H 打钩是因为从对话到 agent 的转变本身就有话题性;K 打钩是因为 Codex 驱动云端执行这个事实是新的,但信息缺口也明显;R 打钩是因为它直接踩在团队协作和自动化的关注点上,对做类似产品的团队会有压力。
一句话点评
OpenAI 给 ChatGPT 加了“工作区代理”,让模型能跑重复性流程,不是只聊天。但别当它是全自动员工,它更像一个按你写的步骤干活、会自己判断上下文的助手。
锐评
OpenAI 这次把 ChatGPT 从“一问一答”推到了能跑流程的代理。简单说,你可以设定一个触发条件(比如每周一早 9 点)、一套步骤和它能用的工具(Slack、CRM 等),让它定期去拉数据、做分析、写摘要,甚至把草稿分发给对应的人。官方举了营销复盘、产品反馈分流、销售管道监控三个例子,模式都是“收集-分析-打包-分发”。 文章把代理和传统 API 流程做了区分:传统流程是死板的,每一步都定死了;代理是概率性的,模型会在你给的规则内自己判断上下文、调整执行路径。这点挺关键,意味着它更灵活,但也更容易出偏差。所以官方强调要设好“治理”边界,比如涉及预算或对外发信必须人工审批。 不过,正文没披露任何性能数据,比如任务完成率、延迟、出错率,也没提成本。这些代理到底有多可靠、跑一次要花多少钱,目前全是空白。如果是真的稳定又省钱,对重复性知识工作会是实打实的减负;但没看到验证前,我会先打个折,把它当成一个需要持续盯着的实习生,而不是能撒手不管的正式员工。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
09:02
53d ago
Hacker News 首页· rssEN09:02 · 04·22
Meta 员工抗议强制用工作数据训练 AI,但具体追踪什么还没说清
Business Insider 报道 Meta 内部一个强制项目引发员工不满:公司要求用员工的活动数据来训练 AI,且是强制的。但正文没披露具体追踪哪些活动、涉及多少人、能否退出以及数据怎么用。目前 HN 上只有 19 分和 5 条评论,信息缺口很大,这点先别太激动。
#Meta#Business Insider#Incident#Commentary
精选理由
HKR-H和HKR-R通过:Meta强制追踪员工行为用于AI训练,是现成的劳资/隐私钩子。HKR-K不通过:RSS片段只给了标题和HN数据,正文没披露监控范围、数据类别、退出机制和员工人数,所以维持中段全层级。
一句话点评
Meta 强制员工用内部数据训练 AI,员工炸了。关键矛盾:公司说数据会脱敏,但员工担心聊天记录、绩效评价等敏感信息被模型记住。Meta 内部向来对 AI 安全敏感,这次强制令让信任危机升级。正文没披露员工是否有退出机制、数据具体怎么脱敏,这点先别太激动——如果只是脱敏后用于训练通用模型,实际风险可能没那么大。但强制+不透明,情绪已经点燃了。
锐评
标题已给出 Meta 员工反对强制 AI 训练计划,已知条件只有 mandatory。正文未披露追踪项、覆盖人数、数据保留期、用途边界,也没说是否存在退出机制。我对这类叙事一向很警惕:公司常把“训练 AI”包装成效率工程,落地却先变成员工遥测。回到对比上,微软、谷歌这两年都在内部大规模上 Copilot 与代码分析工具,但公开披露里通常会把安全审计、生产力度量、模型训练分开写;这次如果 Meta把三者混在一起,争议不会小。说实话我还没查到 BI 正文,所以没法判断员工反对的是监控强度,还是数据被拿去训模型。现在能下的判断只有一个:只要是 mandatory,而且涉及行为数据,同意机制就不是法务细节,而是组织信任测试。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K0·R1
08:45
53d ago
X · @op7418(歸藏)· x-apiZH08:45 · 04·22
GPT-Image-2.0 + Seedance 2.0 跑出《黑神话:林冲》游戏演示,UI 和台词全动
博主用 GPT-Image-2.0 和 Seedance 2.0 生成了《黑神话:林冲》的游戏演示,声称所有 UI 元素都是动画且带台词。效果看起来不错,但画面有明显涂抹感。正文只提了模型名和主观感受,没交代运行时长、分辨率、工作流步骤,也没说后期人工修了多少。别急着当成品看——确认的事实是演示感很强,但离可复现的技术规格还差得远。
#Multimodal#Vision#Commentary
精选理由
标题党成分重,实际信息缺口大:没披露生成时长、分辨率、工作流或人工后期比例,目前只能确认演示感强,不可复现。HKR-H靠游戏演示角度能吸引点击,但K和R都不达标,所以归为all层级低价值内容,不升featured。
一句话点评
《黑神话:林冲》又流出实机演示,画面和动作效果确实惊艳,但正文没披露任何技术细节或来源。目前只有一条来源,信息缺口大,建议等官方或更多信源验证后再下判断。
锐评
发帖者用了 GPT-Image-2.0 和 Seedance 2.0 跑出 1 条《黑神话:林冲》演示,但正文没给生成时长、分辨率、镜头数、后期占比。这条我先按“好看的 proof-of-concept”看,不按“游戏内容生产链已经跑通”看。差别很大。前者说明模型审美和镜头连续性在进步,后者要看 assets consistency、UI 状态管理、分镜可控性、返工成本,原帖一个都没交代。 我对“所有交互 UI 全都是动的,而且还有台词”这句会先打个问号。因为动态 UI 最容易被短视频错觉放大:你可以先出一段主画面,再叠几层 motion graphic,观感就很像可交互系统。问题在于,这些 UI 是一次生成绑定在场景里的,还是后面单独合成的?台词是角色口型驱动,还是音频后配?原帖没说。标题已经给出效果感,正文没披露制作链路,这种素材没法外推成“某模型已经能稳定做游戏 PV”。 说真的,这类视频最近一年越来越多,路径也差不多:先用图像模型定风格,再用视频模型补运动,最后靠剪辑把不稳定处藏掉。去年 Runway、Pika、Luma 那波 demo 也是这个套路;今年很多团队把 Kling、Vidu、即梦、Seedance 接进来,成片观感确实比 2024 年强一截,但可复现性还是老问题。我自己没跑过这条同款 workflow,不过按行业常见做法,越是“像成品”的 20 秒片子,越要问镜头失败了多少次、人工修了多少层。没这些数字,判断不了生产价值。 我还有一点怀疑:这条借了《黑神话》式视觉语汇,天然会抬高观众容忍度。强美术风格本来就能遮掉一部分时序错误和材质涂抹感,所以“我真看不出来”不等于模型已经接近可上线资产标准。游戏团队真要用,至少得补两类信息:一类是成本,单条 30 秒要跑多久、多少钱、多少轮返工;另一类是一致性,同一角色换 5 个镜头后脸、甲胄、武器会不会漂。原帖都没有。 我的判断很直接:这条证明了 AI 视频很会做“像游戏宣传片”的幻觉,没证明它已经进入游戏工业化流程。要让我改观,发帖者至少得放出完整 prompt、shot list、分辨率、生成轮次,外加未剪版本。现在这条,够吸睛,不够立论。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
08:33
53d ago
● P1Hacker News 首页· rssEN08:33 · 04·22
Meta 计划采集员工击键数据用于训练 AI 模型遭反对
Meta 通知员工,很快要在工作电脑上部署一个叫“模型能力计划”的工具,用来记录键盘敲击和鼠标移动。员工对此很不满。公司对外说这是为了收集数据来训练 AI 模型,但正文没披露这个工具具体会抓取哪些数据、什么时候开始推、以及员工能不能选择不装。最讽刺的地方在于,一家靠监控用户行为卖广告的公司,现在把同一套逻辑用到了自己员工身上。
#Meta#Reuters#Mark Zuckerberg#Incident
精选理由
别被标题里的讽刺带跑,真正该盯的是 Meta 有没有把员工行为数据直接喂进 AI 能力建设流程。帖子给了工具名和监控方式,但没披露采集范围、启用时间和退出机制,信息缺口不小。我会先打个折,因为细节不全,但话题本身够敏感,对 AI 从业者有警示意义。
一句话点评
Meta 要用自家员工的鼠标轨迹和键盘记录来训练 AI,内部已经炸锅了。
锐评
Meta 搞了个内部工具,会记录员工在某些应用里的鼠标移动、点击和键盘操作,把这些数据拿去训练 AI 模型,目标是让 AI 学会“人是怎么用电脑的”。公司发言人说会过滤敏感内容,数据不作他用。但员工反对声很大,Hacker News 上直接嘲讽这是“监控软件”。 这件事的讽刺点在于,一家靠用户数据起家的公司,现在把数据采集的矛头对准了自己人。文章没披露具体会采集哪些应用、怎么界定“敏感内容”、员工能不能拒绝。这些缺口让“有保护措施”的说法暂时只能打个折。 更值得留意的是,这已经不是孤例。上周有报道说,一些倒闭创业公司的 Slack 聊天记录和 Jira 工单也被拿去当训练数据了。AI 训练数据的饥渴正在把职场隐私边界逼到墙角,而 Meta 这次是拿在职员工开了第一枪。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
07:33
53d ago
X · @op7418(歸藏)· x-apiZH07:33 · 04·22
Seedance 2.0 把 GPT 生成的游戏截图做成了可玩 Demo
有人用 Seedance 2.0 把 GPT Image 2 生成的一张 ARPG 游戏截图(《金瓶梅》),直接变成了带 UI 交互和场景切换的动态演示。视频里能看到两个画面之间的衔接,但正文没披露具体用了什么工作流、提示词、做了多久、以及用户能控制到什么程度。真正的看点不是标题的噱头,而是“从一张静态图到可交互 Demo”这条管线已经能跑通了。
#Vision#Multimodal#Tools#Commentary
精选理由
H 和 R 成立,因为帖子把 GPT Image 2 的静态图做成了带 UI 和转场的 ARPG 演示,视觉上很抓人,而且这条拼接链路是游戏和产品团队正在关注的方向。K 不成立:提示词、时长、分镜控制方式、可复现步骤全没披露,所以这条归入 all 层级。
一句话点评
标题党,正文没披露任何具体信息。从标题看可能是某个AI应用或游戏玩法有了突破,但缺乏细节无法判断真假。建议等更多信源验证,别急着激动。
锐评
帖子给出的事实很少:创作者把 Seedance 2.0 和 GPT Image 2 接在一起,做出了一个 ARPG《金瓶梅》的动态演示,还补了 UI 交互和两段画面衔接。问题也很直接:正文没有流程,没有提示词,没有镜头控制,没有时长,没有分层素材,没有任何可复现条件。只看这些信息,我最多承认它做出了“像游戏的短视频”,还不能直接叫“能玩”。 我对这类演示一直卡得很细,因为过去一年里,很多“可交互”“可游戏化”视频,拆开看其实只是三件事:静态图一致性、镜头过渡、再加一层后期 UI。Runway、Pika、Luma 那波 demo 就反复出现过这个问题:观看时像 prototype,落到工程上只是 linear clip。Google 当时做 Genie 一类世界模型,卖点是从视频里学出可响应环境;这一条如果成立,最少要看到输入如何改变状态、状态如何影响下一帧。这个帖子没有给。 有意思的地方不在题材,也不在情绪化标题,在于它暴露出一条越来越短的拼接链:GPT Image 2 负责把美术风格定住,Seedance 2.0 负责把帧间运动和镜头衔接补起来,外面再套一层 UI,就能产出一个足够像“游戏开场演示”的东西。对独立团队和工作室,这条链路是有价值的,因为它把“立项视频”成本继续往下打。以前你要概念图、分镜、动效、剪辑四套人,现在两三个工具就能先把气质做出来。 但我还是要泼点冷水:从“像能玩”到“真能玩”,中间隔着一整层系统。至少要有状态切换、碰撞或导航规则、角色控制映射、失败条件、资源加载方式。哪怕是最简陋的交互小说,也得说明输入和输出怎么闭环。视频里有 UI,不等于有游戏循环;有转场,不等于有世界状态。这个差别,对做产品的人很关键,对投融资判断也很关键。 我自己更愿意把这条看成 pre-production 工具链的进展,不是游戏生成已经跨线。外部参照也差不多是这个方向:去年不少团队用 Midjourney 或 GPT Image 做 key art,再用视频模型补 trailer,最后拿去测市场反馈。好用的是 pitching,不是 shipping。除非作者后续放出可操作 demo、输入响应录屏,或者公开从图像到交互脚本的链路,不然这条最多说明“AI 已经很会伪装成可玩内容”,还说明不了“AI 已经把游戏 runtime 做出来了”。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
06:51
53d ago
● P1量子位 · 公众号· rssZH06:51 · 04·22
商汤绝影把32B总参、3B激活的模型塞进车机,跑分压过GPT-5.4和Opus 4.6
商汤绝影发布了一个叫Sage的车载端侧多模态模型,总参数32B,但每次推理只激活3B参数。它在PinchBench上拿了94%,比Claude Opus 4.6的93.3%和GPT-5.4的90.5%都高。模型跑在Nvidia OrinX上,首字延迟约0.5秒,单token生成约0.03秒,吞吐80 tok/s。训练用了两个方法:SCOUT省了约60%...
#Agent#Multimodal#Inference-opt#SenseAuto
精选理由
我会先打个折:所有数据都是商汤自报,没有第三方复现,PinchBench 的对比对象和测试条件正文也没细说。但亮点在于它把 3B 激活模型塞进 OrinX,还给出了推理延迟和吞吐,这对车载场景比跑分更有参考价值。后训练省 60% GPU 小时、复杂任务完成率提 20% 这两个数,缺训练规模和消融细节,先别太激动。整体看,信息量够、落地指向明确,但验证链不完整,所以重要性给 79,放在 featured 里提醒大家关注端侧 Agent 的进展和水分。
一句话点评
标题说3B参数模型干翻GPT-5.4和Opus4.6,但正文被微信环境验证挡住,实际评测数据、测试集和对比条件全看不到,这点先别太激动。
锐评
这条新闻的标题信息量很大,但能核实的东西很少。商汤绝影做了一个只有3B激活参数的模型,声称在车载场景下表现超过GPT-5.4和Opus4.6。3B参数意味着模型跑在车机端侧时对算力要求很低,如果属实,确实能把大模型能力塞进车里而不依赖云端。 问题是正文完全无法访问,微信页面显示环境异常需要验证。标题里提到的对比对象GPT-5.4和Opus4.6本身就不是公开可用的标准模型,评测基准、任务类型、延迟数据、是否同场景对比,这些关键信息一概缺失。没有这些,就没法判断这个“干翻”是真实力还是特定窄任务上的数字游戏。 我会先打个折:端侧小模型在特定车载任务上做到可用是合理的,但跨模型代际碾压的说法需要看到具体评测报告才能信。目前缺的是公开的技术报告、可复现的评测设置,以及第三方验证。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
06:51
53d ago
量子位 · 公众号· rssZH06:51 · 04·22
360 的挖洞智能体挖出两个微软高危漏洞,一个藏了 5 年一个藏了 8 年
360 说他们的漏洞挖掘智能体找到了两个微软漏洞:Windows 内核提权漏洞 CVE-2026-24293(潜伏近 5 年)和 Office 远程代码执行漏洞(潜伏 8 年),影响超 10 亿用户。两个漏洞都已上报并修复,拿到了微软 MSRC 致谢。360 还声称累计发现近 1000 个漏洞,其中 50 多个高危已获 CNNVD、CNVD 和厂商确认...
#Agent#Safety#Code#360
精选理由
HKR-H和HKR-K都成立:故事有具体漏洞和影响数据,信息量足够。HKR-R不通过,因为正文大部分是360自述,没有独立评测或模型细节,对AI从业者的参考价值打折扣,所以保持all层级。
一句话点评
正文被微信屏蔽,只拿到标题和异常页面。标题说国产智能体在挖漏洞上已跑通,但没披露具体方法、效果或与Mythos的对比。信息缺口太大,无法判断是技术突破还是营销话术。
锐评
360这次拿出的硬结果是2个微软漏洞,且都已分配CVE并完成修复。光这一点,就比大多数“AI 挖洞”演示强很多。安全圈里,能从“模型看出可疑点”走到“厂商确认并修补”,中间差着利用链构造、复现环境、误报控制、披露流程四道坎。文章给出的最好证据,不是“分钟级发现”,也不是“300亿+样本”,而是MSRC致谢和CVE落地。能过这一步,说明它至少不是PPT智能体。 我对文章叙事不太买账的地方也很明显。它一直把360和Anthropic Mythos摆成一组对打,还顺手拉到地缘安全上。这个讲法太满。Mythos被限制开放,核心争议是高阶模型是否会把漏洞发现和利用自动化到危险阈值;360这篇稿子讲的,则是一个面向特定场景、多智能体编排、强约束沙箱里的漏洞生产线。两者有交集,但不是同一道题。前者押模型上限,后者押流程工程和数据资产。把它写成“何必Mythos”,我觉得有点过。 说真的,安全行业过去一年已经给过很多参照。Google Project Zero、微软MSRC、还有一些顶级漏洞研究员,早就证明高价值漏洞发现不是单轮代码理解,而是长链路假设生成、符号执行、差分分析、PoC收敛、环境复现的组合活。去年到今年,大家对 agentic security 的兴趣上来,也是因为单模型在这件事上误报太多、最后一公里太差。360文中那套“攻击面分析—代码审计—利用验证—报告生成”的拆法,我反而觉得是可信的部分,因为这就是把人工漏洞研究流程程序化。若只靠一个大模型长上下文硬读代码,我基本不会信它能稳定产出内核提权和 Office RCE。 但文章最关键的缺口,也恰好在这里。它没有披露模型底座、训练方式、误报率、人工介入比例、沙箱约束、复现成功率,也没有给独立评测。它说“全程无需人工介入”,这个口径我保留意见。安全自动化里,“无需人工介入”常见的写法,是人类没有参与单次执行;可前面的规则编写、语料清洗、目标选择、环境预配置,往往全是人做的。若没有这些条件,分钟级发现的说法没有可比性。发现的是补丁差异里的 n-day,还是在海量代码里首发 0-day,难度差几个量级。正文没拆。 我还想补一层文章外的上下文。Anthropic那条 Mythos 叙事,外界之所以紧张,不只因为它“会找洞”,还因为大家担心通用推理模型把发现、利用、扩散压进同一条能力曲线。OpenAI、Anthropic、Google 过去一年都把网络安全能力放进高风险评估里,很多系统卡和 red teaming 报告都会单列 cyber。360这条则更像把能力收在垂直体系里,强调定向服务、强隔离、受控上报。这个路线在国家级和政企场景里更现实,也更容易被监管接受。问题是,它的可迁移性未必高。对Windows、Office、国产软硬件打得深,不自动等于对任意新框架、云原生堆栈、AI 基础设施都同样强。 文中提到 OpenClaw 和“AI原生基础设施”那段,我自己就想多问一句:是什么漏洞类型,复现条件是什么,影响版本是什么,和传统开源组件漏洞相比新意在哪。标题给了野心,正文没给技术拆解。没有这些细节,我不会把它直接判成“已超越 Mythos 当前触及范围”。 还有个行业现实,文章故意淡化了。高价值漏洞挖掘的瓶颈,已经不只是模型聪明不聪明,而是数据闭环、执行环境、法律边界、披露关系和客户信任。360手里如果真有近千漏洞、50多高危确认,这比“用了多大模型”更有价值。因为安全这行最后拼的是交付可信度。你能不能把误报压下去,能不能让厂商接收,能不能在补丁发布前守住信息,这些都比单次 benchmark 漂亮更难。 所以我对这条的判断是:它证明了中国厂商已经把“漏洞研究员工作流”做成了可批量运行的智能体系统,这件事是真的,也很重要;它还没有证明“国产智能体已经解决了通用型自主挖洞问题”,更没有证明 Mythos 那类前沿模型路线不重要。安全行业接下来大概率不是单模型吃掉一切,而是强模型做推理中枢,配合符号执行、模糊测试、补丁比对、沙箱验证和披露编排。360若想把这次声量坐实,下一步别再堆口号,直接披露更多可核验样本、误报数据和复现条件。那会比任何地缘叙事都更有说服力。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R0
06:51
53d ago
量子位 · 公众号· rssZH06:51 · 04·22
2026苹果学者名单出炉:20人里8个华人,西安交大校友表现亮眼
苹果公布了2026年AIML学者名单,20个名额中华人占了8个。这个项目不是公开申请的,得由受邀大学提名,苹果再根据研究原创性、领导力和领域影响力来选。过去7年一共资助了120多人,实习生和苹果合著了60多篇顶会论文。苹果没在公告里说具体给多少钱,但一些大学通知里写的是每年3.5万到4.5万美元。说白了,这更像苹果在提前锁定人才,不单纯是个奖学金。
#Agent#Reasoning#Multimodal#Apple
精选理由
HKR-K 成立是因为苹果给出了20个名额、7年120+学者、60+篇联合论文以及受邀提名路径。HKR-H 和 HKR-R 都弱:这仍然是一份奖学金名单,不是模型、产品或关键人事变动,而且官方资助金额未披露,正文只援引高校通知说年资助约3.5万到4.5万美元。
一句话点评
短评:苹果学者名单,华人占比高是亮点,但具体研究方向和成果才是关键。 点评:2026年苹果学者名单公布,20个席位中华人占8席,西安交大校友表现突出。这反映了华人学者在AI领域的持续影响力,但名单本身更像荣誉标签,不直接代表技术突破。正文因环境异常无法获取,缺少每位学者的具体研究方向、成果或项目细节。对于从业者,更值得关注的是这些学者在哪些细分领域(如大模型、计算机视觉、强化学习)做出了实...
锐评
苹果把2026年 Apple Scholars in AIML 给了20名博士生,7年累计支持超120人,还让相关实习生合作发了60多篇顶会论文。我的判断很直接:这不是奖学金新闻,这是苹果在补自己的研究供给线,而且补得很慢、很长期。 标题把注意力放在“20席里8位华人”。这个角度我不太买账。名单结构当然能看出华人学者在全球 AI PhD 里的存在感,但它解释不了苹果到底想要什么人。正文给出的筛选条件其实更关键:受邀高校提名、苹果按研究创新性、领导力、领域影响筛。再叠加研究方向,苹果挑的不是“最会刷榜的人”,而是能贴住它产品约束的人:可靠性、隐私、多模态、Agent、健康、无障碍、机器人。这套口味非常苹果。 问题也在这里。苹果现在最缺的,不是再多几篇论文,也不是再多一个 scholar badge。苹果最缺的是把研究、模型、系统、产品节奏接上。过去一年,行业已经把路径走得很清楚了:OpenAI 和 Anthropic 靠旗舰模型不断拉高能力上限,Google 把 Gemini 往搜索、Workspace、Android 全面塞,Meta 用 Llama 抢开发者分发,NVIDIA 则把研究实习、算力平台、企业关系绑成一套。苹果还在用 scholar、intern、paper 这条老路做储备,这条路没错,但节奏偏慢。你给博士生两年资助,就算按文中援引的 3.5 万到 4.5 万美元一年算,钱不算少,可它解决不了苹果眼前的模型落差。 我一直觉得,苹果在 AI 上最典型的强项和短板是同一件事:它特别擅长把技术塞进受约束的产品环境,代价是研究转产品的链路会更保守。正文提到 2025 年苹果强调隐私保护和算法可靠性,今年又把 Agent、AI for Health、AI for Accessibility 提上来。这条线和 Apple Intelligence、Siri、Apple Watch 的方向是连着的,判断并不难。但别把这种方向感误读成进展速度。Agent 写进 scholar 主题,不等于苹果已经解决了跨应用执行、长期记忆、权限编排、失败恢复这些硬问题。标题给了方向,正文没给任何模型指标、部署规模、产品转化率。 还有一个地方要泼点冷水。文章把“参与苹果实习的学者合作发表60多篇顶会论文”当成项目含金量证据,这数字当然好看,但它并不自动等于研究到产品的转化效率高。Apple 的 AIML 团队这些年论文一直不少,业内也承认他们在端侧学习、隐私计算、多模态压缩上有积累。可大家都看到了,真正定义 2024 到 2026 行业节奏的,不是 paper count,而是模型能力迭代速度、API 生态、开发者心智和产品落地密度。苹果在前两项上并不占先。 我还想补一个文章里没有的背景。大厂的人才计划这两年都在悄悄变形。Meta 会把学生直接卷进开源模型生态,NVIDIA 更像把学生提前带入它的硬件—软件体系,OpenAI、Anthropic 则更偏向少量高密度招募,直接吸成熟研究员和工程负责人。苹果这套 scholar 机制仍然保留强烈的学院派味道:邀请制、高校提名、长期培养、再接实习。好处是稳定,坏处是离最激烈的人才战场隔了一层。你很难指望它靠这20个席位,立刻改写苹果在基础模型上的位置。 资助金额这块也得说清。官方未披露,正文只援引高校通知,范围大约每年 3.5 万到 4.5 万美元。我不能把这当成苹果统一标准。不同学校通知口径、税务处理、额外 travel grant 是否计入,正文都没披露。拿这个数字去推苹果投入强度,证据还不够。 所以我看这条,重点根本不是“哪国学者占多少”,也不是“苹果豪不豪”。重点是苹果承认自己还得继续从博士阶段埋人,补那些它短期买不到、挖不到、也不愿意用激进组织方式去换的能力。这个动作说明苹果没放弃 AI,而且押的还是它熟悉的长线打法。说真的,这打法能不能赢,要看两件事:一是这些 scholar 的研究能不能进入系统栈,而不只停在论文;二是苹果愿不愿意把内部产品节奏改得更像一家 AI 公司。前者要两三年,后者我现在还没看到强证据。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R0
06:51
53d ago
量子位 · 公众号· rssZH06:51 · 04·22
大厂AI抢人,从实习生开始卷
标题说大厂把AI人才争夺战打到了实习生阶段,但正文页面被微信验证墙挡住了,看不到具体有哪些公司、多少岗位、薪资待遇。目前唯一能确认的信息就是标题本身,其他像转正率、团队规模、具体方向都没披露。
#Personnel#Commentary
精选理由
标题有钩子,但正文完全不可读,零有效信息。HKR-H 和 HKR-R 成立,HKR-K 因为无源可查直接归零,硬性扣分上限卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
04:35
53d ago
r/LocalLLaMA· rssEN04:35 · 04·22
Reddit 用户感叹:AI 三年像过了一个时代
一位 Reddit 用户在 LocalLLaMA 板块发帖,回顾了 ChatGPT、GPT-3.5、GPT-4、BabyAGI、DALL·E 3 和 ElevenLabs 这三年来的进展,觉得已经像过了一个完整的时代。他提到 OpenAI 的 API 注册曾送 5 美元额度,早期 GPT-4 有使用次数限制,而 BabyAGI“99% 的时候会失败”。...
#Agent#Audio#Code#OpenAI
精选理由
这是一篇社区怀旧帖,不是产品更新或研究发布。HKR的h来自‘仅3年就感觉像历史’的反差感,r来自从业者共同的记忆点,k不成立因为帖子没提供任何新事实或可验证细节,所以维持all层级。
一句话点评
Reddit 用户翻出三年前本地跑大模型的帖子,感叹当年连 7B 模型都稀罕。正文被 Reddit 屏蔽,看不到具体讨论。这条更多是社区怀旧情绪,没有新信息或技术突破。
锐评
这篇帖子把3年AI迭代写成怀旧史。正文能核对的细节只有3个:OpenAI 新账号 5 美元 API 额度、GPT-4 早期消息限额、BabyAGI“99%失败”属于作者个人观察。 我对这类帖子有点复杂。一方面,这种情绪是真的。2023 年那批人第一次拿到 GPT-4,确实会记得“把难题攒到 quota 重置再问”的日子,也会记得到处注册“送几次 GPT-4 消息”的站点,或者去 Bing 白嫖 DALL·E 3。那一代体验有很强的稀缺感,像早期云服务额度时代。你拿到的不是稳定生产力,而是几次高价值调用机会,所以社区会长出 prompt 珍惜、额度套利、外部壳站分发这些很具体的使用文化。 但我不太买“只是进步太快,所以像过了一个时代”这个讲法。速度当然快,问题是变化不只发生在模型能力。更大的断层在分发方式。2023 年很多人接触 AI,先接触的是 ChatGPT 网页、Bing、各种 GPT-4 套壳和注册送额度;到 2024 年以后,开源权重、长上下文、函数调用、代码代理、语音交互、本地推理一起成熟,入口从“抢额度”变成“选工作流”。这不是单纯的 Moore 定律叙事,帖子把关键差异抹平了。 BabyAGI 那段我尤其想泼点冷水。它早期经常跑崩,不只因为模型“不够聪明”。当时还有一堆更基础的问题:tool use 没有稳定协议,长链任务几乎没有像样 eval,向量检索质量参差不齐,prompt chaining 靠玄学调参,成本和延迟也不允许你无限回环。我自己一直觉得,2023 年 agent demo 最误导人的地方,就是把 orchestration 缺陷都算在模型头上。后来大家把函数调用、环境约束、检查点、回滚、结构化输出补上,agent 才从玩具慢慢变成系统。这个上下文,原帖没展开。 还有一个我不太舒服的点:它把 ChatGPT、DALL·E 3、ElevenLabs、图像定位、Mythos 这些体验并排摆在一起,读感很爽,但信息密度其实不高。标题已经给出“3 年像一个时代”,正文没披露各节点的日期、价格、模型版本,也没说明哪些是首次可用、哪些只是个人第一次接触。对从业者来说,这种“我记得当时很震撼”有情绪价值,技术价值有限。 说真的,这条更像社区代际感的样本,不像趋势判断。它记录的不是“AI 已经成熟”,而是第一波 API 原住民开始意识到:当年那些看起来很神奇的能力,已经从稀缺特权变成默认配置了。怀旧感来自这个落差,不来自时间本身。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K0·R1
04:31
53d ago
r/LocalLLaMA· rssEN04:31 · 04·22
MoE 模型低于 10B 活跃参数,写代码像在赌博
Reddit 用户反映,每 token 活跃参数低于 10B 的 MoE 模型(如 qwen3-coder-next、qwen3.5-35b、qwen3.6-35b-A3b)在代码生成时连贯性差,需要多次对话引导才能稳定输出。相比之下,同系列的稠密模型 qwen3.5-27b 表现更稳定。帖子没有给出具体评测数据、提示词、成功率或延迟信息,所以这点先别...
#Code#Agent#Qwen#LocalLLaMA
精选理由
这是一条Reddit上的观点帖,不是实验报告。HKR-H靠'赌博'这个比喻吸引点击;HKR-R踩中了dense vs MoE在编码场景下的可靠性争议,对用本地模型写代码的人有共鸣。HKR-K不成立,因为正文没给任何可复现的测试数据,结论目前没法验证,所以分数低。
一句话点评
正文被 Reddit 屏蔽,只留下标题。标题说 10B 以下 MoE 像赌博——小 MoE 模型因为专家少、路由不稳定,推理效果忽高忽低,不像大 MoE 那样可靠。缺具体实验数据和模型名称,无法判断是架构问题还是训练不足。
锐评
发帖人把问题说得很直:qwen3.5-27b dense 在编码代理里比 qwen3.6-35b-A3b 更稳,条件是工具很多、需要连续多步决策。这个结论我不会直接采纳,因为正文没给测试集、提示词、温度、量化方式、成功率、时延,也没说是在单轮补全还是多轮 agent harness 里跑的。只凭体感,下不了“10B 活跃参数以下就不行”这种线。 但这条抱怨我基本信一半。MoE 在本地推理里常见的问题,不是单题 benchmark 分数低,而是轨迹抖动大:同样任务,路由一变,工具选择、子目标拆分、停手时机都会飘。代码代理对这种抖动特别敏感,因为它不是只要答对一段代码,还要连续做对 3 到 10 步。一步选错工具,后面全是修补。dense 模型即便绝对能力差一点,策略往往更连续,人在环里会轻松很多。 我一直觉得,LocalLLaMA 圈子对小 MoE 的乐观有点过。大家容易把“tokens/s 更高、榜单分数不差”直接映射成“代理更好用”,这中间差了一层 execution reliability。去年到今年,很多开源 coder 都出现过这个现象:单轮补全很亮眼,一进带工具环境就开始乱摸文件、乱调用 shell、抓住无关工具不放。我没核到 Qwen 这几版的官方 agent benchmark拆分,但这类问题在 SWE-bench 之外的真实仓库修复里很常见。 我对“10B”这个数本身有怀疑。更像是经验阈值,不像普适规律。活跃参数只是一层,路由器训练、专家专门化程度、KV cache 压力、量化后 router 是否失真、工具调用样本占比,都会影响稳定性。一个 A3B 如果 router 训得好、工具数据够多,未必输给 27B dense;反过来,一个账面 active params 更高的 MoE,也照样会在 agent loop 里犯蠢。正文没有这些信息,只能先把它当成用户侧告警,不是模型定律。 所以这帖的价值,不在“MoE 小于 10B 不行”这句口号,在它提醒了一件很实际的事:你评估代码代理,别只看 pass@1 和吞吐。至少要补三组数:多轮任务成功率、无效工具调用率、人工纠偏次数。没有这三组数,dense 和 MoE 的优劣很容易看反。说真的,要是一个模型每 5 分钟就要我关一次工具、改一次轨迹,它再快也只是把人的精力搬成了隐藏成本。
HKR 分解
hook knowledge resonance
打开信源
53
SCORE
H1·K0·R1
04:00
53d ago
● P1FT · 科技· rssEN04:00 · 04·22
OpenAI洽谈向私募股权合资企业承诺最多15亿美元
OpenAI 打算掏钱当 LP,和私募股权机构成立一家合资公司,专门把 AI 塞进 PE 投的那些公司里干活。金额上限是 15 亿美元。这篇报道正文被付费墙挡住了,没披露合作方是谁、交易结构怎么搭、时间表怎么排。这跟发新模型没关系,更像是 OpenAI 在赌企业端落地——通过私募的钱和项目渠道,把自己的模型铺进更多传统行业。
#Tools#OpenAI#Partnership#Funding
精选理由
FT 信源报出的 OpenAI 资本动作,15 亿美元上限给了 K 分,私募渠道的部署意图给了 H 和 R 分。合资方、结构和落地时间全缺,所以分数压在 80 出头:放 featured,不上头版。
一句话点评
OpenAI 打算拿 15 亿美元投进一个私募股权合资项目,但 FT 正文被付费墙挡了,具体投向和结构都不清楚。
锐评
这条消息目前能确认的信息很有限。FT 的标题说 OpenAI 在谈,要往一个私募股权合资企业里投最多 15 亿美元,但文章正文需要订阅才能看,所以交易细节、合资方是谁、资金具体用来做什么,这些关键点都没法核实。另一篇相关报道提到私募股权在同时接触 OpenAI 和 Anthropic,说明这可能是 AI 公司跟传统资本之间一种新的合作试探,而不只是常规融资。15 亿这个数字本身不小,但放在 OpenAI 的体量下,更像是在用别人的钱和渠道去撬动某些资产或项目,而不是单纯缺钱。现在下判断还太早,得等更多条款和参与方浮出水面。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
04:00
53d ago
FT · 科技· rssEN04:00 · 04·22
宾州芯片复兴卡在特朗普手里,联邦拨款没到账
宾夕法尼亚州的芯片制造复兴计划停摆了,因为承诺的联邦资金一直没到位。选址在利哈伊谷,这地方早年有过芯片产业历史。正文没披露拨款金额、项目名称和延迟多久,所以先别太激动,关键看钱什么时候能拨下来,而不是听复兴故事。
#Donald Trump#Pennsylvania#Lehigh Valley#Policy
精选理由
冲突钩子清晰,FT 给了基础信源背书,不算噪音。但披露的事实很薄:只确认宾州联邦拨款卡住,项目名称、金额、延迟时长都没写;只有 HKR-H 通过,所以维持原判。
一句话点评
宾夕法尼亚的芯片制造复兴因特朗普政策不确定性陷入停滞。FT报道,但全文需付费,具体项目、投资额和受影响企业未披露。关键看《芯片法案》资金能否落地,以及新政府是否会调整补贴条件。
锐评
联邦承诺资金卡住了宾夕法尼亚芯片项目,这个事实已经够说明问题:美国芯片政策的难点从来不只在立法批准,也在拨款落地。标题给了地点 Lehigh Valley,也给了结果“陷入搁置”;正文没披露项目名称、资金规模、对应工艺节点、延迟多久,这些关键条件都缺。信息这么薄,我不会接受“宾州复兴受挫”这种大词,眼下只能判断成一件更朴素的事:地方制造计划对华盛顿付款节奏高度依赖,而这套节奏在特朗普治下显然不稳。 我对“comeback”这个说法不太买账。芯片制造回流不是靠历史情怀启动的,也不是靠州政府讲祖产故事就能推进。晶圆厂、先进封装、材料配套,任何一环都吃长期资本开支、稳定电力、熟练工人和多年采购承诺。标题只说“ promised federal funds have not come through ”,这已经足够把问题指向执行层,不是叙事层。没有到账日期,地方政府没法签总包;没有确定补贴,设备商和材料商也不会按满产预期配套。说真的,这类项目最怕的不是反对,而是悬着。 外部参照其实很清楚。拜登时期 CHIPS Act 讨论最热时,市场就高估了“宣布”和“开工”之间的距离。Intel 俄亥俄项目、台积电亚利桑那项目、三星得州扩产,过去两年都反复证明一件事:土地、劳动力、供应链和补贴兑现,任何一项晚几个月,整条时间表都会往后滑。我记得 2024 年开始,美国商务部才陆续敲定几笔大额奖励,很多项目在官宣后隔了很久才看到明确条款;具体月份我这里没核实,但“钱批了”和“钱到位了”一直不是同一个动作。宾州这条更像是这个老问题的地方版。 还有个更尖一点的判断。特朗普如果把 CHIPS 相关拨款改成更强的政治筛选工具,受伤最深的不会是已经开工的大厂,而是这种还在等待首笔关键资金的次级地区项目。先进制造吃的是可预期性。大客户愿意为 Arizona、Texas、Ohio 的超大项目忍受波动,是因为厂商自己能先垫资本,地方配套也更成熟。Lehigh Valley 这种地方如果没有联邦资金先把风险压下去,就很容易在内部排位里被挤掉。标题没给公司名,这里我不能硬猜,但无论是 IDMs、化合物半导体,还是特色工艺厂,逻辑都一样:资金晚到,项目就会先缩,再拖,最后改口成“重新评估”。 我还想补一句行业语境。2025 到 2026 这轮美国制造叙事里,最常见的误判就是把芯片政策看成单次财政刺激。它更像多年期信用承诺。企业不是只看补贴总额,也看政府会不会换口径、会不会换条件、会不会把审批和拨付拆成好几段。一次延迟,影响的不只是这一个州的项目 IRR,还会抬高下一批项目对美国本土制造折现率的判断。这个后果比标题里的“宾州复兴搁浅”严重得多。 所以我对这条的结论很直接:目前只有标题信息,但已经能看出问题核心是联邦兑现能力,不是宾州有没有芯片历史。等更多细节出来,我最想先看三件事:具体项目是谁,承诺金额是多少,卡在审批、拨付还是配套条件。没有这三项,任何“回归制造”口号都不该当真。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R0
03:30
53d ago
● P1机器之心 · 公众号· rssZH03:30 · 04·22
苹果把 Transformer 改成了 Mamba,推理成本从平方级压到线性
苹果发了一篇技术文章,讲怎么把一个训好的 Transformer 模型(Pythia-1B)蒸馏成 Mamba 架构,让推理时的计算量从平方级降到线性。他们没直接硬蒸,因为直接蒸效果会崩(困惑度直接飙到 100 以上)。实际分了两步:先把 Transformer 的注意力换成一种叫 Hedgehog 的线性注意力,让模型适应线性计算;再把这个中间模型映...
#Inference-opt#Reasoning#Benchmarking#Apple
精选理由
我会先打个折:这还是个论文结果,不是已经落地的产品。但路线本身有意思——不是从头训 Mamba,而是把现成的 Transformer 蒸馏过去,省了大量训练成本。正文给出的下游任务(ARC、PIQA、BoolQ 等)说接近教师,但没放具体数字,这点先别太激动。如果真能在长上下文场景把推理成本压到线性,对需要处理长文档或长对话的产品是实打实的省钱。
一句话点评
苹果把 Transformer 改成 Mamba 架构,推理成本从平方级降到线性,但正文被验证页挡了,看不到具体方法和实验数据。
锐评
这条消息说苹果搞了个方法,能把 Transformer 模型改装成 Mamba 那种状态空间模型,推理时的计算量不再随输入长度平方增长,而是线性增长。对长文本处理来说,这意味着成本会大幅下降,延迟也更可控。但问题是,原文来自微信公众号,现在被环境异常验证挡住了,我拿不到任何技术细节。不知道他们是怎么改的、改了哪些层、性能掉多少、在什么规模上验证的。标题里“推理成本直接打成线性”听起来很诱人,但没有实验数字支撑,也没说清楚是训练时就改还是事后转换。这点先别太激动,等看到论文或技术报告再说。目前能确认的只有:苹果确实在探索把 Transformer 往更省钱的架构上迁移,方向本身不新鲜,但如果是无损或低损转换,那对落地部署会很有价值。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
03:30
53d ago
● P1机器之心 · 公众号· rssZH03:30 · 04·22
ICLR 2026 | ProSafePrune:用低秩剪枝治大模型过度防御,不训练、不拖慢推理
合肥工业大学和讯飞团队提出 ProSafePrune,一种低秩参数剪枝方法,专门解决大模型“过度防御”——把正常请求也误判为有害而拒绝回答。做法是用 SVD 把模型中间层的参数空间拆成安全、有害和伪有害三个子空间,然后剪掉重叠的“过度有害”方向。在 LLaMA-2-7B 上,OR-Bench 合规率从 11.0% 跳到 73.0%,安全评分只掉了不到 ...
#Alignment#Safety#Interpretability#Hefei University of Technology
精选理由
我会先打个折:这是篇研究论文,不是产品发布,所以放 featured 而不是 p1。但 HKR 三项全中——用剪枝来缓解过度拒答这个思路本身就够反直觉,正文给了 7B-70B 的规模、OR-Bench 从 11.0% 到 73.0% 的跳升,以及 SVD 拆子空间的机制,信息量够。更关键的是它不增加训练和推理成本,这点对实际部署太友好了,从业者一看就懂价值在哪。安全分数只是“小幅下降”,MMLU 还升了,说明不是牺牲有用性换的。
一句话点评
正文被微信环境验证页挡住了,看不到具体方法、剪枝比例和安全测试数据,只能从标题判断方向。
锐评
这篇论文标题说能通过剪枝解决大模型“过度防御”的问题,但文章内容完全没加载出来,只显示微信环境异常需要验证。所以没法确认它具体剪了什么、怎么剪、在哪些安全基准上测的、防御能力下降多少、有用性有没有跟着掉。标题里“一剪见效”听起来像剪枝后模型不再乱拒答,但没看到数字就没法判断是省了算力还是丢了安全。如果后续能看到原文,我会重点看它剪枝前后的安全评分变化、有用性变化,以及是不是只在单一模型上做的实验。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
03:00
53d ago
新智元 · 公众号· rssZH03:00 · 04·22
南洋理工开源单图重建可交互3D模型,不用多视角也能出结构
南洋理工开源了一个结构推理框架,能从单张图片直接重建出可交互的3D模型,不需要多视角输入。正文没披露模型名称、训练数据、质量指标或仓库链接,所以具体效果和门槛还不清楚。核心卖点是省掉了多视角采集的麻烦,但单图重建的几何精度和交互流畅度目前没有验证数据支撑。
#Vision#Reasoning#Tools#Nanyang Technological University
精选理由
H 通过:单图到可交互 3D 这个 hook 确实少见,不是常见的多视角重建路线。K 不通过:正文只复述了标题,模型名、评测指标、训练数据、开源地址一概没有,信息量等于零。R 不通过:没披露任何对实际部署、成本或竞争的影响,暂时看不出能改变什么。
一句话点评
南洋理工开源了一个单图重建3D模型的框架,号称不用多视角,直接推理结构。但正文被屏蔽,技术细节、效果对比、开源地址全没披露。单图重建3D一直是难题,如果真能稳定出可交互模型,对游戏、电商场景挺实用。但这类工作通常依赖大量训练数据或强先验,泛化性存疑。建议等完整论文或代码出来再评估,目前信息不足以判断含金量。
锐评
标题给出南洋理工开源单图重建可交互3D框架,正文却未披露模型名、数据集、指标和仓库地址。就这组信息量,我的判断很直接:这条现在还不能当技术突破看,只能当一个待验证的研究信号看。 单图到3D这件事,2025年已经不新了。社区这两年看过不少路线:Zero-1-to-3 先把单图补成多视角,再进重建;OpenLRM、Stable Fast 3D、Tripo 一类方法把前馈速度做快;腾讯混元3D和几家创业公司则把“可编辑、可打印、可游戏资产化”讲得更完整。现在再说“无需多视角”,门槛已经不是能不能做出来,而是三件更硬的事:几何是否闭合、纹理是否稳定、交互格式是否真能进 Blender/Unity/Unreal。这篇正文一项都没给。 我对“结构推理框架”这个表述也有点保留。这个词听起来像在强调比纯生成更懂对象结构,但没有 benchmark,它也可能只是给已有单图3D流程换了个包装。比如如果没有 GSO、Objaverse、ABO 或自建数据的测试结果,没有 Chamfer Distance、F-score、法线一致性,连最基本的几何质量都没法对齐;如果“可交互”只是网页里能旋转,那跟可用的 3D asset 差得很远。 我还没查到 repo,也没看到 demo。要让我把这条往上调一级,至少得看到四样东西:公开代码;输入输出耗时;和 OpenLRM、SF3D 或 Tripo 这类基线的同口径对比;导出格式和失败案例。现在只有标题信息,先别急着把它算进生产可用的 3D 生成栈。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R0
02:43
53d ago
X · @dotey(宝玉)· x-apiZH02:43 · 04·22
用户分享GPT Image 2生成日式少年漫画提示词
X 用户 dotey 分享了一个 GPT Image 2 的提示词,用来生成一张彩色少年漫画页面。提示词要求画主角发现一支叫“Quill of GPT Image”的魔法笔,笔上要有 OpenAI 标志,页面要像拍下来的实体漫画书,比例是 1440x2560 竖版。正文没给出生成结果,也没说模型设置或多次生成是否稳定,所以效果和一致性未知。
#Multimodal#Vision#OpenAI#Commentary
精选理由
这是一条单纯的GPT Image 2提示词分享,没有输出、参数、复现或一致性证据。重要性28分,低于40分且无行业切入点,因此归为excluded。
一句话点评
有人分享了用 GPT Image 2 生成日式少年漫画和中国漫画的提示词,目前只有标题,正文没给具体 prompt 内容。如果提示词真能稳定输出特定画风,对做漫画或视觉内容的人挺实用,但效果和可控性还得实测。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
02:18
53d ago
X · @dotey(宝玉)· x-apiZH02:18 · 04·22
用户分享GPT Image 2杂志拼贴提示词
dotey 发了一条 GPT Image 2 的提示词,要求生成一张 4:5 竖版杂志拼贴,中心标题固定为“Create Everything at Once”。画面要包含科学图表、老地图、UI 截图、漫画分镜、工程蓝图等,布局不能是网格,颜色要鲜艳。这条帖子没提用了哪个模型版本、生成参数或实际出图效果。可复用的是提示词结构,不是产品更新。
#Multimodal#Vision#Tools#GPT Image 2
精选理由
这是一段提示词片段,不是产品更新或经过验证的工作流。HKR-H、HKR-K、HKR-R 三项都不满足:没有展示输出,没有模型设置或结果,也没有明确的行业痛点,因此排除。
一句话点评
用户分享了让 GPT Image 2 生成杂志拼贴风的提示词。正文没给具体词或效果图,所以只能当个线索看。如果你正好想试这种风格,可以自己去搜原推或社区帖子。目前信息量约等于零,别急着当教程用。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K0·R0
02:15
53d ago
Hacker News 首页· rssEN02:15 · 04·22
Kuri:用 Zig 写的浏览器自动化工具,对标 agent-browser
justrach 在 GitHub 上开源了 Kuri,一个用 Zig 写的浏览器自动化与网页爬取工具,定位是 agent-browser 的替代品。它主打 Zig 原生、token 高效的 CDP 快照(Chrome DevTools Protocol 的截图,比传统方式省 token)、HAR 录制(记录网络请求)和独立抓取器。目前 GitHub ...
#Agent#Tools#GitHub#justrach
精选理由
这是一个角度有点意思的开源仓库,但披露的信息太薄。HKR-H 靠新颖性通过;HKR-K 不通过,因为文章没给机制、许可证或基准;HKR-R 也不通过,目前没有热度或行业争论。
一句话点评
一个用 Zig 写的浏览器自动化工具,主打 token 高效和 CDP 快照。作者一个人在做,GitHub 115 星。亮点是自称比 Playwright/Selenium 省 token,适合 AI agent 抓网页。但项目刚起步,没 benchmark 数据,也没说跟主流工具比到底快多少、省多少。Zig 生态小众,真要集成进现有 agent 流程还得自己踩坑。先观望。
锐评
Kuri 这条现在能确认的事实很少:项目作者 justrach 放出了一个 GitHub 仓库,标题把它叫作“基于 Zig 的 agent-browser 替代方案”,HN 只有 7 分和 1 条评论。标题给了语言和对标对象,正文没披露架构、能力边界、许可证、沙箱方式,也没给 benchmark。信息到这个程度,我不会把它当成“新一代 agent runtime”,最多当成一个待核实的实现草案。 我对这里面的“Zig”标签有点保留。Zig 适合做系统层、CLI、低依赖分发,拿来写浏览器自动化或 agent 执行器并不奇怪,编译产物也干净。这些优点能解决的是部署摩擦,不直接解决 agent-browser 这一类项目最难的三件事:状态管理、失败恢复、权限收敛。去年到现在,做 browser agent 的开源项目已经很多了,常见栈还是 Playwright、Chrome DevTools Protocol、Python/TypeScript glue code。它们卡住的地方,不是语言太慢,而是网页环境太脆、工具调用太松、步骤一长就失控。Kuri 如果只是把同一套控制逻辑换成 Zig,工程味会更强,产品结论未必变。 我还想追问一个很实际的问题:它替代的到底是哪一层?是替代 agent-browser 的浏览器控制器,替代 agent runtime,还是替代整套“模型+工具+页面执行”框架?这几个层级差很多。正文没说,我不想替作者补叙事。开源圈很容易把“我也能驱动浏览器”讲成“我也能做可靠代理”,这中间差着观测、回放、幂等、审计、凭证隔离一整套基础设施。没有这些,demo 能跑,生产照样掉坑。 外部参照其实很明确。Browser Use、Open Operator 那一路把重点放在网页任务完成率和模型协同;Playwright 生态把重点放在稳定自动化;不少本地 agent 项目又把重点放在 sandbox 和权限边界。我没看到 Kuri 站在哪一边,因为正文根本没给。要是仓库后面补出可复现的执行日志、错误恢复策略、页面状态抽象,再配一个清楚的许可证,这条才开始有讨论价值。现在这更像一个 repo 入口,不像一个已经成立的产品判断。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R0
01:41
53d ago
X · @dotey(宝玉)· x-apiZH01:41 · 04·22
一个提示词把四季塞进同一张图,GPT Image 2 的玩法
dotey 发了一个 GPT Image 2 的提示词,能让一张图从左到右依次显示冬春夏秋,场景是上海外滩看陆家嘴。提示词要求 8K、电影光效、季节之间没有明显分界线。这只是一个可复用的风格化提示词,不是模型更新。正文没提用了哪个模型版本、生成参数或对比效果,想复现得自己调。
#Multimodal#Tools#GPT Image 2#Shanghai Bund
精选理由
这是一条提示词分享,不是模型、产品或工作流更新。HKR-H靠“四季融一图无分割线”这个具体钩子通过;HKR-K因为版本、参数、失败案例和效果对比全没披露而失败;HKR-R对从业者价值很弱,所以整体定为低价值全量推送。
一句话点评
GPT-4o 原生图像生成功能(GPT Image 2)被网友挖出一条提示词,能在一张图里无缝融合春夏秋冬四个季节,效果像延时摄影。目前只有一条推文在传,来源是个人账号,没有官方文档或评测。正文完全没披露提示词原文、生成耗时、是否需多次抽卡。如果是真的,对做封面图、概念设计的人挺实用,但这点先别太激动——等更多人复现再说。
锐评
这条的核心事实很简单:dotey 发布了 1 条 4:3 四季连续过渡提示词,正文只给场景、风格词和季节顺序,模型版本、采样参数、生成张数、失败率都没披露。我的判断是,这条信息量不在“模型又会了什么”,而在“提示词模板正在变成内容产品”。 我一直觉得,图像模型到了 2025 年后半段,很多爆款案例已经不是能力突破,而是把一组稳定出片的约束词打包成可复制格式。这条就很典型:左到右季节顺序、无分割线、电影感光照、8K、高细节纹理,全是为了压住构图漂移和语义断层。问题也在这儿——“8K”“cinematic lighting”这类词,经常更像审美口令,不等于可复现质量。没有 seed、没有对比图、没有多次生成结果,我不买“这条 prompt 本身很强”这个说法,最多只能说它写得完整。 文章外的上下文也很清楚。Midjourney 时代就有大量“神级 prompt 包”在卖,真正起作用的通常不是华丽形容词,而是构图约束、镜头语言、主体关系和负面限制。到了 GPT Image 这代,模型的自然语言跟随能力更强,长 prompt 的边际收益其实在下降,结构化约束反而更重要。这条能复用,靠的不是“诗意”,靠的是把一个常见需求拆成了连续构图+时间流动+季节显式排序。 我还有个保留意见:上海外滩看陆家嘴这个场景,本身就自带强识别地标,模型更容易维持画面统一。你把 {Scene} 换成室内、人物群像、复杂街景,是否还能稳定做到四季无缝过渡,正文没给证据。只有标题信息和 snippet 时,我会把它看成一个可抄的 prompt scaffold,不会把它当成 GPT Image 2 的能力验证。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R0
00:45
53d ago
X · @dotey(宝玉)· x-apiZH00:45 · 04·22
GPT Image 2 提示词:四格“Out the Window”办公室梗图
这条推文分享了一个 GPT Image 2 的提示词,用来生成 9:16 的四格“Out the Window”办公室梗图。提示词指定了 4 个角色、4 个场景和双语对话气泡,最后以“Vibe Coding”作为笑点。这不是模型更新,只是公开了一个可复用的提示词,没有输出图、性能细节或发布信息。
#Vision#GPT Image 2#Commentary
精选理由
这不是模型更新,是一个可复用的 GPT Image 2 梗图提示词。HKR-H 靠办公室段子抓人,HKR-R 靠程序员文化共鸣扩散,但 HKR-K 不成立,因为帖子没给图、参数、失败案例或可验证的出图质量。
一句话点评
GPT Image 2 能直接生成“窗外” meme 四格漫画了,输入提示词就出图,省掉手动拼图。但正文完全没披露生成质量、风格一致性、文字渲染能力,也没说是否支持中文 meme。目前只有一条推文截图,样本太少,先别太激动。
锐评
这条帖子只公开了 1 段 GPT Image 2 四格漫画提示词,没有效果图,也没有参数、版本号、生成次数。我的判断很直接:它证明的是社媒上“模板化梗图提示词”还在涨,不证明 GPT Image 2 在漫画一致性上已经稳了。 我对这类内容一直有点保留。四格漫画最难的地方,从来不是把台词写进气泡,而是角色跨分镜一致、构图稳定、文字不乱、笑点节奏不塌。正文给了 4 个角色、4 个分镜、9:16 比例和双语文案,这些都属于提示词层的约束;模型有没有按约束执行,完全没展示。连一张输出都没有,你很难判断 GPT Image 2 是一次出图就中过,还是跑了 20 次才挑到能发的版本。 回到行业上下文,这种“公开一个长提示词”的传播方式,过去一年已经很常见了。OpenAI 图像模型、Flux 社区、Midjourney 用户都干过同样的事:先用一个熟悉的 meme 模板压低创作门槛,再把模型包装成“会做内容”的工具。问题是,单条 prompt 的复用价值通常没有看起来那么高。模型一改安全策略、字体渲染、长文本跟随,成品就会变;同一条 prompt 在不同日期、不同账号、不同流量负载下,结果都可能漂。这个帖子没给 seed、没给采样条件、没给失败案例,我不太买“可直接复刻”的暗示。 还有一点我会多看一眼:它拿“Vibe Coding”做 punchline,说明图像生成的传播已经开始吃 AI 圈内梗,而不是面向泛用户叙事。这对社媒扩散有用,对产品判断没那么有用。你可以把它当成一个 prompt asset,但别当成能力证据。要让我改观,至少得看到同一角色跨 4 格的稳定输出、文字可读率、失败率,或者官方明确这是 GPT Image 2 的哪一版。现在这些,正文都没披露。
HKR 分解
hook knowledge resonance
打开信源
50
SCORE
H1·K0·R1
00:15
53d ago
r/LocalLLaMA· rssEN00:15 · 04·22
月之暗面开源 FlashKDA:Kimi 的 Delta Attention 在 H20 上比 Triton 快 2.22 倍
月之暗面开源了 FlashKDA,这是为 Kimi 的 Delta Attention 写的 CUTLASS 内核。在 H20 上比 Triton 基线快 2.22 倍。但帖子没交代测试用的序列长度、batch size 和具体硬件配置,也没给仓库链接。所以这个 2.22 倍目前只能当个标题数字看,没法直接复现验证。
#Inference-opt#Moonshot#Open source#Product update
精选理由
标题给了一个具体声称——在 H20 上比 Triton 基线快 2.22 倍。正文被屏蔽,所以仓库和测试条件缺失,而且话题是底层 CUDA/CUTLASS 工作,没有面向普通读者的入口,触发了硬排除——技术可及性不达标。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
00:04
53d ago
彭博科技· rssEN00:04 · 04·22
ASMPT 业绩超预期,AI 需求推高股价至历史新高
ASMPT 第二季度营收预测高于市场预期,股价一度涨 8.7% 创历史新高。原因是 AI 拉动了半导体业务增长。正文没披露具体营收数字、市场共识或产品线细节,所以这个“超预期”到底超了多少、靠哪块业务,目前还不清楚。
#ASMPT#Product update#Commentary
精选理由
确认的信息:ASMPT 给出 Q2 营收指引高于预期,股价一度涨 8.7% 创新高。HKR-H 靠股价创新高这个钩子通过;HKR-K 和 HKR-R 弱,因为营收金额、预期口径和 AI 产品线占比都没披露,所以这条留在 all 层级,不是完整分析。
一句话点评
ASMPT(先进封装设备商)Q2营收指引超预期,股价创新高,主因AI芯片封装需求拉动。但正文被Bloomberg paywall挡住,具体数字(营收指引增幅、超预期幅度)和订单细节均未披露。利好方向明确,但缺数据支撑,短期情绪驱动为主。
锐评
ASMPT 公布二季度营收指引高于预期,股价盘中一度涨 8.7%。先别急着把这条归进“AI 需求继续爆单”。目前能确认的只有两件事:公司给了更强的指引,市场用股价追价回应。标题把增长直接挂到 AI,正文却没披露营收金额、市场一致预期口径,也没拆半导体业务里到底是哪条线在拉动。 这类设备链新闻,我一直觉得最怕一句“受益于 AI”把周期、补库存、先进封装扩产全揉在一起。ASMPT 做的是后段封装和表面贴装相关设备,AI 确实会拉动先进封装、HBM、服务器板级制造需求,但这跟“AI 订单直接兑现到 ASMPT 哪个产品”不是一回事。去年到今年,真正被市场反复验证的是 ASML、Applied Materials、Lam Research、KLA 这几家前段与制程控制公司;后段设备链也受益,但弹性通常更看封装资本开支节奏。我没查到 ASMPT 这次指引里有没有把先进封装设备单列,文章也没给。 我对这条叙事有个保留:如果是 AI 需求强到足以改写预期,管理层通常会顺手给更清楚的口径,比如某类半导体设备订单增速、某个客户群补单、或者先进封装相关收入占比。这里都没有。所以现阶段更像“市场愿意把任何超预期半导体设备指引先按 AI 估值去交易”。这不是没道理,只是证据还不够硬。等公司财报原文出来,先看三项:指引区间和一致预期差多少;半导体业务增长是不是高于 SMT 业务很多;订单能见度有没有拉长到下半年。没有这些数字,这条最多算情绪确认,不算产业链定点验证。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R0
00:00
53d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·22
AI 编程工具的配置文件,现在是攻击入口
过去12个月,安全研究者在 Copilot、Claude Code、Cursor、Amazon Q 和 Codex 上发现了至少8个 prompt injection 漏洞,最高 CVSS 8.8。攻击方式高度一致:在项目的配置文件或代码注释里藏自然语言指令,AI agent 读取后当成命令执行。.cursorrules、.claude/setting...
#Agent#Code#Safety#GitHub
精选理由
HKR三项都过:配置文件攻击面是个强钩子,8个CVE的数字够具体,覆盖主流编程工具。评分维持65,因为CVE/安全分析对AI从业者偏小众,而且正文没给CVE编号和修复状态,信息缺口明显。
一句话点评
AI编程工具的配置文件(如.cursorrules、.claude/settings.json)已成攻击入口,至少8个CVE,最高CVSS 8.8。攻击方式:在项目文件里藏自然语言指令,AI agent读取后当命令执行。所有漏洞已修补,但同类问题反复出现,因为LLM分不清指令和数据。91%的用户在YOLO模式下运行,自动批准是最大风险。正文没披露具体受影响用户数。
锐评
过去12个月,研究者在5类AI编程工具里报出至少8个配置文件注入CVE。这个数字已经够说明问题:它不是某家实现粗糙,而是这一代 coding agent 的输入边界从一开始就没立住。 我对“配置文件是新攻击入口”这个说法只买一半。配置文件一直都是高价值入口,CI、shell、IDE、package manager 早就反复出事。新东西不在“文件危险”,而在模型把自然语言注释、字段值、README式描述,一并吸进执行链。代码和指令原本靠语法、权限、解释器分层隔开;到了 agent 这里,先统一降成 token,再靠提示词和工具策略补边界。这个设计天生偏软,配置文件只是最容易被稳定复现的载体。 外部参照其实很多。2024年到2025年,社区已经反复讨论过 indirect prompt injection:网页、邮件、文档、issue ticket 都能投毒。Simon Willison 那条线我记得讲得很早,核心判断就是“只要模型会读不可信文本,再去调用高权限工具,注入就不是例外”。这次把战场收缩到 Copilot、Cursor、Claude Code、Amazon Q、Codex,麻烦更大,因为开发环境的权限比聊天机器人高得多:能读 repo、改文件、跑命令、提 PR,少一步人工确认就够出事。 但我也得泼点冷水。正文没给 CVE 编号、触发条件、修复状态,也没说是否需要用户确认、是否默认开启 agent 模式、是否跨工作区生效。没有这些细节,没法判断这8个洞里有多少属于“高危默认路径”,有多少只是“研究环境可打”。我不愿意把它直接讲成行业失控,不过趋势已经很清楚:谁还在宣传“把规则写进 system prompt 就能管住代码代理”,谁就在重复浏览器安全史里最贵的错误。接下来拼的不是模型更聪明,而是工具调用前的权限拆分、可信上下文标注、还有默认拒绝策略。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
00:00
53d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·22
AI 伪造一切:金融安全正在失去视觉信任
这篇文章讲的是 AI 图像和视频生成正在系统性地摧毁金融行业依赖的视觉验证体系。活体检测可以被虚拟摄像头注入的 deepfake 视频绕过,一张照片就能生成换脸视频,成本低至 5 美元。证件伪造更夸张,合成身份文档欺诈一年涨了 195%,连水电费账单都能伪造,而且没有数据库可以交叉验证。支票欺诈也在升级,AI 生成的假支票能通过 mobile depo...
#Multimodal#Vision#Audio#Commentary
精选理由
HKR-H和HKR-R都成立:标题把AI伪造和金融诈骗直接挂钩,触及信任与安全的敏感神经,从业者会想点开看。HKR-K不成立,因为正文只给了两个数字但没交代来源、样本、案例细节或防御方案,属于硬信息缺失,评分上限被压在40以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
00:00
53d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·22
公众号监控方案对比:五类旁路里只有两条路能长期跑
文章对比了监控公众号更新的五类方案:网页抓取、协议模拟、UI自动化、微信读书API和本地SQLite数据库。前三种要么入口已死要么维护成本高,长期能用的只有微信读书API(适合拿正文做搜索和摘要)和本地数据库(适合拿更新流做监控和自动化)。作者开源了一个CLI工具wechat_db_parser,两条命令就能导出当天订阅更新或某个号最近几篇文章,输出C...
#Tools#WeChat#Open source#Commentary
精选理由
HKR-H和HKR-K通过:文章对比了5种公众号监控方案并开源了CLI工具。HKR-R不通过:这是微信数据接入的基建话题,不是AI模型、产品、成本或行业事件,且正文缺失稳定性数据和版本兼容性,重要性维持38分。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K1·R0
2026-04-21 · 星期二2026年4月21日
23:56
54d ago
● P1FT · 科技· rssEN23:56 · 04·21
Anthropic 调查 Mythos AI 模型的未授权访问事件
FT 这篇报道正文被付费墙挡住了,只看到标题和摘要片段。已知信息是:Anthropic 在查一起针对其 Mythos 模型的未授权访问,并且之前因为担心这个新工具的“黑客能力”而限制了它的发布。具体有多少账号受影响、模型能力被限制到什么程度、时间线是怎样的,正文没披露。
#Safety#Anthropic#Incident#Product update
精选理由
FT 报道 Anthropic 在查 Mythos 的未授权访问,摘要补了一句关键信息:发布受限就是因为怕它的黑客能力。HKR 三项全中,但正文没披露到底哪些账户受影响、模型能力边界在哪、处置时间线是什么,信息缺口不小,所以重要性停在 84,放 featured 而不是更高。
一句话点评
FT 这篇正文被付费墙挡了,关键细节全看不到,先别急着下结论。
锐评
Anthropic 在查自家一个叫 Mythos 的模型被人偷跑进去的事。Verge 的标题直接说“最危险的模型落到了不该拿的人手里”,但两篇报道的正文都没公开具体是怎么被访问的、访问到了什么程度、以及 Mythos 到底有多强。FT 的文章卡在付费墙后面,能看到的只有标题和导航栏,等于信息量为零。Verge 的标题虽然唬人,但正文没披露技术细节,也没说这次事件是外部攻击还是内部权限没管好。目前能确认的只有:Anthropic 确实在调查一起未授权访问,涉及一个内部认为能力很强的模型。至于有没有模型权重泄露、有没有实际滥用案例,这些全都不清楚。这条新闻值得盯,但眼下能说的东西太少,等官方出调查报告或者有技术分析再判断严重程度。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
23:17
54d ago
X · @dotey(宝玉)· x-apiZH23:17 · 04·21
GPT Image 2 提示词:儿童蜡笔旅行手账插画
这个提示词能让 GPT Image 2 生成一张 9:16 的儿童蜡笔风旅行手账插画,自动根据旅行天数画出路线、地标、美食和手写笔记。如果没写天数,默认按 1 天走。示例输入是“芝加哥 7 日游,英文”。实用点在于它是个可复用的模板,你只需要改三个变量:城市、天数、语言。
#Multimodal#Vision#Tools#Commentary
精选理由
这是一个可复用的 GPT Image 2 提示词模板,不是模型或产品更新。HKR-H/K 靠风格化的钩子和显式变量勉强及格,但 HKR-R 不通过,因为没有对比、失败分析或工作流影响,所以留在低价值区间。
一句话点评
这条分享了一个用 GPT Image 2 生成儿童蜡笔旅行日记插画的提示词。正文没披露提示词具体内容、生成效果或 OpenAI 官方是否已上线该功能。如果是个人测试,效果可能不稳定;如果是官方功能,值得关注。信息缺口大,先别激动。
锐评
这条帖子把 3 个输入变量塞进 1 个图像模板。我的判断是,它更像轻量工作流,不像创意提示词。城市、天数、语言一旦固定,输出就接近一张可批量生产的旅游海报。对做内容的人,这比“蜡笔风”本身更实用。 我一直觉得,过去一年图像提示词最稳定的进展,不在风格词堆得多漂亮,而在模板化程度越来越高。Midjourney 时代很多 prompt 还是“多加形容词,赌一次采样”。到 GPT Image 这一代,大家开始把变量、默认值、版式、文案槽位写清楚。这里连“未填天数默认 1 日”都写了,说明作者想要的是可复用性,不是偶然灵感。 我对这条的保留也很直接。帖子只给了 prompt,没给成图,也没给失败样例。正文没披露两件关键事实:第一,GPT Image 2 对长文本排版到底稳不稳;第二,自动补出的景点和路线有没有事实错误。做过这类图的人都知道,图像模型最容易翻车的地方,恰好就是多段文字、地图逻辑、城市知识这三项叠在一起。你让它生成 7-Day Chicago 路线,它未必懂“顺路”,更未必懂营业时间、区域距离和游客真实动线。 还有一层问题,旅游内容现在已经很卷。只靠“儿童蜡笔风 + 城市路线图”,很快就会同质化。我看着更像社媒增长素材,不像高质量旅行规划工具。拿它做 Pinterest、短视频封面、酒店小红书配图,成立。拿它替代 itinerary 设计,离得还远。说真的,这类模板后面会分出两条线:一条是内容工厂,拼产量;一条是接 API、地图和 POI 数据,拼正确率。这条明显还停在前一条。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K1·R0
22:56
54d ago
● P1Hacker News 首页· rssEN22:56 · 04·21
Anthropic 将 Claude Code 从 Pro 订阅中移除
Anthropic 悄悄改了规则,新订阅 20 美元/月 Pro 套餐的用户不再包含 Claude Code 编程工具。老 Pro 和 Max 用户暂时不受影响。官方说法是“在约 2% 的新个人用户里做测试”,但帮助文档已经从“Pro 或 Max 套餐可用”改成了“Max 套餐可用”,官网定价页也同步去掉了 Pro 的 Claude Code 入口。正...
#Code#Tools#Anthropic#Claude Code
精选理由
这条消息在三个维度上都站得住:Pro 缩水本身就是个意外转折,文章用帮助页存档和官方回应把证据链补上了,而且开发者对定价和权益变动天然敏感。我会先打个折——目前只影响新用户测试群,正式政策时间表和回溯范围正文都没披露,所以重要性停在 76 是合理的。
一句话点评
Anthropic 悄悄把 Claude Code 从每月 20 美元的 Pro 套餐里拿掉了,新用户没法用,老用户暂时不受影响。
锐评
Anthropic 没发公告,直接改了定价页,把 Claude Code 从 Pro 订阅的权益里移除。现在新用户付 20 美元月费,拿不到这个能直接在终端里写代码、改代码的工具了。老用户目前还能用,但正文没说明这个“老用户”的宽限期有多长,也没解释移除原因。 从定价页看,Claude Code 还在产品列表里,说明没下线,只是不再白送。它很可能被挪到更贵的 Max(100 美元/月)或 Team/Enterprise 套餐里,但正文没披露具体归属。这点先别太激动——如果只是调整套餐分层,那本质上是把重度功能从低价位抽走,逼重度用户升级。 还缺两个关键信息:一是 API 用量计费有没有跟着变,二是现有 Pro 老用户会不会在某天被强制迁移。没有这些,就没法判断这到底是临时策略还是永久分层。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
22:49
54d ago
X · @dotey(宝玉)· x-apiZH22:49 · 04·21
GPT Image 2 提示词:唐朝贵妇带三个小黄人
这条推文分享了一个 GPT Image 2 的提示词,用来生成一幅 16:9 的工笔画:一位唐朝贵妇坐在木凳上,用吹风机吹头发,脚踩红高跟鞋、穿黑丝;三个小黄人穿着古装仆人服,一个在拉电线,一个在擦鞋,一个在拿手机拍照。背景是松树、竹子和太湖石,右上角有书法和印章。提示词里写了“仿古宣纸纹理、矿物颜料、幽默混搭”等细节。正文没放出生成结果、模型参数或失...
#Vision#Tools#Commentary
精选理由
只有 HKR-H 成立:唐代皇后加小黄人的组合确实有传播点。HKR-K 因为缺少输出、设置和失败案例而不成立,HKR-R 缺乏行业共鸣,所以这只是一个低价值的灵感片段,不值得作为专题报道。
一句话点评
一条展示 GPT-4o 图像生成能力的 prompt 分享,主题是“唐朝女王与她的随从小队”。正文完全缺失,只有标题和来源。无法判断生成效果、风格一致性、人物细节等关键信息。如果只是 prompt 展示,价值有限;若附带实测对比或翻车案例才值得细看。目前只能当个灵感存档,别当评测看。
锐评
这条的关键信息很少:作者公开了 1 段 GPT Image 2 提示词,但正文没放生成结果,也没给 seed、参考图、重试次数和失败样本。没有这些,任何“出图很稳”的判断都立不住。我先把话说死:这不是模型能力突破的证据,这只是一个写得很满的构图脚本。 我觉得它有用的地方,在于把五层约束钉在了一起。第一层是画风,工笔、设色、旧宣纸、矿物颜料、题字和印章都写死。第二层是主体动作,唐代贵妇坐木凳、拿吹风机吹头发。第三层是 3 个侍从的分工,拉电线、擦鞋、举手机,各自动作不重叠。第四层是时空冲突,古装场景里塞进手机、吹风机、黑丝袜、红高跟。第五层是画幅,直接卡 16:9。你拿这套骨架去改题材,复用性确实高,因为它在替模型做“镜头调度”。 这跟前两年 Midjourney 社区流行的“形容词瀑布”不太一样。我印象里,Midjourney v6 对长提示已经比早期强,但一旦人物数、道具数、动作链同时上来,还是容易串位,鞋子到别人脚上、手机消失、表情跑偏都很常见。OpenAI 这代图像模型如果真能把这种多角色、多道具、跨时代元素一次摆准,价值不在审美,而在可控性。我还没看到这条的输出,所以这一步不能替它下结论。 我对这类 viral prompt 还有个保留:写得越细,不代表泛化越强。很多时候它只是把一个随机种子的幸运结果包装成“万能模板”。尤其这里还混了“小黄人”这种强识别 IP,模型会不会触发风格规避、角色改写,正文也没披露。要是换成别的模型,或者把工笔改成浮世绘、把 3 个侍从改成 5 个,稳定性会不会掉,没人知道。 所以这帖更像一个提示词结构样本,不是能力评测。你要抄的不是“唐朝贵妇+小黄人”,而是这条把风格、材质、人数、动作、道具、背景、版式逐层锁死的写法。至于 GPT Image 2 到底是不是已经把复杂场景 controllability 做到生产可用,光看这 1 段 prompt,我不买账。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
22:32
54d ago
X · @dotey(宝玉)· x-apiZH22:32 · 04·21
GPT Image 2 提示词:生成公司微缩3D场景,带实时股价
这个帖子分享了一个 GPT Image 2 的提示词模板,输入公司名或股票代码,就能生成一张 45° 俯视的微缩3D场景图,里面会带上指定日期的实时股价数据。模板默认 4:3 比例,日期可以自动取当天,但如果拿不到市场数据会停止生成。注意这不是模型发布,只是一个提示词示例,帖子还贴了一张 Google 的生成图。
#Vision#Tools#Google#Commentary
精选理由
标题写的是 GPT Image 2 Prompt,容易让人以为是模型发布或新功能,但正文只有一段提示词模板,用公司名生成微缩股票场景,并强制校验实时股价。亮点是“图片生成里嵌数据校验”这个思路,但正文没披露任何效果、成本或验证结果,也没有说明这个模板来自哪里、是否官方。信息量太少,不足以支撑一条雷达条目。
一句话点评
GPT Image 2 的一个用户分享的 prompt 示例,用来生成等轴微型股票场景图。目前只有标题和来源,正文没披露任何技术细节或效果对比。如果你在找 GPT-4o 图像生成的实际表现参考,这条信息量几乎为零,先别太激动。
锐评
这条帖子给出的核心事实很简单:作者发布了 1 个 GPT Image 2 提示词模板,并要求在生成前先校验指定日期的股价数据,查不到就停止。我的判断是,这类内容的价值不在“等距微缩 3D”这层审美,而在它把一张图拆成了两段流水线:先取结构化数据,再让模型负责排版和视觉整合。做过多模态产品的人都知道,后一段通常不难,前一段才决定你交付的是作品还是幻觉。 我对这条的第一反应是:它暴露了 GPT Image 2 这波实用化的一个常见方向。不是追求更强的纯生成,而是把提示词写成半个程序。这里最关键的句子不是“Cinema 4D”“PBR 材质”“45° 俯视”,而是“先确保准确且最新的股价数据”“如果不可用立即停止”。这其实是在用自然语言补工作流控制。去年到今年,很多团队都在这么干:让模型负责最后一公里,把检索、校验、拒答、格式约束写进 prompt 或 tool policy 里。你拿它做股票海报,和你拿它做地产卡片、电商主图、赛事战报,底层套路是同一套。 我还想泼一点冷水。帖子把“实时股价”写得很满,但正文没有披露 GPT Image 2 是否原生接行情工具,也没给任何 API、调用链、失败样例。只有标题和模板时,我不会把这看成能力展示,更不会把它当成可靠的金融可视化方案。只要数据不是外部系统先喂给模型,单靠模型自己“去查”,稳定性就很悬。做过行情产品的人应该很熟:时区、盘前盘后、复权、交易所停牌、节假日,这些坑随便一个都能把图做错。模板里说“指定日期或当前日期”,但没定义是收盘价、日内区间,还是某个时点快照,这个缺口会直接影响可复现性。 外部对比也很明显。OpenAI 这一年里图像能力最能打动开发者的,不是单张图更好看,而是文本遵循、版式控制、和工具链拼接更稳。Google Imagen 系列、Flux 那批社区工作流也是一样,大家最后都在比“能不能稳定产出模板化物料”,不是比谁偶尔出一张神图。这个模板正好踩在那个点上:它想把股票信息图做成可复用资产。问题是,真正把它变成产品的门槛不在 prompt,而在数据源、错误处理、以及品牌元素的可控性。比如“公司的标志性建筑”这句就很容易翻车。Google 还算好认,换成没有强视觉锚点的上市公司,模型会开始编。 我自己也有个疑虑:这类模板在社媒上很容易被误读成“只要一句 prompt 就能做金融设计自动化”。这个说法我不太买账。模板能提高灵感密度,但生产级交付通常还得补三层东西:第一层是确定的数据 schema,至少要锁定 ticker、market、currency、date、open/high/low/close;第二层是品牌素材白名单,别让模型自由想象总部大楼和产品图标;第三层是失败分支,查不到数据、公司重名、日期非交易日时怎么退回。帖子里唯一触到产品意识的地方,就是“查不到就停止”,这反而比那些华丽风格词更有用。 所以这条我会把它看成一个挺典型的信号:图像模型的 prompt engineering,正在从“描述画面”转向“描述流程约束”。它不是新能力发布,正文也没有 benchmark、价格、上下文窗口这些硬信息。你要是做 AI 设计工具,可以借它的结构;你要是想评估 GPT Image 2 的真实上限,这条基本给不了答案。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K1·R0
22:13
54d ago
r/LocalLLaMA· rssEN22:13 · 04·21
红迪帖子说 Gemma 4 同时打败了 ChatGPT 和 Gemini Chat,但正文被屏蔽了,没法验证
一条 Reddit 帖子标题声称 Gemma 4 在某个测试里同时赢了 ChatGPT 和 Gemini Chat,但正文被 Reddit 屏蔽(403 错误),看不到具体任务、模型版本、提示词和分数。标题想表达“不自己跑模型就不算拥有它”,但帖子本身就没给出可复现的证据。目前只能当个说法,没法判断真假。
#Benchmarking#Commentary#Benchmark
精选理由
标题钩子和本地化话题都成立,但正文只有 Reddit 403 拦截页,没有测试任务、模型版本、提示词、分数或运行环境,属于零来源硬排除,分数上限被压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
22:13
54d ago
● P1Hacker News 首页· rssEN22:13 · 04·21
SpaceX 与 Cursor 达成收购协议,交易金额 600 亿美元
这条消息来自 SpaceX 官方推文,说已经签了收购 Cursor 的协议,金额是 600 亿美元。但正文只给了几条新闻链接,没展开说具体是现金还是换股、什么时候签的、要过哪些监管审批,也没提 Cursor 团队后续怎么安排。我会先打个折——标题很明确,但交易细节全是空白,目前只能当一条官宣口径看。
#SpaceX#Cursor
精选理由
光看标题,600亿买 Cursor 这个数够大,当天值得写。但正文只有链接聚合,没披露交易结构、签署状态、审批条件和管理层安排,我会先打个折。真正能确认的只是标题里的表述,不是完整的交易文件,所以分数没给到 95 以上。
一句话点评
SpaceX 拿到的不是直接收购,而是一个选择权:年底前要么花 600 亿买下 Cursor,要么付 100 亿合作费。这更像一笔带兜底条款的深度绑定,先别急着当收购新闻看。
锐评
这笔交易的结构比标题更值得看。SpaceX 和 AI 编程工具 Cursor 达成的是一份“收购选择权”协议,不是立即收购。今年晚些时候,SpaceX 可以二选一:要么以 600 亿美元买下 Cursor,要么支付 100 亿美元作为合作费用。这相当于 SpaceX 用一笔可能高达百亿的“分手费”,提前锁定了 Cursor 的独家合作权,并堵死了其他买家(比如 OpenAI)的机会。 TechCrunch 的报道点出了一个关键背景:Cursor 原本正在谈一轮 20 亿美元的融资,SpaceX 直接用一个 600 亿的收购报价截胡了。这解释了为什么 Cursor 会接受这种“霸王条款”——比起慢慢融资,直接拿到一个天价估值兜底的承诺,对创始团队和投资人(比如 a16z、Thrive Capital)来说,退出路径清晰得多。 目前所有报道都基于 SpaceX 的单方面公告,Cursor 方面还没有公开回应。交易最终是收购还是合作,取决于 SpaceX 年底的 IPO 进展和资金状况。600 亿这个数字,买的是一个 AI 编程工具,价格贵不贵,得看 Cursor 后续能不能真的嵌入 SpaceX 的星链、火箭生产线,而不只是给马斯克旗下公司写代码。这点正文没展开,需要等更多业务层面的整合细节。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
22:12
54d ago
X · @dotey(宝玉)· x-apiZH22:12 · 04·21
GPT Image 2 提示词:3D 盲盒风迷你概念店
这条推文分享了一个 GPT Image 2 的提示词模板,用来生成星巴克风格的 3D 迷你概念店。提示词指定了双层店面、大玻璃窗、品牌色装饰、员工制服、街边小人,以及 Cinema 4D 渲染效果。注意,这不是模型更新,只是公开了一个提示词模板,没有透露模型设置、定价或发布时间。
#Multimodal#Starbucks#Commentary
精选理由
只有 H 成立。帖子分享了一条提示词和画幅比,但没披露种子、步数、成本、失败案例或模型对比;这属于审美向的提示词分享,不是模型更新或行业信号。
一句话点评
GPT Image 2 的 3D Q版迷你概念店 prompt 被公开分享,但正文没给任何效果图或实测对比。目前只有一条推文标题,没有样本数、延迟或成本数据,无法判断生成质量或可用性。建议等更多用户实测再下结论。
锐评
帖子只公开了 1 段 Starbucks 微缩店提示词,正文未披露模型版本、采样参数、种子、参考图条件和价格,所以它证明不了 GPT Image 2 有了新能力。我的判断很直接:这类内容的传播价值高,方法价值低。你当然能把品牌名替换成 KFC、Nike、泡泡玛特,但那只是把一套已经在 Midjourney、SDXL 和 Flux 社区跑熟的“品牌 IP + 微缩街景 + C4D 玩具感”模板再搬一次。 我对这条叙事不太买账的地方在于,它把“出图风格”包装成了“模型能力”。文案里最具体的条件只有 --ar 2:3 和一串风格词,连最基本的负面约束都没有。没有 seed,你没法复现构图;没有 reference image 或 image weight,你没法稳定品牌识别;没有 batch 对比,你也不知道成功率。过去一年图像社区已经反复验证过:涉及品牌门店、包装外形、人物制服这类多约束场景,决定结果的常常不是一句长 prompt,而是参考图、重绘流程、后处理和筛图成本。我自己没跑过这条 prompt 在 GPT Image 2 上的通过率,但只看文本,复现稳定性大概率一般。 外部参照也很清楚。Midjourney V6 那波最火的“isometric store / toy diorama / blind box city”提示词,早就把这套视觉语法卷烂了;Flux 社区后来把 LoRA、品牌元素和 C4D 质感再往前推了一步。放到 2026 年,这种帖子能吸引眼球,是因为它把商业品牌和玩具化视觉缝得很顺,不是因为它给了新控制手段。要是作者想证明 GPT Image 2 真有优势,至少该给 4 组信息:同 prompt 多次采样结果、品牌一致性、文字渲染情况、和 Midjourney/Flux 的并排对比。现在这些都没有,所以我只会把它当灵感卡片,不会当工作流模板。
HKR 分解
hook knowledge resonance
打开信源
51
SCORE
H1·K0·R0
21:41
54d ago
● P1彭博科技· rssEN21:41 · 04·21
Anthropic 的 Mythos 模型遭未授权用户访问
Bloomberg 拿到内部文件和知情人士消息,说有一小撮未授权用户摸到了 Anthropic 还没正式发布的 Mythos 模型。Anthropic 内部认为这模型能力强到能搞出危险的网络攻击,所以这事不是普通的产品泄露,是访问控制出了问题。不过报道里没写到底多少人、通过什么路径、在什么时间段访问的,也没说 Anthropic 后续怎么堵的窟窿。
#Safety#Code#Anthropic#Bloomberg
精选理由
Bloomberg 爆出的不是常规产品消息,而是 Anthropic 的安全事故。未授权访问一个被内部判定为网络攻击级危险的大模型,本身就够抓眼球,也够讨论一阵。HKR-H 和 HKR-R 直接拉满,因为这事天然有传播力和讨论价值。HKR-K 靠的是新披露的访问事实和风险定性,但具体人数、路径、时间线正文全没给,信息缺口不小,所以知识增量有,但别指望能复盘全貌。
一句话点评
Anthropic 还没正式发布的 Mythos 模型被外人摸到了,这事本身比模型能力更值得关注。
锐评
Anthropic 一个叫 Mythos 的内部模型被未授权用户访问了,Bloomberg、TechCrunch 和 The Verge 都报了这件事。Mythos 被描述为 Anthropic 的专属网络工具,目前还没公开,所以这次不是产品漏洞,更像是内部权限或基础设施没管住。 三篇报道的标题用词都挺重,Bloomberg 说“正被未授权用户访问”,TechCrunch 强调“独家网络工具”,The Verge 直接定性为“羞辱性事件”。但正文都没披露具体是怎么泄露的、访问者是谁、拿到了什么程度的能力。没有这些信息,就没法判断是模型权重外流、API 被偷用,还是只是有人摸到了演示界面。 对从业者来说,这条新闻的信号不在模型本身,而在安全边界。Anthropic 一直把安全当核心卖点,如果连内部项目都守不住,客户把敏感数据交给他们时就得重新掂量。现在最缺的是 Anthropic 的官方回应和技术细节,没有这些,所有严重性判断都只能先打个折。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
21:22
54d ago
Dwarkesh Patel 访谈· atomEN21:22 · 04·21
黄仁勋聊英伟达的竞争
标题说黄仁勋讨论了英伟达的竞争,但正文是空的。没有披露具体对手、证据、时间或数据。
#Jensen Huang#Nvidia#Commentary
精选理由
全文只有标题,正文为空。没有披露黄仁勋具体说了什么、针对哪家对手、访谈时间或任何数据。HKR 三项全不满足,按规则排除,重要性低于 40。
一句话点评
标题说黄仁勋聊英伟达竞争,但正文是空的,没法判断他说了什么。
锐评
这条来自 Dwarkesh 的 YouTube 短视频标题是“黄仁勋谈英伟达的竞争”,但 RSS 正文完全空白,没有披露任何具体对手、证据、时间或数据。来源是未经验证的 RSS 片段,权威性存疑。 由于正文缺失,无法判断黄仁勋是否真的讨论了竞争、具体说了什么、以及是否有新信息。如果只是标题党或片段截取,这条内容对从业者几乎没有参考价值。建议直接忽略,或等完整视频/文字稿出来后再看。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H0·K0·R0
21:11
54d ago
彭博科技· rssEN21:11 · 04·21
库克转任苹果“全球大使”,不再管日常运营
彭博社报道,蒂姆·库克将减少苹果日常管理职责,花更多时间做公司的“全球大使”。正文被 paywall 挡住,没披露新职务的生效时间、是否保留 CEO 头衔、以及接班安排。这更像一个领导分工调整的信号,不是完整的人事公告。
#Apple#Tim Cook#Personnel#Commentary
精选理由
标题有钩子,但正文信息量不足:只说了库克角色重心变化,没给时间、接任安排或具体职务调整,更没涉及 AI 战略。所以 H 通过,K 和 R 不通过。
一句话点评
彭博报道称库克将担任苹果全球大使,但正文被 paywall 挡住,实际信息为零。标题暗示库克可能逐步淡出日常运营,但具体职责、任期、是否影响 CEO 交接均未披露。目前只能当传闻看,等可靠来源补充细节后再判断。
锐评
Bloomberg 标题把 Tim Cook 写成“全球大使”,但目前披露的事实只有一个条件:他在减轻日常管理职责后,会把更多时间放到对外角色上。正文没给新职务名称,没给生效时间,没给谁接盘运营,也没给董事会层面的正式安排。信息到这一步,还不能写成 Apple 已经启动 CEO 交接,只能写成高层分工开始松动。 我对这条的判断是,Apple 终于在承认一件内部早就存在的现实:Cook 的稀缺性,早就不在产品定义,而在全球关系维护。Apple 这几年最难的事,不是把 iPhone 再做薄 1 毫米,而是同时稳住华盛顿、布鲁塞尔、北京、德里和供应链。欧盟 DMA、美国反垄断审查、中国市场波动、印度产能爬坡,这些都需要一个能跟政府和产业高层长期对话的人。Cook 一直就在干这个活,只是以前还挂着日常经营总负责。现在如果真往外分,他是在把自己从运营 CEO 往董事长式人物挪,哪怕名义上还没变。 这件事我会拿 Satya Nadella 和 Sundar Pichai 做参照。微软和 Google 过去几年都没有把 CEO 明确改写成“外交官”,但实际工作已经很像:AI 监管、主权云、地缘供应链,比纯产品节奏更占高层时间。Apple 的特殊处在于,它比这两家更依赖硬件供应链和跨境制造,所以“全球大使”这层角色不是装饰,而是经营本身。我还记得 Cook 早年最强的标签就是供应链执行,不是产品讲故事。现在这套能力被重新摆到台前,说明 Apple 当前的核心风险也不在实验室,而在外部摩擦。 我还是要泼一点冷水:标题很容易把这条包装成优雅转身,但如果没有明确接任安排,这也可能是在掩饰一个更棘手的问题——Apple 还没找到足够有公信力的二号位,能同时管产品、运营和资本市场。近几年外界一直拿 Jeff Williams、John Ternus 之类的人选做猜测,我没在这篇里看到任何确认。没有接班名字,“Cook 做大使”就更像是职责漂移,不是治理结构完成升级。 对 AI 从业者来说,这条的含义也别想歪。它不是 Apple AI 突然提速的信号,反而像管理层在给外部变量腾时间。Apple Intelligence 去年起就暴露出一个问题:Apple 现在最缺的不是发布会叙事,而是组织层面的决断速度。若 CEO 的时间继续从内部产品协调抽走,AI 这条线能不能更快,取决于下面有没有被真正授权的人。目前标题给了角色变化,正文没披露权力怎么分,这正是最关键的信息缺口。
HKR 分解
hook knowledge resonance
打开信源
53
SCORE
H1·K0·R0
20:44
54d ago
FT · 科技· rssEN20:44 · 04·21
美国议员质问JetBlue:删浏览器记录能买到更便宜机票?
JetBlue一条已删除的社交媒体帖子暗示,旅客清除浏览器历史记录后可能看到更低票价。美国议员随即要求JetBlue解释是否在搞“监控定价”——即根据用户浏览行为动态调价。正文没披露具体票价差、涉及哪些航线、测试规模多大、定价逻辑是什么,也没给出JetBlue的正式回应。目前只有这条线索,没有验证数据,所以这点先别太激动。
#JetBlue#US lawmakers#Policy#Incident
精选理由
HKR-H靠“清历史降价”这个反直觉钩子通过。HKR-K和HKR-R不通过,因为现有信息没有票价差额、实验范围、定价机制,也没有清晰的AI技术链路,对AI行业feed来说属于低相关噪音。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
20:21
54d ago
Hacker News 首页· rssEN20:21 · 04·21
别给我提PR了,我自己用LLM写更快
一位开源维护者说,他现在不想合并陌生人的PR了。原因有三:外部PR可能有恶意代码风险;来回review、CI、解决冲突太耗时;而且现在写代码已经不是瓶颈——理解、设计、review才是。LLM写代码又快又安全,还能按自己的风格调,不用等人回复。他建议贡献者改提bug报告、讨论设计、给原型PR或直接分享prompt。正文没披露项目规模或合并数据,但逻辑很...
#Code#Tools#Commentary
精选理由
HKR-H和HKR-R都成立:标题有冲击力,讨论的协作接口变化对从业者有实际参考价值。但HKR-K不成立:正文没披露任何仓库数据或合并统计,属于硬排除规则6,所以tier为excluded,importance不能超过40。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
20:16
54d ago
彭博科技· rssEN20:16 · 04·21
Adobe 宣布 250 亿美元回购,股价连跌两年后自救
Adobe 宣布最多回购 250 亿美元股票,原因是股价已连跌两年多,投资者担心 AI 会侵蚀它的业务。这个数字相当于 Adobe 目前市值的大约 15%,力度不小,但正文没披露回购时间表和具体执行节奏。这是一次资本操作,不是产品更新或模型发布,所以对 AI 从业者来说,信号是:Adobe 的 AI 变现压力还没缓解,市场在等它拿出能赚钱的 AI 功能...
#Adobe#Product update#Commentary
精选理由
这本质上是公司财务故事,AI 只是股价下跌的背景。HKR 三项全不达标:有数字,但没有 AI 产品动作、技术机制或可操作的行业细节,所以评分低于 40,被排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
19:52
54d ago
● P1彭博科技· rssEN19:52 · 04·21
Apple宣布硬件主管Ternus接任CEO,Cook转任执行董事长
苹果宣布硬件负责人 John Ternus 将在 9 月 1 日接替 Tim Cook 出任 CEO,Cook 转任执行董事长。彭博社指出,Cook 的企业外交手腕和与特朗普的关系仍会为苹果所用。这次换帅最直接的信号是硬件优先。标题里虽然提到 AI 和中国市场,但正文没披露具体计划,这部分先别太激动。
#Apple#John Ternus#Tim Cook#Personnel
精选理由
这条新闻分量够重,苹果换帅本身就少见,加上硬件负责人接班、Cook 留着搞政府关系,信息量虽然不多但指向性很强。我会先打个折:正文对 AI 和中国只提了标题,没给任何具体计划或组织调整,所以 HKR-K 只能停在“有事实但有限”。H 和 R 都拉满,因为这事既抓眼球又直接影响从业者对苹果下一步的判断。如果是真的把硬件推回 C 位,那后续产品节奏和资源分配都值得盯。
一句话点评
投资人吹风会上的好话先打个折。Ternus 是硬件出身,苹果现在最烫手的是 AI 和中国的两座大山,他能不能扛住,正文没给出任何实际策略。
锐评
这条视频更像是一次投资人表态,而不是信息增量。Ross Gerber 说任命硬件主管 John Ternus 接任 CEO 是“一步好棋”,但理由基本停留在“他懂产品”这个层面。苹果现在面临的问题比产品本身复杂得多:AI 功能落地慢、中国区销量承压、高管人才可能流失,这些才是新 CEO 真正的考题。 Ternus 的优势在于他主导了 Apple Silicon 的过渡,执行力有目共睹。但管芯片和管一家要同时处理 AI、供应链地缘政治、服务生态的公司,难度不在一个量级。Cook 转任执行董事长,意味着他不会完全撒手,这能提供一些缓冲,但也可能让 Ternus 的决策空间受限。 这条视频没提任何关于 AI 路线图或中国策略的具体信息,所以“great move”这个结论目前只能当市场情绪看。真正要判断这一步走得好不好,得等 Ternus 拿出第一份产品答卷再说。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
19:31
54d ago
彭博科技· rssEN19:31 · 04·21
分析师说苹果AI走错路了,还喊话该换CEO
投行分析师Walter Piecyk在彭博电视上批评苹果AI方向不对,并说苹果一年多前就该换CEO了。但这条新闻正文被屏蔽了,没披露他具体指哪错了、谁接班、以及时间线。目前只能看到是管理层的评论,不是产品更新。
#Apple#Walter Piecyk#Lightshed Partners#Commentary
精选理由
标题有钩子,分析师点名批评苹果AI路线并呼吁换CEO,冲突感强,H和R都成立。但正文只给了管理层的评论,没有披露具体证据、产品细节、继任者姓名或交接时间,信息缺口触发硬性排除规则,所以K不成立。综合判断维持excluded,分数上限40。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
19:22
54d ago
● P1X · @OpenAI· x-apiEN19:22 · 04·21
OpenAI 发布 ChatGPT Images 2.0 图像生成模型
OpenAI 在 X 上官宣了 ChatGPT Images 2.0,定位是能处理复杂视觉任务、出图直接可用的图像模型。帖子提到三点升级:编辑更精细、版式更丰富,以及加入了“思考级智能”,但没解释这具体指什么能力。视频演示看起来效果不错,不过正文没披露模型规模、定价、延迟和推送范围,我会先打个折——等看到实测和成本再说。
#Vision#Multimodal#Tools#OpenAI
精选理由
OpenAI 官方发的帖文,信源权威性没问题,加上“Images 2.0”这个名头,话题性和行业影响都够,所以 H 和 R 都给了。但我把分压在 featured 门槛附近,因为这条帖文信息量太薄:没模型细节、没定价、没延迟、没基准测试、也没说清楚谁现在能用,K 完全站不住。真正值得盯的是可编辑性和版式控制这两点,但光靠这条帖文还远不到能复现的程度,先打个折观望。
一句话点评
OpenAI 发了新图像模型 Images 2.0,能上网搜资料再画图,多语言文字渲染进步很大,但官方没给技术报告和对比数据。
锐评
这次更新最实在的进步是两件事:一是模型能直接联网抓信息来生成图片,比如你让它画一张“今天纽约天气的漫画”,它会先去查天气再画,不用你手动喂数据。二是多语言文字渲染终于像样了,官方展示的韩文、日文、中文海报和漫画里,文字基本没有乱码或拼写错误,这对做设计、广告的人来说是个实打实的生产力提升。 不过官方这篇发布基本是产品宣传,没给任何技术细节。模型参数量、训练数据、推理延迟、和 DALL·E 3 或 Midjourney 的对比分数全都没提。展示的样图都是精选过的,实际用起来在复杂场景、小众语言上会不会翻车还不清楚。另外“对所有 ChatGPT 和 Codex 用户开放”这句话有点模糊,免费用户能用多少额度、生成速度怎么样,正文都没交代。 总的来说,联网能力和多语言文字是肉眼可见的进步,但想判断它是不是真的“新一代”,还得等第三方实测和更多用户反馈。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
19:11
54d ago
TechCrunch AI· rssEN19:11 · 04·21
NeoCognition 拿 4000 万美元种子轮,要做能像人一样自学的 AI 智能体
俄亥俄州立大学教授 Yu Su 把实验室成果独立出来,成立了 NeoCognition,刚拿到 4000 万美元种子轮,由 Cambium Capital 和 Walde 联合领投。他们想做的不是普通聊天机器人,而是能自己学会某个领域知识的 AI 智能体——也就是让模型进业务流程干活的那种。文章没披露具体模型架构、训练数据、有没有客户和时间表,只说 S...
#Agent#NeoCognition#OSU#Funding
精选理由
HKR-K靠4000万美元种子轮数字过关,但HKR-H和HKR-R都不过:'像人类一样学习'停留在口号层面,正文没给架构、基准、客户或时间表。这就是一篇常规融资报道,所以放在all档,64分。
一句话点评
OSU教授Yu Su拿了4000万美元种子轮,要做“像人一样学习”的agent。亮点是他说终于等到基座模型够好才动手,但文章没给任何技术细节——怎么学、跑多快、跟现有agent比差在哪,全没提。目前只能当融资信号看,别当技术路线。
锐评
NeoCognition 拿到 4000 万美元种子轮,目标指向“任意领域专家智能体”。我的判断很直接:现在先别把它当能力突破,当成一笔押注“后训练与持续学习”故事的大额早期融资更准确。 信息非常薄。标题给了融资额、创始人来自 OSU、方向是“像人类一样学习”。正文没披露模型架构、训练数据、训练范式、评测集、客户、时间表。这几个缺口里,我最在意的是学习机制。因为“像人类一样学习”在 AI 圈基本有三种讲法:一是在线学习,模型在交互里持续更新;二是 agent 通过工具、记忆、反思形成长期技能;三是更激进的 world model 或自监督框架,试图减少靠海量静态语料预训练。三条路的工程难度、成本结构、产品落地,差得非常大。现在标题把三条路揉成一句 slogan,这个说法我不太买账。 我一直觉得,这类公司最容易把“像人类学习”包装成“会自己积累经验”,最后落到一层 memory、RAG、workflow replay,再加一点 RL 或 verifier。不是说这条路没价值,Devin、Adept 早期、还有一批做 browser agent 的团队,都证明了任务回放和工具使用能抬高成功率。但那跟“任意领域成为专家”不是一回事。跨域专家能力的难点,从来不是记住更多文档,而是把反馈变成稳定可迁移的策略。标题没说他们怎么更新策略参数,也没说是 test-time adaptation 还是 training-time learning,这就没法判断护城河在哪。 4000 万美元种子轮本身也说明一件事:资本现在又开始愿意给“基础研究叙事”高估值。我记得 2023 到 2024 年,Adept、Inflection 这类公司都曾拿到很大的早期资金,后来市场给出的教训很清楚——融资规模不等于产品-市场契合,也不等于独特研究路线能穿过算力和数据的瓶颈。到了 2025 年后,投资人更偏好能直接接企业流程、拿到可验证 ROI 的 agent 团队。NeoCognition 这时还能拿 4000 万美元,说明投资人押的不是短期 ARR,而是一个更大的技术故事。问题在于,这类故事如果 12 个月内拿不出可复现 benchmark,很容易迅速失温。 我还想追问评测。“任意领域专家”不是一句 demo 能证明的事,至少要回答三件事:第一,专家定义是什么,是超过人类 novice,还是接近资深从业者;第二,领域怎么选,是代码、法律、医学、科研,还是只挑工具丰富、反馈明确的窄任务;第三,学习是靠多少轮交互拿到提升,成本曲线是否下降。没有这些,任何“learns like humans”都只是营销层的拟人化表达。 所以这条新闻现阶段给我的结论很简单:钱不少,信息不够,口号大于证据。我还没查到他们的论文、技术博客或公开 demo;如果后面补出内容,我最先会看两样东西——一是是否披露具体学习回路,二是是否给出跨任务、跨时间的持久增益,而不是单次 benchmark 冲分。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K1·R0
19:07
54d ago
Product Hunt · AI· rssEN19:07 · 04·21
Kyohansha:网页端60帧Live2D AI,带轻量外挂记忆
Kyohansha 是一个网页端的 AI 角色产品,主打 60FPS 的 Live2D 动画,并宣称内置了 Lite-RAG(轻量外挂资料库)来做长期记忆。正文没披露用了什么模型、记忆怎么存、定价多少、覆盖哪些地区。核心看点其实是那个“长期记忆”能不能真的跑通检索流程,而不只是产品文案。
#RAG#Memory#Kyohansha#Product update
精选理由
只有H能打:浏览器端60帧Live2D AI加长期记忆,标题本身有吸引力。K和R都落空,因为正文没披露模型、检索设计、价格和任何可复现的测试条件,所以这条只适合低优先级全量推送。
一句话点评
短评:Product Hunt 上出现了一个叫 Kyohansha 的 AI 产品,但页面被 Cloudflare 拦截,正文完全没披露任何信息。 点评:Kyohansha 在 Product Hunt 上线,但访问时触发 Cloudflare 安全验证,返回 403 错误,正文内容为零。目前仅知产品名称和“1 位成员”的团队规模,功能、技术路线、定价、应用场景全部缺失。对于 AI 从业者...
锐评
Kyohansha 这次只披露了 2 个卖点:网页端 60FPS Live2D AI,外加 Lite-RAG 长期记忆。我的判断很直接:这条先别按“记忆型 AI companion”看,先按“前端渲染流畅的角色壳子”看。因为标题给了帧率,正文却没给记忆命中率、上下文长度、召回延迟、存储上限,也没给模型名。对做产品的人来说,这几个空缺比“Lite-RAG”这 1 个词更重要。 我对“60FPS”本身没意见,浏览器里把 Live2D 跑顺不算小事,尤其如果还叠了语音驱动、口型同步和推理流式输出,前端工程要做不少活。但这不是护城河。去年到今年,很多 AI avatar 和陪伴产品都能把动效做顺,难点一直不在帧率,而在角色状态能不能跨天保持一致。你今天说喜欢爵士,三天后它还记得;你改掉一个设定,它不会把旧设定和新设定同时拿出来胡说。这个问题不是“挂个 RAG”就完事,得看写入条件、冲突合并、检索排序,外加安全过滤。正文一项都没披露。 “Lite-RAG”这个叫法我自己有点怀疑。它听着像轻量检索增强,但轻量到什么程度,完全没说。是本地向量库,还是服务端 profile store?是按会话切片,还是抽取人物事实三元组?如果只是把用户历史对话 embed 后做相似度召回,那离“长期记忆”还差一截。做过 companion 或 agent 的人都知道,长期记忆最容易翻车的地方不是存不进去,而是错召回和过时事实污染当前回复。这个坑,Character.AI、Replika、甚至一些接了 Mem0 或 LangMem 的 agent demo 都踩过。我没查到 Kyohansha 有没有公开 eval;没有的话,这个卖点现在只能算文案,不算能力证明。 还有一个现实问题:网页端 60FPS 和长期记忆放在一起,系统预算会很紧。前端动画、TTS、ASR、LLM、检索,每层都要吃延迟。要是它真能在浏览器里稳定做到角色动画流畅、对话不断、记忆命中还靠谱,那至少该给一个可复现条件,比如桌面端 Chrome、网络要求、首 token 延迟、记忆写入触发规则。现在这些都没有。我跟你说,信息只到这个程度,我更愿意把它当成一条早期产品信号:团队知道用户想要“有脸、有连续性”的 AI,但离能和主流 companion 产品正面打,还差一整套评测口径。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
19:06
54d ago
r/LocalLLaMA· rssEN19:06 · 04·21
Kimi K2.6 Unsloth GGUF 量化版已发布
Reddit 上有人发帖说 Kimi K2.6 的 Unsloth GGUF 版本已经放出来了。GGUF 是让大模型能在本地跑的一种量化格式,Unsloth 是专门做高效量化的工具。但帖子正文被 Reddit 屏蔽了,所以具体量化到多少比特、文件多大、支持多长上下文、下载链接在哪,全都没披露。目前只能确认有这么一个发布,细节得等作者补全。
#Inference-opt#Tools#Kimi#Unsloth
精选理由
标题说 Kimi K2.6 的 Unsloth GGUF 已发布,但正文只抓到 Reddit 的 403 拦截页,量化规格、文件大小、位宽、上下文长度和下载链接全都没披露。HKR 三项都不满足,所以这条只确认了发布存在,没有实质信息,直接排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
18:51
54d ago
TechCrunch AI· rssEN18:51 · 04·21
Sam Altman 暗讽 Anthropic 网络安全模型 Mythos:这是“恐惧营销”
OpenAI 的 Sam Altman 在播客上公开批评 Anthropic 新出的网络安全模型 Mythos,说对方在搞“恐惧营销”——先吓唬人说模型太危险不能公开,然后高价卖给少数企业客户。Altman 的原话是:“你们造了个炸弹,然后卖 1 亿美元的防弹屋。” 不过正文没披露 Mythos 的任何技术指标、定价或上线时间,所以这更像一场口水仗,不...
#Safety#Sam Altman#OpenAI#Anthropic
精选理由
Altman 在播客里直接说 Anthropic 的网络安全模型 Mythos 是“基于恐惧的营销”,这个钩子够劲——两家头部公司公开互呛,涉及安全模型定位和行业竞争,从业者会关心背后的路线分歧。但别被标题带偏:正文只确认了这句评价和模型名字,没披露 Mythos 的参数、基准、价格和发布时间,信息缺口明显。所以 H 和 R 成立,K 不成立。
一句话点评
Sam Altman 公开嘲讽 Anthropic 的网络安全模型 Mythos,说它是“恐惧营销”——先吓唬你 AI 很危险,再卖你高价“避难所”。Mythos 本月刚发布,只给少数企业客户用,Anthropic 声称怕公开后被黑客武器化。Altman 在播客上补了一刀:有人一直想把 AI 锁在小圈子里,恐惧是最好用的借口。正文没披露 Mythos 具体能力或评测数据,所以“太强不能公开”...
锐评
Sam Altman 这次公开批评的对象很明确:Anthropic 的网络安全模型 Mythos;目前能确认的事实也只有一句话,他在播客里把对方的宣传叫成“基于恐惧的营销”。标题给了冲突,正文没有给模型参数、基准、价格、发布日期,也没有给 Altman 具体反驳了哪项能力声明。所以这条先别读成产品评测,先读成一家前沿实验室在给另一家的 go-to-market 拆台。 我自己的判断是,Altman 这句攻击打的不是安全能力本身,而是 Anthropic 这两年的一套固定叙事:先强调高能力模型会带来高风险,再把额外防护、分级访问、专用模型包装成必要条件。这个打法不是 Mythos 才开始。Anthropic 从 Constitutional AI、ASL 分级,到后面几次 system card 和 deployment policy,核心都在说“能力越强,护栏越重”。这套话术对政策圈、企业采购和大客户法务是有效的,因为它把“我们更谨慎”直接翻译成“我们更可信”。但对开发者和基础设施买家,问题永远一样:拿数字说话。误报率多少,拦截率多少,在哪些 cyber benchmark 上比 Claude Sonnet 4.5 或 OpenAI 自家的安全栈高多少,正文都没披露。 我对 Altman 的说法也不会照单全收。OpenAI 自己过去一年同样很会用风险语言做发布节奏管理,尤其一碰到 agent、bio、cyber 这些高敏感区,都会把能力边界和安全门槛绑定着讲。说白点,两家都懂“风险叙事”怎么服务产品分层,只是 Anthropic 讲得更学院派,OpenAI 讲得更大众化。我还没看到足够材料证明 Mythos 被夸大了;同样,我也没看到材料证明 Mythos 真的把 cyber 任务做到了一个新档位。 如果硬要找参照,我更愿意拿去对比去年几次安全模型发布的老问题:公司很少先给可复现实验,常见做法是先放一段 scary demo,再补 system card。我记得 Anthropic 之前谈高风险能力时,至少会配一份更完整的 policy 或评估材料;OpenAI 在高风险功能上也经常晚一点才补文档。Mythos 这条现在连那一步都还没看到,所以口水战先于证据,信息含量其实偏低。 我跟你说,这种标题最容易把人带偏成“OpenAI 反击 Anthropic 安全路线”。我不太买这个简化。更像的情况是,两边都在抢一个很具体的客户心智:谁更适合进企业安全预算,谁更能跟政府、国防、关键基础设施客户谈高风险场景。只要正文还没有 benchmark、红队方法、访问限制和定价,这条就只能说明竞争进入公开点名阶段,说明不了 Mythos 到底强不强。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
17:36
54d ago
● P1X · @dotey(宝玉)· x-apiZH17:36 · 04·21
Google 把 Gemini Deep Research 拆成两个版本:一个求快求省,一个烧算力出深度报告
Google 把 Gemini Deep Research 拆成了标准版和 Max 版,背后都是 Gemini 3.1 Pro 模型。标准版走速度和成本优先路线,适合嵌在产品里做即问即答;Max 版会反复搜索、推理、打磨报告,官方举的例子是分析师下班前丢一个尽调任务,第二天早上收完整报告。这次最大的变化是支持 MCP,能把 FactSet、S&P、Pi...
#Agent#RAG#Tools#Google
精选理由
这是一次有分量的产品更新:Gemini Deep Research 拆成标准版和 Max 版,在付费 API 里公开预览,标准版偏速度和成本,Max 版给更多算力、反复搜索和推理。HKR 三项都站得住,但官方没公布定价、调用限制和两版实际性能差距,所以分数压在 78-84 这个区间。
一句话点评
Google 把 Gemini 的深度研究功能拆成了标准版和 Max 版,但正文没披露两个版本在能力、成本或速度上的具体区别。
锐评
Google 给 Gemini 的深度研究功能做了个分层,分出标准版和 Max 版。这大概率是在学其他 AI 产品的付费分层策略,让轻度用户用便宜的标准版,重度需求上 Max。但这条消息目前只有一个标题,正文是空的,我们完全不知道 Max 到底强在哪——是能读更长的报告、能同时搜更多来源,还是推理步骤更多?也不知道价格怎么定、延迟高多少。这些关键信息都缺,所以现在没法判断这次升级是实质性的能力提升,还是换个名字做套餐拆分。建议等官方文档或实测出来再下结论。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
17:11
54d ago
X · @Yuchenj_UW· x-apiMULTI17:11 · 04·21
AI 实验室正在集体收紧开源,Qwen、Meta、MiniMax 都收紧了
UW 的 Yuchenj 观察到,越来越多 AI 实验室在退出开源。他举了三个例子:Qwen 在往更封闭的方向走,Meta 基本完全封闭,MiniMax 2.7 不允许商用。核心原因是经济账算不过来:训练成本极高,但放出模型权重后实验室很难直接赚钱。他建议用收入分成等方式帮实验室变现,让开源可持续。正文没披露 Qwen 和 Meta 具体收紧了哪个版本...
#Qwen#Meta#MiniMax#Commentary
精选理由
这是一篇行业评论,点了三个案例,不是产品发布或研究论文。HKR-R 成立是因为开源后退触及开发者的供应和许可焦虑;HKR-K 不成立是因为只有 MiniMax 2.7 的商用限制是具体的,Qwen 和 Meta 的版本、条款变化正文没给。
一句话点评
多家AI实验室正在收紧开源策略,不再像以前那样把模型权重和代码完整公开。正文没披露具体是哪些实验室、收回了哪些模型,信息缺口明显。趋势本身值得关注:开源曾是AI快速迭代的引擎,如果头部玩家陆续转向闭源或半开放,中小团队和学术界的跟进成本会上升。但“越来越多”这个判断目前缺乏数据支撑,先打个折。
锐评
MiniMax 2.7 禁止商业使用,这条已经不是情绪判断,而是许可条件变化。麻烦在于,帖文对 Qwen 和 Meta 只给了方向判断,没给版本、时间点、许可证文本。我只能确认一个硬事实:至少有团队开始把“开源”改成“可看、可试、不可自由商用”。 我对“训练成本太高,所以实验室收紧”这个解释只买一半。算力贵当然是真的,2024 到 2025 年很多前沿模型的训练账单已经是千万到上亿美元级别,这个行业没人会白送权重。问题是,成本高从来不是全部答案。Meta 以前愿意放 Llama 权重,不是因为便宜,而是因为它要用免费分发换生态、研究注意力和下游云议价。阿里放 Qwen,也不只是做公益,它要抢开发者心智,要把推理、工具链和云服务一起带起来。开源模型从来不是单独卖钱的货,它更像获客渠道。渠道没有设计好,最后就会收回去。 我还想 push back 一下“Meta 基本全闭源”这个说法。按我记忆,Meta 在过去一年仍然发布过可下载权重,只是许可证、可接受用途和商业门槛越来越像企业分发合同,不再是传统开源软件那套 OSI 逻辑。这个区别很大:不是简单的 open 对 closed,而是从 permissive 走向 source-available、field-of-use restriction、附加商业条件。很多人嘴上还叫它开源,法务上已经不是一回事了。 Yuchenj 提的 revenue sharing 方向,我觉得比单纯骂厂商靠谱,但正文没给机制,所以现在只能停在口号。分成到底按托管收入抽,还是按衍生产品抽,还是按商业 API 调用抽?这三种激励完全不同。去年到今年其实已经有一些近似实验:不少开放权重团队把模型本体免费放出,把商业授权、托管推理、企业支持和安全补丁做成收费层。严格说,这更接近 open-core,不是纯开源。我一直觉得大模型最后大概率会走这条路,跟数据库、搜索、可观测性软件很像:权重放出来,最值钱的是服务、更新速度、品牌担保和合规。 我自己对这条还有个疑虑:开源退潮不一定只由成本驱动,能力风险和地缘合规也在推。尤其是多模态、agent、代码和生物方向,实验室法务团队会比研究团队更早踩刹车。帖文没展开这部分,所以不能替它补结论。眼下能落地的判断只有一个:别再把“放权重”直接等同于“开源阵营强势”。你得看许可证、商用条件、再发布权限,还有谁在托管入口上收钱。开没开,不在 GitHub 页面,在 license 细则里。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K0·R1
16:45
54d ago
Product Hunt · AI· rssEN16:45 · 04·21
Superset 2.0:远程跑几百个编程 agent,但细节没全说
Superset 2.0 号称能同时在远程机器上跑几百个编程 agent,每个任务有独立沙箱,互不干扰,还支持实时协作。它重写了底层,支持把 agent 派到不同机器上执行,适合需要并行跑大量代码任务的团队。不过正文没披露调度策略、隔离机制、定价,也没说支持哪些 agent 框架——这些对实际落地挺关键,先别急着冲。
#Agent#Code#Superset#Product Hunt
精选理由
HKR-H 和 HKR-R 通过:几百个 coding agents 远程执行这个规模确实能吸引眼球,也触及了成本和算力焦虑。HKR-K 不通过:RSS 摘要太短,调度细节、隔离设计、定价、支持的框架和复现条件一概没有,信息严重不足。
一句话点评
几百个编程 agent 同时跑,每个任务独立沙箱,适合并行代码量大的团队。但调度、隔离、定价都没说,先别冲。
锐评
Superset 2.0 号称能同时在远程机器上跑几百个编程 agent,每个任务有独立沙箱,互不干扰,还支持实时协作。它重写了底层,支持把 agent 派到不同机器上执行,适合需要并行跑大量代码任务的团队。不过正文没披露调度策略、隔离机制、定价,也没说支持哪些 agent 框架——这些对实际落地挺关键,先别急着冲。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
16:42
54d ago
Google 研究院· rssEN16:42 · 04·21
ReasoningBank:让智能体从经验中学习
Google Research 发了一篇博客,讲的是让智能体(agent)像人一样积累经验,下次遇到类似任务直接调用,不用每次都从头推理。想法挺实用,但正文基本只有导航栏和菜单,没披露具体方法、用了多少数据、效果如何、代码开不开源。从业者目前没法判断能不能复现,先别太激动。
#Agent#Reasoning#Memory#Google Research
精选理由
Google Research 的牌子加上“智能体经验学习”这个方向,话题本身是热的,做 agent 的人看到标题会想点进去。但实际抓到的页面几乎只有导航栏,正文没披露方法、用了多少数据、效果怎么样、代码在哪,等于只有个标题。所以我会先打个折:H 和 R 能拿住,因为话题确实踩在 agent 可靠性和记忆成本的痛点上;K 完全拿不到,因为没有任何可验证的硬信息。整体只能放在 all 这一档,等有论文或开源再重新评估。
一句话点评
Google 想让 agent 像人一样积累经验,下次直接调用,但正文只有导航栏,没披露方法、数据、效果。
锐评
想法很实用:让 agent 把推理过程存下来,下次遇到类似任务直接复用,不用每次从头算。但正文只抓到了网站菜单和导航栏,核心内容——怎么存、怎么调、用了多少样本、效果提升多少、代码开不开源——全都没披露。从业者目前没法判断能不能复现,也没法评估这个方案比现有的 memory 或 RAG 方案好在哪。Google Research 的博客经常只给概念,等论文出来才有细节。这点先别太激动,等论文或代码出来再评估。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
16:35
54d ago
Product Hunt · AI· rssEN16:35 · 04·21
Gemini Deep Research Agent:API 里多了两个研究助手,一个快一个全
Google 在 Gemini API 里放了两个研究 agent:Deep Research 主打低延迟交互,适合边问边改;Deep Research Max 做异步深度整合,适合丢一个任务等结果。两个都支持 MCP 数据源(相当于让模型直接连数据库、文档等外部工具)和原生图表生成。正文没披露定价、上下文窗口、工具调用次数限制和上线范围,所以实际能跑...
#Agent#Tools#Gemini#Product update
精选理由
这是一条 Product Hunt 上的产品更新,核心信息是 Gemini API 加了 Web 搜索和 MCP 研究 agent。但价格、上下文窗口、调用限制、上线范围都没披露。MCP 这块值得开发者盯一下,其他信息太薄,不够上精选。
一句话点评
Google 在 API 里放了两个研究 agent,一个快一个深,还支持连外部数据源。
锐评
Google 在 Gemini API 里推出了两个研究 agent:Deep Research 主打低延迟交互,适合边问边改;Deep Research Max 做异步深度整合,适合丢一个任务等结果。两者都支持 MCP 数据源(让模型直接连数据库、文档等外部工具)和原生图表生成。对开发者来说,MCP 集成是亮点,意味着 agent 能直接拉企业内网或私有库的数据,不用先导出成文本。但正文没披露定价、上下文窗口、工具调用次数限制和上线范围,所以实际能跑多深、成本多高还不清楚。如果上下文窗口够大、调用次数不限,这会是目前最实用的研究 agent 之一;如果限制多,就只是个演示级产品。建议等 Google 放出具体参数再评估是否接入生产。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
16:25
54d ago
X · @op7418(歸藏)· x-apiZH16:25 · 04·21
随手拍张蓝莓,GPT-Image-2 就能生成同风格宣传图
博主用一张实拍蓝莓照片,让 GPT-Image-2 生成同产品风格的宣传图。结果蓝莓位置没变,但果实更大更饱满,设计元素全对。这对电商很实用——拍个实物就能自动出图,不用重新摆拍。不过正文没披露用了什么提示词、编辑参数、跑了多久,也没说失败案例。真正值得关注的是模型对“哪些元素能改、哪些不能改”的控制边界,而不只是图好不好看。
#Multimodal#Vision#Commentary
精选理由
这是一条单次演示帖,HKR-H 成立是因为它展示了“照片直接变广告图且物体位置基本保留”这个直观效果,有钩子;HKR-K 和 HKR-R 不成立,因为正文没披露提示词、编辑参数、耗时、失败案例、成本或可靠性数据,信息缺口太大,无法支撑行业级判断。
一句话点评
短评:一张蓝莓照片就能生成产品宣传图,GPT-Image-2 的视觉风格迁移能力很直观。 正文没披露生成图的分辨率、是否支持多轮修改、以及风格一致性细节。如果真能一张照片定调,设计初稿成本会很低,但实际落地可能还需要人工调参。这点先别太激动,等更多实测。
锐评
发帖者展示了 1 张蓝莓实拍图,并让 GPT-Image-2 生成了 1 张宣传图,但正文没有给出提示词、编辑参数、耗时和失败样本。我的判断很直接:这更像一次审美对路的 in-context 图像编辑展示,不足以证明模型已经稳定学会“哪些能改,哪些不能改”。 我对“蓝莓位置没变,所以模型很聪明”这个说法不太买账。单个案例里,位置保持有三种常见来源。第一种是模型真的学到了局部保真编辑。第二种是编辑强度本来就设得低,主体几何几乎被冻结。第三种更常见,输入图已经把构图限制死了,模型只是在光泽、体积感、背景质感上做增强。三种情况,产品意义差很多。正文一项都没披露,所以别急着把它读成“电商素材生产已经被打通”。 我一直觉得,商品图编辑最难的不是“变好看”,而是可控性要穿过一条很窄的线。你得改掉瑕疵、补足商业质感、统一品牌风格;你又不能改 SKU、不能改包装字样、不能改净含量暗示、不能把水果大小改到涉嫌误导。这里最敏感的恰好是帖主夸的那句“蓝莓变得更大更饱满”。审美上这是加分,合规上就未必了。食品、电商、美妆这几类场景,视觉增强和商品失真之间本来只隔一层纸。文章没给出原图、输出图的像素级对齐,也没说是否锁定了 mask、主体框或 layout constraint,我没法把这条当成严肃的生产能力证明。 拿行业里已有工具做参照,这也不新鲜。Adobe Firefly 和 Photoshop 的 Generative Fill,过去一年已经把“局部改背景、保主体、延展画幅”做得很顺。Midjourney 更擅长风格化,但对严格保版式、保 packshot 一直不稳。很多电商团队现在会把流程拆开:先用传统抠图和版式工具锁死商品区域,再让生成模型只处理背景、道具、光感和文案空间。原因很简单,生成模型一旦同时接管“商品真实性”和“广告美术”,翻车责任很难切。GPT-Image-2 如果真比上一代强,价值也会先落在这类半自动工作流里,不会是一句“拍一张就能出宣发图”这么轻巧。 我还想补一个文章外的上下文。过去一年,多模态模型在“身份一致性”和“局部编辑一致性”上确实进步很快。人像领域已经能把脸保得比较稳,商品图也开始能保住大轮廓和主色。但“位置不变”不等于“语义不变”。水果大小、表面纹理、反光形状、景深、甚至旁边水珠数量,都会影响用户对新鲜度和品质的判断。做过电商 A/B 的人都知道,CTR 提升和合规风险经常一起上升。帖主说“对电商帮助非常大”,这个方向我同意;要说已经能放心上线,我自己还没看到证据。 如果 OpenAI 想把 GPT-Image-2 这类能力打进真实商用,最需要给的不是再多几个惊艳案例,而是可复现条件:同一 prompt 跑 20 次的一致率,锁定主体后的漂移范围,文字与标签的误改率,编辑耗时,失败样本,最好再加上是否支持区域级约束。没有这些,大家看到的只是一个很会挑样片的 demo。对从业者来说,这条信息量在于一个信号:图像编辑模型正在逼近“可上流水线”的门槛;但这条帖文本身,还没把门推开。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K0·R0
16:00
54d ago
TechCrunch AI· rssEN16:00 · 04·21
AI 地牢开发商 Latitude 推出 Voyage,一个让玩家自己搭 RPG 世界、AI 生成 NPC 对话的平台
Latitude 发布了 Voyage,一个 AI 原生的 RPG 创作平台,玩家可以自己搭游戏世界,NPC 对话完全由 AI 实时生成,没有固定脚本。这相当于把 AI 地牢的“无限剧情”思路升级成一套创作工具。不过正文没披露用了哪个模型、怎么收费、什么时候开放,也没说编辑器具体怎么用。目前能判断的只有产品定位,不是已验证的能力。
#Agent#Tools#Latitude#AI Dungeon
精选理由
HKR-H 靠新奇感过关:AI Dungeon 团队做 AI-native RPG 平台,标题本身有点击欲。HKR-K 和 HKR-R 都弱,因为正文没披露模型、定价、上线范围或具体机制,所以只能放 all 而非 featured。
一句话点评
短评:AI Dungeon 团队的新平台,让玩家自己搭 AI 跑团的 RPG 世界,NPC 对话全由模型实时生成,不写死剧本。 点评:Latitude 推出 Voyage,一个让玩家自己创建 AI 驱动 RPG 世界的平台。核心卖点是 NPC 对话完全由模型实时生成,不写死剧本,理论上每个玩家都能获得独一无二的剧情。这延续了 AI Dungeon 的路线,但把创作权更多交给玩家。不过正文没...
锐评
Latitude 推出 Voyage,正文只确认它面向自建 RPG 世界,别的信息基本没给。这让我先把它看成一次产品重定位,不是一次能力证明。 我对这条的第一判断很直接:Latitude 还是在押“生成式叙事游戏平台”这条老路,只是把 AI Dungeon 的单人即兴文本,往“可编辑、可复用、可发布”的 RPG 制作工具上挪。这个方向说得通,因为纯聊天式冒险的留存一直难做,玩家新鲜感过去后,世界规则会松、角色记忆会漂、剧情节奏也容易塌。正文没披露模型来源、价格、编辑器机制、上线范围,所以现在还不能判断 Voyage 解决了哪一层老问题。 外部参照其实不少。2024 到 2025 年,游戏圈已经反复试过 AI NPC 和动态叙事:Inworld 主打角色层,Convai 也在卖实时 NPC 交互,Hidden Door 押的是把 IP 变成可玩的生成式冒险。我自己的感觉是,这些产品最大的问题从来不是“角色会不会说话”,而是“系统能不能稳”。一旦没有明确的状态机、任务图、世界规则和内容审核,AI NPC 很快就会从沉浸感来源,变成 bug 生成器。AI Dungeon 当年火过,也因为模型失控、内容边界和一致性问题吃过亏。Latitude 这次如果只是把“能聊”包装成“能做 RPG”,我不太买账。 说真的,这类产品最难的环节不是生成文本,而是把自由度压进工具链。创作者要的不是一个会即兴发挥的 NPC,而是能设定阵营、记忆、任务触发、物品状态、战斗规则、多人同步边界的编辑器。少了这些,Voyage 更像玩具;有了这些,它才接近平台。问题是正文一项都没给。标题给了“AI-powered RPGs”,正文没披露上下文窗口、持久记忆、世界状态存储、审核策略,也没说是否支持多人、API 或脚本系统。 我还想补一个商业层面的疑虑。生成式游戏一直有成本约束:玩家每多聊一句,推理成本就多一截;玩家越自由,内容安全和质量控制越难。去年不少陪伴和角色扮演产品都在往更便宜的模型、模板化流程、或者 premium 配额收。Voyage 如果面向创作者开放世界生成和 NPC 长对话,没有很强的缓存、蒸馏、规则约束,单位用户毛利会很难看。我没查到 Latitude 现在的模型栈,也没看到这次有没有自研或混合路由。 所以这条现在能确认的信号只有一个:Latitude 不想只做 AI Dungeon,它想往“AI 游戏制作层”再上半级。这个判断成立不成立,不看宣传页,要看后面三件事:创作者是否真能控规则,NPC 是否能跨会话保持一致,单位内容成本是否压得住。正文没给这些,现阶段我不会把 Voyage 当成游戏 AI 的新拐点,我更愿意把它当成 Latitude 对旧产品天花板的一次自救测试。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R0
15:45
54d ago
● P1量子位 · 公众号· rssZH15:45 · 04·21
GitHub 虚假 Star 调查揭示 600 万疑似造假,AI 项目成重灾区
卡内基梅隆大学一项研究扒出了 GitHub 上约 600 万颗疑似假星,时间跨度从 2019 到 2024 年,涉及 1.8 万多个仓库和超过 30 万个账号。他们用自研工具 StarScout 来识别机器人号和同步刷星行为,准确率自称 81%。有 78 个严重注水的项目一度冲上了 Trending 热门榜。对搞 AI 的人来说最扎眼的一点:在非恶意仓...
#Carnegie Mellon University#GitHub#Redpoint#Research release
精选理由
HKR 三项都站得住。CMU 的研究把 GitHub 假 Star 做成了可量化的安全问题——600 万颗假星、18617 个仓库、81% 的检测准确率,而且把最严重的非恶意造假指向了 AI/LLM 项目。这不是模型发布或产品上线,但作为一条行业信号,值得放进 featured。
一句话点评
GitHub 上 600 万颗星疑似造假,AI 项目是重灾区,一颗星最低 3 分钱。VC 拿星数当投资信号,这链条比想象中成熟。
锐评
这篇调查把 GitHub 假星产业链扒得很干净。核心数据来自 CMU 一篇被 ICSE 2026 接收的论文,用工具扫了 20TB 的 GitHub 元数据,揪出约 600 万颗疑似假星,涉及 1.8 万个仓库和 30 万个账号。到 2024 年 7 月,超过 50 颗星的仓库里有 16.66% 参与过刷星,AI 和 LLM 项目是重灾区,有 17.7 万颗假星。文章自己还抽了 20 个仓库做验证,发现可疑仓库里 36% 到 76% 的点星者零粉丝,复刻星数比也比正常项目低一个数量级。 价格方面,一颗星从 3 分钱到 9 毛钱都有,丰俭由人。更关键的是,VC 真吃这套——Redpoint 发现种子轮项目星数中位数是 2850,有机构直接写爬虫扫高增长仓库。FTC 对虚假社交影响力指标的单次违规罚款能到 5.3 万美元,SEC 也已经对夸大牵引指标的创始人动过手。 文章没说的是,GitHub 官方对这批数据的处置细节和后续算法调整方案。另外,它只分析了 20 个仓库,样本量偏小,结论更适合当风向标而非定论。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
15:45
54d ago
● P1量子位 · 公众号· rssZH15:45 · 04·21
蚂蚁数科搞了个叫“大象”的百亿参数模型,跑分和效率都挺能打
蚂蚁集团的 Inclusion AI 团队被扒出是神秘模型“大象”的幕后作者。这个模型参数量 100B,上下文窗口 256K,一次能吐 32K 字,已经在 OpenRouter 上架。文章里测了修 bug、总结三千字会议纪要、跑轻量 agent 流程,效果都不错。AI BENCHY 跑分显示它平均每秒能出 2500 个 token,延迟大概 1 秒,一...
#Code#Agent#Benchmarking#Ant Group
精选理由
一个 100B 模型敢喊同规模 SOTA 还强调 Token 效率,钩子够硬。文章有实测数据也有失败案例,不是纯吹。训练细节、价格和官方模型卡都没披露,所以先别太激动,但方向值得跟。
一句话点评
正文被微信环境验证页挡住了,实际内容没抓到,这条先打个折——所有关于模型性能的说法都来自标题,没法核实。
锐评
这条消息目前只能看个标题,正文因为微信的验证机制完全没抓到。标题说有个叫「大象」的神秘模型,参数量只有100B,但拿下了SOTA,而且token效率很高。如果属实,这确实值得关注——100B参数在当下动辄几百B甚至上万亿的竞赛里不算大,能刷榜说明架构或训练方法可能有巧思。但问题恰恰出在「如果」上:谁做的、在哪些基准上测的、跟谁比的、token效率具体指什么(推理速度还是训练数据量),这些关键信息全在没抓到的正文里。没有来源、没有技术细节、没有可复现的线索,目前只能当一条传闻看。等拿到正文或官方发布再更新判断。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1

更多

频道

后台