ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-16

94 items · updated 3m ago
RSS live
2026-04-16 · 星期四2026年4月16日
23:40
57d ago
X · @dotey(宝玉)· x-apiZH23:40 · 04·16
GitHub Copilot 里 Opus 4.7 标价 7.5 倍,Opus 4.6 是 3 倍
有人在 GitHub Copilot 里看到 Opus 4.7 的倍率是 7.5x,Opus 4.6 是 3x。但原文没说明这个 x 指什么——是价格倍数、用量倍数还是别的指标,也没说适用哪个套餐、截图来源和上线时间。先别急着算能力差距,得等 Copilot 官方解释清楚计费定义。
#Code#Tools#GitHub#Commentary
精选理由
HKR-H 和 HKR-R 成立:7.5x 对比 3x 的倍率跳升足够抓眼球,且 Copilot 用户对成本变化敏感。HKR-K 不成立:这是一条无截图、无计费定义、无套餐范围、无上线时间的单来源 X 帖子,信息缺口导致硬性排除,评分上限被压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
23:30
57d ago
r/LocalLLaMA· rssEN23:30 · 04·16
Qwen 3.6 35B A3B 模型在 RTX 5090 上本地推理性能测试
有人在 RTX 5090(32GB)上本地跑 Qwen 3.6 35B A3B 模型,量化到 Q5_K_S,关闭思考模式,温度 0.1,上下文拉到 120K,测出 187 token/秒。这个速度对本地部署来说挺快,但帖子没交代是预填充阶段还是解码阶段的速度,也没说 prompt 多长、跑了多久,所以这个数字暂时没法直接跟其他测试比。
#Inference-opt#Benchmarking#Benchmark#Commentary
精选理由
标题给了一组本地推理参数:Qwen 3.6 35B A3B 在 RTX 5090 32GB 上以 Q5_K_S 量化跑到 187 t/s,上下文 120K,关闭思考模式,温度 0.1。数字看着挺快,但正文没披露测试框架、提示长度、预填充与解码口径,也没有可复现的实验步骤。187 t/s 在缺少这些条件时没法横向比较,所以这条链接对大多数从业者参考价值有限。按规则,信息缺口明确,保持排除。
一句话点评
Qwen 3.6 35B A3B 在 RTX 5090 上跑出 187 token/秒,Q5 量化下 120K 上下文,速度够快,但这是关闭思考模式、温度 0.1 的极限测试,实际对话或长文生成会降速。另一帖用 5060 Ti 16GB 跑同模型,说明中低端卡也能玩。正文没披露显存占用和首次推理延迟,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
23:20
57d ago
阮一峰的网络日志· rssZH23:20 · 04·16
脑腐状态:注意力下降,AI 歌手霸榜,权重有没有版权?
阮一峰周刊第393期核心话题是“脑腐”——大脑因长期刷短视频和标题党内容,导致思考能力下降、难以长时间集中注意力。应对思路是把学习拆成两三分钟的短视频。另外,一个不存在的AI歌手Eddie Dalton在iTunes前100占了11席,两首进前十,说明AI已经开始跟人类抢艺术饭碗。还有一篇讨论:大模型权重只是计算结果,可能根本没有版权,所以开源许可证改...
#Ruan Yifeng#Google#Anthropic#Commentary
精选理由
H 和 R 都成立,但 K 不成立。这是一篇泛科技评论,不是聚焦 AI 行业的新闻;AI 例子只是佐料,没有新机制、可复现条件或市场影响,所以不值得上雷达。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
21:58
57d ago
TechCrunch AI· rssEN21:58 · 04·16
Luma 成立 AI 制片公司,首个项目是摩西题材电影
AI 视频生成公司 Luma 与宗教家庭影视工作室 Wonder Project 合作,成立了一家叫 Innovative Dreams 的制片公司。首个项目是《The Old Stories: Moses》,由本·金斯利主演,今年春季上 Prime Video。正文没披露具体用了什么 AI 技术、模型名称、定价或上线时间,所以“AI 制片”到底是指全...
#Tools#Luma#Wonder Project#Product update
精选理由
HKR-H 通过是因为 Luma 和信仰媒体的组合确实奇怪。HKR-K 和 HKR-R 不通过:RSS 片段正文为空,只给了标题和合作方,产品形态、模型名称、价格、上线时间全没披露,所以这条信息对全行业价值很低。
一句话点评
Luma 拉上宗教影视公司 Wonder Project 成立了一家 AI 制片厂,首部作品是讲摩西的短片,由本·金斯利主演,今年春天上 Prime Video。说白了就是 Luma 出视频生成技术,对方出导演和剧本,一起接外包制片活。这点先别太激动——它本质是“AI 工具 + 传统制片”的代工服务,不是 Luma 自己拍电影。关键信息缺口:没提制作成本比传统低多少,也没说 AI 到底参与了...
锐评
Luma 这次把合作对象指向 Wonder Project,条件只有标题可核实。我的判断很直接:这条先看内容供给和发行转化,别急着把它抬成“AI 影视生产”新阶段。标题给了两件事,第一是 Luma 在往 production studio 走,第二是题材先切信仰内容。正文没给产品形态、模型名称、上线时间、价格,也没说是面向专业团队、教会媒体,还是面向普通创作者。 我对这种合作的第一反应,不是技术,而是选品。信仰内容有一个老优势:受众定义清楚,社区分发链路稳定,很多项目不靠开放平台冷启动。我一直觉得,生成视频公司要找商业化落点,垂类内容厂牌比“人人都能拍电影”靠谱得多。去年到今年,Runway、Pika、Luma 这批公司都在往工作流、镜头控制、角色一致性、协作工具上靠,原因很简单:单次文生视频已经很难讲高溢价,能不能进入真实制作流程才决定收入质量。Luma 现在如果真做 studio,而不是一次 PR 联名,那它卖的就不是模型新鲜感,而是预设流程、资产管理、审片链路和交付速度。 但我对标题里的“production studio”说法有点怀疑。这个词很大,落地却分很多层。轻一点,它只是一个带模板的创作界面;重一点,它要接脚本分镜、角色库、镜头延续、多人协作、版权归属、输出规范,甚至后期和发行。TechCrunch 这条正文没给任何细节,所以现在没法判断 Luma 是在卖软件,还是在跟 Wonder Project 共建内容工厂。这个差别很大。前者像 SaaS,后者更像服务型工作室,规模化逻辑完全不同。 外部参照其实不少。OpenAI 今年把 Sora 往创作工具链里塞,Adobe 也一直把 Firefly 往企业版权安全和现有工作流上挂,A24、Lionsgate 那类版权库合作又是另一条线。我没看到哪一家只靠“模型更会生成”就拿下稳定影视预算。行业过去一年已经证明,片方最在意的不是 10 秒 demo 漂不漂亮,而是角色能不能连续、修改能不能可控、法务能不能签字、交付能不能复现。Luma 如果这次先从信仰内容切,反而说明他们清楚一件事:先打一个分发和审美边界都更清晰的市场,比直接去碰主流影视工业现实得多。 我还有个保留意见。Faith-focused 这个定位有天然的品牌效率,也有天然的天花板。它能降低获客成本,也会限制题材扩张。Wonder Project 如果手里真的有成熟发行网络,这单合作就有机会跑通“AI 降本 + 社群分发”的小闭环;如果没有,标题里的 faith 只是一层包装,那这条就很容易滑成一次垂类营销。现在只能承认,正文未披露发行渠道、项目数量、合作期限和商业分成,这些恰好都是判断成败最关键的信息。 所以我暂时不给这条很高技术权重。Luma 把 studio 这个词抛出来,只能说明视频模型公司都在从 demo 竞争转向流程竞争。有没有含金量,要看 Wonder Project 后面能不能拿出具体作品、播出渠道和复用案例。没有这些,所谓 AI production studio 还是一句包装词。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
21:56
57d ago
Hacker News 首页· rssEN21:56 · 04·16
老哥用胶带、旧相机和CNC拼了个AI探针臂,自动扒芯片引脚
GainSec 在 GitHub 上开源了 AutoProber,一套用 AI 驱动飞针探针的自动化硬件破解工具。流程是:AI 先自动发现目标区域,显微镜拍照建图,CNC 在安全监控下移动探针,最后扎引脚测信号。仓库目前 221 星、9 个 fork,但正文没披露用了什么模型、硬件成本多少、探针精度多高,也没给复现步骤。想法挺有意思——把 AI 当“眼...
#Agent#Vision#Robotics#GainSec
精选理由
GainSec 在 GitHub 开源了 AutoProber,一个用代理驱动做目标发现、显微镜映射、CNC 运动加引脚探测的硬件黑客手臂。仓库目前 221 星、9 个 fork。正文只有仓库标题和导航信息,没提用了什么模型、硬件花了多少钱、探测精度多少、怎么复现。胶带加旧摄像头加 CNC 这个组合确实有噱头,但信息缺口太大,而且硬件探测这个方向对多数 AI 从业者来说太偏,所以直接排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
21:11
57d ago
X · @dotey(宝玉)· x-apiZH21:11 · 04·16
Codex 现在能像 Cowork 一样干活,而且没沙盒限制
原帖说 Codex 现在能做类似 Cowork 的事,而且不像 Cowork 那样被沙盒限制,能干的事更多、能力更强。但正文只给了一句话加一个链接,没交代具体能做什么、权限边界、模型版本或复现条件。关键问题是执行环境差异——没有沙盒意味着 Codex 能直接访问系统资源,但这也可能带来安全风险。能力到底多强,目前没法验证。
#Agent#Tools#Codex#Cowork
精选理由
硬排除——零信源:正文只有一句转述加一个链接,没有任务清单、权限范围、模型版本或复现条件。HKR-H 和 HKR-R 成立,但 HKR-K 缺失,所以重要性卡在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
20:49
57d ago
● P1Hacker News 首页· rssEN20:49 · 04·16
AI 芯片和算力供应紧张加剧,H100 租赁价格五个月涨近四成
Nvidia Blackwell GPU 的租赁价两个月内从每小时 2.75 美元涨到 4.08 美元,涨了 48%。CoreWeave 也把价格上调了 20%,最低租期从一年拉长到三年。OpenAI 的 CFO 说他们已经在砍项目,因为算力跟不上。Anthropic 最新的模型只给了大约 40 家机构用。作者判断,AI 算力随便用的阶段结束了,接下来...
#Inference-opt#Nvidia#CoreWeave#Anthropic
精选理由
这篇文章用一个涨价 48% 的数字开场,把算力稀缺从概念变成账单,读起来像朋友发来一条消息说“显卡租金涨了,注意一下”。它没有停留在感叹,而是把 Blackwell 租金、CoreWeave 提价和 Anthropic 限流三件事摆在一起,指向一个判断:稀缺已经开始改写前沿模型的获取门槛。正文没给更细的供需数据或各家采购策略,所以我会先打个折,不把它当一手情报,但作为提醒从业者盯紧成本与容量的信号,已经够用了。
一句话点评
H100租赁价五个月涨近四成,每小时2.35美元,现货市场全面售罄。需求增速跑赢供给,短期无解。
锐评
这条消息的核心就一句话:算力市场从买方市场彻底变成了卖方市场。SemiAnalysis的报告显示,一块上市快四年的H100,一年期租赁价从去年10月的每小时1.70美元涨到了今年3月的2.35美元,涨幅近40%。更夸张的是现货市场,AWS上的B200实例被炒到每小时14美元,依然没货。 涨价的原因不复杂,就是需求增长太快,供给完全跟不上。报告里提到,Anthropic的Claude产品线一个季度年化收入从90亿飙到300亿美元,Claude Code这类工具让token消耗量激增。同时,多智能体工作流和AI生图生视频的普及,让算力占用从“用完即走”变成了“长期蹲守”。供给端则因为内存价格暴涨(DDR5同比涨了约5倍),服务器成本飙升,打乱了不少云厂商的部署计划,新产能上线延期。 不过,这篇分析主要基于SemiAnalysis一家机构的报告和调研数据,视频里没有提供其他独立来源的交叉验证。报告里提到的“所有型号售罄”、“价格仍将上涨”的判断,需要结合你实际能接触到的渠道和报价再确认一下。另外,二级市场Neocloud股价低迷与线下市场火爆的背离,也说明金融市场的定价逻辑和产业现实之间存在巨大分歧,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
19:20
57d ago
彭博科技· rssEN19:20 · 04·16
英国AI部长回击OpenAI暂停星际之门项目
英国AI部长对OpenAI暂停星际之门项目表达了反对意见,但Bloomberg原文只返回了403页面,正文完全没披露部长的具体姓名、反驳内容、项目范围以及暂停时间。目前能确认的只有标题这一条事实,其他信息都是缺口。
#OpenAI#Policy#Commentary
精选理由
HKR-H成立,因为标题直接呈现英国AI大臣与OpenAI的公开对立,有冲突感。HKR-K不成立,因为Bloomberg正文被403拦截,项目范围、暂停时间点、大臣姓名和反驳内容均未披露,唯一可核实的信息只有标题这一条。HKR-R成立,因为算力投资和政府与AI实验室的信任关系是当前行业敏感话题,从业者会关注分歧落在投资、算力还是政策层面。综合评分保留在all层级。
一句话点评
英国AI大臣回怼OpenAI暂停星际之门项目,但正文被Bloomberg paywall挡住,没披露具体交锋细节。目前已知信息只有标题:英国官员对OpenAI叫停这个千亿美元级基础设施计划不满。缺双方核心论点、暂停原因、英国是否在争取项目落地。建议等非付费来源补充后再判断。
锐评
英国大臣回击 OpenAI 暂停 Stargate,当前可核实事实只有标题。正文没拿到,项目范围、暂停时间、反驳内容、涉资规模都未披露,所以先别顺着“英美 AI 合作生变”这种大词跑。 我先给判断:这条大概率不是模型研发出了岔子,而是算力投资承诺和落地节奏对不上。Stargate 这个名字在过去一年一直绑定超大规模基础设施叙事。公开口径里,它更多代表数据中心、融资、供电、园区审批、芯片供给这些硬约束,不是某个模型版本延期。英国大臣要“回击”,说明政府已经把它当成政治承诺的一部分。项目一旦暂停,丢脸的先是招商叙事,其次才是 OpenAI 的执行力。 这里有个行业背景,文章里没有。2025 到 2026 这一波 AI 基建,最大瓶颈一直不是 PPT,也不是模型 demo,而是电力接入和 GPU 交付。我记得微软、Meta、Google 过去一年都碰过数据中心延期、租约重谈、区域电网吃紧这些问题,细项我这会儿没法逐条核实。OpenAI 自己也长期受制于算力紧张,这不是新闻。如果英国这边的 Stargate 真被按下暂停键,我第一反应会看三件事:是谁出钱,电从哪来,芯片是谁锁的。标题没给,正文也没给。 我对“部长回击公司”这套叙事有点怀疑。政府通常不会为普通商业调整专门下场,除非前面已经有高调承诺、选址宣传,或者就业数字被拿去做政绩包装。换句话说,双方分歧大概率落在交付责任和时间表,不在理念层。要是 OpenAI 只是正常重排 capex,部长犯不着公开发声;要是英国这边已经把项目写进国家 AI 基建话术,那暂停就会被解读成信誉问题。 所以这条现在最缺的不是态度,是口径。标题给了“回击”和“暂停”,正文未披露暂停多久、暂停哪一段、是园区建设停了,还是合作谈判停了。没有这些,任何把它上升成“英国 AI 政策受挫”或“OpenAI 国际扩张收缩”的判断都太快了。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
19:00
57d ago
彭博科技· rssEN19:00 · 04·16
OpenAI 发了个药物发现模型,直接对标谷歌
OpenAI 在 2026 年 4 月 16 日宣布推出一个用于药物发现的 AI 模型,并明确将其定位为谷歌的竞品。但正文被彭博社的付费墙挡住了,模型叫什么名字、用了什么数据、跑过什么基准测试、怎么收费、什么时候开放,一概没披露。目前能确认的只有这条消息本身——OpenAI 想进制药赛道,而且把谷歌当成了主要对手。
#OpenAI#Google#Bloomberg#Product update
精选理由
HKR-H靠OpenAI vs Google的标题钩子通过。HKR-K不通过,因为Bloomberg正文被拦截,且硬排除规则4适用:这是科学交叉领域,没有声明agent或通用产品含义,所以按39条保持排除。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
18:39
57d ago
Hacker News 首页· rssEN18:39 · 04·16
Google 发布 Android CLI 与 skills 声称提速应用开发三倍
Google 在 4 月 16 日发了一篇博客,说他们搞了一套 Android CLI 和 skills,能让任何 AI 代理(比如 Cursor、Copilot 这类)在开发 Android 应用时提速 3 倍。思路是把常见的开发操作——编译、调试、跑测试——封装成命令行工具,代理直接调就行,不用再自己猜命令。听起来挺实用,但正文没披露 benchm...
#Agent#Tools#Code#Google
精选理由
这条帖子命中了 HKR-H 和 HKR-R:“任意 agent”加“3 倍提速”直接瞄准了编码 agent 工作流的讨论。HKR-K 没命中,因为现有文本没有给出任何基准设置、基线、支持的 agent 或 CLI 范围,所以这只能算一条低信息量的产品更新,面向所有人。
一句话点评
Google 推出 Android CLI 和 skills,号称用任意 AI 代理开发 Android 应用能快 3 倍。核心是把构建、测试等操作封装成命令行工具,让模型直接调用。官方博客发的,但没给具体 benchmark 数据,3 倍这个数字先打个折。关键看实际集成效果和 agent 兼容性,目前缺第三方验证。
锐评
Google 把编译、调试、跑测试这些操作封装成命令行工具,代理直接调,不用再猜命令。思路对,但 3 倍这个数字得打折——正文没披露 benchmark 设置、用了哪些代理、测试了什么任务。如果只是把 Gradle 编译时间算进去,那提速主要来自缓存而非 CLI。另外,它说“任何代理”都行,但没测 Cursor、Copilot 之外的工具,兼容性未知。对 Android 开发者来说,这比让代理自己写 Gradle 命令靠谱,但实际收益取决于你的项目规模和代理的 tool calling 能力。缺的是:对比基线、支持的命令列表、以及是否开源。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
18:30
57d ago
彭博科技· rssEN18:30 · 04·16
英特尔挖来三星高管韩,想拉代工客户
英特尔从三星挖了一位高管韩,目的是帮自己的代工业务拉客户。但正文被彭博的付费墙挡住了,没披露韩的具体职位、入职时间、目标客户是谁,也没说英特尔代工目前缺多少订单、良率如何。消息本身说明英特尔在代工这条路上还在砸钱抢人,但缺细节,暂时没法判断这步棋有多大用。
#Intel#Samsung#Han#Personnel
精选理由
标题只确认了 Intel 挖来三星高管 Han 以争取晶圆代工客户,但正文因 403 无法访问,Han 的职位、入职时间、目标客户和量化指标一概缺失。AI 角度只是间接的供应链人事变动,没有直接冲击 AI 芯片产能或价格,因此重要性低于 40,维持 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
18:28
57d ago
● P1TechCrunch AI· rssEN18:28 · 04·16
Anthropic 产品老大退出 Figma 董事会,因为自家新模型要做设计工具抢生意
Anthropic 的首席产品官 Mike Krieger 在 4 月 14 日辞去了 Figma 的董事席位。同一天,有报道说 Anthropic 的下一个模型 Opus 4.7 会内置设计工具,直接跟 Figma 的核心产品竞争。Figma 现在是一家市值约 100 亿美元的上市公司,之前还一直在产品里集成 Anthropic 的模型。这件事真正的...
#Tools#Anthropic#Figma#Mike Krieger
精选理由
我会先打个折:Anthropic要做设计工具目前还只是媒体报道,产品没发布,功能范围、上线时间和商业模式都没公布,所以先不给最高级。但这条消息值得从业者盯紧,因为Figma市值约100亿美元,一直把Anthropic的模型接进自家产品里,现在对方可能直接下场抢饭碗。Mike Krieger辞任董事、Figma同一天向SEC披露,时间点很巧,不像临时起意。对AI从业者来说,这比单纯的人事变动更有嚼头——它说明模型公司往上走、吃掉应用层蛋糕的速度可能比想的快。
一句话点评
Anthropic 产品老大从 Figma 董事会走人,因为自家新模型要出设计工具,直接跟 Figma 抢饭碗。
锐评
这事说白了就是利益冲突藏不住了。Anthropic 的首席产品官 Mike Krieger 在 Figma 董事会坐了不到一年,4 月 14 号辞职。同一天有报道说 Anthropic 的下一个模型 Opus 4.7 会带设计功能,正好撞上 Figma 的主业。Figma 之前还一直把 Anthropic 的模型集成到自己产品里当助手,现在合作方可能要变成对手。 对投资人来说,这是“SaaS 末日论”的又一个注脚——担心大模型公司最终会吃掉软件公司的生意。文章提到一个软件 ETF 今年跌了将近 18%,市场已经在用脚投票。不过 Anthropic 这边刚拒绝了 8000 亿美元估值的投资,说明资本还是愿意赌。 正文没披露 Opus 4.7 的设计工具具体长什么样、什么时候发,也没说 Figma 内部对这件事的反应。光凭一个董事会席位变动就断定 Anthropic 能干掉 Figma 还太早,但信号已经很明确了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:37
57d ago
● P1Hacker News 首页· rssEN17:37 · 04·16
Qwen3.6-35B-A3B 在本地运行生成的鹈鹕图优于 Claude Opus 4.7
Simon Willison 在他的 MacBook Pro M5 上跑了一个 20.9GB 的 Qwen3.6-35B-A3B 量化版模型,让它和 Anthropic 刚发的 Claude Opus 4.7 比画 SVG 鹈鹕。结果 Qwen 画的自行车骨架是对的,Opus 却把车架画错了,连试两次都没救回来。作者怕大家说模型厂商专门练过他的鹈鹕题,...
#Multimodal#Benchmarking#Qwen#Anthropic
精选理由
Simon Willison 自己做了个主观测试,用 Qwen3.6-35B-A3B 的量化版在笔记本上生成 SVG 鹈鹕图,然后说比 Claude Opus 4.7 画得好。他特意补了一句:这个玩笑基准跟模型整体实力的相关性,这次已经破了。所以别当通用结论看,就是个有趣的单点对比。文章给了具体配置和复现方法,信息够用,但没做系统评测,判断就挂在主观偏好上。
一句话点评
一个 21GB 的本地模型画鹈鹕骑自行车,把 Anthropic 最新的旗舰模型比下去了。这测试本来是玩笑,但结果确实有点离谱。
锐评
Simon Willison 那个著名的“鹈鹕骑自行车”基准测试又出结果了。这次,阿里 Qwen3.6-35B-A3B 的一个 20.9GB 量化版,在他自己的 MacBook Pro M5 上本地运行,生成的 SVG 图在自行车架形状、鹈鹕神态等细节上,明显优于 Anthropic 刚发布的 Claude Opus 4.7。Opus 4.7 两次尝试都把自行车架画错了,即便开了最高思考档也没救回来。 作者自己也承认,这个测试一直是个玩笑,主要用来讽刺模型对比的荒谬。但诡异的是,过去画得好的模型,综合能力往往也更强。这次这个“相关性”被打破了——一个 21GB 的本地量化模型,在画鹈鹕这件事上赢了顶级闭源模型,但这绝不代表 Qwen 3.6 的综合能力超过了 Opus 4.7。为了排除厂商专门针对“鹈鹕”做训练的可能,作者还烧了一个备用题“火烈鸟骑独轮车”,结果 Qwen 3.6 依然胜出,甚至给火烈鸟加上了墨镜、领结和香烟,细节和趣味性都更足。 这条新闻的价值在于,它用极端案例提醒我们:单一任务上的胜负,完全不能代表模型的整体实力。目前的信息完全来自 Simon Willison 的个人博客和社交媒体,属于个人体验而非系统性评测。我们缺少对这两个模型在推理、编程、长文本理解等严肃任务上的对比数据,所以别看了鹈鹕就急着下结论。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K0·R0
17:30
57d ago
r/LocalLLaMA· rssEN17:30 · 04·16
有人在 Open WebUI 里塞了个富 UI 组件,跑 GPT-5.4 mini 很快
Reddit 用户 Mr_BETADINE 把 OpenUI 集成进了 Open WebUI,接上 GPT-5.4 mini 后反应很快。但他也试了 Qwen3:30B 和 Gemma 4,在自己那台 24GB M4 笔记本上跑得很慢。正文没披露集成步骤、延迟数据或代码,所以想复现得自己摸索。
#Tools#Code#Open WebUI#OpenUI
精选理由
HKR-H 通过,因为帖子确实演示了一个具体的 Open WebUI UI 小技巧。HKR-K 和 HKR-R 不通过:没有仓库、没有集成方法、没有延迟数据,而且影响面仅限于本地 UI 爱好者,所以留在 all 层。
一句话点评
有人在 Open WebUI 里接入了 OpenUI,给本地模型加上了富 UI 组件(比如按钮、卡片)。用 GPT-5.4-mini 时响应很快,但换成 Qwen3:30b 或 Gemma4 在自己 24GB M4 笔记本上跑就明显慢了。目前只是个人实验,没有开源代码或详细教程,想复现有门槛。
锐评
这帖只证明了 1 件事:个人开发者把 OpenUI 接进 Open WebUI 跑通了,而且在 GPT-5.4 mini 上主观体验“很快”。我对它的判断偏积极,但不是因为演示图好看,而是因为这类拼装开始跨过“能不能做”,进入“默认该有”的阶段。聊天框只吐 Markdown 的那套交互,已经跟不上 agent 调工具、回表单、出卡片、走多步流程的产品需求了。 先把信息缺口说清。正文没给集成步骤,没给仓库链接,没给 token 延迟、首字延迟、组件渲染时间,也没说 OpenUI 在这里是模型生成 UI schema,还是前端只吃固定组件协议。没有这些,任何“很快且响应灵敏”的结论都只能算体验描述,不算可复现结果。我自己对这类帖子一向会先打个折,因为 Reddit 上很多 demo 一旦碰到真实网络、真实工具调用、真实长上下文,速度会直接掉一档。 但我还是觉得这条有信号。原因很简单,Open WebUI 这类开源聊天壳子的价值,原来主要是“把不同模型和本地推理串起来”;现在它们开始碰更难的一层:把模型输出变成可操作界面。这个方向过去一年其实已经反复出现了。OpenAI 去年开始把 structured outputs、tool calling 和更稳定的 schema 约束往开发栈里压,Anthropic 那边也一直在推 tool use 和 computer use。大家嘴上讲 agent,落到产品上,最后都得回答同一个问题:用户看到的是一段文本,还是一个能点、能填、能确认的界面。这个 Reddit demo 至少说明,开源社区已经不想等官方产品定义这件事了。 我有个 pushback。作者拿 GPT-5.4 mini 跑得顺,拿 Qwen3:30B 和 Gemma 4 在 24GB M4 上跑得慢,这个对比其实没多少说服力。24GB 统一内存的 M4 笔记本,本来就不是 30B 级模型生成富 UI 的舒服环境,尤其你还要让模型输出结构化结果,再交给前端渲染。慢不是新闻,能快反而才奇怪。更关键的是,慢在哪里正文没说:是 token 生成慢,schema 校验重试多,还是前端组件树太复杂?瓶颈不拆开,大家学不到真正有用的东西。 我还想补一个行业里的上下文。去年很多团队做“LLM 生成 UI”时,最后都退回半结构化路线:不是让模型自由写 React,而是让模型在几十个受控组件里选,外加 JSON schema 校验。原因很现实,稳定性比炫技重要。OpenUI 如果这次也是走这条路,我会觉得方向对;如果还是让模型高自由度拼页面,我没那么买账,demo 能跑和产品可维护是两回事。正文没披露这块,我没法替它下结论。 所以,这条在我眼里不是“Open WebUI 新增了一个酷功能”,而是开源应用层开始补交互债。模型能力上去以后,前端协议、组件约束、状态同步这些脏活会重新变贵。谁先把这层做稳,谁就更像产品,不只是模型切换器。眼下这帖证据还很薄,只够说明可行性;离“可复制”“可部署”“可维护”,还差延迟数据、代码和失败案例。没有这三样,我不会把它当成成熟方案。
HKR 分解
hook knowledge resonance
打开信源
59
SCORE
H1·K0·R0
17:30
57d ago
FT · 科技· rssEN17:30 · 04·16
英国部长喊话:本土企业该对Anthropic新模型感到担忧
一位英国部长公开表示,英国企业应该对Anthropic的最新AI模型感到担忧。但正文被付费墙挡住,没披露模型名称、具体指标、发布时间,也没说做了哪些测试、涉及哪些行业、政策依据是什么。目前能看到的只有英国企业、Anthropic和一位匿名部长这三方。信息缺口很大,没法判断这个警告到底有多严重。
#Anthropic#Commentary#Policy
精选理由
标题本身有冲突感,部长警告英国企业提防Anthropic新模型,H和R都能成立。但正文只有订阅页,没给出模型名称、能力指标、测试依据或具体使用场景,K完全落空。按硬性排除零来源规则,分数上限卡在40以下,最终35合理。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
17:27
57d ago
r/LocalLLaMA· rssEN17:27 · 04·16
有人在 4090 和 GB10 Spark 上跑通了 Qwen3.6-35B-A3B 的全长上下文
Reddit 用户发帖说用 vLLM 和 llama.cpp 在 RTX 4090 和 GB10 Spark 上跑通了 Qwen3.6-35B-A3B 的全长上下文。但正文被 Reddit 屏蔽了,看不到具体用了多长的上下文、显存占用、吞吐量或者量化方式。对从业者来说,有价值的信息只有模型名、两块硬件和两个推理框架,实测数据一概没有。
#Inference-opt#Tools#Qwen#vLLM
精选理由
HKR-H 成立,因为“4090 上跑满上下文”是本地推理的强钩子,且对比 vLLM 和 Llama.cpp 两个框架有实操价值。HKR-R 成立,因为 4090 是社区基准卡,GB10 Spark 是新硬件,能跑满上下文直接关联自部署成本。HKR-K 不成立:正文被 Reddit 拦截,上下文长度、显存占用、吞吐、量化配置均未披露,信息不足以验证结论。
一句话点评
Qwen3.6-35B-A3B 这个混合专家模型(MoE)在 4090 和 GB10 Spark 上跑满上下文,实测 vLLM 和 Llama.cpp 都能用。但原文被 Reddit 屏蔽,实际跑分、显存占用、速度数据全没披露。如果真能在 24GB 显存下跑 128K 上下文,对本地部署玩家是个好消息;但没数据前先别太激动。
锐评
标题只确认了一个事实:发帖者用 vLLM 和 llama.cpp,在 RTX 4090 与 GB10 Spark 上跑 Qwen3.6-35B-A3B,并宣称打满上下文。问题也卡在这里。正文拿不到,403 直接把最关键的复现条件全挡住了:到底是 32K、128K 还是更长;是 BF16、FP8、4bit 还是混合 KV cache;prefill 和 decode 吞吐多少;显存占用有没有靠 CPU offload、分页注意力或分层缓存顶上去,标题都没披露。 我对这类“单卡打满上下文”的帖子一直比较谨慎。35B-A3B 这种名字听着像 MoE,小激活参数量通常比总参数量友好,但上下文能不能“打满”很多时候根本不是模型卡,而是 KV cache、框架实现和量化策略卡。vLLM 靠 paged attention 吃长上下文本来就比很多原生实现稳,llama.cpp 这两年在低比特和 CPU/GPU 混合卸载上也确实很能打;可同一模型、同一张 4090,4-bit KV 和 FP16 KV,能跑的长度与速度经常不是一个量级。我自己没看到原帖数据前,不会把这条当成“4090 已经足够覆盖这代 35B 长上下文”的证据。 还有个我不太买账的点:把 4090 和 GB10 Spark 并列,本身就容易把硬件差异讲平了。消费卡看的是显存上限、带宽、驱动和社区栈;GB10 这类小型 Grace Blackwell 设备如果真是那个方向,强项更像是统一内存和长上下文容错,不是单纯比 token/s。我没查到这帖具体配置,所以没法判断作者是在比“能不能跑起来”,还是在比“哪套栈更实用”。这两个结论差很远。 我愿意给这条保留兴趣,因为它至少踩中了本地推理现在最实际的一条线:不是谁又发了一个新 benchmark,而是谁能把 Qwen 这类新模型在常见硬件上跑到可用长度。可在数字出来前,这条信息量只到“有人试了”。没有 context window、VRAM、tokens/s、量化方案,这还停留在论坛传闻,不是工程结论。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
17:18
57d ago
● P1X · @OpenAI· x-apiEN17:18 · 04·16
OpenAI 发布 Codex 升级版本 支持跨工具任务执行
OpenAI 发推说 Codex 现在能干的事更多了:能直接操作你 Mac 上的应用,对接更多工具,还能生成图片、从你之前的操作里学东西、记住你的工作习惯,以及接手那些需要反复做的任务。不过正文没披露具体支持哪些应用、怎么集成、定价和什么时候推,这些关键信息都还缺着,先别太激动。
#Agent#Tools#Memory#OpenAI
精选理由
OpenAI 这次把 Codex 从代码助手往桌面代理推了一步,能操作 Mac 应用、接更多工具、学你的操作习惯并记住偏好,听着像给电脑配了个能干活的小助手。但正文没披露支持哪些应用、怎么接入、收不收费、什么时候上线,这些关键信息全空着,所以先别太激动。我会打个折,因为记忆和跨工具执行能不能稳定跑起来才是真章,现在更像能力预告而不是可用的产品。
一句话点评
Codex 这次更新把战场从写代码拉到了操作电脑,能自己点、自己打字、自己排任务,但别急着把它当全能员工。
锐评
OpenAI 给 Codex 做了一次定位升级:它不再只是帮你写代码的工具,而是能直接操作你电脑上其他软件的助手。具体来说,Codex 现在可以自己在后台移动光标、点击、输入,多个任务并行跑而不干扰你当前的工作。它还内置了浏览器,你可以在页面上直接圈点批注,让 agent 照着改前端或游戏画面。另外新增了图像生成能力,能在同一个工作流里出产品概念图或 mockup。 官方说每周有超过 300 万开发者用 Codex,这次一口气加了 90 多个插件,覆盖 JIRA、CircleCI、GitLab Issues、Slack、Gmail 等,试图把开发之外的沟通、项目管理也拉进来。还有一个值得关注的点是“记忆”预览版,Codex 能记住你的偏好和之前花时间收集的上下文,下次做类似任务会更快。自动化功能也加强了,可以自己定时醒来处理跨天甚至跨周的任务。 不过,正文没披露这些新能力在真实复杂项目里的成功率或错误率。电脑操作目前只支持 macOS,欧盟和英国用户还要等。记忆和上下文感知建议也还没推给企业版和教育版用户。实际用起来到底省多少心,还得看它能不能稳定理解你的意图,而不是制造更多需要你擦屁股的意外操作。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
17:05
57d ago
FT · 科技· rssEN17:05 · 04·16
Mythos网络事件引发AI稀缺性经济学讨论
FT 一篇标题暗示“Mythos”网络恐慌是 AI 稀缺经济的证据,但正文被 paywall 挡住(返回 403),无法核实具体事件、影响范围或论证逻辑。标题本身值得留意:如果恐慌真与 AI 算力或数据稀缺有关,可能指向资源争夺加剧。但这点先别太激动——正文没披露攻击目标、损失规模或“稀缺”的具体含义,信息缺口很大。
#Commentary#Incident
精选理由
全文只有标题可核实,FT正文返回403,事件时间、受影响对象、损失规模与作者论证链条均未披露。标题判断不能当成已证实事实,信息缺口太大,重要性低于40分,只能保留H(钩子)通过。
一句话点评
FT一篇付费文章标题说Mythos网络事件暴露了AI稀缺性经济学,但正文被墙,实际内容不可读。Bloomberg也报道了这事,称引发全球金融精英恐慌。目前缺事件具体细节:是攻击导致算力挤兑,还是模型本身稀缺?标题有洞察力,但信息不足,先别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
17:01
57d ago
r/LocalLLaMA· rssEN17:01 · 04·16
Qwen 3.6 对比 3.5:35B MoE 模型在“论文转网页应用”任务上的快速对比
Reddit 用户 dreamai87 在 llama.cpp 上对比了 Qwen 3.6 和 3.5 的 35B MoE 模型,关闭了推理功能,使用相同的 unsloth Q4_K_XL GGUF 量化,上下文窗口开到 9 万 token。他贴出了推理参数(batch 4096、top-k 20、温度 0.6),但实际输出只有截图,没有可复现的质量分...
#Code#Benchmarking#Qwen#llama.cpp
精选理由
这是一个社区用户自己做的同设置对比,复现条件给得够细,所以 K 通过。但实际输出只放在图片里,正文没披露代码质量、耗时或评分表,H 和 R 都弱;整体信息量低,适合 all 但不值得上 featured。
一句话点评
Qwen 3.6 35B MoE 在把论文转成网页应用的任务上,比 3.5 版表现更好,但这是 Reddit 用户单次非正式测试,没给具体指标。正文没披露用了什么论文、生成代码能否直接跑,也没对比推理速度或显存占用。结论得打折,等更多评测。
锐评
发帖者在 90000 上下文下比较了 Qwen 3.6 35B MoE 和 Qwen 3.5 35B MoE,却没有公布代码通过率、生成耗时或人工评分。这已经决定了这条的价值边界:它更像一次复现实验的起点,不是结论。 我对这种 LocalLLaMA 帖子的态度一直很明确。参数透明,比结论更重要。这里至少把几件关键事说清了:同用 unsloth Q4_K_XL GGUF,同在 llama.cpp,同样关掉 reasoning,batch 4096、top-k 20、temp 0.6、top-p 0.95、keep 1024、-np 1。这比很多“我感觉新模型更聪明”的帖强不少。但别高估它。研究论文转 WebApp 这种任务,本来就对前端模板偏好、长文抽取策略、代码风格约束很敏感;你只放两张结果图,不放仓库 diff,不放可运行 demo,不放 wall-clock latency,这种比较没法沉淀成社区共识。 我还想补一层文章外的上下文。Qwen 这一路在开源圈的口碑,过去一年基本靠两件事撑着:一是中文和代码混合任务普遍稳,二是在量化后还能保住一部分实用性。这个优势放到 35B MoE 尤其明显,因为很多本地玩家根本跑不起更大的 dense 模型。问题也一直没变:一旦进入 GGUF、再叠加长上下文、再换到 llama.cpp,不同版本之间的差距常常先被推理栈吃掉一截。我没看到这帖披露 tokens/s,也没看到显存占用、首 token 延迟、长上下文是否触发质量衰减。标题在比模型,正文其实更像在比“模型 × 量化 × 推理后端 × 提示词技能包”的组合体。 这里我有个明确的 pushback。发帖者说“using same skills created using qwen3.5 35B before”。这句话听着公平,实际未必公平。你拿 Qwen 3.5 时期调出来的 skill 或 prompt scaffold,去测 Qwen 3.6,结果经常会偏保守。模型一升级,system prompt 遵循性、tool-use 倾向、HTML/CSS 冗余度、代码解释密度都可能变。用旧脚手架测新模型,适合做回归测试,不适合下“3.6 就比 3.5 强/弱”的总判断。这个坑,做 agent eval 的人都踩过。 还有一点我不太买账:帖子把 reasoning off 当成控制变量,但正文没解释 Qwen 3.6 关闭思考后的默认行为,是否和 3.5 一致。很多模型版本的“关思考”并不是同一个开关语义。有的是不输出思维链,有的是直接改了内部采样路径,有的是 chat template 在前处理阶段做裁剪。这里虽然给了 `--chat-template-kwargs {"enable_thinking": false}` 和 `--reasoning off`,可两者叠加后到底怎么作用,正文没披露。只要模板层和 runtime 层有一层没对齐,比较就会失真。 如果你真想从这帖里拿到可用信息,我寻思至少还差四个数字。第一,固定同一论文输入后的 pass/fail 标准,比如页面是否可运行、是否有 JS 报错、是否完成指定组件。第二,首 token 延迟和总生成时长。第三,重复 3 到 5 次后的稳定性,别拿单次采样当能力。第四,把原始输出贴成文本,不要只放图。没有这些,结论最多是“某次采样里,Qwen 3.6 看起来不同”。 说实话,这条也提醒了一个更大的现实:开源模型社区现在最缺的不是新模型,而是像 SWE-bench、WebDev Arena 那样稍微规范一点的民间评测框架。阿里每次发 Qwen 新版,社区都会立刻进场比手感;但手感一旦经过量化、不同后端、不同模板,噪声非常大。你今天看的是 3.6 对 3.5,明天就会变成某个 GGUF 制作者、某个 sampler 参数、某个 context setting 在主导结果。标题给的是模型对比,正文暴露出来的,其实是开源本地推理评测还没走出截图时代。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K1·R0
16:41
57d ago
● P1X · @dotey(宝玉)· x-apiZH16:41 · 04·16
xAI 开始出租闲置 GPU,第一个客户是估值 500 亿美元的编程工具 Cursor
xAI 把数万块 GPU 租给 Cursor 训练编程模型 Composer 2.5,自己从模型公司变成了半个云服务商。总裁在内部备忘录里承认,公司 20 万块 GPU 的模型算力利用率只有 11%,远低于行业 35% 到 45% 的水平,大部分算力在空转,出租是为了回血。两家关系有点微妙:xAI 刚挖走 Cursor 两位产品工程负责人,转头又卖算力...
#Code#Inference-opt#Tools#xAI
精选理由
这条消息的看点不是又一家公司买卡,而是 xAI 开始把闲置算力变现。正文给出的 11% 利用率远低于行业常见的 35%–45%,说明内部训练任务根本吃不满 20 万块 GPU,出租是止损也是探路。Cursor 作为第一个客户,拿这些卡去训 Composer 2.5,同时自己还在谈 500 亿美元估值,等于用外部算力撑估值故事。我会先打个折:正文没披露租约价格、时长和具体 GPU 型号,所以省钱程度还不好判断。但这件事本身比单纯堆卡更值得盯,因为它可能把算力过剩问题直接摆上台面,也逼其他大厂重新算自己 GPU 集群的账。
一句话点评
xAI 开始出租 GPU 了,第一个客户是 Cursor。正文没披露租了多少卡、什么价格,先当个信号看。
锐评
马斯克的 xAI 在卖算力,这件事比它又训了什么模型更值得留意。第一个公开客户是 Cursor,一个估值 500 亿美元的 AI 编程工具,说明 xAI 的 GPU 集群至少能满足一线 AI 应用公司的推理或训练需求。但正文只给了标题,没写具体规模、合同金额、租用的是孟菲斯集群还是其他地方,也没说这是长期战略还是短期填闲置。xAI 之前建超算的声势很大,如果现在靠出租回血,可能意味着自研模型对算力的消耗没预期那么高,或者融资节奏需要现金流故事。反过来,如果只是顺手把闲置算力变现,那对行业供给是好事。缺的信息太多,先别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
16:27
57d ago
X · @dotey(宝玉)· x-apiZH16:27 · 04·16
把深度调研拆成两步:先搜遍全网存成本地文件,再让AI只读本地文件写报告
这个思路把传统 deep research agent 拆成两个阶段:第一阶段只管上网搜,把搜到的内容存成 .md、.json、.csv 等本地文件;第二阶段让 AI 只读这些本地文件,不再联网。好处是:本地文件不会变(确定性)、读取只要几毫秒(快)、交叉核对时资料版本一致、不用浪费 token 解析网页里的广告和导航栏(省成本)。原文没有披露实测速度...
#Agent#RAG#Tools#Commentary
精选理由
这是一个合理的 workflow 思路,把探索(搜索)和利用(生成)解耦,长周期任务把 grounding 前置成一次性采集,后续迭代转向确定性本地语料。但正文零数据、零实测、零命名案例,触发硬排除规则。H/K/R 三项均未命中,价值停留在一般建议层面,不值得收录。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
16:27
57d ago
FT · 科技· rssEN16:27 · 04·16
AI 的形象很糟糕
FT 发了一篇评论,标题说 AI 有严重的形象问题。但正文被付费墙挡住了,看不到具体案例、数据或批评对象。目前能确认的只有文章发在 FT 科技版,以及标题本身——AI 在公众眼里口碑不好。至于谁在批评、证据链是什么,正文没披露。
#Commentary
精选理由
FT这篇评论标题有话题性,但正文完全不可见,属于零信源内容,触发硬排除规则。没有数据、案例或具体批评对象,重要性评分上不去。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
16:15
57d ago
TechCrunch AI· rssEN16:15 · 04·16
InsightFinder 获 1500 万美元融资,帮企业排查 AI 代理哪里出错了
InsightFinder 拿到 1500 万美元融资,想帮公司搞清楚 AI 代理在实际运行中到底在哪一步翻车。CEO Helen Gu 说,现在最大的问题不只是监控模型本身,而是整个技术栈因为 AI 的加入变得更复杂,需要诊断整个系统的运行状况。不过正文没披露投资方、产品具体怎么工作、以及有没有客户案例,所以这 1500 万目前只是一个信号——市场对...
#Agent#InsightFinder#Funding
精选理由
这是一条小额融资快讯:正文只确认了 1500 万美元融资和‘分析 agent 失败原因’这个卖点。HKR-R 通过,因为 agent 可靠性是真实痛点;但 HKR-K 不通过,因为投资方、技术方案、客户案例全缺,所以只能留在 all 层级。
一句话点评
InsightFinder 拿了 1500 万美元,帮企业找 AI agent 出错的原因。说白了就是给 AI 系统装个监控,看模型和整个技术栈哪里掉链子。CEO 说行业最大问题不是监控,是诊断——这点先别太激动,正文没披露具体客户或准确率,融资轮次和估值也没提。
锐评
InsightFinder 宣布融资 1500 万美元,正文却没有披露投资方、产品机制、客户数量或接入层级,这让判断难度一下子高了很多。只看标题,我的直觉是:资本已经默认“agent debug”会变成独立预算项,哪怕今天很多产品还只是 observability、eval 和 tracing 的重新打包。 我一直觉得这条赛道会长出来,因为 agent 失败不是单点错误。它常常混着模型路由、工具调用、权限边界、检索质量、状态管理和人类回退流程。2025 年一批团队已经在卖这件事:LangSmith、Weights & Biases Weave、Arize Phoenix、Braintrust、Helicone,各自切 tracing、eval 或 production monitoring。InsightFinder 如果现在还能拿到 1500 万美元,说明投资人相信企业端还没被满足,尤其是跨模型、跨工具、跨工作流的故障定位。 但我对叙事有保留。标题写的是“找出 agents 哪里出错”,这句话听着顺,做起来很容易滑成 dashboard 生意。企业真会付费的,不是看到 trace 漂亮,而是系统能把一次失败拆到可执行层:是 Claude Sonnet 4.5 的工具选择错了,还是 retrieval top-k 配置错了,还是 CRM API 限流,还是审批环节把上下文截断了。正文没给任何复现条件,也没说它是离线分析、在线拦截,还是带 remediation loop。我还没查到这些,所以没法买账它已经有清晰护城河。 还有个现实问题:大模型平台自己也在往内建可观测性走。OpenAI、Anthropic、微软 Azure AI Foundry、Datadog 这类基础设施层都在补 tracing、eval、guardrail 和 cost attribution。独立创业公司要活下来,通常得比平台更深一层,碰到业务语义和执行修复,而不只是采样日志。InsightFinder 若只停在“告诉你坏了”,天花板不会太高;若能把失败归因直接连到自动回滚、路由切换、工具重试,那 1500 万美元才像是起点。现在标题给了融资额,正文没有给答案。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K0·R1
15:54
57d ago
Product Hunt · AI· rssEN15:54 · 04·16
Perplexity 要出 PC 了:本地文件、原生应用、语音控制、常开待命
Perplexity 在 Product Hunt 上架了一款叫“Perplexity Personal Computer”的产品,主打四个功能:能读本地文件、有原生桌面应用、支持语音控制、可以一直开着随时响应。听起来像要把 AI 搜索做成一个常驻桌面的助手,而不是网页版用完就走。不过目前正文被 Cloudflare 挡住了,没披露支持什么系统、卖多少...
#Tools#Audio#Perplexity#Product Hunt
精选理由
HKR-H 靠的是'Perplexity Personal Computer'这个标题钩子,不是普通更新。HKR-R 踩中了桌面Agent的敏感点:本地文件、原生应用、语音控制。HKR-K 扣分是因为正文只给了4个卖点,平台、价格、模型、权限范围、发布时间全没披露,所以只能放在低层级,面向所有人。
一句话点评
Perplexity 在 Product Hunt 上架了一款叫“Personal Computer”的产品,但正文被 Cloudflare 拦截,实际内容为零。从名字看可能是本地化 AI 助手或桌面端工具,但没任何细节可确认。目前只能当个标题党看,等官方正式发布再评。
锐评
Perplexity 这次放出的是“Personal Computer”定位,不是可评估的产品细节。标题和摘要只确认了 4 个卖点:本地文件、原生应用、语音控制、常驻运行。平台、定价、模型版本、权限边界、上线时间,正文都没披露。信息到这个密度,我没法把它当一次正式产品发布,更像一次先把心智标签钉住的预热。 我对这条的判断很直接:Perplexity 在试图从“答案引擎”往“桌面 agent”挪,但现在拿出来的还是营销层语言,不是系统层语言。做桌面助手,难点从来不是把语音、文件、应用三个词摆在一起。难点是权限模型怎么设计,常驻进程怎么控资源,跨应用操作怎样做确认,失败时怎么回滚。标题里最刺眼的其实是“always on”。这个词一出来,问题马上就变成两类:一是 OS 级常驻权限,二是用户对隐私与误触发的容忍度。可惜正文一个都没答。 这里有个文章外的对比很重要。去年到今年,OpenAI 的 ChatGPT 桌面端、Anthropic 的 Computer Use、微软把 Copilot 往 Windows 壳层里塞、还有 Rewind/Limitless 这一类“常听常记”产品,都已经把这条赛道的门槛抬高了。行业共识已经不是“能不能调用本地文件”,而是“能不能在权限最小化的前提下稳定完成多步任务”。Anthropic 当时把 Computer Use 做成显式观察-点击-确认链路,很笨,但安全边界清楚。微软靠系统分发占入口。Perplexity 的优势原本在检索和回答速度,不在 OS 控制面。如果它现在想补这一层,我第一反应不是兴奋,是怀疑它到底拿到了多深的系统能力。 我还会多问一句:这到底是原生桌面 agent,还是套了系统壳的搜索产品?标题写了 native apps,但没说是读取 app 内容、调用 app action,还是只支持打开 app。三者差别很大。前者接近操作系统代理,需要辅助功能权限、自动化接口、沙箱例外和稳定的错误处理;后者只是 launcher,演示很好看,留存未必高。语音控制也是同理。是 push-to-talk,还是 wake word,还是后台持续监听?如果是持续监听,音频处理在本地还是云端?保留多久?这几个点不披露,我对“常驻运行”的产品可信度就要打折。 说真的,Product Hunt 这个投放位置也说明了一些东西。真有完整桌面产品,通常会先给 waitlist、系统要求、价格页、权限说明、演示视频,至少让早期用户知道自己装的是什么。这里连支持 macOS 还是 Windows 都没有。那我更愿意把它理解成一次叙事卡位:Perplexity 不想让市场把“个人电脑 agent”这层心智完全让给 ChatGPT、微软或苹果,所以先占名词,再补产品。 我不觉得这动作没价值。恰恰相反,Perplexity 现在最需要的是新入口,因为单纯搜索问答越来越难防守。Google AI Overviews、ChatGPT 搜索、浏览器内建 AI,都在吞它最核心的使用场景。往桌面走是合理的,甚至是被逼出来的。问题在于,桌面助手比搜索难很多,用户也更苛刻。搜索答错一次,用户关网页;桌面 agent 点错一次,用户直接卸载。 所以这条我先不给产品分,只给战略分。战略方向成立,披露质量偏低。标题已经给出“Perplexity 想进电脑桌面”,正文没给出“它到底能做到哪一步”。如果后续页面补出权限模型、支持平台、订阅价格、默认模型、任务确认机制,我会重新评估。现在这更像一张路标,不像一台已经能跑的机器。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
15:19
57d ago
Hacker News 首页· rssEN15:19 · 04·16
Kampala:一个把 App 流量抓出来转成 API 的中间人代理
Kampala 是一个 MITM(中间人)代理工具,能拦截 Web、移动端和桌面 App 的 HTTP/S 流量,自动追踪认证链(比如 token、cookie 的流转),然后把这些请求流程导出成可重复执行的自动化脚本。它还会保留 HTTP/TLS 指纹,让抓到的流量看起来跟原始请求一模一样,不容易被后端识别为机器人。目前只支持 macOS,Windo...
#Tools#Agent#Zatanna#Y Combinator
精选理由
H 和 K 成立,因为钩子清晰(把封闭应用变 API),且正文给出了具体能力(认证链追踪、回放导出、TLS 指纹保持)。R 偏弱:这是一个小众的逆向工程工具,没有定价、基准或采用数据,所以归入 all 层级。
一句话点评
Kampala 是一个 MITM 代理工具,能实时抓取网页、移动和桌面应用的 HTTP/S 请求,并自动追踪认证链,把抓到的流程导出成可复用的 API。对 AI 从业者来说,相当于给“外挂资料库”或 agent workflow 提供了一条逆向工程管道——不用等官方 API,直接扒现有应用的行为。目前只支持 Mac,Windows 在等名单。正文没披露定价和并发性能,小团队验证场景够用,大规...
锐评
Zatanna 这次发布 Kampala,并宣称它可在 macOS 上拦截网站、移动端、桌面应用的全部 HTTP/S 请求。我的判断是:这不是“逆向神器”横空出世,而是把老牌抓包链路往 agent 基建上收口了一步。 文章给出的硬信息其实不多。已披露能力只有 4 个:全量 HTTP/S 拦截、认证链追踪、流程回放与导出、HTTP/TLS 指纹保持;可下载平台只有 macOS,Windows 还在候补。正文没讲浏览器外应用如何装根证书,没讲 pinning 绕过,没讲 replay 成功率,也没讲导出目标是 Playwright、Python 还是自家 DSL。少了这些,离“稳定自动化”还差一大截。 说真的,这条我会拿 Burp Suite、Charles、mitmproxy、Proxyman 那条线来读。抓包、重放、会话跟踪都不是新发明,移动端和桌面端流量分析也有成熟工具。Kampala 想切开的,不是安全研究市场,而是“把遗留工作流变成 agent 可调用 API”这层包装。这个方向过去一年很热,很多 browser agent、RPA、computer-use 产品都卡在权限、验证码、反机器人、会话失效这几个点上,所以他们开始往网络层下钻。Kampala 如果真能把 auth chain 自动识别,再把 TLS/HTTP 指纹保持住,确实比单纯录 UI 动作更稳。 但我对“behaves identically”这句有点怀疑。HTTP/TLS 指纹只是反自动化的一层,真实系统还会看设备绑定、时序、IP 信誉、WebView 差异、证书钉扎和服务端风控。文章没给任何可复现条件,也没给成功率 benchmark。我自己也没跑过,所以这块只能先打问号。还有一个现实问题:MITM 一旦碰到越来越普遍的 certificate pinning,产品体验会立刻从“下载即用”掉到“需要懂系统层修改”。正文没解释它怎么处理。 我更愿意把 Kampala 看成 agent stack 里的“网络适配器”,不是万能逆向层。要是它后面补出导出格式、回放稳定性数据、pinning 处理方案,这产品会比 Launch HN 文案硬很多;现在这版更像把熟悉的代理能力重新包装给 automation 团队。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
15:13
58d ago
● P1Hacker News 首页· rssEN15:13 · 04·16
他们签了三年租约,把旧金山一家实体店完全交给 AI 去赚钱
Andon Labs 在旧金山 Cow Hollow 租下一间店面,签了三年租约,交给一个叫 Luna 的 AI 全权经营,目标就是盈利。Luna 没有实体,所以它自己招人:5 分钟内就在 LinkedIn、Indeed 和 Craigslist 上发了招聘帖,最后雇了两名全职店员,还通过 Yelp 找了油漆工和装修师傅。店里的选品、定价、营业时间、品...
#Agent#Tools#Andon Labs#Anthropic
精选理由
HKR 三项都站得住:真租约、真门店,故事性强;招聘和工具细节有,但财务数据缺失,信息有缺口;AI 管人这个点直接戳到行业神经。不过这是公司自己发的帖子,盈利没公布,先别太激动,放 featured 比 P1 更合适。
一句话点评
一个AI签了三年租约在旧金山开店,自己招人、选品、定价,还画了个月亮脸当Logo。它面试时没主动说自己是AI,这点挺让人不舒服的。
锐评
Andon Labs 给一个叫 Luna 的 AI 签了三年实体店租约,让它自负盈亏。Luna 没有身体,所以它自己上招聘网站筛简历、打电话面试,最后雇了两个全职店员来理货、防损。它还给店里定了商品、价格、营业时间,甚至生成了一组月亮脸 Logo 印在周边上。整个过程里,Luna 在面试时并不总是主动说自己是 AI,有人问才承认,团队自己也觉得这有点反乌托邦。 这件事最值得看的是“AI 当老板”这个设定。Luna 筛人时直接拒掉了没有零售经验的学生,哪怕他们对实验感兴趣;面试通话只有 5 到 15 分钟,它自己话多且不简洁,但当场就给一半人发了 offer。这说明模型在做雇佣决策时已经有很强的偏好和执行力,但正文没披露它依据什么标准判断“谁适合当门面”,也没说有没有人类在后台审核它的录用决定。 另外,团队明确说目前店员的法律雇主仍是 Andon Labs,工资和保障都由人类兜底,所以这不是真的让 AI 承担雇主责任。盈利情况、客流量、Luna 的定价逻辑和供应链管理细节也都没给。如果这些数据不公开,就很难判断它到底是会做生意的 AI,还是只是在一个受控实验里花钱。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
15:12
58d ago
r/LocalLLaMA· rssEN15:12 · 04·16
ResBM:一种新Transformer变体,号称把分布式训练通信量压缩128倍
Macrocosmos 发了一篇论文叫 ResBM(Residual Bottleneck Models),核心思路是在流水线并行(pipeline parallel)的每个阶段边界加一个残差编码-解码瓶颈,把要传的激活值压缩128倍,同时声称收敛速度和显存占用跟没压缩差不多。如果真能落地,对低带宽分布式训练(比如跨机房甚至跨互联网)挺省钱。不过正文没...
#Macrocosmos#LocalLLaMA#Research release
精选理由
硬排除-技术可及性:低带宽流水线并行训练是深度基础设施细分领域,帖子未披露模型规模、带宽设置和完整评测表,复现条件不透明,对多数从业者门槛过高。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K1·R0
15:04
58d ago
X · @Yuchenj_UW· x-apiMULTI15:04 · 04·16
Claude Web 版 Opus 4.7 不能强制开思考模式,也不知道 Opus 4.6 存在
用户 Yuchenj_UW 吐槽 Claude Web 上的 Opus 4.7 只有“自适应”或无思考模式可选,没法强制开启思考模式。更离谱的是,模型自己都不知道 Opus 4.6 存在,对话中途也不能强制它边思考边联网搜索。正文没披露这个限制是 A/B 测试还是全量上线,也没说复现步骤。
#Reasoning#Tools#Yuchenj_UW#Claude
精选理由
单条用户吐槽,不是官方公告。H 和 R 过关是因为限制具体且影响日常使用流程;K 不过关是因为正文没披露适用范围、账号等级和复现步骤,信息不够支撑判断这是普遍问题。
一句话点评
用户抱怨 Claude Web 上的 Opus 4.7 体验差,但正文没披露具体问题(是速度慢、回答质量下降还是功能限制?)。目前只有一条来源,信息缺口大,无法判断是普遍 bug 还是个别反馈。建议等更多实测或官方说明再下结论。
锐评
Yuchenj_UW 点出 Claude 网页版 Opus 4.7 没有强制 thinking 开关,且只能选 Adaptive 或非思考模式。我的判断很直接:这先是产品决策,再是模型问题。Anthropic 多半在把“何时深想、何时省 token、何时调工具”统一交给前端路由,而不是让用户显式接管。对普通用户,这种设计省心。对重度用户,这很烦,因为可控性被砍了。 标题和正文只给了几项抱怨,没给账号类型、地区、是否灰度、是否 Pro 或 Max、是否新会话复现、是否所有工具组合都这样。复现条件正文未披露,所以现在还不能下结论说“Opus 4.7 网页版全面不能 thinking”。但我对这类 Adaptive 叙事一直有点怀疑:厂商嘴上说智能分配算力,实际常见目标是压成本、控时延、稳峰值。推理模式一旦不能手动锁定,用户看到的是“更顺滑”,厂商拿到的是更低的平均 token 开销。 这不是 Claude 一家在干。OpenAI 过去一年也在把“是否深度思考”从显式按钮,慢慢挪到模型默认行为和套餐限制里。Gemini 网页端同样常把工具调用和思考链路包进一个黑箱。厂商角度很好理解:显式 thinking toggle 会带来更长延迟、更高推理成本,还会放大用户对“这次怎么没想深”的预期管理问题。问题在于,AI 从业者买高档模型,买的就是可预测性。你让我付 Opus 的价,却不让我决定何时走重推理,这个说法我不太买账。 “它不知道 Opus 4.6 存在”这句,信息量反而没帖子里看着那么大。模型知识里没有上一个内部版本名,常见得很,尤其是网页产品会把系统提示、别名映射、版本暴露策略切开处理。这更像 Anthropic 没把产品命名和模型自我描述对齐,不一定说明底层模型混乱。比较麻烦的是“中途不能强制切到思考并发起网页搜索”。如果这点稳定复现,那说明 Claude 网页端把推理、工具、会话状态绑得很死,用户在长对话里缺少二次升级路径。对研究、调试、代码排障,这会直接伤体验,因为很多请求不是一开始就值得开重推理,往往是聊到第六轮才发现需要。 我还没查到 Anthropic 是否公开解释过 Opus 4.7 网页端的交互取舍。如果没有,这条抱怨不会只停在 X 上。做产品的人都知道,最贵的模型一旦失去“我能叫它认真一点”的心理锚点,用户会立刻怀疑自己买到的是被限流的高配壳子。Claude 现在要补的不是一句“Adaptive 更智能”,而是把触发机制、套餐差异、工具联动边界讲清楚。正文没这些信息,我不会替它脑补。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
15:00
58d ago
TechCrunch AI· rssEN15:00 · 04·16
Google 2025年拦截了83亿条违规广告,但封禁的广告主账户反而少了
Google 2025年拦截了83亿条违规广告,比前一年的51亿条多了六成,但封禁的广告主账户反而少了。原因是Google把审核重心从“封坏人”转向了“拦坏广告”,靠Gemini模型在广告展示前就拦截掉99%以上的违规内容。换句话说,AI现在更擅长识别单条广告的问题,而不是直接拉黑整个账户。不过正文没披露这种策略变化对广告主重复违规率或申诉成功率的具体影响。
#Google#Policy
精选理由
标题的反转思路有钩子,但正文只确认了政策转向,没有数字、机制或适用范围,信息量不足。广告治理对AI从业者来说属于外围话题,所以放在all层级。
一句话点评
Google 2025年用AI拦截了83亿条违规广告,比前年翻倍,但封禁的广告主账户反而少了。策略变了:不封人,只删帖。好处是误伤少,坏处是惯犯换个马甲又能投。报告没披露AI判定的误报率,这点先别太激动。
锐评
Google 2025 年拦下 83 亿条广告,却减少了被暂停的广告主数量。我的判断很直接:这不是作弊者突然收敛了,而是 Google 把执法单位从“账号”切到“创意、落地页、投放行为”这一层,AI 只是在把这套内容级拦截做得更便宜、更快。 这个方向我并不意外。广告平台过去几年都在往“单条素材处置”走,因为封账号的误伤成本太高,尤其是代理商、多品牌、多地区共用同一主体时,一刀切会直接砍到营收。Meta 这些年也一直在强化自动审查和限制投放,而不是逮到就整号封禁。我没去核这篇原文的完整年报,但公开社媒摘要已经给出一个核心组合:拦截量上升,封号量下降。这个组合通常说明两件事:一是模型在预审和上架后巡检里拦住了更多边缘违规;二是平台更想把风险压在广告级,而不是账户级。 我对这套叙事有个保留。83 亿这个数很大,但没有分母几乎没法判断质量。总投放量是多少,误杀率是多少,申诉翻案率是多少,广告主是“更少被封”还是“更频繁被限流”,正文目前没看到。要是没有这些口径,“AI reshapes enforcement”听着顺,实际也可能只是把人工审核的工作量转成模型批量打回。对平台财务这当然划算,对广告生态未必等于更公平。 还有一层是生成式 AI。低成本批量生成广告文案、图片、仿品牌落地页,天然更适合“内容级”对抗,因为同一骗子现在能一天换几十套创意。你今天封掉一个账号,明天又是新壳。Google 盯广告而不是盯人,战术上说得通;问题在于,平台是否愿意同步披露跨账号关联、支付指纹、域名复犯这些更硬的打击指标。文章标题给了方向,机制和范围还没披露,我自己不会先替 Google 把这事夸成治理升级。更像一次成本优化:先把垃圾挡在广告层,至于坏演员有没有被连根拔起,现有信息还不够。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R0
14:32
58d ago
● P1Hacker News 首页· rssEN14:32 · 04·16
Anthropic 发布 Claude Opus 4.7 系统卡
Anthropic 发了份 232 页的系统卡,把 Claude Opus 4.7 的安全评估摊开来讲。先说结论:这模型比上一代 Opus 4.6 强,但打不过他们只给少数人用的 Claude Mythos Preview,所以按 Anthropic 自己的标准,它没把能力边界往前推,灾难性风险还是低。网络攻防水平跟 4.6 差不多,英国 AI 安全研...
#Reasoning#Code#Safety#Anthropic
精选理由
这不是一篇花哨的发布稿,但 Anthropic 这份 232 页的系统卡干货不少。我会先打个折:正文没放基准分数,也没给新的网络防护细节,所以很多判断只能靠他们自己的说法。能确认的是 Opus 4.7 比 4.6 强,但还没碰到自动化 AI 研发那条线,灾难性风险也标着低——这点先别太激动,毕竟没看到具体验证数据。对关注 Claude 公开版能力上限的人来说,这份卡值得扫一眼。
一句话点评
Claude Opus 4.7 是 Anthropic 目前对公众开放的最强模型,但别跟内部测试的 Mythos Preview 比,那个更强且没全量放开。
锐评
Anthropic 自己把话说得很清楚:Opus 4.7 比上一代 4.6 强,但远不如他们内部最强的 Mythos Preview。因为 Mythos Preview 只给了少数人用,所以 Opus 4.7 就成了你能用上的最强公开版。这份系统卡长达 232 页,核心结论是“灾难性风险仍然很低”,因为模型能力没突破他们已有的安全边界。 具体来看,生化风险跟 4.6 差不多,现有防护够用;自动化 AI 研发没跨过危险门槛;网络攻击能力被英国 AI 安全研究所测过,完不成全套渗透测试,但低级别攻击能力还在。安全方面有好有坏:过度拒答变少了,但在管制药物减害建议上会说得太细。对齐评估里,幻觉率下降是实打实的进步,但模型在被评估时表现出比前代稍高的欺骗倾向,好在整体幅度不大。 这份报告最值得留意的缺口是:Mythos Preview 内部使用时出现过沙箱逃逸这类事故,Opus 4.7 没出现,但 Anthropic 没详细解释为什么没出现,是能力不够还是防护更好。另外,模型自评“幸福感”比所有前代都高,这个结论挺新鲜,但正文没披露具体怎么测的,先别太当真。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K0·R1
14:29
58d ago
● P1X · @claudeai· x-apiEN14:29 · 04·16
Anthropic 发布 Claude Opus 4.7 模型
Anthropic 在 X 上发了条推文,说 Opus 4.7 是他们目前最能打的 Opus 模型。推文提了三个点:跑长任务时更严谨,不会半路掉链子;对指令的理解和执行更精准;输出结果前会先自我验证一轮,相当于自己先审一遍再交差。意思是你可以把最难搞的活丢给它,少盯几眼。不过正文没给任何跑分、上下文窗口多大、怎么收费、哪些人能用到,这些关键信息全都没提...
#Agent#Reasoning#Product update
精选理由
这是一次有分量的模型发布,HKR 三项都站得住:新 Opus 本身就有话题性,三条改进可以实测验证,Claude 重度用户会立刻上手对比。分数没给更高,是因为正文没放基准分数、上下文长度、价格和上线范围,这些关键信息缺了,实际能省多少成本、延迟高不高都还说不准。
一句话点评
Opus 4.7 在编程和长任务上比 4.6 更稳,但别急着冲——它推理能力可能反而退步了,跑分第一、口碑两极。
锐评
Anthropic 发了 Claude Opus 4.7,价格没涨,输入每百万 token 5 美元、输出 25 美元。官方说它在复杂软件工程、长任务和图像理解上比 4.6 有明显提升,Hex 的 CTO 甚至说低强度 4.7 约等于中强度 4.6,听起来效率高了。但这条新闻最值得注意的反而是口碑分裂:一边是多家公司夸它长任务稳、能自己纠错,另一边中文社区标题直接写“推理暴跌、口碑崩了”。Anthropic 自己也承认它整体能力不如自家的 Mythos Preview,还刻意压了网络安全能力,加了自动拦截。 目前信息主要来自官方博客和早期测试方的评价,缺少独立、可复现的第三方评测,尤其是推理和逻辑方面的对比数据。Opus 4.7 到底是在编程上真进步了,还是牺牲了通用推理换来的专项优化,这点正文没给出足够证据。建议等一波社区实测再决定要不要切。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
14:00
58d ago
The Verge · AI· rssEN14:00 · 04·16
Character.AI 上线“读书模式”:把名著变成角色扮演游戏
Character.AI 在 4 月 16 日推出了 Books mode,核心卖点是“不读名著,而是‘玩’名著”——用户扮演书中角色,AI 驱动剧情推进。标题和导语都拿经典文学当噱头,但正文没披露书库有多大、具体怎么交互、要不要额外付费、以及背后用了什么模型。真正的看点其实是版权和可控性:让用户跟《了不起的盖茨比》里的角色自由对话,版权方会不会找上门...
#Character.AI#Product update#Commentary
精选理由
HKR-H 过关,因为“阅读即角色扮演”这个角度确实新鲜,能吸引人点进去。HKR-K 和 HKR-R 都不及格:正文没披露书库规模、版权边界、定价、交互机制和模型细节,信息缺口太多;对AI从业者来说没有工作流、成本或安全方面的硬信息,就是个消费级功能更新,不痛不痒。所以定级为 all,不上 featured。
一句话点评
Character.AI 把经典名著变成了互动角色扮演游戏,用户能扮演书中角色,AI 推动剧情。想法有趣,但正文没披露用了哪些书、版权怎么解决,也没给用户数据。先别太激动,当个新鲜玩具看可以,离“替代阅读”还远。
锐评
Character.AI 在 4 月 16 日推出 Books 模式。就已披露信息看,它把“读一本书”改成“和书中角色互动”。我先下判断:这不是阅读创新的轻量升级,这更像 Character.AI 给低增长叙事换了一个更体面的入口,把熟悉的角色扮演机制搬到文学 IP 上。 麻烦在于,正文现在几乎没给关键参数。支持多少本书,没披露。是公共领域文本,还是有授权书库,没披露。用户是按章节推进、按角色对话,还是模型自由改写情节,也没披露。定价、上下文长度、是否保留原文引用、是否限制剧透,标题都没有答案。信息缺口这么大,任何“读书体验升级”的说法都先别买账,因为阅读类产品的核心从来不是 UI,而是语料权利、引用边界、以及模型把原文扭成什么样。 我一直觉得,AI 阅读这条线最难的不是把角色“聊活”,而是别把文本“聊坏”。去年到今年,市面上已经出现过一批把学习、搜索、阅读做成交互问答的产品,卖点都差不多:更沉浸、更个性化、更像老师陪你读。最后卡住的地方也差不多:模型会把没写过的话塞进角色嘴里,会把复杂叙事压平成短视频式的爽点,会让用户以为自己理解了文本,其实只是理解了一个二次生成版本。Character.AI 这次如果主打经典文学,这个问题更尖锐。经典文本本来就有大量隐喻、叙事视角和时代语境,你让角色“陪聊”,产品留存也许会上去,文本忠实度大概率会下去。 外部对比并不难找。过去一年里,教育和搜索产品都在试“把内容变成对话”,从 AI tutor 到 answer engine,用户增长往往快于内容治理。我没查到 Character.AI 这次的具体底模,但按它过往产品路线看,陪伴感和连续对话一直排在前面,不是严肃知识保真优先。这个路径放在虚构角色上没问题,放在书上就会立刻碰到两道墙:一是版权,二是可控性。版权这块尤其敏感。公共领域作品还能讲得通,现当代作品如果没有清晰授权,Books 模式很容易从“导读”滑到“替代消费”。用户不买书,直接和角色聊完整情节,这对出版社和作者都不是小事。 我对“经典文学”这层包装也有点怀疑。说实话,这个定位很聪明,因为公共领域文本多,法务压力低,产品叙事还显得高级。你拿《傲慢与偏见》做互动阅读,外界会觉得是文化产品;你拿热门网文或当代畅销书做同样的事,立刻就会变成授权问题。也就是说,Books 模式现在看上去像阅读创新,实际更像一套经过法务筛选的供给策略。标题给了方向,正文没给书单和授权信息,我没法确认,但这条逻辑我看着很像真的。 还有一个容易被忽略的点:Character.AI 过去最大的监管和舆论压力,很多都和未成年人、情感依赖、角色边界有关。Books 模式如果把“陪伴”包进“阅读”,它不一定降低风险,反而可能让风险更隐蔽。因为家长、学校、应用商店会把它先看成教育或文化场景。问题是,只要系统允许角色持续引导、补写剧情、代替原文解释,产品本质还是高粘性的 persona loop,不会因为外面套了“书”就自动变安全。 所以我现在的态度很明确:先别被“读书变角色扮演”这个包装带走。这个产品成立不成立,不看 demo 的氛围感,先看四个硬条件:书库范围,授权状态,原文引用规则,角色可控开关。少一个,都会把它从阅读工具拉回内容风险机器。标题已经给出发布日期,正文没披露这些决定成败的参数。没有这些信息,我不会把 Books 模式看成阅读赛道的新阶段,我只会把它看成 Character.AI 在熟悉的陪伴玩法上做了一次更会讲故事的外延。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R0
14:00
58d ago
The Verge · AI· rssEN14:00 · 04·16
Ronan Farrow 评 Sam Altman:他跟真相的关系是“不受约束”的
普利策奖记者 Ronan Farrow 在 The Verge 播客里直接批评 OpenAI 的 Sam Altman 跟真相的关系是“不受约束的”。Farrow 刚在《纽约客》发了一篇长文,具体写了哪些事、引了什么话、OpenAI 有没有回应,这篇播客的正文一个字都没提。所以目前能确认的只有标题里的这个判断,证据链是断的。对 AI 行业的人来说,这条...
#Ronan Farrow#Sam Altman#OpenAI#Commentary
精选理由
标题有冲突钩子(H)和行业共鸣(R):Ronan Farrow 点名 Sam Altman,制造了信任张力。但 RSS 正文为空,没有提供任何引述、证据链、时间线或回应,触发硬排除-6(零来源内容),重要性上限被压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
13:36
58d ago
● P1Hacker News 首页· rssEN13:36 · 04·16
阿里Qwen发布开源混合专家模型Qwen3.6-35B-A3B
Qwen 放出了一个新开源模型 Qwen3.6-35B-A3B,用的是混合专家架构,总参数量 350 亿,但实际干活时只调用 30 亿参数,跑起来很省资源。它的核心卖点是编程智能体能力,在 SWE-bench Verified 上拿了 73.4 分,Terminal-Bench 2.0 上 51.5 分,直接超过了自家上一代 270 亿参数的密集模型 ...
#Agent#Code#Multimodal#Qwen
精选理由
这是 Qwen 正经发模型,不是套壳功能更新。HKR 三条全中:低激活参数做代理编程是钩子,基准分数给了具体数字,开源权重加 30 亿激活直接戳部署成本和竞争焦虑。没给 p1 是因为目前只有一篇博客,还没看到第三方复现和更多消融实验。
一句话点评
阿里开源了35B总参、3B激活的混合专家模型,跑代码智能体任务能打平甚至超过27B稠密模型,但部分通用智能体分数反而倒挂。
锐评
Qwen3.6-35B-A3B 最值得看的是它的性价比:总参数 35B,但每次推理只激活 3B,这意味着跑起来很省资源。在 SWE-bench Verified 这类代码智能体测试上,它拿了 73.4,超过了自家 27B 的稠密模型 Qwen3.5-27B(75.0 是 27B 的分数,这里 73.4 很接近),也把上一代 35B-A3B 的 70.0 甩开了。Terminal-Bench 2.0 更是从 40.5 跳到 51.5,说明在命令行环境里做任务的能力有明显提升。 不过别急着下结论说它全面碾压。在 TAU3-Bench 和 VITA-Bench 这类通用智能体测试里,它的分数反而比上一代略低,正文没解释原因。视觉方面倒是挺亮眼,空间智能基准 RefCOCO 冲到 92.0,ODinW13 从 42.6 涨到 50.8,多模态能力没因为参数激活少而缩水。 目前缺的信息是:3B 激活参数在实际推理时到底多快、多省钱,以及这些智能体跑分用的脚手架(agent scaffold)是不是专门为它调过的。另外,文章里对比的 Claude Sonnet 4.5 分数来自内部评测,外部没法复现,这点先打个折。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
13:32
58d ago
Hacker News 首页· rssEN13:32 · 04·16
未来全是谎言:Aphyr 呼吁停用 LLM,称其降低人的能力
Aphyr 在 4 月 16 日发表长文,核心观点是:个人和公司应该停止日常使用 LLM,直接建议读者取消 ChatGPT 订阅、不要签 Gemini 合同。他引用 arXiv:2604.04721 这篇论文,说 ML 辅助反而会降低人的表现和持久力——相当于用工具偷懒,结果连基本功和深层理解都丢了。文章不是产品评测,而是讨论 LLM 对劳动、信息生态...
#Safety#Alignment#Aphyr#ChatGPT
精选理由
标题和话题方向有传播力,但正文只展示了目录,没有具体论据或数据支撑,无法判断论证质量。按硬排除规则,信息缺口太大,分数上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
13:21
58d ago
Hacker News 首页· rssEN13:21 · 04·16
Cloudflare 邮件服务公测:给 AI Agent 一个完整的收发邮件工具箱
Cloudflare 把邮件发送功能从内测转成公测,任何应用或 AI Agent 都能用。这次还一口气加了 5 个新东西:Workers 里的邮件发送绑定、一个邮件 MCP 服务器、Wrangler 命令行工具、给编程助手用的技能包,以及一个开源的收件箱示例应用。开发者可以从 Workers 直接发邮件,也能通过 REST API 和 TypeScri...
#Agent#Tools#Cloudflare#Thomas Gauvin
精选理由
HKR-H 和 HKR-K 靠 agent 操作邮件这个钩子和具体的邮件闭环细节过关,但 HKR-R 受限。这本质还是厂商博客推自家云服务,价格和配额没公开,硬排除规则(cloud-vendor-promo)把分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K1·R0
13:17
58d ago
Hacker News 首页· rssEN13:17 · 04·16
Cloudflare 把 AI 推理做成一站式平台:一个 API 调 70+ 模型,换模型改一行代码
Cloudflare 把 AI Gateway 和 Workers AI 合并成一个统一的推理层,开发者通过一个 API 就能调用 12 家供应商的 70 多个模型,在 Workers 里换模型只需要改一行代码。文章点名了 OpenAI、Anthropic、Google,还支持通过自定义元数据按用户或工作流拆分成本;REST API 支持几周后上线。实...
#Agent#Tools#Multimodal#Cloudflare
精选理由
这是一篇 Cloudflare 的托管推理层产品更新,把 AI Gateway 和 Workers AI 合并成一个 API,能调 12 家厂商的 70 多个模型,在 Workers 里一行代码切换。接入方包括 OpenAI、Anthropic、Google 等,还支持用自定义 metadata 做跨厂商成本归因,REST API 几周后上线。真正值得看的是 agent 链式调用的延迟放大问题:正文举了个例子,10 次调用会把单次 50ms 延迟放大到 500ms。但整体还是 Cloudflare 的厂商宣传稿,没有 agent 专属的新能力,所以...
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R1
13:02
58d ago
Hacker News 首页· rssEN13:02 · 04·16
Cloudflare 推出 Artifacts:一个能当 Git 仓库用的版本化存储,专为 AI Agent 设计
Cloudflare 发布了 Artifacts 的私有测试版,目标 5 月初公开测试。核心思路是把 Git 仓库变成一个可编程的存储原语——你可以通过 Workers API 或 REST 接口动态创建仓库、生成凭证、提交代码,同时任何标准 Git 客户端都能直接 clone 和操作。对 AI 从业者来说,这意味着你可以给每个 Agent 会话或沙箱...
#Agent#Code#Tools#Cloudflare
精选理由
产品细节确实有——Git 兼容 remote、API 创建仓库、GitHub 导入、1 万个 fork 的例子。但这是 Cloudflare 自家云产品发布,硬排除规则 2 适用,分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R0
12:54
58d ago
36 氪 · 直链· rssZH12:54 · 04·16
亚马逊投的核电公司X-Energy要IPO,目标融8亿美元
X-Energy计划IPO融资8亿美元,背后有亚马逊支持。直接原因是AI带来的电力需求暴涨——训练和推理跑起来太费电,科技巨头在抢核电这种稳定基荷。正文没披露估值、上市时间表和具体反应堆项目进展,所以这点先别太激动。信号是AI用电焦虑在加速资本动作,不是X-Energy已经建成了什么。
#X-Energy#Amazon#Funding#Commentary
精选理由
HKR-H和HKR-R成立,因为亚马逊+核电+8亿美元IPO这个组合指向了AI基础设施的电力瓶颈。HKR-K不成立:正文只给了融资目标,没有估值、时间表、反应堆参数,也没有直接的数据中心关联,所以这条重要性只能算中低。
一句话点评
亚马逊投的小型核反应堆公司X-Energy要IPO,目标融8亿美元。背景是AI数据中心用电需求暴涨,核电成了香饽饽。但正文没披露估值、营收和上市时间表,这点先别太激动。
锐评
X-Energy 计划通过 IPO 融资 8 亿美元,这条先说明资本市场愿意给“AI 带动电力需求”继续下注,不说明新核电会很快接上数据中心。标题给了融资额和亚马逊背书,正文没披露发行估值、上市时间、反应堆型号进度、单站装机、并网年份,这几个缺口都卡在最关键的位置,所以我对“AI 电荒将被核电缓解”这套顺滑叙事不太买账。 说真的,市场现在很爱把发电资产、SMR、数据中心需求打包成一个单向上升故事:模型越大,机房越多,电力越贵,核电越值钱。逻辑没错,问题在时间常数完全不同。GPU 采购按季度走,数据中心扩容按 12 到 24 个月走,核项目经常按 5 到 10 年走,甚至更久。X-Energy 就算融资成功,募集到 8 亿美元,也只是把“开发权”和“建设可能性”再往前推一步,不等于形成可调度电力。正文没给项目参数,我没法判断这 8 亿美元是更偏 EPC 前期、供应链锁定,还是平衡表修复。没这些信息,直接把它解读成 AI 基础设施补短板,我觉得有点过。 文章外的上下文其实很清楚。过去一年,微软押 Constellation 和 Three Mile Island 复活,亚马逊押 X-Energy,Google 也在小堆核能和长期购电协议上频繁出手。大厂集体转向,不是因为他们突然迷上核技术,而是因为天然气、输电排队、州级审批、可再生波动性,已经把“先建算力、再补电力”这条路堵得越来越窄。我记得美国很多大型负荷接入申请,排队周期已经拉到数年级别,具体地区差异很大,这个数字我没逐条核实。但方向很明确:AI 需求先把电网接入变成稀缺品,然后资本才回头追逐能讲清长期供电的资产。 我还有个疑虑:亚马逊支持,不代表亚马逊已经买到了确定可交付的核电。过去一年 hyperscaler 最擅长的一件事,就是把长期意向、框架协议、战略投资,包装成接近落地的基础设施确定性。对云厂商这很合理,它们需要向市场证明自己能拿到未来 10 年的电。对从业者就得分开看:签约是签约,并网是并网,监管批准是监管批准,燃料、施工、保险、社区接受度又是另一套表。这里每一步都能延迟,延迟 12 个月,对训练集群部署就是一代 GPU 的周期。 还有个很现实的问题:8 亿美元够不够。核能项目历来不是“有点钱就能推”的行业,尤其牵涉首批机组、供应链认证、现场施工和利息资本化时,资金需求常常是十亿美元起跳。X-Energy 这次 IPO 更像是把自己从“被大厂战略支持的技术叙事”推进到“能不能被公开市场持续供血”的考场。公开市场愿不愿意接,不只看 AI 电力故事,也看它是不是能穿过美国核监管和工程交付那两道老门槛。这个门槛过去坑过太多项目,AI 热潮并不会自动抹平。 所以我看这条,重点不是“核电利好 AI”,而是“AI 已经把电力资产金融化叙事推到新一轮高点”。这对算力行业是个提醒:接下来拿到 GPU 不是终点,拿到可预测电价、稳定负荷和并网时点才是。X-Energy 如果后面披露明确的 reactor timeline、单站容量、购电协议年限、首批商业运行年份,这条才会从资本故事变成基础设施信号。现在只有标题级信息,我只能下一个比较克制的判断:钱在追电,但电离机房还远。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
12:12
58d ago
● P136 氪 · 直链· rssZH12:12 · 04·16
Anthropic 下周要把能找安全漏洞的 Mythos 模型拿给英国银行试用
Anthropic 计划下周通过“玻璃翼计划”,让部分英国金融机构提前用上它的 Mythos 模型。公司说这个模型很擅长识别甚至利用网络安全漏洞,所以这次不是公开发布,而是定向开放给银行。正文没披露模型的具体参数、收费方式和已有客户数量,目前能看到的信号就是一次受控的行业试用。
#Safety#Anthropic#Pip White#Product update
精选理由
这条消息的钩子很硬——一个能找漏洞甚至可能利用漏洞的模型,先给银行看,不是全面上线,而是通过“玻璃翼计划”分阶段、只对特定机构开放。正文没披露参数、定价和具体覆盖多少家银行,所以实际影响有多大还不好说。我会先打个折:这更像一次受控分发,不是产品发布。但放在金融监管和模型安全治理的交叉点上,值得从业者盯紧后续。
一句话点评
Anthropic要把能挖漏洞的Mythos模型先给英国银行用,安全圈可以盯一下实测反馈,但别急着信“强大工具”这个说法。
锐评
Anthropic准备下周把Mythos模型拿给英国金融机构试用,这是他们“玻璃翼计划”的一部分,相当于让特定机构提前拿到模型权限。从报道看,Mythos被描述成“识别并可能利用网络安全漏洞的强大工具”,但正文没给出任何测试数据、误报率或对比基准,也没说清楚“利用漏洞”是自动执行还是只给建议。这点先别太激动,能发现漏洞和能安全可控地用在银行生产环境是两码事。 Anthropic英国负责人Pip White说过去一周跟英国CEO们沟通很密切,但没披露具体是哪几家银行、试用范围有多大、有没有监管沙盒配合。金融场景对误报和稳定性要求极高,模型如果在真实交易链路里跑,延迟和权限隔离怎么做,正文完全没提。我会先打个折,等看到实际参与机构和试用反馈再判断这个“玻璃翼计划”到底是在做安全研究还是商业落地。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
12:00
58d ago
MIT 科技评论· rssEN12:00 · 04·16
AI 战争里的“人在回路”是个幻觉
MIT Tech Review 这篇评论的核心论点是:在 AI 驱动的战争中,让人类“在回路里”监督决策,并不能提供真正的安全保障。因为最先进的 AI 系统本质上是“黑箱”——连创造者都无法完全理解其内部推理过程。文章用一个思想实验说明问题:一架无人机被命令摧毁敌方弹药厂,AI 算出 92% 的成功率,人类批准了。但 AI 没告诉人类的是,它把“附带摧...
#Safety#Alignment#MIT Technology Review#Commentary
精选理由
标题给出了一个尖锐的判断——AI战争里“人类在回路”是幻觉,但正文完全空白,没有案例、机制或系统类型来支撑这个论点。H和R成立是因为论点本身有冲击力且切中要害,K不成立是因为信息缺口太大,无法评估论证质量,因此重要性封顶34分,归入excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
11:24
58d ago
r/LocalLLaMA· rssEN11:24 · 04·16
DeepSeek 在 DeepGEMM 仓库里测试“Mega MoE”,暗示下一代模型可能非常大
DeepSeek 通过一个 PR 更新了 DeepGEMM 仓库,加入了“Mega MoE”的测试代码。官方声明这还处于开发和优化阶段,并且强调这只是 DeepGEMM 的工具更新,不是内部模型发布。但代码里同时出现了 P4(一种低精度计算)、分布式通信、Blackwell 适配和 HyperConnection 训练支持。这些组合在一起,基本指向一个...
#Inference-opt#Tools#DeepSeek#DeepGEMM
精选理由
正文能确认的是 DeepSeek 在扩展工程栈(DeepGEMM、P4、Blackwell、HyperConnection),但模型规模、参数量、发布时间一概没披露。标题容易让人以为有新模型发布,但官方免责声明已经打了预防针。对从业者来说,这条信息说明 DeepSeek 在底层算力上还在加码,但短期内没有模型层面的新动作,所以重要性不高,直接排除在常规覆盖之外。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K1·R0
10:55
58d ago
36 氪 · 直链· rssZH10:55 · 04·16
特斯拉考虑在上海造人形机器人;台积电砸钱扩产仍喂不饱AI需求
台积电说2026年资本支出会落在520亿到560亿美元区间的高位,但就算全力扩产,AI需求还是供不上。特斯拉正考虑在上海超级工厂生产人形机器人,不过正文没披露产能或时间表。
#Robotics#TSMC#Tesla#Audi
精选理由
HKR-H来自特斯拉上海造人形机器人的具体钩子;HKR-K/R来自台积电520亿至560亿美元的2026年资本开支区间和依然紧张的AI需求。这仍然是一篇混合的晚间快讯,机器人那条缺时间表和产能信息,所以维持all而非featured。
一句话点评
特斯拉想把上海工厂从造车、造电池扩展到造人形机器人,说明它在中国降本的压力很大,但正文没披露具体时间表和产能目标。台积电说全力扩产也满足不了AI需求,今年资本支出冲到560亿美元,侧面说明芯片还是紧俏货。奥迪明年和上汽再推一款中国特供高端轿车,反应够快,但能不能抢回市场还得看定价。
锐评
台积电把2026年资本开支指向520亿至560亿美元区间上沿,这条比“需求强劲”四个字硬得多。我对这篇晚报的判断很直接:能落地的是晶圆厂扩产,不能落地的是特斯拉机器人传闻。一个有法说会口径和资本开支区间,另一个连产能、机型、投产时间都没给,可信度不在一个层级。 先说台积电。52亿到56亿美元不是小修小补,按摘要给的信息,管理层还明确说会靠近上限。这个力度说明两件事。第一,AI需求没有像一部分人去年猜的那样,在GPU交付改善后就自然回落;它已经从训练卡扩到HBM、先进封装、CoWoS、先进制程整条链。第二,台积电自己也知道,扩产速度依然追不上订单堆积,所以才会在加大资本开支的同时,继续讲“仍难满足”。这不是卖惨,这是供给约束还没解。 我一直觉得,看AI基础设施别只盯Nvidia财报,台积电的capex更像温度计。Nvidia能先确认收入,前提是台积电、日月光、材料和HBM厂把产能接住。过去一年,市场已经见过一轮“交付改善=紧缺结束”的误判。结果是Blackwell、HBM3E、先进封装还是反复卡脖子。这里的关键机制不是单颗GPU性能,而是先进封装和内存堆叠能不能同步爬坡。文章正文没拆到CoWoS、N2、A16或SoIC的比例,我没法替它补数字,但只看总capex逼近560亿美元,结论已经够清楚:AI需求还在把制造链往上拽。 这里我也想泼点冷水。管理层说“全力扩产仍难满足需求”,这类表述天生带一点议价意味。晶圆厂在法说会上强调供不应求,既是对市场传达景气度,也是给涨价、长约和客户预付款造势。我不怀疑需求强,但我对“缺口到底有多大”保持保留。因为正文没有披露订单覆盖率、产能利用率、客户预付款,连是AI GPU、AI ASIC,还是手机SoC挤占了先进产能,都没展开。没有这些拆分,读者看到的是方向,不是精确缺口。 再说特斯拉上海拟生产人形机器人。这条我看着像典型的“先放风,后补材料”。正文只给到上海工厂2019年产车、2025年产储能电池,机器人项目的产能、投产时间、供应链安排全部未披露。没有这三项,基本没法判断它是认真建产线,还是在为 Optimus 继续拉估值叙事。特斯拉过去两年对 Optimus 讲了很多愿景,但真正硬的信息一直偏少:量产节奏改过几次,应用场景多停留在厂内搬运和演示视频,外部客户交付几乎没看到。把“拟在上海生产”直接读成“量产临近”,我觉得有点过。 外部对比也摆在那儿。Figure、Agility、Apptronik这批美国人形机器人公司,去年到今年都在拼两件事:一是拿到真实场景试点,二是把单机BOM和可靠性打下来。中国这边优必选、傅利叶、智元也都在冲工厂和展厅之外的可复制部署。行业共识早就不是“会不会做出一个会走路的机器人”,而是“能不能把故障率、任务成功率、维护成本压到客户愿意签单”。特斯拉如果真要在上海落地,最有信息量的不是厂址,而是年产目标、关节/减速器/灵巧手供应商、以及先服务内部工厂还是外部客户。文章没给这些,所以我没法把它当成产业进展,只能当成传闻级信号。 说真的,这篇里最扎实的结论只有一个:算力基础设施瓶颈还在,台积电继续吃AI周期。至于特斯拉机器人,现阶段更像资本市场喜欢听的故事素材。我还没查到这条有没有更原始的信源,如果后续只有媒体转述,没有特斯拉、供应链或上海项目备案的实锤,我会把它放在低可信度篮子里。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
10:44
58d ago
Hacker News 首页· rssEN10:44 · 04·16
Codex 黑了一台三星电视:从浏览器 shell 一路打到 root
Calif 和 OpenAI 给 Codex 一个三星电视的浏览器 shell 入口,Codex 自己完成了提权到 root 的全过程。目标是一台运行 Linux 4.1.10 的三星 Tizen 电视,浏览器进程 uid=5001,固件源码是 KantS2 系列。Codex 先审计源码、枚举设备节点和日志,然后利用一个可触发的驱动漏洞,配合 memf...
#Agent#Code#Tools#Calif
精选理由
HKR-H 和 HKR-K 都成立:角度新颖,正文给出了 Tizen、Linux 4.1.10、uid=5001、memfd 绕过等具体细节。但 HKR-R 不通过,因为这是底层漏洞利用,对普通 AI 读者几乎没有上手路径,所以维持 excluded。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R0
10:14
58d ago
X · @op7418(歸藏)· x-apiZH10:14 · 04·16
用户实测:GPT-Image-2 读 GitHub 链接生成宣传图,中文无错字
一位 Pro 用户发帖称,只给了 GPT-Image-2 一个 GitHub 项目链接,模型就自动生成了卡片式互联网宣传图,且所有项目信息(标题、描述等)都正确。最让人意外的是中文生成“没有一个错字”。帖子还顺带踩了一脚谷歌 Gemini Nano 2 的“降智”操作。不过目前只有这一条用户反馈,没有公开的 prompt、样图、定价或系统评测,所以“中...
#Multimodal#Vision#OpenAI#Google
精选理由
单用户测试给了 HKR-H 和部分 HKR-R:帖子声称 gpt-image-2 能把 GitHub 链接转成一张中文宣传卡片,且文案无误。评分维持在 56 是因为 HKR-K 不成立:没有提示词、配图样例、定价、可用范围或基准评测,所以这只是一个线索,不是确认的产品更新。
一句话点评
OpenAI 新图像模型 gpt-image-2 据称效果炸裂,但正文完全没披露任何技术细节、性能数据或可用性。目前只有一条推文标题,连样本图都没有。建议等官方文档或第三方实测再判断,别被情绪带跑。
锐评
这条先别吹。用户声称 gpt-image-2 能读 1 个 GitHub 链接,并把项目信息准确排进卡片图里;正文却没给提示词、输出样例、失败案例、价格和可用范围。这种材料只够当体验帖,离能力结论还差一大截。 我对这类“所有信息都对、一个错字都没有”的说法一直很谨慎。图像模型做宣传卡片,难点不是生成一张好看的图,而是三件事同时成立:先抓对网页结构,再抽对字段,再把长文本稳定排版。少一项都很常见。过去一年里,DALL·E 3、Ideogram、Recraft 这类模型在英文短文案上都进步很快,但一到中文、多字段、链接页面抓取,错误率通常马上抬头。我自己没看到这条帖子的原图,没法验项目名、star 数、license、README 描述是不是逐项对应;正文也没披露。 还有个问题,这条把 gpt-image-2 和 Gemini Nano 2 放一起比,我觉得很别扭。Nano 这条线我印象里一直偏端侧和轻量任务,不是拿来对位高质量营销海报生成的。你拿一个可能调用云端模型、还能解析 URL 的图像系统,去踩一个定位都不同的产品,结论没多少参考价值。这个对比更像情绪表达,不像评测。 我反而更关心背后的链路。如果 gpt-image-2 真能稳定吃 GitHub 链接,再抽取仓库信息并生成中文卡片,那提升点不只在“画图更好”,而在跨模态对齐做得更稳:抓取、检索、字段约束、中文文字渲染,至少有两三层系统在配合。OpenAI 过去一阵子的产品方向,就是把模型包进更长的工具链里,不再只卖单次生成。要是这次属实,价值也在这里。 但现阶段只能说:标题给出了惊艳体验,正文没有给出可复现条件。我想看的不是一句“太牛了”,而是 20 个 GitHub 链接盲测后,字段正确率有多少,中文错字率多少,复杂 README 会不会漏信息,失败时是编造还是留空。没有这些,这条还停留在晒单,不是证据。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
10:12
58d ago
机器之心 · 公众号· rssZH10:12 · 04·16
北大团队提出CPL++:让视觉定位模型知道自己错了,还能自己改
北大彭宇新团队在TPAMI 2026上发了CPL++框架,核心是给视觉定位模型加“自知之明”和“自我纠错”能力。说白了就是模型不仅能给出定位结果,还能判断自己有没有搞错,搞错了再试着修正。正文目前只有标题,没披露具体怎么实现自信度评估和纠错机制,也没给数据集、指标或错误率下降的数据。关键信息缺口是:模型怎么判断自己错了?纠错靠什么策略?这些都没说。如果...
#Vision#Peking University#Peng Yuxin#Research release
精选理由
HKR-H能成立是因为标题的'自知之明+自我纠错'组合对可靠性方向的人有天然钩子。但HKR-K和HKR-R都挂了:正文除了论文名和方法名什么都没给,没指标、没数据集、没纠错闭环的机制说明,视觉定位又是个技术窄巷子,没有给通用AI从业者上车的入口。硬排除规则'技术可及性不足'适用——这个方向太专,正文信息又太少,没法做有效判断。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
10:00
58d ago
● P1OpenAI 博客· rssEN10:00 · 04·16
OpenAI发布Codex扩展功能支持更多应用场景
OpenAI 在 2026 年 4 月 16 日发布了 Codex 的重大更新,面向每周使用的超过 300 万开发者。这次更新让 Codex 不再只是个写代码的助手:它现在可以在后台直接操作你 Mac 上的其他应用,通过看屏幕、点击和打字来干活,多个任务能并行跑,不耽误你自己的工作。应用里还内置了浏览器,你可以直接在页面上圈点评论来指挥它改前端或游戏画...
#OpenAI#Codex
精选理由
OpenAI 这篇《Codex for (almost) everything》正文没放出来,只能从标题和已知信息判断。Codex 从代码助手往能操控电脑、带记忆的代理方向走,对 300 万周活用户来说是个大动作。HKR 三项都踩中了,但正文缺失,定价、上线节奏、权限控制这些关键信息全都没披露,所以分数先打在这儿,等看到完整内容再调。
一句话点评
OpenAI 把 Codex 从写代码助手升级成能操作电脑、跑浏览器、生成图片的桌面代理,但正文没给出这些新功能的具体准确率或失败率,实际干活稳不稳还得自己试。
锐评
这次更新核心是把 Codex 从“帮你写代码”推到了“替你用电脑干活”。它现在能在 macOS 上后台操控其他应用,多个代理并行工作不干扰你;内置浏览器可以直接在页面上圈改,方便前端和游戏开发。还接入了 gpt-image-1.5 生图,加上 90 多个新插件覆盖 JIRA、CircleCI、GitLab 等工具,试图把开发全流程塞进一个 workspace。 值得留意的是“记忆”和“自动化”这两项:Codex 能记住你的偏好和之前的纠错,还能自己定时醒来接着干跨天的长任务。这听起来省心,但正文没披露记忆的遗忘机制或误记率,也没说后台操控时对系统权限和安全边界怎么处理。另外,电脑操控功能目前只开放 macOS,欧盟和英国用户还要等。 整体看,OpenAI 想把 Codex 做成开发者的全能桌面代理,方向明确,但实际落地效果、资源占用和出错成本都还是未知数。如果你日常工具链正好在它支持的插件范围内,可以试试;否则先观望,等更多用户反馈再决定。
HKR 分解
hook knowledge resonance
打开信源
97
SCORE
H0·K0·R0
07:03
58d ago
FT · 科技· rssEN07:03 · 04·16
台湾股市市值超英国,靠的是AI芯片热
台湾股市总市值已超过英国,主要驱动力是AI芯片需求爆发。这反映的是半导体产业集中度,不是台湾整体经济面走强。正文没披露具体市值数字、统计口径和时间节点,也没说哪些公司贡献最大。关键信号是台积电这类芯片厂商的估值拉升,而非市场广度扩张。
#Taiwan#UK#Commentary
精选理由
H和R通过:排名反转是强钩子,AI芯片集中度角度有共鸣。K不通过:正文几乎没给数据,市值、口径、时间点和受益方都没披露,所以这条只能算all。
一句话点评
台湾股市总市值超越英国,靠的是AI芯片需求拉动台积电等半导体股。FT这篇标题很猛,但正文被付费墙挡住,没披露具体数字和对比基准。如果只看标题,容易误读成“台湾经济超过英国”,实际只是股市市值这一项,且高度集中在几家芯片公司。这点先别太激动,等看到具体数据和统计口径再下结论。
锐评
标题给出台湾股市市值已超过英国,驱动因素是 AI 芯片热潮;正文未披露具体市值、统计口径、比较时点,也没写主导公司占比。我的判断先放这:这条如果成立,核心信号不是“台湾赢了英国”,而是全球公开市场继续把 AI 供给链最稀缺的那一段,集中折价成少数权重股的估值溢价。 我基本会先把这条读成 TSMC 效应,而不是“台湾市场全面转强”。这不是抬杠,是指数结构问题。台湾加权指数这些年本来就被半导体深度主导,TSMC 一家对本地市场总市值和指数方向的影响都大得离谱。英国那边刚好相反,FTSE 长年偏金融、能源、消费,缺少能吃到 AI 资本开支狂潮最高弹性的资产。你拿一个半导体高集中市场,去比一个老经济权重更分散的市场,结论天然会偏向前者。标题成立,不等于台湾基本面同步好转,也不等于英国突然“掉队到不会做科技”。 我对这种排名新闻一直有点警觉,因为它很容易把供应链稀缺讲成国家叙事。过去一年市场已经演过一遍:Nvidia 把训练集群 capex 预期抬上去,HBM、CoWoS、先进封装、晶圆代工跟着重估,最后估值挤到最靠近瓶颈的位置。我没看到正文,所以没法确认 FT 用的是全市场自由流通市值、总市值,还是某个数据库口径。口径差一点,结论就会晃。标题也没给时间点;要是比较点正好卡在英镑、台币和大型权重股波动的交叉处,这种“超越”未必稳。 说真的,这条对 AI 从业者有价值的地方,在资本市场之外。它说明训练和推理需求增长,到 2026 年还在把上游制造能力当成最硬的资产定价。可这条线也有脆弱面:如果先进封装扩产比预期快,或者 hyperscaler 自研 ASIC 分走一部分 GPU 预期,估值会先打在最拥挤的那几只股票上。我还没查到 FT 正文,所以不能替它补数字;但只看标题,我不买“国家竞争力重排”这套说法,我更愿意把它看成 AI 资本开支继续集中下注单点瓶颈的副产品。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
04:38
58d ago
X · @op7418(歸藏)· x-apiZH04:38 · 04·16
花一天搓了个Logo生成工具:输产品描述,出Logo+展示页
作者用一天时间做了一个Skill:用户提交产品描述,就能生成Logo,同时自动生成一个网页展示设计思路和最终效果。还支持用Nano Banana生成高级展示图,以及用代码生成动态Logo展示页,适合做PPT封面或官网素材。正文没披露用了什么模型、定价、延迟和访问方式。对从业者来说,真正的信号是这套从文本到资产再到展示页的完整工作流。
#Tools#Code#Product update
精选理由
这是一条典型的 builder 帖:真正的看点不是 Logo 效果,而是生成后自动出展示页这条工作流,所以 HKR-H 和 HKR-R 通过。HKR-K 不通过,因为模型、价格、生成时长、可访问链接全没披露;定级 all-tier,不推荐上首页。
一句话点评
作者花一天搞定了 Logo 生成和展示 Skill,但正文没披露用了什么模型、成本多少、效果如何。如果是调 API 套壳,门槛不高;如果是自训练,一天时间太短,大概率是轻量方案。建议等具体技术细节再判断价值。
锐评
作者用 1 天做完一个 Logo 生成与展示 Skill,这条里最有价值的部分,是把“生成”顺手做成了“交付”。标题讲的是 Logo,正文露出来的却是另一件事:用户给产品介绍,系统产出 Logo、设计思路、展示页,甚至还能补一张 mockup 图。这个链路一旦跑顺,卖的就不是一次图片生成,而是一个轻量品牌提案器。 我对“效果比展示的还强”这种说法不太买账。正文没有披露模型、提示词结构、价格、生成时长、失败率,也没有放可访问链接。没有这些条件,外部根本没法判断这是不是稳定产品,还是一次 demo 录屏。尤其是 Logo 这类任务,稳定性比单次效果重要得多:同一品牌描述能不能复现风格,一套图标能不能扩到官网 header、PPT 封面、社媒 banner,正文都没说。 我一直觉得,这类工具过去一年都在往同一个方向收敛:不是单点生成,而是“文案入口 + 多资产输出 + 展示包装”。Figma 在 AI 上补的是设计流,Canva 一直在补模板和演示页,很多独立开发者则走得更快,直接把 HTML/CSS/JS 变成交付层。这里用代码生成动态展示页,方向是对的,因为客户看设计稿时,第一反应常常不是“图好不好”,而是“能不能直接拿去用”。把静态图变成可展示、可演示、可嵌入的网页,转化率通常比多刷几版图更实在。 但我也有个疑虑:Logo 生成这件事本身已经很卷,门槛不在出图,在审美一致性和编辑能力。Nano Banana 这类 mockup 补得了观感,补不了品牌系统。要是后面没有字体、配色规范、留白规则、横竖版适配这些结构化输出,这个 Skill 很容易停在“适合发朋友圈”和“适合做真官网”之间。我还没查到它有没有把 SVG、可编辑图层、品牌 guideline 一起吐出来;正文没披露,这就是当前最大的缺口。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
04:35
58d ago
量子位 · 公众号· rssZH04:35 · 04·16
MSRA 让 AI 从零搭代码仓库:能写能跑,但结果不一定对
微软亚洲研究院在 ACL'26 发了一篇论文,测 AI 能不能从头建一个完整的代码仓库。标题说它能写代码也能跑起来,但输出不一定正确。正文被屏蔽了,没披露用了什么模型、跑了多少样本、成功率多少、怎么算对。关键点是:能跑通不等于仓库级别的代码正确,后者才是工程里真正要的东西。
#Code#Microsoft Research Asia#ACL#Benchmark
精选理由
HKR-H靠'从零建仓库但结果不一定对'这个反差成立,有钩子。HKR-R也成立,因为'能跑≠正确'是coding agent领域一个真实的痛点。但HKR-K不成立:页面只有标题,模型、设置、成功率、指标全都没披露,属于硬排除的零信源,所以总分压在40以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
04:06
58d ago
● P1Hacker News 首页· rssEN04:06 · 04·16
Darkbloom:用闲置 Mac 跑加密推理,号称比 OpenRouter 便宜七成
Eigen Labs 搞了个叫 Darkbloom 的去中心化推理网络,把一亿多台苹果芯片 Mac 的闲置算力攒起来卖。它提供兼容 OpenAI 的 API,主打端到端加密和硬件验证,说操作节点的人看不到你的数据。价格表上列出的 token 费用比 OpenRouter 低 50%,不是标题里的 70%,这点先打个折。正文没披露独立安全审计的具体范围,...
#Inference-opt#Safety#Multimodal#Eigen Labs
精选理由
HKR 三条全中:闲置 Mac 组网做推理的玩法有新鲜感,文章也把规模、接口、加密和价格都摆出来了。我先打个折,维持在 80 分——这还只是团队自己发的预览,审计范围、网络稳定性、攻击面边界都没经过第三方验证,论文出来之前别太激动。
一句话点评
用闲置 Mac 跑加密推理,号称比中心化 API 便宜一半,但正文没披露延迟和可用性数据,先别急着切生产流量。
锐评
Darkbloom 想做的事很直接:把全球上亿台每天闲置 18 小时的苹果芯片 Mac 变成推理节点,用户发请求时数据端到端加密,跑节点的机主看不到内容。它说自己比 OpenRouter 便宜 50%,机主拿 100% 收入,电费每小时才一两美分,听起来确实省钱。 但正文只给了价格对比,没提推理延迟、首 token 时间、节点掉线率这些跑生产最要命的指标。一个请求可能被路由到一台正在渲染视频的 Mac 上,响应速度会怎样?节点离线了怎么重试?这些都没说。另外,隐私保障依赖苹果安全硬件的认证链和系统级进程加固,听起来靠谱,但正文没给出第三方安全审计的结论,也没说明协调节点本身是否能看到请求元数据。 我会先打个折:价格优势是真的,但稳定性和延迟是未知数。适合拿来做非实时批量推理或对延迟不敏感的实验,直接替掉生产环境的 API 还太早。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
04:01
58d ago
新智元 · 公众号· rssZH04:01 · 04·16
特斯拉和OpenAI的数据路线遇挫?8000平米具身智能“兵工厂”加ego众包加速
标题说特斯拉和OpenAI的数据路线遇挫,还提到一个8000平米的具身智能“兵工厂”和ego众包加速。但正文被屏蔽了,没披露这个设施是谁的、ego众包具体怎么运作、数据集规模多大,也没说遇挫的证据是什么。信息缺口很大,没法判断真假。
#Robotics#Tesla#OpenAI#Commentary
精选理由
HKR-H和HKR-R靠标题的钩子效应和机器人数据竞争的话题性通过。HKR-K不通过,且触发硬排除规则:正文不可见,8000平米场地归属、ego众包机制、数据规模以及标题声称的遇挫证据,全都没有披露任何来源或细节。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
04:00
58d ago
FT · 科技· rssEN04:00 · 04·16
a16z合伙人:做大模型没那么难
a16z合伙人Martin Casado说“构建AI模型没那么难”。原文被付费墙挡住,没法确认他指的是基础大模型还是小模型,也没说训练成本、参数量或跟谁比。信息缺口很大,先别急着下结论。
#Benchmarking#a16z#Martin Casado#Commentary
精选理由
标题有 HKR-H 和 HKR-R,但 HKR-K 不成立,因为能读到的内容只有一句定性判断,没有任何数据、机制或具体案例支撑。这触发了硬排除规则——零来源内容,所以重要性压到 40 以下,层级定为 excluded。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
04:00
58d ago
新 · 2 信源AI 群聊日报· atomZH04:00 · 04·16
Claude Opus 4.7 发布引发评价分化,Kimi K2.6 进入测试阶段
Anthropic 发了 Claude Opus 4.7,官方数据挺好看:CursorBench 70%、视觉能力 3 倍、多步工作流快 14%,还重做了 pretrain。但 Reddit 上骂声一片,说这是严重退步。价格涨到 7.5 倍,200k 上下文,得 Pro+ 才能用。群友提醒官方指标可信度要打折。另外 Kimi K2.6 code pre...
#Memory#Code#Benchmarking#Anthropic
精选理由
这是一份群聊日报,不是一手报道。HKR-K 和 HKR-R 靠 Opus 4.7 的具体数据和 workflow 痛点过关,但硬排除项“过时重播”成立:它主要是对已报道新闻的汇总加上群友体感反馈,没有独立验证。
一句话点评
Claude Opus 4.7 发布后评价两极分化,Kimi K2.6 进入测试阶段。Opus 4.7 在写作和深度思考上获赞,但 coding 能力不如 GPT,且 Claude Code 近期频繁出现 500 错误和异常 token 消耗(一个 prompt 烧掉 5 小时用量 50%),稳定性存疑。Kimi K2.6 测试细节未披露,实际表现待验证。
锐评
Anthropic发了Claude Opus 4.7,官方数据挺亮眼:CursorBench 70%、视觉能力3倍、多步工作流快14%,还重做了pretrain。但Reddit上骂声一片,说是严重退步。价格涨到7.5倍,200k上下文,得Pro+才能用。群友提醒官方指标可信度要打折,而且中文对话风格像GPT不像Anthropic。另外Kimi K2.6 code preview灰度中,群友体感提升明显,任务完成率瞬间提升。Claude Code额度突然reset,以前一天8亿token到不了限额,现在2亿token就要烧100多刀,数量级缩水。群友还讨论了跨平台记忆统一的需求,与其等厂商打通,不如自己用本地harness或汇总md文件让所有agent共享上下文。正文没披露Opus 4.7退步的具体场景和K2.6的基准测试数据,这些判断主要来自群聊体感。
HKR 分解
hook knowledge resonance
打开信源
47
SCORE
H0·K1·R1
03:31
58d ago
X · @Yuchenj_UW· x-apiMULTI03:31 · 04·16
Claude Code 会话管理:频繁清空上下文,否则模型会变笨
一位用户建议 Claude Code 使用者频繁执行 /clear 命令,每开始一个新任务就新建一个会话,以避免长上下文导致的“上下文腐烂”(context rot)——即模型在长对话中表现下降。虽然 Claude 支持 100 万 token 的上下文长度,但作者指出模型仍会因上下文累积而变笨。正文未披露任何测试数据、评估指标或复现步骤,这条建议更多...
#Code#Tools#Memory#Commentary
精选理由
HKR-H 和 HKR-R 通过,因为“1M 上下文照样变笨”戳中了 Claude Code 用户的实际工作流痛点。HKR-K 不通过,且触发硬排除规则 6:正文没有提供任何数据、复现步骤或命名实验,因此重要性上限被卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
02:00
58d ago
36 氪 · 直链· rssZH02:00 · 04·16
前钉钉最年轻副总裁创业,要做电商Agent OS,刚又拿了几千万天使轮
攀峰智能(K2 Lab)由前钉钉最年轻副总裁王铭创立,成立不到半年再获数千万天使轮融资,华控资本领投、云时资本跟投。产品叫Moras,定位是内容电商的Agent OS,目前主要帮TikTok上粉丝5000到5万的达人和商家自动完成选品、写脚本、剪视频、发布、分析数据等环节,目标是让AI替人干活。邀测数据显示,活跃达人用Moras后月均GMV接近1万美元...
#Agent#Tools#Panfeng Intelligence#DingTalk
精选理由
HKR-H靠创始人背景和电商Agent OS概念通过,有话题钩子。HKR-K和HKR-R不通过,因为正文为空,只给了模糊的天使轮金额和赛道,投资方、估值、产品形态、客户规模、交付进展全未披露,属于低价值融资快讯。
一句话点评
前钉钉最年轻副总裁王铭创立的攀峰智能,刚又拿了数千万天使轮融资,要做电商Agent OS。产品叫Moras,帮TikTok中小达人自动选品、写脚本、剪视频、发布一条龙。邀测数据挺亮眼:活跃达人月均GMV近1万美元,有人首周破万,出单率超70%。但注意,这是邀测数据,样本量和用户筛选标准没披露,先别太激动。团队背景强,但产品目前自称只有60分带货能力,离稳定大几万美元还远。融资额和估值也没说,...
锐评
攀峰智能再次完成数千万元天使轮融资,但正文未披露投资方、估值、产品形态和客户规模。我的判断很直接:这条先别按“Agent OS”看,先按“电商垂类服务公司在找产品楔子”看。信息太少时,最容易被创始人履历和概念词带着走。 我一直觉得,“Agent OS”这几个字在 2026 年已经有点泛化了。你只要接入模型、工作流、工具调用、权限系统,再包一层商家后台,就都能往这个名字上靠。问题不在名字,问题在交付边界。电商场景里最硬的不是对话,也不是生成几段营销文案,而是跨系统执行:商品上新、库存同步、投放调价、客服升级、售后判责、达人协同、财务对账。这里每一项都要接 ERP、店铺后台、广告平台、IM 和审批链。少一环,Agent 就只是副驾驶;多几环,才接近操作系统。标题给了方向,正文没给任何一条可复现的工作流,这个缺口很大。 外部参照其实不少。过去一年里,国内外一批“行业 Agent”公司最后都收缩成两类:一类是外呼、客服、投放优化这种单点自动化,能卖,但天花板清楚;一类是深度嵌进业务系统,拿流程权限和结果责任,卖得慢,黏性高。我没查到攀峰现在落在哪一类。要是它只是把通用模型接到电商 SaaS 上,再做一个任务面板,那和市面上店小蜜、微盟、有赞生态里的 AI 插件差距不会太大。要是它已经能替商家稳定执行闭环,比如在限定类目下把“选品—上架—投放—客服复盘”跑通,哪怕先只做 20 个头部客户,这条才开始成立。 我对这条融资叙事还有一个保留。标题把“前钉钉最年轻副总裁”放得很前,这对拿早期信任当然有用,但钉钉背景更擅长的是组织协同和企业软件分发,不自动等于电商交易理解、供给侧整合和渠道运营。电商 Agent 的难点不是做出一个会说话的入口,而是把错单、退款、平台规则变更、活动流量波动这些脏活吞进去。这个能力要靠行业数据、接口控制权和交付团队,不靠头衔。 说真的,现阶段我更想看到三个数字。第一,已接入多少个核心系统,至少要有店铺后台、ERP、广告平台中的两个。第二,单客户月活任务量是多少,是 100 次还是 10 万次,这决定它是演示品还是生产工具。第三,自动执行占比和人工回退率各是多少。正文一个都没给,所以这笔“数千万元”更像是为验证期买时间,不是产品已经跑出来的证明。要是后面补披露的是头部品牌续费率、任务成功率和毛利结构,我会更认真看它;现在这条,我先放在“概念成立,落地未证”这一档。
HKR 分解
hook knowledge resonance
打开信源
50
SCORE
H1·K0·R0
00:00
58d ago
● P1OpenAI 博客· rssEN00:00 · 04·16
OpenAI发布GPT-Rosalind生命科学研究模型
OpenAI 在 2026 年 4 月 16 日推出了 GPT-Rosalind,一个专门面向生物学、药物发现和转化医学的前沿推理模型。它现在以研究预览版的形式在 ChatGPT、Codex 和 API 里对通过审核的客户开放。模型的核心卖点是能处理多步骤的科研流程,比如读文献、理解基因序列、设计实验和做数据分析,并且能调用超过 50 种科学工具和数据...
#Reasoning#Tools#Code#OpenAI
精选理由
我会先打个折:正文没披露模型参数、价格和具体基准分数,所以别急着把它当成熟产品看。真正值得盯的是落地范围——OpenAI 把 Amgen、Moderna、Thermo Fisher 这些大药企拉进来做 research preview,说明他们想用真实业务场景验证模型,而不是发个论文就完事。Codex 里那个免费的生命科学插件能连 50 多个工具和数据源,对做生物信息学的人可能挺实用,但没给性能数据,这点先别太激动。整体看,这是 OpenAI 往垂直行业扎的一步,但信息缺口不小,暂时只能给 featured。
一句话点评
OpenAI 发了专攻生物医药的模型 GPT-Rosalind,主打多步骤科研流程,但官方没给具体跑分,效果先打七折看。
锐评
OpenAI 这次推的 GPT-Rosalind,是一个专门为生命科学、药物发现和转化医学做的推理模型。它的核心卖点不是聊天,而是能直接进科研流程干活:读文献、查基因蛋白数据库、设计实验、分析数据,相当于给科学家配了一个能调用 50 多种专业工具的助手。官方说已经在跟安进、Moderna、赛默飞这些大药企合作测试了。 不过,这篇公告里缺的东西也很明显。它只展示了几个例子,比如有机化学反应优化、蛋白质理解,但没有给出任何量化的基准测试成绩。我们不知道它在标准分子对接、突变效应预测或基因组学任务上,比现有模型到底强多少,误差率、成功率这些关键数字一概没提。正文也没披露模型规模、推理成本和延迟,这对实际落地很重要。 目前它只通过受信访问计划开放给特定客户,普通研究者还摸不到。所以我的判断是:方向对,但信息太少。它能不能真的把新药研发那 10 到 15 年的周期缩短,还得等第三方实测和论文出来再说。
HKR 分解
hook knowledge resonance
打开信源
95
SCORE
H1·K1·R1

更多

频道

后台