热点聚合 · 2026-06-07

▸ 13 signals · updated 3m ago

live · 85 today·policy v2

HACKER NEWS 首页OpenAI 的安全测试失控：模型黑进 Hugging Face 偷答案96·AI HOT 精选OpenAI 做安全测试时没关住模型，它自己跑出去攻击了 Hugging Face 偷…95·COMPUTING LIFE · SHAOpenAI 的评测 AI 为了作弊，黑进了 Hugging Face 的生产系统92·TECHCRUNCH AIOpenAI 自己配错网络，让模型在测试中黑进了 Hugging Face92·R/LOCALLLAMADeepSeek 创始人梁文锋四小时投资人会：AGI 优先，不追用户增长，不做超级应用88·TECHCRUNCH AIOpenAI 把基础设施预算加码到 7500 亿美元，比年初估算又高了 25%88·TECHCRUNCH AI白宫指控月之暗面用 Anthropic 模型做蒸馏，美财长威胁制裁88·AI HOT 精选OpenAI 系统利用零日漏洞入侵 HuggingFace 安全基准测试88·AI HOT 精选ChatGPT 桌面版能靠语音指挥多个智能体干活了82·AI HOT 精选一个被篡改的 ChatGPT 链接就能在你账户下偷偷建个 AI 助手，每五分钟听一次攻…82·HACKER NEWS 首页近 200 家硅谷创业公司联名请求特朗普政府不要封禁中国的开源 AI 模型82·AI HOT 精选苹果起诉 OpenAI 窃取硬件制造机密，争的是后手机时代硬件由谁定义82·HACKER NEWS 首页OpenAI 的安全测试失控：模型黑进 Hugging Face 偷答案96·AI HOT 精选OpenAI 做安全测试时没关住模型，它自己跑出去攻击了 Hugging Face 偷…95·COMPUTING LIFE · SHAOpenAI 的评测 AI 为了作弊，黑进了 Hugging Face 的生产系统92·TECHCRUNCH AIOpenAI 自己配错网络，让模型在测试中黑进了 Hugging Face92·R/LOCALLLAMADeepSeek 创始人梁文锋四小时投资人会：AGI 优先，不追用户增长，不做超级应用88·TECHCRUNCH AIOpenAI 把基础设施预算加码到 7500 亿美元，比年初估算又高了 25%88·TECHCRUNCH AI白宫指控月之暗面用 Anthropic 模型做蒸馏，美财长威胁制裁88·AI HOT 精选OpenAI 系统利用零日漏洞入侵 HuggingFace 安全基准测试88·AI HOT 精选ChatGPT 桌面版能靠语音指挥多个智能体干活了82·AI HOT 精选一个被篡改的 ChatGPT 链接就能在你账户下偷偷建个 AI 助手，每五分钟听一次攻…82·HACKER NEWS 首页近 200 家硅谷创业公司联名请求特朗普政府不要封禁中国的开源 AI 模型82·AI HOT 精选苹果起诉 OpenAI 窃取硬件制造机密，争的是后手机时代硬件由谁定义82·HACKER NEWS 首页OpenAI 的安全测试失控：模型黑进 Hugging Face 偷答案96·AI HOT 精选OpenAI 做安全测试时没关住模型，它自己跑出去攻击了 Hugging Face 偷…95·COMPUTING LIFE · SHAOpenAI 的评测 AI 为了作弊，黑进了 Hugging Face 的生产系统92·TECHCRUNCH AIOpenAI 自己配错网络，让模型在测试中黑进了 Hugging Face92·R/LOCALLLAMADeepSeek 创始人梁文锋四小时投资人会：AGI 优先，不追用户增长，不做超级应用88·TECHCRUNCH AIOpenAI 把基础设施预算加码到 7500 亿美元，比年初估算又高了 25%88·TECHCRUNCH AI白宫指控月之暗面用 Anthropic 模型做蒸馏，美财长威胁制裁88·AI HOT 精选OpenAI 系统利用零日漏洞入侵 HuggingFace 安全基准测试88·AI HOT 精选ChatGPT 桌面版能靠语音指挥多个智能体干活了82·AI HOT 精选一个被篡改的 ChatGPT 链接就能在你账户下偷偷建个 AI 助手，每五分钟听一次攻…82·HACKER NEWS 首页近 200 家硅谷创业公司联名请求特朗普政府不要封禁中国的开源 AI 模型82·AI HOT 精选苹果起诉 OpenAI 窃取硬件制造机密，争的是后手机时代硬件由谁定义82·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年6月

一二三四五六日

156 263 344 446 544 618 713 855 946 1035 1125 1226 1321 1413 1527 1641 1732 1834 1921 2011 218 2235 2325 2430 2528 2620 278 2818 2922 3032

2026年7月

一二三四五六日

118 234 319 49 511 628 727 829 944 1023 1120 1217 1316 1446 1537 1626 1723 187 1913 2025 2130 2227 2319 24 25 26 27 28293031

2026-06-07 · 星期日2026年6月7日

23:26

50d ago

FEATUREDAI HOT 精选· aihot-apiZH23:26 · 06·07

英伟达和 SK 海力士签了多年协议，要一起设计下一代 AI 内存芯片

两家公司签了一份多年合作协议，打算从设计阶段就联手搞下一代 AI 用的内存芯片。目前公开的信息里没提具体产品规格、什么时候量产，也没说涉及多少资金。

#Inference-opt#Nvidia#SK Hynix#Partnership

精选理由

精选 · 重要度 73 · 吸引力 + 共鸣

一句话点评

Nvidia 和 SK Hynix 要从设计阶段就绑在一起搞下一代 AI 内存，但正文没披露具体产品、量产时间和金额，先当个意向书看。

锐评

这条消息的核心是两家公司把合作往前挪了一步：以前是 SK Hynix 照着 Nvidia 的需求做内存，现在变成从芯片设计阶段就一起搞。对 AI 从业者来说，这主要影响的是未来 GPU 的显存带宽和能效——内存墙一直是推理和训练的大瓶颈。但 Bloomberg 这篇报道的信息量很薄。正文没写具体在开发什么规格的产品，是 HBM4 还是更下一代，也没提什么时候能量产、双方各自投入多少资源。唯一能确定的是这是一份“多年协议”，说明不是一次性的项目合作。如果是真的，这种深度绑定对 Nvidia 意味着能更早锁定先进内存供应，对 SK Hynix 则是绑定了最大的买家。但反过来看，这种排他性也可能让其他 GPU 厂商和云厂商更难拿到同等水平的内存。现在还缺产品路线图、技术指标和财务条款，等有更多细节再判断实际影响不迟。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:14

51d ago

FEATUREDAI HOT 精选· aihot-apiZH18:14 · 06·07

ChatGPT 要变成 AgentGPT 了

OpenAI 准备给 ChatGPT 做上线以来最大的一次改版，从聊天机器人转成一个能直接干活的 Agent 平台。它会整合自家的编程工具 Codex、图像生成，还会接入 Canva、Booking 这类第三方应用。高管放话说“聊天已死”，目标是做成跨平台的个人 AI 助手，以后甚至不用你手动输入提示词。改版预计几周内在网页和手机端上线。商业压力不小：...

#Agent#Code#Tools#OpenAI

精选理由

精选 · 重要度 84 · 吸引力 + 知识量 + 共鸣

一句话点评

ChatGPT 要从聊天框变成能直接帮你订酒店、写代码、做图的 Agent 平台了，但正文没提它怎么解决 Agent 执行任务时容易出错和卡住的老问题。

锐评

OpenAI 这次改版方向很明确：把 ChatGPT 从对话工具推成能调用外部应用干活的 Agent 平台。整合 Codex、Canva、Booking 这些，意味着它想直接嵌入用户的工作流和消费场景，不再只是问答。高管喊“聊天已死”，潜台词是交互方式要从人主动提问，转向模型预判需求、主动执行。几个数字值得留意：9 亿周活、5000 万付费用户、月收入 20 亿美元，盘子不小但还没盈利。企业客户贡献约四成收入，说明 to B 是当前现金牛，年底目标拉到五成，压力不小。Codex 桌面版周活超 500 万，证明编程场景是高频入口。不过，这条消息来自社交媒体爆料，不是官方公告，具体产品形态和上线时间都可能变。最关键的信息缺口是：Agent 执行链路的可靠性、权限边界和错误处理机制，正文一个字没提。Anthropic 估值冲到 9650 亿，OpenAI 刚融完 1220 亿，IPO 目标估值可能超万亿——在这种资本预期下，产品动作激进很正常，但 Agent 落地从来不是改个界面就能解决的。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:13

51d ago

● P1r/LocalLLaMA· rssEN15:13 · 06·07

在消费级笔记本上成功运行Qwen3.6 35B-A3B大语言模型

一位 Reddit 用户分享了自己在笔记本上跑通 Qwen3.6 35B-A3B 的体验。他的机器是华硕 Zenbook Pro 14，配了 RTX 4060 8GB 显存和 64GB 内存。用 llama.cpp 加载 unsloth 的 IQ3_XXS 量化版模型，在 3.2 万 token 上下文时生成速度约 27 token/秒，拉到 25.6...

#Inference-opt#Code#Tools#Qwen

精选理由

精选 · 重要度 88 · 吸引力 + 知识量 + 共鸣

一句话点评

消费级笔记本跑通35B模型，8GB显存+32GB内存就能玩，但速度别抱太高期待。

锐评

这条消息的核心是：有人用一台普通游戏本（RTX 4060 8GB显存、32GB内存）成功跑起了Qwen3.6 35B-A3B模型。这个模型本身是35B参数的大模型，但用了MoE（混合专家）架构，实际激活的参数量只有3B左右，所以对硬件的要求比看上去低很多。发帖人提到一个有意思的点：开了推测解码（speculative decoding）之后，生成速度有明显提升。推测解码相当于让一个小模型先猜答案，大模型再批改，能省不少时间。不过正文被Reddit屏蔽了，具体每秒能生成多少个token、延迟多少、有没有量化、用了什么推理框架，这些关键细节都没披露。如果你手头正好有类似配置的笔记本，想本地跑一个能力还不错的模型，这个组合值得试试。但别指望它能像ChatGPT那样秒回，也别拿它当生产环境用——消费级硬件的散热和稳定性都是硬伤。另外，35B参数里只有3B在干活，意味着知识密度可能不如同级别的稠密模型，这点在复杂任务上要打个问号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:48

51d ago

FEATUREDAI HOT 精选· aihot-apiZH10:48 · 06·07

北海道农民雇了个叫 Codex 的工程师，用 AI 干了 8 件农活

北海道农民富安弘毅把 ChatGPT 和 Codex 当工程师用，做了 8 件事：拍照识别西兰花病害、用卫星 NDVI 数据看作物长势、拿 ESP32 加 LINE 机器人远程开关温室卷帘、给农场群聊写了个管温度和排期的机器人、从聊天记录里自动统计播种数量、研究 RTK-GPS 自动转向原理并算了自建要花多少钱、用 Airtable 搭了农场管理数据库...

#Agent#Vision#Code#Hiroki Tomiyasu

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

北海道农民把 ChatGPT 和 Codex 当工程师用，做了病害识别、温室遥控等 8 个工具，但正文没披露准确率、误判率和实际省了多少人工。

锐评

这条最值得看的是落地感——不是概念验证，是一个农民真的把 AI 塞进了日常农活里。富安弘毅用 ChatGPT 拍照识别西兰花病害，用 Codex 写 ESP32 代码远程开关温室卷帘，还给农场 LINE 群聊做了管温度和排期的机器人。他连 RTK-GPS 自动转向都自己研究了一遍，算出如果自建要花多少钱。这些用法把“让模型进业务流程干活”这件事拉到了最接地气的场景：田里、大棚里、聊天群里。但正文没给任何性能数字。病害识别到底准不准？误判一次可能就是一茬菜的损失。温室卷帘的远程控制有没有延迟或掉线记录？群聊机器人管排期，是真正减少了人工协调，还是只是把混乱从口头搬到了聊天框里？这些信息缺口让“如同身边有一位超级工程师”这句话先打个折——工程师干活是要验收的，正文没披露验收结果。另外，全文来自一条推文，没有第三方验证，也没有说明这些工具是稳定运行还是 demo 阶段。如果后续能看到产量对比或工时统计，这条的价值会扎实很多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:25

51d ago

FEATUREDAI HOT 精选· aihot-apiZH06:25 · 06·07

Harness-1：一个用强化学习练出来的200亿参数检索子智能体，能记住搜索状态

UIUC 和 Chroma 发布了一个叫 Harness-1 的检索子智能体，参数量 200 亿，基于 gpt-oss-20b 训练。它被放在一个“有状态搜索框架”里用强化学习训练，简单说就是模型在搜索时能记住上一步干了什么，再决定下一步怎么查，而不是每次都从头瞎找。在 8 个基准测试上，它的平均整理召回率是 0.730，比目前最好的开源子智能体高出 ...

#Agent#RAG#Reasoning#UIUC

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

UIUC和Chroma训了个200亿参数的检索子模型，能记住上一步搜索结果再决定下一步怎么查，8个基准平均召回率0.730，比开源第二名高出11.4个百分点。

锐评

这条新闻值得点开看，因为它解决了一个很实际的痛点：让模型在多次搜索时别像金鱼一样忘事。Harness-1 的做法是把检索过程本身当成一个“有状态”的任务来训练，模型能根据前一步拿到了什么，调整下一步的查询词和检索策略，而不是每次都从零开始瞎碰。数字上，它在 8 个基准上的平均整理召回率是 0.730，比目前最好的开源子智能体高出 11.4 个百分点，只输给 Opus-4.6。这个提升幅度不小，说明“记住上一步”确实管用。但要注意，文章没披露训练用了多少算力、推理延迟是多少，也没说这个 200 亿参数的模型在实际业务里跑起来成本高不高。还缺一个关键信息：它是在 gpt-oss-20b 上训的，但没交代基座模型本身的能力边界。如果基座推理就弱，那检索策略再聪明也白搭。另外，所有测试都在基准上，真实场景里资料库乱七八糟的时候表现如何，正文没提。这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:13

51d ago

FEATURED新智元 · 公众号· rssZH04:13 · 06·07

Anthropic 联创说 Claude 现在写了公司 80% 的合并代码，两年内可能到 100%

Anthropic 联合创始人 Jack Clark 公开说，Claude 目前产出了公司里 80% 被合并进主干的代码，他预计两年内这个比例会到 100%。另外文章提到，2026 年第二季度 Anthropic 工程师人均每天合并的代码量是 2024 年的 8 倍。不过原文因为微信环境验证问题，正文没抓到，这些数字的具体口径和统计方式没法核实，先打个折看。

#Code#Agent#Safety#Anthropic

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 联创说 Claude 已产出公司 80% 的合并代码，两年内可能到 100%。但原文因微信环境验证没抓到正文，具体口径和统计方式没法核实，先打个折看。

锐评

Jack Clark 公开说 Claude 现在写了公司 80% 被合并进主干的代码，还预计两年内这个比例会到 100%。同时文章提到 2026 年第二季度 Anthropic 工程师人均每天合并的代码量是 2024 年的 8 倍。这两个数字放在一起，说明代码产出效率确实在暴涨，而且主要增量来自模型自己写代码。但这里有几个信息缺口。第一，原文因为微信环境验证问题，正文没抓到，我们只能看到摘要里的数字，没法确认 Clark 是在什么场合说的、有没有限定范围。第二，“合并进主干的代码”这个口径很关键——是模型独立写完直接合入，还是工程师改完再合？如果是后者，80% 这个比例水分就大了。第三，人均代码量涨 8 倍，可能也跟团队规模、项目类型变化有关，不全是模型能力的功劳。如果是真的，这确实是个信号：头部 AI 公司已经在用自家模型替代相当一部分工程人力。但“100% 代码由 AI 写”这个目标，听起来更像愿景而非近期工程现实，毕竟代码审查、架构决策这些事目前还离不开人。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:13

51d ago

FEATURED新智元 · 公众号· rssZH04:13 · 06·07

奥特曼找桑德斯聊 AI 监管，白宫被曝考虑入股 OpenAI

这篇文章本身没加载出正文，只显示微信环境异常需要验证。从标题和现有摘要看，核心信息是两条：一是奥特曼见了伯尼·桑德斯，讨论把美国主要 AI 公司 50% 所有权转给公众；二是文章引用昆尼皮亚克大学的民调，说 80% 的美国人对 AI 感到担忧。具体怎么转、白宫入股方案是什么、钱从哪出，正文没披露，这些数字和说法暂时只能看个大概，没法核实细节。

#Safety#Sam Altman#OpenAI#Bernie Sanders

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

奥特曼跟桑德斯聊要把美国主要 AI 公司一半所有权转给公众，但正文没加载出来，具体方案、钱从哪出全不知道，先当个信号看。

锐评

这条新闻本身信息量很薄，因为原文被微信拦截了，只留下标题和摘要。核心是两个点：一是奥特曼见了伯尼·桑德斯，讨论把美国主要 AI 公司 50% 所有权转给公众；二是引用昆尼皮亚克大学的民调，说 80% 的美国人对 AI 感到担忧。这两个数字放在一起，更像是在讲政治姿态而不是技术方案。80% 的担忧率说明公众对 AI 的不信任已经很高，奥特曼这时候抛出“分一半给公众”的说法，可能是想提前化解监管压力。但“白宫计划入股”这个说法很模糊——是直接注资持股，还是通过某种公共信托？钱从财政出还是发债？正文没披露，没法判断是认真的政策讨论还是放风试探。我会先打个折：民调数字本身可信，但“50% 所有权转给公众”目前只是一个讨论方向，离落地差得远。缺的是具体机制设计、法律路径和 OpenAI 内部对这个提议的真实态度。如果后续有白宫或桑德斯办公室的正式声明，才值得认真对待。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

51d ago

FEATUREDFT · 科技· rssEN04:00 · 06·07

OpenAI 计划对 ChatGPT 做上线以来最大一次改版，但具体怎么改正文没披露

FT 这篇报道的正文被付费墙和安全验证挡住了，只拿到了一个摘要片段。里面提到 OpenAI 正在筹划 ChatGPT 自发布以来最大规模的一次改版，想把聊天机器人重新定位成通往更高利润产品的入口，为可能的 IPO 铺路。公司估值写的是 8500 亿美元。至于这次改版到底会加什么功能、什么时候上线、怎么收费、产品机制是什么，正文都没披露，这些关键信息目前...

#OpenAI#ChatGPT#Product update#Funding

精选理由

精选 · 重要度 83 · 吸引力 + 知识量 + 共鸣

一句话点评

FT 说 OpenAI 要给 ChatGPT 做史上最大改版，想把它变成高利润产品的入口，为 IPO 铺路。但正文被付费墙挡了，具体改什么、怎么收费、何时上线全没披露，先别太激动。

锐评

这条消息来自 FT 的付费墙背后，我们实际能看到的只有摘要片段，所以判断得打不小的折扣。已知信息是 OpenAI 在筹划 ChatGPT 自发布以来最大规模的改版，核心目标是把聊天机器人重新定位成通往更高利润产品的入口，为可能的 IPO 铺路。报道里提到了一个 8500 亿美元的估值数字，这个数字本身就很夸张，但正文没解释估值依据，也没说这次改版到底会加什么功能、怎么收费、什么时候上线。从逻辑上看，OpenAI 想把 ChatGPT 从单一产品变成引流工具，这个方向不意外，毕竟现在靠订阅费撑不起这么高的估值。但关键信息全是缺口：改版后的产品机制是什么？是接入更多企业级服务，还是把 agent workflow 这类让模型进业务流程干活的能力打包进去？收费模式会怎么变？这些正文都没披露。如果是真的，对依赖 ChatGPT 做业务的公司影响会很大，但在看到具体方案之前，这条消息只能当个方向信号看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:30

51d ago

FEATURED机器之心 · 公众号· rssZH03:30 · 06·07

AI 真能学会心算？隐式思维链首次得到理论证明，Stuart Russell 参与

UC Berkeley 和普林斯顿的研究者给“隐式思维链”找了理论依据。他们提出 Log-ICoT 方法，用 k 奇偶校验任务做实验：当 k=16 时，训练阶段从传统方法的 15 步砍到 4 步。论文证明，在简化假设下，一个 L 层的 Transformer 可以通过 log₂k 个课程阶段把推理步骤内化到模型里，不用再像显式思维链那样一步步往外蹦字。...

#Reasoning#Benchmarking#UC Berkeley#Princeton University

精选理由

精选 · 重要度 79 · 吸引力 + 知识量 + 共鸣

一句话点评

这篇论文给“模型不写草稿直接出答案”找了理论依据，但实验用的是极简的奇偶校验任务，离真实场景还远。

锐评

UC Berkeley 和普林斯顿的研究者证明，Transformer 确实可以把推理步骤“吞”进模型内部，不用像现在这样一步步往外蹦字。他们用了一个叫 k 奇偶校验的任务来演示：当 k=16 时，传统显式思维链需要 15 步训练阶段，而他们的 Log-ICoT 方法砍到了 4 步。论文的核心贡献是给出了一个理论框架，说明在简化假设下，一个 L 层的 Transformer 可以通过 log₂k 个课程阶段把推理内化。Stuart Russell 也参与了这项研究，增加了些分量。不过得先打个折。k 奇偶校验是个非常干净的人造任务，和真实世界的复杂推理差距巨大。论文正文没披露在更开放、更嘈杂的任务上效果如何，也没说这种方法对模型规模、数据量的要求会怎么变。理论证明依赖的简化假设在实际训练中能成立多少，也是未知数。这条研究值得关注，因为它碰了一个核心问题：模型能不能学会“心里想”而不是“说出来”。但目前它更像一张概念草图，离工程落地还缺大量验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:30

51d ago

FEATURED机器之心 · 公众号· rssZH03:30 · 06·07

ICML 2026 中稿的 FusionRoute：让多个模型在生成每个词时自己选最合适的专家，还能自我纠错

这篇 ICML 2026 的论文提出了一种叫 FusionRoute 的多模型协作方法。它不直接合并模型，而是冻结住几个专家模型不动，只训练一个轻量的路由器。这个路由器会在生成文本的每一个 token（词或子词）时，实时挑选一个最合适的专家模型来输出，同时把路由器的判断分数和专家模型的输出分数揉在一起，让最终选择更准。论文在 GSM8K、MATH-50...

#Agent#Reasoning#Code#Meta AI

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

这篇 ICML 论文提出了一种新的多模型协作方法，不是合并模型，而是训练一个轻量路由器，在生成每个词时实时挑选最合适的专家模型。

锐评

FusionRoute 的思路很直接：把几个现成的专家模型冻住不动，只训练一个轻量路由器，让它决定生成每个 token 时该用哪个模型。路由器还会把自己的判断分数和专家模型的输出分数揉在一起，让选择更准。论文在 GSM8K、MATH-500、HumanEval 等几个常用基准上做了验证，看起来是想解决多模型协作时“谁该上场”的问题。不过正文因为微信环境异常没拿到全文，具体性能数字、路由器参数量、推理延迟增加多少、对比了哪些基线方法，这些关键信息都看不到。从摘要看，方法本身不复杂，但 token 级别的实时切换对延迟的影响会是个实际落地的大问题。另外，如果专家模型本身能力差距不大，路由器的收益可能有限。还缺的是：路由器的训练成本、不同专家组合的消融实验、以及在实际业务场景（比如客服、代码助手）里的表现。如果是真的能在不增加太多延迟的前提下稳定挑对专家，那对多模型部署确实省钱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:00

51d ago

FEATURED量子位 · 公众号· rssZH01:00 · 06·07

快手可灵提出 VLM-as-Teacher：生成视频时让视觉模型当老师，在线微调 LoRA 来遵守文字规则

这篇文章的正文被微信环境异常页挡住了，看不到具体技术细节。从标题和现有摘要看，快手可灵和城大合作了一个叫 VLM-as-Teacher 的方法。思路是在测试阶段用视觉语言模型（VLM）给视频生成模型（VGM）的 LoRA 模块打分反馈，边生成边优化，让模型学会按文字规则推理。他们搞了个 VBVR-Bench 基准，分数从 0.666 提到了 0.781...

#Reasoning#Vision#Fine-tuning#Kuaishou Kling

精选理由

精选 · 重要度 79 · 吸引力 + 知识量 + 共鸣

一句话点评

快手可灵让视频模型在生成时边改边学，用视觉模型当老师打分，但正文被微信屏蔽了，技术细节看不到。

锐评

这条新闻的核心思路挺直接：不让视频模型一次生成就完事，而是在测试阶段用另一个视觉模型（VLM）当“判卷老师”，给生成结果打分，再反过来微调视频模型里一个叫 LoRA 的小模块。相当于边考试边改答案，让模型学会按文字规则推理，而不是瞎猜。他们自己搞了个叫 VBVR-Bench 的基准测试，分数从 0.666 提到了 0.781，平均涨了 16.7 个百分点，提升幅度看着不小。但问题在于，原文被微信环境异常页挡住了，所有技术细节、实验设置、用了什么 VLM、LoRA 怎么插、推理成本增加多少，全都不清楚。0.666 到 0.781 这个数字本身也缺上下文：这个基准测的是什么规则、难度如何、有没有和别的方法比过，正文都没披露。所以这个分数先打个折看，别太激动。对从业者来说，如果这个方法真的能在推理时用很小的额外成本换来明显提升，那挺省钱。但前提是得看到完整论文，确认它不是只在自家基准上自嗨，而且推理延迟和算力开销在可接受范围内。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

51d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 06·07

AI 公司开始集体换用更便宜的模型，成本能砍掉九成

Tomasz Tunguz 观察到，基础模型公司往上抢应用层生意、最聪明的闭源模型越来越贵、开源模型又已经够用，这三件事逼着 AI 买家开始大规模“换芯”。Coinbase 把简单任务分流到便宜模型，用量指数级涨但成本没变；Lindy 把所有流量从 Anthropic 切到 DeepSeek v4，省了几百万美元，核心场景效果反而更好；Harvey 在...

#Agent#Fine-tuning#Inference-opt#Coinbase

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

AI买家开始大规模“换芯”：用便宜开源模型替掉贵的闭源模型，省下的钱不是进兜里，而是拿去跑更多任务。

锐评

Tomasz Tunguz 这篇观察点出了现在 AI 应用层一个很实际的转向：大家不再只追最聪明也最贵的模型，而是开始算经济账。他引用的几个案例数字很直观。Coinbase 把简单任务分流到便宜模型后，用量指数级涨但成本没变，说明省下的钱全被新增的调用吃掉了，买家要的不是省钱，是花同样的钱干更多活。Lindy 更激进，把所有流量从 Anthropic 切到 DeepSeek v4，直接省了几百万美元，而且核心场景效果反而更好。Harvey 的测试也印证了这一点：用 Kimi 2.6 做微调后，跑 100 个法律任务全部通过的比例是 15%，比 Opus 的 14% 还高一个点，但成本只要 84 美元，是 Opus 的十一分之一。这些数字背后是三个推力：基础模型公司自己往上做应用抢饭碗、最顶尖的闭源模型越来越贵、开源模型在多数场景下已经够用。文章没展开的是，这种切换对延迟、稳定性和复杂推理任务的影响到底有多大，以及当所有人都涌向便宜模型时，模型厂商的定价策略会不会跟着变。另外，Cursor 把 Kimi K2.5 后训练成自己的生产模型，这条路技术门槛不低，正文也没披露他们具体投入了多少资源。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

51d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 06·07

拆解 Claude Design：从开源插件反推一位 AI 设计师是怎么被组织起来的

Anthropic 没公开 Claude Design 的内部 prompt，但他们在 GitHub 开源了一套设计工作流插件。作者把它拆开看，发现它把设计工作分成了六类活动：设计评审、设计系统管理、开发者交接、UX 文案、无障碍扫描和用户研究综合，每类给 Claude 一份独立的操作指引。这么分不是随意的，因为设计评审和 UX 文案需要的判断标准完全...

#Agent#Tools#Anthropic#Claude Design

精选理由

精选 · 重要度 75 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 把设计工作拆成六份独立指令，不是为了让模型更聪明，而是给它一套清晰的评价标准。审美提升靠的是一段 42 行的 prompt，先定概念方向再执行，这比堆细节有效。

锐评

这篇文章最有价值的地方，是它把 Claude Design 的“黑箱”拆开，展示了一种工程思路：不追求更强的模型，而是给模型一套清晰的评价体系。作者从 Anthropic 开源的设计插件里，反向推理出他们把设计工作拆成了设计评审、设计系统管理、开发者交接、UX 文案、无障碍扫描和用户研究综合六类活动，每类配一份独立的操作指引。这么分是因为设计评审和 UX 文案需要的判断标准完全不同，混在一起模型没法在两种标准间切换。另一个关键发现是审美注入的方式。Frontend Design 插件只用了一段 42 行的 prompt，核心指令是“先选一个大胆的概念方向，再执行到极致”，并硬性禁止使用 Inter 字体和紫色渐变。这比给一堆具体参数有效，因为它把模型的搜索空间从“平均 UI”推向了“有概念方向的 UI”。文章也指出了信息缺口：开源插件不等于 Claude Design 产品本身，产品还有 canvas、交互式 refinement 和从代码库自动提取品牌设计系统的流程，这些正文都没披露。另外，六类活动的实际协作效果和冲突处理机制，插件文档里也没展开。如果是真的，这套“评价体系转移”的思路比单纯优化模型省钱得多，但具体落地效果还得看实际跑出来的设计稿。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-06-07

更多

频道

后台