AX 严选 · 2026-05-11

▸ 32 条 · updated 3m ago

2026年5月

一二三四五六日

1 2 3 4 5 6 736 819 921 1010 1132 1228 1335 1438 1528 1617 179 1824 1947 2026 2132 2236 237 246 257 2625 2729 2834 2936 308 316

2026年6月

一二三四五六日

138 235 332 422 532 610 78 829 944 1029 1129 1215 1371415161718192021222324252627282930

2026-05-11 · 星期一2026年5月11日

23:18

32d ago

AI HOT 精选· aihot-apiZH23:18 · 05·11

AWS 发了一篇长文，讲怎么搭大模型训练和推理的基础设施

AWS 在 Hugging Face 上发了一篇博客，把大模型从训练到推理需要的基础设施拆成三层：计算（H100、H200、Blackwell B200/B300 这些 GPU 实例）、网络（NVLink 和 EFA）、存储（分布式共享存储）。上层用 Slurm 或 Kubernetes 管资源，再往上跑 PyTorch、JAX 这些框架，监控用 Pr...

#Inference-opt#AWS#NVIDIA#Hugging Face

精选理由

触发硬排除-云厂商推广：这篇文章是 AWS 针对训练和推理的基础设施指南，没有范式级别的产品变化。只有 HKR-K 通过，因此分数上限为 39。

一句话点评

AWS 把大模型从训练到推理所需的基础设施拆成三层：计算（H100/H200/B200/B300 GPU）、网络（NVLink+EFA）、存储（分布式共享），上层用 Slurm 或 K8s 管资源，再跑 PyTorch/JAX。说白了就是一份 AWS 云上搭模型工厂的硬件选型清单，适合正在选云方案的人快速对齐。但全文基本是产品介绍，没给任何实测数据或成本对比，比如 H200 比 H100 快...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

23:10

32d ago

AI HOT 精选· aihot-apiZH23:10 · 05·11

纳德拉出庭反击马斯克：你有我手机号，从没抱怨过微软与OpenAI的合作

微软CEO纳德拉在马斯克诉OpenAI案中作证，核心反驳两点：一是马斯克2016年曾发邮件感谢微软给OpenAI提供折扣算力，微软当时甚至亏了1500万美元（约1.02亿人民币）；二是马斯克有纳德拉手机号，但直到2024年起诉前，从未对双方合作表达过不满。纳德拉还评价2023年奥尔特曼被董事会短暂解雇是“业余之举”，称自己当时出面稳住局面是为了防止员工...

#Safety#Satya Nadella#Elon Musk#OpenAI

精选理由

这条新闻主要是庭审现场的口头交锋和细节披露，没有带来新的监管动作、产品变化或政策转向。纳德拉的'手机号'梗有传播力，但信息增量有限——微软亏损和感谢邮件只是佐证双方早期关系，不影响当前格局。评分卡在60-71区间的高位，因为话题热度够，但实质影响弱。

一句话点评

纳德拉出庭甩出2016年马斯克感谢邮件，证明他当年支持微软给OpenAI打折算力，微软甚至亏了1500万美元。关键点是马斯克有纳德拉手机号，但直到2024年起诉前从未抱怨过合作。纳德拉还吐槽2023年奥尔特曼被董事会短暂解雇是“业余之举”。这案子核心是马斯克想证明OpenAI背弃非营利承诺，但纳德拉的证词直接打脸他“早不反对、现在才告”。正文没披露陪审团倾向，但微软和OpenAI的防守逻辑很...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:54

32d ago

FEATUREDAI HOT 精选· aihot-apiZH20:54 · 05·11

Luma Labs推出Luma Agents广告生成工具

Luma Labs 发了个新工具 Luma Agents，说只要上传参考素材、定个创意方向，就能自动从情绪板变成一条完整广告。正文没披露生成耗时、模型细节、可控参数和定价，所以实际效果和成本都还不清楚。如果真能一步到位，对做素材的团队来说省不少事，但先别太激动，等实测。

#Agent#Multimodal#Tools#Luma Labs

精选理由

HKR-H 和 HKR-R 通过：情绪板到广告这个钩子具体、有画面感，而且直击创意行业外包贵、改稿慢的痛点。HKR-K 不通过：正文没披露价格、生成时长或可控参数，没有可复现的条件，所以只能算一个普通的产品更新，先别太激动。

一句话点评

Luma Labs 把广告生成拆成多个 AI 代理协作，从情绪板直接出完整广告，但正文没披露实际案例和效果数据，先当概念验证看。

锐评

Luma Labs 这次推出的 Luma Agents，核心是把广告创作流程拆给多个 AI 代理分工干：有的负责理解情绪板上的视觉风格，有的负责生成画面，有的负责拼成完整广告。这个思路不新鲜，就是把 agent workflow 搬进创意工具里，让模型进业务流程干活。目前能看到的信息只有标题和一句话简介，正文是空的。这意味着我们不知道它生成的广告长什么样、在真实投放里的转化率如何、生成一条广告要多久、成本多少。这些才是判断它是不是真有用的关键。我会先打个折：概念听起来顺，但没案例没数字，离“优化广告效果”这个说法还差一截。等他们放出实际跑通的广告样本和对比数据再说。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:45

32d ago

FEATUREDAI HOT 精选· aihot-apiZH20:45 · 05·11

OpenAI 发布 Daybreak，把自家模型和 Codex 打包成网络安全防御工具

OpenAI 宣布推出 Daybreak，一个面向安全团队的 AI 防御系统，整合了他们最强的模型、Codex 以及安全合作伙伴的能力，目标是加快漏洞发现和软件防护的速度。正文没披露具体定价、上线时间，也没给出任何防御效果的实测数据，所以实际能防住什么级别的攻击、误报率多少都还不清楚。

#Agent#Code#Tools#OpenAI

精选理由

OpenAI 发了个 Daybreak 的安全产品公告，把模型、Codex 和合作伙伴绑在一起做网络防御，听着像个正经产品。但我会先打个折：全文没给一个防御指标，也没说什么时候能用、花多少钱，目前更像一个概念拼盘。它踩中了 AI 攻防和合规的焦虑点，所以值得提一嘴，但缺干货让它只能停在产品更新这个档位。

一句话点评

OpenAI 发了个网络安全 AI 系统 Daybreak，但正文没给任何防御效果数据，也没说定价和上线时间，先当个预告看。

锐评

OpenAI 宣布推出 Daybreak，说是把自家最强模型、Codex 和安全合作伙伴的能力打包，帮安全团队更快发现漏洞、加固软件。听起来像是让 AI 直接进安全运维流程干活，但正文只给了概念，没披露任何实测数据——能防住什么级别的攻击、误报率多少、响应延迟多高，全都不清楚。定价和上线时间也没提，所以现在只能算一张路线图，离实际能用还有距离。我会先打个折：方向对，但缺验证。如果后续能放出在真实攻防场景下的检出率和误报率，才值得认真评估。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:51

32d ago

AI HOT 精选· aihot-apiZH19:51 · 05·11

OpenAI 给开发者加了 Codex 插件，写 AI 应用和智能体能快一点

OpenAI 在开发者工具里塞了个 Codex 插件，说能帮你更快地搭 AI 应用和智能体。但正文没披露具体快多少、有没有版本号、要不要额外付费——目前只能当个功能预告看，别急着升级。

#Agent#Code#Tools#OpenAI

精选理由

OpenAI 小更新：HKR-K 和 HKR-R 勉强通过。正文没披露价格、版本号、性能提升或可复现条件，所以分数卡在 60–71 区间。

一句话点评

OpenAI 给开发者工具加了个 Codex 插件，号称能加速搭 AI 应用和智能体。但正文没披露具体快多少、要不要额外付费、有没有版本号——目前只能当个功能预告看，别急着升级。短评：OpenAI 画了个 Codex 插件的饼，说能加速开发，但没给数据、价格和版本号，先观望。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

18:54

32d ago

AI HOT 精选· aihot-apiZH18:54 · 05·11

Anthropic 估值五天涨了 2000 亿美元，年收入从 1 亿跳到 450 亿

Anthropic 的市场隐含估值五天从 1.2 万亿涨到 1.4 万亿美元，暴增 2000 亿。链上 Pre-IPO 数据显示，其年化收入从 2023 年的 1 亿美元飙到现在的 450 亿，一年翻了 14 倍。估值自 2025 年 10 月已涨 1067%，最近 24 天又涨 40%。这些数字来自 Jupiter 等链上平台交易的 Pre-IPO ...

#Anthropic#Jupiter#Funding

精选理由

HKR三项都过，但整条信息只靠一条X帖子和链上Pre-IPO隐含数据，没有确认的融资轮次、投资方或官方财报。估值和营收数字很炸，但证据链太薄，适合全量推送但不值得上头条。

一句话点评

Anthropic五天估值涨2000亿美元，从1.2万亿跳到1.4万亿。链上Pre-IPO数据说年收入从2023年1亿飙到450亿，一年翻14倍。但这是链上交易工具反映的隐含估值，不是官方数字，流动性差、样本少，实际IPO定价可能打折。正文没披露450亿收入是确认收入还是合同额，也没说利润。如果是真的挺省钱，但这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:48

32d ago

FEATUREDAI HOT 精选· aihot-apiZH18:48 · 05·11

把大模型命令塞进脚本第一行：用 shebang 直接跑 LLM

Simon Willison 试了一种很野的玩法：把 LLM 命令行工具直接写在脚本的 shebang 行里，让一个纯文本文件变成可执行脚本。最简单的例子是 `#!/usr/bin/env -S llm -f` 下面直接跟一句“画个骑自行车的鹈鹕 SVG”，就能生成图片。复杂一点的可以用 `-T` 参数调用外部工具（比如报时），或者直接在 YAML 模...

#Tools#Code#Agent#Simon Willison

精选理由

Simon Willison 这次没发新模型，也没推平台，就是演示了一个把 LLM 当 shebang 解释器的命令行玩法。我会先打个折：这更像一个巧妙的黑客技巧，不是生产级方案，正文也没披露错误率或延迟数据。但它的价值在于把“用自然语言写脚本”这件事拉到了终端里，fragments 和 -T 这些参数让例子能直接跑通，对经常写胶水脚本的开发者来说，看一眼就会想试试。整体属于低配 featured，因为影响范围还在 CLI 自动化这个圈子里，没往外扩。

一句话点评

Simon Willison 把 LLM 命令行工具塞进了脚本第一行的 shebang 里，让一个纯文本文件直接变成可执行脚本。

锐评

这是个很“玩”的想法，但背后有实际用处：把自然语言指令直接当脚本跑。最简单的例子是 shebang 写 `#!/usr/bin/env -S llm -f`，下面跟一句“画个骑自行车的鹈鹕 SVG”，就能出图。复杂一点的可以用 `-T` 参数调用外部工具，比如报时；或者直接在 YAML 模板里用 Python 函数定义计算器，让模型自己调 multiply 和 add 算出 2344×5252+134=12,310,822。这本质是把 LLM 当成一个能理解模糊指令、还能调用工具的脚本解释器。好处是门槛极低，坏处也很明显：每次执行都要调模型，延迟和成本比传统脚本高几个数量级，而且输出不稳定，不适合任何需要确定性的场景。正文没提这种用法在生产环境的风险控制，也没给延迟或成本数据。如果是真的跑一次几毛钱、等两三秒，那对一次性小任务还行；但别指望它替代正经脚本。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:43

32d ago

AI HOT 精选· aihot-apiZH18:43 · 05·11

Claude Code 小版本更新，具体改了啥没写

Anthropic 在 GitHub 上发布了 Claude Code v2.1.139，仓库目前有 12.3 万星标和 2.02 万 fork，热度很高。但这次版本的发布说明正文是空的，没有披露任何改动内容、修复或新功能。如果你想知道具体更新了什么，得去翻 commit 记录或者等后续补充。

#Code#Anthropic#GitHub#Claude Code

精选理由

HKR 三项全不通过：文章只给了 Claude Code v2.1.139 的版本号，没有更新日志、功能差异或影响范围。HKR 0/3，分数低于 40 合理。

一句话点评

Anthropic 发了 Claude Code v2.1.139，仓库 12.3 万星标热度很高，但发布说明正文是空的，没写任何改动。想确认修了什么 bug 或加了什么功能，得自己去翻 commit 记录。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

18:06

32d ago

AI HOT 精选· aihot-apiZH18:06 · 05·11

MiniMax 周三在旧金山办模型开发者活动，到场送 30 美元 API 额度

MiniMax 联合 Vercel、Anthropic 和 Moonshot 在旧金山办线下活动，时间是美国太平洋时间 5 月 13 日下午 5:30。每位参与者能拿到 30 美元 API 积分，还有额外抽奖池。活动本身是开发者交流性质，不是产品发布，正文没披露具体议程或嘉宾名单。

#Tools#MiniMax#Vercel#Anthropic

精选理由

硬排除-推广类：全文只是 MiniMax 在旧金山办活动的时间地点，外加 30 美元 API 积分，没有模型能力、定价、基准测试或合作细节；HKR 三项全不满足。

一句话点评

MiniMax 联合 Vercel、Anthropic 和 Moonshot 在旧金山办线下开发者活动，每人送 30 美元 API 积分，还有抽奖池。活动是交流性质，不是产品发布，正文没披露具体议程或嘉宾名单。短评：送 30 美元 API 积分算实在，但议程和嘉宾都没说，先别太激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

17:34

32d ago

FEATUREDAI HOT 精选· aihot-apiZH17:34 · 05·11

Replit 上线并行代理，一次能跑 10 个代理同时干活

Replit 新出的并行代理功能，允许最多 10 个代理同时跑。每个代理拿到的都是你应用的独立副本，在各自的机器上互不干扰，最后通过一个代理工作流把结果合并回来。正文没披露合并冲突怎么处理、任务怎么拆分，也没给出具体提速数据，这点先别太激动。

#Agent#Code#Tools#Replit

精选理由

Replit 这次把并行代理的上限拉到 10 个，每个代理独立跑应用副本再合并，相当于让多个 AI 程序员同时改代码然后合分支。正文没讲合并冲突怎么处理、代理间怎么分工，这点先别太激动。整体是个中等体量的开发者工具更新，还没到 Cursor Agent 模式那种量级，所以放在 featured 档。

一句话点评

Replit 能同时跑 10 个代理干活了，但正文没交代任务怎么拆、冲突怎么解，也没给提速数据，先别太激动。

锐评

Replit 这次更新的核心是把并行代理做进了开发环境里：最多 10 个代理同时跑，每个拿一份独立的应用副本，在各自机器上互不干扰，最后通过一个代理工作流把结果合并回来。听起来像给开发者配了个小团队，但关键细节全没给。正文没披露任务是怎么拆分的——是用户手动分配还是系统自动切？合并冲突怎么处理，比如两个代理改了同一个文件怎么办？也没给出任何性能对比数据，比如 10 个代理比单代理快多少、资源开销涨了多少。这些信息缺口让实际效果很难判断。对 AI 从业者来说，这个方向有意思：把 agent 从单打独斗变成并行协作，确实可能缩短构建时间。但在看到冲突解决机制和实测数据之前，我会先打个折。如果只是简单把任务分出去再粗暴合并，实际体验可能还不如一个靠谱的单代理。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:30

32d ago

AI HOT 精选· aihot-apiZH17:30 · 05·11

PixVerse 用 GPT Image 2 生成了一组时尚大片，8 张图拼成杂志内页

有用户晒出一组 2×4 的时尚编辑图，每张都是男模穿街头潮牌、拿滑板或吉他，背景是纯色或渐变，打光柔和、皮肤逼真，没有文字和 logo。这组图是用 GPT Image 2 在 PixVerse 上生成的，走的是奢侈品广告风。正文没披露生成耗时和成本，但效果看起来已经接近商业摄影了。

#Vision#Multimodal#PixVerse#GPT Image 2

精选理由

触发硬排除5/6：这只是一个PixVerse/GPT Image 2的输出展示，没有提示词、设置、对比或产品机制。HKR三项全不满足，属于噪音。

一句话点评

GPT Image 2 在 PixVerse 上生成的 2×4 时尚编辑图，8 张男模街拍，打光柔和、皮肤逼真，接近商业摄影。但正文没披露生成耗时和成本，也没说是否一次出图还是多次抽卡。效果看着不错，但离真正替代摄影棚还有距离——单张图可以，要保证 8 张风格、光影、肤色一致，目前看只是单图展示。如果是真的挺省钱，但得等实测。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

17:27

32d ago

FEATUREDAI HOT 精选· aihot-apiZH17:27 · 05·11

Gemini 现在能翻你的 Gmail 和相册，自动拼出一个旅行计划

Gemini App 推出了“个人智能”功能，可以把你的 Gmail、Google Photos、搜索记录和 YouTube 观看历史串起来，直接生成一份定制旅行行程。它省去了你自己翻邮件找酒店、从相册回忆地点的步骤。你随时可以选哪些 App 给它读，也能关掉个性化设置。正文没披露它具体怎么处理隐私数据、会不会把邮件内容喂给模型训练，这点先别太激动。

#Agent#Tools#Memory#Gemini App

精选理由

我会先打个折：正文只说了功能方向，没披露权限粒度、数据范围能不能自己勾选、行程质量怎么评估。亮点是 Google 第一次把四个核心数据源串起来给个人助手用，不再是单点功能。但这点先别太激动——没讲清楚用户能不能关掉某个数据源、数据是本地处理还是上传，也没给任何准确率或用户测试结果。对从业者的刺激在于：如果这套跑通，Google 助手的记忆深度会甩开只能读聊天记录的竞品一截；如果跑不通，就是一次隐私翻车现场。

一句话点评

Gemini 能翻你的 Gmail、相册和搜索记录自动拼行程了，但正文没提这些数据会不会被拿去训练模型，这点先别太激动。

锐评

Gemini App 这次更新的核心是把你的个人数据——Gmail 里的酒店订单、Google Photos 的地点记录、搜索和 YouTube 历史——直接串起来生成旅行计划。省事是真的省事，不用自己翻邮件找预订号、从相册回忆上次去了哪。你可以手动选哪些 App 给它读，也能随时关掉个性化，控制权看起来在你手里。但正文完全没披露隐私处理细节：邮件内容会不会被用于模型训练？行程生成是在本地跑还是上传云端？这些关键信息缺失，让“个人智能”这个说法得打个折。如果是本地处理，隐私风险可控；如果上云，就得看 Google 的隔离策略。另外，目前只展示了旅行这一个场景，实际能覆盖多少日常任务还不清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:20

32d ago

FEATUREDAI HOT 精选· aihot-apiZH16:20 · 05·11

Karpathy 聊人机交互下一步：别只让模型吐 Markdown，试试让它直接写 HTML

Karpathy 觉得现在大模型默认输出 Markdown 太简陋了，他建议直接让模型生成带排版、图形和交互的 HTML，界面会好用很多。更远的想法是“交互式神经视频”——用扩散模型实时生成能操作的画面，但他也承认这玩意儿怎么跟精确的传统软件配合还是个没解的问题。输入这边，光靠语音、文字或视频不够，得加上手势指点这类更自然的交互。在脑机接口到来之前，输...

#Multimodal#Tools#Andrej Karpathy#Commentary

精选理由

Karpathy 这条推文没给数据，就是个人判断，所以重要性只能打到 featured 的及格线。但他把 LLM 输出形态的变化串成了一条线：从纯文本到带格式的 Markdown，再到能直接渲染的 HTML，最后抛出“交互式神经视频”这个方向。我会先打个折——神经视频现在连跟传统软件精确配合都做不到，正文也没说怎么解决，这点先别太激动。不过对做 AI 产品的人来说，这个框架确实能帮他们想清楚下一步该把界面做成什么样。

一句话点评

Karpathy 说现在大模型输出太像草稿纸，直接生成带排版和按钮的 HTML 会好用很多。但“交互式神经视频”那部分还缺具体方案，先当方向看。

锐评

Karpathy 这条推文的核心判断很直接：大模型默认吐 Markdown 是偷懒，让模型直接生成 HTML 页面，能立刻把排版、图表和可点击的交互都带上，用户体验会跳一大截。他给了一个马上能试的建议——让模型用 HTML 结构化回复，这比等下一代界面务实。更远的那层“交互式神经视频”，是用扩散模型实时生成可操作的画面，听起来像把电影变成软件。但他自己点出了关键缺口：这种神经生成的画面怎么跟需要精确数值的传统软件（比如 Excel、CAD）配合，现在完全没解。正文没给出任何技术路线或实验数据，所以这部分只能当长期猜想，别急着当真。输入侧他提到手势指点这类更自然的交互，但同样没展开具体实现。整体看，这条推文的价值在于把“输出格式”这个被忽视的环节拎出来，HTML 这个建议成本低、可验证；视频生成那层还缺约束条件和精度验证，离落地很远。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:03

32d ago

AI HOT 精选· aihot-apiZH16:03 · 05·11

谷歌DeepMind和Coursera合开Gemini开发者课，教你把模型接进业务流程

这门课分三块：一是让模型能推理并执行复杂任务（不只是聊天），二是通过函数调用把Gemini连上真实工具（比如数据库、API），三是教你怎么部署和测试可扩展的AI系统。课程已开放注册，但正文没披露价格和时长。适合想用Gemini做生产级应用的开发者，不是入门科普。

#Agent#Tools#Google DeepMind#Coursera

精选理由

这是 Google DeepMind 与 Coursera 联合推出的开发者课程公告，开放注册并披露了三个模块。HKR-K 通过，但 HKR-H/R 偏弱；属于中低分段的常规产品/教育推广信息。

一句话点评

谷歌DeepMind和Coursera出了门Gemini开发课，分三块：让模型能推理干活、用函数调用连数据库和API、以及部署可扩展系统。适合想拿Gemini做生产级应用的开发者，不是入门科普。但正文没披露价格和时长，注册前得自己掂量。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

15:37

32d ago

FEATUREDAI HOT 精选· aihot-apiZH15:37 · 05·11

Anthropic 在 GitHub 开源了一套金融 AI 模板，直接给投研、投行、风控配好了 10 个智能体和 11 家数据商的连接器

这套模板把金融行业里常见的 AI 用法打包成了开箱即用的工作流，覆盖投研、投行、风控等核心环节。里面塞了 10 个端到端智能体、7 个垂直插件，还接好了 11 家主流金融数据商的 MCP 连接器，等于把模型跟 Bloomberg 这类数据源的通路提前打通了。部署方式从个人插件到企业 API 都支持，也能塞进 Microsoft 365 和私有云。正文没...

#Agent#Tools#Anthropic#GitHub

精选理由

我会先打个折：这不是模型发布，所以重要性到不了 85 分，但开源一套能跑的金融 agent 模板，比发篇愿景文章实在得多。Anthropic 把 10 个端到端智能体、7 个插件和 11 家数据商的 MCP 连接器打包扔上 GitHub，等于给金融行业的 AI 落地画了一条参考线，别人想跟进得先过这一关。正文没披露这些 agent 在生产环境跑到什么程度、延迟和准确率怎么样，所以别急着当成熟方案用，但作为起点，信息量和可复现性都够格进 featured。

一句话点评

Anthropic 把金融 AI 的常用套路打包开源了，10 个智能体加 11 家数据商连接器，等于帮你把 Bloomberg 的管子提前接好。但正文没提效果验证和合规怎么过，这点先别太激动。

锐评

Anthropic 在 GitHub 扔了一套金融 AI 模板，不是论文也不是白皮书，是直接能跑的代码。里面塞了 10 个端到端智能体，覆盖投研、投行、风控这些金融圈高频场景，还配了 7 个行业插件和 11 家主流金融数据商的 MCP 连接器——你可以理解成模型跟 Bloomberg、Refinitiv 这类数据源的接口已经焊好了，不用自己从头写管道。部署方式从个人插件到企业 API 都支持，也能塞进 Microsoft 365 和私有云，说明他们想同时吃个人开发者和机构客户两条线。这件事的看点不在技术有多新，而在 Anthropic 选了一条跟 OpenAI 完全不同的路：OpenAI 在铺消费级应用，Anthropic 直接往垂直行业里扎，用开源模板拉生态。金融是监管最严、对准确性要求最高的行业之一，敢在这里开源模板，姿态上是在说“我的模型能进生产环境”。但正文没披露几个关键信息：这 10 个智能体在真实业务场景里的准确率是多少？有没有经过合规审查？MCP 连接器是官方合作还是社区贡献？这些直接决定这套模板是 demo 级还是生产级。另外也没提延迟和成本，金融场景对实时性要求高，如果跑一个风控判断要十几秒，那就只能当参考工具用。建议先拿自己的数据跑一遍，别直接往交易链路里接。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:30

32d ago

AI HOT 精选· aihot-apiZH15:30 · 05·11

MiniMax组了个“10x团队”，请行业专家来教模型干活

MiniMax 宣布成立“10x团队”，邀请各领域专家直接参与模型研发——不是当顾问，而是亲自定义问题、搭评估、设计工作流，成果会开源。团队目标是把大模型从“能演示”推到“真能用”。提供上海、北京、香港、旧金山、伦敦五个办公地，薪酬含股权。但正文没披露团队规模、招聘人数和薪资范围，实际落地节奏还不清楚。

#Benchmarking#Tools#MiniMax#Personnel

精选理由

MiniMax 宣布组建“10x团队”邀请专家参与，正文写了5个办公地，但没披露团队人数、具体专家名单或产品目标。信息量停留在公司公告层面，对从业者来说缺乏可参考的竞争信号或技术细节，属于低价值的企业动态。

一句话点评

MiniMax 搞了个“10x团队”，直接拉行业专家进研发一线，不是挂名顾问，而是亲自定问题、搭评估、设计工作流，成果还开源。目标是把模型从“能演示”推到“真能用”，听着挺实在。但正文没披露团队规模、招聘人数和薪资范围，实际落地节奏还不清楚。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

15:16

32d ago

FEATUREDAI HOT 精选· aihot-apiZH15:16 · 05·11

Cognition AI 总部首次曝光：Scott Wu 和他 18 个月做到 4.45 亿美元年化收入的 Devin

推文放出了 Cognition AI 总部“Cog House”的内部画面。创始人 Scott Wu 是顶尖竞技程序员，拿过三次国际信息学奥赛金牌。他在 2023 年 11 月母亲去世、Sam Altman 被 OpenAI 解雇的同一天创立了公司，赌的是 AI 会变成能全天干活的智能体。他们做的 AI 软件工程师 Devin 刚上线时表现一般，但 1...

#Agent#Code#Cognition AI#Scott Wu

精选理由

HKR 三项都过，因为这篇既有 Cognition AI 罕见的内部揭秘，又甩出了 Devin 的营收和估值数字。没给 P1 是因为它本质上是人物+公司特写，不是融资、产品发布或模型发布那种硬消息。

一句话点评

Devin 18 个月做到年化 4.45 亿美元营收，但初期表现一般，这个转折值得点进去看。

锐评

这条推文放出了 Cognition AI 总部内部画面，但真正值得关注的是 Devin 的商业成绩：上线 18 个月年化营收 4.45 亿美元，客户包括高盛、美国陆军和奔驰，公司估值约 250 亿美元。创始人 Scott Wu 本人是三次信息学奥赛金牌得主，2023 年 11 月母亲去世当天创立公司，赌的是 AI 能变成全天干活的智能体。不过正文没披露这 4.45 亿是合同额还是实际回款，也没说客户续费率。Devin 刚上线时表现一般，现在到底解决了哪些场景、哪些还是 demo，从这条推文里看不出来。估值 250 亿这个数字我会先打个折，毕竟没看到独立验证。还缺的信息：Devin 在客户实际生产环境里的通过率、平均修复时间、跟人类工程师的对比数据。光有营收和估值，只能说明卖得动，不能说明好用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:54

32d ago

AI HOT 精选· aihot-apiZH14:54 · 05·11

Runway 开源 confingy：用 Python 代码替代 YAML 配置机器学习系统

Runway 开源了一个叫 confingy 的 Python 库，核心思路是用纯 Python 代码代替 YAML 来配置机器学习系统。正文说，他们之前用 OmegaConf 管理 YAML 配置，结果一个训练配置膨胀到几千行，继承自几十个文件，改起来非常痛苦——没法 cmd-click 跳转定义、类型检查失效、重构时根本不知道哪些类在生产环境被用到...

#Tools#Code#Runway#Open source

精选理由

HKR三项都轻度成立：YAML痛点能吸引点击，功能点具体，ML工程师确实烦配置。但正文没披露任何采用数据、基准测试或与现有工具（如Hydra、OmegaConf）的对比，验证弱，只能归为小型开源工具更新。

一句话点评

Runway 开源了 confingy，用纯 Python 代码替代 YAML 来配置机器学习系统。他们之前用 OmegaConf 管理 YAML，一个训练配置膨胀到几千行、继承自几十个文件，改起来没法跳转定义、类型检查失效、重构时不知道哪些类还在用。confingy 支持懒加载、类型检查和序列化，让配置像代码一样可维护。但正文没披露迁移成本、性能对比或社区反馈，实际落地效果待验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:24

32d ago

FEATUREDAI HOT 精选· aihot-apiZH14:24 · 05·11

OpenRouter 用真实市场需求给模型排座次，DeepSeek V4 Pro 排第一

OpenRouter 搞了个叫 Pareto Code 的排名方法，不看跑分，直接看用户在实际调用中怎么选模型，找出性价比最优的那条线。目前排第一的是 DeepSeek V4 Pro，后面跟着 GPT 5.4 Mini 和 Gemini 3.1 Pro。不过正文没披露具体怎么算分、样本量多大，所以这个排名到底多稳，我会先打个折。

#Code#Benchmarking#OpenRouter#DeepSeek

精选理由

我会先打个折：OpenRouter 只发了一篇帖子，没公布样本量、统计时间窗口和具体定价依据，所以这个排名不能当严谨评测用。但它的价值在于思路——用市场实际调用数据来反映模型性价比，比跑分更贴近真实使用场景。DeepSeek V4 Pro 排第一这点先别太激动，得看后续有没有更透明的数据支撑。整体上，这条信息对正在选模型的开发者有参考意义，但信息缺口明显，够 featured 但上不了更高分。

一句话点评

OpenRouter 用真实调用数据给模型排性价比，不看跑分看用户用脚投票，但没公布算法和样本量，排名稳不稳还得观望。

锐评

OpenRouter 这个 Pareto Code 排名有点意思，它不跑传统基准测试，而是直接看开发者在实际调用中怎么选模型，找出那条“花最少钱办最多事”的帕累托前沿线。目前 DeepSeek V4 Pro 排第一，GPT 5.4 Mini 和 Gemini 3.1 Pro 紧随其后，说明在真实市场需求里，这三家在性价比上咬得很紧。但这条新闻的信息缺口也很明显：正文完全没披露具体怎么算分、样本量多大、数据窗口多长。没有这些，这个排名更像一个产品功能展示，而不是可复现的评测。如果样本集中在某类任务或某段时间，排名可能波动很大。另外，“市场需求”本身也会被价格战和供应稳定性影响，不一定完全反映模型能力。想认真参考这个排名的人，最好等 OpenRouter 把方法论和原始数据放出来，或者自己拉一段时间内的调用日志交叉验证一下。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:18

32d ago

AI HOT 精选· aihot-apiZH14:18 · 05·11

GPT-Image-2 生图提示词框架：把画幅、主体、隐喻、风格、文字拆开写

推文分享了一套结构化提示词写法，核心是“结构越清晰，输出越好”。框架把提示拆成六个模块：先定画幅和用途，再写主体位置、占比和情绪，然后用具体元素做视觉隐喻（比如用枯树象征孤独），接着指定风格（如 Apple 风）并强调干净克制，最后规划主副标题和英文短句的文字系统，再列一个“避免清单”。正文没披露这套框架在 GPT-Image-2 上的实测效果，也没说...

#Multimodal#Vision#GPT-Image-2#Commentary

精选理由

这篇推文就是一张提示词框架图，把 GPT-Image-2 的指令拆成六个填空轴，像“画幅用途”“主体位置”“视觉隐喻”这些，照着填就能出图，对刚上手的人挺友好。但正文没披露任何实测数据，比如按这个框架写提示词成功率能提高多少、会不会增加 token 消耗，这些都没提。所以它更像一份个人经验总结，不是经过验证的方法论，参考价值有，但别当生产标准用。

一句话点评

这套提示词框架把生图指令拆成画幅、主体、视觉隐喻、风格、文字、避坑六个模块，思路清晰，适合新手照着填。但正文没披露在 GPT-Image-2 上的实测效果，也没说跟默认 prompt 比提升多少，这点先别太激动。框架本身不依赖模型，换个生图工具也能用，通用性算加分项。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

13:46

33d ago

FEATUREDAI HOT 精选· aihot-apiZH13:46 · 05·11

AntLingAGI 放出万亿参数模型 Ring-2.6-1T，5 月 15 日前在 OpenRouter 免费用

Ring-2.6-1T 是一个万亿参数模型，主打可调“思考强度”——你可以手动控制它多想一会儿还是少想一会儿，在回答质量、token 消耗和响应速度之间自己取舍。模型专门为智能体场景做了优化，支持多步执行和工具调用，适合高频工作流。官方说它能处理数学逻辑和科研类任务，但正文没给出具体跑分或对比数据。目前通过 OpenRouter 免费开放，截止到 5 ...

#Agent#Reasoning#Tools#AntLingAGI

精选理由

这条发布信息量偏薄，正文没给基准测试、定价、架构或训练细节，所以重要性我打了个折，没给更高。但万亿参数这个量级本身就有话题性，加上 OpenRouter 上的限时免费，对想快速试用的开发者很友好。可调思考强度和工具调用这两点，说明它在往智能体落地靠，不是单纯刷榜的模型。整体判断是：值得关注的一次模型发布，但别急着当里程碑，等实测数据出来再说。

一句话点评

万亿参数模型免费玩到5月15日，主打一个“思考强度”旋钮，让你自己决定它多想还是少想。但官方没给任何跑分，效果得自己试。

锐评

Ring-2.6-1T 最实在的卖点是可调“思考强度”，相当于给模型装了个脑力旋钮：简单任务少转几圈省 token 和延迟，复杂任务多转几圈求质量。这对跑高频工作流的智能体场景确实有用，不用每次都烧满算力。模型还专门做了多步执行和工具调用优化，说明 AntLingAGI 想让它直接进业务流程干活，而不是只聊天。但这条消息的信息缺口很大。万亿参数听着唬人，正文却没披露任何基准测试分数、对比对象或实际任务表现。免费开放到 5 月 15 日更像是一次公测引流，不是正式发布。模型到底在数学逻辑和科研任务上强在哪，跟同体量的竞品比是更快还是更准，全都没说。我会先打个折：参数规模大不等于好用，思考强度可调也不等于调了就有用。等有人跑出实测数据，再看这个旋钮是不是真能拧出性价比。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:21

33d ago

AI HOT 精选· aihot-apiZH13:21 · 05·11

GitHub 上有人做了两个 AI skill，能批量生成专利和软著申请材料

两个 GitHub 项目分别针对发明专利和软件著作权，用 AI 自动写申请材料。正文没披露生成内容的准确率、审批通过率、审查流程是否适配，也没说这样批量生成是否合规。设计专利和实用新型门槛更低，用 Claude 或图片生成工具就能做。

#Tools#Code#GitHub#Claude

精选理由

帖文有讨论价值，HKR三项都过。但正文没披露准确率、审查通过率或合规边界，信息缺口明显，所以分数压在60–71区间。

一句话点评

两个GitHub项目用AI批量写专利和软著申请材料，设计专利甚至用Claude就能搞定。正文没披露生成内容的准确率、审批通过率，也没说是否合规。如果真能过审，成本极低，但审查流程可能不买账，别急着冲。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:36

33d ago

AI HOT 精选· aihot-apiZH12:36 · 05·11

GitHub 3.3万星标：一个帮你按主题刷AI论文视频的收藏库

这个GitHub项目拿了3.3万星，专门整理AI论文相关的视频教程，来源是YouTube和B站。它按时间和主题分类，比如收录了李沐的论文精讲系列，方便你顺着一条线系统学。说白了就是个精选视频导航，省得自己到处翻。不过正文没提更新频率，如果视频链接失效或过时，体验会打折扣。

#GitHub#YouTube#Bilibili#Open source

精选理由

这个GitHub仓库有3.3万星，按时间和主题整理了YouTube和Bilibili上的AI论文讲解视频，包括李沐的精讲系列。对想跟论文又没时间读原文的人来说，是个省力的资源入口。不过它只是视频合集，没有论文原文或代码复现，正文也没说更新频率和筛选标准。

一句话点评

GitHub 3.3 万星的项目，把 YouTube 和 B站上 AI 论文相关的视频教程按时间、主题整理成目录，比如李沐的论文精讲系列。说白了就是个精选导航，省得自己到处翻。但正文没提更新频率，如果链接失效或过时，体验会打折扣。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:21

33d ago

AI HOT 精选· aihot-apiZH10:21 · 05·11

商汤 SenseNova U1 图像生成模型上线 ComfyUI，8 步出图

商汤把 SenseNova U1 模型放到了 ComfyUI 上，可以直接跑。REBEL AI 出了教程和实测，说生成速度很快，8 步就能出图，覆盖人像、超现实、文字标志和生物设计。资源在 Hugging Face、GitHub 和 Discord 都开放了。不过正文没披露任何 benchmark 分数，实际效果和竞品比怎么样还不清楚。

#Vision#Multimodal#Inference-opt#SenseTime

精选理由

中等体量的产品更新，HKR-H 和 HKR-K 成立：ComfyUI 接入、8 步推理、资源公开。但缺基准测试、许可证和成本数据，所以分数压在 60–71 区间。

一句话点评

商汤把 SenseNova U1 放到了 ComfyUI 上，8 步出图，速度确实快。REBEL AI 实测覆盖人像、超现实、文字标志和生物设计，资源在 Hugging Face、GitHub、Discord 都开放了。但正文没给任何 benchmark 分数，跟 Flux、SD3 比到底怎么样还不清楚。先别太激动，等第三方跑分出来再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

09:38

33d ago

FEATUREDAI HOT 精选· aihot-apiZH09:38 · 05·11

腾讯混元放出 Hy3 预览版，主打复杂智能体任务，不是刷榜模型

腾讯混元开放了 Hy3 预览版的早期体验，官方说这是目前混元系列里最强的模型。它不冲着跑分去，而是强调在真实场景里能把事办成。模型用了 256K 上下文窗口，一次能塞进很长的材料；架构是混合专家（MoE），还加了快慢思考机制，碰到复杂问题会自动切换深度推理模式。底层把预训练和强化学习管线重做了一遍，目标是在大规模部署时把成本压下来。具体效果和实测数据正...

#Agent#Reasoning#Tencent Hunyuan#Product update

精选理由

腾讯混元 Hy3 预览版放出了 256K 上下文和快慢思维混合专家架构，定位是处理复杂智能体任务。我会先打个折——正文没披露评测分数、定价和开放范围，所以没法判断实际能力和性价比。架构上快慢思维混合专家听起来像在推理效率和深度之间做平衡，如果是真的挺省钱，但没看到具体实现细节。256K 上下文对长链条智能体任务有用，但也要看实际召回和推理稳定性。这点先别太激动，等更多技术细节和实测出来再说。

一句话点评

腾讯发了Hy3预览版，主打复杂任务执行而非跑分，256K上下文加快慢思考，但具体效果和实测数据还没放出来。

锐评

腾讯混元放出了Hy3预览版，官方定位是“混元系列最强”，但这次不拼榜单分数，而是强调在真实智能体任务里能把事办成。模型用了256K上下文窗口，一次能塞进很长的材料，架构是混合专家加快慢思考——碰到复杂问题会自动切深度推理模式，简单问题就走快通道。底层把预训练和强化学习管线重做了一遍，目标是在大规模部署时把成本压下来。不过目前公开信息很有限。正文只给了定性描述，没披露任何具体评测数据、延迟指标或成本对比。256K窗口实际召回率怎么样、快慢切换的触发逻辑是什么、MoE的专家数量和激活参数都没说。这些恰恰是判断“真实场景有效性”的关键。我会先打个折：方向对，但缺数据验证。等他们放出技术报告或第三方实测再判断不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:55

33d ago

AI HOT 精选· aihot-apiZH07:55 · 05·11

用ChatGPT写分镜提示词，PixVerse直接出1080p香水广告

一个用户分享的工作流：先用ChatGPT按预设镜头写多段视频提示词，严格指定品牌瓶身、包装、Logo和阿拉伯文/英文文本必须靠参考图还原，视觉风格要超奢华电影感；然后扔进PixVerse快速生成1080p视频。好处是GPT能精准控制品牌元素，PixVerse出片快，但正文没披露生成耗时、单条成本，也没说同一套提示词能否稳定复现。

#Multimodal#Tools#ChatGPT#PixVerse

精选理由

PixVerse 官方 X 帖就是一条工作流推广：用 ChatGPT 写提示词，再扔进 PixVerse 跑。没有可复现的参数、成本或耗时，触发硬排除规则——纯营销。HKR 三项全不满足。

一句话点评

一个用户用ChatGPT写分镜提示词，再扔进PixVerse生成1080p香水广告视频，主打品牌元素（瓶身、Logo、阿拉伯文）靠参考图还原。好处是GPT能精准控制品牌视觉，PixVerse出片快。但正文没披露生成耗时、单条成本，也没说同一套提示词能否稳定复现——如果是真的挺省钱，但这点先别太激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

04:53

33d ago

AI HOT 精选· aihot-apiZH04:53 · 05·11

中国移动上线AI模型中转平台MoMA，国家队下场抢基础设施生意

中国移动推出了一个叫MoMA的AI模型中转平台，已经接入了DeepSeek、通义千问等300多个模型。它的定位有点像AI时代的“智能电网”——谁掌握这个中转站，谁就能在未来的模型调用和定价上说了算。用户可以去移动云官网搜“MoMA”领体验包试试。不过正文没披露具体延迟、成本或模型切换的灵活性，实际好不好用还得测了才知道。

#Tools#Inference-opt#China Mobile#DeepSeek

精选理由

触发硬排除-云厂商促销：核心事实是移动云模型网关加体验包，没有路由、定价或性能数据。300+模型数量保住了HKR-K但上限就在这。

一句话点评

中国移动推出MoMA模型中转平台，已接入DeepSeek、通义千问等300多个模型，定位类似AI时代的“智能电网”，意在掌握模型调用和定价权。用户可去移动云官网搜“MoMA”领体验包。但正文没披露具体延迟、成本或模型切换的灵活性，实际好不好用还得测了才知道。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

02:05

33d ago

AI HOT 精选· aihot-apiZH02:05 · 05·11

开源PPT工具鬼藏PPT技能更新：新增瑞士风格和AI自动配图

开源项目鬼藏PPT技能更新了，新增瑞士国际主义视觉风格，带克莱因蓝等四套主题色。核心升级是接入了GPT-Image 2.0，能根据PPT内容自动生成胶片质感配图、流程图和UI截图美化，不用自己找图了。还支持一键生成公众号、小红书、视频号的封面图，省去手动调整尺寸的麻烦。预设了22种版式和严格视觉规则，保证设计一致性。正文没披露生成一张图的具体成本和速度...

#Multimodal#Vision#Tools#鬼藏PPT技能

精选理由

一个小型开源工具的功能更新，功能点具体但影响面窄，仅覆盖创作者工作流，所以HKR中H和K通过。单一信源且影响范围有限，评分落在60–71的产品更新区间。

一句话点评

开源PPT工具鬼藏更新，接入了GPT-Image 2.0自动配图，省去自己找图的麻烦。新增瑞士风格和四套主题色，22种版式保证设计一致性，还能一键生成公众号、小红书封面。正文没披露生成一张图的具体成本和速度，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

01:21

33d ago

AI HOT 精选· aihot-apiZH01:21 · 05·11

HappyHorse AI视频引擎在阿里云Model Studio上线

HappyHorse自称是“面向生产就绪内容排名第一的AI视频引擎”，现在可以在阿里云Model Studio上直接用了。它强调两个卖点：一是能处理复杂的物理交互（比如物体碰撞、运动轨迹），二是原生1080p唇形同步（嘴型和音频对得上）。正文没披露具体延迟、成本或样本量，所以这点先别太激动。如果真能做到生产级，对做短视频、广告、虚拟主播的团队来说是个省...

#Multimodal#Vision#HappyHorse#Alibaba Cloud

精选理由

触发硬排除-云厂商推广：这是阿里云 Model Studio 的上架/推广信息。HKR-K 有具体的 1080p 唇形同步能力，但未提供定价、基准测试或访问条款。

一句话点评

HappyHorse 的 AI 视频引擎上线阿里云 Model Studio，主打“无需等待”，可能是端到端生成速度有优化。但正文没披露具体延迟数据、模型参数量或定价，也没说支持多长的视频。如果是实时生成短视频，对直播、营销场景挺实用；但没实测前先别太激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

00:28

33d ago

AI HOT 精选· aihot-apiZH00:28 · 05·11

OpenCLI 用命令行读微信朋友圈和群聊，把私域数据喂给 AI Agent

OpenCLI 项目做了三个命令行工具（wx-cli、tg-cli、discord-cli），能直接拉取微信、Telegram、Discord 的群消息、聊天记录、朋友圈和收藏夹。这意味着 AI Agent 不再只能看公开网页，还能读你的私人社交数据，形成真正的个人数据流。正文没披露发布版本、许可证，也没说微信会不会封这类工具。

#Agent#Tools#Memory#OpenCLI

精选理由

HKR 全过：钩子是私域消息数据当 agent 记忆用，工具名和数据来源都写清楚了。但毕竟只是个小工具发布，不是平台级产品；安全边界和可复现的部署方式都没提，所以放在 all 档。

一句话点评

OpenCLI 做了三个命令行工具，能直接拉微信、Telegram、Discord 的聊天记录和朋友圈，让 AI Agent 读到你的私人社交数据。正文没披露发布版本和许可证，也没说微信会不会封这类工具。想法挺实用，但合规风险不小，先别急着把私聊喂给 Agent。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

33d ago

● P1AI HOT 精选· aihot-apiZH00:00 · 05·11

Qwen-Image-2.0 技术报告：把视觉理解模型和扩散模型拼在一起，生图和改图用一个框架搞定

这篇技术报告介绍了 Qwen-Image-2.0，一个把生图和精确修图合到一个模型里的方案。它的做法是把 Qwen3-VL 当成“条件编码器”，去理解你输入的指令，再连上一个多模态扩散模型来出图。指令最长能塞进 1000 个 token。报告里说，这套架构在多语言文字渲染、画面排版质量、以及人工打分上都有提升，尤其适合文字多、构图复杂的场景。不过正文没...

#Multimodal#Vision#Qwen#Research release

精选理由

HKR 全中：Qwen 的旗舰图像模型报告给出了具体架构、1K 令牌指令输入和编辑能力，国产旗舰模型的信号足够强，必须写。

一句话点评

Qwen 把生图和修图塞进一个模型，用自家视觉模型当指令翻译官，最长能接 1000 个 token 的复杂指令。

锐评

这篇报告讲的是 Qwen-Image-2.0，一个把文生图和精确修图合二为一的模型。它的核心思路是用 Qwen3-VL 作为“条件编码器”，相当于让一个视觉语言模型先读懂你的指令，再指挥后面的扩散模型出图。指令最长能塞进 1000 个 token，意味着你可以提很复杂的构图要求。报告里说，这套架构在多语言文字渲染、画面排版质量上都有提升，人工打分也更高，尤其适合文字多、构图复杂的场景。不过，报告正文没披露具体的模型参数量、训练数据规模和推理成本，也没给出和 Flux、SD3 等主流模型在标准基准上的直接对比数字。这些信息缺口让我没法判断它的实际性价比。另外，所有评估都来自团队内部，没有第三方验证，这点先别太激动。如果后续能放出公开可用的 demo 或 API，才能验证它是不是真的把“理解指令”和“出图质量”同时做好了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

33d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·11

本地 35B 模型扛下作者一半日常工作，响应速度是云端 Claude Opus 4.5 的两倍

作者用五周时间测了约 1400 个日常工作请求，发现本地跑的 Qwen 3.6 35B 这类模型能搞定其中一半，平均响应 2.8 秒，比云端 Claude Opus 4.5 的 5.8 秒快了 2.1 倍。像邮件草拟、日程安排、摘要和行政杂活这些任务，本地模型完全够用；市场调研和工程类任务则是对半开，简单查数据、修脚本可以本地跑，复杂的多源分析和架构决...

#Agent#Reasoning#Inference-opt#Qwen

精选理由

Tom Tunguz 拿本地35B模型做了五周实验，跑了约1400项日常工作任务，成功处理约一半，平均响应2.8秒，比Claude Opus 4.5快2.1倍。这个结果对从业者来说很实在：不是模型发布，也不是平台级更新，但给出了本地模型在延迟和成本上替代云端模型的一个具体参照点。我会先打个折——正文没披露任务类型分布和失败案例的具体原因，所以50%成功率不能直接当通用结论用。但速度对比和实验规模足够让关注推理成本和隐私的人认真看一眼。

一句话点评

作者实测1400个任务，本地35B模型能搞定一半，响应2.8秒比云端快一倍。日常杂活够用，复杂推理还是云端强20%。

锐评

Tomasz Tunguz 用五周时间拿自己的日常工作做了个实验，跑了约1400个请求，结论很直接：像 Qwen 3.6 35B 这种本地模型，能处理掉一半的任务，包括邮件草拟、日程安排、摘要和行政杂活。他拿 MacBook Pro M5 本地跑 4-bit 量化版，跟云端 Claude Opus 4.5 比速度，平均响应 2.8 秒对 5.8 秒，快了 2.1 倍。这个速度优势是他认为本地模型最核心的价值，比隐私、成本折旧都实在。不过得看清楚限制。Opus 4.5 在推理基准上大约强 20%，输出结构更清晰、代码更干净，本地模型赢在简短，输出长度经常只有一半。市场调研和工程类任务里，简单查数据、修脚本本地能跑，但多源分析和架构决策还是得靠云端。作者也承认本地模型比前沿模型落后三四个月，复杂任务上这个差距不能忽略。这篇文章没给具体任务的成功率定义，也没说“搞定”是按什么标准判的，全靠作者自己主观判断。另外测试只在一台 MacBook Pro 上跑，不同硬件结果会差很多。如果你日常工作以结构化输出为主，这个结论可以参考；如果重度依赖复杂推理，本地模型暂时还只能当辅助。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

AX 严选 · 2026-05-11

更多

频道

后台