AX 严选 · 2026-06-04

▸ 31 条 · updated 3m ago

按日期浏览清除筛选 ✕

2026年6月

一二三四五六日

163 251 335 431 539 611 716 846 959 1039 1138 1225 1320 149 1521 1635 1728 1834 1919 202 213 2218 2319 2420 2522 2612 278 286 2917 3023

2026年7月

一二三四五六日

110 218 310 42 55 617 717 817 916 1010 116 128 137 1420 1515 1622 1711 181 198 2012 2118 2211 2310 24 25 26 27 28293031

2026-06-04 · 星期四2026年6月4日

23:41

53d ago

AI HOT 精选· aihot-apiZH23:41 · 06·04

马斯克谈SpaceX上市：正处大规模资本扩张期

马斯克在摩根大通活动上说，SpaceX从2014-2015年起就现金流为正、自给自足，之前的私募轮次主要是给员工和投资者提供流动性。现在不一样了，公司正进入大规模资本扩张阶段——计划发射约10万颗通信卫星（可能更多），因为AI和机器人对带宽需求巨大，还打算在太空建AI数据中心。马斯克认为这会是AI扩张的主要方式。正文没披露具体融资规模和时间表。

#Robotics#Elon Musk#SpaceX#JPMorgan

一句话点评

马斯克说SpaceX从2014年起就现金流为正，现在要大规模烧钱——计划发10万颗卫星（可能更多），还要在太空建AI数据中心。理由是AI和机器人对带宽需求巨大。但正文没披露具体融资规模和时间表，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

22:17

53d ago

FEATUREDAI HOT 精选· aihot-apiZH22:17 · 06·04

ChatGPT 记忆功能今天大升级，但具体怎么升还没说

Sam Altman 发推说 ChatGPT 的记忆功能今天有重大升级。正文没披露记忆机制怎么改、覆盖哪些用户、有没有新的控制选项、是否收费、以及分批推送的时间表。我会先打个折，等官方补细节再判断实际变化有多大。

#Memory#Sam Altman#Product update

精选理由

精选 · 重要度 74 · 吸引力 + 共鸣

一句话点评

Sam Altman 自己发推说记忆升级了，但正文没写改了啥、谁能用、要不要钱，先当预告看。

锐评

这条消息来自 Sam Altman 的个人推文，只有一句话，说 ChatGPT 记忆功能今天有重大升级。正文没披露任何具体信息：记忆机制到底改了什么、覆盖免费还是付费用户、有没有新增控制选项、是否收费、以及分批推送的时间表，全都没提。对从业者来说，记忆能力直接影响模型在长对话和个性化场景里的表现，如果真有大改，值得关注。但就目前这条推文提供的信息量，完全没法判断实际变化有多大。我会先打个折，等 OpenAI 官方出详细说明再评估。还缺的东西很明确：技术细节、用户权限设计、隐私相关的处理方式、以及这次升级和之前记忆功能的区别在哪。这些不补上，光靠一条推文说“重大升级”，说服力不够。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

74

SCORE

H1·K0·R1

21:50

53d ago

AI HOT 精选· aihot-apiZH21:50 · 06·04

NotebookLM 上线来源归属功能

NotebookLM 现在能告诉你它生成的内容是参考了哪些资料、用了什么提示词。点击“迭代”还能直接调整。之前生成结果像黑箱，现在至少能查来源了，对需要验证信息的人比较实用。

#RAG#Tools#NotebookLM#Product update

一句话点评

NotebookLM 上线了来源归属功能，能直接看到生成内容用了哪些资料和提示词，还能点“迭代”修改。之前生成结果像黑箱，现在至少能查来源了，对需要验证信息的人比较实用。不过正文没披露支持哪些文件格式、是否覆盖所有生成类型，以及免费版是否能用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

67

SCORE

H1·K1·R1

21:47

53d ago

AI HOT 精选· aihot-apiZH21:47 · 06·04

Gemini macOS 版：双击 Command 键自动附加当前窗口

Gemini 的 macOS 应用新增了一个快捷操作：同时按下两个 Command 键，就能把当前活动窗口直接“贴”到聊天里，省去手动截图或切换标签页的麻烦。正文没说明支持哪些类型的窗口、隐私如何处理，以及具体从哪个版本开始支持。

#Multimodal#Vision#Tools#Gemini

一句话点评

Gemini macOS 版加了个快捷操作：双击 Command 键，当前窗口直接贴进聊天，省了手动截图。正文没提支持哪些窗口类型、隐私怎么处理，也没说从哪个版本开始。这点先别太激动，等补上细节再试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

65

SCORE

H1·K1·R1

21:32

53d ago

FEATUREDAI HOT 精选· aihot-apiZH21:32 · 06·04

Anthropic 在 GitHub 开源了一套让 AI 自己找代码漏洞的工具

Anthropic 把一套叫 defending-code-reference-harness 的代码框架放到了 GitHub 上，目前有 611 个星标和 54 个复刻。这套东西把威胁建模、漏洞扫描、结果分拣和打补丁这些安全流程串了起来，核心是一个可以自己跑的扫描引擎，你可以按自己的需求改。说白了，就是让 AI 模型直接进到找漏洞、修漏洞的流水线里干...

#Agent#Code#Tools#Anthropic

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 把找漏洞、修漏洞的流程打包成一个开源框架，让 AI 直接跑扫描流水线。但正文没给出任何实测数据，效果好坏全靠你自己试。

锐评

Anthropic 在 GitHub 上放出了 defending-code-reference-harness，一个让 AI 模型直接进安全流水线干活的框架。它把威胁建模、漏洞扫描、结果分拣和打补丁串在一起，核心是一个可以自己跑的扫描引擎，你可以按需求改规则和流程。仓库目前有 611 个星标和 54 个复刻，说明社区有一定关注度，但还远没到爆火的程度。这套东西的卖点是“自主扫描”，也就是让模型自己决定扫哪里、怎么扫，而不是按固定规则跑。但正文没披露任何基准测试结果，比如扫出了多少漏洞、误报率多少、比传统 SAST 工具强在哪，这些关键指标全是空白。也没说这套框架是 Anthropic 内部在用的，还是专门为开源做的演示项目。对想试试的人，我会先打个折：框架本身是开源的，可以拿来跑，但别指望开箱就比现有工具好。它更像一个参考实现，告诉你“AI 驱动的漏洞发现”大概长什么样。真正要落地，你还得自己喂数据、调流程、验证结果。另外，它和 Claude 模型的绑定程度、是否需要 API 调用、成本如何，正文也都没提，这些在实际用之前都得搞清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

21:28

53d ago

AI HOT 精选· aihot-apiZH21:28 · 06·04

Nemotron Parakeet ASR 印尼语准确率 97.7%，成本降 90%

Rafiqspace.ai 微调了英伟达的 Nemotron Parakeet ASR 模型，把印尼语语音转文字的准确率做到 97.7%（词错率 2.3%），比市面上通用工具高出一截。更关键的是每小时成本砍掉最多 90%——如果是真的挺省钱。原文没披露用了多少训练数据、微调的具体方法，也没说 90% 的成本节省是相对哪个基准。

#Audio#Fine-tuning#NVIDIA#Rafiqspace.ai

一句话点评

印尼语语音转文字准确率做到 97.7%（词错率 2.3%），比通用工具高出一截。更关键的是每小时成本砍掉最多 90%——如果是真的挺省钱。原文没披露用了多少训练数据、微调的具体方法，也没说 90% 的成本节省是相对哪个基准。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

39

SCORE

H1·K1·R0

21:13

53d ago

FEATUREDAI HOT 精选· aihot-apiZH21:13 · 06·04

共存：当 AI 不再只是你的副驾驶

Ethan Mollick 宣布新书《Co-Existence》将于 10 月 20 日出版。他认为过去那种把 AI 当聊天机器人、你来我往的“协同智能”正在过时。AI 公司的目标一直是造出能自己干活的智能体，而 2025 年底出现的编程智能体让这个目标变近了。他引用了两项数据：一项研究显示代码产出量翻了 17 倍，Anthropic 也声称自家 80...

#Agent#Code#Ethan Mollick#Anthropic

精选理由

精选 · 重要度 84 · 吸引力 + 知识量 + 共鸣

一句话点评

Mollick 新书预告，核心判断是“你来我往的聊天式 AI 协作正在过时”。他引用了代码产出量翻 17 倍、Anthropic 80% 代码由 AI 生成的数据，但这两项研究的具体方法和局限正文没展开，先别全信。

锐评

Ethan Mollick 这篇其实是新书《Co-Existence》的预告，核心观点很明确：过去那种把 AI 当聊天机器人、靠提示词来回磨合的“协同智能”已经不够用了，因为 AI 公司的目标一直是造出能自己干活的智能体。他拿编程领域举例，说 2025 年底出现的编程智能体让这个转变变近了，并引用了两项数据——一项研究称代码产出量翻了 17 倍，Anthropic 也声称自家 80% 的代码现在是 AI 写的，每个开发者的交付量是之前的 8 倍。这些数字看着很猛，但得打个折。正文没披露那项“17 倍”研究的样本量、代码质量评估标准，也没说 Anthropic 的统计口径是什么，比如是代码行数占比还是提交次数占比。Mollick 自己也承认 AI 能力边界是锯齿状的，有时比人强，有时不行，所以新书要讲的是怎么在这种“时好时坏”的状态下共存。他还提到 AI 写长文不行，故事讲不好，文风也容易露馅，所以这本书的每一章草稿都是他自己写的。整体来看，这篇文章的价值在于提供了一个来自一线观察者的判断框架，但支撑这个框架的量化证据还很单薄。如果真想评估智能体对工作的冲击，还需要看更多行业、更多任务类型的对照实验，而不是只盯着编程这一个场景。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

84

SCORE

H1·K1·R1

19:36

53d ago

FEATUREDAI HOT 精选· aihot-apiZH19:36 · 06·04

OpenAI 在生成接口里直接返回内容审核分数，不用再单独调一次审核接口

OpenAI 把内容审核评分塞进了 Responses API 和 Completions API 的返回结果里。你现在发一次请求就能同时拿到生成内容和对应的安全分数，不用像以前那样先调生成接口、再调审核接口。拿到分数后，你可以自己决定怎么用：记日志、做路由分发、人工复核，或者直接拦截。正文没披露这个审核模型的延迟会增加多少、准确率怎么样，也没说和独立...

#Safety#Tools#OpenAI#Product update

精选理由

精选 · 重要度 72 · 知识量 + 共鸣

一句话点评

OpenAI 把安全审核直接塞进生成接口了，一次请求就能拿结果和分数，省掉一次 API 调用。但延迟和准确率都没给，实际效果得自己测。

锐评

这次更新把内容审核从“事后检查”变成了“同步出分”。以前你得先调生成接口，再拿结果去调审核接口，现在 Responses API 和 Completions API 的返回里直接带安全分数。对开发者来说，最直接的好处是少写一次调用逻辑，延迟上可能也省掉一轮网络往返。但正文没披露这个内置审核的延迟增量、误判率，也没说和独立的 Moderation API 比准确度差多少。如果你现在的业务对延迟敏感，或者审核标准很严格，这点先别太激动，得自己压测看看。另外，分数怎么用完全由你决定——记日志、做路由分发、人工复核还是直接拦截，灵活性是给了，但也意味着你得自己定阈值和处置策略。还缺一个关键信息：这个审核覆盖哪些类别，和独立接口的覆盖范围是否一致。如果范围缩水了，那“省一次调用”的代价可能是漏判。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H0·K1·R1

18:57

54d ago

AI HOT 精选· aihot-apiZH18:57 · 06·04

NVIDIA 发布 Nemotron 3.5 内容安全模型：一次推理同时检查文字、图片和回复，支持12种语言和企业自定义规则

NVIDIA 推出了 Nemotron 3.5 内容安全模型，核心变化是把用户提问、可选图片和助手的回复打包成一个整体，一次推理就给出安全判断，而不是分开打分。这样能抓到图文结合才暴露的违规，比如一张图配上特定文字才触发敏感内容。模型支持12种语言，企业可以自己写安全规则，模型还会输出推理过程（THINK 模式），方便审计。模型参数是4B，不算大，但正...

#Safety#Multimodal#Reasoning#NVIDIA

一句话点评

NVIDIA 发了个4B参数的多模态安全模型，把用户提问、图片和助手回复打包一起判断是否违规，能抓到图文结合才暴露的问题。支持12种语言，企业可自定义规则，还带推理过程方便审计。但正文没给完整基准测试结果，只说“比上一代好”，具体好多少、跟竞品比如何都不清楚。4B模型跑起来成本低，但安全场景误报率是关键，没数据这点先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H0·K1·R1

18:32

54d ago

FEATUREDAI HOT 精选· aihot-apiZH18:32 · 06·04

Google 开源了实时音乐模型 MRT2，在 MacBook 上延迟不到 200 毫秒

Google AI for Developers 放出了一个叫 Magenta RealTime 2（MRT2）的实时音乐模型，权重开放，推理引擎也开源了。你可以用 MIDI 键盘弹、打字给提示词，甚至用手势控制它来生成音乐。它在 MacBook 上原生跑，延迟压到了 200 毫秒以内，这个速度对实时演奏来说基本跟手。配套还给了应用和插件套件，到手就能...

#Audio#Multimodal#Inference-opt#Google AI for Developers

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

Google 把实时音乐生成模型 MRT2 的权重和推理引擎都开源了，MacBook 上延迟压到 200 毫秒以内，弹 MIDI 键盘或用手势就能控制，到手就能玩。

锐评

MRT2 最实在的地方是延迟压到了 200 毫秒以内，这个数字对实时演奏来说基本跟手，不会让你弹完一个音等半天才出声。模型权重和推理引擎都开源，意味着你可以自己部署、改参数，不用被云服务绑死。配套给了应用和插件套件，降低了上手门槛，不是只扔个模型让你自己折腾。不过正文没披露模型的具体参数量、训练数据规模和版权处理方式，这些直接决定生成音乐的质量天花板和商用风险。也没提除了 MacBook 之外其他硬件的表现，Windows 或 Linux 上能不能跑到同样延迟还是未知数。手势控制的精度和延迟也没给具体数据，这点先别太激动。整体看，这是一个把实时 AI 音乐生成从实验室推到桌面级的尝试，开源和低延迟是核心卖点。但缺了训练数据和版权说明，商用前得自己掂量。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

18:16

54d ago

FEATUREDAI HOT 精选· aihot-apiZH18:16 · 06·04

Codex 加了个 iOS 应用构建插件，不用切窗口就能预览和改代码

OpenAI 给 Codex 接入了 Build iOS Apps 插件，现在你可以在 Codex 的内置浏览器里直接跑 iOS 应用、打开 SwiftUI 预览，改完代码也能热重载，不用来回切换工具。正文没提这个插件是官方做的还是第三方贡献的，也没说支持哪些 iOS 版本或设备型号。

#Code#Tools#OpenAI#Codex

精选理由

精选 · 重要度 75 · 吸引力 + 知识量 + 共鸣

一句话点评

Codex 能直接跑 iOS 应用了，改代码不用切工具，但正文没说是官方插件还是第三方，先观望。

锐评

OpenAI 给 Codex 加了个 Build iOS Apps 插件，现在你可以在 Codex 的内置浏览器里直接预览和测试 iOS 应用，打开 SwiftUI 预览，改完代码还能热重载，不用在 Xcode 和 Codex 之间来回切。这对做 iOS 开发的人来说，省了一个切换工具的动作，写代码和看效果能在同一个窗口完成。但这条消息信息量很薄。正文没披露这个插件是 OpenAI 官方做的，还是社区第三方贡献的。也没说支持哪些 iOS 版本、模拟器还是真机、SwiftUI 之外是否支持 UIKit。热重载的延迟和稳定性也没提——这类功能在 Xcode 里有时候也会卡，Codex 的浏览器里跑能不能稳住是个问号。另外，这个插件目前看起来更像一个预览和快速迭代工具，离完整的 iOS 开发流程还差调试、性能分析、证书管理这些环节。如果你已经在用 Codex 写 Swift，这个更新值得试试，但别指望它能替代 Xcode。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

75

SCORE

H1·K1·R1

17:58

54d ago

FEATUREDAI HOT 精选· aihot-apiZH17:58 · 06·04

Replit Agent 接入 Shopify，描述卖什么就能自动搭好一个独立站

Replit 和 Shopify 打通了：用户在 Replit Agent 里说一句想卖什么，Agent 会直接生成自定义店铺页面、创建 Shopify 商店并上架商品。建完去 Shopify 认领店铺、设好支付就能开卖。正文没提收费方式、支持的地区和具体上线时间，如果是真的，对想快速试水电商的人挺省事。

#Agent#Tools#Replit#Shopify

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

Replit 和 Shopify 打通了，说句话就能建店上货。但正文没提收费、地区和上线时间，先当 demo 看。

锐评

这条更新把建店门槛压到了“说句话”的程度。Replit Agent 现在能直接帮你搭店铺页面、创建 Shopify 商店并上架商品，建完去 Shopify 认领、设好支付就能开卖。对想快速试水电商的人来说，省掉了从零搭页面和手动传商品的时间。但正文没披露几个关键信息：这个功能是免费还是收费、支持哪些地区、什么时候正式上线。没有这些，目前更像一个概念演示。另外，Agent 生成的页面质量、商品描述的准确度、能不能处理复杂的 SKU 和变体，这些都没提。如果只是套个模板加几张图，那省的时间有限；如果能根据商品类型自动优化页面结构和文案，才算真有用。我会先打个折：等上线后看实际建店效果和成本再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

17:08

54d ago

AI HOT 精选· aihot-apiZH17:08 · 06·04

NotebookLM 出了个福尔摩斯笔记本，把笔记变成侦探游戏

Google 的 NotebookLM 发布了一个叫“福尔摩斯笔记本”的新功能，核心是把复习笔记变成互动侦探游戏——用户需要推理事实、找线索来破案。正文没披露上线时间、定价或背后的模型机制，目前更像一个教学或趣味化实验，不是严肃的生产力工具。

#Reasoning#Tools#NotebookLM#Product update

一句话点评

Google NotebookLM 把复习笔记做成了福尔摩斯探案游戏，用户得推理线索破案。目前更像趣味教学实验，正文没披露上线时间、定价和模型机制，别当生产力工具期待。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

62

SCORE

H1·K0·R0

16:53

54d ago

FEATUREDAI HOT 精选· aihot-apiZH16:53 · 06·04

Boson AI 和 LMSYS 把 Higgs Audio v3 TTS 跑在了 SGLang-Omni 上，一个 4B 参数的语音合成模型，主打低延迟...

Higgs Audio v3 TTS 是 Boson AI 的语音合成模型，参数量大约 4B，底层用了 Qwen3-4B。它支持 100 种语言，在内部测试集上词错率/字错率能压到个位数。这个模型专门为语音助手那种边说边生成的场景设计，不等句子结束就能开始合成，后续文本到了还能保持声音、情绪和节奏连贯。开发者可以直接在输入文本里插标签来控制 20 多种...

#Audio#Inference-opt#Multimodal#Boson AI

精选理由

精选 · 重要度 74 · 吸引力 + 知识量

一句话点评

Boson AI 把语音合成塞进了 Qwen3-4B 里，支持 100 种语言，还能边说边生成，但正文没给延迟和并发数据，实际落地成本得打个问号。

锐评

Higgs Audio v3 是一个约 4B 参数的语音合成模型，底层用了 Qwen3-4B，相当于让一个语言模型学会了说话。它最特别的地方是流式生成：不用等句子结束就能开始合成，后续文本到了还能保持声音、情绪和节奏连贯，这对语音助手这类需要即时响应的场景很关键。模型支持 100 种语言，内部测试的词错率/字错率压到了个位数，说明准确度不错。开发者还能直接在输入文本里插标签来控制 20 多种情绪、风格和音效，灵活性比传统 TTS 高出一截。不过，这篇公告主要讲的是架构和部署方式，没有给出首包延迟、实时率或并发吞吐这些硬指标。对于实际业务来说，这些数字比参数规模更重要。另外，模型权重和推理代码虽然提到了可以自己部署，但正文没披露商业授权条款，想商用的人得自己去确认。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

74

SCORE

H1·K1·R0

16:15

54d ago

AI HOT 精选· aihot-apiZH16:15 · 06·04

Anthropic 称 Claude 已出现“递归自我改进”苗头，但没说怎么测的

Anthropic 发帖说内部数据显示 Claude 正在加速 AI 发展，甚至出现了“递归自我改进”的苗头——也就是 AI 自己造一个更强的后继者。他们承认这比预期来得快，但正文没披露数据来源、用了哪个 Claude 版本、实验条件能不能复现。结论先打个折：方向值得关注，但证据链还不完整。

#Agent#Reasoning#Anthropic#Claude

一句话点评

Anthropic 发帖说 Claude 出现了“递归自我改进”苗头——AI 自己造更强的后继者。他们承认比预期快，但正文没披露数据来源、用了哪个版本、实验能否复现。方向值得关注，但证据链不完整，先打个折。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

16:14

54d ago

FEATUREDAI HOT 精选· aihot-apiZH16:14 · 06·04

AGI 之后，还有什么东西是稀缺的？

Alex Imas 和 Phil Trammell 聊了一个很根本的问题：当机器人和 AI 能把大多数东西都造出来之后，经济里还有什么会保持稀缺。他们给出的核心判断是，只要人还在意“这件事是人做的”，那人的参与本身就变成了稀缺品。比如芭蕾舞表演、咖啡馆里的真人服务，机器可以复制一万个，但芭蕾舞演员的数量是固定的，这种“人给人服务”的体验就成了价值锚点。...

#Robotics#Alex Imas#Phil Trammell#Commentary

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

两位经济学家聊 AGI 后什么还值钱，核心判断是：只要人还在意“这是人做的”，人的参与本身就是稀缺品，但正文没给出量化模型或时间线。

锐评

这篇对话没在画饼，而是从经济学角度拆了一个很实际的问题：机器能无限复制，但芭蕾舞演员、咖啡师这类“真人服务”的数量是固定的。如果未来大家就是愿意为“人给人服务”买单，那人的参与就成了硬通货，价值会往这里流。这个判断挺直觉，但确实点出了自动化时代一个可能的价值锚点。不过，整篇内容更像概念推演，没有给出具体模型或数据支撑。比如，到底有多少人、在多大程度上会坚持“非人不可”，正文没披露；这种偏好会不会随着 AI 服务质量提升而改变，也没讨论。另外，嘉宾 Alex Imas 是 Google DeepMind 的 AGI 经济学负责人，这个身份本身带着立场，读的时候可以打个折。还缺一块很关键：如果“真人服务”真的成了稀缺品，那它能不能撑起足够大的经济规模，让大部分人靠这个吃饭？这点对话里没展开，但直接决定了这个判断是锦上添花还是能当救命稻草。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

15:00

54d ago

FEATUREDAI HOT 精选· aihot-apiZH15:00 · 06·04

neolab 发布 Nex-N2-Pro，一个 397B 参数的混合专家推理模型，跑分自称摸到 GPT-5.5 水平

这个模型基于 Qwen3.5-397B-A17B 改造，总参数量 397B，用了混合专家架构（MoE，把任务分给不同子模型处理，省算力）。它能处理 26 万多字的长上下文，也支持图像识别。官方说它在 Terminal Bench 2.1、GDPVal、SWE-Verified 这几个测试集上拿了最高分，性能对标 GPT-5.5 和 Claude Opu...

#Reasoning#Multimodal#Agent#neolab

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

又一个对标 GPT-5.5 的模型，但先别急着信——目前只有官方自报的分数，没看到独立复现。

锐评

Nex-N2-Pro 是 neolab 在 Qwen3.5-397B-A17B 基础上改出来的推理模型，用了混合专家架构，总参数量 397B，能处理 26 万多字的长上下文，也支持看图。官方说它在 Terminal Bench 2.1、GDPVal、SWE-Verified 这几个测试集上拿了最高分，性能对标 GPT-5.5 和 Claude Opus 4.7。我会先打个折。目前所有分数都来自官方自报，正文没披露独立评测或第三方验证，也没给出和 GPT-5.5、Claude Opus 4.7 的逐项对比数据。一个值得留意的点是它声称能自动调节推理深度，减少 30-50% 的思考 token 且不掉性能——如果属实，意味着推理成本能砍掉近一半，但同样缺实测佐证。硅基流动已经上线了这个模型，前两周免费，想试的话成本不高。建议重点测它擅长的编码和工具调用场景，看看减少思考 token 后是不是真的不掉链子。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

14:15

54d ago

AI HOT 精选· aihot-apiZH14:15 · 06·04

台积电承认产能跟不上AI需求：美国厂要等很久

台积电说通过美国本土生产满足客户需求需要“非常长的时间”，直接承认产能跟不上AI需求。正文没披露具体缺多少产能、哪些客户受影响、扩产时间表，但这句话本身说明美国厂短期指望不上，AI芯片供应瓶颈还会持续。

#Inference-opt#TSMC#Commentary

一句话点评

台积电亲口说美国厂产能短期指望不上，AI芯片供应瓶颈还会持续。正文没披露具体缺多少产能、哪些客户受影响、扩产时间表，但这句话本身说明问题。短评：台积电承认美国厂产能远水不解近渴，AI芯片缺货还得熬一阵。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

69

SCORE

H1·K0·R1

14:15

54d ago

AI HOT 精选· aihot-apiZH14:15 · 06·04

DeepSeek 连续四周登顶 OpenRouter Token 份额榜

OpenRouter 官方发帖称 DeepSeek 已连续四周在其平台 token 消耗量排行榜上排第一。帖子只给了排行榜链接，没披露具体份额、采样范围或统计窗口，所以这个“第一”到底领先多少、覆盖哪些模型调用，目前还不清楚。

#DeepSeek#OpenRouter#Benchmark

一句话点评

DeepSeek在OpenRouter上连续四周token消耗第一，说明开发者调用量确实大。但OpenRouter只给了排行榜链接，没披露具体份额、统计口径和采样范围，这个“第一”领先多少、覆盖哪些模型都不清楚。信息缺口明显，先别急着下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

13:02

54d ago

AI HOT 精选· aihot-apiZH13:02 · 06·04

英伟达 Nemotron 3 Ultra：专为长时间跑任务的 AI Agent 设计，号称又快又省

英伟达发布了 Nemotron 3 Ultra，一个 5500 亿参数的 MoE 模型（每次只激活 550 亿参数），专门用来调度那些需要多轮对话、调用工具、甚至再派子 Agent 的复杂任务。正文说它在 Agent 生产力、长程规划等基准上跟 GLM 5.1、Kimi K2.6 差不多甚至更好，但没披露具体成本数字，只提了“最多省 30% 费用”。架...

#Agent#Reasoning#Tools#NVIDIA

一句话点评

英伟达发了个5500亿参数的MoE模型（每次只激活550亿），专门调度多轮对话、调工具、派子Agent的复杂任务。正文说它在Agent基准上跟GLM 5.1、Kimi K2.6差不多甚至更好，但没披露具体成本数字，只提了“最多省30%费用”。架构上用了混合Mamba-Transformer和NVFP4量化，号称吞吐能提5倍。这点先别太激动——省30%是跟谁比、跑什么任务、硬件成本算没算进去，...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

12:59

54d ago

AI HOT 精选· aihot-apiZH12:59 · 06·04

NVIDIA 教你微调 Nemotron 3.5 语音模型，适配你的语言、领域或口音

NVIDIA 发了一篇博客，手把手教你怎么微调 Nemotron 3.5 ASR 语音识别模型，让它更懂你的语言、行业术语或特定口音。正文没披露用了多少训练数据、超参数怎么设、价格多少，也没给评估数字，所以效果到底多好得自己试。适合有定制语音识别需求的团队参考。

#Audio#Fine-tuning#NVIDIA#Hugging Face

一句话点评

NVIDIA 手把手教微调 Nemotron 3.5 ASR，让语音识别更懂你的语言、行业黑话或口音。但正文没披露训练数据量、超参数、价格和评估数字，效果得自己试。适合有定制需求的团队，但别指望开箱即用。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

35

SCORE

H0·K0·R0

12:51

54d ago

AI HOT 精选· aihot-apiZH12:51 · 06·04

OpenAI 称 AI 开始自己加速自己，递归自我改进初现

OpenAI 发文说，当前系统已经出现递归自我改进（RSI）的早期迹象，简单讲就是 AI 开始帮人类更快地搞 AI 开发。他们预期这会加剧开发者之间和国家之间的竞争压力，现有机构可能管不住。但正文没披露具体是哪个模型、在什么测试条件下、加速了多少，也没有量化指标。气氛确实变了，但这点先别太激动，信息缺口还很大。

#Alignment#Safety#OpenAI#Safety/alignment

一句话点评

OpenAI 说看到了 AI 自我加速改进的早期迹象，但没说是哪个模型、什么测试、加速了多少。气氛确实变了，但信息缺口太大，先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

39

SCORE

H1·K0·R1

12:00

54d ago

FEATUREDAI HOT 精选· aihot-apiZH12:00 · 06·04

OpenRouter 让 11 款大模型打了一局 30 轮吃鸡，Grok 赢麻了，Claude 在交朋友

OpenRouter 花了 482 美元推理费，把 11 个模型扔进一个 2D 大逃杀游戏里打了 30 局。Grok 4.1 Fast 赢了 13 局，每赢一局成本只要 0.97 美元；而 Claude Sonnet 4.6 赢了 5 局，每局成本 26.78 美元，贵了 27 倍。最会杀敌的是 GPT 5.4，干掉了 38 个对手，但只赢了 2 局，...

#Agent#Reasoning#Benchmarking#OpenRouter

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

OpenRouter 让 11 个模型打 30 局大逃杀，Grok 4.1 Fast 赢了 13 局，每局成本不到 1 美元；Claude Sonnet 4.6 赢了 5 局但贵了 27 倍。别急着按胜率选模型，Claude 输是因为总想跟对手组队。

锐评

OpenRouter 的 Jacky Liang 花了 482 美元推理费，把 11 个模型扔进一个 2D 大逃杀游戏里跑了 30 局。结果挺反直觉：赢最多的是 Grok 4.1 Fast，拿下 13 局，每局成本只要 0.97 美元。Claude Sonnet 4.6 赢了 5 局，但每局成本高达 26.78 美元，贵了 27 倍。最会杀敌的是 GPT 5.4，干掉了 38 个对手，却只赢了 2 局。这个测试有意思的地方在于它测的不是刷榜能力，而是实时决策。Grok 赢在快和狠，Claude 输在太“友善”——它反复在游戏里喊话要组队，还主动暴露位置。正文没披露具体延迟数据，也没说模型调用有没有做思维链或工具使用限制，所以不能直接当成生产环境选型依据。还缺什么：30 局样本偏少，运气成分不小；只测了一款游戏，换种规则结论可能完全不同。另外，正文没提各模型的推理延迟分布，这对实时场景比胜率更关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

11:02

54d ago

FEATUREDAI HOT 精选· aihot-apiZH11:02 · 06·04

微软 AI 负责人说 Anthropic 模型太贵，正在自己搞更便宜的替代品

微软 AI 负责人 Mustafa Suleyman 公开说 Anthropic 的模型成本太高，公司已经在开发内部替代模型来降本。他没透露具体模型名称、能便宜多少、什么时候上线。这件事的背景是微软一边给 OpenAI 投了几百亿美元，一边还在大量采购别家模型当备选，现在连备选都觉得贵了。正文没披露自研模型是基于开源方案还是完全从头训，也没说性能对标的...

#Microsoft#Anthropic#Product update

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

微软AI头儿公开嫌Anthropic模型太贵，要自己搞便宜的。但没给具体能便宜多少、性能对标谁，先当个省钱表态看。

锐评

微软AI负责人Mustafa Suleyman直接说Anthropic的模型成本太高，公司已经在开发内部替代模型来降本。这事有意思的地方在于，微软一边给OpenAI投了几百亿美元，一边还在大量采购别家模型当备选，现在连备选都觉得贵了，说明大模型在商业落地时的成本压力比外界想的更大。但正文没披露几个关键信息：自研模型是基于开源方案改的还是完全从头训、性能对标的是Anthropic的哪款模型、具体能便宜多少、什么时候上线。没有这些数字，这个表态更像是在跟供应商砍价，而不是一个马上能落地的技术方案。另外，微软自己就是云计算巨头，如果连它都觉得第三方模型贵到要自研，那中小公司用这些模型做产品的账就更难算了。这点值得关注，但得等微软拿出具体模型和价格对比再下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

09:00

54d ago

FEATUREDAI HOT 精选· aihot-apiZH09:00 · 06·04

ChatGPT 推出 Dreaming 记忆系统，能自动从聊天记录里提炼你的偏好，不用每次都重新自我介绍

OpenAI 给 ChatGPT 换了一套叫 Dreaming 的记忆架构，核心变化是模型会在后台自动翻看你的历史对话，把零散信息合成一个关于你的“记忆摘要”，而不是只靠你手动让它“记住”某件事。官方说这能解决旧版记忆容易过时、记不全的问题，让 ChatGPT 在跨对话时更懂你的偏好和长期项目。目前这个更新只对美国的 Plus 和 Pro 用户开放，免...

#Memory#OpenAI#ChatGPT#Product update

精选理由

精选 · 重要度 84 · 吸引力 + 知识量 + 共鸣

一句话点评

OpenAI 给 ChatGPT 换了套记忆后台，能自动翻旧聊天合成你的偏好摘要，不用每次都手动让它“记住”。目前只对美国 Plus/Pro 开放，免费用户还得等。

锐评

这次更新的核心是把记忆从“手动记笔记”变成了“后台自动整理”。旧版记忆依赖你明确说“记住我七月去新加坡”，没记的它就忘。新架构叫 Dreaming，会在后台翻你的历史对话，把零散信息合成一个关于你的摘要，官方说能解决信息过时和记不全的问题。从放出的截图看，你可以查看、修正或删除它总结出的内容，控制权还在用户手里。但正文没披露这套后台合成多久跑一次、数据保留多久、默认是开还是关。这些直接关系到隐私感受和实际可用性。另外，官方只提了“更省算力”，没给具体数字，也没说跨对话引用的准确率提升了多少。如果是真的省算力又能保持上下文新鲜度，对长期项目协作会挺有用。但没看到第三方评测或用户反馈前，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

84

SCORE

H1·K1·R1

06:23

54d ago

FEATUREDAI HOT 精选· aihot-apiZH06:23 · 06·04

OpenJarvis：斯坦福开源了一个本地优先的个人 AI 框架，把推理、工具、记忆都塞进设备里跑

斯坦福的研究人员放出了 OpenJarvis，一个开源的本地优先框架，目标是让个人 AI 助手直接在手机或电脑上跑，不用把数据传到云端。他们把个人 AI 拆成了五个基础模块：推理、工具调用、记忆、学习，还有一个叫“自我”的模块来协调这些能力。实测下来，在设备端用小模型跑这套流程，效果只比顶尖云端模型差 3.2 分，但每次调用的边际成本直接砍了约 800...

#Agent#Tools#Memory#Stanford

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

斯坦福开源了一个叫 OpenJarvis 的框架，让 AI 助手直接在手机或电脑上跑，不用联网传数据，每次调用成本比用云端大模型便宜约 800 倍。

锐评

OpenJarvis 把个人 AI 助手拆成了五个能独立工作的模块：推理、调用外部工具、记忆、学习，还有一个“自我”模块来协调它们。这套设计的目标很明确——让你的数据留在自己设备上，不用上传到别人的服务器。他们在设备端用小模型跑这套流程，效果只比顶尖云端模型差 3.2 分，但每次调用的边际成本直接砍了约 800 倍。这个数字挺吸引人，不过得先打个折：文章没说明这 3.2 分是在什么评测集上跑出来的，也没提具体用了哪个小模型、在什么手机上测的延迟和功耗。如果是在高端设备上跑一个裁剪过的任务，那实际体验可能跟宣传有差距。还缺一个关键信息：这个“自我”模块到底怎么协调其他模块，文章没展开。另外，本地记忆和学习的长期稳定性、跨 App 调工具的兼容性，这些都没给数据。整体看，思路对路，但离“装到手机上就能用”还差不少工程验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

05:58

54d ago

FEATUREDAI HOT 精选· aihot-apiZH05:58 · 06·04

Ideogram 4.0 开源，跑分自称全球最强，文字渲染和排版控制是亮点

Ideogram 发布了 4.0 版本，一个 93 亿参数的开源文生图模型。它把文字和图像信息放在同一条处理流水线上（单流 DiT 架构），并用了 Qwen3-VL-8B 当文本编码器。最突出的能力是能在图里准确写出长段文字，适合做海报和封面。另外，它训练时让模型理解了元素的位置关系，你用提示词就能指定版式和对象布局。在 DesignArena 的人工...

#Multimodal#Vision#Ideogram#Qwen

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

Ideogram 4.0 开源了一个 93 亿参数的文生图模型，最狠的是能在图里准确写出长段文字，做海报和封面会很实用。但“全球最强开源”这个说法主要来自 DesignArena 人工打分排第 4，正文没给出和其他开源模型的直接对比数据，这点先别太激动。

锐评

Ideogram 4.0 把文字和图像放在同一条处理流水线上，用 Qwen3-VL-8B 当文本编码器，这让它生成带长文本的图片时准确率明显提升，适合海报、封面这类需要精确排版的场景。另外，训练时让模型理解了元素的位置关系，你用提示词就能指定版式和对象布局，不用再靠抽卡碰运气。 DesignArena 的排名是隐藏模型名后由人打分，排第 4，说明审美上确实能打。但正文没披露推理成本、生成速度，也没给出和 Flux、SD3 等开源模型的直接对比数据。93 亿参数不算小，本地跑起来对显存要求不会低。还缺的是：这个模型对中文文字的支持到底怎么样，以及它用的训练数据有没有版权争议。开源权重是好事，但能不能真正用起来，还得看社区后续的量化版本和配套工具跟不跟得上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

02:54

54d ago

FEATUREDAI HOT 精选· aihot-apiZH02:54 · 06·04

Cloudflare 数据显示机器人流量首次超过人类，占 HTML 请求的 57.5%

Cloudflare Radar 统计了 5 月 28 日到 6 月 4 日这一周的全球流量，发现所有 HTML 网页请求里，57.5% 来自爬虫、AI 抓取和自动化脚本，真人浏览器只占 42.5%，这是机器人流量头一回超过人类。如果把所有 HTTP 返回内容都算上，JSON 格式（主要是机器对机器的 API 通信）占了 33.1%，排第一，HTML ...

#Agent#Tools#Cloudflare#Benchmark

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Cloudflare 一周数据：网页请求里机器人占 57.5%，头一回超过真人。但这是 HTML 请求口径，不是全网流量，别直接理解成“互联网被机器人统治了”。

锐评

Cloudflare Radar 统计了 5 月 28 日到 6 月 4 日这一周的全球流量，发现所有 HTML 网页请求里，57.5% 来自爬虫、AI 抓取和自动化脚本，真人浏览器只占 42.5%。这是机器人流量头一回超过人类。如果把所有 HTTP 返回内容都算上，JSON 格式（主要是机器对机器的 API 通信）占了 33.1%，排第一，HTML 只占 12%。这个数据说明两件事：一是 AI 公司大规模抓取网页做训练，爬虫量确实在暴涨；二是互联网的流量结构早就变了，机器之间的 API 调用才是大头，人看网页反而是小头。但要注意，Cloudflare 统计的是经过它网络的请求，不是全网普查，而且只算 HTML 请求的话，很多视频流、下载流量没算进去，实际真人产生的数据量可能比这个比例大。正文没披露机器人流量里 AI 爬虫具体占多少，也没区分善意爬虫（搜索引擎）和恶意爬虫。这点先别太激动，57.5% 这个数字更像一个信号，提醒我们互联网的基础设施正在被机器流量重塑，但具体影响多大，还得看更细的拆解。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

00:50

54d ago

FEATUREDAI HOT 精选· aihot-apiZH00:50 · 06·04

联合国报告：到2030年，AI数据中心的用电和用水量都要翻倍

联合国大学一份新报告算了笔账：去年全球数据中心用了448太瓦时电，比沙特全国用电还多，其中AI算力占五分之一；水用了4.5万亿升，够撒哈拉以南非洲6亿多人用。到2030年，这些数字预计全部翻倍——电涨到945太瓦时（相当于日本全国用电），水涨到9.3万亿升，碳排放也会从1.89亿吨跳到3.99亿吨。报告主笔人提醒，大家老把AI当纯软件看，但它背后是实打...

#United Nations University#Policy

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

联合国这份报告把AI的“实体账本”算清楚了：去年数据中心用电量比沙特全国还多，AI占五分之一。到2030年这些数字要翻倍，但报告没提技术进步可能带来的能效提升，这点先别太激动。

锐评

联合国大学这份报告给AI热潮泼了盆冷水，直接点出一个被很多人忽略的事实：AI不是飘在云端的纯软件，它背后是实打实的水、电和土地。去年全球数据中心用了448太瓦时电，比沙特全国用电还猛，其中AI算力就吃掉五分之一；水用了4.5万亿升，够撒哈拉以南非洲6亿多人用。到2030年，这些数字预计全部翻倍，电涨到945太瓦时，相当于日本全国用电量，AI的耗电占比也会跳到40%。报告主笔人提醒得很直接，现在行业一味比谁建得快，把可持续的基本准则盖过去了。在部分资源本就紧张的地区，数据中心无序扩张会直接跟当地抢水抢电。不过报告正文没披露这些预测的具体模型和假设条件，比如是按当前芯片能效线性外推，还是已经考虑了未来技术迭代。这点信息缺口挺关键，因为如果算力效率大幅提升，实际数字可能没那么吓人。另外，报告也没给出不同区域的具体影响分布，只说“部分区域”会有冲突，缺了这层，政策制定者很难对症下药。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

00:00

54d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 06·04

Hugging Face 改造命令行工具，让 Claude Code 这类编码智能体调用时省下 6 倍 token

Hugging Face 把自家的 hf 命令行工具重新设计了一遍，让它能同时服务人类和编码智能体。工具会通过环境变量自动识别是不是 Claude Code、Codex 等智能体在调用，如果是，就输出紧凑、不截断的 TSV 格式，而不是给人看的表格。在复杂多步任务测试里，没用这个 CLI 的智能体（比如自己拼 curl 或调 Python SDK）消耗...

#Agent#Code#Tools#Hugging Face

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Hugging Face 把自家命令行工具改成了“人机双模”：智能体调用时自动切 TSV 格式，省 token 效果明显，但测试只跑了自家任务，通用性存疑。

锐评

Hugging Face 重新设计了 hf CLI，让它能自动识别调用方是人还是编码智能体（比如 Claude Code、Codex）。如果是智能体在调，输出会从给人看的表格自动切换成紧凑、不截断的 TSV 格式。这个思路很直接：让模型少读废话，省 token 就是省钱。他们自己的测试显示，在复杂多步任务里，不用这个 CLI、自己拼 curl 或调 Python SDK 的智能体，token 消耗最多能高出 6 倍。不过这个 6 倍的对比基准是“裸写 curl 或 SDK”，不是跟其他优化过的工具链比，所以实际收益得打个折。另外，测试任务都是围绕 Hugging Face Hub 本身的操作，没覆盖更通用的开发场景。正文也没披露测试了多少个任务、任务难度分布和成功率，只给了 token 消耗的倍数，没法判断是不是牺牲了任务完成质量换来的省 token。对经常让智能体操作 HF Hub 的团队来说，这个更新值得跟进，至少能省一笔推理成本。但如果你家智能体的工作流不重度依赖 HF Hub，先别急着换工具链，等第三方在更杂的任务上跑出对比数据再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

00:00

54d ago

AI HOT 精选· aihot-apiZH00:00 · 06·04

OpenAI 发布《智能时代的生物防御》行动计划，用 AI 加速检测和应对生物威胁

OpenAI 在 6 月 4 日发布了一份生物防御行动计划，核心思路是用 AI 帮人类更快发现和应对生物威胁。计划基于他们 4 月推出的生物学推理模型 GPT-Rosalind（能辅助药物研发和疾病理解）和 5 月宣布的 Rosalind Biodefense（专门给可信开发者做生物防御工具）。OpenAI 认为，最好的防御是让“好人”先用上先进能力，...

#Safety#OpenAI#Policy#Safety/alignment

一句话点评

OpenAI 发了一份生物防御行动计划，核心是让“好人”先用上先进 AI 来防生物威胁。4 月出了生物学推理模型 GPT-Rosalind，5 月又推出 Rosalind Biodefense 工具给可信开发者。想法是好的，但全文没披露具体机制、时间表、预算、合作伙伴或评估指标，更像一份立场声明。短评：好人先跑，但路怎么跑、谁出钱、怎么算赢，一个字没提。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

66

SCORE

H1·K0·R1

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户