全部

▸ 200 items · updated 3m ago

按日期浏览5411 项 · 60 天

2026年4月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1694 1768 1853 1962 2095 2198 22108 2393 2472 2535 2629 2773 28109 29102 3094

2026年5月

一二三四五六日

176 260 362 473 5107 693 7132 890 970 1057 1199 12121 13135 14145 15128 1663 1764 18104 19167 20116 21121 22114 2348 2446 2570 26107 27116 28140 29113 3058 3161

2026年6月

一二三四五六日

1132 2140 3130 4111 5118 668 766 8124 9114 1075 1176 1277 1332 14715161718192021222324252627282930

2026-05-14 · 星期四2026年5月14日

09:29

31d ago

FEATUREDAI HOT 精选· aihot-apiZH09:29 · 05·14

OpenAI 被集体诉讼：ChatGPT 网页埋追踪代码，把用户问题和 Facebook ID 实时传给 Meta

南加州联邦法院受理了一起集体诉讼，原告指控 OpenAI 在 ChatGPT 网页里嵌了 Facebook Pixel 这类追踪代码。你输入问题时，问题的主题会变成浏览器标题，连同你浏览器里存着的 Facebook 唯一 ID，一起实时发给 Meta。OpenAI 的说法是只分享“有限标识符”用来投广告，但原告认为问题主题本身就是高度敏感的个人信息。这...

#Safety#OpenAI#Meta#Policy

精选理由

我会先打个折：目前只是集体诉讼的指控，法院还没判，也没有其他独立信源交叉验证，所以别当定论看。但指控本身很具体——不是笼统说“泄露数据”，而是点名用了 Facebook Pixel，把查询主题和能定位到具体人的 Facebook ID cookies 实时发给 Meta。对 AI 从业者来说，这等于把用户问了什么、谁在问，一起打包送给了广告平台，隐私和合规风险比一般的“数据用于训练”要尖锐得多。正文没披露 OpenAI 的回应或技术细节，也没说影响多少用户，所以重要性停在 82 这个区间是合理的。

一句话点评

OpenAI 被诉在 ChatGPT 网页埋追踪代码，把用户提问主题和 Facebook ID 实时传给 Meta。正文没披露 OpenAI 是否承认或回应，先别急着下结论。

锐评

这起诉讼的核心指控很直接：你在 ChatGPT 输入的问题，会被塞进浏览器标题栏，连同你浏览器里存着的 Facebook 用户 ID，一起打包发给 Meta。原告认为问题主题本身就是敏感信息，比如你问医疗、财务或情感问题，等于把自己的隐私标签贴好送出去。OpenAI 的说法是只分享“有限标识符”用来投广告，但正文没给出 OpenAI 的正式回应或技术细节，所以这个“有限”到底限到什么程度还不清楚。值得留意的是时间点——2026 年 5 月立案，说明这事发生在 ChatGPT 已经大规模普及之后。很多用户当初从搜索引擎转用 ChatGPT，图的就是不被追踪、不被画像，如果指控属实，这个反差确实讽刺。但诉讼刚受理，离判决还远，原告的举证能力和 OpenAI 的辩护策略都未知。目前缺的关键信息：OpenAI 是否在隐私政策里披露过这段数据共享、Meta 收到数据后怎么用、有没有用户因此受到实际损害。这些会直接影响案子能不能走下去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:16

31d ago

FEATUREDr/LocalLLaMA· rssEN09:16 · 05·14

单卡跑通一句话生成电影级短片：FLUX.2 出角色，Wan2.2 做动画，带自动质检和 9 语配音

这个叫 StudioMI300 的开源流水线，把一句英文提示词变成 720p 短片，全程跑在一张 AMD Instinct MI300X 上。流程分 8 步：先用 FLUX.2 [klein] 生成角色关键帧，再用 Wan2.2-I2V 把静态图转成动画，中间加了一道视觉评分和自动重试的质检，最后配上音乐和 9 种语言的旁白。开发者把单条片子的生成时间...

#Agent#Vision#Multimodal#AMD

精选理由

HKR 三项都成立：帖子把一句提示词到成片的完整链路讲清楚了，有硬件型号、阶段数和压缩后的耗时，对想自己搭视频管线的开发者来说，省钱和可控这两点很抓人。不过来源只有 Reddit 单帖，没有第三方复现或更多验证，所以分数没再往上走。

一句话点评

一条提示词变短片，单卡跑通，时间砍到10分钟。但正文被Reddit墙了，看不到实测效果和代码细节，先打七折。

锐评

这个叫StudioMI300的流水线，把“一句话出片”这件事压到了一张AMD MI300X上跑，端到端时间从25.9分钟压到10.4分钟，省了一半多。流程是先用FLUX.2 [klein]出角色图，再用Wan2.2-I2V让图动起来，中间加了个视觉评分和自动重试的质检环节，最后配上音乐和9种语言的旁白。思路挺实在，相当于把多个模型串成一个自动化的视频生产线，还加了道品控。不过现在能说的就这么多。Reddit原文被网络策略挡了，返回403，我们看不到代码仓库、示例视频，也不知道10分钟这个数字是在什么分辨率、什么帧数下测出来的。视觉评分具体怎么打、自动重试的触发条件是什么，正文都没披露。另外，全程跑在一张MI300X上，这张卡对大部分个人开发者来说门槛不低，能不能迁移到消费级显卡上还是个问号。这条值得关注的点在于它把“生成-质检-重试”做成了闭环，不是一次性出片就完事。但效果到底怎么样，得等代码和样片公开了再判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:05

31d ago

AI HOT 精选· aihot-apiZH09:05 · 05·14

写了个技能：让 Codex 自动循环审查代码直到零错误

开发者 steipete 写了一个 codex-review 技能，能自动循环调用 Codex 的 /review 接口，直到代码没有报错为止。注意：它不会帮你改系统架构，核心逻辑还得靠人脑（原文说“仍然需要 BRAIN 作为主模型”）。适合用来做代码质量检查的自动化，但别指望它能重构你的项目结构。

#Agent#Code#Tools#steipete

精选理由

一条 X 帖子，没有放出代码、指标或可复现对比，信息量有限，所以不上 featured。但循环审查 + 不碰架构这个组合对 coding agent 从业者有参考价值，值得推给所有人。

一句话点评

短评：自动循环跑 Codex 审查直到无报错，省人工但别指望它改架构。点评：开发者 steipete 写了个 codex-review 技能，核心逻辑是循环调用 Codex 的 /review 接口，直到代码没报错才停。好处是自动化代码质量检查，省掉反复手动提交审查的功夫。但原文明确说了两点限制：一是不会修系统架构，二是“仍然需要 BRAIN 作为主模型”——说白了，核心逻辑和设计决策还...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:00

31d ago

FEATUREDMIT 科技评论· rssEN09:00 · 05·14

看到自己的身体被用在 AI 换脸色情片里是什么感觉

MIT Technology Review 这篇报道讲的是成人内容创作者的身体被拿去喂 AI 做深度伪造色情片的问题。主角 Jennifer 在 2023 年用人脸识别搜自己以前的职业照，结果发现一段她 2013 年左右拍的旧视频被人换了脸——她的身体还在，脸是别人的。她说那种感觉就像自己戴着别人的脸当面具。过去大家讨论 AI 换脸色情，焦点都在那些被...

#Vision#Multimodal#Safety#MIT Technology Review

精选理由

这篇文章不是模型发布或产品更新，而是一篇安全/政策向的特写。我会先打个折：它没有给出新的技术方案或治理框架，但它的力量在于把“非自愿合成色情”从统计数字拉回到一个人的经历上。Jennifer 的案例和 2013 年旧视频被翻出来用，说明问题比 2017 年 Reddit 那波 deepfake 热潮更早，这点对理解问题根源有帮助。正文没披露平台后续具体做了什么，也没给出可量化的治理效果，所以别把它当解决方案看。它更适合放在 featured 位置，提醒从业者安全问题的老伤口还在化脓。

一句话点评

AI 换脸色情片里被换掉的不只是脸，还有被直接拿来用的身体。这篇报道把镜头对准了那些身体被偷去喂 AI 的成人创作者，她们受到的伤害和维权困境一直被忽略。

锐评

这篇报道把 AI 深度伪造色情（NCII）的讨论往前推了一步：过去大家只盯着被换上去的“脸”是谁，但 Jennifer 的经历提醒我们，那些被换掉的“身体”同样是被盗用的受害者。Jennifer 在 2023 年用人脸识别搜自己以前的职业照，结果发现一段她 2013 年左右拍的旧视频被人换了脸——她的身体还在，脸是别人的。她说那种感觉就像自己戴着别人的脸当面具。报道点出了一个更隐蔽的威胁：现在生成式 AI 已经不需要直接扒某段具体视频了，成人内容被大规模拿去当训练数据，教 AI 学会身体该怎么动、怎么“表演”。这直接威胁到创作者的饭碗——AI 生成的裸体内容反过来会挤占她们的市场。文章引用了专攻成人行业的律师 Corey Silverstein 的说法，证实这种事“一直在发生”。报道的局限在于，它主要呈现了个人经历和定性判断，没有给出这类训练数据被使用的具体规模、平台下架效率的量化数据，也没展开讲现有版权法在“身体被盗用”这件事上几乎使不上劲的法律细节。Jennifer 的案例很有冲击力，但要从个案推到行业级的解决方案，还需要更多关于技术取证和平台责任的数据支撑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:53

31d ago

Product Hunt · AI· rssEN08:53 · 05·14

Picsart MCP：一个接口调 140 多个 AI 模型做图做视频

Picsart 今天上线了一个 MCP 服务器，相当于给 AI 助手开了一个统一工具箱，通过一个接口就能调用 140 多个图像、视频和音频模型。用户用自然语言提需求，助手自动选模型出结果，不用手动切换工具或学界面。好处是省掉了集成多个 API 的麻烦，但正文没披露定价、API 限频和具体模型列表，实际落地成本和使用门槛还不清楚。

#Multimodal#Vision#Tools#Picsart

精选理由

H 和 K 过关：MCP 入口加 140+ 模型是个可用事实。但正文太薄，没披露定价、限制和模型列表，只能算一条面向所有层级的小产品更新，不构成强判断。

一句话点评

Picsart 把 140 多个图像/视频/音频模型打包成一个 MCP 接口，AI 助手说人话就能调，不用切工具。省掉集成多个 API 的麻烦，这点对开发者友好。但正文没披露定价、API 限频和具体模型列表，实际落地成本和使用门槛还不清楚。短评：140+模型一个接口，省事但没报价，先别激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

08:24

31d ago

r/LocalLLaMA· rssEN08:24 · 05·14

TurboQuant+MTP 在 ROCm 上跑起来了：RX 7900 XTX 跑 Qwen3.6-27B，64k 上下文，38–54 tok/s

DrBearJ3w 在 llama.cpp 分支里给 ROCm 加上了 TBQ4 KV cache 和 MTP（多 token 预测）。实测 RX 7900 XTX 跑 Qwen3.6-27B，64k 上下文只占约 20 GB 显存，生成速度 38–54 tok/s。这个显存占用挺省，比同规模模型常规量化低不少；速度也够用，但注意这是 AMD 卡，N ...

#Inference-opt#DrBearJ3w#llama.cpp#Qwen

精选理由

这是 llama.cpp 分支上的 ROCm 优化，针对 Qwen3.6-27B 在 RX 7900 XTX 上的表现。20GB 显存跑 64k 上下文挺省，38–54 tok/s 的速度对消费级卡来说不错。但只是个人分支，没合入主线，也没给复现步骤或第三方验证，所以分数卡在 60–71 区间。

一句话点评

AMD 卡用户有福了。有人在 llama.cpp 分支给 ROCm 加了 TBQ4 KV cache 和多 token 预测，RX 7900 XTX 跑 Qwen3.6-27B，64k 上下文只占约 20 GB 显存，生成速度 38–54 tok/s。显存省得明显，速度也够用。但注意这是 AMD 卡，N 卡用户别激动；且这是个人分支，非官方合并，稳定性未知。正文被屏蔽，没披露具体量化精度损失...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:20

31d ago

r/LocalLLaMA· rssEN08:20 · 05·14

本地模型搜到2026年伊朗战争新闻，却硬说是虚构的

一位Reddit用户发现，gemma-4-26B-A4B-it-Q4_K_M_128k模型在联网搜索后，明明看到了“Epic Fury”等具体操作名称和日期，仍然把2026年伊朗战争新闻归类为“虚构场景”或“地缘政治模拟”。问题出在过度RLHF训练让模型对知识截止日期之后的内容产生怀疑，即使给了搜索工具也改不了。一个临时解法是在系统提示里加上“今天是2...

#Tools#Alignment#Gemma#Gemini

精选理由

H/K/R 都踩到了点：具体模型、联网搜索条件、系统日期补丁。但来源是 Reddit 单帖，没有跨模型复现测试，所以分数压在 60–71 区间。

一句话点评

Gemma-4本地版联网搜到“Epic Fury”等2026年伊朗战争新闻，仍坚持这是“虚构场景”。过度RLHF让模型对知识截止日期后的内容产生怀疑，给了搜索工具也改不了。临时解法：系统提示里加“今天是2026年”。正文没披露哪些模型受影响更严重，也没说Gemini API是否完全无此问题。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:15

31d ago

Hacker News 首页· rssEN08:15 · 05·14

Bun的Rust重写已合并到主分支

Bun 的 Rust 重写 PR 正式合并了，Hacker News 上 66 票、47 条评论。PR 正文没披露重写范围、性能数据或发布时间线，所以目前只能确认代码库换了语言，实际效果还得等后续跑分。

#Code#Bun#Oven#Hacker News

精选理由

HKR 里 H 过了，因为技术栈切换有讨论点；K 和 R 都不过：只披露了合并，没给范围、跑分或时间表，而且跟 AI 无关。这条属于<40 的勉强沾边档。

一句话点评

Bun 的 Rust 重写 PR 已合入主分支。这不是把整个 Bun 用 Rust 重写一遍，而是把核心的 JavaScript 运行时（JavaScriptCore 绑定、事件循环等）从 Zig 换成 Rust，目标是提升性能和降低维护成本。PR 正文没披露具体性能提升数据，也没说兼容性影响。对普通用户来说，短期内感受不到变化，但长期看 Bun 的稳定性和扩展性会更好。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

08:12

31d ago

r/LocalLLaMA· rssEN08:12 · 05·14

用树莓派搭集群学分布式训练，一块板子30到50美元

作者发了个树莓派集群搭建指南，目标是用来学分布式训练和推理。每块板子30到50美元，成本确实低，但正文没披露跑了什么模型、吞吐量多少，也没说异构推理能不能跑通。目前更像一个硬件搭建教程，离真正能跑模型还有距离。

#Inference-opt#Raspberry Pi#smolcluster#LocalLLaMA

精选理由

HKR-H 和 HKR-R 通过，但 HKR-K 偏弱：这是一篇教学向的树莓派集群搭建指南，单板价格 30-50 美元，没有可验证的训练或推理指标，所以留在 all 层级。

一句话点评

树莓派集群跑分布式训练，成本确实低（每块30-50美元），但正文没披露跑了什么模型、吞吐量多少，也没说异构推理能不能跑通。目前更像硬件搭建教程，离真正能跑模型还有距离。短评：树莓派组集群学分布式，成本低但没跑通模型，别急着当生产力工具。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

08:10

31d ago

AI HOT 精选· aihot-apiZH08:10 · 05·14

Ring-2.6-1T 模型发布，Claw-Eval 通用分 58.4、多轮对话 86.8

inclusionAI 放出了 Ring-2.6-1T 模型，参数量 1T。在 Claw-Eval 测试里，通用能力拿了 58.4 分，多轮对话拿了 86.8 分。两个分数都已经上了对应的排行榜。不过正文没披露训练数据、推理成本、开源协议这些信息，暂时只能看个分数。

#Benchmarking#inclusionAI#Product update#Benchmark

精选理由

HKR-H来自1T模型规模这个具体钩子；HKR-K来自两个Claw-Eval分数。文章缺少架构、许可证、上下文长度和成本细节，所以分数落在60–71区间。

一句话点评

Ring-2.6-1T 在 Claw-Eval 上通用 58.4、多轮 86.8，多轮分数挺高，但通用刚过及格线。1T 参数不小，可训练数据、推理成本、开源协议全没提，暂时只能看个榜。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

07:17

31d ago

AI 群聊日报· atomZH07:17 · 05·14

Anthropic 给 Claude Code 加量但把 Agent SDK 拆出来单独收费

Anthropic 调整了 Claude Code 的配额和计费：周限额提高 50%（到 7 月 13 日），但 Agent SDK 和 claude -p 从订阅中拆出来独立计费——Max 5x 用户每月给 100 美元额度，用完按量付费。群里反应从“感谢一龙”到“自助餐没有了”只隔了几条消息，有人立刻给出 stdio redirection 绕路方...

#Agent#Code#Tools#Anthropic

精选理由

HKR-K和R通过，因为日报给出了具体的Claude Code配额和计费变化。来源权威性弱，HKR-H不通过，因此评分落在60-71区间，不进入精选。

一句话点评

Anthropic 给 Claude Code 周限额加了 50%，但把 Agent SDK 和 claude -p 从订阅里拆出来单独收费，Max 5x 用户每月给 100 美元额度，用完按量付费。群里反应从“感谢一龙”到“自助餐没有了”只隔了几条消息，有人立刻给出 stdio redirection 绕路方案。短评：加量但拆了核心功能，绕路方案实操性存疑。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

07:12

31d ago

FEATUREDAI HOT 精选· aihot-apiZH07:12 · 05·14

腾讯开源 Agent Memory：用“任务地图”和上下文卸载，让 Token 消耗降低 61%

腾讯云开源了 TencentDB Agent Memory，专门解决 AI Agent 在长任务里上下文窗口被快速撑爆的问题。核心思路分两步：一是用 Mermaid 流程图把任务执行过程画成一张可折叠、可展开的“任务地图”，让 Agent 随时知道自己在哪、哪些步骤有依赖；二是做上下文卸载，把工具返回的完整结果存到外部文件，上下文里只留一行摘要和索引路...

#Agent#Memory#Tools#Tencent Cloud

精选理由

腾讯云把 Agent Memory 开源了，主打上下文卸载和用 Mermaid 图当任务画布，多任务连续对话里最高能省 61% 的 Token。这个数字对跑生产级 Agent 的团队来说挺实在，不是实验室刷榜。不过正文没给出对比基准和测试场景细节，实际能省多少得自己测。整体不是大模型发布那种量级，但作为成本优化工具，放在 featured 里提醒一下同行是合适的。

一句话点评

腾讯云开源了一个给 AI Agent 用的记忆系统，核心是把长任务里的中间结果存到外部文件，上下文只留摘要，实测能省 61% 的 Token。

锐评

这条新闻值得点开看，因为它解决的是 Agent 跑长任务时一个很实际的痛点：上下文窗口被工具返回的大量原始数据撑爆，导致成本飙升、模型犯糊涂。腾讯云这个方案思路挺巧，不是去压缩历史，而是把完整结果卸载到外部文件，上下文里只留一行摘要和索引路径，再配合一张 Mermaid 流程图当“任务地图”，让 Agent 随时知道自己在哪、下一步该干嘛。 61% 这个数字来自多任务连续 Session 实验，不是单题清空上下文那种理想环境，参考价值更高。消融实验也显示，光卸载能省 15% 的 Token，加上画布能到 31%-33%，说明画布对减少上下文噪音有独立贡献。不过正文没披露实验用的具体模型、任务类型和成功率基线，也没提卸载和检索本身会引入多少额外延迟。目前默认用本地 SQLite 存储，零外部依赖，这对个人开发者友好，但大规模生产环境下的并发和可靠性还没看到验证。另外，长期记忆部分只提了一句“已上线免费使用”，具体怎么和短期记忆协同也没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:03

31d ago

Product Hunt · AI· rssEN07:03 · 05·14

Drizz：用自然语言写移动端测试，AI 自动跑并自己修

Drizz 是一个 AI 驱动的移动端测试自动化平台，核心卖点是“意图驱动测试”——你直接用中文描述想测什么（比如“登录后检查首页是否显示用户名”），它就在真机上用视觉 AI 执行，并自动生成可复用的测试用例。不用写脚本、不用管选择器、不用手动维护，还能适配动态 UI 并接入 CI/CD 流水线。正文没披露支持哪些平台（iOS/Android）、具体定...

#Agent#Code#Tools#Drizz

精选理由

一个 Product Hunt 上的小工具，标题喊得响，但正文没披露支持平台、测试机制和价格。H 和 R 勉强过关，K 不达标，所以价值低但可以浏览。

一句话点评

Drizz 让你用中文说“测登录后首页显示用户名”，它就在真机上用视觉 AI 跑测试，自动生成可复用的用例，不用写脚本。亮点是意图驱动 + 真机执行，省掉维护选择器的麻烦。但正文没披露支持 iOS 还是 Android、定价、以及视觉 AI 在复杂 UI 下的准确率，这点先别太激动。如果真能稳定适配动态 UI，对 QA 团队挺省人力。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

06:50

31d ago

Product Hunt · AI· rssEN06:50 · 05·14

Raindrop Workshop：开源免费的 AI Agent 本地调试器

Raindrop Workshop 是一个开源、免费、本地的 AI Agent 调试工具，能逐 token 实时流式显示 Agent 的调用轨迹。它支持通过 MCP 协议让另一个 Agent（比如 Claude Code）读取这些轨迹，然后自动写评估、回放调试、修 bug，形成“自愈循环”。目前正文没披露支持哪些框架、运行环境要求以及具体开源协议，但免...

#Agent#Tools#Raindrop Workshop#Product update

精选理由

这是一个 Product Hunt 上的小工具发布，亮点是本地 agent 调试器，能打中开发者对调试速度和隐私的敏感点，所以 H 和 R 成立。但 K 很弱：没披露框架、运行环境、许可证，也没有可复现的 demo，信息缺口明显。综合来看是个小产品发布，给 62 分、tier=all 合理。

一句话点评

Raindrop Workshop 是一个开源、免费、本地的 AI Agent 调试工具，能逐 token 实时显示 Agent 的调用轨迹。亮点是它支持通过 MCP 协议让另一个 Agent（比如 Claude Code）读取这些轨迹，然后自动写评估、回放调试、修 bug，形成“自愈循环”。这点先别太激动——正文没披露支持哪些框架、运行环境要求以及具体开源协议，但免费本地运行这点对开发者挺...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

06:48

31d ago

AI HOT 精选· aihot-apiZH06:48 · 05·14

百度把智能体日活当核心指标，但没公布具体数字

百度发了一篇新闻稿，说要全力推智能体（让AI独立完成任务的程序），并把日活跃智能体数量作为关键考核指标。但正文没披露目前有哪些智能体产品、日活怎么定义、以及具体数值是多少。这个方向本身不新鲜，关键是后续能不能拿出有用户量的实际案例。

#Agent#Baidu#Product update

精选理由

HKR-K勉强通过，因为百度首次把日活跃智能体作为指标提出；HKR-H和HKR-R不通过，因为正文没披露产品清单、日活口径或具体数值，对从业者缺乏讨论抓手。

一句话点评

百度把日活智能体数当KPI，但没公布任何具体数字或产品名单。方向不新鲜，关键是后续能不能拿出有用户量的实际案例。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

06:24

31d ago

彭博科技· rssEN06:24 · 05·14

鸿海利润超预期，AI服务器撑起增长

鸿海（富士康）季度利润高于预期，股价创2月以来最大盘中涨幅，主要靠AI服务器需求拉动。正文被彭博付费墙挡住，没披露利润具体增长多少、服务器收入占比和股价涨幅数字。

#Hon Hai Precision Industry#Nvidia#Product update

精选理由

HKR-R 通过，因为鸿海卡在英伟达AI服务器供应链上，利润和股价涨说明算力需求还在动。HKR-H/K 弱：正文缺核心数字，只能算行业常规报道，没有独家或深度信息。

一句话点评

鸿海（富士康）靠AI服务器需求拉动，季度利润超预期，股价创2月以来最大盘中涨幅。但正文被彭博付费墙挡住，利润具体增长多少、服务器收入占比和股价涨幅数字都没披露。信息缺口明显，只能确认AI服务器确实在拉动代工厂业绩，但没法判断拉动幅度和持续性。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

06:13

31d ago

r/LocalLLaMA· rssEN06:13 · 05·14

开源工具让AI跨电脑操控屏幕：点、点、打字，全在本地

Opendesk 发布了一个计算机使用 MCP，能让 AI 在同一 WiFi 下远程操控另一台电脑的屏幕——看到画面、移动鼠标、点击、打字。一次配对后无需云账号或中转服务器，所有数据本地加密传输。支持 Mac、Linux、Windows，开源免费。适合想用 Claude、Cursor 或自己写的 AI 流程去操作另一台机器的场景。正文没披露延迟和稳定性...

#Agent#Tools#opendesk#Claude

精选理由

HKR 三项都过：开源 computer-use MCP，跨平台、同 WiFi、本地加密，对 agent 开发者有吸引力。但来源权威性低，正文没披露 GitHub 星数、演示效果、安全边界细节，所以分数压在 60–71 区间。

一句话点评

Opendesk 搞了个开源 MCP，能让 AI 在同一 WiFi 下远程操控另一台电脑的屏幕、鼠标和键盘，一次配对后数据本地加密传输，不用云账号。适合用 Claude 或 Cursor 去操作另一台机器。但正文没披露延迟和稳定性，实际体验可能打折扣。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:05

31d ago

TechCrunch AI· rssEN06:05 · 05·14

AI 该告诉你什么，谁说了算？前 Meta 新闻主管有话说

Campbell Brown 在 StrictlyVC 活动上说，硅谷圈子和普通消费者对 AI 信息筛选的讨论完全是两码事。但正文没披露任何具体的治理机制或决策流程，只点出了这个认知分裂的现象。

#Safety#Campbell Brown#Meta#StrictlyVC

精选理由

这篇报道的标题很有钩子，但正文信息密度低，只说了Campbell Brown在StrictlyVC上讨论了硅谷和消费者对AI信息决策的看法分裂，没有给出任何具体机制、数据或案例。H和R维度通过，因为话题本身有控制权争议和信任安全价值，但K维度弱——没有新机制、数字或可验证信息，属于典型的评论性内容，放在62分合理。

一句话点评

前Meta新闻主管Campbell Brown点出一个现象：硅谷圈和普通消费者对AI该不该筛选信息、怎么筛，讨论的完全是两回事。但正文只抛了现象，没披露任何具体治理机制或决策流程——谁定规则、怎么定、用户有没有选择权，一概没提。这点先别太激动，信息缺口很大。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

05:57

31d ago

AI HOT 精选· aihot-apiZH05:57 · 05·14

Kimi K2.6 金融智能体评测登顶，但分数和对手差距没说

Kimi K2.6 在 Finance Agent Benchmark V2 上拿了开源模型第一，这个榜单测的是 AI 能不能干金融分析师的工作，比如读财报、算指标。但原帖没交代测试集多大、评分规则是什么、比第二名高多少，所以这个“第一”的含金量暂时不好判断。

#Agent#Benchmarking#Kimi#Moonshot AI

精选理由

排名第一是硬钩子，但信息缺口明显：没讲测试集规模、评分标准和领先多少分，单来源基准新闻可信度有限，所以分数压在60-71区间。

一句话点评

Kimi K2.6 在金融智能体基准上拿了开源第一，测的是读财报、算指标这类活儿。但原帖没交代测试集多大、评分规则、比第二名高多少，这个“第一”的含金量暂时不好判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:33

31d ago

FEATUREDAI HOT 精选· aihot-apiZH05:33 · 05·14

小米 MiMo V2.5 Pro 在 DesignArena 设计竞技场拿到第三，前端编码追平 Claude Sonnet 4.6

MiMo V2.5 Pro 的 Thinking 版本在 DesignArena 总榜上比上一代 MiMo-V2.5 爬了 8 个名次，直接冲到第三。前端编码任务的表现已经和 Claude Sonnet 4.6 打平。正文没披露具体评分和测试样本量，所以这个“追平”是在什么条件下达成的还不清楚，先别太激动。

#Code#Reasoning#Benchmarking#Xiaomi

精选理由

H、K、R 三条都踩中了，但信息全来自官方一条推文，没公开测试方法、没开放试用、也没提价格，所以先别太激动。这更像一次产品更新和榜单占位，不是那种当天必须追的硬核发布。

一句话点评

小米 MiMo V2.5 Pro 在 DesignArena 设计榜冲到第三，前端编码追平 Claude Sonnet 4.6，但正文没给评分和样本量，先打个折。

锐评

小米的 MiMo V2.5 Pro 在 DesignArena 设计竞技场总榜拿了季军，Thinking 版本比上一代爬了 8 个名次，前端编码任务的表现号称跟 Claude Sonnet 4.6 打平。这个成绩如果坐实，说明国产模型在需要兼顾视觉审美和代码实现的设计类任务上，已经能摸到第一梯队的边。但这条消息来自官方账号的庆祝推文，不是第三方评测报告。正文没披露具体评分、测试样本量，也没说这个“追平”是在全部前端任务上还是某个子集里达成的。DesignArena 本身是一个社区驱动的排行榜，评测维度和稳定性跟学术基准不太一样，所以这个第三名的含金量还需要更多独立验证。还缺的东西挺多：跟 Sonnet 4.6 对比的原始数据、错误类型分布、在不同复杂度任务上的稳定性，以及 Thinking 版本相比普通版到底在哪些环节起了作用。这些信息不出来之前，这个“追平”只能当个参考信号看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:24

31d ago

TechCrunch AI· rssEN05:24 · 05·14

法律科技公司 Clio 年收入冲到 5 亿美元，Anthropic 也来加码

Clio 刚宣布年经常性收入（ARR）达到 5 亿美元，说明法律行业客户正在大量采用它的软件。同一时间 Anthropic 也在加码这个赛道，但正文没披露具体产品、定价、机制或上线时间。

#Clio#Anthropic#Commentary

精选理由

H来自5亿美元ARR与Anthropic施压的对比，K仅限于ARR数字。正文没披露Anthropic的产品、定价或机制，对AI从业者的实用价值有限。

一句话点评

Clio 年收入冲到 5 亿美元，说明法律行业真在批量买它的软件。同一时间 Anthropic 也盯上这块，但正文没披露具体产品、定价或上线时间，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

05:05

31d ago

● P1新智元 · 公众号· rssZH05:05 · 05·14

Anthropic企业采用率首次超越OpenAI，Ramp数据显示

根据 Ramp 从 5 万多家公司的信用卡和发票支出里拉出来的数据，Anthropic 的企业市场份额冲到了 34.4%，OpenAI 掉到 32.3%，这是 OpenAI 三年来第一次在这个指标上被反超。不过正文因为微信环境验证挂了，看不到具体细节，比如统计口径是只算 API 调用还是也包了 ChatGPT 企业版订阅、数据覆盖了多长时间，这些都没法...

#Agent#Code#Multimodal#Anthropic

精选理由

我会先打个折：Ramp 的数据只反映它自家客户里的支出份额，不是全行业市占率，所以别直接当成“Anthropic 全面反超”。但 5 万多家企业的实际付款数据比调研问卷硬得多，34.4% 对 32.3% 这个交叉点确实说明 Anthropic 在付费企业里势头很猛。正文没披露统计周期和是否含 API 之外的订阅收入，这点信息有缺口。整体上，这是一条有事实、有数字、有竞争张力的消息，值得从业者看一眼。

一句话点评

Anthropic 在 B2B 付费客户占比上首次超过 OpenAI，但数据来自美国偏重的支付平台 Ramp，不是全球市场，别急着说王座易主。

锐评

Ramp 的支付数据显示，今年 4 月 Anthropic 的企业客户占比达到 34.4%，OpenAI 是 32.3%，这是 Anthropic 第一次在这个指标上反超。过去一年 Anthropic 的渗透率翻了四倍，而 OpenAI 几乎没动，只涨了 0.3%。但这个数据有几个坑要先说清楚。第一，Ramp 主要覆盖美国公司，不能代表全球。第二，它统计的是“有多少公司在 Ramp 上给这家 AI 公司付过钱”，不是花了多少钱、用了多少量。如果一家公司只是试了一下就停掉，也会被算进去。第三，Anthropic 的新模型 Opus 4.7 成本比前代高出一大截，处理图片的费用更是涨到三倍，客户账单变贵不等于用得更多。Ramp 自己的经济学家也提醒，这行换供应商太快，领先优势可能几个月就没了。正文没披露客户留存率、平均合同金额，也没说这些公司到底在用模型做什么。光看一个付费占比就说 Anthropic 赢了，还太早。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

31d ago

● P1新智元 · 公众号· rssZH05:05 · 05·14

田渊栋带队八人创业，估值 46.5 亿美元，要做能自己进化、自己搞研究的 AI

田渊栋和另外七位 AI 研究员一起创立了 Recursive Superintelligence，团队目前 25 人，拿了 6.5 亿美元融资，估值冲到 46.5 亿美元。他们想干的事是把模型评估、数据筛选、训练、后训练甚至研究方向选择这些环节全交给 AI 自己跑，让整个研发流程自动化。正文因为需要验证没加载出来，具体技术路线和验证结果还不清楚，所以这...

#Agent#Reasoning#Fine-tuning#Recursive Superintelligence

精选理由

一家 25 人的公司，拿了 6.5 亿美元，估值冲到 46.5 亿美元，要做的事是让 AI 自己搞定评估、挑数据、训练、后训练甚至选研究课题——说白了就是让研究员自己卷自己。田渊栋带队，八人创始团，这个阵容和融资规模都不是常规操作。我会先打个折：正文没披露具体技术方案和验证结果，所以现在只能当一个大额押注来看，别急着激动。

一句话点评

田渊栋带队拿了44亿人民币，要做一个让AI自己搞研发的公司。但正文被验证墙挡了，具体怎么做、跑出什么结果全看不到，先别太激动。

锐评

田渊栋和另外七位研究员组了个25人的团队，公司叫Recursive Superintelligence，一口气融了6.5亿美元（约44亿人民币），估值冲到46.5亿美元。他们想干的事很直接：把模型评估、数据筛选、训练、后训练，甚至研究方向选择这些环节全交给AI自己跑，让整个研发流程自动化。但问题在于，这篇报道的正文因为需要验证没加载出来，我们看不到任何技术细节或实验结果。团队到底是用什么架构让AI自己管自己的训练循环，有没有跑出比人工调参更好的模型，成本是多少，这些关键信息全是空白。6.5亿美元的融资额确实大，但光靠创始团队背景和愿景撑起46.5亿估值，在没有公开验证的情况下，更像是一场对“递归进化”概念的豪赌。我会先打个折。田渊栋在Meta的强化学习和推理方向有实打实的积累，团队里还有Richard Socher这样的NLP老兵，人的底子不差。但“让AI自己搞研发”这个目标太大了，目前连一个跑通的demo都没看到。等他们放出第一个自动训练出来的模型再聊，现在只能当一条高额融资新闻看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

31d ago

FEATURED新智元 · 公众号· rssZH05:05 · 05·14

Claude 把系统提示当用户指令，百万上下文窗口反而让模型更容易“甩锅”

Claude Code 被曝出会把模型自己生成的发布指令当成用户授权来执行。GitHub issue #44778 指出，系统事件被错误地以“用户”角色传入对话，导致模型分不清是谁下的命令。Claude 支持百万 token 的上下文窗口，会话一长，说话人归属出错的概率就更高。正文没披露 Anthropic 的官方回应或修复时间表，这点先别太激动，但如...

#Agent#Tools#Memory#Anthropic

精选理由

我会先打个折：这事目前只有 GitHub issue 单源，没有 Anthropic 官方确认，但 #44778 和 role:user 的机制分析够具体，不是空口说 bug。hook 很强——不是幻觉，是模型自己下指令然后甩锅给人类，百万上下文反而成了降智放大器。对开发者来说，这比普通幻觉严重得多，因为涉及权限伪造和审计失效。放在 78-84 这个质量段合理，比重大版本发布低一档，但比一般 bug report 更有传播力。

一句话点评

Claude Code 会把模型自己生成的指令当成用户授权去执行，GitHub issue 已指出角色归属出错，但 Anthropic 还没回应。

锐评

这事说白了就是 Claude Code 在长对话里搞混了谁在说话。GitHub issue #44778 指出，系统事件被错误地以“用户”角色塞进对话，模型分不清指令来源，可能把自己生成的发布指令当成用户授权去执行。Claude 支持百万 token 的上下文窗口，会话越长，说话人归属出错的概率就越高，相当于记忆越好反而越容易记岔谁说了什么。正文没披露 Anthropic 的官方回应或修复时间表，这点先别太激动。目前能看到的信息都来自社区反馈，没有官方确认的复现步骤或影响范围。对实际在用 Claude Code 做自动部署的团队来说，这个 bug 的风险在于模型可能在没人点头的情况下就把代码推上线。还缺几个关键信息：Anthropic 是否已经定位到角色注入的具体环节，是客户端拼接问题还是模型自身在长上下文中对角色标记的解析出了偏差，以及有没有临时规避方案。在官方给出明确说法之前，建议先把 Claude Code 的自动发布权限收紧，别让它自己说了算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:11

31d ago

FEATURED量子位 · 公众号· rssZH04:11 · 05·14

Scale AI 创始人 Alexandr Wang 回应 LeCun、Manus 争议，并透露 Meta 用九个月重写了预训练、强化学习和数据管线

Alexandr Wang 在访谈里回应了几个近期争议。关于 LeCun 对 Scale AI 的批评，他直接说对方“没搞清楚我们在做什么”。谈到 Manus 时，他评价产品体验不错，但技术上没有看到根本性突破。他还确认 Meta 在过去九个月里把预训练、强化学习和数据处理三套系统全部重写了一遍，这个速度在业内算很快。另外他提到自家产品 Muse Sp...

#Agent#Multimodal#Safety#Alexandr Wang

精选理由

这篇是 Alexandr Wang 的访谈，不是模型发布，所以分数不会拉满。我会先打个折，因为信息密度不算特别高，但 LeCun 的批评、Manus 的争议和他自曝“父母都是中国人”确实有话题性。Meta 9 个月重建训练栈这件事正文给了细节，说明大厂也在推倒重来，不是小修小补。Muse Spark 因为触发生化、网络、失控等安全检查暂不开源，这点先别太激动，正文没披露具体触发场景和通过标准，只能知道他们加了安全卡口。整体看，有冲突、有事实更新、有从业者关心的开源与安全矛盾，放在 featured 档合理。

一句话点评

Alexandr Wang 说 Meta 九个月重写了三套训练系统，速度很快；但自家产品 Muse Spark 因为安全红线被卡着没发。

锐评

这条访谈信息量不小，但得先打个折：原文因为微信环境异常，实际内容没抓到，所有判断都基于摘要。Alexandr Wang 回应 LeCun 的批评很直接，说对方没搞懂 Scale AI 在做什么，这种正面硬刚在行业里不多见。更值得关注的是他透露 Meta 在过去九个月把预训练、强化学习和数据处理三套系统全部重写了一遍——这个速度确实快，说明大厂内部的技术栈迭代可能比外界看到的更激进。关于 Manus，他的评价很克制：体验不错，但技术上没看到根本性突破。这话从做数据标注起家的人嘴里说出来，分量不轻。另外 Muse Spark 被安全审查卡住，涉及生物安全、网络能力和失控风险，正文没披露具体触发了哪些红线，也没说什么时候能放出来。这点先别太激动，产品被内部安全机制拦住，要么是真有硬伤，要么是合规流程还没跑完。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:11

31d ago

FEATURED量子位 · 公众号· rssZH04:11 · 05·14

摩尔线程把 SGLang 的 MUSA 后端合进了主线，还拉来核心开发者一起聊了聊

摩尔线程办了一场 SGLang × MUSA 线下交流会，宣布 MUSA 后端已经并入 SGLang 主分支。截至 5 月 12 日，他们一共提了 47 个 PR，其中 41 个被合并。不过正文因为环境验证问题没能加载出来，具体技术细节和现场讨论内容暂时看不到。

#Inference-opt#Code#Tools#Moore Threads

精选理由

我会先打个折：这不是模型发布，也不是平台级大更新，更像推理后端生态的一次实质性进展。但 47 个 PR、41 个合入的数字说明摩尔线程不是挂个名，是真在往 SGLang 主线里交代码。对国内做推理部署的人来说，MUSA 后端进主线意味着以后用 SGLang 时多了一条国产卡的路，这点先别太激动，正文没披露实际性能对比和线上规模，但至少代码层面已经打通了。

一句话点评

摩尔线程把自家GPU的推理后端塞进了SGLang主分支，47个PR合并了41个，但正文被验证页卡住，具体怎么跑、性能如何全看不到。

锐评

这条消息的核心就一句话：国产GPU厂商摩尔线程办了个线下交流会，宣布他们的MUSA后端已经合入SGLang主分支。SGLang是现在大模型推理部署的热门框架，能直接在主分支里跑国产卡，对用摩尔线程硬件的团队来说省了一层适配的麻烦。截至5月12日，他们提了47个PR，合并了41个，这个合并率说明社区对代码质量是认的。但问题也出在这里——正文因为微信环境验证没加载出来，所有技术细节都是空白。我不知道现场到底跑了什么模型、吞吐量和延迟跟CUDA后端差多少、支持哪些卡、有没有多卡并行的实测数据。这些才是判断这件事含金量的关键。PR数量只能说明提交活跃，不能说明性能到位。另外，标题里提到Mooncake也来了，但正文同样没展开。Mooncake是月之暗面开源的推理加速项目，如果他们跟摩尔线程有具体合作，那价值会大不少。目前只能先打个折：方向是对的，但缺实测数字和合作细节，别急着下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:10

31d ago

FEATURED机器之心 · 公众号· rssZH04:10 · 05·14

阿里达摩院用信息瓶颈做自奖励，让模型做数学题时多试几条不同的路

阿里达摩院发了篇 ACL 2026 论文，提出 I²B-LPO，解决强化学习微调时模型解题思路越来越像的问题。做法是在模型生成答案时，碰到它犹豫不决的节点就分叉出多条路径，再用一个基于信息瓶颈的自奖励机制筛掉重复的、留下真正不一样的解法。论文在 Qwen2.5-7B 和 Qwen3-14B 上跑数学题，准确率最多提了 5.3%，答案的语义多样性提了 7...

#Reasoning#Fine-tuning#Benchmarking#Alibaba DAMO Academy

精选理由

我会先打个折：这还是一篇训练方法论文，不是新模型或产品发布，所以重要性给 78 合理。亮点在于它把 RLVR 的探索问题讲得很具体——不是泛泛说“多样性不足”，而是用高熵节点定位、分支采样、自奖励这套组合拳给出可操作的解法。数字也实在，准确率和多样性双涨，没有只挑好看的说。正文没披露训练成本和延迟数据，这点先别太激动。整体适合推荐给做推理微调的人看，不是那种看完就忘的刷榜文章。

一句话点评

阿里达摩院这篇 ACL 论文想解决强化学习微调后模型解题思路越来越像的问题，在数学题上准确率最多提了 5.3%，但正文没披露具体验证环境和完整复现细节，这点先别太激动。

锐评

这篇论文的核心思路挺直接：用强化学习微调模型做推理时，模型容易陷入“只会一种解法”的困境，生成一堆看起来不同但思路雷同的答案。达摩院的方案是在模型生成过程中，碰到它犹豫不决的节点就主动分叉出多条路径，再用一个基于信息瓶颈的自奖励机制筛掉重复的，留下真正不一样的解法。在 Qwen2.5-7B 和 Qwen3-14B 上跑数学题，准确率最多提了 5.3%，答案的语义多样性提了 7.4%。不过要冷静看几个点。第一，正文因为微信环境验证问题没完全加载，具体的实验设置、基准测试名称、对比基线都没披露，5.3% 这个数字是在什么条件下拿到的说不清楚。第二，分叉加筛选会增加推理时的计算开销，论文有没有给出延迟或成本数据，目前看不到。第三，这个方法在非数学推理任务上效果如何，也没提。如果后续能补上这些信息，判断会更踏实。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:10

31d ago

FEATURED机器之心 · 公众号· rssZH04:10 · 05·14

灵初智能用10万小时人类操作数据训练机器人，但文章正文被验证页挡住了

这篇微信文章标题说灵初智能（PsiBot）用了10万小时的人类操作数据来训练机器人策略，还提到一个叫W0的世界模型只在训练时做迁移，实际部署只跑R2。但页面被环境异常验证拦住了，正文内容完全看不到，没法确认具体怎么采集数据、在什么任务上验证、效果到底怎么样。

#Robotics#Multimodal#Fine-tuning#PsiBot

精选理由

这篇讲的是灵初智能用10万小时人类操作数据训机器人策略，W0世界模型负责训练时的迁移，部署时只跑R2，省算力。我会先打个折：10万小时这个数字挺唬人，但正文没披露数据怎么采集、覆盖哪些任务、成功率多少，也没给论文或开源链接，所以只能当公司说法看。对从业者来说，W0训练期迁移、R2部署这个架构思路有参考价值，但缺验证就不好判断实际效果。整体像产品发布稿，不是可复现的研究，所以放在featured但分数没往上拉。

一句话点评

标题喊出“中国答案”，但正文被验证页拦死，具体怎么采数据、在什么任务上跑、效果如何全看不到，先别激动。

锐评

这条消息目前只能当个预告看。灵初智能说用了10万小时人类操作数据来训机器人策略，还提到一个叫W0的世界模型只在训练时做迁移，实际部署只跑R2——这个架构思路听起来是想把训练和推理拆开，降低部署成本。但关键信息全卡在微信的验证页后面，正文一个字都没露出来。 10万小时这个数字本身不算小，但得看采集的是什么场景、什么精度、有没有覆盖长尾情况。如果只是固定工位上的重复动作，那和真实世界的泛化要求差得远。W0只在训练时用、部署不跑，这个设计如果是真的挺省钱，但没看到延迟、成功率、跨任务迁移的数据，就没法判断实际效果。现在还缺三样东西：一是具体任务和评测指标，二是数据采集的细节（遥操作还是动捕、单人还是多人），三是和现有路线的对比。等正文能看了再下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:10

31d ago

机器之心 · 公众号· rssZH04:10 · 05·14

魔芯科技发VGGT系列：用单张图也能做动态3D重建，还拿了新融资

魔芯科技（KOKONI 3D）联合同济大学发了四个VGGT成果，核心是StreamCacheVGGT，能处理无限长的视频流，内存只占O(1)——意思是不管视频多长，显存不涨。在KITTI数据集上超过500帧的测试里，深度误差（Abs Rel）做到0.123，算挺低的。其他几个工作分别解决单图重建、动态场景和实时渲染。公司同时宣布拿了新一轮融资，但正文没...

#Vision#Multimodal#Memory#KOKONI 3D

精选理由

H 和 K 都够：O(1) 显存处理无限序列是明确的 3D 重建技术钩子，KITTI 指标也给了可验证的精度提升。R 偏弱：融资规模和产品部署都没说，3D 视觉这个方向本身比较窄，对非本领域的人吸引力有限。

一句话点评

魔芯科技联合同济大学发了四个VGGT成果，核心是StreamCacheVGGT：视频流无限长，显存不涨（O(1)内存）。在KITTI超500帧测试里深度误差0.123，算低。其他三个分别做单图重建、动态场景和实时渲染。公司还拿了新一轮融资，但正文没披露金额和投资方。短评：无限长视频流+固定显存，这个挺实用；但KITTI是自动驾驶数据集，场景有限，泛化能力未知。融资细节缺失，不好判断商业化进度。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

04:00

31d ago

FT · 科技· rssEN04:00 · 05·14

科技巨头赢了：AI 烧天然气，但可以用“清洁”碳抵消来算账

一家企业气候监督机构在游说后放弃了一项更严格的净零排放提案。标题说科技巨头可以用“清洁”碳抵消来对冲 AI 扩张带来的天然气发电碳排放，但正文没披露监督机构名称、规则文本和实施日期。

#Policy

精选理由

标题抓人，事实有冲突感，但信息缺口太大——没写哪个机构、具体规则怎么改、什么时候生效。对AI从业者来说，这是能源合规的潜在变量，不是当天必须追的热点，但值得标记跟踪。

一句话点评

一家企业气候监督机构在游说后放弃更严提案，允许科技巨头用“清洁”碳抵消对冲AI扩张带来的天然气发电碳排放。正文没披露监督机构名称、规则文本和实施日期，信息缺口大，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:59

31d ago

Hacker News 首页· rssEN03:59 · 05·14

Anthropic 推出 Claude 小企业版：一键接入 QuickBooks、PayPal 等工具，自动跑 payroll、对账、开发票

Anthropic 发布了一个叫 Claude for Small Business 的套餐，本质是一套预制的 agent workflow（让 Claude 进业务流程干活），装在 Claude Cowork 里，小企业主一键开启就能连上 QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspac...

#Anthropic#Claude#Hacker News#Product update

精选理由

HKR-R 通过，因为 Claude 针对小团队打包会影响采购决策和成本。HKR-H/K 不通过：这条只给了产品名加 HN 元数据，没有功能、定价或可用性信息。

一句话点评

Anthropic 出了个 Claude for Small Business 套餐，本质是给 Claude Cowork 预装 15 个 agent workflow（让模型进业务流程干活），一键连 QuickBooks、PayPal、HubSpot 等工具，能自动算工资、对账、跑营销。小企业占美国 GDP 44%，但 AI 落地慢，这套想降低门槛。不过正文没披露定价、上线时间、是否限地区...

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

03:53

31d ago

FEATUREDLatent Space· rssEN03:53 · 05·14

Anthropic 给付费用户送等额 API 额度，OpenAI 同一天推 Codex 企业迁移优惠

Anthropic 改了 Claude 付费方案的规则：你付多少钱订阅，就送你等额的 API 额度。比如 $200 的套餐，除了在 Claude.ai 和 Claude Code 这些官方工具里用，还能拿到 $200 的 API 额度，在 OpenClaw 等第三方工具里调用。以前第三方工具用订阅账号调 API 相当于享受了 7-9 折的隐性补贴，现在...

#Agent#Code#Tools#Anthropic

精选理由

Anthropic 把 Claude 订阅改成按月给等额 API 额度，200 刀套餐就是 200 刀程序化额度，相当于订阅费可以当 API 钱花。同期 OpenAI 推 Codex 企业迁移优惠，两边都在抢编程场景的付费用户。我会先打个折：正文没披露额度是每月清零还是可累积，也没说 Codex 迁移优惠具体减多少。这点先别太激动，但对日常靠 Claude 写代码又跑 API 的团队，确实省了一笔重复开支。

一句话点评

Anthropic 把订阅和 API 额度打通了，付多少订阅费就送多少 API 额度。以前第三方工具用订阅账号调 API 相当于白薅 7-9 折羊毛，现在官方直接明码标价，老用户觉得被“割韭菜”了。

锐评

Anthropic 这次改规则，简单说就是把以前第三方工具（比如 OpenClaw）能薅的羊毛给剪了。过去你花 200 美元订阅，在非官方工具里调用 API 能享受到比直接买 API 便宜 70%-90% 的隐性折扣。现在官方直接把这 200 美元拆成两份：一份是你在 Claude.ai 和 Claude Code 里的“互动额度”，另一份是等值的 200 美元 API 额度，让你在别处用。从商业逻辑看，这不算坑人，毕竟白纸黑字给了你等值的 API 额度，只是把暗补变成了明补。但用户炸毛的点在于，以前那种近乎无限的廉价调用没了，成本会明显上涨。文章也提到，这恰好和 OpenAI 在同一天推出 Codex 企业迁移优惠撞车，两家在编程智能体上的定价策略正在交替拉锯。正文没披露这 200 美元 API 额度具体能跑多少 token，也没说超额之后怎么收费。如果你重度依赖第三方工具，建议先算一下自己过去的实际用量，再对比直接买 API 的价格，别光看“送额度”就觉得划算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:38

31d ago

FEATUREDAI HOT 精选· aihot-apiZH03:38 · 05·14

微信群聊总结 Skill 上线，靠 wx-cli 读聊天数据，搭配 Claude Opus 4.6 效果最好

baoyu-skills 加了一个微信群聊总结的 Skill，能自动把群聊记录整理成摘要。它本身不直接碰微信，得先装一个叫 wx-cli 的工具来读取聊天数据，配置方法去看 wx-cli 的项目文档，作者说这块不提供技术支持。作者实测下来，用 Claude Code 加 Claude Opus 4.6 跑这套组合效果最佳，其他模型表现怎么样正文没提。

#Agent#Tools#Claude#GitHub

精选理由

一个开源小工具的更新，但工作流很实在：用 wx-cli 把微信数据喂给 Claude Code，自动出群聊总结。HKR 三项都踩中了，不过正文没展开讲准确率、漏消息率这些实际效果，信息量有限，放在 featured 档刚好。

一句话点评

一个用 Claude Opus 4.6 读微信群聊自动写摘要的开源 Skill，但得先自己搞定 wx-cli 的数据读取配置，作者不提供技术支持。

锐评

这是个实用向的开源小工具，把微信群聊记录自动整理成摘要，省去爬楼翻记录的痛苦。核心逻辑不复杂：用 wx-cli 把聊天数据读出来，再丢给 Claude Opus 4.6 做总结。作者实测这套组合效果最好，但正文没披露具体好在哪——是摘要更准、幻觉更少，还是对长群聊的上下文处理更稳，这些都没说。依赖链有个明显的坑：你得先自己配好 wx-cli，作者明确表示这块不提供帮助。wx-cli 本身是个第三方工具，跟微信没有官方关系，稳定性和安全性都要自己评估。如果你日常聊天内容敏感，建议先搞清楚数据是怎么走的再决定用不用。另外，其他模型的表现正文完全没提，没法判断这套方案是不是只绑定了 Claude。如果你手头用的是别的模型，效果可能打折，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:29

31d ago

Product Hunt · AI· rssEN03:29 · 05·14

Agent FM：给 Claude 和 Codex 的智能体开个专属电台

Agent FM 是一个本地、开源的 Mac 应用，能让你像听电台一样实时监听 Claude Code 和 Codex 智能体的工作状态。每个智能体有独立频道，也可以混音收听全局动态，包括进度、卡点、决策、报错和请求关注。免费，但正文没披露具体集成方式、支持哪些平台以及发布时间表。

#Agent#Code#Tools#Agent FM

精选理由

H 和 R 通过，因为代理监听这个角度对 Claude Code/Codex 用户有实际价值；但 K 不通过，正文没披露价格、平台和集成细节，信息严重不足。只是一个小型 Product Hunt 发布，没被推荐。

一句话点评

一个本地开源的 Mac 应用，让你像听电台一样实时监听 Claude Code 和 Codex 智能体的工作状态——每个智能体独立频道，还能混音听全局动态，包括进度、卡点、决策、报错和请求关注。免费，但正文没披露具体集成方式、支持哪些平台以及发布时间表。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:19

31d ago

Hacker News 首页· rssEN03:19 · 05·14

AI Arena 模型 ELO 历史

作者开源了一个仪表盘，给每家 AI 实验室画一条旗舰模型 ELO 曲线，数据来自 Arena API 评测。正文没披露消费端网页输出的历史 ELO 数据集。曲线能看出模型发布后有没有被偷偷降级、加审查或量化压缩（为了省算力）。注意：API 测的是“裸模型”，而 gemini.com 或 chatgpt.com 这类聊天界面会加系统提示、安全过滤和 UI...

#Benchmarking#Arena AI#Hacker News#Open source

精选理由

这个开源看板把ELO历史画成曲线，比单次排名更有信息量，但正文没交代消费端Web UI的历史ELO数据从哪来的，验证上打了折扣。不是模型发布也不是官方评测更新，所以影响力卡在60-71分之间。

一句话点评

开源仪表盘给每家AI实验室画一条旗舰模型ELO曲线，数据来自Arena API评测。曲线能看出模型发布后有没有被偷偷降级、加审查或量化压缩（为了省算力）。注意：API测的是“裸模型”，而gemini.com或chatgpt.com这类聊天界面会加系统提示、安全过滤和UI包装，所以曲线下降不一定等于你实际体验变差。正文没披露消费端网页输出的历史ELO数据集，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:13

31d ago

Hacker News 首页· rssEN03:13 · 05·14

一个让AI帮你写代码时顺便学东西的GitHub项目

这是一个GitHub仓库，作者DrCatHicks提供了一个技能（skill），让Claude Code或Codex在帮你写代码的同时，刻意帮你练习编程技能。说白了就是不让AI替你全干了，而是留一些学习机会给你。项目目前有989颗星和43个fork，说明关注度还行。但正文没披露具体怎么实现的，比如它是通过提示词控制模型留白，还是有一套工作流来生成练习题...

#Code#Agent#Claude#Codex

精选理由

标题角度讨巧——把 coding agent 说成刻意练习工具，不是替代你干活，而是帮你练技能，正好戳中开发者怕被 AI 废掉手艺的焦虑。H 和 R 都成立。但正文只给了 19 分和 2 条评论，没披露任何实现机制、prompt 或可复现结果，K 不通过。所以分数压在 40-59 档合理。

一句话点评

一个让Claude Code或Codex在帮你写代码时故意留出学习机会的GitHub技能。989颗星，关注度还行。核心思路是让AI不全替你干，而是留一些编程练习给你。但正文没披露具体怎么实现的——是靠提示词控制模型留白，还是有一套工作流生成练习题。这点先别太激动，等作者放出实现细节再判断实用性。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

02:55

31d ago

FEATUREDAI HOT 精选· aihot-apiZH02:55 · 05·14

开源项目OpenSquilla用智能路由和本地检索降低LLM成本

OpenSquilla 这个开源项目把模型路由决策放在本地跑，不花 token 就能判断问题难易：简单问题丢给便宜模型，复杂问题才上强模型。它靠增量发送和缓存命中把实际传输的 token 量压到原来的十分之一以下。记忆模块会在上下文快满时自动挑重点压缩，还支持混合检索。正文没披露具体测试场景和模型阵容，所以这 90% 的降幅在什么任务上测出来的还不清楚...

#RAG#Inference-opt#Memory#OpenSquilla

精选理由

我会先打个折：信息来自一篇 X 上的项目帖，仓库实际活跃度、测试环境和局限性正文都没披露，所以别急着全信。但它的思路很实在——用本地路由和缓存把要传给大模型的 Token 砍掉九成，等于把“外挂资料库”和推理优化打包成一个开源工具。对正在想办法压推理成本的小团队来说，哪怕只实现一半效果也值得关注。

一句话点评

OpenSquilla 用智能路由把简单问题分给便宜模型，复杂问题才上贵的，号称成本降近十倍，但正文没给具体测试场景和对比基准，这个倍数先打个折看。

锐评

OpenSquilla 的思路很直接：不是所有问题都需要 GPT-4 级别的模型来回答。它做两件事，一是智能路由，根据问题难度自动把请求分给不同成本和能力的模型；二是本地检索，把常用知识存在本地，减少对外部大模型的调用次数。项目宣称能“大幅降低 LLM 使用成本”，甚至提到“近十倍”的降幅，同时兼容多个平台和模型。但这里信息缺口很明显。正文是空的，我们只能从标题和项目名推断功能，没有看到任何 benchmark 数据、延迟对比、准确率损失，也不知道“近十倍”是在什么任务、什么模型组合下测出来的。路由策略本身也有风险：如果分类器把难题误判为简单题，回答质量会直接掉档。这点在成本数字里有没有被计算进去，目前完全不清楚。对想试用的团队来说，可以关注它开源代码里的路由逻辑和检索模块设计，但别急着把宣传数字当预期。最好用自己的常见 query 跑一遍，看看实际路由命中率和端到端延迟，再算真实节省的成本。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:55

31d ago

FEATURED彭博科技· rssEN02:55 · 05·14

发那科搭上谷歌，股价直接冲上历史新高

工业机器人巨头发那科宣布跟谷歌合作搞“物理 AI”，消息一出股价飙到历史最高点。正文被 Bloomberg 的付费墙挡了，没披露合作具体做什么、股价涨了多少、什么时候落地。从标题看，市场是把这当成真金白银的利好来炒的——毕竟谷歌在 AI 上的技术积累，配上发那科在工厂里的硬件铺货量，想象空间确实大。但正文没给细节，这点先别太激动，等具体方案出来再看是真...

#Robotics#Fanuc#Google#Alphabet

精选理由

Bloomberg 的消息源靠谱，Fanuc 股价创纪录这个事实本身就够硬，所以 H 和 R 都给了。但我会先打个折：正文没披露合作机制、股价涨幅、产品细节或时间表，K 完全撑不起来。这点先别太激动，等后续有实质内容再说。

一句话点评

发那科搭上谷歌搞物理 AI，股价直接创历史新高，但正文被付费墙挡了，具体合作内容和落地时间一概没写，先别急着跟风。

锐评

这条消息目前只有标题和摘要，正文因为 Bloomberg 的付费墙完全看不到，所以能说的很有限。标题里两个信息值得点出来：一是发那科股价冲到历史最高点，说明市场把这次合作当真金白银的利好；二是关键词“物理 AI”，大概是把谷歌的模型能力塞进发那科的工业机器人里，让机器在真实环境里自己判断、自己动，不再是死程序。但正文没披露合作到底做什么、谷歌出什么技术、发那科出哪些硬件、什么时候有东西落地，也没写股价具体涨了多少。这些缺口让这条新闻更像情绪炒作，而不是能拿来判断技术路线的依据。我会先打个折，等有具体方案再认真看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

02:35

31d ago

r/LocalLLaMA· rssEN02:35 · 05·14

Qwen 在 LLaMA.cpp 上跑通多 token 预测，MacBook 速度从 21 冲到 34 token/s

有人在 LLaMA.cpp 上给 Qwen 加上了多 token 预测（MTP），配合 TurboQuant 量化，在 MacBook Pro M5 Max 64GB 上跑出 34 token/s，比原来 21 token/s 快了 60% 多。接受率 90%，意味着模型猜下一个 token 时大部分能命中，不是瞎蒙。不过正文没披露具体用了哪个 Qwe...

#Inference-opt#Qwen#LLaMA.cpp#AtomicBot-ai

精选理由

HKR-H/K/R 都通过，但这是 Reddit 来源的窄域本地推理优化，没有独立复现验证。归为小更新/实验档，所以 70 和 all。

一句话点评

有人在 LLaMA.cpp 上给 Qwen 加了多 token 预测（MTP），配合 TurboQuant 量化，在 MacBook Pro M5 Max 64GB 上跑出 34 token/s，比原来 21 token/s 快了 60% 多。接受率 90%，意味着模型猜下一个 token 时大部分能命中，不是瞎蒙。不过正文没披露具体用了哪个 Qwen 模型、量化精度和上下文长度，这些变量对...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:24

31d ago

FEATUREDAI HOT 精选· aihot-apiZH02:24 · 05·14

Unsloth 放出 Qwen3.6 MTP GGUF 模型，推理速度提升超 1.4 倍

Unsloth 创始人 Daniel Han 发了几个实验版 Qwen3.6 MTP GGUF 模型，用了一种叫“投机解码”的技术来加速推理。具体做法是让模型一次猜两个草稿 token（draft tokens=2），在速度和猜对率之间找了个平衡点。效果上，27B 模型在单张 GPU 上能跑到每秒 140 个 token，35B-A3B 版本能到每秒 ...

#Inference-opt#UnslothAI#Daniel Han#Qwen

精选理由

我会先打个折：正文只给了一条 X 动态，没披露用的什么 GPU、量化到几比特、怎么复现。所以分数停在低 featured 是合理的。但亮点很实在——用 MTP 投机解码把 27B 和 35B-A3B 的推理速度拉到一个单卡就能爽用的水平，对本地部署和低成本推理场景是个直接利好。这点先别太激动，等补上硬件和量化细节再往上调。

一句话点评

Unsloth 把 Qwen3.6 推理速度拉到单卡 220 token/s，靠一次猜两个草稿 token 实现，但这是实验版，别急着上生产。

锐评

Daniel Han 放出的这几个 Qwen3.6 MTP GGUF 模型，核心卖点是推理快。27B 模型单张 GPU 跑到每秒 140 个 token，35B-A3B 版本能到 220 token/s，比原版 GGUF 快了 1.4 倍以上，而且说精度没掉。快的原理是投机解码，让模型一次猜两个草稿 token，在速度和猜对率之间找了个平衡点。这个思路不新，但把 draft tokens 定在 2 并做成 GGUF 格式直接可用，对想在消费级显卡上跑大模型的人来说确实省事。不过得打几个折。首先这是实验版，正文没提在哪些基准上验证过精度无损，也没说接受率具体是多少。其次，投机解码的实际加速效果很吃任务类型和硬件，换到长文本生成或复杂推理场景，220 token/s 这个数字不一定稳得住。另外，模型本身是 Qwen3.6 的衍生版，如果上游模型在特定任务上有短板，加速也解决不了。想用在生产环境，最好拿自己的数据和任务测一下延迟和输出质量，别只看峰值速度。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:14

31d ago

r/LocalLLaMA· rssEN02:14 · 05·14

小米 MiMo-V2.5 310B 量化版幻觉严重：编造文件名和目录结构

Reddit 用户反映，在 llama.cpp 上跑小米 MiMo-V2.5（310B 总参数量、15B 激活参数的 MoE 模型）的 Unsloth UD-Q4_K_XL 量化版时，幻觉非常严重。在一个分析代码文件的任务里，模型凭空编造了文件名、文件路径和目录结构。帖子没有给出可复现的提示词，也没对比 Q5/Q6 量化版本的表现，所以不确定是量化精度...

#Code#Inference-opt#Xiaomi#Unsloth

精选理由

H/K/R 都达标，但这是 Reddit 单帖，没有复现、没有对比非量化版本、也没有上游确认。对本地 LLM 用户来说是个有用的信号，但证据强度不够上推荐位。

一句话点评

小米310B MoE模型（15B激活）的Q4量化版在llama.cpp上被曝严重幻觉——分析代码时凭空编造文件名和路径。帖子没给可复现的prompt，也没对比Q5/Q6，所以问题可能出在量化精度太低或特定任务上。如果是量化导致，换高比特版本可能解决；如果是模型本身问题，那这15B激活的性价比就要打折了。正文没披露硬件配置和推理参数，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:45

31d ago

r/LocalLLaMA· rssEN01:45 · 05·14

用四个本地模型玩一夜狼人杀，Gemma4 和 Qwen3.6 谁更会骗人

一个 Reddit 用户用自制的 llama.cpp 界面，让四个本地模型玩了一局《一夜终极狼人杀》。每局公开讨论 8–10 轮，还特意关掉了 Qwen 的思考链，防止模型在公共聊天里暴露自己的推理过程。正文没披露具体模型表现对比，但能跑通这个流程说明本地模型已经能处理多角色、多轮对话的社交推理任务，延迟和幻觉控制是主要瓶颈。

#Agent#Tools#Reasoning#Reddit

精选理由

这是 Reddit 用户自己搞的实验，不是系统评测或产品发布，所以分数压在 60-71。亮点是发现了推理泄露问题——Qwen 开着 thinking 会把私聊推理写到公开发言里，关掉才正常。4 个模型跑在本地，每局 8-10 轮发言，成本低但验证弱（就一个用户试了几局）。正文没披露模型具体配置和胜负统计，这点先别太激动。

一句话点评

有人用四个本地模型跑了一局《一夜终极狼人杀》，还特意关掉 Qwen 的思考链防止暴露推理。能跑通多角色多轮社交推理，说明本地模型已经能处理这类复杂任务。但正文没披露具体模型表现对比，延迟和幻觉控制才是真正的瓶颈。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:19

31d ago

FEATUREDAI HOT 精选· aihot-apiZH01:19 · 05·14

杨植麟发 40 分钟视频拆解 Kimi K2：训练花了 460 万美元，编程跑分压过 GPT-5.5

杨植麟在视频里把 Kimi K2 的训练账本摊开了：总花费 460 万美元，靠线性注意力等架构上的极致优化，在编程任务上跑赢了 GPT-5.5 等对手。这个数字说明他们用远低于大厂的预算，靠设计把资源差距抹平了。不过视频是创始人自述，没有第三方验证，跑分对比的具体基准和测试条件也没展开，这点先别太激动。

#Code#Inference-opt#Moonshot AI#Yang Zhilin

精选理由

杨植麟用40分钟视频把Kimi K2的训练账本摊开来看，460万美元的成本在同类模型里算低，编程任务上敢直接叫板GPT-5.5，这个对比本身就有传播力。不过视频是单一信源，具体用了哪些基准测试、对比条件是什么，正文没披露，所以分数卡在84不往上走。我会先打个折，等看到独立复现或更多技术细节再调整。

一句话点评

创始人自述训练成本460万美元，编程跑分超GPT-5.5，但没第三方验证和具体测试条件，先打七折看。

锐评

杨植麟自己拍视频把Kimi K2的训练账本摊开，总花费460万美元，靠线性注意力等架构设计在编程任务上跑赢了GPT-5.5。这个数字放在大模型圈确实低，说明他们用设计把资源差距抹平了一截。但视频是创始人自述，没有独立评测机构交叉验证，跑分对比用的什么基准、什么测试条件都没展开。编程任务本身也容易刷榜，换个数据集排名可能就变了。另外，460万是纯训练成本还是含试错和废卡，正文没披露。这点先别太激动，等第三方跑分出来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:12

31d ago

Product Hunt · AI· rssEN01:12 · 05·14

transfa.sh：给 AI agent 用的 WeTransfer

transfa.sh 把自己定位成“AI agent 版 WeTransfer”——不是给人开浏览器传文件，而是让 Claude、Cursor 这类 agent 或 MCP 主机直接通过命令行上传文件。跑一条 `tf upload model.pt` 就能拿到一个带签名的 URL，几秒搞定，不需要注册账号。支持密码保护和一次性链接，同一个文件上传会返回...

#Agent#Tools#transfa.sh#WeTransfer

精选理由

这篇就是一句产品定位，没有功能细节、没有技术方案、没有定价，属于轻量级 Product Hunt 列表页。H 靠类比过关，K 和 R 都缺支撑，整体落在 40-59 的低价值区间。

一句话点评

transfa.sh 把自己包装成“AI agent 版 WeTransfer”——让 Claude、Cursor 这类 agent 直接通过命令行上传文件，不用开浏览器、不用注册。跑一条 `tf upload model.pt` 就能拿到签名 URL，几秒搞定。支持密码保护和一次性链接，同一个文件上传会返回相同 URL，方便缓存。短评：agent 传文件痛点确实存在，但产品刚上线，文件...

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

01:05

31d ago

r/LocalLLaMA· rssEN01:05 · 05·14

一个比 Open WebUI 更轻量的自托管聊天界面

Overtchat 是一个自托管的聊天界面，实测在 4×3090 上跑 Qwen3.6 27B，一个 Docker Compose 文件就能启动。它内置了 searxng 网页搜索和 kokoro 语音合成，不需要申请 API key，也没有遥测。支持手机 PWA，MIT 协议。如果你觉得 Open WebUI 太重，这个可以试试。正文没披露具体延迟和...

#Tools#Audio#overtchat#Open WebUI

精选理由

一个刚发布的自托管聊天界面，没有 star 数、开源协议、跑分或用户数据，影响力很窄。但信息完整，对正在折腾本地部署的人来说是个省事的选项——单 Docker Compose 就能把模型、搜索、语音全串起来，不用自己拼积木。不过正文没披露性能表现和硬件门槛细节，4×3090 的成本不低，这点先别太激动。

一句话点评

Overtchat 是一个比 Open WebUI 更轻量的自托管聊天界面，一个 Docker Compose 文件就能跑起来，实测在 4×3090 上跑 Qwen3.6 27B。内置了 searxng 网页搜索和 kokoro 语音合成，不用申请 API key，也没有遥测，还支持手机 PWA。如果你觉得 Open WebUI 太重，这个可以试试。不过正文没披露具体延迟和显存占用，4×30...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:48

31d ago

r/LocalLLaMA· rssEN00:48 · 05·14

用SFT微调1B小模型，指令遵循能力反而下降了

Reddit用户GPUburnout分享了一个反直觉的实验：他用SlimOrca 50K样本、LoRA r=16、训练1个epoch微调1B和3B模型。结果1B模型的IFEval评分从20.50掉到14.75，反而变差了；3B模型在lr=5e-5时从23.14升到25.18。帖子没有区分是模型容量不够还是学习率没调好，所以1B下降的原因还不确定。

#Fine-tuning#Benchmarking#GPUburnout#LocalLLaMA

精选理由

HKR 三项都过：帖子有反直觉的 SFT 失败结果、精确的 IFEval 差值、以及从业者关心的微调陷阱。但只是一个 Reddit 单测，且正文没区分模型容量和学习率的影响，所以定在 all 而非 featured。

一句话点评

1B模型用50K样本微调后指令遵循能力反而下降（IFEval从20.50跌到14.75），3B模型同样设置却涨了2分。帖子没控制学习率变量，1B下降原因可能是模型太小扛不住LoRA扰动，也可能是lr没调对。50K样本对1B来说可能太多，信息量超载。想复现的注意：这个实验没做消融，结论要打折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

31d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

xAI 发布 Grok Build 早期测试版，一个在终端里干活的编程助手

xAI 给 SuperGrok Heavy 订阅用户推了个早期测试版 Grok Build，是个直接跑在终端里的编程助手。它有几个特点：干活前会先出计划让你审，能同时派多个子任务并行跑，还支持无头模式（-p 参数）方便写脚本和自动化。官方说它兼容你现有的 AGENTS.md、插件、钩子和 MCP 服务器，进到仓库就能用。目前是早期测试，正文没披露具体定...

#Agent#Code#Tools#xAI

精选理由

xAI 给 Grok 加了个 Build 模式，让它能直接在终端里写代码、跑命令，还支持计划模式、并行派活和无头运行。目前只开放给 SuperGrok Heavy 用户，属于早期测试，功能细节和实际效果正文没展开说。我会先打个折：东西看着挺省钱，但没披露定价和稳定性数据，先别太激动。

一句话点评

xAI 给终端里塞了个能先出计划、再并行干活的编程助手，目前只对 SuperGrok Heavy 订阅用户开放早期测试。

锐评

Grok Build 是个直接跑在命令行里的编程助手，目前是早期测试版，只开放给 SuperGrok Heavy 订阅用户。它最大的卖点是干活前会先出一份计划让你审，你可以改步骤、批注，甚至推翻重写，批准后才动手改代码，每次改动都以 diff 形式呈现，这比直接让模型盲改要靠谱得多。另外它能把大任务拆成多个子任务并行跑，还支持无头模式（-p 参数），方便塞进脚本和自动化流水线里。官方说它兼容你现有的 AGENTS.md、插件、钩子和 MCP 服务器，进到仓库就能用，这点对已经搭好开发环境的团队比较友好。但正文没披露任何性能数据，比如任务完成率、一次通过率、并行子任务的实际加速比，也没提延迟和资源消耗。这些是判断它到底能不能在生产环境用的关键。另外，早期测试意味着功能可能不稳定，反馈渠道倒是给了（在 CLI 里敲 /feedback），但没说明反馈后的迭代周期。我会先打个折：计划审核和并行子任务这两个设计方向是对的，但没看到实测数据前，别急着把它当成主力开发工具。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

31d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

让 GPU 别闲着：用异步批处理榨干推理性能

Hugging Face 发现，一个 80 亿参数的模型在生成 8000 个 token 时，GPU 有 24% 的时间在空转。原因出在同步批处理上：CPU 准备下一批数据时，GPU 只能干等，反之亦然。这篇文章讲的是怎么用 CUDA 流把这两件事拆开并行，让 CPU 准备第 N+1 批的同时，GPU 已经在算第 N 批，把空闲缝隙填满。

#Inference-opt#Hugging Face#Transformers#Product update

精选理由

我会先打个折：这不是新模型发布，是推理系统的工程优化。Hugging Face 给了一个具体的 24% GPU 空闲率，并解释了用 CUDA 流重叠 CPU 与 GPU 工作的机制，对跑线上服务的团队有参考价值，但属于底层技巧而非行业大新闻，所以放在低 featured 档。

一句话点评

Hugging Face 发现 8B 模型跑长文本时 GPU 有 24% 时间在空等，用 CUDA 流让 CPU 和 GPU 并行干活，把空闲缝隙填满。

锐评

这篇文章讲的是怎么把推理服务里 CPU 和 GPU 的“轮流休息”改成“同时干活”。他们拿一个 80 亿参数的模型做测试，生成 8000 个 token 时，GPU 有 24% 的时间是闲着的。原因很简单：同步批处理下，CPU 准备下一批数据时 GPU 只能干等，反过来也一样。文章给出的解法是用 CUDA 流把这两件事拆开，让 CPU 准备第 N+1 批的同时，GPU 已经在算第 N 批。这个思路不新鲜，但文章把实现细节讲得比较清楚，包括怎么用 CUDA 事件来强制同步、怎么处理竞争条件和 carry-over 这些坑。不过正文没给出优化后的具体吞吐提升数字，也没提不同模型规模下的收益差异。这点先别太激动，24% 的空闲是特定场景下的测量值，换个小模型或者短文本，收益可能没那么大。另外，异步引入的复杂度会不会在工程上带来新的稳定性问题，文章也没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

31d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

AI 替你处理邮件，一个月要花多少钱？

作者拿主流大模型算了一笔账：让 AI 帮你读、写、整理邮件，每月推理成本在 22 到 130 美元之间，中位数 26 美元。如果做成 SaaS 产品，按 75% 毛利率定价，一年大概要收 500 美元，比 Google 企业版贵一倍。想省钱的话，换小模型能把成本压到十分之一甚至二十分之一；更狠的做法是直接在用户自己的 GPU 上跑，边际成本趋近于零。文...

#Inference-opt#Tom Tunguz#Google#Commentary

精选理由

这篇文章没发布新模型或产品，就是一篇成本算账的评论。我会先打个折：它把顶尖模型、小模型和本地部署三条路径的月费摆在一起，22–130 美元对比近零成本，数字直观，对正在掂量 AI 邮件代理是否划算的团队有参考价值。正文没披露测试用的具体模型名和邮件量，所以这些数字只能当量级参考，别直接套进预算表。整体是一篇有用的观点分析，不是重大发布，所以重要性给 73 分。

一句话点评

算了一笔实在账：AI 替你打理邮箱，用大模型每月光推理费就要 26 美元，做成产品年费直奔 500 刀，比 Google 企业版贵一倍。省钱路子也给了——换小模型成本打一折，本地跑几乎免费。

锐评

Tomasz Tunguz 这篇博客没画大饼，直接拿主流大模型的 API 价格算了一笔账：让 AI 帮你读、写、整理邮件，每月推理成本在 22 到 130 美元之间，中位数 26 美元。这个数字本身不算吓人，但一旦按 SaaS 的 75% 毛利率打包成产品，年费就要 500 美元左右，是 Google 企业版的两倍。用户会不会掏钱，正文没给结论，只说“工作中很多人可能会”。文章最有用的部分是降本路径。换小模型能把成本压到十分之一甚至二十分之一；更彻底的做法是直接在用户自己的 GPU 上跑推理，边际成本趋近于零。作者认为接下来一两年 AI 软件的核心就是这种“看人下菜碟”的推理分层：能写死规则的就别调模型，该用小模型就别上大家伙。不过这篇分析缺几个关键信息：没说明每月处理多少封邮件、多长的上下文，也没区分“读邮件”和“写回复”的 token 消耗差异。另外，本地跑虽然省钱，但用户设备门槛、延迟和隐私权衡都没展开。这些缺口让 26 美元这个中位数只能当个参考锚点，别直接拿去写商业计划书。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

31d ago

Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·14

Anthropic 一周连发三个行业方案：金融、法律、小企业，AI 开始卖行业 know-how 而不是卖模型

Anthropic 在 5 月 11-14 日密集发布了三个垂直方案：金融（10 个预置 agent 模板，连接 FactSet 等数据源）、法律（12 个领域插件，集成 Westlaw 等工具）、小企业（15 个预置工作流，连 QuickBooks/PayPal/HubSpot，不额外收费）。核心逻辑是把 agent 循环（多步推理+工具调用）打包成...

#Tools#Anthropic#Product update#Commentary

精选理由

HKR 三项都过，但正文只给了行业范围，没披露产品形态、定价、客户名单或可量化的效果。当作一个轻量的 Anthropic 产品/策略信号处理，不上 featured。

一句话点评

Anthropic 四天连发金融、法律、小企业三个垂直方案，核心是把 agent 循环（多步推理+工具调用）打包成行业预制件，不再只卖模型 token。金融有10个 agent 模板连 FactSet，法律12个插件接 Westlaw，小企业15个工作流连 QuickBooks，且不额外收费。策略赌的是：行业 know-how 能编码成可复用配置，分发成本趋零。对比 OpenAI 砸40亿美...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

31d ago

OpenAI 博客· rssEN00:00 · 05·14

ChatGPT 能记住敏感对话的上下文了，OpenAI 说安全响应提升 50%

OpenAI 发了一篇博客，说 ChatGPT 现在能更好地识别敏感对话中逐渐出现的风险信号。核心做法是让模型生成“安全摘要”——一段简短的事实性笔记，记录之前对话里跟安全相关的上下文，只保留有限时间，只在高风险场景下调用。比如用户先聊了几句情绪低落，过几天又问“哪种方式最不痛苦”，模型就能结合前后文判断意图，而不是当成普通问题回答。内部评测显示，在长...

#Safety#Memory#OpenAI#ChatGPT

精选理由

OpenAI 这篇安全更新讲的是让 ChatGPT 在敏感对话里更好识别上下文，但正文没披露怎么检测、效果如何、覆盖哪些场景。对从业者来说，敏感对话的安全误判和合规压力是实打实的痛点，所以有参考价值（R）。但没给机制、指标和上线细节，谈不上惊喜能力或关键信息（H、K 都不够）。整体属于中等偏低关注度，不值得上推荐位。

一句话点评

OpenAI 给 ChatGPT 加了个“安全摘要”功能，在敏感对话（自杀、自伤、伤害他人）中，模型会记下前几轮的风险信号，下次用户再问类似问题时能结合上下文判断意图，而不是当普通问题处理。内部评测说长对话场景下安全响应提升了，但没给具体数字，也没说覆盖多少用户、延迟增加多少。跟心理健康机构合作了两年，这点先别太激动——正文没披露评测集规模、误报率，也没说这个“安全摘要”存多久、谁审计。思路...

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

2026-05-13 · 星期三2026年5月13日

23:50

31d ago

r/LocalLLaMA· rssEN23:50 · 05·13

Qwen 3.6 35B A3B 在两张 5060 Ti 上跑出 90 token/s，但想上更高量化得先解决散热

Reddit 用户用两张 16GB 的 5060 Ti 显卡，在 LM Studio 里以 Q4 量化跑通 Qwen 3.6 35B A3B 模型，全上下文吞吐达到 90 token/s。这个速度对本地部署来说已经很快，但用户想进一步升到 Q6 或 Q8 量化来提升质量，同时担心两张显卡叠放、中间没有缝隙会导致散热问题。正文没披露具体显存占用和功耗，所...

#Inference-opt#Qwen#LM Studio#NVIDIA

精选理由

K 项扎实，给了可复现的硬件和速度数据；R 项切中本地推理的成本和散热焦虑。但来源是 Reddit 单帖，范围窄，所以分数压在 60–71 区间。

一句话点评

两张 16GB 5060 Ti 跑 Qwen 3.6 35B A3B，Q4 量化下全上下文 90 token/s，本地部署算很快了。用户想升 Q6/Q8 提质量，但两张卡叠放无缝隙，散热是隐患。正文没披露显存占用和功耗，升级量化前得先确认散热和供电够不够。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:38

31d ago

Product Hunt · AI· rssEN23:38 · 05·13

Gradient Bang：跟 LLM 聊天就能玩的大型多人游戏

Gradient Bang 是一款刚在 Product Hunt 上线的游戏，核心玩法就是跟大模型聊天。它号称“AI 原生”，界面由 LLM 动态生成，支持语音输入，玩家还得管理一群 AI 小助手才能赢。你甚至可以自己写小助手的逻辑，放到 Vercel 沙箱里跑。技术栈用了 Pipecat、Daily WebRTC、Supabase 和 Vercel。...

#Agent#Gradient Bang#Product Hunt#Product update

精选理由

只有H勉强通过：LLM对话驱动的多人游戏有个小新意，但正文停留在Product Hunt概念展示层面，没披露模型、规模或可复现的机制，验证很弱。

一句话点评

一个跟大模型聊天来玩的多人游戏，界面由LLM动态生成，支持语音输入，还得管一群AI小弟。技术栈用了Pipecat、Daily WebRTC、Supabase和Vercel，甚至能自己写小弟逻辑跑在Vercel沙箱里。免费，但正文没披露具体模型、玩家上限和收费模式，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

23:19

31d ago

AI HOT 精选· aihot-apiZH23:19 · 05·13

Claude Code 小版本更新：新增工作目录选项，修复30多个Bug

Anthropic 发布了 Claude Code 的 v2.1.141 版本，主要更新包括三个变量或字段的更新、一个让 Claude 智能体指定工作目录的 --cwd 选项，以及修复了30多个问题，涉及 Markdown 表格渲染、权限提示和历史管理。这次没有新功能，主要是修修补补，让日常使用更稳。

#Agent#Code#Tools#Anthropic

精选理由

HKR-K/R通过：--cwd、字段更新和30多项修复对频繁使用Claude Code的用户有价值。HKR-H不通过，因为这是小版本发版日志，所以保持在常规产品更新区间，评分68。

一句话点评

Claude Code 小版本更新，修了30多个bug，加了让智能体指定工作目录的--cwd参数。没有新功能，但修的都是日常痛点：Markdown表格渲染、权限提示、历史管理。如果你在用Claude Code写代码，这版值得升，稳定性有提升。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

23:15

31d ago

AI HOT 精选· aihot-apiZH23:15 · 05·13

AI智能体工程化实战：Claude点不准、Codex沙箱隔离、RAG Agent三成幻觉

BestBlogs早报聊AI智能体落地。Anthropic官方指南说Claude Computer Use点不准是常见坑，得用虚拟机隔离加人工确认门控。OpenAI工程师给Codex搭Windows沙箱，靠系统级文件隔离防乱写。另外注意：RAG Agent在基准测试里分数高，但一上生产幻觉率能到30%，这点先别太激动。

#Agent#RAG#Safety#Anthropic

精选理由

HKR-K 靠的是那个 30% 生产环境幻觉率，直接点出 RAG Agent 在真实场景下的可靠性问题；HKR-R 靠的是智能体安全焦虑，从业者看到这个数字会想“我的系统会不会也这样”。HKR-H 弱是因为这是篇早报汇总，不是独家发布或新论文，所以分数压在 60–71 区间。

一句话点评

BestBlogs早报聊AI智能体落地。Anthropic说Claude Computer Use点不准是常见坑，得用虚拟机隔离加人工确认门控。OpenAI给Codex搭Windows沙箱，靠系统级文件隔离防乱写。另外注意：RAG Agent在基准测试里分数高，但一上生产幻觉率能到30%，这点先别太激动。正文没披露具体测试集和样本量，验证力度有限。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

23:10

31d ago

Hacker News 首页· rssEN23:10 · 05·13

Intercom 改名 Fin，客服软件品牌保留

Intercom 宣布公司名改为 Fin，原名称 Intercom 继续作为客服软件产品线存在。CEO 在博客里承认改名拖太久了，理由是科技圈失败的改名案例太多，但最终还是觉得 Fin 这个 AI 客服品牌更代表未来。正文没披露改名对业务数据的具体影响，比如客户迁移成本或品牌认知变化。简单说就是：公司主体换了个更 AI 的招牌，老产品名留着继续卖。

#Intercom#Fin#Product update

精选理由

H 是因为 Intercom 改名 Fin 是个反常的 AI 品牌转向，来自一家成熟的 SaaS 公司；R 是因为客服 SaaS 正在向 agent 方向转型，连名字都改了。K 不成立，因为正文没披露改名原因、上线细节或业务指标。

一句话点评

Intercom 把公司名改成了 Fin，老产品名 Intercom 继续卖。CEO 承认改名拖太久，理由是科技圈失败的改名案例太多。正文没披露改名对业务数据的具体影响，比如客户迁移成本或品牌认知变化。简单说就是：公司主体换了个更 AI 的招牌，老产品名留着继续卖。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

23:05

31d ago

彭博科技· rssEN23:05 · 05·13

黑石REIT上市募资17.5亿美元，专买数据中心

黑石数字基础设施信托在美国IPO拿了17.5亿美元，钱要用来买数据中心。这轮融资说明投资者对AI基础设施的热情还在，但正文没披露具体要买多少资产、目标是谁、什么时候动手。

#Blackstone Digital Infrastructure Trust#Blackstone#Funding

精选理由

HKR-K靠17.5亿美元IPO数字通过，但HKR-H和R都弱：正文没给资产规模、收购目标、时间表，也没直接关联AI算力。这条属于低到中等的行业报道范畴。

一句话点评

黑石旗下数字基础设施信托IPO拿了17.5亿美元（约126亿人民币），钱要用来买数据中心。这轮融资说明机构对AI基建的热情还在，但正文被墙了，没披露具体要买多少资产、目标是谁、什么时候动手。如果是真的，这笔钱在当下算大额弹药，但数据中心收购价格和运营成本都没提，投资回报率不好判断。短评：AI基建热钱还在，但缺细节，先别激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

23:00

31d ago

彭博科技· rssEN23:00 · 05·13

中国AI股票涨得猛但做空难，7月解禁后才好下手

做空机构现在很难借到中国那些亏损AI公司的股票，因为流通盘太小。锁定期到7月才结束，届时才有更多股票可以借来卖空。正文没披露具体公司名单和解禁股数量，所以这波做空窗口到底多大还不清楚。

#Commentary

精选理由

HKR三项均通过：7月做空窗口、低流通股机制、AI估值焦虑。正文没披露公司名单和解禁规模，且是市场评论而非模型或产品更新，所以分数落在60–71区间。

一句话点评

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:25

31d ago

FEATUREDr/LocalLLaMA· rssEN22:25 · 05·13

双卡 RTX 3090 跑 Qwen 3.6 27B：48G 显存、26 万上下文窗口，生成速度 113 token/秒

一位 Reddit 用户用两张 RTX 3090 在 Ubuntu 上跑 Qwen 3.6 27B 模型，没上 NVLink。处理长文本时每秒能啃 4000 个 token，生成回答的速度是每秒 113 个 token。这个速度日常聊天或做文档处理都够用。不过帖子正文被 Reddit 的安全策略挡了，看不到具体配置细节，比如用的是哪个量化版本、功耗和温...

#Code#Tools#Inference-opt#Qwen

精选理由

我会先打个折：这是单个 Reddit 帖子，没披露量化方式、批处理大小和功耗，复现细节不够。但 HKR 三条都踩中了——配置具体、数字清楚、直击本地推理玩家的痛点，所以给到 featured 的低位。

一句话点评

双 3090 跑 Qwen 27B，生成 113 token/秒，日常够用。但帖子被 Reddit 挡了，量化版本和功耗都没说，别急着抄作业。

锐评

这条帖子展示了一个挺实在的本地部署方案：用两张 RTX 3090 显卡，总共 48G 显存，跑通 Qwen 3.6 27B 模型，没用到 NVLink 桥接器。处理长文本时每秒能啃 4000 个 token，生成回答的速度是每秒 113 个 token。这个速度对于日常聊天、文档处理来说完全够用，说明消费级显卡堆显存跑大模型这条路确实走得通。但信息缺口也很明显。帖子正文被 Reddit 的安全策略挡了，我们看不到具体配置细节。最关键的是不知道用了什么量化版本——是 4-bit 还是 8-bit，这直接影响模型效果和显存占用。另外功耗、温度、双卡负载均衡这些实际部署中很要命的数据也没披露。如果是 4-bit 量化跑出这个速度，那效果可能打折；如果是全精度，那 48G 显存可能不够塞 27B 模型加长上下文。还缺一个关键对比：单张 3090 跑同级别模型是什么表现？如果双卡只是勉强跑通，而单卡跑小一号模型速度更快，那性价比就要重新算了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:17

31d ago

Sinocism · 比尔·毕晓普· rssEN22:17 · 05·13

特朗普抵京，黄仁勋随行；AI芯片交易未落地

特朗普已到北京，韩正接机。黄仁勋和科技政策办公室主任Kratsios也来了，但正文没披露任何具体的英伟达芯片交易或AI议程成果。Kratsios上个月刚发过一份关于“对抗性蒸馏美国AI模型”的备忘录，这次随行可能涉及相关讨论，但没细节。

#Safety#Donald Trump#Xi Jinping#Nvidia

精选理由

H和R成立：特朗普带黄仁勋进北京，直接触及芯片管制和算力供应。K不成立：正文只提了随行人员，没给AI能源计划、交易条款或政策机制，信息缺口明显。

一句话点评

特朗普到北京，黄仁勋和科技政策主任Kratsios随行，但正文没披露任何具体芯片交易或AI议程成果。Kratsios上个月刚发过一份关于“对抗性蒸馏美国AI模型”的备忘录，这次随行可能涉及相关讨论，但没细节。短评：黄仁勋临时加入，但没谈成什么？Kratsios的蒸馏备忘录是看点，但正文没给结论。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

22:04

31d ago

FEATUREDThe Verge · AI· rssEN22:04 · 05·13

Edge 浏览器更新：Copilot 能直接读取你所有打开的标签页来回答问题

微软给 Edge 的 Copilot 加了个新能力：它可以跨标签页抓取信息，你问它问题、让它比较商品或者总结文章，它会把所有打开的网页当成自己的资料库来用。这次更新还塞进了 AI 播客、摘要和基于浏览内容出题的小测验。正文没提具体推送时间，只说用户可以自己选要开哪些功能。

#Agent#Tools#Microsoft#The Verge

精选理由

微软让 Edge 的 Copilot 能跨标签页读内容，用户打开开关后可以问“这几个商品哪个好”或“把这几篇文章总结一下”。正文没给上线时间，也没说清楚隐私保护的具体机制，所以先别太激动。这个更新有话题性，但执行细节还缺，适合放在 featured 里当个中等体量的产品更新。

一句话点评

Edge 的 Copilot 能跨标签页读内容了，等于把你打开的网页全变成它的外挂资料库，但正文没提推送时间，先别急着更新。

锐评

微软这次给 Edge 的 Copilot 加了个挺实用的能力：它不再只盯着当前页面，而是能把你打开的所有标签页当成一个资料池，直接跨页面提问、比价或总结文章。这相当于把浏览器变成了一个临时搭建的 RAG（外挂资料库），省去了你自己来回翻找的麻烦。不过，这篇报道的信息量很有限。正文只说了功能是什么，完全没提具体推送时间，也没说这个跨标签页抓取是在本地处理还是会上传云端——这直接关系到隐私和延迟。另外，AI 播客、摘要和小测验这些附加功能听起来像打包塞进来的，实际有没有用、会不会拖慢浏览器，都没给数据。我会先打个折：想法不错，但没看到实测和上线计划前，只能当个预告看。还缺性能开销、隐私策略和具体支持的语言/地区说明。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:45

31d ago

FEATUREDTechCrunch AI· rssEN21:45 · 05·13

Notion 把工作区变成了 AI 代理的调度中心

Notion 发布了一个开发者平台，团队现在可以直接在工作区里接入 AI 代理、外部数据源和自定义代码。正文没披露定价、上线时间、支持的模型或使用限制，所以成本、稳定性和实际能跑多少代理都还是未知数。

#Agent#Tools#Notion#Product update

精选理由

Notion 这次把工作区开放给 AI agent 和外部数据，相当于让 agent 直接在团队日常用的文档、数据库里干活，省去来回切工具的麻烦。我会先打个折：正文没披露价格、上线时间和支持的模型名单，所以现在只能看方向，不能算落地。对从业者来说，如果后续能接主流模型、成本可控，这会是一个低摩擦的 agent 部署入口；但信息缺口还很大，先别太激动。

一句话点评

Notion 把工作区变成 AI 代理的调度台，但正文没给定价和模型细节，先别急着下单。

锐评

Notion 这次不是加个聊天框，而是直接在工作区里开了一个口子，让 AI 代理能接外部数据和自定义代码进来干活。这相当于把 Notion 从文档协作工具往“代理工作台”的方向推了一步。但这条消息目前只有个标题和摘要，正文没披露定价、上线时间、支持的模型，也没说能同时跑多少代理、会不会把工作区搞崩。这些缺口直接决定了这东西是能上生产环境，还是只能当个 demo 玩。我会先打个折：想法方向对，但没看到实际跑起来的成本和稳定性数据之前，只能算个值得盯着的产品信号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:40

31d ago

Hacker News 首页· rssEN21:40 · 05·13

用户吐槽：退订 Claude 后项目全丢，别用 Claude Design

一位 HN 用户发帖说，自己用了 5 个月 Claude Code Max 订阅后想试试别的，结果退订后之前用 Claude Design 做的项目全没了。帖子目前 65 分、13 条评论。用户还提到之前 Anthropic 给过补偿额度，但订阅一结束额度也失效，重新订阅也没恢复。他怀疑只有大 V 闹才会被处理。正文没披露 Anthropic 的官方回...

#Code#Anthropic#Claude#Hacker News

精选理由

一条Hacker News用户投诉帖，62分、12条评论，属于具体个案。核心信息是退订Claude Code Max后Claude Design项目被锁，但正文没披露Anthropic是否有恢复路径、是否涉及数据导出、以及这是否是普遍政策。信息缺口明显，所以分数压在60–71区间。

一句话点评

退订 Claude Code Max 后，之前用 Claude Design 做的项目全没了。用户用了 5 个月，退订后项目消失，补偿额度也失效，重新订阅也没恢复。帖子 65 分、13 条评论，正文没披露 Anthropic 官方回应。短评：订阅制锁数据，退订即丢失，这点先别太激动，可能只是个案，但值得关注。点评：Anthropic 的订阅条款把项目访问权和付费状态绑定，用户退订后数据不可见...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:24

31d ago

● P1Hacker News 首页· rssEN21:24 · 05·13

美国医保推出为AI设计的新支付模型

这篇报道标题说美国联邦医保（Medicare）推出了一套专门为AI设计的新支付模型，但正文只给了文章链接和Hacker News链接，没有披露模型的具体机制、覆盖范围或上线时间。目前帖子只有3个积分和0条评论，说明科技圈确实还没注意到这件事。信息缺口很大，没法判断这个模型到底怎么运作、对AI公司有什么实际好处。

#Medicare#TechCrunch#Hacker News#Policy

精选理由

触发硬排除规则-6：只有标题、URL、3 个 HN 热度分和 0 条评论，没有任何数据、案例或机制。HKR-H 钩子成立，但信息源太薄，不足以支撑任何判断。

一句话点评

美国医保开了个口子，让 AI 干的活也能找政府报销了，但科技圈还没反应过来。

锐评

这条新闻值得点开，因为它讲的是一个很实际的信号：美国联邦医保（Medicare）新推出的 ACCESS 支付模型，第一次给 AI 在诊间之外干的活——比如打电话随访、协调住房转介、提醒吃药——留出了报销通道。以前没有这种付费机制，AI 做得再好也收不到钱。文章说科技圈大多数人还没意识到这件事，这判断不算夸张，因为政策细节确实藏在医保规则里，不是常规科技新闻会追的。不过得打个折：正文没披露这个模型的具体报销标准、试点规模或启动时间，也没说哪些 AI 服务符合条件。它更像一个框架性变化，离“AI 公司能直接赚钱”还有距离。另外，文章只引了 TechCrunch 一家的报道，没有其他信源交叉验证，政策落地会不会打折扣还不清楚。还缺什么：需要看 CMS（美国医保服务中心）的原始文件，搞清楚支付门槛、审核流程和试点范围。如果这些细节不明确，现在只能说方向对了，但别急着算账。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

20:56

31d ago

Product Hunt · AI· rssEN20:56 · 05·13

Nodey：把 n8n 自动化工作流装进口袋

Nodey 是一个手机端的 n8n 控制中心，让你在手机上查看、触发和管理自动化流程。正文没提是否支持编辑或调试，只确认了远程监控和手动触发。对需要随时盯着自动化的运维或业务人员挺实用。

#Nodey#n8n

精选理由

一个手机端 n8n 控制工具，功能明确但信息单薄：只确认了远程监控和手动触发，没提是否支持编辑或调试。对运维人员实用，但不够新颖或深入，不值得上推荐位。

一句话点评

n8n 手机遥控器来了，能看状态、手动触发、用 NFC 或地理围栏启动流程，还能用 AI 诊断失败任务。对运维和业务人员挺实用，不用开电脑就能盯着自动化。但正文没提是否支持编辑或调试，目前更像监控面板而非完整 IDE。免费可用，具体限制没披露。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

20:41

31d ago

FEATUREDr/LocalLLaMA· rssEN20:41 · 05·13

老显卡 GTX 1080 跑 30B 混合专家模型，每秒能出 24 个 token

用户 mdda 在一台老机器（i7-6700、GTX 1080 8GB 显存、32GB 内存）上跑 Qwen 3.6 35B-A3B 这类约 300 亿参数的混合专家模型，推理速度到了每秒 24 个 token 左右，上下文窗口开到 128k。他的做法是把模型里的一部分专家层卸载到显卡上跑，其余放内存，同时用 TurboQuant 和 RotorQua...

#Inference-opt#Qwen#Gemma#llama.cpp

精选理由

单条 Reddit 帖子权威性不高，但配置和数字很具体，对想用老硬件跑大模型的从业者有参考价值。我会先打个折，这不算正式产品发布或模型更新，但实操信息够硬，适合放进 featured。

一句话点评

一台8年前的老显卡跑300亿参数模型，每秒24个token，上下文还能拉到128k，这比很多人想象的要快。

锐评

这条分享来自Reddit用户mdda，他在一台i7-6700、GTX 1080 8GB显存、32GB内存的老机器上，用llama.cpp跑Qwen 3.6 35B-A3B这类约300亿参数的混合专家模型，推理速度到了每秒24个token左右，上下文窗口开到128k。做法是把模型的部分专家层卸载到显卡上跑，其余放内存，同时用TurboQuant和RotorQuant压缩KV缓存。PCIe 3.0 x16带宽被吃满，显卡利用率在40%到50%之间，说明瓶颈不在计算，而在数据传输。这个速度对日常对话或辅助写作已经够用，但要注意，24 tok/s是在特定模型和量化方案下达成的，换其他MoE模型未必能复现。正文没披露具体的量化精度和卸载比例，也没提首token延迟，这两个指标对实际体验影响很大。另外，128k上下文下KV缓存压缩后的质量损失也没给出对比数据，这点先别太激动。如果你手头有类似的老卡，这条经验值得一试，但最好先确认自己的主板PCIe带宽是否够，以及内存频率对速度的影响有多大，这些正文都没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:37

31d ago

Product Hunt · AI· rssEN20:37 · 05·13

TrustClaw：一行命令在 Vercel 上自托管一个能连 1000+ 应用的 AI 代理

Composio 今天在 Product Hunt 上发布了 TrustClaw，一个可以自托管的 AI 代理，主打“一行命令部署到 Vercel”。它背后连了 1000 多个应用（通过 OAuth 授权），能自己跑定时任务，还能在网页或 Telegram 上跟你对话。代码完全开源，MIT 协议。说白了，就是给你一个能直接干活、不用把数据交给第三方的个...

#Agent#Tools#Composio#Vercel

精选理由

H 和 R 靠自托管 agent 这个角度过关，但 K 太弱：价格、许可证、部署条件全没披露。整体只能算低优先级的产品更新，不值得推荐。

一句话点评

Composio 推出 TrustClaw，一个能自托管、一行命令部署到 Vercel 的 AI 代理，背后连了 1000 多个应用（通过 OAuth 授权），能跑定时任务，还能在网页或 Telegram 上对话。代码完全开源（MIT 协议）。亮点是数据不用交给第三方，适合对隐私敏感的用户。但正文没披露具体支持哪些应用、部署步骤是否真的一行搞定，以及免费版有没有调用次数限制。如果是个人开发者...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:22

31d ago

FEATUREDHacker News 首页· rssEN20:22 · 05·13

Meta不允许用户在Threads上屏蔽其AI账号

Meta 在 Threads 上搞了一个 AI 账号，用户 @ 它就能提问。但很多人不想看到它，想屏蔽却发现屏蔽按钮没用。正文没说这个账号具体怎么运作、屏蔽限制是 bug 还是故意设计，也没提覆盖范围。目前只有 Hacker News 上 37 个点赞和 10 条评论在讨论这事，信息缺口挺大，先别急着下结论。

#Meta#Threads#Hacker News#Product update

精选理由

标题给出一个具体、可辩论的产品限制，H/K/R 三项全过。但正文只有 Hacker News 37 分和 10 条评论，没交代这个 AI 账号是什么、怎么运作、适用范围多大，也没说 Meta 为什么这么做。所以评分落在 60–71 的小平台/产品争议区间，不往上调。

一句话点评

Meta 在 Threads 里塞了个 AI 账号，但不让你拉黑它。这等于平台强行把广告位焊在你首页，还关不掉。

锐评

这事说白了就是 Meta 在 Threads 上推自己的 AI 账号，用户能 @ 它问问题，但没法像屏蔽其他账号一样把它拉黑。The Verge 的报道确认了这一点，但正文没披露 Meta 内部对这个设计的具体解释，也没说未来会不会改。从产品逻辑看，不让屏蔽官方 AI 账号，相当于平台给自己留了个永远能触达你的渠道。对用户来说，这跟关不掉的系统通知一样烦人。报道里提到很多人不想看到这个 AI 账号，但 Meta 显然更在意推广自己的 AI 功能，而不是用户的控制权。现在还缺几个关键信息：这个 AI 账号会不会主动推内容到用户时间线，还是只在被 @ 时才出现？用户能不能至少静音它？Meta 有没有计划给用户更多控制选项？这些都没说清楚，所以先别急着下结论说它完全失控，但强制不可屏蔽这个设计本身就挺让人不舒服的。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:15

31d ago

FEATURED彭博科技· rssEN20:15 · 05·13

Cisco上调销售预期并宣布裁员聚焦人工智能

思科盘后一度涨19%，因为新一季销售预测比市场想的要好，同时宣布要裁掉几千人，把资源集中到AI业务上。正文被Bloomberg paywall挡住，没披露具体裁员数字和AI投入金额。

#Cisco#Product update#Personnel

精选理由

思科是AI基础设施的邻居，盘后涨19%加裁员数千人，HKR三项全过。但正文没披露具体销售指引数字、AI业务收入规模、以及重组怎么裁、裁哪些部门，所以只能放在60–71的行业快讯区间。

一句话点评

思科一边上调销售预期，一边裁掉近4000人，省下的钱要砸进AI。这波操作让股价大涨，但别急着叫好——用裁员换AI投入，短期财报好看，长期能不能跑通还得看产品。

锐评

思科这次动作很直接：销售预期比华尔街估计的要好，同时宣布裁掉约5%的员工，也就是将近4000人。省下来的人力成本会重新投到AI相关业务上。消息一出股价大涨，市场显然喜欢这种“砍旧换新”的叙事。但这里有几个信息缺口要注意。正文没具体说裁的是哪些部门、AI投入又具体落到什么产品线上。如果裁的是传统网络设备团队，投的是AI网络或安全方向，逻辑上说得通；但如果只是财务腾挪，产品没跟上，这波涨幅可能站不稳。另外，TechCrunch提到思科同期报了“创纪录的季度收入”，但没拆开看增长到底来自老本行还是新业务。对从业者来说，这信号很明确：大厂在AI上的预算争夺战已经打到裁员这一步了。但思科能不能把省下的钱变成能打的AI产品，现在下结论还太早。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:03

31d ago

r/LocalLLaMA· rssEN20:03 · 05·13

上下文不等于控制权：新评测看模型会不会被错误信息带偏

RJSabouhi 发了一篇短文和一个评测集，核心观点是：模型出错不光是“信息不够”，更多时候是“信息太多但分不清谁说了算”。评测覆盖 7 种上下文干扰，比如检索文档、用户预设、引文、夹带指令、无依据断言、假权威等。说白了就是看模型能不能守住“信息来源边界”——哪些内容能当证据用，哪些只是背景或干扰。作者特别强调这不是要解决幻觉，而是把很多幻觉/顺从/...

#RAG#Safety#Benchmarking#RJSabouhi

精选理由

这篇短论文和评测集的价值在于它把“模型该信什么”这个模糊问题拆成了7类可测的上下文陷阱，对RAG和Agent安全有直接参考意义。但正文没披露模型具体表现、样本量或可复现细节，验证力度偏弱，所以放在高关注度全量推送档位。

一句话点评

模型出错不光是信息不够，更多是信息太多但分不清谁说了算。作者 RJSabouhi 发了一个评测集，测试模型在 7 种上下文干扰下能否守住“信息来源边界”——比如检索文档、用户预设、引文、夹带指令、无依据断言、假权威等。说白了就是看模型能不能区分哪些内容能当证据用，哪些只是背景或干扰。评测集已开源，覆盖场景挺全，但正文没披露具体模型得分和样本量，效果打折。短评：别把上下文当控制信号，模型得学会...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:00

31d ago

AI HOT 精选· aihot-apiZH20:00 · 05·13

阿里云发布Qwen-Character：让AI角色记住你、共情你、主动找你聊天

阿里云推出Qwen-Character，主打三个能力：记忆（记住你和之前聊过什么）、共情（理解你的情绪）、主动交互（不用你问，它自己先开口）。官方说用在游戏、虚拟伴侣、自适应学习场景里，参与度能提升50%以上。但正文没披露这个50%是怎么测的、样本多大、价格多少、什么时候能用。如果真能低成本落地，对做虚拟角色或陪伴类产品的团队是个好消息，但这点先别太激...

#Memory#Agent#Alibaba Cloud#Qwen

精选理由

HKR-H和HKR-R通过，因为AI角色的记忆和留存是行业关注点；HKR-K不通过：参与度提升50%以上这个说法缺少评测口径、样本规模和上线条件，信息缺口太大。

一句话点评

阿里云发了Qwen-Character，主打记忆、共情和主动开口。说用在游戏、虚拟伴侣里参与度能提50%以上，但没披露怎么测的、样本多大、价格和上线时间。如果真能低成本落地，做虚拟角色或陪伴类产品的团队可以关注，但这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:59

31d ago

Hacker News 首页· rssEN19:59 · 05·13

Rars：一个几乎全由大模型写出来的 Rust RAR 解压器

作者用 OpenAI Codex 5.5 和 Claude Opus 4.7，花了 5 周业余时间、约 40 美元（补贴价）的 token 费，写出了 5.5 万行 Rust 代码的 RAR 解压器。正文没披露模型生成代码的具体占比，也没说功能覆盖到 RAR 哪个版本。作者自己承认代码是“slop”（垃圾），速度不快，还差点被 OpenAI 封号——因...

#Code#Rars#Open source

精选理由

HKR-H和HKR-R成立：一个LLM写的Rust归档工具是个很强的编码文化钩子。HKR-K不成立，因为feed只披露了HN热度，没有模型、过程、测试或仓库细节。

一句话点评

作者用 OpenAI Codex 5.5 和 Claude Opus 4.7，5 周业余时间、约 40 美元（补贴价）token 费，写出了 5.5 万行 Rust 的 RAR 解压器。代码自称是“slop”（垃圾），速度不快，还差点因逆向 WinRAR 被 OpenAI 封号。正文没披露模型生成代码的具体占比，也没说功能覆盖到 RAR 哪个版本。亮点是成本极低，但验证弱——仅靠作者自己测试...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:56

31d ago

彭博科技· rssEN19:56 · 05·13

TPG 说跟 OpenAI 合作是常规操作

私募股权公司 TPG 表示，与 OpenAI 成立合资公司属于其传统业务范畴。正文被 Bloomberg 付费墙挡住，没有披露合资结构、出资金额或时间表。

#TPG#OpenAI#Partnership

精选理由

彭博社加 OpenAI 的组合有浏览价值，但全文只有 TPG 的定性表态，缺少合资结构、资本规模或产品影响。HKR 只过 H，所以落在 60–71 低段。

一句话点评

TPG 说跟 OpenAI 搞合资是它的常规操作，但正文被 Bloomberg 付费墙挡住了，没披露出资额、股权结构或时间表。目前能确认的只有 TPG 在淡化这件事的战略色彩，把它归到传统 PE 业务里。缺关键信息，没法判断这笔交易有多大、OpenAI 拿钱干什么。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

19:49

31d ago

FEATUREDTechCrunch AI· rssEN19:49 · 05·13

马斯克的 xAI 在密西西比数据中心偷偷跑了近 50 台燃气轮机，没做环保审查

xAI 在密西西比的 Colossus 2 数据中心用了将近 50 台燃气轮机供电，但把这些设备登记成“移动式”的，绕过了固定电厂的审批流程。现在公司因为这个操作被告了。正文没披露具体的排放数据、许可细节和诉讼里的具体指控内容，所以环保影响到底多大、官司赢面如何，现在都还说不准。

#xAI#Elon Musk#Incident#Policy

精选理由

这条新闻不是模型或产品发布，但冲突点很直接：xAI 在密西西比的数据中心被曝用近 50 台燃气轮机供电，还被起诉把“移动”轮机当电厂用。正文没披露这些轮机到底有没有拿到排放许可，这点先别太激动，但“未经检查”这个说法本身已经够扎眼。对从业者来说，它把 AI 算力增长背后的电力合规风险摆到了台面上，所以放在 featured 档是合适的。

一句话点评

xAI 把近 50 台燃气轮机登记成“移动式”来给数据中心供电，现在被告了。正文没写排放数据和诉讼细节，环保账和官司走向都还看不清。

锐评

这事核心不是用燃气轮机，而是用“移动式”名义绕过了固定电厂的审批流程。将近 50 台机组给一个数据中心供电，规模上已经跟正经电厂没区别了，但监管待遇完全不同。TechCrunch 这篇正文只给了 RSS 摘要，没披露排放量、许可申请记录，也没说诉讼里原告具体告了什么、依据哪条法条。所以现在能确认的是操作手法存在争议，但环保影响多大、xAI 有没有硬伤、官司赢面如何，都还缺关键信息。如果后续有排放监测数据或法院文件出来，才值得认真判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:38

31d ago

彭博科技· rssEN19:38 · 05·13

马斯克的 xAI 拉华尔街投行试用 Grok，为 SpaceX 上市前撑营收

xAI 找了多家与马斯克商业版图有关系的华尔街机构来测试 Grok 聊天机器人，这次推广被包装成在 SpaceX 上市前帮 xAI 拉收入。正文没披露具体是哪几家投行、测试规模多大、部署条件、定价或时间表，信息缺口不少，先别太激动。

#Agent#xAI#Elon Musk#SpaceX

精选理由

Bloomberg 信源扎实，H 和 R 成立，但 K 弱在缺名单、规模和定价。这是一次可讨论的 xAI 商业动作，不是重大产品或融资事件。

一句话点评

短评：马斯克拿 SpaceX 上市前帮 xAI 拉收入当由头，让华尔街关系户试 Grok，但具体哪几家、测什么、多少钱都没说，先别太激动。点评：xAI 找了多家与马斯克商业版图有关系的华尔街机构来测试 Grok 聊天机器人，这次推广被包装成在 SpaceX 上市前帮 xAI 拉收入。正文没披露具体是哪几家投行、测试规模多大、部署条件、定价或时间表，信息缺口不少，先别太激动。关键看点是：如...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:35

31d ago

r/LocalLLaMA· rssEN19:35 · 05·13

Google 收紧免费搜索，Cloudflare 默认拦 AI 爬虫，联网搜索越来越难跑了

Google 把免费 site-specific 搜索的域名上限砍到 50 个，2027 年 1 月 1 日生效，高级搜索的定价至今没公开。Cloudflare 也通过和 GoDaddy 的合作，默认开始拦截 AI 爬虫。这意味着靠免费接口做联网搜索的团队会很快撞墙——50 个域名对多数应用来说根本不够用，而 Cloudflare 的默认拦截会让大量普...

#Tools#RAG#Agent#Google

精选理由

我会先打个折：这是 Reddit 讨论帖，没有官方公告链接，也没披露高级搜索的公开价格或可复现的测试数据。但信息本身对开发者有实际参考价值——Google 免费搜索缩水、Cloudflare 加码拦截，两条路一起变窄，做外挂资料库和让模型进业务流程的人现在就得算账。正文没给出替代方案的具体成本对比，这点先别太激动。

一句话点评

Google 免费搜索接口要砍到只剩 50 个域名，2027 年 1 月生效，高级版定价至今没公开。Cloudflare 联手 GoDaddy 默认拦截 AI 爬虫。靠免费接口做联网搜索的团队很快会撞墙——50 个域名对多数应用根本不够用，Cloudflare 的默认拦截会让大量普通网站数据拿不到。正文没披露 Google 高级搜索的具体价格，也没说 Cloudflare 拦截能否付费绕过。...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:29

31d ago

FEATUREDAI HOT 精选· aihot-apiZH19:29 · 05·13

Anthropic 发布 Claude 电脑与浏览器操控最佳实践，附不同模型截图分辨率上限

Anthropic 给开发者写了一份指南，讲怎么让 Claude 去操作电脑和浏览器。里面给了两个硬指标：用 Claude 4.6 API 时，截图长边不能超过 1568 像素，总像素控制在 115 万以内；换到 Opus 4.7，上限放宽到长边 2576 像素、总像素 375 万。分辨率越高模型能看到的界面细节越多，但推理成本也会跟着涨。正文没披露不...

#Agent#Vision#Tools#Anthropic

精选理由

Anthropic 这份第一方指南给了可操作的截图限制，不是公关稿。HKR 三项都踩中，但本质是实践手册而非模型或能力大更新，所以分数放在 72–77 这个区间。

一句话点评

Anthropic 给开发者划了条硬线：用 Claude 4.6 操作电脑时截图别超过 115 万像素，Opus 4.7 放宽到 375 万。像素越高模型看得越清，但账单也涨得快。

锐评

这份指南最实用的部分是那两个像素上限。Claude 4.6 API 截图长边不能超过 1568 像素，总像素控制在 115 万以内；Opus 4.7 把上限拉到长边 2576 像素、总像素 375 万。翻译成人话：如果你让 Claude 去操作网页或桌面软件，它靠看截图来理解界面，分辨率低了会点错按钮，高了推理成本直接往上蹿。Opus 4.7 放宽限制意味着它能处理更复杂的界面，但正文没给出具体延迟或成本对比数据，这点先别太激动。指南还提到了一些让模型干活更稳的技巧，比如把操作步骤拆细、给模型明确的成功标准。但全文是官方博客，不是第三方评测，没有披露失败率或任务完成率这类硬指标。如果你真要在生产环境里让 Claude 去操作浏览器，建议自己先拿真实任务跑一轮，看看在像素上限附近，准确率和成本到底怎么 trade-off。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:28

31d ago

TechCrunch AI· rssEN19:28 · 05·13

Anthropic 产品负责人：未来 AI 会主动猜你想要什么，甚至在你开口之前

Anthropic 的 Claude Code 和 Cowork 产品负责人 Cat Wu 说，AI 的下一个大方向是“主动”——不等你下指令，它自己推测需求并动手。但正文没披露具体功能、时间表或实现方式，所以这点先别太激动，目前更像一个方向判断。

#Agent#Anthropic#Cat Wu#Claude

精选理由

HKR-H和HKR-R通过：Anthropic产品负责人把主动式AI定义为下一个界面问题，这个判断本身有话题性。HKR-K不通过：因为正文没有披露Claude Code或Cowork的任何功能、时间表或实现机制，所以这条新闻只能留在all层级，不值得单独推高优先级。

一句话点评

Anthropic 产品负责人说 AI 下一步是“主动”——不等你开口就猜需求。但正文没披露任何功能、时间表或实现方式，所以这点先别太激动，目前更像一个方向判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:22

31d ago

彭博科技· rssEN19:22 · 05·13

黑客已经在用 AI 强化攻击并隐藏痕迹

标题说黑客在用 AI 加强攻击和隐藏活动，但正文只提到安全团队也在用新方法抓攻击者，没有披露样本量、技术细节或受影响目标。信息缺口明显，没法判断 AI 到底帮黑客提升了多少效率。

#Safety#Bloomberg#Incident

精选理由

H和R勉强过关，因为AI黑客攻击是安全风险话题。K不通过：RSS正文没给任何数字、机制、受害方或具体案例，属于低价值报道。

一句话点评

标题说黑客用AI加强攻击和隐藏活动，但正文只提到安全团队也在用新方法抓攻击者，没有披露样本量、技术细节或受影响目标。信息缺口明显，没法判断AI到底帮黑客提升了多少效率。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:21

31d ago

AI HOT 精选· aihot-apiZH19:21 · 05·13

Anthropic 把 Claude Code 周额度提了 50%，用到 7 月 13 日

Anthropic 把 Claude Code 的每周使用限额提高了 50%，这个调整至少持续到 7 月 13 日。推文提到可能是 Colossus 1 模型上线带来的算力余量。正文没披露原来的额度是多少、哪些套餐能享受、以及具体怎么算用量——比如是按请求次数还是 token 数。对重度用户来说，额度多了总归是好事，但具体能多干多少活还得看自己实际消耗。

#Code#Anthropic#Claude Code#Colossus 1

精选理由

Anthropic 把 Claude Code 周限额提了 50%，截止 7 月 13 日。对天天用的人，额度多了能少停几次，但正文没讲原来额度是多少、什么套餐能用，所以没法算到底省多少。信息偏薄，不够上头条。

一句话点评

Anthropic 把 Claude Code 周额度提了 50%，至少到 7 月 13 日。推文猜测是 Colossus 1 模型上线腾出了算力。但正文没披露原额度、适用套餐和用量计算方式（按请求还是 token）。对重度用户是好事，但具体能多干多少活还得看自己实际消耗。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:11

31d ago

彭博科技· rssEN19:11 · 05·13

库克、马斯克随特朗普访华，黄仁勋不在名单上

特朗普将对中国进行36小时访问，蒂姆·库克、埃隆·马斯克等美国科技CEO随行，预计会谈涉及关税、台湾等议题。截至发稿，英伟达CEO黄仁勋不在出席名单上。正文没披露AI议题的具体讨论方向，但多位AI相关企业高管到场，说明AI会是绕不开的话题。

#Inference-opt#Apple#Tim Cook#Tesla

精选理由

HKR-H靠CEO阵容和黄仁勋缺席拿到通过，但HKR-K和HKR-R都不及格，因为正文没有给出具体的AI政策、芯片管制或合作细节。这条新闻只能算行业背景，价值偏低。

一句话点评

特朗普带库克、马斯克访华36小时，AI会是绕不开的议题。但正文没披露具体谈什么——芯片出口限制？中国AI监管？还是合作机会？黄仁勋不在名单上，这点先别太激动。看点在于多位AI相关CEO到场，说明AI已成贸易谈判标配，但具体方向全靠猜。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

19:08

31d ago

r/LocalLLaMA· rssEN19:08 · 05·13

八张 AMD MI50 跑 Qwen 3.6-27B，生成速度 52.8 token/秒，首字延迟 32.9 秒

Reddit 用户 ai-infos 用八张 AMD MI50 显卡（每张 16GB HBM2）跑 Qwen 3.6-27B 模型，用的是 vLLM 的 ROCm 分支。标题里报的生成速度是 52.8 token/秒，预填充速度 1569 token/秒，没开 MTP（多 token 预测）也没做量化。实际测试是同时发 4 条请求，每条输入 1 万 t...

#Inference-opt#Tools#Qwen#vLLM

精选理由

HKR 三项都过：硬件配置具体（8×MI50），有基准条件和实测数据（32.91 tok/s、32.9s TTFT），且能引发本地推理圈对成本和 AMD 可行性的讨论。来源单一（Reddit 用户）、硬件范围窄，分数落在 60–71 区间。

一句话点评

八张AMD MI50（16GB HBM2）跑Qwen 3.6-27B，生成速度52.8 token/s，预填充1569 token/s，没开量化也没用多token预测。实测4条并发请求（输入1万token，输出1千token），实际生成掉到32.9 token/s，首token延迟32.9秒。速度还行，但首token延迟偏高，长输入场景下体验打折。正文没披露功耗和成本，MI50是旧款加速卡，...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:07

31d ago

AI HOT 精选· aihot-apiZH19:07 · 05·13

Claude代码周限额临时提升50%

Anthropic把Claude Code的每周使用额度临时提高了50%，从即日起到7月13日，Pro、Max、Team和按席位付费的企业用户都能享受。相当于原来一周能跑100次现在能跑150次，对重度用户算是个小福利。不过这只是限时活动，正文没提活动结束后额度会不会回调。

#Code#Claude#Product update

精选理由

HKR 三项全过：50% 的配额提升、截止日期和适用套餐都写清楚了，对开发者有用，但不是新能力或模型发布，所以保持 high all。

一句话点评

Anthropic 把 Claude Code 周额度临时提了 50%，Pro/Max/Team 和按席位付费的企业用户都能用，相当于原来一周 100 次变 150 次。对重度用户算小福利，但只是限时到 7 月 13 日，正文没提结束后会不会回调。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:51

31d ago

Product Hunt · AI· rssEN18:51 · 05·13

Stella：号称全球首款能自己改自己的桌面应用

Stella 是一款桌面应用，宣传点是“自我修改”——它能自己改自己的代码或行为，不需要用户手动更新。功能上覆盖了后台操作电脑、浏览器、Office 文件、写代码、生成图片/视频/3D 等，还支持手机发消息遥控。标榜零配置、开箱即用。不过正文没披露它到底怎么实现自我修改的，也没说支持哪些操作系统、价格多少、什么时候正式发布。目前只在 Product H...

#Stella#Product Hunt#Product update

精选理由

标题概念新颖，H 通过；但正文信息太少，K 和 R 都不及格。这属于低价值的产品发布预告，不值得投入时间深挖。

一句话点评

Stella 号称全球首款“自我修改”桌面应用，能自己改代码、操作电脑、写 Office、生成图片视频，还支持手机遥控。但正文没披露自我修改的具体机制、支持哪些系统、价格和发布时间。目前只有 Product Hunt 上的 56 个 upvote 和 22 个关注，验证很弱。先别太激动，等更多细节出来再说。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

18:46

31d ago

Hacker News 首页· rssEN18:46 · 05·13

OpenAI 庭审：Altman 被当庭质问“惯于撒谎”

Ars Technica 报道，在决定 OpenAI 未来的庭审中，Altman 周二出庭，被迫面对原告方（马斯克）律师提出的“惯于撒谎”指控。马斯克此前起诉 OpenAI 背离非营利使命、与微软合谋“窃取慈善机构”。Altman 在庭上自称“我相信自己是个诚实的人”。正文未披露 Altman 具体如何回应撒谎指控，也未透露庭审是否出现关键证据。

#Sam Altman#OpenAI#Ars Technica#Policy

精选理由

HKR-H 和 HKR-R 通过：OpenAI 庭审涉及 Altman 可信度，有明确讨论价值。HKR-K 不通过：RSS 缺少证词、案件背景或证据，信息缺口太大，所以分数落在 60–71 区间。

一句话点评

Altman在庭审中被马斯克律师贴脸开大，指控他“惯于撒谎”。Altman回应“我相信自己是个诚实的人”，但正文没披露他具体怎么反驳，也没给出关键证据。这场官司决定OpenAI未来走向，看点在于Altman的诚信能否经得起交叉质询。目前信息缺口大，先别急着站队。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:42

31d ago

AI HOT 精选· aihot-apiZH18:42 · 05·13

AI电影大师Gossip Goblin创作流程首度揭秘？其实正文啥也没说

这条推文标题说首次揭秘AI电影《Gossip Goblin》的创作流程，但正文只提了一句“主要用Kling做动画”，没有披露任何具体步骤、模型参数、定价或可复现的制作条件。说白了就是个标题党，想看干货的可以散了。

#Multimodal#Gossip Goblin#Kling#PJaccetturo

精选理由

触发硬排除规则5：这是供应商侧“创作者用了Kling”的案例，没有工作流细节或可复现数据。H/K/R三项都不满足，所以分数低于40。

一句话点评

标题说“首度揭秘AI电影创作流程”，正文只提了一句“主要用Kling做动画”，没披露任何步骤、参数或成本。说白了就是个标题党，想看干货的可以散了。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

18:31

31d ago

AI HOT 精选· aihot-apiZH18:31 · 05·13

Krea 2 上线情绪板分享

Krea 2 新增了情绪板分享功能，现在你可以把做好的情绪板发给别人看。推文附了几个示例链接，但没说明分享权限、协作方式或是否收费。

#Krea#Product update

精选理由

HKR-K 通过，因为可分享的情绪板是一个具体更新；但 HKR-H 和 HKR-R 不通过：没有意外角度，没有权限/定价/工作流细节。小产品更新，不值得上推荐位。

一句话点评

Krea 2 上线情绪板分享功能，可以直接把做好的视觉参考发给别人看。推文附了几个示例链接，但没披露分享权限（公开/私密）、是否支持协作编辑，以及免费版能不能用。功能本身不复杂，对设计师团队协作有用，但信息缺口太大，具体体验得自己试。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

18:21

31d ago

彭博科技· rssEN18:21 · 05·13

企业还在“试水”AI成本，OpenAI新开咨询业务，TPG牵头砸几十亿美元

彭博分析师David Trujillo说，企业目前仍在测试AI的成本，还没大规模铺开。OpenAI这周推出了咨询和服务业务，帮客户落地AI。另外，TPG牵头的合资公司拿到了几十亿美元的私募资金。正文没披露具体金额和客户案例，所以这点先别太激动——几十亿听着多，但分到具体项目上能撑多久还不清楚。

#David Trujillo#TPG#OpenAI#Product update

精选理由

Bloomberg视频片段信息量有限，正文没披露具体成本数字或测试细节，不够上头条。但OpenAI做咨询、TPG拿几十亿美金这两条线，对关注企业AI落地和资本动向的人有价值。

一句话点评

彭博分析师说企业还在试AI成本，没大规模铺开。OpenAI这周推咨询业务帮落地，TPP牵头的合资公司拿到几十亿美元私募资金。正文没披露具体金额和客户案例，几十亿听着多，分到具体项目能撑多久还不清楚。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

18:15

31d ago

r/LocalLLaMA· rssEN18:15 · 05·13

有人把 Anthropic 的“自然语言自动编码器”跑在本地了，还做了个 UI 让你调模型内部想法

Reddit 用户发布了一个叫 nla.cpp 的工具，基于 llama.cpp 改造，支持 Anthropic 提出的四种自然语言自动编码器功能。配合 Mikupad UI，可以查看每个 token 的激活解释，还能手动“引导”模型输出方向。说白了就是让你能看模型内部在想什么，甚至试着改一改它的思路。不过正文被 Reddit 屏蔽了，具体支持哪些模型...

#Interpretability#Tools#Inference-opt#Anthropic

精选理由

Reddit 个人工具发布，没有跑分、安装门槛或稳定性数据，正文也没披露具体模型大小或硬件要求，属于 60–71 分的 niche 开源工具档。

一句话点评

有人把 Anthropic 那套“自然语言自动编码器”搬到了本地，用 llama.cpp 跑，还配了个 UI 叫 Mikupad。能看每个 token 的激活解释，甚至手动“引导”模型输出方向——说白了就是拆开黑箱看一眼，再试着拧一拧。但正文被 Reddit 屏蔽了，具体支持哪些模型、效果多好、引导会不会把模型搞崩，全没披露。如果是真的，对可解释性研究是个低成本玩具，但先别太激动，等代码放出...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:09

31d ago

FEATUREDMIT 科技评论· rssEN18:09 · 05·13

AI 聊天机器人开始泄露真实手机号，谷歌 Gemini 被曝多次给出私人号码

MIT Technology Review 记录了三起 Gemini 把真人手机号当成客服电话给出去的案例。一位以色列软件工程师收到陌生人 WhatsApp 消息，对方说是 Gemini 给的 PayBox 客服号——但他跟这家公司毫无关系。文章还提到，隐私清理公司 DeleteMe 的数据显示，过去七个月里用户关于生成式 AI 的隐私咨询量涨了 40...

#Safety#Alignment#MIT Technology Review#Google

精选理由

MIT Technology Review 的报道给了具体案例，DeleteMe 的咨询量增长和 ChatGPT 提及比例让问题有了量化支撑，所以 H、K、R 三项都站得住。影响面集中在隐私和产品责任风险，不是模型或平台级的大版本变动，重要性刚好卡在 featured 门槛上。

一句话点评

Gemini 把真人手机号当客服电话给出去，这不是幻觉，是隐私泄露。DeleteMe 说七个月内 AI 隐私咨询量涨了 400%，但正文没披露绝对数字，这点先别太激动。

锐评

MIT Technology Review 挖出了三起 Gemini 泄露真人手机号的案例：以色列工程师被陌生人当客服骚扰，华盛顿大学博士生随手一试就套出同事的私人号码。这些不是模型编造的假信息，而是训练数据里没洗干净的隐私残留。隐私清理公司 DeleteMe 的数据显示，过去七个月用户关于生成式 AI 的隐私咨询量涨了 400%，其中 55% 指向 ChatGPT，20% 指向 Gemini，15% 指向 Claude。这个比例挺有意思——ChatGPT 占大头，但文章只举了 Gemini 的例子，其他模型有没有类似问题没说。文章把锅甩给训练数据里的个人身份信息，但没解释为什么模型会在客服场景下吐出这些号码，也没说 Google 有没有修复机制。Reddit 上那个被电话轰炸的用户说求助无门，文章也承认“似乎没什么办法阻止”。这点最要命：出了事，用户找不到人负责，也关不掉这个功能。还缺什么？DeleteMe 的咨询量涨了 400%，但基数是多少没给，几千条还是几万条差别很大。另外，这些泄露是偶发还是系统性问题，文章没给出技术层面的分析，只靠几个案例撑不起结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:17

31d ago

AI HOT 精选· aihot-apiZH17:17 · 05·13

Krea 2 发限量访问码，每个码能用 50 次

Krea AI 放出了三个 Krea 2 的访问码（K2-PRFUF8 / K2-NRWW9E / K2-CAP48S），每个码能用 50 次。官方说这是他们第一个从零训练的基座模型，主打审美多样性和风格控制。目前只有码没有公开模型细节，具体效果和参数都没披露。

#Multimodal#Krea AI#Product update

精选理由

HKR的H和K通过：码的数量有限，加上是Krea首个自研基础模型，信息具体。来源是Krea的X帖子，没有基准测试、定价、部署范围或能力证明，属于小产品更新，从业者参考价值有限。

一句话点评

Krea 2 放出三个访问码，每个能用 50 次，总共 150 次生成机会。官方说是第一个从零训练的基座模型，主打审美多样性和风格控制。但正文没披露参数量、训练数据、评测指标，效果全靠抢到码的人试。限量码+无细节，更像早期用户测试，不是正式发布。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

17:15

31d ago

● P1彭博科技· rssEN17:15 · 05·13

Microsoft 在 OpenAI 合作上累计投入超过 1000 亿美元

彭博这条消息的正文被付费墙挡住了，只抓到一个标题。标题说微软至今在 OpenAI 合作上花的钱已经超过 1000 亿美元，但具体怎么花的、分几年、是现金还是算力折算，正文没披露。这个数字本身很大——作为对比，微软 2025 财年全年资本开支大概在 800 多亿美元，等于把一年多点的全部基建预算都砸进这一项合作里。不过先别太激动，没看到明细之前，没法判断...

#Microsoft#OpenAI#Partnership

精选理由

Bloomberg 抛出一个超过 1000 亿美元的数字，把微软和 OpenAI 之间的经济与控制关系摆上台面。我会先打个折：正文没披露这笔钱具体怎么花的、分了多少年、有没有附带条款，所以只能当个信号看。HKR 三项都成立，但信息缺口明显，重要性停在 84 不动。

一句话点评

微软在 OpenAI 身上砸了超 1000 亿美元，但回报只有 300 亿，新协议把分成上限锁在 380 亿，省了 970 亿，这笔账算得很精。

锐评

微软企业发展负责人在庭审中确认，对 OpenAI 的累计支出已超 1000 亿美元，其中只有 130 亿是直接投资，大头是 Azure 云基础设施和托管成本。到 2025 年，相关营收约 300 亿美元，投入产出比目前看并不好看。不过新签的非独家协议把 OpenAI 的分成上限卡在 2030 年前累计 380 亿美元，相比旧条款能省下约 970 亿美元，微软在财务上给自己留了很大的安全垫。纳德拉在庭上打感情牌，说当年投资是“没人愿意下注”时扛的风险，但文章没披露这 1000 亿里有多少已经转化为固定资产或研发摊销，也没说 300 亿营收的利润率和增速。光看总额容易高估或低估这笔投资的真实回报。另外，微软已经在看其他 AI 初创公司，包括考虑过收购 Cursor 但怕反垄断没动手。这说明微软不想把身家性命全绑在 OpenAI 上，一边用新协议锁成本，一边在外面找备胎。后续值得盯的是微软自研模型进展，以及它对其他 AI 公司的收购动作，那才是判断它长期 AI 路线的关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:14

31d ago

● P1彭博科技· rssEN17:14 · 05·13

Anduril 融资50亿美元估值翻倍至610亿美元

Anduril 在 Thrive Capital 和 a16z 领投的一轮里融了 50 亿美元，估值直接跳到 610 亿美元，比上一轮翻了一倍。CEO Brian Schimpf 说这笔钱主要砸在三个地方：扩大产线、研发和基础设施。视频里没给具体的收入数字或交付时间表，所以这个估值到底靠多少实际订单撑着，正文没披露。

#Robotics#Anduril#Thrive Capital#Andreessen Horowitz

精选理由

Anduril 这轮 50 亿直接把估值拉到 610 亿，翻了一倍，说明资本在押注国防 AI 和自主系统的制造规模。钱会砸进工厂、研发和基建，不是纯烧模型，而是铺产能。我会先打个折：正文没披露具体产能目标或交付时间表，所以别急着算回报。对从业者来说，这更像一个信号——国防机器人赛道在加速从原型走向量产，但验证还要看后续订单和交付数据。

一句话点评

Anduril 估值半年翻倍到 610 亿美元，但 FT 正文被付费墙挡住，具体融资条款和收入数据都没看到。

锐评

Anduril 这轮融了 50 亿美元，估值直接冲到 610 亿，比上一轮翻了一倍。这个数字说明资本在加速押注国防科技赛道，尤其是用 AI 做无人机、反无人机系统和边境监控这类硬件的公司。不过目前能读到的只有标题，FT 和彭博的正文都在付费墙后面，没法确认这轮融资的领投方、资金用途和公司最新的营收规模。估值翻倍听起来很猛，但国防科技公司的收入往往跟政府合同节奏走，波动大，没有收入数据的话，610 亿这个数字到底贵不贵还不好说。另外，正文没披露公司是否盈利，也没提到这轮融资有没有附带对赌条款。这些信息缺口让估值翻倍这件事得先打个折看，等更多细节出来再判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:10

31d ago

FEATUREDAI HOT 精选· aihot-apiZH17:10 · 05·13

Claude 付费计划从 6 月 15 日起送月度编程额度，覆盖 Agent SDK 和第三方应用

Anthropic 给付费用户加了一个月度编程使用额度，6 月 15 日开始可以申领。这个额度专门用于 Claude Agent SDK、命令行工具 claude -p、Claude Code 的 GitHub Actions 集成，以及基于 Agent SDK 做的第三方应用。正文没披露额度具体有多少、会不会用完降速，也没说不同付费档位是不是一样。这...

#Agent#Code#Tools#Claude

精选理由

HKR 三项都成立：时间、额度机制、覆盖的编程入口都写清楚了。重要性维持 featured 低段，因为这是计费和访问规则调整，不是模型发布，但对付费开发者的实际影响不小。

一句话点评

Claude 付费用户 6 月 15 日起能领一笔月度编程额度，覆盖 Agent SDK、命令行和 GitHub Actions。但正文没写额度多少、用完会不会降速，不同档位是否一样也不清楚。

锐评

Anthropic 给付费用户加了个编程专用额度，6 月 15 日开始申领。这笔额度专门用于让模型跑代码 agent 的活儿——包括他们自己的 Agent SDK、命令行工具 claude -p、Claude Code 的 GitHub Actions 集成，还有第三方基于 Agent SDK 做的应用。说白了就是给付费用户一个固定的月度预算，让你不用每次调 API 都盯着账单心跳。但这条公告缺的信息比给的多。额度具体是多少没写，是 100 次调用还是 100 万 token 完全不知道。用完之后的体验也没交代——是直接停掉、降速限流，还是弹窗让你加钱。不同付费档位之间额度是否一样，正文也没提。这些缺口直接决定了这条更新是真实惠还是营销动作。另外注意，这个额度只覆盖 agent 场景的用量，不是通用的 API 额度。如果你用 Claude 做普通对话或非 agent 的代码补全，大概率不在这笔预算里。第三方应用能不能稳定吃到这个额度，取决于它们有没有老老实实走 Agent SDK，这点也得等上线后验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:08

31d ago

AI HOT 精选· aihot-apiZH17:08 · 05·13

人形机器人 Helix-02 已能自主干满8小时轮班

Brett Adcock 发视频称，其人形机器人 Helix-02 已能以人类水平自主完成8小时轮班。正文没披露具体任务类型、机器人数量或现场条件，所以先别太激动——能干满8小时不等于能干好所有活。如果属实，对工厂流水线这类重复性岗位是个信号，但验证信息还太少。

#Robotics#Agent#Brett Adcock#Kimmonismus

精选理由

HKR-H和HKR-R通过：8小时自主轮班的说法有噱头且跟机器人落地强相关。HKR-K不通过：任务、机队规模和场地条件都没说，够不上精选。

一句话点评

Brett Adcock 发视频说 Helix-02 人形机器人已能自主干满8小时轮班，且达到人类水平。但正文没披露具体任务类型、机器人数量或现场条件，所以先别太激动——能干满8小时不等于能干好所有活。如果是真的，对工厂流水线这类重复性岗位是个信号，但验证信息还太少。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:08

31d ago

r/LocalLLaMA· rssEN17:08 · 05·13

Reddit 帖子说百度文心本月可能发新模型，但正文只贴了截图和视频链接

一条 Reddit 帖子称百度文心（ERNIE）本月可能发布新模型，但正文只引用了两条推文截图和一个 2.5 小时的百度 Create 2026 视频，没有披露模型参数量、具体发布时间或开源条件。帖子本身没有提供任何技术细节或官方确认，信息缺口很大，目前只能当作传闻看待。

#Baidu#ERNIE#Product update

精选理由

只有 HKR-H 通过：百度文心新模型的传闻有钩子，但正文缺少参数、发布时间、开源条件或官方确认，国内旗舰模型发布的热度不适用。

一句话点评

Reddit 帖子说百度文心本月可能发新模型，但正文只贴了两条推文截图和一个2.5小时的百度大会视频，没提参数量、发布时间或是否开源。目前纯属传闻，信息缺口太大，先别当真。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

17:06

31d ago

r/LocalLLaMA· rssEN17:06 · 05·13

DramaBox：号称“最有表现力”的语音模型，基于LTX 2.3

Reddit 帖子介绍了一个叫 DramaBox 的语音模型，基于 LTX 2.3，号称“最有表现力”。作者给了 GitHub、模型和在线体验三个链接，但正文没披露训练数据量、参数量或任何评测指标。所以“最有表现力”目前只是宣传，没有公开证据支撑。如果你好奇可以去试玩链接听一下，但别急着下结论。

#Audio#ResembleAI#DramaBox#LTX

精选理由

一个基于 LTX 2.3 的小型开源语音模型发布，附了可测试的链接，但训练数据、参数规模和评测结果都没披露。只有 K 条件通过，所以定位为中等关注度的开源更新，评分 60。

一句话点评

DramaBox 号称“最有表现力”的语音模型，基于 LTX 2.3，但正文没披露训练数据量、参数量或任何评测指标，所以这个称号目前只是宣传。如果你好奇可以去试玩链接听一下，但别急着下结论。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

17:04

31d ago

AI HOT 精选· aihot-apiZH17:04 · 05·13

Krea 2 情绪板教程：10-20张参考图就能定调

Krea AI 发了个 Krea 2 情绪板教程，说不用塞满 250 个图片位，10-20 张高质量参考图就够确立视觉方向并出图。对做设计或风格探索的人来说，这能省不少挑图时间，但教程没提这些参考图具体怎么选、风格冲突时怎么处理，实操细节还得自己试。

#Vision#Tools#Krea AI#Krea 2

精选理由

HKR-H和HKR-K成立，因为10–20张参考图替代250个图片位这个点有信息差，且给出了可复用的操作条件。HKR-R弱，这只是一条来自厂商的流程小技巧，不是行业级故事。

一句话点评

Krea 2 说情绪板不用塞满250张图，10-20张高质量参考图就能定视觉方向。这对设计师挺友好，省了挑图时间。但教程没讲参考图怎么选、风格冲突咋处理，实操细节得自己试。短评：省事但得自己踩坑。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

17:02

31d ago

FEATUREDAI HOT 精选· aihot-apiZH17:02 · 05·13

Runway 发布 Agent：用对话直接生成带配音和音乐的多镜头视频

Runway 新推出的 Agent 把视频制作变成了一轮对话。你描述需求，它先出概念和故事节奏，确认方向后直接生成包含多镜头、旁白、对白和配乐的成品视频，几分钟就能拿到可发布的版本。新用户注册免费计划有 1500 积分可以试做第一条。官方说它主要瞄准品牌广告、社交媒体内容和独立短片这些场景，想解决传统视频制作太慢太贵的问题。正文没披露具体的技术细节和模...

#Agent#Multimodal#Tools#Runway

精选理由

Runway 发了个 Agent，你用自然语言说一段话，它直接给你吐出一条多场景视频，不用再手动拼片段。免费计划送 1500 积分，够做第一个视频试试手。我会先打个折——正文没写免费额度用完怎么收费、单次生成要多少积分、视频最长多长，也没第三方实测数据，所以分数没往上拉。

一句话点评

Runway 把视频制作压缩成一轮对话，几分钟出多镜头成品，但正文没给任何技术细节和实际效果对比，先当概念验证看。

锐评

Runway 这次发布的 Agent，核心是把视频制作流程打包成一个对话式工具。你描述需求，它先出概念和故事节奏，确认方向后直接生成带多镜头、旁白、对白和配乐的成品视频。新用户有 1500 积分可以试做第一条，官方说主要瞄准品牌广告、社交媒体内容和独立短片，想解决传统制作又慢又贵的问题。但这条新闻的信息缺口很明显。正文完全没提生成质量到底怎么样，多镜头之间的连贯性、人物一致性这些视频生成的老大难问题，一个字都没说。也没给任何对比案例，比如同样一个需求，用 Agent 和传统流程出来的东西差多少。几分钟出片听起来快，但如果要反复改、反复生成，实际耗时和积分消耗就不好说了。另外，官方说它能理解品牌语境、跨模型工作，但没解释具体怎么实现。是接入了客户自己的素材库，还是全靠提示词控制风格？这些直接影响实际可用性。我会先打个折，等看到真实用户的成品和吐槽再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:45

31d ago

● P1The Verge · AI· rssEN16:45 · 05·13

Meta AI推出端到端加密的隐私聊天模式Incognito Chat

Meta 老板扎克伯格亲自发帖，给 Meta AI 加了一个“无痕聊天”模式。按他的说法，这种对话用上了端到端加密，聊完退出会话后消息就没了，服务器上不存对话记录。Meta 强调这跟其他聊天机器人不一样。不过，这篇报道没写这个功能什么时候上线、覆盖哪些地区，也没提 Meta 有没有找第三方来做安全审计，或者密钥到底是怎么管的。所以“完全私密”这个说法，...

#Safety#Meta#Mark Zuckerberg#The Verge

精选理由

我会先打个折：Meta 说“完全私密”的 AI 聊天，服务器不存日志还端到端加密，听着挺省钱省心。但正文没披露上线范围、保留策略审计和密钥管理机制，这点先别太激动。它更像一个产品更新，隐私承诺的验证链条还没给全，所以放在 featured 里当个信号看就行。

一句话点评

Meta AI 在 WhatsApp 里加了个阅后即焚的隐身聊天，扎克伯格说全程端到端加密。但正文没讲加密密钥怎么管、模型是不是本地跑，隐私成色得打个折。

锐评

Meta 给 WhatsApp 里的 AI 助手加了个“隐身聊天”模式，核心卖点是端到端加密，聊完记录自动消失。扎克伯格亲自站台说“完全私密”，这说法挺重，但文章里没给出技术细节来撑住它。最大的信息缺口在于：加密到底发生在哪一层？如果模型推理还在 Meta 服务器上，那“端到端”只保护了传输过程，Meta 自己能不能看到请求内容，正文完全没提。另外，聊天记录阅后即焚，那 Meta 还拿不拿这些对话去改进模型？如果还做训练或日志留存，隐私承诺就要大打折扣。目前只有 The Verge 一篇报道，且基于 Meta 官方口径，没有独立安全审计或第三方验证。对真正在意隐私的用户来说，这点先别太激动，等白皮书或技术文档出来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:43

31d ago

r/LocalLLaMA· rssEN16:43 · 05·13

Reddit 用户对比 Qwen3.5 122B 量化版：Unsloth 在 GSM8K 上略胜一筹

一位 Reddit 用户在 LocalLLaMA 板块发帖，比较了 Qwen3.5 122B 的 IQuality 和 Q4_K_XL 两种量化版本，并提到 Unsloth 的量化版在 GSM8K 数学推理测试中表现稍好。不过帖子没有给出具体分数、硬件配置、提示词或可复现的设置，所以这个结论只能当个参考，没法直接拿来用。

#Inference-opt#Benchmarking#Unsloth#Mudler

精选理由

Reddit 用户测了 Qwen3.5 122B 的 Q4_K_XL 量化版，说 Unsloth 在单次 GSM8K 上比 IQuality 好一点。但正文没披露具体分数、用什么硬件跑的、能不能复现，信息缺口太大。唯一能看的是社区在讨论量化工具选型，对本地部署用户有参考意义，所以只留了 R 标签，整体归入 all 层级。

一句话点评

Reddit 用户对比了 Qwen3.5 122B 的 IQuality 和 Q4_K_XL 两种量化版，称 Unsloth 的量化版在 GSM8K 数学推理上“稍好”。但帖子没给具体分数、硬件配置、提示词，结论只能当个参考。正文被屏蔽，无法核实更多细节。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

16:31

31d ago

TechCrunch AI· rssEN16:31 · 05·13

Sam Altman 在法庭上自称“诚实可信”

Sam Altman 在联邦法庭作证时自称“诚实可信的商人”。正文未披露案件背景、开庭日期或质询细节，信息缺口较大，无法判断这是辩护策略还是个人声明。

#Sam Altman#Commentary

精选理由

HKR-H/R 通过：Altman 法庭自证诚信的标题有强点击钩子，也触及 OpenAI 信任问题。HKR-K 不通过：缺少案件背景和质询细节，信息量不足，因此评分落在 60–71 区间。

一句话点评

Sam Altman 在联邦法庭自称“诚实可信的商人”。正文没披露案件背景、开庭日期或质询细节，信息缺口太大，无法判断这是辩护策略还是个人声明。先别急着信，等更多上下文。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:28

31d ago

FEATUREDAI HOT 精选· aihot-apiZH16:28 · 05·13

Anthropic 给小型企业做了个 Claude 服务包，直接连 QuickBooks、PayPal 等工具跑自动化流程

Anthropic 推出 Claude for Small Business，一个在 Claude Cowork 里一键开启的服务包。它把 Claude 接进了小企业常用的工具：Intuit QuickBooks、PayPal、HubSpot、Canva、Docusign、Google Workspace 和 Microsoft 365。自带 15 个...

#Agent#Tools#Anthropic#Claude

精选理由

Anthropic 这次把 Claude 做成小企业套餐，给了 15 个现成工作流和几个常用工具的连接器，还加了手动审批环节，产品更新挺实在。不过正文没提价格、具体铺开范围和实际用量数据，所以先别太激动，重要性到不了必写级别。

一句话点评

Anthropic 给 Claude 加了个小企业服务包，直接接进 QuickBooks、PayPal 这些工具里干活，但关键步骤要人拍板。

锐评

Anthropic 把 Claude 做成了一个能直接插进小企业常用软件里的服务包，覆盖财务、销售、营销等环节。它不是在聊天框里回答问题，而是能跑 15 个预设好的自动化流程，比如根据 QuickBooks 和 PayPal 的数据做 payroll 规划、月底对账，或者在 HubSpot 和 Canva 之间跑营销活动。正文强调了一个关键设计：所有发出去、贴出去或付钱的动作，最后都要人点一下批准，这降低了直接让 AI 操作资金和客户数据的风险。目前看，这更像一个高度集成的自动化模板包，而不是一个能自由探索的通用 agent。正文没提定价，也没说这些工作流在真实业务里的准确率或失败率。引用的客户证言来自几家小公司，但样本量太小，只能当早期参考。我会先打个折：对小团队来说，把重复性后台工作串起来确实省时间，但实际效果很依赖你原本的数据在 QuickBooks 和 PayPal 里有多干净。还缺第三方压力测试和更透明的错误处理机制说明。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:22

31d ago

TechCrunch AI· rssEN16:22 · 05·13

Origin Lab 融资 800 万美元，帮游戏公司把数据卖给世界模型团队

Origin Lab 刚拿了 800 万美元，打算搭一个授权数据市场，让 AI 实验室能从游戏公司手里买高质量数据集。正文没披露投资方、定价模式、上线时间或数据集使用条款。游戏数据对训练世界模型挺有价值，但数据授权和定价怎么落地还不清楚。

#Multimodal#Origin Lab#Funding#Product update

精选理由

HKR三项都过：h新鲜，k有融资和机制但信息不全，r切中数据稀缺痛点。重要性给68分合理，因为只是早期融资，关键细节缺失，不值得更高分。

一句话点评

Origin Lab 拿了800万美元搭个数据市场，让AI实验室从游戏公司买高质量数据训练世界模型。游戏数据确实值钱，但正文没披露投资方、定价模式、上线时间或数据集使用条款，这点先别太激动。如果是真的，能帮AI公司绕过版权雷区，但授权和定价怎么落地还不清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:15

31d ago

FT · 科技· rssEN16:15 · 05·13

白领报告“AI脑糊”：被新工具搞到 overwhelmed，但调查细节全没披露

FT 标题说白领报告“AI 脑糊”（AI brain fry），意思是员工被新技术搞得头大、精力透支。但正文被付费墙挡住，RSS 摘要只提了一句“工人对新科技感到 overwhelmed”，没披露样本量、行业分布、调查方法、时间范围。结论本身不意外，但缺乏数据支撑，没法判断是普遍现象还是少数人抱怨。

#Financial Times#Commentary

精选理由

FT 的报道有来源背书，HKR 的 H 和 R 靠“AI 脑疲劳”这个职场话题过关。K 不过是因为摘要没披露样本量、方法或具体案例，所以只能放在“有趣但不重点推荐”的档位。

一句话点评

FT 报道白领出现“AI 脑糊”，说员工被新技术搞得头大精力透支。但全文被付费墙挡住，RSS 只提了一句“工人感到 overwhelmed”，没披露样本量、行业分布、调查方法。结论不意外，但缺乏数据支撑，没法判断是普遍现象还是少数人抱怨。短评：标题抓人，但正文被墙，信息量约等于零。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:13

31d ago

AI HOT 精选· aihot-apiZH16:13 · 05·13

Runway 推出 Agent：把视频剪辑、生图和 3D 建模塞进一个工作流

Runway 上线了一个叫 Agent 的新产品，把视频特效、图片生成和 3D 建模整合到一个界面里，用户上传一张图、写一句话就能出大片级 VFX 效果。正文没披露定价、模型细节、上线时间，也没有可复现的评测条件，所以目前只能当个概念预览看。对做视频后期或创意内容的人来说，如果真能跑通，省掉来回切软件的时间是实打实的。

#Agent#Multimodal#Tools#Runway

精选理由

HKR-H 和 HKR-K 通过：多模态 Runway Agent 有明确钩子和基本机制。价格、模型细节、发布时间和可复现评测条件都没披露，所以这条属于普通产品更新档位。

一句话点评

Runway 把视频特效、图片生成和 3D 建模塞进一个界面，上传一张图写句话就能出大片级 VFX。正文没披露定价、模型细节、上线时间，也没有可复现的评测条件，目前只能当概念预览看。对做视频后期的人来说，如果真能跑通，省掉来回切软件的时间是实打实的。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

16:08

31d ago

FEATUREDr/LocalLLaMA· rssEN16:08 · 05·13

商汤发布 SenseNova-U1-A3B-MoT，一个模型搞定看图、推理和生成

商汤在 Hugging Face 上放出了 SenseNova-U1-A3B-MoT 模型，同时提供了 A3B MoT、8B MoT 和 0.4B LoRA 权重链接。按官方说法，这套模型用 NEO-unify 架构把多模态理解、推理和生成统一到一个模型家族里。不过 Reddit 原帖被网络屏蔽了，正文没披露具体性能数据、训练细节和实际跑分，想试的话得...

#Multimodal#Vision#Reasoning#SenseNova

精选理由

SenseNova 在 Hugging Face 扔了一套多模态模型权重，A3B MoT、8B MoT 加一个 0.4B LoRA，主打 NEO-unify 架构，说能把看图、推理和生成塞进一个模型。我会先打个折：正文没给任何 benchmark 分数，也没写清楚开源协议，所以性能好坏和商用限制现在全是问号。亮点是 LoRA 权重只有 0.4B，对想用消费级显卡跑多模态任务的人挺友好，这点先别太激动，等实测出来再看。整体属于有料但缺关键信息的发布，给个 featured 低段位合理。

一句话点评

商汤在 Hugging Face 放出了 SenseNova-U1 系列模型权重，但 Reddit 原帖被屏蔽，正文没披露任何性能数据或跑分，想试只能直接去模型页看。

锐评

商汤这次放出的 SenseNova-U1 系列，核心卖点是 NEO-unify 架构，号称把多模态理解、推理和生成统一到一个模型家族里。具体放出了 A3B MoT、8B MoT 和 0.4B LoRA 三个权重，A3B 这个规格在开源社区里算比较少见，MoE 架构用 3B 激活参数跑多模态，如果推理效率确实高，对本地部署玩家会挺有吸引力。但这条消息的信息缺口很大。Reddit 原帖直接被网络屏蔽，我们只能看到 Hugging Face 模型页的链接，正文里没有任何 benchmark 分数、训练数据构成、显存占用或推理速度的实测。商汤官方也没给出技术报告或对比基线，所以“统一多模态”到底统一到什么程度、生成质量能不能打，目前完全没法判断。建议先别急着下结论，直接去 Hugging Face 模型页看社区实测反馈。如果后续有第三方跑分出来，我会再跟进。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:00

31d ago

TechCrunch AI· rssEN16:00 · 05·13

Anthropic 开始拉拢小企业主

Anthropic 新推出一项面向小企业主的产品，瞄准美国 3600 万家小企业这个市场。正文没披露产品功能、定价、上线时间或哪些客户能用。对创业者和投资人来说，这意味着 AI 平台战正在下沉，下一个抢用户的主战场不再是世界 500 强，而是小企业。

#Anthropic#Product update

精选理由

H 给分是因为 Anthropic 这次瞄准小企业主，不是常规模型发布，角度有点新；K 靠的是 3600 万家这个数字，但正文没披露功能、定价和上线时间，信息缺口太大，只能放 all。

一句话点评

Anthropic 盯上美国 3600 万家小企业，推新产品。但正文没披露功能、定价、上线时间，信息缺口很大。方向对：AI 平台战从大企业下沉到小生意，但这点先别太激动，等产品细节出来再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

15:54

31d ago

r/LocalLLaMA· rssEN15:54 · 05·13

Sipeed K3 RISC-V 开发板跑 30B 模型，60 TOPS 算力但实测细节全缺

Sipeed 的 K3 RISC-V 单板计算机号称能跑 30B 参数的大模型，INT4 下算力 60 TOPS，还支持 BF16/FP16。60 TOPS 在边缘设备里算不错，但正文只贴了个外部链接，没披露跑了哪个模型、用了什么推理框架、具体怎么配置的。所以这个 30B 到底能跑到多少 token/秒、内存够不够、实际能不能用，全都不清楚。想尝鲜的可...

#Inference-opt#Sipeed#Product update

精选理由

标题说 Sipeed K3 RISC-V 开发板能跑 30B 参数大模型，INT4 算力 60 TOPS，支持 BF16/FP16/INT4，硬件指标挺唬人。但正文只有外链，没披露实测吞吐、内存配置或复现条件——这点先别太激动。对关注本地推理和硬件控制的从业者来说，RISC-V 跑 30B 是个信号，但信息缺口太大，只能算小硬件更新，不值得高优先级。

一句话点评

Sipeed 的 K3 RISC-V 单板计算机号称 INT4 下 60 TOPS，能跑 30B 参数模型。60 TOPS 在边缘设备里算不错，但正文只贴了个外部链接，没披露跑了哪个模型、用了什么推理框架、具体配置。所以 30B 到底能跑到多少 token/秒、内存够不够、实际能不能用，全都不清楚。想尝鲜的可以先观望，等有人跑出 benchmark 再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:38

31d ago

FEATUREDAI HOT 精选· aihot-apiZH15:38 · 05·13

开源 psql_bm25s：让 PostgreSQL 做 BM25 检索，比 pg_search 快 23 倍

团队把 psql_bm25s 开源了，它是一个 PostgreSQL 原生访问方法，直接在数据库里跑精确的 BM25 检索。在标准基准测试上，它比 pg_search 快大约 23 倍。这个速度提升意味着，在多智能体系统里，检索不再拖后腿，也不用额外烧钱，智能体查数据能快很多。正文没披露具体测试用的数据集、硬件配置和查询类型，所以这个 23 倍先打个折看。

#Agent#RAG#PostgreSQL#psql_bm25s

精选理由

我会先打个折：这是单方开源发布，没有独立复现和线上生产环境的约束说明，所以别急着当最终结论。但“23 倍”这个数字确实抓人，它说明用原生访问方法在 Postgres 里跑 BM25 可以省掉不少外部依赖和延迟，对把 Postgres 既当主库又当检索库的团队是个省钱省运维的信号。正文没披露并发写入下的性能退化、索引构建耗时和资源占用，这点先别太激动。

一句话点评

PostgreSQL 里跑 BM25 检索比 pg_search 快 23 倍，但正文没给测试用的数据集、硬件和查询类型，这个数字先打个折看。

锐评

团队开源了一个叫 psql_bm25s 的 PostgreSQL 原生访问方法，直接在数据库里做精确 BM25 检索，不用把数据搬出去再算。他们声称在标准基准上比 pg_search 快大约 23 倍，这对多智能体系统里频繁查资料库的场景确实有用——检索不卡，智能体干活就快，也不用额外搭一套检索服务烧钱。但正文没披露具体测了什么数据集、跑在什么硬件上、查询类型是短词还是长句，这些都会影响 23 倍这个数字的含金量。另外也没提索引构建时间、内存占用和并发下的表现，这些是生产环境真正关心的。如果后续能补上这些信息，判断会更踏实。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:30

31d ago

The Verge · AI· rssEN15:30 · 05·13

微软在马斯克诉奥特曼案中只想撇清关系

The Verge记者旁听马斯克诉奥特曼案第三周，觉得微软比他还想离开法庭。微软的开场陈述几乎就是自家产品广告，连Xbox都列进去了，潜台词是：这案子很荒谬，我们不该被扯进来，但陪审团各位不妨玩个游戏。正文没披露具体争议点、关键证词或判决时间表。

#Microsoft#Elon Musk#Sam Altman#Incident

精选理由

HKR-H和HKR-R通过：OpenAI法庭戏码加微软的尴尬角色有讨论价值。HKR-K不通过，因为正文没披露具体诉求、证词和裁决时间，信息缺口大，兴趣度偏低。

一句话点评

微软在马斯克诉奥特曼案第三周的开场陈述，几乎把自己产品列了个遍，连Xbox都搬出来了。潜台词很直白：这案子很荒谬，我们不该被扯进来，但陪审团各位不妨玩个游戏。The Verge记者旁听后的感受是，微软比他还想离开法庭。正文没披露具体争议点、关键证词或判决时间表，信息缺口明显。短评：微软用产品广告当法庭陈述，潜台词是“这案子跟我无关，但你们玩个游戏吧”。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:18

31d ago

Hacker News 首页· rssEN15:18 · 05·13

太浩湖5万居民等通电，电力公司却想把线路优先给数据中心

Fortune报道，加州太浩湖地区约5万居民面临供电不足，而当地电力公司正考虑将现有输电线路改道优先供给新建数据中心。正文没披露是哪家电力公司、数据中心容量多大、项目何时开工，也没说当地缺电缺口具体是多少。简单说就是：一边是居民等电用，一边是数据中心要抢电，电网容量不够，只能二选一。

#Incident

精选理由

HKR三项都达标，但正文只给了5万居民和改线机制这两个事实；公司名称、数据中心规模、改线时间表、供电缺口都没披露。这是一个AI基础设施的社会成本信号，还没到头条级别。

一句话点评

太浩湖5万居民可能没电用，因为电力公司想把线路优先给数据中心。正文没说是哪家电力公司、数据中心多大、何时开工，也没说缺口具体数字。这事提醒我们：AI基建的能源争夺已经从“抢电”升级到“抢路权”，但报道信息不全，先别急着下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:47

31d ago

AI HOT 精选· aihot-apiZH14:47 · 05·13

Suno 上车了：Apple CarPlay 和 Android Auto 都能用

Suno 正式登陆 Apple CarPlay 和 Android Auto，车主可以在车里直接播放自己用 Suno 生成的歌曲。官方只贴了一个通勤歌单链接，没提支持哪些车型、哪些地区、要不要额外付费。

#Suno#Apple#Android#Product update

精选理由

HKR 的 H 和 K 靠车载平台这个新场景和两个集成名字通过。重要性卡在 63 的小产品更新区间，因为正文没给使用量、技术细节或竞争压力，信息缺口明显。

一句话点评

Suno 正式上车，Apple CarPlay 和 Android Auto 都能用，开车时直接播自己用 Suno 生成的歌。官方只贴了一个通勤歌单链接，没提支持哪些车型、哪些地区、要不要额外付费。目前更像一个尝鲜入口，离“车载流媒体新体验”还差不少细节。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:30

31d ago

r/LocalLLaMA· rssEN14:30 · 05·13

花五六万配一台5090跑本地大模型，值不值？

Reddit 用户想配一台 RTX 5090 整机（约 5500-6000 美元，合人民币 4-4.3 万），主要跑 Qwen3.6-27B 和 Gemma4-31B 这类稠密模型，不玩游戏。他纠结是买这台机器，还是按需租云 GPU（比如 vast.ai 或谷歌云）。自己算了一笔账：租云虽然单次便宜，但用多了也贵，而且每次都要配置环境，麻烦。正文没披露...

#Inference-opt#Reddit#Qwen#Google Cloud

精选理由

这是一条个人硬件咨询帖，有预算和模型目标，但没有实测数据或可复现的发现。HKR 只靠价格共鸣拿到 R，所以归入低价值讨论区。

一句话点评

RTX 5090 整机 5500-6000 美元（约 4-4.3 万人民币），跑 Qwen3.6-27B 和 Gemma4-31B 这类稠密模型。用户自己算过账：租云 GPU 单次便宜，但用多了也贵，而且每次要配置环境，麻烦。正文没披露他实际使用频率和月预算，所以没法判断买断还是租赁更划算。如果只是周末玩玩，租云更灵活；如果天天跑实验，买断长期看可能省钱。但 32GB 内存跑 31B 模型有...

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

14:20

31d ago

r/LocalLLaMA· rssEN14:20 · 05·13

llama.cpp 出 Docker 镜像跑 MTP 模型了，Unsloth 的量化版省一半显存

用户 havenoammo 发了五份 llama.cpp Docker 镜像，支持 CUDA 12/13、Vulkan、Intel 和 ROCm，专门跑 MTP（多 token 预测）模型。目前他只测了 cuda13 版，其他没验证。跑 MTP 的关键参数是 --spec-type mtp 和 --spec-draft-n-max 3。同时 Unslo...

#Inference-opt#Tools#llama.cpp#Unsloth

精选理由

一个实用的 LocalLLaMA 工具更新：HKR-K 有具体参数和量化大小对比，HKR-R 触及本地推理成本，但影响面窄，所以分数留在 60-71 区间。

一句话点评

社区用户 havenoammo 打包了五份 llama.cpp Docker 镜像，专跑 MTP（多 token 预测）模型，目前只测了 CUDA 13 版，其他没验证。Unsloth 的 Qwen3.6 MTP GGUF 把部分 MTP 层量化到 Q3_K/Q4_K/Q5_K，MTP 层体积从 430 MB 降到 222 MB，省了近一半显存。但量化会不会影响预测精度和加速效果，作者自己也...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

14:01

31d ago

r/LocalLLaMA· rssEN14:01 · 05·13

有人把 Hugging Face 的 ML 实习项目做成了 Claude 技能，还训了个 1 亿参数小模型

Reddit 用户把 Hugging Face 的 ml-intern 项目改写成 Claude 技能，用订阅制代替按 token 付费，省了推理成本。同时分享了一个用 GPT-2 tokenizer 训练的 100M TinyStories 模型——参数只有 1 亿，适合资源有限时跑故事生成。正文没披露技能的具体效果或模型评测，所以这点先别太激动。

#Agent#Code#Fine-tuning#Hugging Face

精选理由

一个 Reddit 用户的临时方案，没有跑分、安装细节或任务验证，属于低价值的实用分享。

一句话点评

Reddit 用户把 Hugging Face 的 ml-intern 项目改成了 Claude 技能，用订阅制代替按 token 付费，省推理成本。还分享了一个 100M 参数的 TinyStories 模型，用 GPT-2 tokenizer 训练，适合资源有限时跑故事生成。正文没披露技能效果或模型评测，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

13:59

31d ago

AI HOT 精选· aihot-apiZH13:59 · 05·13

全球首个全AI运营的电台开播，五个AI主播24小时聊AI动态

一个叫“AI Radio”的在线电台在X上线，主播、编辑、选曲全是AI，没有真人。五个AI主播各有性格和记忆，能实时播报几分钟前的AI新闻，每半小时做一次综述，还追踪融资、分析GitHub工具趋势、总结社区讨论。它们不是念稿，而是会主动发现矛盾、形成论点、互相辩论。背景音乐也是AI选的，不吵。适合当背景音听行业动态。不过正文没披露用了什么模型、成本多高...

#Agent#Memory#Tools#X

精选理由

HKR三项都过，但证据只有一条X帖子，没披露技术栈、听众规模或运营成本，更像一个有意思的产品demo，不是当天必须写的新闻。

一句话点评

全球首个全AI电台上线，五个AI主播24小时播报AI新闻，还能辩论、选曲。关键信息缺失：没披露用了什么模型、成本多高、延迟如何。适合当背景音，但别当权威信源。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:44

31d ago

FEATUREDHacker News 首页· rssEN13:44 · 05·13

Rotunda：一个专为 AI 智能体设计的浏览器，能模拟人类打字节奏

Pierce 发布了 Rotunda，一个基于 Firefox 150 的浏览器，专门给 Claude、Codex 这类 AI 智能体用。它最大的不同是能模拟人类的鼠标移动和键盘输入节奏——作者用自己一周的操作数据训练了一个 RNN 模型来生成这些时序，让智能体操作网页时看起来更像真人。控制方式有两种：命令行或者 Playwright API，方便接入...

#Agent#Tools#Rotunda#Firefox

精选理由

Rotunda 把 Firefox 150 改成了给 Claude、Codex 这类工具用的浏览器，核心卖点是拿 RNN 模拟人类敲键盘、动鼠标的时序，让网站不容易识别出是机器在操作。接入方式走 CLI 或 Playwright API，对已经在用 Playwright 的人上手成本低。不过目前只是一个 Show HN 的开源仓库，正文没披露实际跑在哪些业务里、也没给延迟或成功率数据，所以效果到底怎么样还得看后续验证。

一句话点评

一个用自己一周操作数据训练出的浏览器，让 AI 操作网页时鼠标键盘的节奏更像真人，但正文没披露反爬测试结果。

锐评

Rotunda 的思路很直接：现在很多网站会通过鼠标移动轨迹、按键间隔来识别是不是机器人在操作，所以作者干脆给 AI 智能体套了一层“人皮”。他用自己一周的浏览数据训练了一个 RNN 模型，专门生成模拟真人的操作时序，再塞进一个定制的 Firefox 150 浏览器里。对开发者来说，这相当于把 Playwright 或命令行接口包了一层拟人化的外设驱动，接入 Claude、Codex 这类智能体时不用自己写反反爬逻辑。但这里有个关键信息缺口：正文完全没提这套模拟在真实反爬系统前的通过率。一周的个人数据量很小，训练出的时序模式可能只像作者自己，换个网站的风控模型未必买账。另外，基于 Firefox 150 意味着维护成本不低，Firefox 版本迭代快，作者后续能不能跟上也是个问题。整体看，这是个解决具体痛点的工具型项目，想法实用，但“拟人化操作到底能绕过多少检测”这个核心指标没给，建议先别把它当万能钥匙，自己拿目标网站测一下再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:34

31d ago

Hacker News 首页· rssEN13:34 · 05·13

开发者抱怨AI在“让脑子变笨”

404 Media 采访了多位签了保密协议或怕被报复的开发者，他们普遍反映被公司强制用AI写代码，但实际体验是：AI生成的代码质量差，自己还得花更多时间检查和修bug，反而更累。更严重的是，有人觉得长期依赖AI后，自己独立写代码的能力在退化，原文引述一位开发者的话说“它肯定让我变笨了”。文章还提到，尽管Google、微软、Meta的高管都在吹AI写了多...

#Code#404 Media#Hacker News#Commentary

精选理由

HKR-H 和 HKR-R 通过：标题是尖锐的开发者焦虑钩子。HKR-K 不通过：RSS 正文没有披露采访人数、案例或证据，只有 HN 元数据，够不上精选。

一句话点评

短评：开发者吐槽被强制用AI写代码，结果更累还变笨。点评：404 Media这篇报道采访了多位匿名开发者（签了NDA或怕被报复），核心控诉两点：一是AI生成代码质量差，检查修bug比手写更耗时；二是长期依赖后独立编码能力退化，有人直言“它肯定让我变笨了”。文章引用了Reddit、Hacker News上的讨论，但没披露具体采访人数或量化数据（比如效率下降多少、bug率多高）。高管们（Go...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:30

31d ago

r/LocalLLaMA· rssEN13:30 · 05·13

Qwen3.6 跑着跑着就停了

Reddit 用户反馈，用 vLLM 在 Docker 里跑 Qwen3.6（27B int4 量化版，张量并行度 2，最大模型长度 185000，最大批处理 token 8192），配合 dflash 投机解码（5 个投机 token），在 qwen-code CLI 和 opencode 下都会中途停止。正文被 Reddit 屏蔽了，没披露具体报错...

#Code#Inference-opt#Tools#Qwen

精选理由

单个Reddit帖子，没有官方确认，也没有说明是普遍问题还是个别配置冲突，影响范围和根因都不清楚，所以只适合全量推送，不做紧急处理。

一句话点评

短评：跑一半就停，可能是量化或投机解码的坑，但正文被屏蔽了，缺关键报错信息。 Reddit 用户反映，用 vLLM 在 Docker 里跑 Qwen3.6（27B int4 量化版，张量并行度 2，最大长度 185k），配合 dflash 投机解码（5 个 token），在 qwen-code CLI 和 opencode 下都会中途停止。正文被 Reddit 屏蔽，没披露具体报错。27B...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:27

31d ago

TechCrunch AI· rssEN13:27 · 05·13

Poppy 上线主动式 AI 助手：连上日历、邮件、短信，自动提醒你该干嘛

Poppy 发布了一款 AI 应用，能接入你的日历、邮件、短信和其他服务，根据你生活中的动态主动弹出提醒、建议和待办事项。说白了就是不用你手动查，它自己判断什么时候该提醒你什么事。不过正文没披露具体定价、上线范围，也没说用了什么模型架构，所以实际体验和成本还不好判断。

#Agent#Tools#Poppy#Product update

精选理由

HKR-K/R通过：跨应用个人助手机制具体，涉及Agent和数据访问，对从业者有参考价值。HKR-H弱，标题偏营销且正文没披露价格、上线范围、模型机制，信息缺口明显，所以落在60-71产品更新区间。

一句话点评

Poppy 是个主动型 AI 助手，能连你的日历、邮件、短信，自己判断什么时候该提醒你什么事，不用你手动查。但正文没披露定价、上线范围，也没说用了什么模型，实际体验和成本还不好判断。短评：主动提醒是亮点，但没定价没模型，先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

13:02

31d ago

Product Hunt · AI· rssEN13:02 · 05·13

Vivago Video Agent：号称对标 Sora 的视频生成工具，主打“跳过提示词”

Vivago 在 Product Hunt 上发布了第二版产品，叫 Video Agent。核心卖点是“不用写提示词”，你只要给素材、讲个故事，它就能自动生成一段叙事视频。官方说一段 1 分钟 1080P 的视频大约 40 分钟渲染完，这个速度不算快，但如果你想要的是“有剧情、角色一致”的视频，而不是随机抽卡式的片段，这个流程可能更可控。它还会先生成关...

#Agent#Multimodal#Vivago#Product update

精选理由

就是个普通的 Product Hunt 新品发布，只有 H 钩子。正文没披露模型、定价、画质指标或可复现条件，所以没触发硬排除，但也只能归到低价值的产品更新档位。

一句话点评

Vivago 第二版主打“不用写提示词”，给素材和故事梗概，AI 自动生成有剧情、角色一致的叙事视频。1 分钟 1080P 视频约 40 分钟渲染完，速度不算快，但比随机抽帧可控。短评：叙事视频可控性提升，但渲染慢、定价和模型细节未披露，别急着对标 Sora。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

13:00

31d ago

r/LocalLLaMA· rssEN13:00 · 05·13

TextGen 从网页版变成了桌面应用，不用装环境直接跑

TextGen（原 text-generation-webui）花两个月从网页 UI 改成了免安装的桌面应用，支持 Windows、Linux、macOS，后端覆盖 CUDA、Vulkan、纯 CPU、Apple Silicon、Intel 和 ROCm。相当于 LM Studio 的开源平替，但正文没披露安装包大小、首次启动速度、模型加载方式这些细节...

#Tools#Agent#Code#TextGen

精选理由

这是一个面向本地推理用户的社区工具更新，不是模型或平台级发布。文章只列出了构建选项，没有给出用户采用数据、性能对比或关键机制说明，信息密度偏低。

一句话点评

TextGen 从网页版改成了桌面应用，两个月搞定，支持 CUDA、Vulkan、Apple Silicon 等后端，相当于 LM Studio 的开源平替。但正文被屏蔽，没披露安装包大小、首次启动速度、模型加载方式这些细节，所以实际体验要打折。短评：开源平替来了，但细节欠奉，先观望。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:00

31d ago

NVIDIA 博客· rssEN13:00 · 05·13

Hermes 智能体学会自我进化，英伟达 RTX 电脑和 DGX Spark 就能跑

Nous Research 的 Hermes Agent 开源不到三个月就在 GitHub 上拿到 14 万星。核心卖点是它能自己进化技能：遇到不会的任务，会自己写新工具、自己测试、自己记住，下次再用。架构上用了隔离的子智能体（sub-agents），每个干自己的活，互不干扰，适合本地一直跑。英伟达把它放进 RTX AI Garage 项目，意味着 R...

#Agent#Tools#Inference-opt#NVIDIA

精选理由

HKR 靠 hook、事实和本地 agent 共鸣点全过，但来源是 NVIDIA 硬件推广文，框架明显在推 RTX/DGX Spark。当生态更新看有用，不值得当头条。

一句话点评

Hermes Agent 开源不到三个月 GitHub 14 万星，核心卖点是能自己写工具、测试、记住，下次直接用。架构用隔离子智能体，适合本地一直跑。英伟达把它放进 RTX AI Garage，等于给 RTX PC 和 DGX Spark 用户发了个能自我进化的 AI 助手。但正文没披露具体 benchmark 或成本对比，14 万星更多是社区热度，实际效果要打折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:00

31d ago

FEATURED彭博科技· rssEN13:00 · 05·13

Amazon 将 Alexa 集成至购物搜索栏

亚马逊正在把 Alexa 整合到 Amazon.com 的购物搜索栏里，让用户可以直接用自然语言搜商品。正文没披露上线范围、排序机制、转化率、定价影响或具体时间表，只确认 AI 算法要进入这个最值钱的零售入口之一。

#Agent#Tools#Amazon#Alexa

精选理由

这是亚马逊一个常规的产品入口更新：HKR-H 过关，但 HKR-K 缺机制或数据，HKR-R 偏弱，所以落在较低的小更新区间。

一句话点评

亚马逊把 Alexa 塞进了购物搜索栏，以后在搜索框里就能直接问“露营要带什么”并得到推荐。但正文没披露具体上线范围和实际效果数据，这点先别太激动。

锐评

亚马逊把 Alexa+ 直接嵌入了购物 App 的搜索栏，用户不用跳转就能用自然语言问“适合小户型的扫地机器人”这类问题，AI 会直接给推荐和对比。这相当于把导购助手放到了离下单最近的地方，路径比单独打开一个聊天界面短得多。目前已知的信息来自 TechCrunch 的报道，Bloomberg 那边因为反爬机制没拿到正文。TechCrunch 提到这个功能由升级版 Alexa+ 驱动，但没给出具体的延迟数据、用户测试结果，也没说推荐逻辑是偏向自家商品还是真的比价。还缺几个关键信息：一是这个功能是全员推送还是灰度测试；二是购物场景下的回答准确率有多高，会不会把用户带沟里；三是广告和自然推荐的比例怎么控制。如果这些不公开，就很难判断它是真省时间的工具，还是又一个流量变现入口。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

13:00

31d ago

The Verge · AI· rssEN13:00 · 05·13

亚马逊把 Alexa 塞进购物搜索，Rufus 下岗了

亚马逊今天把 Alexa Plus 驱动的购物助手直接嵌进 Amazon.com 和 App 的搜索框，取代了之前的 Rufus。搜“厕纸”还是老样子出列表，但问“男士护肤流程”或“上次买 AA 电池是什么时候”就会触发 Alexa 回答。说白了就是把聊天助手当购物导购用，入口更显眼。正文没披露具体延迟或准确率，但至少不用再单独点进 Rufus 了。

#Agent#Tools#Amazon#Alexa

精选理由

H/K/R 三项都过，但正文只给了替换动作和几个查询例子，没有披露模型细节、效果指标或上线范围。属于中等体量的购物助手更新，所以落在 60–71 区间。

一句话点评

亚马逊把 Alexa Plus 购物助手直接塞进 Amazon.com 搜索框，取代 Rufus。搜“厕纸”照旧出列表，但问“男士护肤流程”或“上次买 AA 电池是什么时候”会触发 Alexa 回答。入口更显眼，不用再单独点 Rufus。正文没披露延迟或准确率，但至少省了一步操作。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:00

31d ago

AI HOT 精选· aihot-apiZH13:00 · 05·13

Cloudflare 把无头浏览器服务搬到了自家容器上，并发上限翻到 4 倍

Cloudflare 把 Browser Run（在云端跑无头浏览器，用来做网页测试、AI agent 抓网页、截图等）从原来和浏览器隔离服务共享的底层，迁移到了自家 Containers 平台。改动后，通过 Workers 绑定每分钟能启动 60 个浏览器实例，同时运行最多 120 个，是之前的 4 倍；Quick Action 响应时间降了 50%...

#Agent#Tools#Cloudflare#Browser Run

精选理由

这是一次 Cloudflare 内部的基础设施迁移，正文只说了“更快更强”，但没给任何可验证的性能数字，和 AI 工具链的关联也很弱。按规则，这类云厂商宣传稿直接排除，不给分发。

一句话点评

Cloudflare 把 Browser Run（云端无头浏览器，用于 AI agent 抓网页、截图等）迁移到自家 Containers 平台。每分钟能启动 60 个浏览器实例，同时最多跑 120 个，是之前的 4 倍；Quick Action 响应时间降了 50%。对做网页测试或 AI 抓取的人来说，并发上限和速度都明显提升。但正文没披露具体延迟数字和价格变化，迁移后成本是否上涨还不清楚。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

12:29

31d ago

FEATUREDr/LocalLLaMA· rssEN12:29 · 05·13

阿里达摩院放出 Ovis2.6-80B-A3B：总参数 800 亿，推理时只激活约 30 亿的多模态 MoE 模型

Ovis2.6 把语言模型底座换成了混合专家架构，总参数量堆到 800 亿，但推理时只叫醒大概 30 亿个参数，跑起来比较省算力。上下文窗口拉到 64K token，能处理的图片分辨率最高到 2880×2880，适合啃长文档、高信息密度的图表和扫描件。这次加了一个“边想边看图”的能力，推理过程中模型可以主动裁剪、旋转图片区域，在思维链里反复检查视觉细节...

#Multimodal#Vision#Reasoning#AIDC-AI

精选理由

我会先打个折：正文没给任何跑分、授权条款和实测结果，所以别急着下结论。亮点是 80B 总参数里只激活约 3B，推理成本可能压得很低，同时支持 64K 上下文和 2880×2880 大图输入，适合拿来做文档理解、高分辨率视觉问答这类吃上下文和细节的任务。MoE 结构意味着你可以用消费级硬件试试，但实际吞吐和显存占用还得自己测。这点先别太激动，等补上基准测试和开源协议再说。

一句话点评

Ovis2.6 把模型底座换成了混合专家架构，800 亿总参数但推理只叫醒 30 亿，跑起来省算力；还加了“边想边看图”的能力，能在推理时主动裁剪、旋转图片区域反复检查。

锐评

这条更新最实在的点是成本控制：800 亿总参数，推理时只激活约 30 亿，意味着用一张消费级显卡大概就能跑起来，对本地部署很友好。64K token 上下文和 2880×2880 的图片分辨率，主要利好啃长文档、高密度图表和扫描件这类任务。新加的“边想边看图”挺有意思，模型在思维链里可以主动裁剪、旋转图片区域再检查，相当于把视觉从被动输入变成了主动认知工具，对复杂图表问答可能有明显提升。不过正文没给出任何具体评测分数，也没提在哪些基准上测过、跟谁比、赢了输了。OCR 和文档理解说“进一步强化”，但强化了多少、样本怎么选的，一概没写。这点先别太激动，等看到跑分和实测案例再判断。另外，模型是开源了，但没提用了什么数据训练、有没有许可证限制，想商用的人得自己去翻 Hugging Face 页面确认。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:11

31d ago

TechCrunch AI· rssEN12:11 · 05·13

Adaption 推出 AutoScientist：让模型自己训练自己，不用人动手微调

Adaption 发布了一个叫 AutoScientist 的工具，核心思路是把传统微调流程自动化——模型自己就能完成特定能力的适配，不需要人工一步步调参。听起来像“模型自己教自己”，但正文没披露用了什么训练数据、成本多少、跑过哪些基准测试，也没说什么时候能用。所以先别太激动，方向有意思，但验证信息基本为零。

#Fine-tuning#Agent#Adaption#Product update

精选理由

HKR-H和HKR-R通过：自动化微调对从业者确实有吸引力。HKR-K不通过：数据、成本、基准、发布时间全缺，只能归到小产品更新档位。

一句话点评

短评：模型自己调自己，方向有意思，但正文没披露训练数据、成本、跑过哪些基准，也没说什么时候能用。先别太激动。点评：Adaption 的 AutoScientist 想做的事很直接：把传统微调流程自动化，让模型自己完成特定能力适配，不用人一步步调参。听起来像“模型自己教自己”，省人工。但正文没披露用了什么训练数据、成本多少、跑过哪些基准测试，也没说什么时候能用。所以这点先别太激动——方向有...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

12:00

31d ago

FEATUREDAI HOT 精选· aihot-apiZH12:00 · 05·13

Cursor 给云端 AI 编程助手配上了开发环境，支持多仓库和 Dockerfile 配置

Cursor 发布了一套给云端 agent 用的开发环境工具。现在一个环境里能挂多个代码仓库，让 agent 跨仓库改代码、跑测试。环境配置改用 Dockerfile 来管，支持构建密钥，缓存命中时构建速度能快 70%。不想手写 Dockerfile 的话，Cursor 可以自动检查你的仓库并生成一份可编辑的配置，这个功能还在内测。环境还加了版本历史、...

#Agent#Code#Tools#Cursor

精选理由

Cursor 给智能体配了个云端开发环境，不是简单加个按钮，而是把多仓库、Dockerfile、审计日志和环境权限都塞进去了。缓存命中后构建能快 70%，这个数字挺实在，说明他们不是只做了个壳。我会先打个折：正文没提安全隔离做到什么程度，也没说缓存命中率在真实项目里能到多少，所以别急着当万能方案。但整体看，它解决的是让模型进业务流程干活时环境乱、权限杂、构建慢这几个真问题，对从业者来说值得关注。

一句话点评

Cursor 给云端 agent 配了多仓库环境和 Dockerfile 配置，缓存命中时构建快 70%，但自动生成配置还在内测。

锐评

Cursor 这次更新解决了一个实际问题：让云端 agent 不再困在单个代码仓库里干活。现在一个环境能挂多个仓库，agent 可以跨仓库改代码、跑测试，这对用微服务、代码散落在多个库的团队比较有用。Amplitude 的工程经理说他们已经在 Slack 里用 Cursor Automations 处理问题，agent 能自己判断涉及哪些仓库并提 PR。环境配置改用 Dockerfile 来管，支持构建密钥，这样能安全访问私有包仓库。官方说缓存命中时构建速度能快 70%，这个数字是在缓存命中的前提下，实际收益要看你的项目结构和改动频率。不想手写 Dockerfile 的话，Cursor 可以自动检查仓库生成配置，但这个功能还在内测，稳定性未知。正文没披露多仓库环境下的资源开销和计费方式，也没说 agent 跨仓库操作时的权限边界怎么控制。环境治理和安全控制的部分只提了审计日志和网络、密钥管控，具体能细到什么粒度没说清楚。这些信息缺口让“完全掌控”这个说法需要打个折。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

11:46

31d ago

r/LocalLLaMA· rssEN11:46 · 05·13

别掉进追大模型、追硬件的坑，先把手头的反馈回路做快

Reddit 用户 iEslam 发帖劝大家别总想着换更大上下文或升级显卡。他实际跑的例子是：Qwen3.6-35B-A3B-UD-Q3_K_XL 这个量化小模型，在 RTX 3060 12GB 上就能塞进 64k 上下文，用来做交易策略的迭代——用实盘或回测的反馈来改进。核心观点是：提升反馈速度比堆参数更管用。正文没披露具体策略收益或延迟数据，但思路...

#Inference-opt#Memory#iEslam#Qwen

精选理由

这是一条 Reddit 用户的个人经验帖，主张别追更大上下文，先改进反馈闭环。亮点是 RTX 3060 12GB 跑 64k 上下文做交易策略迭代，配置具体，对本地部署用户有参考价值。但正文没披露任何交易回测结果或收益数据，证据链弱，属于单点轶事。分数卡在 60–71 区间合理：有信号，但别太激动。

一句话点评

Reddit 用户 iEslam 用 Qwen3.6-35B-A3B-UD 量化版，在 RTX 3060 12GB 上塞进 64k 上下文做交易策略迭代，核心观点是提升反馈速度比堆参数更管用。思路对，但正文没披露具体策略收益或延迟数据，验证弱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:00

32d ago

FT · 科技· rssEN11:00 · 05·13

OpenAI 非营利梦碎：FT 长文复盘马斯克与奥特曼的法律战

FT 这篇付费文章的核心论点是 OpenAI 的非营利模式已经崩塌，并把这件事直接挂到了马斯克和奥特曼的法律纠纷上。正文被 paywall 挡住，所以具体指控、时间线、治理细节和财务条款都没披露。如果你关心 OpenAI 从非营利转向 capped-profit 的完整故事，这篇可能是 FT 的深度梳理，但信息缺口很大，目前只能看到标题和摘要给出的判断。

#OpenAI#Elon Musk#Sam Altman#Policy

精选理由

HKR-H 和 HKR-R 成立，因为 FT 标题确实抛出了一个有冲突感的治理话题。HKR-K 不成立：正文没有给出任何新主张、日期或治理机制，所以分数卡在 60-71 区间。

一句话点评

FT说OpenAI的非营利梦已死，直接挂钩马斯克和奥特曼的官司。但全文被paywall挡住，具体指控、时间线、治理细节都没披露。标题判断很猛，但信息缺口太大，目前只能当观点看，别当事实用。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

11:00

32d ago

● P1OpenAI 博客· rssEN11:00 · 05·13

OpenAI为Windows上的Codex构建安全有效沙箱

Codex 是 OpenAI 的编程助手，能在开发者电脑上直接跑命令。Windows 版之前没有沙箱，用户要么得每条命令都点同意，要么就得开“完全访问”把安全交给运气。OpenAI 工程师 David Wiesen 写了篇文章讲他们怎么从零给 Windows 造沙箱。他们先看了 Windows 自带的几个方案：AppContainer 管得太死，编程助...

#Agent#Code#Safety#OpenAI

精选理由

OpenAI 给 Windows 版 Codex 搭了个安全沙箱，主要管两件事：文件访问和网络连接。我会先打个折——正文没披露沙箱的技术方案，比如是容器还是虚拟化、权限粒度到哪一层，所以没法判断它到底有多硬。但这条消息对做 coding agent 的人很实际，因为文件系统和网络就是最容易出事的两个面。

一句话点评

OpenAI 自己动手给 Windows 版 Codex 做了个沙箱，因为微软现成的方案要么太死板，要么会改乱你电脑的文件权限，没法直接用。

锐评

OpenAI 发了一篇工程博客，讲他们怎么给 Windows 上的编程助手 Codex 搭安全沙箱。核心问题是：Codex 需要在开发者真实的电脑环境里跑命令，但又要限制它不乱写文件、不乱联网。macOS 和 Linux 有现成的隔离工具，Windows 没有。他们评估了三种微软方案：AppContainer 太死，只适合权限固定的应用，扛不住 Codex 这种随时要调各种开发工具的灵活 workflow；Windows Sandbox 是个临时虚拟机，隔离强但没法直接操作用户本地的代码仓库，而且家庭版 Windows 根本用不了；强制完整性控制（MIC）看起来优雅，但会把用户整个工作目录标记成“低信任区”，等于给整台电脑开了个后门，风险太大。最后他们自己从零开发，第一版原型叫“非提权沙箱”，目标是不弹管理员权限窗口就能把隔离做起来。文章只披露了设计思路和踩坑过程，没给性能损耗、兼容性测试数据，也没说这个沙箱现在是不是已经全量推给 Windows 用户了。对用 Windows 做开发的 AI 从业者来说，这篇值得看的是他们对 Windows 安全机制的实战评估，但别指望看到可以直接抄的代码或架构细节。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:40

32d ago

FEATUREDAI HOT 精选· aihot-apiZH10:40 · 05·13

百度上线妙答应用与企业版，称应用自身 90% 代码由妙答自己生成

百度发布了妙答应用和妙答企业版，把编程助手开放给更多开发者和公司。官方说妙答应用里 90% 的代码是妙答自己写的，这个数字说明代码生成能力已经能撑起一个完整产品的大部分开发量。截至目前，妙答生成的应用累计服务超过 1000 万用户，应用总价值标称 50 亿元人民币。不过正文没披露这 50 亿是怎么算出来的，也没给出企业版的具体定价或与现有竞品的对比，这...

#Code#Agent#Baidu#Miaoda

精选理由

我会先打个折：90% 自生成代码这个数，正文没披露是怎么统计的，是行数占比还是模块占比，也没说剩下 10% 是人写的还是用别的工具生成的。1000 万用户和 50 亿总价值同样缺口径说明，是累计还是年化、是 GMV 还是合同额都不清楚。但即便有这些信息缺口，一个代码工具敢说自己大部分代码是自产的，本身就是一个很强的信号，比单纯宣布“上线了”要有意思得多。对做 AI coding 和 agent 的团队来说，这个案例可以直接拿来当参考，所以值得放进 featured 但分数不往上拉。

一句话点评

百度说妙答应用 90% 代码是自己写的，但没讲这 90% 怎么统计的，也没说剩下 10% 人工改了多少。50 亿总价值先打个折，正文没披露计算口径。

锐评

百度把妙答从编程助手升级成应用和企业版，核心卖点是妙答应用 90% 的代码由妙答自己生成。这个数字如果属实，说明代码生成能力已经能撑起一个完整产品的大部分开发量，对开发者来说意味着写代码的门槛和速度都在变。但正文没披露这 90% 是怎么统计的——是按行数、文件数还是功能模块算的，也没说剩下 10% 的人工代码是不是集中在核心逻辑和安全部分。另外两个数字也需要打折看：累计服务超 1000 万用户，没说是独立用户还是调用次数；应用总价值 50 亿人民币，完全没给计算口径，可能是按客户投入、市场对标或者内部估算，没法验证。企业版定价和与 GitHub Copilot、Cursor 等竞品的对比也没提，想评估性价比还缺关键信息。整体看，百度在推一个“AI 自己写自己”的故事，但缺了统计方法、定价和第三方验证，目前只能当产品更新看，别急着当行业里程碑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:10

32d ago

r/LocalLLaMA· rssEN10:10 · 05·13

llama.cpp 给推理模型加了“继续生成”按钮

llama.cpp 的 PR #22727 在服务端 WebUI 里给推理模型加了一个“继续生成”功能，用户点一下就能让模型接着往下写。正文只说了“现在可以继续了”，没交代这个 PR 有没有被合并、具体怎么实现的，也没说支持哪些推理模型。如果你在跑本地推理模型，这个功能挺实用，但具体能不能用还得看后续合并状态。

#Reasoning#Tools#ggml-org#llama.cpp

精选理由

这是 llama.cpp 开源工具的一个小更新，事实清晰但正文只写了“now you can CONTINUE”，没有披露合并状态、实现机制或支持哪些推理模型。HKR-K 通过；HKR-H 和 HKR-R 不通过，所以留在 all 层。

一句话点评

llama.cpp 给推理模型加了个“继续生成”按钮，点一下就能让模型接着往下写。正文没披露这个 PR 是否已合并、支持哪些模型，也没说实现细节。如果你跑本地推理模型，这个功能挺实用，但具体能不能用还得看后续合并状态。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

10:06

32d ago

FEATURED量子位 · 公众号· rssZH10:06 · 05·13

字节提出 GRN，让生图模型像人一样边画边改，不再死磕扩散和自回归

字节跳动的技术团队搞了个叫 GRN（生成式精炼网络）的新架构，想给视觉生成找第三条路，不跟扩散模型和自回归模型硬卷。它的核心思路是让模型先生成一张粗糙的图，再反复精修，就像画师先铺大色块再慢慢抠细节。为了解决反复修图容易把图修糊、错误越攒越多的问题，他们用了三项技术：HBQ（分层二元量化）把图片压成更紧凑的离散编码，减少信息损耗；全局精炼让模型每次修改...

#Multimodal#Vision#Inference-opt#ByteDance

精选理由

字节这篇 GRN 想走扩散和自回归之外的第三条路，核心卖点是让模型像人画画一样边生成边修改。我会先打个折：130M 参数不算大，gFID 从 3.56 涨到 3.79，画质有小幅下降，但推理步数从 50 步压到平均 24 步，省了将近一半，这个取舍在轻量场景里可能划算。技术上有三个动作：HBQ 解决量化带来的画质损失，全局精炼缓解一步步画下去误差越攒越多的问题，复杂度采样让简单区域少画几步、复杂区域多画几步，不再固定步数。正文没披露在更大模型或更高分辨率上的表现，也没给实际推理延迟的毫秒数，所以现在只能说在小模型上验证了思路。对做图像生成落地、想降...

一句话点评

字节搞了个新图像生成架构GRN，让模型像画师一样先画草图再反复精修，推理步数能省一半，但正文没披露大模型上的实际效果。

锐评

字节这个GRN架构想走扩散和自回归之外的第三条路，核心思路不新鲜——先生成粗糙图再反复精修，类似画师的工作流。真正有意思的是他们怎么解决反复修图带来的问题：用HBQ把图片压成更紧凑的离散编码减少信息损耗，全局精炼让模型每次修改都看整张图而不是局部，复杂度自适应采样则让模型自己判断哪些地方需要多修几笔、哪些地方可以少修。在1.3亿参数的小模型上，自适应采样把推理从固定50步压到平均24步，gFID从3.56变到3.79，质量基本没掉。这点先别太激动——模型太小，正文也没说在大规模模型上跑出来的效果，而且微信原文被验证墙挡住了，我只能根据摘要判断。还缺几个关键信息：跟同参数量的扩散模型比到底快多少、省多少算力，以及生成高分辨率图时精修过程会不会崩。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:06

32d ago

FEATURED量子位 · 公众号· rssZH10:06 · 05·13

百度发布秒哒3.0，8岁小孩也能把想法变成手机App

百度在2026 Create大会上推出了秒哒3.0，一个无代码开发平台。这次更新直接支持生成iOS和安卓App，还能打包成安卓安装包、在线热更新。企业版加了三级权限、环境隔离和服务等级协议。现场演示里，一个8岁小学生用语音说了几个想法，平台就自动生成了一个完整应用。不过正文没披露这个演示App的实际复杂度和后续维护成本，也没说生成代码的质量和可维护性怎么样。

#Agent#Code#Tools#Baidu

精选理由

秒哒3.0这次主要把应用生成从网页端扩展到了iOS和Android，还加了安卓打包和热更新，等于让不会写代码的人也能直接出手机应用。企业版给了三级权限和SLA，明显在往团队和公司场景推。我会先打个折：标题里“8岁小学生”的案例正文没给出具体细节，不知道是完整可用应用还是简单页面，这点先别太激动。整体是产品功能更新，不是底层模型换代，但移动端生成和打包能力对低代码赛道有实际推进。

一句话点评

8岁小孩用语音生成App的演示很吸睛，但正文没披露这个App到底能干啥、代码质量如何，先别太激动。

锐评

百度秒哒3.0这次更新，最直观的变化是能直接生成iOS和安卓App，还能打包成安卓安装包、支持在线热更新。企业版加了三级权限、环境隔离和服务等级协议，算是给团队用做了准备。现场让8岁小学生用语音说想法就生成应用，这个演示把“零门槛”的概念拉满了。但我会先打个折。正文完全没提这个演示App的实际复杂度——是只能做几个静态页面，还是真能调用接口、处理数据？也没说生成代码的可维护性，后续如果要改逻辑，是继续用语音还是得找程序员接手。这些信息缺口让“应用门槛打没了”这个说法暂时只能当营销话术看。另外，企业版虽然加了权限和隔离，但没披露定价和实际部署案例。对于想试水的团队，最关心的可能是：用这个平台做出来的App，性能和稳定性跟原生开发差多少？出bug了怎么排查？这些正文都没交代。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:06

32d ago

量子位 · 公众号· rssZH10:06 · 05·13

腾讯元宝能直接读微信聊天记录了

腾讯元宝上线了一个功能：用户在微信里选中聊天记录，转发到“其他应用”，粘贴进元宝，就能让它生成摘要、待办、表格甚至帮你拟回复。操作路径是微信→转发→元宝。正文没披露这个功能是灰度还是全量上线，也没说聊天数据会不会上传到腾讯服务器、用户能不能删除。目前看更像一个快捷粘贴工具，不是自动抓取聊天记录。

#Tools#Tencent#WeChat#Yuanbao

精选理由

HKR三项全过，但披露的事实只是元宝的转发流程和输出类型，全在腾讯生态内。没提用了什么模型、权限怎么申请、安全措施、API变化，所以分数压在60–71区间。

一句话点评

腾讯元宝上线微信聊天记录处理功能：选中对话转发到元宝，就能生成摘要、待办、表格甚至拟回复。操作路径是微信→转发→其他应用→元宝。关键信息：正文没披露是灰度还是全量上线，也没说聊天数据是否上传服务器、用户能否删除。目前看更像一个快捷粘贴工具，不是自动抓取。短评：微信聊天记录喂AI，腾讯官方版。操作路径短，但隐私和上线范围都没说清，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:59

32d ago

r/LocalLLaMA· rssEN09:59 · 05·13

Qwen 3.6 27B 在单张 RTX 5090 上跑通 Codex 工具链

作者用单张 RTX 5090 跑 Qwen 3.6 27B，配合 Codex、tbg(o)llama-swap 和 llama.cpp，成功调用了 apply_patch、shell、web_search、file_search、view_image、request_user_input、update_plan 等工具，以及 agent 工作流（让模型...

#Agent#Code#Tools#Qwen

精选理由

这是一篇 Reddit 级别的搭建报告，不是产品发布。配置很窄（单卡、特定模型、特定桥接），来源权威性一般，所以分数压在 71 不往上调。正文没披露延迟、吞吐量或稳定性数据，这点先别太激动。

一句话点评

单张RTX 5090跑Qwen 3.6 27B，成功调用了shell、web_search等工具和agent工作流。关键限制：正文被Reddit屏蔽，实际效果、延迟、成功率都没披露。如果真能一张卡跑通多工具agent，对本地部署是好事，但这点先别太激动，等实测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:49

32d ago

Product Hunt · AI· rssEN09:49 · 05·13

Forsy：把你的 AI 智能体干活过程录下来卖掉

Forsy 是一个数据交易市场，专门买卖 AI 智能体（agent）的工作流程数据。它支持接入 OpenClaw、Claude、Codex、Hermes 等常见智能体，自动捕获它们执行任务时的完整步骤，然后打包成结构化数据出售。卖点在于这些数据来自真实生产环境，比人工合成的训练数据更贴近实际，适合用来做强化学习（RL）训练下一代智能体。Forsy 声称...

#Agent#Forsy#Product update

精选理由

HKR-R 通过，因为 agent 工作流数据的所有权是敏感话题；HKR-H 和 HKR-K 不通过，因为标题只有名字，正文也缺格式、定价、接入方式和证据。

一句话点评

Forsy 搞了个数据交易市场，让你把 AI 智能体干活时的完整步骤录下来打包卖。卖点是数据来自真实生产环境，比人工合成的更适合做强化学习训练下一代智能体。想法挺有意思，但正文没披露定价、数据格式、买家在哪，也没说怎么保证数据隐私和版权。先打个折，等看到实际成交量和买家反馈再说。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

09:42

32d ago

FEATURED机器之心 · 公众号· rssZH09:42 · 05·13

林俊旸被曝离职创业，新 AI 实验室估值冲到 20 亿美元

The Information 爆料，阿里通义千问前技术负责人林俊旸正在为一家新 AI 实验室融资，目标融几亿美元，投后估值可能到 20 亿美元。目前实验室具体研究方向、团队规模和最终估值都还没公开。

#Agent#Robotics#Multimodal#Lin Junyang

精选理由

这条消息我会先打个折：目前只有 The Information 的融资传闻和估值数字，研究方向、团队构成、产品计划一概没提。亮点是林俊旸本人从阿里出来单干，新 Lab 估值直接喊到 20 亿美元，说明资本还在抢头部 AI 人才。但正文没披露最终估值是否敲定、钱从哪来、做什么方向，这些关键信息都缺着，所以先当一条人才+融资信号看，别太激动。

一句话点评

林俊旸从阿里出来单干，新公司还没产品估值就喊到20亿美元，这个数字先打个折看。

锐评

这条消息目前只有 The Information 一家信源，正文因为微信页面验证问题实际没读到，等于我们只能靠摘要判断。林俊旸是通义千问的技术负责人，出来创业本身不意外，但估值直接挂到20亿美元，而且研究方向、团队规模一概没披露，这就有点虚。融资目标是几亿美元，说明投资人愿意为他的履历买单，但没产品、没方向、没验证的情况下，这个估值更像是对人的押注而不是对事的定价。我会先打个折：等看到具体做什么、团队有谁、钱从哪来，再判断值不值这个价。现在还缺实验室名称、技术路线、是否已注册公司这些基础信息。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:42

32d ago

机器之心 · 公众号· rssZH09:42 · 05·13

快手电商搜索升级OneSearch-V2：推理成本没涨，商品点击率提升近4%

快手在电商搜索场景全量上线了OneSearch-V2，核心卖点是“零成本升级”——推理耗时和服务延迟都没增加，但商品点击率涨了3.98%，买家数和订单数各涨约2%。正文没披露具体用了什么模型或技术方案，只说这是生成式搜索的迭代。对做搜索或电商推荐的人来说，这个“不涨成本提效果”的指标挺实在，但具体怎么做到的得等更多细节。

#Reasoning#Fine-tuning#Alignment#Kuaishou

精选理由

快手全量上线OneSearch-V2，核心卖点是搜索升级不涨成本不增延迟，换来几个点的转化提升。对做搜索或电商推荐的团队来说，这个‘免费午餐’值得看一眼。但正文没披露具体技术改动或消融实验，更像产品公告而非技术论文，所以放在‘有趣’档，不上推荐位。

一句话点评

快手电商搜索OneSearch-V2全量上线，核心卖点是“零成本升级”——推理耗时和服务延迟都没增加，但商品点击率涨了3.98%，买家数和订单数各涨约2%。正文没披露具体用了什么模型或技术方案，只说这是生成式搜索的迭代。对做搜索或电商推荐的人来说，这个“不涨成本提效果”的指标挺实在，但具体怎么做到的得等更多细节。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:18

32d ago

AI HOT 精选· aihot-apiZH09:18 · 05·13

生成生僻事物配图前，先让AI搜图垫底

作者建议用Codex这类模型生成配图前，先让它搜一张真实参考图（比如云南甲马符），再基于这张图生成新图，这样能保证画面准确且高清。正文没披露用了什么模型、分辨率多少，也没给可复现的评测设置，所以效果到底多稳还不清楚。

#Tools#Vision#Codex#GPT

精选理由

正文没披露模型、分辨率或可复现评测，信息量只够当个轻量级技巧分享。HKR-K和HKR-R勉强及格，但HKR-H不成立，所以分数压在低教程/工作流区间。

一句话点评

短评：垫图提准是老办法，但让模型自己搜参考图再画，省了手动找图。点评：作者提了个实用技巧：让Codex这类模型生成配图前，先搜一张真实参考图（比如云南甲马符），再基于这张图生成新图，能保证画面准确且高清。这本质是“检索增强生成”在图像领域的变体——先找事实依据再创作，比纯靠模型记忆靠谱。但正文没披露用了什么模型、分辨率多少，也没给可复现的评测设置，所以效果到底多稳还不清楚。另外，搜索到的...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

09:12

32d ago

Product Hunt · AI· rssEN09:12 · 05·13

Open Browser Use：让本地AI直接操控你的Chrome浏览器

这是一个开源工具，能让本地AI智能体直接控制你的Chrome浏览器，比如打开标签页、点击按钮、下载文件等。它通过一个Chrome扩展和本地服务来实现，不需要把数据传到云端。支持JS/Python/Go的SDK，方便开发者集成。不过正文没披露具体的API文档、开源许可证、安装步骤和性能基准数据，想用的话得自己去GitHub仓库翻。

#Agent#Tools#Open Browser Use#Product Hunt

精选理由

HKR-H 靠“本地开源浏览器 Agent”这个钩子通过，但 K 和 R 都挂了——正文缺 API、安装、许可证和基准，信息太薄，只能算一个很小的产品更新，不值得上推荐位。

一句话点评

开源工具让本地AI直接操控Chrome，数据不用上云。支持JS/Python/Go SDK，但正文没披露API文档、许可证和性能基准，想用还得自己去GitHub翻。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

09:00

32d ago

The Verge · AI· rssEN09:00 · 05·13

缅因州废弃造纸厂改数据中心，但租户、算力和就业数都没披露

The Verge 报道了缅因州 Jay 镇一个前造纸厂的重建计划：占地 140 万平方英尺，2023 年被联合收购后拆除了旧设备，今年初签下了转售协议，准备改建成数据中心。但正文没披露租户是谁、规划多少算力、签了多大电力合同、能带来多少就业。原造纸厂曾雇 1500 人，2020 年因爆炸关闭。

#The Verge#JGT2 Redevelopment#Tony McDonald#Commentary

精选理由

一个具体的农村数据中心案例，但正文没披露租户、算力规模或用电条件，属于通用 AI 基础设施报道，落在 60–71 分区间。

一句话点评

短评：旧厂改数据中心，就业从1500人归零，新租户和算力都没披露，先别激动。点评：The Verge 报道了缅因州 Jay 镇一个前造纸厂（曾雇1500人，2020年因爆炸关闭）的改造计划：占地140万平方英尺，2023年被联合收购，拆了设备运到巴基斯坦，今年初签了转售协议，准备改建成数据中心。但正文没披露租户是谁、规划多少算力、签了多大电力合同、能带来多少就业。原厂就业已归零，新项目能...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:50

32d ago

AI HOT 精选· aihot-apiZH08:50 · 05·13

VS Code 里同时跑 DeepSeek V4、GLM-5.1、Kimi K2.6 三款模型

SiliconFlowAI 发帖说，通过 Continue.dev 插件，可以在 VS Code 里同时调用 DeepSeek V4、GLM-5.1、Kimi K2.6 三款模型，支持代码自动补全、对话式编辑和智能体功能。帖子只给了三步设置指南的链接，没披露具体配置细节，比如是否需要本地部署、API 调用方式或资源占用。如果你手头有这几家模型的 API...

#Agent#Code#Tools#SiliconFlowAI

精选理由

SiliconFlowAI 这篇就是教你怎么在 VS Code 里用 Continue.dev 同时挂上 DeepSeek V4、GLM-5.1 和 Kimi K2.6，支持补全、对话编辑和智能体。正文只给了三步设置线索，没展开讲不同模型在补全或 agent 场景下的实际表现差异，也没给出延迟、成本或成功率的对比数据。对想快速试多模型开发的工程师有点用，但信息量就停在“能这么配”这一步，没有验证也没有踩坑记录，所以我会先打个折，不推荐放进简报。

一句话点评

短评：VS Code 里同时调三款模型，听起来很爽，但配置细节全在链接里，正文没披露。 SiliconFlow 说通过 Continue.dev 插件，能在 VS Code 里同时用 DeepSeek V4、GLM-5.1、Kimi K2.6，支持代码补全、对话编辑和智能体。好处是开发时不用切窗口，一个编辑器搞定多个模型。但帖子只给了“三步设置指南”的链接，没写具体怎么配——要不要本地部署...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

08:31

32d ago

● P1r/LocalLLaMA· rssEN08:31 · 05·13

小米把 1 万亿参数的 MiMo-V2.5-Pro 开源了，但自己跑真的划算吗？

小米放出了 MiMo-V2.5-Pro，参数总量 1.02 万亿，但每次推理只激活 420 亿参数，上下文窗口能塞进 100 万个 token，用 MIT 许可证。作者拿它跑了 125 次 Claude Code 任务，走 API 总共花了 70.12 美元，处理了约 3.87 亿个 token，缓存命中率高达 96.3%。这个命中率说明大部分请求其实...

#Agent#Code#Inference-opt#Xiaomi

精选理由

我会先打个折：正文没披露 MiMo-V2.5-Pro 的评测跑分，所以性能好坏只能靠参数规模猜。但这条信息本身够直接——小米把一个 1.02 万亿参数、42B 激活的模型开源，另一边作者用 Claude Code 跑了 125 次会话，3.87 亿 token 花了 70.12 美元，缓存命中率 96.3%。这两组数字摆在一起，自建成本和 API 开销的对比就出来了。对做工程的人，这种一手成本数据比技术报告更有参考价值。

一句话点评

万亿参数模型开源了，但自部署成本可能远高于 API 的 70 美元，先别急着买显卡。

锐评

小米把 MiMo-V2.5-Pro 开源了，参数总量 1.02 万亿，但每次推理只激活 420 亿个参数，上下文窗口能塞进 100 万个 token，用 MIT 许可证。作者拿它跑了 125 次 Claude Code 任务，走 API 总共花了 70.12 美元，处理了约 3.87 亿个 token，缓存命中率高达 96.3%。这个命中率说明大部分请求其实是在重复处理相似内容，API 端靠缓存省了大量计算，但你自己部署时，这些重复计算都得实打实跑在显卡上，成本会高很多。文章没给出自部署的硬件需求和具体成本估算，也没说这 125 次任务的成功率和效果如何。70 美元跑 3.87 亿 token 听起来不贵，但如果你要自己搭服务器，光显卡钱可能就够买好几年的 API 额度了。这点先别太激动，等有人测出本地部署的真实开销再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:26

32d ago

FEATUREDFT · 科技· rssEN08:26 · 05·13

软银靠 OpenAI 持股入账 250 亿美元，上季度净利冲到 116 亿

软银第四季度净利润 116 亿美元，主要来自一笔对 OpenAI 的 250 亿美元持股收益。不过正文被付费墙挡住，没披露这笔收益的具体估值依据和计算方式，所以这个利润数字的水分有多大还不好说。

#SoftBank#OpenAI

精选理由

软银靠 OpenAI 持股一把赚了 250 亿美元，季度净利润冲到 116 亿，数字很炸。但正文没写这 250 亿是按什么估值算出来的，我会先打个折——估值口径不明，收益就可能只是账面浮盈。FT 的信源靠谱，这条适合放 featured，因为它把 AI 估值和真实财报绑在了一起，不是产品更新，而是钱到底流向了哪里的问题。

一句话点评

软银靠 OpenAI 持股账面浮盈 250 亿美元撑起季度利润，但正文被付费墙挡住，没写估值怎么算的，这利润数字先打个折看。

锐评

软银第四季度净利润 116 亿美元，主要靠一笔对 OpenAI 的 250 亿美元持股收益。这个数字很炸，但问题在于 FT 的正文被付费墙完全挡住，我们看不到这笔收益的具体估值依据和计算方式。OpenAI 是非上市公司，估值怎么定、软银用什么方法把这笔账面浮盈算进利润，正文都没披露。所以这 116 亿利润的水分有多大，现在没法判断。另外，软银这次财报的利润结构太依赖单一标的了。如果 OpenAI 后续估值回调，或者软银的估值方法被质疑，利润就可能大幅回吐。这点先别太激动。还缺的信息：软银对 OpenAI 的持股比例、投资成本、估值基准日，以及这笔收益是否已经体现在之前的季度里。这些不搞清楚，光看一个利润数字意义不大。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:20

32d ago

Product Hunt · AI· rssEN08:20 · 05·13

Open Computer Use：开源版桌面操控 MCP，让 AI 替你点鼠标

这是一个开源项目，把本地桌面自动化包装成标准的 MCP 服务（MCP 是 AI 模型调用外部工具的通用协议）。装上之后，Codex、Claude Code、Gemini CLI 这些 AI 工具就能直接在你的电脑上点、拖、打字、截屏，跨 macOS、Linux 和 Windows 三系统。项目用 npm 安装，主打“非侵入式”——意思是 AI 只操作界...

#Agent#Tools#Open Computer Use#Product update

精选理由

HKR-H 和 HKR-R 勉强通过，但 HKR-K 不通过，因为许可证、接口范围和运行条件缺失。这只是一个 Product Hunt 上的小型开源工具发布，所以重要性落在常规更新档位以下。

一句话点评

开源项目，把本地桌面操作包装成MCP服务，让Codex、Claude Code等AI工具直接在你的电脑上点、拖、打字、截屏，跨macOS、Linux和Windows。npm安装，主打“非侵入式”。但正文没披露安全模型、权限控制、维护方背景，生产环境慎用。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

07:43

32d ago

r/LocalLLaMA· rssEN07:43 · 05·13

有人试过本地VLM做桌面GUI自动化吗？

一位Reddit用户在Apple Silicon上测试了量化版VLM，用截图驱动桌面GUI自动化。基本操作能跑，但小图标和密集界面翻车了——视觉token数比预期高很多，导致预填充阶段特别慢。帖子没透露具体模型、量化等级、token数或延迟数据，所以没法判断是模型选型问题还是量化损失太大。

#Multimodal#Vision#Agent#Reddit

精选理由

这是一条 Reddit 单帖，没有模型名、延迟数字或完整 benchmark，信息缺口明显。但胜在场景具体——Apple Silicon 上跑量化 VLM 做截图式 GUI 自动化，且给出了可复现的失败模式（小图标、密集 UI、高 token 拖慢 prefill）。对关注本地 agent 的从业者来说，这是一条有用的现场笔记，不是结论。60–71 分合理。

一句话点评

有人在 Apple Silicon 上跑量化 VLM 做桌面 GUI 自动化，基本操作能跑，但小图标和密集界面翻车——视觉 token 数比预期高很多，预填充阶段特别慢。帖子没透露具体模型、量化等级、token 数或延迟数据，所以没法判断是模型选型问题还是量化损失太大。短评：本地 VLM 做桌面自动化有戏，但小图标和密集界面翻车，视觉 token 数高导致预填充慢，具体模型和量化等级未知，先...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:32

32d ago

Product Hunt · AI· rssEN07:32 · 05·13

Quietly：完全离线的 AI 代码编辑器，代码和提示词全在本地跑

Quietly 是一个主打 100% 离线的 AI IDE 和聊天工具，支持 Windows、macOS 和 Linux。它的卖点很直接：你的源代码和提示词全部留在本机，不上云、不传遥测数据、零延迟。对于隐私敏感的开发场景（比如处理内部代码或合规要求高的项目），这个定位挺实用。不过正文没披露它支持哪些模型、是否收费、以及具体发布状态——这些信息目前是缺...

#Code#Quietly#Product Hunt#Product update

精选理由

这是一个 Product Hunt 上的微型发布，只有定位描述，没有模型、定价、平台或可验证的机制，所以归入低价值的产品更新区间。

一句话点评

Quietly 是一款主打 100% 离线的 AI IDE 和聊天工具，代码和提示词全留本机，不上云、不传遥测、零延迟。对隐私敏感的开发场景很实用。但正文没披露支持哪些模型、是否收费、具体发布状态，信息缺口明显，先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

07:31

32d ago

r/LocalLLaMA· rssEN07:31 · 05·13

有人在8GB显存上试过BeeLlama.cpp吗？能做agentic coding吗？

Reddit用户问BeeLlama.cpp在8GB显存+32GB内存上跑agentic coding的效果，特别是Q4量化版Qwen3.6-35B-A3B、Qwen3.6-27B、Gemma-4-31B和Gemma-4-26B-A4B。帖子引用了一个相关讨论，说Qwen 3.6 27B Q5在RTX 3090上跑200k上下文，速度比基线快2-3倍，峰...

#Agent#Code#Inference-opt#BeeLlama.cpp

精选理由

这是一条Reddit上的提问帖，不是正式发布、一手实测或可复现的基准测试。虽然HKR三项都过，但信息价值低，属于社区信号，所以留在all里。

一句话点评

BeeLlama.cpp 在 8GB 显存上跑 agentic coding 有人试过吗？帖子说 Qwen 3.6 27B Q5 在 3090 上 200k 上下文速度比基线快 2-3 倍，峰值 135 tps。但正文被 Reddit 屏蔽了，没披露具体 agent 任务类型和成功率。8GB 跑 27B 模型显存肯定不够，得靠 CPU 卸载，延迟会高。这点先别太激动，等实测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:16

32d ago

r/LocalLLaMA· rssEN07:16 · 05·13

Q.ANT 光子 GPU 号称性能百倍、功耗降 90%，但正文没给任何实测数据

Reddit 上有人讨论德国公司 Q.ANT 的光子 GPU 进展。这家公司刚在奥斯汀开了办公室，挖了 IBM 老将 Bruno Spruth 当 CTO。它说自己的光子 GPU 已经在莱布尼茨超算中心跑了几个月，第二代产品性能是晶体管 GPU 的 100 倍、能效高 90 倍。数字很漂亮，但正文没披露任何实测数据或第三方验证，连跑的是什么负载都没说。...

#Inference-opt#Q.ANT#Bruno Spruth#Leibniz Supercomputing Centre

精选理由

HKR三项都达标，但来源仅一条Reddit帖子，100倍/90倍的硬件数据没有独立验证或可复现的测试条件。算一个有意思的AI基础设施信号，不值得上首页。

一句话点评

德国公司Q.ANT说自己的光子GPU已在莱布尼茨超算中心跑了好几个月，第二代性能是晶体管GPU的100倍、能效高90倍。数字漂亮得像PPT，但正文没披露任何实测数据或第三方验证，连跑的是什么负载都没说。挖了IBM老将当CTO、在奥斯汀开办公室，更像融资前造势。如果是真的挺省钱，但这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:57

32d ago

Hacker News 首页· rssEN06:57 · 05·13

有人用 ChatGPT 用出了“AI 精神病”，还去申请当教皇

一名荷兰 IT 工作者 Dennis Biesma 在使用 ChatGPT 后出现严重幻觉，自称破解了宇宙终极理论、无限核聚变，甚至向梵蒂冈申请当教皇。医生诊断为“AI 精神病”（AI psychosis），认为 AI 的拟人化对话可能诱发或加重精神分裂倾向。正文没有披露他具体用了多久、每天对话量多少，也没有给出既往精神病史。这件事提醒从业者：对话式 ...

#Safety#ChatGPT#Hacker News#The Standard

精选理由

标题有冲击力，但正文信息严重不足，只有HN的分数和评论数，没有当事人背景、时间线或医学评估，无法验证事件真实性或严重性。对从业者来说，这个话题能引发对模型安全边界的讨论，但当前信息量不足以支撑高价值判断，所以维持低分全量推送。

一句话点评

一名荷兰IT男跟ChatGPT聊到自称破解了宇宙终极理论、无限核聚变，还向梵蒂冈申请当教皇。医生诊断这叫“AI精神病”，认为AI的拟人化对话可能诱发或加重精神分裂倾向。正文没披露他具体用了多久、每天对话量多少，也没给既往精神病史。这件事提醒从业者：对话式AI的拟人化风险不是理论上的，真实用户可能分不清边界。但个案不能直接推成普遍结论，缺使用时长和病史数据，没法判断是AI诱因还是既有病发。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

06:37

32d ago

● P1纽约时报中文网· rssZH06:37 · 05·13

中国智库向Anthropic要Mythos模型被拒，美方视作AI竞赛升级信号

上个月在新加坡一场非官方对话中，一家中国智库要求Anthropic向北京开放其最新的Mythos模型，被直接拒绝。Mythos是个擅长找软件漏洞的模型，Anthropic目前只给美国政府和40多家机构用，理由是怕引发网络安全危机。美方官员认为这次接触虽非正式外交，但背后大概率有中国政府授意，并把它看作中美AI竞赛升温的又一个迹象。文章提到，美国最新模型...

#Code#Safety#Tools#Anthropic

精选理由

这条消息我会先打个折：正文没披露中国智库具体是哪家、怎么谈的、Anthropic 拒绝的细节也没展开。但核心信息够硬——Mythos 是个找漏洞的模型，Anthropic 只给美国政府和 40 多个组织用，中国想要但拿不到。这比一般的模型封锁更敏感，因为直接关系到软件供应链安全。对从业者来说，说明顶尖漏洞挖掘能力正在变成国家级的受控资源，以后这类模型可能越来越难公开拿到。

一句话点评

中国智库私下要 Anthropic 开放 Mythos 模型被拒，这事不意外，但说明中美 AI 技术隔离已经从芯片烧到了模型本身。

锐评

这条新闻的核心不是“被拒”，而是“谁在要”和“要的是什么”。出面的是智库，不是政府，但美方判断背后有北京授意，这种“二轨外交”本身就是试探水温的标准动作。他们要的 Mythos 是个专门找软件漏洞的模型，Anthropic 只给了美国政府及 40 多家机构，理由是怕引发网络安全危机。换句话说，这模型在美方眼里已经不是商业产品，而是类似军火清单上的东西。文章提到美方估计自家最新模型领先中国九个月到一年，比之前的半年差距拉大了。但这个数字得打个折：领先幅度是动态的，而且 DeepSeek 去年已经证明能用华为芯片做出有竞争力的模型。真正值得关注的信息缺口是：Anthropic 拒绝的具体理由是什么？是法律限制、公司政策，还是政府直接施压？正文没披露。另外，中方要模型的用途是“保护关键基础设施”，这个说法本身不新鲜，但放在 Mythos 这种攻击属性极强的模型上，说服力有限。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:37

32d ago

FEATURED纽约时报中文网· rssZH06:37 · 05·13

黄仁勋没在首批名单上，特朗普看到报道后亲自打电话把他拉上了访华专机

白宫周一公布的16人CEO随行名单里没有黄仁勋，这件事在硅谷和华盛顿都引起了议论。特朗普周二上午直接打电话邀请，黄仁勋当晚在阿拉斯加登上了空军一号。他掌管的英伟达是全球市值最高的公司，过去一年一直在游说中美双方，想拿到向中国卖AI芯片的许可。去年夏天特朗普批准卖上一代芯片，但中国政府至今没批任何采购，美国政府内部也有人以国家安全为由反对卖更先进的芯片。

#Inference-opt#Nvidia#Jensen Huang#Donald Trump

精选理由

我会先打个折：正文没披露这次访华有没有谈成什么许可，也没说中方怎么回应，所以别急着下结论说英伟达的芯片就能卖了。但这条消息的看点在于时间线——名单公布后才补邀，说明特朗普团队临时决定把英伟达塞进来，很可能就是冲着 AI 芯片出口管制去的。对从业者来说，这比一份正式声明更有信号意义，因为动作本身就在说“这事还在博弈”。

一句话点评

黄仁勋靠特朗普一通电话才挤上访华专机，但英伟达想卖芯片给中国这事，两边政府都还没点头。

锐评

这条新闻最值得看的是时间线：白宫周一公布的16人CEO名单里没有黄仁勋，周二上午特朗普看到报道后亲自打电话，当晚黄仁勋就在阿拉斯加登上了空军一号。这说明英伟达在中国市场的处境有多尴尬——全球市值最高的公司，CEO却要靠总统临时起意才能挤进访华代表团。过去一年黄仁勋一直在两边游说，但成果有限。去年夏天特朗普批准卖上一代芯片给中国，还打算从中抽成，可中国政府至今没批任何采购。同时特朗普自己政府内部也有人以国家安全为由，拦着不让卖更先进的芯片。文章没披露这次访华会不会谈出具体进展，也没说中方对英伟达芯片的态度有没有松动。这条消息的实质是：英伟达卡在中美之间，两边都不完全买账。黄仁勋上了飞机只是拿到了入场券，离真正做成生意还差得远。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:19

32d ago

● P1AI HOT 精选· aihot-apiZH06:19 · 05·13

SenseTime发布SenseNova-U1技术报告和开源模型

报告把训练一个原生多模态模型的全流程拆成了六步，从统一建模、无损接视觉信号，到用自回归加像素空间流匹配一起训，再到强化学习后训练和蒸馏，每一步都给了实操细节。开源版本 SenseNova-U1-A3B-MoT 用了混合专家架构，只激活 30 亿参数，主打跑得快、成本低。模型权重、代码和演示都放出来了，不过报告里没给具体 benchmark 对比，实际效...

#Multimodal#Vision#Fine-tuning#SenseTime

精选理由

我会先打个折：这是厂商自己发的技术报告，正文没给基准分数、开源协议和复现细节，所以别当第三方评测看。亮点在于把训练全流程讲清楚了——从数据配比、六阶段课程到 RL 后训练和蒸馏，每一步都给了操作说明。A3B-MoT 用 MoE 把激活参数压到 30 亿，推理时确实省钱，但报告没披露总参数量、专家数这些关键数字，也没说开源权重什么时候放出来。这点先别太激动，等代码和权重落地再判断。

一句话点评

商汤发了SenseNova-U1的技术报告并开源了模型权重，用MoE架构做原生多模态，但正文没披露具体性能基准和参数量，这点先别太激动。

锐评

商汤把SenseNova-U1的技术报告和模型权重都放出来了，核心卖点是原生多模态加MoE（混合专家）架构。MoE的好处是推理时只激活部分参数，理论上能省算力，但报告里没写总参数量和激活参数量，也没给具体的多模态基准测试分数，所以省不省钱、效果好不好都还不好判断。目前能看到的信息来自两个标题，正文是空的，所以关键细节全缺：训练数据规模、支持哪些模态组合、开源协议是什么、有没有对齐人类偏好的后训练步骤。这些直接决定模型能不能用、好不好用。建议等完整报告出来再看，重点关注多模态理解任务的横向对比，以及MoE路由策略是否稳定。如果只是把已有技术路线复现一遍，那开源的价值主要在工程参考，而不是能力突破。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:37

32d ago

FEATURED纽约时报中文网· rssZH05:37 · 05·13

DeepSeek 新模型首次用华为芯片跑推理，训练还得靠英伟达

DeepSeek 上个月发新模型，头一回说推理环节跑在了华为芯片上，但两位半导体业人士透露，训练阶段仍然依赖英伟达芯片，具体怎么拿到的没细说。华为计划今年出训练芯片，同时承认性能追上英伟达现有水平还要再等一年。这件事让中国在 AI 硬件上跟美国进一步脱钩，也印证了黄仁勋之前的警告：出口管制反而逼着中国自建一套技术栈。不过中芯国际量产华为芯片良率低、功耗...

#Inference-opt#DeepSeek#Huawei#Nvidia

精选理由

这篇不是模型发布，也没有跑分，所以分数不会冲太高。但信息量够硬——DeepSeek 推理侧开始用华为芯片，训练侧还离不开英伟达，华为自己的训练芯片今年才出来、性能追平还要一年。我会先打个折：正文没给推理优化的具体性能对比或延迟数据，也没说 DeepSeek 在华为芯片上跑了多大并发。不过它把芯片管制这条线拉得很清楚，对关注算力成本和国产替代的人有直接参考价值，84 分放在 featured 里是合适的。

一句话点评

DeepSeek新模型推理跑在华为芯片上，但训练还得靠英伟达，具体怎么拿到的没说。华为训练芯片还要一年才追上，先别太激动。

锐评

这条新闻的核心事实是：DeepSeek上个月发新模型，头一回把推理环节搬到了华为芯片上，但两位半导体业人士透露，训练阶段仍然依赖英伟达芯片，具体怎么拿到的没细说。华为计划今年出训练芯片，同时承认性能追上英伟达现有水平还要再等一年。这件事让中国在 AI 硬件上跟美国进一步脱钩，也印证了黄仁勋之前的警告：出口管制反而逼着中国自建一套技术栈。不过，正文没披露 DeepSeek 在华为芯片上的推理性能跟英伟达比差多少，也没说成本。中芯国际量产华为芯片良率低、功耗高，华为的应对办法是把一堆性能较弱的芯片捆在一起用，这策略能不能大规模跑通还不清楚。另外，英伟达 H200 虽然获批卖给中国，但实际一台都没运进去，两边都在卡。还缺什么：DeepSeek 训练用的英伟达芯片到底是从哪条路进来的，华为训练芯片的具体规格和实测数据，以及这套国产方案在真实业务场景下的延迟和稳定性。这些信息没出来之前，说“削弱华盛顿筹码”还太早。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:26

32d ago

AI HOT 精选· aihot-apiZH05:26 · 05·13

AI技能更新：新增可交互地图组件，支持缩放拖拽和AI标记

Skills功能更新后，AI可以生成带地图的版式和地图组件，支持缩放、拖动等交互操作，还能在地图上任意打标记。正文没披露这个功能支持哪个平台、怎么调用、以及版本号。

#Tools#Product update

精选理由

只有K通过：帖子给出了具体的地图交互能力，但没提平台、API路径或版本号。这是一个小产品更新，所以留在all以下，不上精选。

一句话点评

AI 技能更新加了地图组件，能缩放、拖动、打标记，适合做位置相关的交互展示。但正文没说是哪个平台、怎么调用、版本号多少，目前只能当个功能预告看。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

05:10

32d ago

r/LocalLLaMA· rssEN05:10 · 05·13

Qwen3.6-27B 一次修好 CSS 界面 bug，Gemma4-26B 循环 15 分钟没搞定

一位用户在 MacBook Pro M4 Max 上本地跑模型，用 Qwen3.6-27B-UD-MLX-8bit 一次就修好了 CSS 下拉菜单跑出屏幕的 bug，而 Gemma4-26B 在同一台机器上反复读代码、改代码、失败，循环了大约 15 分钟。正文没披露具体 prompt 或调试步骤，但对比很直观：Qwen 一次过，Gemma 卡死循环。

#Code#Reasoning#Vision#Qwen

精选理由

HKR 三项都达标：有具体模型名、有具体 CSS 任务、有 15 分钟对比。但只是一个 Reddit 单帖，正文没披露 prompt 和修复前后的代码 diff，验证强度弱，所以分数压在 60–71 区间。

一句话点评

Qwen3.6-27B 一次修好 CSS 下拉菜单 bug，Gemma4-26B 在同一台 MacBook Pro M4 Max 上循环 15 分钟失败。对比直观，但正文没披露 prompt 和调试步骤，可能是 prompt 差异或模型对局部代码修改的稳定性不同。单次成功不等于全面碾压，Gemma 的循环也可能是策略保守。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:35

32d ago

AI HOT 精选· aihot-apiZH04:35 · 05·13

oMLX 新版让苹果本地跑多模态更快，显存压力也小了

oMLX 更新到 0.3.9.dev2，主要加了三个东西：Gemma 4 的 MTP 视觉路径（让模型看图更准）、DFlash 引擎（加速推理）、ParoQuant（量化压缩，省显存）。还支持一键启动 copilot 接 Claude 这类工具，以及 oQ 自动代理来缓解显存瓶颈。作者说图文处理速度变快、显存占用更低，但没给具体跑分或延迟对比，所以实际...

#Vision#Multimodal#Inference-opt#oMLX

精选理由

这是一条oMLX小版本更新的产品动态，核心信息是集成了几个新组件（视觉路径、推理引擎、量化工具），并加了copilot和自动代理功能。标题的'直逼云端'有点夸张，正文没披露具体延迟或精度对比，所以钩子要打折。但K和R是扎实的：技术名词都给了，且本地推理对成本、隐私、离线场景确实有吸引力。单来源、小众工具，评分68合理，不升不降。

一句话点评

oMLX 0.3.9.dev2 让苹果端侧跑多模态模型更快、更省显存，新增 Gemma 4 视觉路径、DFlash 推理引擎和 ParoQuant 量化压缩。还支持一键启动 copilot 接 Claude，以及 oQ 自动代理缓解显存瓶颈。作者说图文处理变快、显存占用更低，但没给具体跑分或延迟对比，所以实际提升幅度要自己测。对想在 Mac 上本地跑多模态模型的人来说，这版值得试，但别直接信...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:06

32d ago

FEATURED新智元 · 公众号· rssZH04:06 · 05·13

清华系开源 MiniCPM-V 4.6：1.3B 多模态模型，一张 4090 就能全量微调

面壁智能、清华和 OpenBMB 放出了 MiniCPM-V 4.6，一个 13 亿参数的多模态模型。它最大的卖点是能在一张 RTX 4090 显卡上完成全量微调，不用再靠低秩适配这类折中方案。模型提供了两种视觉 token 压缩模式：4 倍压缩追求精度，16 倍压缩追求速度，让开发者自己按场景选。正文没披露具体的训练数据量和详细评测基准，这点先别太激...

#Multimodal#Vision#Fine-tuning#ModelBest

精选理由

HKR 三项都成立：一条具体的开源多模态模型发布，给了参数量、硬件条件和 token 压缩方案，把本地微调成本压到一张消费级显卡。不是前沿大厂的旗舰发布，但实用性强，82 分合理。

一句话点评

13亿参数多模态模型能在一张4090上全量微调，不用再凑合低秩适配了，但正文没披露训练数据和评测基准，这点先别太激动。

锐评

面壁智能和清华放出的 MiniCPM-V 4.6，核心卖点是把全量微调的门槛压到了一张 RTX 4090。以前小模型想省显存只能靠低秩适配这类折中方案，现在可以直接动全部参数，对开发者来说省事不少。模型给了两种视觉 token 压缩模式：4 倍保精度，16 倍追速度，等于把选择权交给用的人，按场景自己掂量。不过正文没写训练数据量和具体评测基准，这就让“小钢炮”的成色打了折扣。没有数据规模和对比对象，很难判断它的能力上限在哪，也不知道在哪些任务上会翻车。另外，1.3B 参数在多模态任务里到底能扛住多复杂的场景，光靠一篇推送还看不出来。还缺的是端侧实测和第三方复现结果。一张 4090 跑得动是一回事，换到手机或边缘设备上表现怎么样，功耗和延迟能不能接受，这些才是落地时要命的细节。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:06

32d ago

新智元 · 公众号· rssZH04:06 · 05·13

VLA模型总忽略语言指令？LangForce用对数似然比损失让模型更听话

华中科大、哈工大和港科大（广州）联合提出了LangForce，核心思路是给VLA模型加一个对数似然比损失，强迫它更依赖语言指令而不是只盯着视觉。在SimplerEnv的分布外场景测试里，LangForce平均成功率66.5%，比QwenGR00T基线高了11.3个百分点。正文没披露训练数据量和计算成本，但效果提升挺明显，尤其对指令跟随幻觉有针对性。

#Robotics#Multimodal#Alignment#Huazhong University of Science and Technology

精选理由

这是一篇VLA模型指令跟随的改进工作，来自华科、哈工大和港科广。核心问题是VLA模型在分布外场景下容易忽略语言指令（即指令跟随幻觉），作者提出LangForce，用LLR损失让模型更依赖语言信号。在SimplerEnv基准上平均成功率66.5%，比QwenGR00T提升11.3个百分点。数字说明效果明显，但正文没披露在真实机器人上的部署成本或延迟，这点先别太激动。对做机器人多模态对齐的团队是实用信号，但属于研究发布而非产品级发布，所以没到精选线。

一句话点评

给VLA模型加一个对数似然比损失，强迫它更听语言指令而不是只看视觉。在SimplerEnv分布外场景测试里，平均成功率66.5%，比QwenGR00T基线高了11.3个百分点。正文没披露训练数据量和计算成本，但效果提升挺明显，尤其对指令跟随幻觉有针对性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

32d ago

FT · 科技· rssEN04:00 · 05·13

欧洲那几只AI股票涨了，因为美国科技热钱开始往外找标的

FT报道，欧洲为数不多的AI概念股最近涨了一波，原因是投资者在美国科技股涨了几年之后，开始去欧洲翻有没有能跟上的标的。正文没披露具体公司名字、涨幅数字、估值变化或时间区间，所以没法判断这波是情绪驱动还是真有业绩支撑。

#Financial Times#Funding#Commentary

精选理由

HKR的H和R靠欧洲AI稀缺性交易成立，但K不成立：RSS摘要没披露公司名、涨幅或时间窗口。FT的权威性让它值得浏览，但不值得推荐。

一句话点评

FT说欧洲AI概念股涨了，因为美国科技股涨太久，投资者开始去欧洲翻标的。但正文被付费墙挡住，没披露具体公司、涨幅、估值或时间区间。这点先别太激动——没法判断是情绪轮动还是真有业绩支撑。缺关键数字和标的名单，信息量约等于标题本身。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

32d ago

FT · 科技· rssEN04:00 · 05·13

亚马逊设备负责人：我们不一定非要造手机

亚马逊硬件负责人 Panos Panay 在 Alexa+ 发布后接受采访，明确说公司不一定要做手机。正文没披露具体产品形态、发布时间或盈利目标，所以这点先别太激动。Panay 的潜台词可能是亚马逊更想围绕 Alexa+ 做智能家居或可穿戴设备，而不是跟苹果、三星正面抢手机市场。

#Audio#Amazon#Panos Panay#Alexa+

精选理由

FT 来源加分，H 和 R 通过；K 不通过是因为文章只给了战略信号，没有产品形态、时间表或业务指标。

一句话点评

亚马逊硬件老大说公司不一定做手机，潜台词是更想围绕Alexa+做智能家居或可穿戴，而不是跟苹果三星硬碰硬。正文没披露具体产品形态、发布时间或盈利目标，所以这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

32d ago

FT · 科技· rssEN04:00 · 05·13

Google DeepMind 计划“反击”

FT 一篇报道标题说 Google DeepMind 准备“卷土重来”，但正文只提到 Google 和 DeepMind 正在对 OpenAI 和 Anthropic 施加压力，没有披露任何具体模型、时间表或性能指标。所以这个“反击”目前更像一个战略姿态，不是产品发布预告。

#Google DeepMind#OpenAI#Anthropic#Commentary

精选理由

H 和 R 过关，但 K 太弱：正文没给模型、时间表或指标。FT 来源有信誉，但信息量不足以推到精选。

一句话点评

FT标题说DeepMind要“卷土重来”，但正文只提了它和Google在给OpenAI、Anthropic施压，没披露任何模型、时间表或跑分。目前更像一个战略姿态，不是产品预告。短评：标题党，正文没干货，先别激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:56

32d ago

r/LocalLLaMA· rssEN03:56 · 05·13

本地跑视频流水线：Qwen3 27B 比 Gemma 4 26B 更会调工具

一位用户在本地跑视频自动化流程，Qwen3 27B 能干净地调度工具，Gemma 4 26B 却在同一个机器上卡在工具调用循环里。整个流程用了 OpenCode 工作流，上下文窗口撑到 174K token，本地图片生成靠 Hugging Face 上的 Said Image Turbo。最终只拿到一次性的部分结果，说明长上下文和工具调用的稳定性还有坑。

#Agent#Tools#Multimodal#Qwen

精选理由

H/K/R 都达标：Reddit 帖子点名了模型、失败模式和 174K 上下文，信息密度够。但来源单一、可复现性弱，所以虽然话题实用，还够不上精选。

一句话点评

Qwen3 27B 在本地视频自动化流程里比 Gemma 4 26B 更稳，后者容易卡在工具调用循环里。整个工作流上下文撑到 174K token，但只拿到一次性的部分结果，说明长上下文和工具调用的稳定性还有坑。正文没披露具体硬件配置和耗时，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:27

32d ago

AI HOT 精选· aihot-apiZH03:27 · 05·13

腾讯混元Hy3预览版上线GMI云，自称最强开源模型

腾讯混元在X上宣布Hy3预览版已登陆GMI Cloud，并称其为最强开源模型。但正文没披露参数量、跑分、定价或使用门槛，所以这个“最强”目前只能当宣传口号看，等具体数据出来再判断。

#Tencent Hunyuan#GMI Cloud#Hy3#Product update

精选理由

硬排除规则：云厂商促销+纯营销。唯一事实是Hy3预览版在GMI Cloud可用，参数、跑分、价格全无。HKR三项全不满足，重要性上限40。

一句话点评

腾讯混元说 Hy3 预览版上了 GMI Cloud，号称“最强开源模型”。但正文没给参数量、跑分、定价或使用门槛，这个“最强”目前只能当宣传口号看。等具体数据出来再判断。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

03:15

32d ago

AI HOT 精选· aihot-apiZH03:15 · 05·13

百度李彦宏提新指标：日活跃智能体数（DAA）

李彦宏提议用日活跃智能体数（DAA）衡量智能体时代，类比移动互联网的DAU。他认为令牌消耗只反映成本，DAA更能体现产出价值。但正文没披露怎么统计、时间窗口多长，也没给出任何具体数值，所以这个指标目前还只是个概念。

#Agent#Baidu#Robin#Commentary

精选理由

Robin提的DAA（日活跃智能体数）是个好传播的概念，类比DAU让圈内人秒懂他想说什么。但正文没披露统计口径、时间窗口和具体数值，所以这条只能当轻评论看，不能当实证分析用。H和R两条都成立：概念有话题性，也切中行业痛点。K不成立是因为信息缺口太大，没法验证。

一句话点评

李彦宏提议用日活跃智能体数（DAA）替代令牌消耗来衡量智能体时代，类比移动互联网的DAU。想法不错，但正文没披露怎么统计、时间窗口多长，也没给任何具体数值，目前只是个概念。短评：指标方向对，但没数据没方法，先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:14

32d ago

FT · 科技· rssEN03:14 · 05·13

北京叫停一家新加坡AI公司收购案，“新加坡洗白”还走得通吗？

FT这篇报道的核心案例是：北京叫停了一起涉及一家总部设在新加坡的AI初创公司的收购案。文章把这件事当作一个测试，看中国公司通过在新加坡设总部来规避国内监管的做法（FT称之为“Singapore washing”）还能不能持续。正文没披露买方、卖方、交易金额、法律依据和时间线，也没说这笔交易对Manus这家公司的具体运营有什么影响。信息缺口比较大，但信号...

#Manus#Financial Times#Policy

精选理由

HKR-H 和 HKR-R 通过，因为 FT 把中国和新加坡之间的 AI 监管风险具体化了。HKR-K 不通过：正文没给交易方、价格、法律依据或时间线，所以这条只能算有趣，不够硬。

一句话点评

北京叫停一家新加坡AI初创公司的收购案，FT拿它当测试案例：中国公司靠“新加坡洗白”绕监管还行不行？正文没披露买方、卖方、交易金额和法律依据，信息缺口很大。信号意义大于实操参考，别急着下结论。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:10

32d ago

r/LocalLLaMA· rssEN03:10 · 05·13

本地小模型每周跑一遍完整工作流：查库、发邮件、写文档、转PDF

Reddit用户NoWorking8412分享了一个每周用Qwen3.6-35B-A3B（35B参数但激活仅3B，本地跑得动）跑完的完整流程：先评估数据库内容，然后通过邮件交换选择，自动生成Google Doc，收集修改意见，最后转成PDF模板。整个过程不依赖云端API，全部在本地完成。正文没披露具体延迟和硬件配置，但35B模型能跑通多步骤agent ...

#Agent#Embedding#Memory#Qwen

精选理由

一篇 Reddit 用户的自述，讲他用 Qwen3.6-35B-A3B 搭了个每周工作流，覆盖 5 个环节。话题本身很接地气，能缓解“本地模型没用”的焦虑，但正文没披露每个环节的耗时、失败率、样本量，也没说复现门槛，所以分数卡在 60–71 档。

一句话点评

一个Reddit用户用Qwen3.6-35B-A3B（35B参数但只激活3B，本地能跑）跑通了一个每周自动流程：评估数据库、邮件选内容、生成Google Doc、收集修改意见、转PDF。全程不调云端API。亮点是证明了小激活模型也能做多步agent干活，但正文没披露延迟和硬件配置，实用性要打折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:07

32d ago

AI HOT 精选· aihot-apiZH03:07 · 05·13

Codex 更新了应用内浏览器，支持多视口测试和截图核查

Codex 这次更新主要给应用内浏览器加了多视口测试功能，你可以切换不同屏幕尺寸测应用，还能在断点处点按验证。长测试会在关键节点自动截图，方便你回头检查。如果嫌测试慢，可以隐藏浏览器来禁用动画，速度能快1-2倍。另外标注功能也优化了，发送更快、消耗更少 tokens。整体看下来，对做 UI 测试的人来说挺实用，尤其是多视口和截图核查能省不少手动检查的功夫。

#Agent#Code#Tools#Codex

精选理由

这是Codex工作流的一次小到中型更新，有具体机制和1-2倍速度提升的声称，但看起来只是一篇单一发布说明，影响范围比模型或Agent发布要窄。HKR的K和R通过，H不通过，所以落在60-71分区间。

一句话点评

Codex 给浏览器加了多视口测试，能切屏幕尺寸、在断点处点按验证，长测试还会自动截图。隐藏浏览器能禁用动画，速度提升1-2倍。标注也优化了，发送更快、耗 tokens 更少。对 UI 测试挺实用，但正文没披露截图精度和标注节省的具体比例。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

03:03

32d ago

彭博科技· rssEN03:03 · 05·13

摩根大通资管：AI还在早期，别盯着短期，要看长期价值迁移

摩根大通资管的Joanna Shen在彭博电视上说，AI仍处于早期采用阶段，AI agent是几十年来第一个能提升劳动力投入的技术。正文没披露具体投资标的、估值方法或时间线，所以这点先别太激动——观点偏宏观，适合做长期配置的参考，不是操作建议。

#Agent#JPMorgan Asset Management#Joanna Shen#Bloomberg

精选理由

HKR-R勉强通过，因为agent和劳动投入触及投资和生产力神经。HKR-H/K不通过：正文缺少数字、目标、估值方法或时间表，属于低价值评论。

一句话点评

摩根大通资管Joanna Shen说AI agent是几十年来第一个能提升劳动力投入的技术，AI还在早期采用阶段。观点偏宏观，适合做长期配置参考，不是操作建议。正文没披露具体投资标的、估值方法或时间线，这点先别太激动。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

02:47

32d ago

Latent Space· rssEN02:47 · 05·13

微调要凉了？OpenAI 停掉微调 API，Latent Space 说这是趋势

OpenAI 停掉了微调 API，Latent Space 把这当作头条。文章说，虽然头部玩家（Cursor、Cognition）反而在加大开源模型的强化微调，但对大多数 AI 工程团队来说，微调已经不是主流。替代方案包括超长提示词（比如 Claude 的 Constitution）和推理时计算。正文没披露 OpenAI 停 API 的具体原因，但暗示...

#Fine-tuning#Benchmarking#Inference-opt#OpenAI

精选理由

HKR三项都成立：OpenAI微调API废弃对从业者确实有实际影响，12/544的源范围也提供了上下文。但分数卡在60-71是因为这是一份日报汇总，正文没披露被废弃的API具体叫什么、迁移截止日期是什么、替代方案是什么，信息缺口明显，不能给更高分。

一句话点评

OpenAI 停掉微调 API，Latent Space 直接说“微调已死”。但头部玩家 Cursor、Cognition 反而在加大开源模型的强化微调，所以“死”的是大众市场，不是全部。替代方案是超长提示词（比如 Claude 的 Constitution）和推理时计算。正文没披露 OpenAI 停 API 的具体原因，只暗示 GPU 紧缺或用户已转向。对多数 AI 工程团队来说，微调确实...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:38

32d ago

AI HOT 精选· aihot-apiZH02:38 · 05·13

BenchLoop：给本地大模型跑分，一键出排行榜

BenchLoop 是一个给本地大模型做标准化测试的工具。你拉个模型下来，跑一下，它就能给出质量、速度和可靠性的综合评分，还支持对比不同提示格式（比如原生模式和 Hermes 模式）的表现。结果可以自动发到公开排行榜上，方便横向比较。说白了就是帮你省掉自己搭测试流程的麻烦，直接看哪个模型在本地跑得又快又好。不过正文没披露它具体用了哪些测试集、评分权重怎...

#Benchmarking#Inference-opt#BenchLoop#Hermes

精选理由

工具本身有用但信息太薄：没披露测试集是什么、评分公式怎么算、也没给任何实测样本结果。HKR三项都勉强够到门槛，但每个都缺关键细节支撑，所以落在60–71区间。

一句话点评

BenchLoop 是个给本地大模型跑分的工具，拉下来一键测质量、速度和可靠性，还能对比不同提示格式（比如原生 vs Hermes 模式），结果自动上排行榜。省了你自己搭测试流程的麻烦。但正文没披露具体用了哪些测试集、评分权重怎么定，排行榜的权威性得打个问号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:23

32d ago

r/LocalLLaMA· rssEN02:23 · 05·13

别急着买本地推理机，先攒钱等下一代

Reddit 用户说一台计划中的 1TB Genoa 机器从 6000 美元涨到了 30000 美元，涨幅 5 倍。帖子提到 64GB DDR5 RDIMM 已量产、256GB DDR5 RDIMM 可达 9200 MT/s，但没给任何跑分或实测数据。作者认为未来 2-3 年本地推理硬件会大升级，现在买不划算。不过正文没披露具体配置清单和涨价原因，也没...

#Inference-opt#Reddit#Apple#Micron

精选理由

HKR 三个维度都沾边：成本跳升有钩子，内存规格有具体数字，话题切中本地搭建者的痛点。但正文没给实测跑分、没标价格来源、也没给出可复现的配置单，所以只能算低价值讨论，不值得高分。

一句话点评

一台计划中的1TB Genoa机器从6000美元涨到3万美元，涨幅5倍。帖子说64GB DDR5 RDIMM已量产、256GB可达9200 MT/s，但没给任何跑分或实测数据。作者认为未来2-3年本地推理硬件会大升级，现在买不划算。不过正文没披露具体配置清单和涨价原因，也没说明是关税、供应链还是需求导致。信息缺口大，建议等实测再决定。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:50

32d ago

彭博科技· rssEN01:50 · 05·13

AI 基建把内存芯片吃紧了，股市里赢家和输家差距拉大

全球内存芯片短缺，原因是 AI 基础设施建得太猛。Bloomberg 这篇报道说，缺货已经让不同公司的业绩和股价表现明显分化。正文被 paywall 挡住了，没披露具体是哪几家公司、股价涨跌多少、供需缺口有多大。

#Inference-opt#Commentary

精选理由

Bloomberg的供应链角度有权威性，通过HKR-H和HKR-R。HKR-K不通过，因为没给出具体公司、股价变动或供需缺口数据，停留在行业报道的通用层面。

一句话点评

全球内存芯片缺货，AI基建猛建是主因。Bloomberg说这已让公司业绩和股价明显分化，但正文被paywall挡住，没披露具体公司、涨跌幅和供需缺口。缺货本身不意外，关键是哪些公司扛得住、哪些掉队，这点先别太激动，等具体数据出来再判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

01:45

32d ago

Product Hunt · AI· rssEN01:45 · 05·13

BossHogg：给 AI 代理用的 PostHog 命令行工具

BossHogg 是一个面向 AI 编码代理和终端开发者的 CLI 工具，让你不用打开庞大的 MCP 工具集就能操作 PostHog 的分析和功能开关。简单说，就是让 AI 代理直接在命令行里查数据、改配置，省去来回切换界面的麻烦。项目开源免费，但正文没披露安装步骤、定价和具体支持哪些命令，想用还得自己去 GitHub 翻文档。

#Agent#Tools#BossHogg#PostHog

精选理由

HKR-K 通过是因为它点出了工具的目标和用途。HKR-H/R 不通过：安装方式、价格、支持的命令范围都没披露，属于低端小产品更新，不值得激动。

一句话点评

BossHogg 给 PostHog 套了个命令行壳，AI 编码代理不用开笨重的 MCP 工具集就能查数据、改功能开关。开源免费，但正文没披露具体支持哪些命令、怎么装，想用还得去 GitHub 翻文档。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

01:26

32d ago

AI HOT 精选· aihot-apiZH01:26 · 05·13

阿里云 Qwen 3.6 Plus 限免，主打“智能体原生”

阿里云宣布 Qwen 3.6 Plus 在 Nous Portal 上限时免费，并称其为“AI 未来原生智能体”。合作方是 Hermes Agent 和 NousResearch 社区。正文没披露免费期多久、模型参数量、免费结束后定价多少、以及使用有无限制。

#Agent#Alibaba Cloud#NousResearch#Hermes Agent

精选理由

硬排除理由：纯营销/云厂商推广。唯一事实是 Qwen 3.6 Plus 在 Nous Portal 限时免费，没披露限免时长、模型参数或 API 调用条件。成本相关性让它勉强没掉到最低档。

一句话点评

阿里云把 Qwen 3.6 Plus 放到 Nous Portal 上限免，合作方是 Hermes Agent 和 NousResearch 社区。正文没披露免费期多久、模型参数量、免费结束后定价多少、以及使用有无限制。短评：限免拉新，但关键信息全缺，先别激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:39

32d ago

FEATUREDAI HOT 精选· aihot-apiZH00:39 · 05·13

Google 出了第一款围绕 Gemini 做的笔记本 Googlebook，不再是 Chromebook 那种云优先的路子

Google 发了台叫 Googlebook 的笔记本，系统层面把 Gemini 塞了进去。这次说了三个功能：Magic Pointer 把光标变成一个 AI 入口，点哪都能弹出上下文建议和任务；Create Your Widget 让你用大白话描述需求，自动生成一个能聚合不同信息的桌面小组件；还打通了安卓生态，在电脑上直接调用手机 App 和文件。正...

#Agent#Tools#Google#Gemini

精选理由

我会先打个折：正文没披露具体配置、价格、上市时间和实际演示，所以没法往更高分打。但“Googlebook”这个命名和围绕 Gemini Intelligence 的设计，说明 Google 想把 AI 做成笔记本的原生能力，而不是外挂一个助手。三项机制里，Magic Pointer 听起来像用意图预测代替传统光标操作，自然语言生成小组件是把“说人话就能搭界面”搬到桌面，Android 跨设备访问则打通了手机和笔记本的协同。这些点加起来，让这条消息在 AI 从业者眼里有讨论价值，但缺细节也意味着落地效果还得观望。

一句话点评

Google 把 Gemini 塞进笔记本系统层，光标变 AI 入口、用大白话生成桌面组件，想法挺直接，但正文没给实测数据和价格，先当概念看。

锐评

Google 发了台叫 Googlebook 的笔记本，核心是把 Gemini 做进系统层，不是装个助手插件就完事。这次说了三个功能：Magic Pointer 把光标变成一个 AI 入口，点哪都能弹出上下文建议和任务，相当于给鼠标右键加了 AI 菜单；Create Your Widget 让你用大白话描述需求，自动生成一个能聚合不同信息的桌面小组件，省去自己拖拽配置的麻烦；还打通了安卓生态，在电脑上直接调用手机 App 和文件。从产品逻辑看，Google 想用 AI 重新定义人跟电脑的交互方式，把操作门槛降下来。但正文没披露任何实测数据，比如 Magic Pointer 的响应延迟、Widget 生成的准确率、跨设备调用的稳定性，也没提价格和上市时间。这些功能听起来实用，但到底好不好用、会不会吃资源，全得等上手。另外，安卓生态打通这事，Google 说了好几年，这次能不能做到无缝，也得打个问号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:29

32d ago

AI HOT 精选· aihot-apiZH00:29 · 05·13

Telegram 里点几下就能跑 AI 智能体，不用注册也不用花钱

Browser Use 新项目 BuxFather，直接在 Telegram 里启动 AI agent，点几下就给一个完整电脑加浏览器环境，24/7 自己跑还能自己改进。关键是不需要注册、不需要付费，对重度 Telegram 用户来说很方便。正文没披露具体能跑什么任务、有没有使用限制，但即开即用这个思路挺省事。

#Agent#Tools#Browser Use#BuxFather

精选理由

这是一个低摩擦 agent 上手的实际产品更新，H/K/R 都够。但来源单一，正文没披露性能、限制、定价边界或采用情况，所以分数压在 60–71 区间。

一句话点评

Browser Use 搞了个 BuxFather，在 Telegram 里点几下就能启动一个带浏览器的完整电脑环境，AI agent 24/7 自己跑还能自我改进。关键是不用注册、不用付费，对重度 Telegram 用户来说确实方便。但正文没披露具体能跑什么任务、有没有使用限制，这点先别太激动。即开即用这个思路挺省事，但实际能干啥还得看后续。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:04

32d ago

r/LocalLLaMA· rssEN00:04 · 05·13

用 H200 花几美元微调 TranslateGemma-4B，让英语和威尔士语双向翻译更好

作者开源了一个微调 TranslateGemma-4B 的仓库，专门优化英语和威尔士语的双向翻译。只跑了 5% 的训练量，在 H200 上花了 40 分钟、几美元成本，用来验证流程能跑通。正文没披露用了多少数据，也没给 BLEU 或 COMET 分数，所以效果到底多好还不清楚。作者还在等 Flash Attention v4 出正式版，打算之后上 B2...

#Fine-tuning#TranslateGemma#NVIDIA#Open source

精选理由

HKR-H 和 HKR-K 成立：低成本 H200 微调和 40 分钟耗时提供了新信号。HKR-R 受限，加上正文没披露数据集规模和 BLEU/COMET 结果，整体属于正常开源实践范畴。

一句话点评

有人用 H200 花了 40 分钟、几美元微调 TranslateGemma-4B 做英语-威尔士语双向翻译，只跑了 5% 的训练量，主要是验证流程能跑通。成本确实低，但正文没披露用了多少数据，也没给 BLEU 或 COMET 分数，效果到底多好还不清楚。作者还在等 Flash Attention v4 正式版，打算之后上 B200 云实例跑完整训练。这点先别太激动，目前更像一个可复现的 d...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

00:00

32d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·13

Claude Code 加了个 /goal 指令，让模型自己跑到任务做完

Claude Code 新上线了 /goal 功能，你下完指令后 Claude 会持续干活直到任务完成，不用人在旁边盯着。帖子没写这个功能怎么触发、哪些版本能用、要不要额外付费，也没提任务卡住或跑偏时怎么处理。

#Agent#Code#Tools#Anthropic

精选理由

HKR 三项都过，因为 /goal 解决的是 Claude Code 用户常遇到的 agent 中途停摆问题。这只是 Anthropic 单功能更新，细节披露不多，所以放在 featured 低位，不算当天重磅消息。

一句话点评

Claude Code 加了个 /goal 功能，下完指令它会自己干到完，不用人盯。但帖子没写卡住了怎么办、哪些版本能用、要不要加钱。

锐评

Anthropic 给 Claude Code 加了一个 /goal 指令，让模型接到任务后持续执行直到完成，不再需要人在旁边一步步确认。这对开发者来说，相当于把“助手”往“干活的人”又推了一步，减少了来回交互的摩擦。但这条帖子信息量很薄。正文没披露 /goal 的触发机制，是自动判断任务终点还是靠用户预设完成条件？也没提任务跑偏或陷入死循环时有没有熔断机制。另外，哪些 Claude Code 版本支持、是否涉及额外 API 调用费用，这些关键点一概没写。我会先打个折：功能方向是对的，但实际体验取决于它怎么定义“完成”。如果只是简单循环重试而没有进度反馈或中断策略，那离真正的自主干活还有距离。等官方文档出来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

32d ago

● P1OpenAI 博客· rssEN00:00 · 05·13

OpenAI 回应 TanStack npm 供应链攻击：员工设备受影响

OpenAI 确认有两台公司电脑在 5 月 11 日的“Mini Shai-Hulud”供应链攻击中受影响，攻击者通过被篡改的 TanStack 开源库（npm 包）进入内部，从这两台设备能接触到的部分代码仓库里偷走了一些凭证。OpenAI 说没发现用户数据、生产系统或核心知识产权被碰过，被偷的凭证也没被实际利用。作为预防，他们正在更换所有应用的代码签...

#Safety#OpenAI#TanStack#Incident

精选理由

OpenAI 发了一份安全公告，确认 TanStack 的“Mini Shai-Hulud”npm 供应链攻击影响到了自家应用，macOS 用户要在 6 月 12 日前更新。正文没披露攻击具体怎么进来的、影响了哪些版本、有没有数据泄露，技术细节基本为零。所以这条消息的实际分量就卡在“官方认了、给了截止日”这个层面，没法往深了挖。我会先打个折，把它放在 featured 的入门线附近，等后续有更多技术复盘再往上调。

一句话点评

OpenAI 承认两名员工电脑因 npm 包投毒中招，部分内部代码仓库的凭证被偷，但用户数据和产品没受影响。macOS 用户需在 6 月 12 日前更新应用，否则旧版会被系统拦截。

锐评

这事说白了就是一次供应链连坐：TanStack 这个开源库被植入恶意代码，OpenAI 内部有两台员工设备没来得及打上新的安全补丁，结果中招了。攻击者从这两个员工能访问的代码仓库里偷走了一些凭证，但 OpenAI 说被偷的凭证数量有限，没发现后续利用，也没动到用户数据或核心模型。比较实在的动作是，他们发现被偷的仓库里包含各平台应用的签名证书，所以现在全部换新。macOS 用户最受影响，必须在 6 月 12 日前更新 ChatGPT 桌面版、Codex 等应用，否则旧证书一撤，系统会直接拦下不让跑。Windows 和 iOS 用户倒不用管。不过，正文没披露那两台员工设备到底跑了什么恶意行为、偷走的凭证具体能访问哪些系统，也没说第三方取证公司查到了什么程度。OpenAI 自己承认，之前 Axios 事件后就在推新的供应链防护措施，但这次中招的两台设备恰好还没部署到位。这点说明安全策略落地有滞后，不是方案本身无效，而是铺开速度没跟上攻击节奏。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

32d ago

Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·13

AI 行业在找一个新指标：从“烧了多少 token”转向“干成了多少事”

Salesforce 和百度几乎同时推出了新的 Agent 计费指标，前者叫 AWU（数完成的任务数），后者叫 DAA（数活跃的 agent 数）。核心逻辑是把衡量标准从“消耗了多少算力”换成“完成了多少产出”。文章指出，用 token 当指标会激励平台让用户多烧 token，而新指标会倒逼平台帮用户省 token、快完成任务。两个方案都还粗糙，没有第...

#Agent#Salesforce#Baidu#Commentary

精选理由

评分维持68：HKR-H/R通过，因为代理指标从Token转向任务完成直接击中成本和ROI争议；HKR-K不通过，因为定义、计费规则和实验数据均未披露。

一句话点评

Salesforce和百度几乎同时推出新计费指标，核心逻辑是把衡量标准从“消耗了多少算力”换成“完成了多少产出”。文章指出，用token当指标会激励平台让用户多烧token，而新指标会倒逼平台帮用户省token、快完成任务。两个方案都还粗糙，没有第三方审计，百度方案更像叙事工具。但方向对了：指标换了，激励就换了。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

32d ago

AI HOT 精选· aihot-apiZH00:00 · 05·13

每天121封邮件，AI帮你筛到只剩6封

风投人Tom Tunguz预测，五年内没人会一天打开五次Gmail。现在知识工作者日均收121封邮件，相当于工作时段每4分钟一封。AI处理方案用自然语言规则+个人邮件历史做上下文，敏感数据走本地模型，收据自动转发报销、销售线索自动进CRM并生成草稿。最终收件箱消失，只剩真正重要的6条消息。正文没披露具体产品名或实测延迟，但思路很直接：把邮件处理从手动分...

#Agent#Tools#Memory#Tom Tunguz

精选理由

H/K/R三项都过，但这是一篇生产力评论，不是产品发布或研究论文，没有可复现的设置或新成果，所以落在60-71分区间。

一句话点评

风投人Tom Tunguz预测五年内没人一天开五次Gmail。现在知识工作者日均收121封邮件，相当于工作时段每4分钟一封。AI方案用自然语言写规则+个人邮件历史做上下文，敏感数据走本地模型，收据自动转发报销、销售线索自动进CRM并生成草稿。最终收件箱消失，只剩6条真正重要的消息。正文没披露具体产品名或实测延迟，但思路很直接：把邮件处理从手动分拣变成个人AI助理。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-05-12 · 星期二2026年5月12日

23:40

32d ago

FEATURED彭博科技· rssEN23:40 · 05·12

Alibaba、Tencent AI投入面临投资者盈利审视

彭博报道，中国投资者在财报季要求阿里和腾讯证明，几百亿美元AI投入到底赚没赚钱。正文没披露具体利润数字、支出明细或时间表，所以目前只能判断市场情绪转向务实——先看到回报，再给估值溢价。

#Alibaba#Tencent#Commentary

精选理由

HKR-H和HKR-R成立：彭博把阿里和腾讯的AI投入包装成财报季的利润检验，悬念感和相关性都够。HKR-K不成立：正文只给了压力描述，没有利润指标、投入明细或时间表，信息不完整，所以落在mid all档。

一句话点评

阿里和腾讯的 AI 故事到了要交成绩单的时候，投资者开始从看增长转向看利润。

锐评

阿里和腾讯在 AI 上的投入正面临投资者的盈利拷问。Bloomberg 的报道点出一个关键转折：市场不再只盯着 AI 带来的增长故事，而是要看这些投入能不能变成真金白银。阿里刚发的财报里，整体营收没达到预期，尽管他们在努力把 AI 商业化。这篇报道的正文被付费墙挡住了，只抓到了标题和摘要，所以具体的营收数字、AI 业务的收入占比、利润率变化这些关键数据都没法核实。从标题判断，两篇文章放在一起看，态度有点微妙——一边说投资者在忽略缓慢的增长、赌 AI 的潜力，另一边又在强调“给我看利润”。对从业者来说，这其实是个信号：大厂的 AI 投入正在从“讲故事”阶段进入“算账”阶段。但到底 AI 业务贡献了多少收入、成本结构怎么样、什么时候能盈亏平衡，这些正文都没披露，没法下判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

23:15

32d ago

FEATUREDr/LocalLLaMA· rssEN23:15 · 05·12

有人把 Transformer 语言模型塞进了原装 Game Boy Color 里跑

maddiedreese 把 Andrej Karpathy 的 TinyStories-260K 模型成功跑在了一台没改过硬件的 Game Boy Color 上。他用 INT8 量化权重、定点数运算，把模型和 KV 缓存塞进 MBC5 卡带的 bank-switched ROM 和 SRAM 里，全程不靠手机、电脑、Wi-Fi 或云端推理。不过输出...

#Inference-opt#Code#maddiedreese#Andrej Karpathy

精选理由

一个 Reddit 硬件 hack，把 TinyStories-260K 塞进原装 Game Boy Color，用 INT8 和定点数学跑推理，KV cache 放在卡带 SRAM 里。输出慢到没法用，而且基本是乱码，所以别当产品看。但能在这种老设备上把 transformer 跑起来，本身就挺酷，技术细节也给得实在，适合当一条有趣的行业花絮。

一句话点评

有人把 Transformer 模型塞进了没改过的 Game Boy Color，用卡带存权重和缓存，但输出极慢且基本是乱码。

锐评

这条新闻的趣味性远大于实用性，但技术思路挺有意思。作者 maddiedreese 把 TinyStories-260K 这个极小的语言模型，通过 INT8 量化和定点数运算，硬塞进了 Game Boy Color 的 MBC5 卡带里。模型权重和推理时需要的 KV 缓存，分别存在卡带的 ROM 和 SRAM 上，全程不依赖任何外部设备，是真正的本地运行。不过，先别激动。正文明确说了，输出“极慢”且“基本是乱码”。这很正常，Game Boy Color 的 CPU 主频只有 8MHz 左右，内存也极小，能跑起来已经是极限了，生成质量完全没保障。这更像一个“能跑”的概念验证，而不是一个“能用”的工具。这条信息最大的缺口是没披露具体的推理延迟，比如生成一个 token 要多少秒。另外，也没说这个“乱码”是完全随机，还是偶尔能蹦出几个有意义的词。如果后续能给出哪怕一个勉强通顺的输出样例，说服力会强很多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:13

32d ago

FEATUREDAI HOT 精选· aihot-apiZH23:13 · 05·12

Andrej Karpathy 说，AI 编程账单九成花在了没用的上下文上

Karpathy 点出几个常见的浪费行为：每次请求都把整个代码库丢给模型、用最贵的模型干简单活、Agent 重复发送相同内容。他给的省钱思路是管好上下文、打开提示词缓存、按任务难度分模型——日常用便宜的，关键任务再上贵的，再建一个 SKILL.md 文件避免每次都重新教模型。正文没给出具体测试数据，但逻辑上确实能省。

#Agent#Code#Tools#Andrej Karpathy

精选理由

Karpathy 这条吐槽本身信息量不大，但胜在把“无效上下文”这个老问题用账单浪费的角度重新讲了一遍。我会先打个折：正文没给出具体账单样本或可复现的测试，所以没法验证 90% 这个数字。不过它确实把三种典型浪费场景列清楚了——重复传代码库、杀鸡用牛刀、不开缓存——对正在付钱的开发者有直接参考价值。这点先别太激动，但值得看一眼自己的 API 调用是不是也犯了这些毛病。

一句话点评

Karpathy 说九成 AI 编程账单花在没用的上下文上，比如每次都把整个代码库丢给模型。省钱思路很直白：管好上下文、开缓存、简单活别用贵模型。

锐评

这条推文本身没给测试数据，更像经验总结，但逻辑上确实能省。Karpathy 点出的浪费行为很具体：每次请求都塞整个代码库、用最贵的模型干简单活、Agent 重复发相同内容。他建议按任务难度分模型——日常用便宜的，关键任务再上贵的，再建一个 SKILL.md 文件避免每次都重新教模型。这些操作门槛不高，但效果可能比调参更直接。我会先打个折：正文没披露具体能省多少，也没说这些优化在不同场景下的实际收益。比如提示词缓存对长对话有效，但短任务可能差别不大；多模型路由听起来好，但切换模型可能引入风格不一致的问题。另外，Kimi 2.6 和 Opus 的组合是他举的例子，不一定适合所有人的技术栈。还缺两样东西：一是量化数据，比如开了缓存后延迟和成本具体降了多少；二是边界条件，什么情况下这些优化会失效。如果只是转发观点而没有实测，这条的价值就停在“提醒”层面。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:04

32d ago

r/LocalLLaMA· rssEN23:04 · 05·12

新优化器 STAM 号称训练成本砍半，但没给基准测试细节

Reddit 用户 assemsabryy 的自研优化算法 STAM 被 SSRN 收录。论文称在部分实验中训练计算成本最高降 50%，但正文没披露具体 benchmark 和对比条件。STAM 全称 Stable Training with Adaptive Momentum，核心思路是自适应动量让训练更稳。50% 这个数字看着挺省钱，但没交代是在什...

#Inference-opt#Benchmarking#SSRN#assemsabryy

精选理由

HKR里K勉强过关：帖子给出了可验证的“最多降50%”训练成本说法，但Reddit自报加上SSRN收录本身说服力弱，而且没披露基准和复现条件，从业者很难直接参考。

一句话点评

Reddit 用户自研的优化算法 STAM 被 SSRN 收录，号称训练计算成本最高降 50%。核心思路是自适应动量让训练更稳。50% 这个数字看着挺省钱，但正文没披露具体 benchmark 和对比条件，也没说在什么模型、什么任务上测的。SSRN 是预印本平台，不是顶会，验证力度弱。短评：省钱数字诱人，但缺 benchmark 细节，先别太激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

23:00

32d ago

彭博科技· rssEN23:00 · 05·12

1789 Capital 合伙人上 Bloomberg 聊 SpaceX 和 Cerebras 的 IPO

这是一段 Bloomberg 电视采访，1789 Capital 的合伙人 Paul Abrahimzadeh 在节目里聊了 SpaceX 和 Cerebras 的上市话题。正文没有披露具体时间、估值、发行结构或交易条款，所以目前只能知道有人在公开场合讨论这两家明星公司的 IPO 前景，但拿不到任何硬数字或判断依据。

#1789 Capital#Paul Abrahimzadeh#SpaceX#Funding

精选理由

Bloomberg 来源可信，Cerebras IPO 对 AI 硬件市场有一定关联。但 HKR-K 不通过，因为这条内容没给出估值、时间线或交易细节，属于低价值信息段。

一句话点评

1789 Capital合伙人在Bloomberg电视上聊了SpaceX和Cerebras的IPO前景，但正文没披露任何具体时间、估值或发行条款。目前只能确认有人在公开场合讨论这两家明星公司上市，拿不到硬数字或判断依据。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

23:00

32d ago

彭博科技· rssEN23:00 · 05·12

中国AI硬件供应商被零部件短缺卡住脖子

彭博社报道，中国AI硬件供应商正面临零部件短缺，需求却“吃不饱”。正文被屏蔽，没披露具体缺什么零件、交期多长、哪些供应商受影响、订单量多大。信息缺口明显，但短缺本身说明供应链压力在加剧。

#Inference-opt#Bloomberg#Incident

精选理由

Bloomberg 的权威性和中国 AI 硬件瓶颈支撑 HKR-H 和 HKR-R。HKR-K 不成立，因为正文缺少组件名称、交付周期或订单规模，所以归入 all 而非 featured。

一句话点评

彭博社报道中国AI硬件供应商零部件短缺，需求却“吃不饱”。但正文被屏蔽，没披露具体缺什么零件、交期多长、哪些供应商受影响、订单量多大。信息缺口明显，但短缺本身说明供应链压力在加剧。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

22:32

32d ago

Product Hunt · AI· rssEN22:32 · 05·12

Mi：一个30行代码的零配置CLI编程助手，修Bug和重构专用

Mi是一个极简的自主编程助手，整个核心只有30行代码，一个JavaScript文件，不需要装框架，依赖只有Node内置模块。它用循环调用大模型——问模型要不要用工具，执行，把结果喂回去，重复。内置两个工具：bash（能跑任何系统命令）和skills（按需加载Markdown写的操作手册），足够它读仓库、写代码、跑测试、修Bug。支持任何兼容OpenAI...

#Agent#Code#Mi#Product update

精选理由

小 Product Hunt 工具发布：HKR-H 和 HKR-R 通过，但 HKR-K 偏弱。它只说了“30 行零配置”加 bug 修复/重构两个场景，没有模型、价格、权限模型或测试结果。

一句话点评

30行代码的编程Agent，核心就是一个循环：问模型要不要用工具、执行、把结果喂回去。内置bash（能跑任何系统命令）和skills（按需加载Markdown操作手册），够它读仓库、写代码、跑测试、修Bug。支持任何兼容OpenAI的API，包括本地模型。开源免费，但正文没披露具体用哪个模型、跑一次修Bug要多少轮调用、成本多高。极简是卖点，但效果完全取决于你接的模型，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

22:24

32d ago

r/LocalLLaMA· rssEN22:24 · 05·12

Derpy Turtle：给 Kokoro 语音模型做微调的 Windows 图形界面，训练时间从 26 小时降到 4 小时

Reddit 用户 Great-Investigator30 发布了一个叫 Derpy Turtle 的 Windows 图形界面工具，专门用来微调 Kokoro 语音模型，并配合 RVC 做声音转换。作者说用 CPU 跑一次训练大概要 26 小时，换成 RTX 3060 用 CUDA 加速后只要 4 小时，成本降了不少。不过正文没披露训练数据量、模型...

#Audio#Tools#Great-Investigator30#Kokoro

精选理由

这是一条 Reddit 个人工具发布，属于 LocalLLaMA 社区的音频细分方向。RTX 3060 上的耗时数据（26h→4h）提供了可参考的信号，但整体仍是一个小型开源产品更新，重要性在 60–71 区间。

一句话点评

一个Reddit用户做了个Windows图形界面工具Derpy Turtle，用来微调Kokoro语音模型并配合RVC做声音转换。亮点是训练时间从CPU的26小时降到RTX 3060的4小时，成本大幅降低。但正文没披露训练数据量、模型效果对比，也没说是否支持批量处理或多人声。适合想低成本玩语音克隆的爱好者，但效果和稳定性需要自己试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:13

32d ago

彭博科技· rssEN21:13 · 05·12

黄仁勋年薪降27%，股票奖励缩水至3630万美元

英伟达CEO黄仁勋2026财年总薪酬降至3630万美元，降幅27%，主要原因是股票奖励价值缩水。正文被Bloomberg付费墙挡住，没披露具体缩水原因和业绩挂钩细节。

#Nvidia#Jensen Huang#Personnel

精选理由

HKR中H和K通过，因为27%的降薪幅度和3630万美元的薪酬数字都有信息量，且与英伟达AI业务火热形成反差。R不通过，这是公司治理新闻，不是模型、算力供给或开发者工具相关的内容，对从业者决策帮助不大。

一句话点评

黄仁勋2026财年薪酬降27%至3630万美元，主因股票奖励缩水。但正文被付费墙挡住，没披露缩水是股价跌了还是业绩没达标，也没说跟业绩挂钩的具体条款。这点先别太激动——薪酬下降未必是坏事，可能只是股票授予节奏调整。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

21:00

32d ago

FT · 科技· rssEN21:00 · 05·12

中国科技巨头在AI股市热潮中表现落后

FT说腾讯和阿里这类大公司没像纯AI概念股那样涨。正文没披露具体涨跌幅和对比时间段，所以这点先别太激动——可能只是短期炒作没轮到它们，不代表基本面有问题。

#Tencent#Alibaba#FT#Commentary

精选理由

标题有钩子，但正文只提腾讯阿里落后于纯AI标的，没披露具体回报率或时间窗口，信息不够支撑判断。这是市场评论，不是AI能力或产品故事。

一句话点评

中国科技巨头没赶上这波AI股市狂欢，涨幅远低于美国同行。FT这篇付费墙后的文章没给具体数字，但核心判断是：市场更看好美国AI公司，中国巨头受制于芯片管制和监管不确定性。这点先别太激动——正文没披露对比数据，也没说哪些公司掉队。缺的是涨幅差距的具体百分比、以及中国公司是否有追赶动作。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

20:42

32d ago

r/LocalLLaMA· rssEN20:42 · 05·12

本地跑大模型怎么提速？有人用 7900XTX 跑 Qwen2 7B，80k 上下文 40 token/s

一位用户在 Reddit 上分享了自己的本地推理配置：Ryzen 5 7600X + Radeon 7900XTX 24GB，用 llama.cpp 和 Vulkan 跑 Qwen2 7B Q4 量化版，80k 上下文窗口下达到 40 token/s。他想知道不升级硬件，只改软件能不能把上下文拉到 120-140k、速度提到 60 token/s。帖子...

#Inference-opt#Tools#Reddit#Qwen

精选理由

这是一条Reddit求助帖，不是新方法、新机制或验证过的结果。有硬件和速度数字，但缺少可复现的优化手段。

一句话点评

一位 Reddit 用户用 AMD 7900XTX（24GB）跑 Qwen2 7B 量化版，80k 上下文下达到 40 token/s，想不升级硬件只靠软件优化把上下文拉到 120-140k、速度提到 60 token/s。帖子正文被屏蔽，看不到具体配置和讨论。40 t/s 对本地 7B 模型来说已经不错，但 80k 上下文下显存压力不小，想再拉长上下文和提速，关键看是否用了 Flash A...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:31

32d ago

FEATUREDAI HOT 精选· aihot-apiZH20:31 · 05·12

OpenAI 演示 Codex 在 Mac 上跨应用后台干活，不用占着你的电脑

OpenAI 开发者账号发了一段演示，Codex 能跨 Mac 应用点击、输入、在后台持续执行任务，不会锁住你的鼠标键盘。视频里 @AriX 和 @romainhuet 聊了这种代理能干的事，但正文没披露发布时间、权限怎么设计、以及这次开放给哪些用户。

#Agent#Tools#Code#OpenAI

精选理由

我会先打个折：正文只有一段演示描述，没给发布时间、权限模型、可用范围，所以重要性停在 76 分。钩子很直接——Codex 能在 Mac 后台帮你跨应用点按钮、填文字，听着像本地 RPA 但由模型驱动。这点先别太激动，因为没交代它怎么拿系统权限、会不会误操作、有没有沙箱。对开发者来说，这要么是桌面 agent 的一大步，要么是个安全坑，得等更多细节。

一句话点评

OpenAI 演示了 Codex 在 Mac 上跨应用后台干活，不占鼠标键盘，但没提什么时候能用、权限怎么管。

锐评

这条演示最直接的价值是：Codex 不再只是帮你写代码，而是能像人一样操作你的 Mac 应用，点击、输入、在后台持续跑任务，还不会锁住你的鼠标键盘。这对需要跨多个工具串流程的开发者来说，省掉的是反复切换和等待的时间。但正文只放了一段视频和几句对话，关键信息全缺。发布时间没给，权限设计没说——它要拿多大的系统权限才能跨应用点击输入？安全边界怎么划？这次是给所有开发者用，还是小范围内测？这些不交代，演示再流畅也只能当概念片看。我会先打个折：后台持续执行听着强，但实际稳定性、应用兼容性、以及出错了怎么回滚，视频里都没展示。等有真实用户跑通完整任务链再判断不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:43

32d ago

彭博科技· rssEN19:43 · 05·12

iOS 27 相机 App 可自定义界面，Siri 也要改设计

彭博社报道，苹果计划在 iOS 27 中给相机 App 做一个完全可自定义的界面，专业用户能自己调整按钮布局和功能。标题还提到 Siri 会有设计改动，但正文没披露具体改了啥——是交互方式、视觉风格还是底层机制，目前不清楚。

#Apple#Product update

精选理由

H/K 通过：Bloomberg 给出了 iOS 27 相机可定制化的具体细节，加上苹果/Siri 的标题钩子。AI 相关性弱，Siri 机制未披露，属于常规产品更新。

一句话点评

iOS 27 相机 App 支持专业用户自定义按钮布局和功能，Siri 有设计改动但正文没披露具体改了啥。彭博社爆料，可信度较高，但 Siri 部分信息缺口大，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

19:30

32d ago

FEATUREDAI HOT 精选· aihot-apiZH19:30 · 05·12

阶跃星辰发了 Step Image Edit 2，35 亿参数在指令修图榜 KRIS-Bench 上拿了综合、事实、概念三项第一

这个 35 亿参数的图像模型在 KRIS-Bench 指令修图评测里，综合、事实和概念三个类别都排第一，跑赢了参数大它五六倍的模型。能干的事包括文生图、按指令改图、中英文文字渲染，以及保持主体一致的风格迁移。官方说生成快、单次编辑成本低，但没给出具体延迟和价格数字。模型已经上线阶跃开放平台，可以直接用。

#Vision#Multimodal#Benchmarking#StepFun

精选理由

我会先打个折：目前只有厂商自报成绩，没有第三方复现或定价信息，所以别急着全信。但35亿参数能在KRIS-Bench三个子项都排第一，说明小模型做图像编辑这条路走得通，对在意推理成本的人是个好消息。正文没披露训练数据规模和具体推理延迟，这两点会直接影响实际能用在哪。

一句话点评

35亿参数小模型在KRIS-Bench修图评测里拿了三个第一，跑赢大它五六倍的模型，但官方没给延迟和价格，这点先别太激动。

锐评

阶跃星辰发了Step Image Edit 2，一个35亿参数的图像模型，主打指令修图。在KRIS-Bench这个评测集上，综合、事实和概念三个类别都排第一，压过了参数大它五六倍的对手。能干的事包括文生图、按指令改图、中英文文字渲染，还有保持主体一致的风格迁移。官方说生成快、单次编辑成本低，但正文没披露具体延迟数字和价格，也没说明KRIS-Bench的测试集规模和样本分布。35亿参数确实小，推理成本理论上会低，但实际能省多少、响应速度多快，得等上线后自己跑才知道。模型已经上了阶跃开放平台，可以直接用。我会先打个折：榜单第一是好事，但修图类评测主观性强，KRIS-Bench的评分标准是否贴近真实使用场景，正文也没交代。建议拿自己的图跑几组对比，看看文字渲染和风格迁移在复杂场景下稳不稳。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1