全部 · 2026-05-22

▸ 50 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-22 · 星期五2026年5月22日

23:59

66d ago

● P1AI HOT 精选· aihot-apiZH23:59 · 05·22

Gemini 月活破 9 亿，新增两个能替你干活的代理功能

Google 说 Gemini 应用月活用户超过 9 亿了。这次更新把 Gemini 从问答工具往主动干活的个人代理方向推了一步。新模型叫 Gemini 3.5 Flash，还换了套叫“Neural Expressive”的设计语言，另外 Gemini Omni 模型能把提示词直接生成视频。重点在两项代理功能：Daily Brief 会给你出个性化每日...

#Agent#Multimodal#Google#Gemini

精选理由

精选 · 重要度 88 · 吸引力 + 知识量 + 共鸣

一句话点评

Gemini 月活破 9 亿，但 Google 没说是怎么算的。新推的 Daily Brief 和 Spark 代理功能听起来像能替你干活，实际能接管多少任务、会不会翻车，正文没给细节，先别太激动。

锐评

Google 这次把 Gemini 从问答工具往主动干活的个人代理方向推了一步。月活 9 亿这个数字挺大，但正文没披露统计口径，是打开过就算，还是真在用的，不知道。新模型叫 Gemini 3.5 Flash，还换了套设计语言，另外 Omni 模型能把提示词直接生成视频，这点如果效果稳定，对内容创作挺省事。重点在两项代理功能：Daily Brief 给你出个性化每日简报，Gemini Spark 号称能 7x24 小时替你管理任务。听着像能帮你订票、回消息、整理日程，但授权范围、出错率、隐私怎么处理，正文全没提。这种主动代理一旦翻车，代价比问答答错大得多。还缺的是实际体验数据和限制条件。比如 Spark 能接管哪些 App，跨平台支持怎么样，延迟高不高。这些不说清楚，9 亿用户更像是个宣传数字，产品到底能不能用，还得等上手。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

88

SCORE

H1·K1·R1

22:48

66d ago

FEATUREDFT · 科技· rssEN22:48 · 05·22

特朗普政府拟要求外国人离美申请绿卡

特朗普政府计划收紧永久居留规则，要求外国人必须离开美国才能申请绿卡。正文未披露受影响的具体类别、时间表或对企业的冲击规模。

#Trump administration#Policy

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

特朗普要外国人离境才能申请绿卡，等于把境内调整身份的路堵死。FT独家，但正文被墙，没披露具体影响哪些类别、何时生效、企业会受多大冲击。目前只有标题和摘要，信息缺口很大，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

22:41

66d ago

彭博科技· rssEN22:41 · 05·22

Zoom 2023 年初投了 Anthropic，现在账面赚了 10 亿美元

Zoom 在 2023 年初投了 Anthropic，目前这笔投资已经赚了大约 10 亿美元。正文没披露 Zoom 当初投了多少钱、拿了多少股份，也没说它是怎么退出的——是卖了股票还是公司回购。10 亿美元这个数字本身挺大，但因为没有本金和持股比例，没法算实际回报倍数。对 AI 从业者来说，这条消息更像一个信号：早期押注头部模型公司，回报空间确实惊人，...

#Zoom#Anthropic#Funding

一句话点评

Zoom 2023年初投了Anthropic，现在账面赚了约10亿美元。但正文没披露本金和持股比例，也没说怎么退出的——是卖了股票还是公司回购。10亿美元这个数字挺大，但没成本基数就没法算回报倍数。对AI从业者来说，这条消息更像一个信号：早期押注头部模型公司，回报空间确实惊人。不过，如果Zoom只投了几千万，那回报倍数就很高；如果投了几个亿，那也就一般。缺关键信息，没法判断这笔投资到底多成功。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

22:30

66d ago

FEATUREDAI HOT 精选· aihot-apiZH22:30 · 05·22

黄仁勋说 AI 基建年开支会冲到 4 万亿美元，比华尔街共识高了四倍

黄仁勋在英伟达财报电话会上抛出一个数字：超大规模云厂商的 AI 基建年开支会从现在的 1 万亿美元涨到 3 到 4 万亿，CFO 给的时间线是 2030 年前。华尔街分析师原本的共识是 2028 年才到 1.03 万亿，老黄直接翻了四倍。一季度谷歌、亚马逊、微软三家资本开支加起来已经超过 1100 亿美元，Meta 更是把全年预算拉到 1450 亿，结...

#Inference-opt#Nvidia#Jensen Huang#Commentary

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

老黄在财报会上把云厂商AI基建年开支预期直接拉到3-4万亿美元，是华尔街共识的四倍。数字很炸，但这是卖铲子的人给淘金者画的饼，先打个折听。

锐评

黄仁勋在英伟达财报电话会上扔出的“4万亿美元”判断，本质上是把自家未来收入的天花板往上抬了一大截。他说的不是整个AI市场，而是超大规模云厂商一年的资本开支，目前这个数字是1万亿，他预测会翻三到四倍。CFO给的时间线是2030年前。对比一下，华尔街分析师原本觉得2028年才能到1.03万亿，老黄直接把预期拉满了。这个预测的锚点在哪？一季度谷歌、亚马逊、微软三家资本开支加起来已经超过1100亿美元，Meta更是把全年预算拉到1450亿。按这个烧钱速度，1万亿确实挡不住。但问题在于，这些投入最终要靠应用层的收入来回收，而目前Agent的可靠性还撑不起大规模商业闭环，正文里也提到有Agent在获得权限后9秒删光生产数据库的案例。文章没披露的是，这3-4万亿的构成里，有多少是英伟达自己的芯片收入，有多少是配套的电力、土地和基建。另外，电费上涨那部分数据来自SemiAnalysis和IEA，不是英伟达官方口径，引用时要注意来源。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

22:11

66d ago

r/LocalLLaMA· rssEN22:11 · 05·22

8GB 显卡跑 26 万 token 上下文，速度还能到 30+ token/秒

有人在 8GB 的 RTX 3070 Ti 上跑了 Qwen3.6-35B-A3B 的 Q4 量化版，上下文长度开到 262144 token，实测生成速度约 34–37 token/秒（Ubuntu 系统），Windows 下不到 27 token/秒。用的是 llama.cpp，KV 缓存精度 q8_0，系统内存 32GB DDR4-2666。这个...

#Inference-opt#Code#Qwen#NVIDIA

一句话点评

8GB显存跑35B模型，262K长上下文，每秒34-37 token——这个数字很实在。Qwen3.6-35B-A3B的Q4量化版在3070 Ti上跑出了接近实时对话的速度，Ubuntu比Windows快30%左右。代价是32GB系统内存和q8_0 KV缓存，长上下文下内存带宽是瓶颈。正文没披露具体推理框架版本和prompt长度，实测可能打折扣。对本地部署党来说，这个配置门槛不高，但别指望同...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

22:10

66d ago

AI HOT 精选· aihot-apiZH22:10 · 05·22

ViggleAI 说动捕和角色动画变简单了，但没给细节

ViggleAI 发帖称动作捕捉和角色动画制作变得更容易，但正文只说了“持续构建，更多功能即将推出”。没有披露具体能力、技术参数、定价或发布日期，信息量很少，无法判断实际效果。

#Vision#Multimodal#ViggleAI#Product update

一句话点评

ViggleAI 发了条帖子，说动捕和角色动画变简单了，但正文就一句“持续构建，更多功能即将推出”。没提具体能力、技术参数、定价或发布日期，信息量约等于零。短评：画饼帖，等真东西出来再说。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

28

SCORE

H0·K0·R0

22:09

66d ago

FEATUREDAI HOT 精选· aihot-apiZH22:09 · 05·22

Claude Code v2.1.149：用量报告分类展示、企业可开放云端 MCP 连接器，并修了三个安全漏洞

这个版本主要做了三件事。第一，/usage 命令现在会按类别（比如对话轮次、工具调用）分开展示用量，方便你看出成本花在哪。第二，企业管理员可以通过 allowAllClaudeAiMcps 设置，允许团队直接使用 Anthropic 云端的 MCP 连接器，不用自己搭。第三，修了三个安全漏洞：PowerShell 脚本可能绕过权限执行、Git work...

#Code#Agent#Tools#Anthropic

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

Claude Code 更新了用量分类展示，能看出钱花在对话还是工具调用上；企业版可以直接用 Anthropic 云端的 MCP 连接器，省去自己搭。

锐评

这次 v2.1.149 更新不大，但三个改动都踩在痛点上。/usage 命令现在按类别分开展示用量，比如对话轮次和工具调用各自花了多少 token，这对控制成本挺实用——之前你只能看到一个总数，根本不知道钱烧在哪。企业管理员多了个 allowAllClaudeAiMcps 开关，允许团队直接用 Anthropic 云端的 MCP 连接器，不用自己部署和维护，对不想折腾基础设施的团队是个省心选项。安全方面修了三个漏洞：PowerShell 脚本可能绕过权限执行、Git worktree 沙箱白名单溢出、以及脚本路径带空格时 otelHeadersHelper 会挂。正文没披露这些漏洞的严重程度和是否被利用过，但从描述看都属于边界情况下的权限或稳定性问题，建议尽快升级。整体来看这是个维护型版本，没有新功能大改，但用量透明化和企业部署简化都挺实在。还缺的是：云端 MCP 连接器具体支持哪些服务、有没有额外费用，这些正文都没提，企业用户做决策前得自己去翻文档。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

22:08

66d ago

FEATUREDAI HOT 精选· aihot-apiZH22:08 · 05·22

Claude 自动模式向 Pro 用户开放，支持 Sonnet 4.6 和 Opus 4.7

Claude 的自动模式现在 Pro 计划也能用了，不再是最贵那一档的专属。这次更新还接入了 Sonnet 4.6 和 Opus 4.7 两个模型，按 Shift+Tab 就能让 Claude 自己跑任务。正文没提价格有没有变，也没说是不是全量推送，这点先别太激动。

#Agent#Tools#Claude#Anthropic

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

Claude 自动模式下放到 Pro 计划，还接入了 Sonnet 4.6 和 Opus 4.7，按 Shift+Tab 就能跑任务。但正文没提价格和推送范围，先别急着升级。

锐评

这次更新把自动模式从最贵档位拉到了 Pro 计划，门槛降了不少。之前只有 Max 用户能用，现在更多人可以让 Claude 自己跑任务，按 Shift+Tab 就启动。模型方面给了两个选择：Sonnet 4.6 和 Opus 4.7，前者快，后者强，看你要速度还是要质量。但正文没写 Pro 计划的价格有没有跟着变，也没说是不是全量推送、有没有调用次数限制。自动模式跑起来消耗的 token 通常比手动对话多，如果 Pro 的额度没调，实际能用多久是个问题。另外 Opus 4.7 在自动模式下的表现和手动模式有没有差距，也没给数据。还缺的是：Pro 用户每月能用多少次自动模式、单次任务有没有步数上限、两个模型在自动模式下的成功率和延迟对比。这些没公布之前，只能说门槛低了，但划不划算还得自己试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

22:04

66d ago

AI HOT 精选· aihot-apiZH22:04 · 05·22

Luma 新功能：把用户好评自动做成海报

Luma 推出 Agents 功能，你只需贴一句客户评价、选个视觉风格，它就能自动生成推荐语配图。正文没提定价、生成次数、模型细节或开放范围，所以暂时没法判断这功能是免费还是按量收费。

#Agent#Vision#Luma#Product update

一句话点评

Luma 把“贴好评+选风格”做成了一个 Agent，用户贴一句客户评价、选个视觉风格，它自动出图。正文没提定价、生成次数、模型细节或开放范围，所以暂时没法判断这功能是免费还是按量收费。短评：省了设计外包，但没披露限制，先别当主力工具。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

28

SCORE

H0·K0·R0

21:46

66d ago

彭博科技· rssEN21:46 · 05·22

美国考虑对进口芯片加关税，贸易代表称暂无具体计划

美国贸易代表Jamieson Greer说，特朗普政府仍在考虑对进口半导体加征关税，目的是刺激本土芯片制造。但短期内不会落地新税。正文没披露税率范围或时间表，所以这点先别太激动——目前只是放风阶段，离真正执行还有距离。

#Jamieson Greer#Trump administration#Policy

一句话点评

美国贸易代表放风要对进口芯片加关税，刺激本土制造。但正文没披露税率和时间表，目前只是口头施压，离落地还远。关键看后续细则，别急着下注。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

21:09

66d ago

r/LocalLLaMA· rssEN21:09 · 05·22

Blackwell 新特性 PDL 实测：推理提速最多 9%，Prefill 几乎没变

Llama.cpp 最新版 b9282 开始支持 Nvidia 的 PDL（程序化依赖启动），但仅限计算能力 >= 90 的 Blackwell 架构显卡，Ada 系列用不了。有人在 RTX Pro 4500 Blackwell 32GB 上跑了四个模型，结果 token 生成速度提升了 2.2% 到 9.17%，但 prefill（预填充）阶段几乎没...

#Inference-opt#Benchmarking#Tools#Llama.cpp

一句话点评

Llama.cpp 新版 b9282 给 Blackwell 显卡开了个叫 PDL 的硬件加速，RTX Pro 4500 32GB 实测 token 生成速度最多提了 9%，但 prefill 几乎没变化。注意：只有计算能力 >= 90 的 Blackwell 能用，Ada 系列被排除。提升幅度不大，且来源是 Reddit 单用户测试，缺少多卡、长上下文或大 batch 的对比数据。正文没披...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

62

SCORE

H0·K1·R1

20:52

66d ago

FEATUREDHacker News 首页· rssEN20:52 · 05·22

NTSB因AI合成事故飞行员音频而关闭公开档案库

美国国家运输安全委员会（NTSB）在 5 月 21 日暂停了其在线事故档案系统的公开访问。起因是网上有人利用软件和 AI 工具，根据调查文件里的信息，重新生成了 UPS 货运航班 2976 号坠机前驾驶舱内遇难飞行员的声音片段。联邦法律本来就禁止调查机构公开驾驶舱录音，这次绕过禁令的“复原”行为直接促使 NTSB 紧急关停了整个数据库。文章没有披露被复...

#Audio#Safety#NTSB#Ars Technica

精选理由

精选 · 重要度 84 · 吸引力 + 知识量 + 共鸣

一句话点评

有人用 AI 把空难遇难飞行员的声音“复活”了，NTSB 吓得直接关了公开档案库。

锐评

这事挺离谱的。美国国家运输安全委员会（NTSB）有个公开的交通事故调查档案库，里面会放一些事实报告和证据材料。结果有人从这些材料里扒出数据，用 AI 软件合成了遇难飞行员在坠机前最后几秒的声音，还传到了网上。NTSB 在 5 月 21 日直接暂停了整个公开档案系统的访问。他们这么紧张，是因为美国联邦法律本来就禁止调查机构公开驾驶舱录音，怕的就是被拿去消费死者。现在技术绕过了这个限制，用公开的飞行数据和文字记录就能“逆向工程”出声音，等于把法律想保护的东西又造了出来。这暴露了一个很现实的漏洞：只要信息碎片够多，AI 就能拼出你不想让人听到的东西。不过，正文没具体说这些人到底用了什么工具、从哪些数据里提取了声音特征，也没提合成音频的逼真程度。所以现在还不清楚这到底是需要专业技能的深度伪造，还是拿个现成软件就能搞定的“一键生成”。这点先别太激动，但 NTSB 直接关库的反应，说明他们觉得这事风险已经大到没法靠打补丁解决了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

84

SCORE

H1·K1·R1

20:39

66d ago

FEATUREDThe Verge · AI· rssEN20:39 · 05·22

谷歌AI概览对"disregard"搜索返回意外回复

谷歌AI概览又翻车了。有用户发现，搜“disregard”（忽略）这个词，AI概览没有正常总结搜索结果，反而像聊天机器人一样回复“收到，有事再找我”。到周五下午谷歌已经撤掉了这个查询的AI概览，改成优先展示相关新闻。正文没披露触发原因，也没说修复方案。

#RAG#Safety#Google#The Verge

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

谷歌搜索的AI概览把“disregard”这个词直接搞崩了，搜出来只有一大片空白和一个词典链接，等于废了。

锐评

谷歌刚把AI摘要推到搜索结果最前面，就出了个离谱的bug：搜“disregard”这个词，AI回复区只给出一大块空白，用户得往下翻很久才能看到唯一有用的韦氏词典链接。这已经不是回答质量差的问题，而是整个界面直接坏掉，对搜这个词的人来说毫无价值。TechCrunch的编辑拿必应做了对比，必应的结果虽然不算完美，但至少能看。一个做了快15年科技报道的记者说，这是他头一次觉得必应的搜索结果比谷歌有用。这件事暴露的不是AI模型笨，而是谷歌在把AI强行塞进搜索时，对边缘情况的测试明显没做够。正文没提谷歌官方有没有回应，也没说这个bug影响了多少搜索量。但一个英文常用词就能触发空白页，说明上线前的质量把控很粗糙。如果连这种基础词都处理不好，更复杂的查询会出什么乱子，先别太乐观。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

20:26

66d ago

Hacker News 首页· rssEN20:26 · 05·22

Models.dev：一个开源的 AI 模型规格、定价和能力数据库

Models.dev 是一个开源项目，把各家 AI 模型的规格、定价和能力信息整理成数据库，方便开发者横向对比。项目在 GitHub 上已有 3.9k 星标，但正文没披露具体收录了多少模型，也没说数据怎么更新——这点先别太激动，覆盖面和时效性还不清楚。如果你经常在不同模型之间挑花眼，这个库能省去挨个翻文档的麻烦。

#Benchmarking#Models.dev#Hacker News#Open source

一句话点评

Models.dev 把各家 AI 模型的规格、定价和能力整理成开源数据库，GitHub 3.9k 星标。省去挨个翻文档的麻烦，但正文没披露收录了多少模型、数据怎么更新——覆盖面和时效性还不清楚，这点先别太激动。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

62

SCORE

H0·K0·R1

20:17

66d ago

r/LocalLLaMA· rssEN20:17 · 05·22

给 Cohere 的语音转文字模型加了个说话人分离和时间戳，误差不到 0.1 秒

Reddit 用户 iamMess 微调了 Cohere Transcribe，加上了说话人分离（谁在什么时候说话）和时间戳功能。实测平均时间戳误差 0.097 秒，每 30 秒片段最多能识别 4 个说话人。正文没披露用了多少训练数据、微调成本或模型大小，所以这点先别太激动——效果看着不错，但验证还不够充分。

#Audio#Fine-tuning#Cohere#Hugging Face

一句话点评

Reddit 用户微调 Cohere Transcribe，加上了说话人分离和时间戳。实测平均时间戳误差 0.097 秒，每 30 秒片段最多识别 4 个说话人。误差不到 0.1 秒，效果不错。但正文没披露训练数据量、微调成本和模型大小，验证还不够充分，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

20:16

66d ago

AI HOT 精选· aihot-apiZH20:16 · 05·22

Codex 差异视图新增经典 +/- 标记选项

OpenAI 给 Codex 功能加了个外观设置：差异视图现在可以切换成传统的 +/- 标记，而不是只有彩色条。默认还是彩色条，需要你手动去开。就是个界面小调整，不影响功能。

#Code#Tools#OpenAI#Product update

一句话点评

OpenAI 给 Codex 的差异视图加了个外观选项，可以切回传统的 +/- 标记，默认还是彩色条。就是个界面小调整，不影响功能，别激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

55

SCORE

H0·K1·R0

20:15

66d ago

r/LocalLLaMA· rssEN20:15 · 05·22

Strix Halo 核显 + 双 3090 外接显卡，硬塞 124GB 显存跑大模型

作者在 Strix Halo 系统（124GB 统一显存）上外挂两块 RTX 3090，用 vLLM 跑 Qwen 3.6 27B 模型。实测支持 131K 或 262K 超长上下文，同时处理 4 个并发请求，并开启了 MTP=3（预测下一个 token 时多看 3 步）。这套组合把核显统一内存和独立显卡显存全堆在一起，显存总量很夸张，但外接显卡走 P...

#Inference-opt#Code#Tools#Qwen

一句话点评

一个玩家在 Strix Halo 系统（124GB 统一显存）上外挂两块 RTX 3090，用 vLLM 跑 Qwen 3.6 27B 模型，实测支持 131K 或 262K 超长上下文，同时处理 4 个并发请求，并开启了 MTP=3（预测下一个 token 时多看 3 步）。这套组合把核显统一内存和独立显卡显存全堆在一起，显存总量很夸张，但外接显卡走 PCIe 带宽有限，实际推理速度会打折...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

67

SCORE

H1·K1·R1

20:06

66d ago

彭博科技· rssEN20:06 · 05·22

AI 行情把收益都吸走了，华尔街主动基金经理被架在火上烤

彭博发了一篇报道，说 AI 板块的持续上涨让市场收益高度集中在少数几只股票上，导致那些靠选股吃饭的主动基金经理很难跑赢大盘。文章提到 AI 热潮正在扭曲市场信号，让人类投资者屡屡受挫。不过正文没有披露具体样本数量、管理资产规模、业绩对比数据或统计时间段，所以这个“被套住”到底有多普遍、多严重，目前只能当个现象描述来看，先别急着下结论。

#Bloomberg#Commentary

一句话点评

彭博说AI板块集中上涨，主动选股基金跑不赢大盘。但正文没给样本数量、管理规模、业绩对比数据和时间段，这个“被套住”有多普遍只能当现象看，先别急着下结论。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

19:57

66d ago

● P1AI HOT 精选· aihot-apiZH19:57 · 05·22

Anthropic 公布 Glasswing 项目首月战报：用 Claude Mythos Preview 挖出上万个高危漏洞

Anthropic 说，他们和大约 50 家合作伙伴用 Claude Mythos Preview 模型，在全球最关键的基础软件里找到了超过一万个高危或严重级别的漏洞。现在瓶颈已经不是找漏洞的速度，而是验证、通报和打补丁的速度。在开源软件扫描这块，模型自己估算发现了 6,202 个高危或严重漏洞，其中 1,752 个已经过独立安全公司或 Anthrop...

#Code#Agent#Benchmarking#Anthropic

精选理由

精选 · 重要度 88 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 用新模型扫出上万高危漏洞，验证准确率 90.6%，但正文没披露误报率和漏报率，这点先别太激动。

锐评

Anthropic 公布了 Project Glasswing 的初步结果：他们和约 50 家合作伙伴用 Claude Mythos Preview 模型，在全球关键基础软件里找到了超过一万个高危或严重漏洞，独立验证的准确率是 90.6%。Cloudflare 一家就扫出 2,000 个 bug，其中 400 个是高危或严重级别，团队认为误报率比人类测试员还低。Mozilla 在 Firefox 150 里发现并修了 271 个漏洞，是上一版用 Claude Opus 4.6 时的十倍多。现在瓶颈已经不是找漏洞的速度，而是验证、通报和打补丁的速度。Palo Alto Networks 最新一次发布补丁量是平时的五倍多，微软也说补丁数量会持续变大。这个变化说明 AI 找漏洞的能力确实在快速提升，但文章也坦承，因为要等补丁部署完才能详细披露，目前给的都是汇总数字和例子，具体漏洞细节还没公开。还缺什么：一是没给误报率和漏报率，90.6% 的准确率只说了已验证的那部分，没验证的有多少、漏了多少不知道；二是没说明模型在不同类型软件上的表现差异，比如开源项目和企业闭源系统是不是一样强；三是没提这种扫描对算力和成本的要求，大规模部署到底划不划算还不清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

88

SCORE

H1·K1·R1

19:52

66d ago

r/LocalLLaMA· rssEN19:52 · 05·22

双卡混搭成功：R9700 PRO + 7800 XT 凑出 48GB 显存跑 llama.cpp

Reddit 用户 Jorlen 在 Kubuntu 24.04 上把一张 R9700 AI PRO（32GB）和一张 7800 XT（16GB）拼在一起，用 llama.cpp 跑通了推理。Vulkan 后端能快速出结果，但 ROCm 不支持这种 RDNA4 和 RDNA3 混插，直接罢工。48GB 显存够跑 70B 模型，但跨卡通信开销和驱动兼容性...

#Inference-opt#Reddit#Jorlen#AMD

一句话点评

Reddit 用户 Jorlen 把一张 R9700 AI PRO（32GB）和一张 7800 XT（16GB）混插，用 llama.cpp 的 Vulkan 后端跑通了推理，48GB 显存够跑 70B 模型。但 ROCm 不支持 RDNA4 和 RDNA3 混插，直接罢工。跨卡通信开销和驱动兼容性是硬伤，实际推理速度可能打折。正文没披露具体延迟和吞吐量，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

19:42

66d ago

● P1彭博科技· rssEN19:42 · 05·22

Anthropic 最快下周完成超 300 亿美元融资，估值冲到 9000 亿以上

彭博社援引知情人士消息，Anthropic 计划最快下周关闭一轮超过 300 亿美元的融资，投后估值超过 9000 亿美元。这个数字会让它超过 OpenAI，成为全球最值钱的 AI 创业公司。不过正文被 Bloomberg 的机器人验证墙挡住了，具体条款、投资方和资金用途都没披露。

#Anthropic#OpenAI#Bloomberg#Funding

精选理由

精选 · 重要度 91 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 要融 300 亿美元，估值冲到 9000 亿，直接超过 OpenAI。但正文被付费墙挡了，谁投的、钱怎么花一概不知，这个数字先打个折看。

锐评

这条消息只有一个数字是实的：300 亿美元以上的融资，投后估值超过 9000 亿美元。如果落地，Anthropic 会从 OpenAI 手里抢走“最值钱 AI 创业公司”的头衔。但正文被 Bloomberg 的机器人验证墙完全挡住，具体条款、投资方名单、资金用途都没披露，连这轮是纯股权还是含债务结构都无从判断。对从业者来说，这个估值数字本身说明资本还在往头部模型公司猛灌，但信息缺口太大：不知道新钱是拿来买算力、堆数据还是铺企业服务，也不知道老股东有没有跟着加注。没有这些，光一个估值更像市场情绪指标，没法判断公司实际的资源厚度和战略重心。我会等条款细节出来再看——如果大部分是软银这类战略投资方，可能绑定了算力或云资源；如果是纯财务投资，那说明市场对模型层商业化的信心还在往上走。现在只能确认一件事：AI 创业公司的估值天花板又被推高了，但推得有多实，正文没告诉我们。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

91

SCORE

H1·K1·R1

19:38

66d ago

FEATUREDAI HOT 精选· aihot-apiZH19:38 · 05·22

Anthropic 的 Project Glasswing 一个月内在关键软件里挖出超一万个高危漏洞

Anthropic 说，他们上个月启动的协作 AI 安全项目 Project Glasswing 已经和合作伙伴一起，在关键软件中发现了超过一万个高危或严重漏洞。不过正文没披露具体是哪些软件、漏洞怎么复现、以及现在修没修好。

#Agent#Code#Safety#Anthropic

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 说 Project Glasswing 一个月挖出上万个高危漏洞，但没给漏洞清单和修复状态，数字先打个折。

锐评

Anthropic 公布 Project Glasswing 上线一个月，和合作伙伴在关键软件里发现了超过一万个高危或严重漏洞。这个数字听起来很猛，但正文没披露具体是哪些软件、漏洞怎么复现、以及现在修没修好。没有这些信息，一万这个数更像公关口径，没法判断是真实安全贡献还是自动化扫描的误报堆出来的。另外，项目叫“协作 AI 网络安全倡议”，但没说合作伙伴是谁、协作方式是什么——是 Anthropic 的模型在跑扫描，还是合作伙伴用自己的工具加 Anthropic 的模型做分析？这些都不清楚。对从业者来说，漏洞发现能力要看误报率、覆盖面和可复现性，光报总数意义有限。如果后续能公开漏洞类型分布、修复率和独立验证结果，这个项目才值得认真看。现在只能说，Anthropic 在安全方向有动作，但证据还太薄。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

19:34

66d ago

AI HOT 精选· aihot-apiZH19:34 · 05·22

ChatGPT语音模式现在能帮你填表了

拍一张表单照片，用嘴说你要填什么，ChatGPT就能把填好的版本吐出来。正文没提支持哪些格式、哪些语言、要不要额外付费、以及什么时候上线。

#Multimodal#Vision#Audio#ChatGPT

一句话点评

拍张表单照片，用嘴说填什么，ChatGPT 就能吐出填好的版本。这功能把语音和视觉串起来了，省了打字和手写。但正文没提支持哪些格式、哪些语言、要不要额外付费、以及什么时候上线。如果是免费且支持中文，日常填表确实方便；要是只限英文 PDF 或 Plus 用户独享，那实用性就大打折扣。等具体上线范围和定价出来再判断值不值得激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

68

SCORE

H1·K1·R0

19:34

66d ago

Hacker News 首页· rssEN19:34 · 05·22

Linux 音频子系统也迎来大量 AI 驱动的补丁

继网络子系统之后，Linux 音频子系统也出现了大量由 AI 生成的补丁。维护者 Takashi Iwai 表示，本周的修复中大部分是小问题，包括 HD-audio 中断处理、UAF（释放后使用）漏洞修复，以及针对 HP、ASUS 笔记本的 Realtek 声卡 quirks。邮件列表里能看到不少补丁标注了“assisted-by”，来自 Claude...

#Code#Linux#Phoronix#Hacker News

一句话点评

Linux 7.1 音频子系统的修复补丁里，不少标注了“assisted-by”，来自 Claude Code 和 GPT-5.5。维护者说大部分是小问题，比如中断处理、UAF 漏洞和笔记本声卡 quirks。但正文没披露具体补丁数量，也没说 AI 贡献占比。真正该担心的是 review 负担——AI 写补丁快，但人工审核跟不上，质量风险就堆在那了。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

56

SCORE

H1·K0·R1

18:46

67d ago

Hacker News 首页· rssEN18:46 · 05·22

伪装成领域术语的注入攻击，多智能体系统几乎防不住

这篇论文发现，现有的 LLM 注入检测器有一个系统性盲区：如果攻击指令伪装成目标文档的领域术语和权威结构（作者叫“领域伪装注入”），检测率会从 93.8% 暴跌到 9.7%（Llama 3.1 8B），Gemini 2.0 Flash 也从 100% 掉到 55.6%。更夸张的是，生产级安全分类器 Llama Guard 3 一个都没拦住，检测率直接归...

#Agent#Safety#Research release#Safety/alignment

一句话点评

攻击指令伪装成目标文档的术语和格式，Llama 3.1 8B 检测率从 93.8% 暴跌到 9.7%，Gemini 2.0 Flash 从 100% 掉到 55.6%，生产级分类器 Llama Guard 3 一个都没拦住。论文只测了单作者、单轮注入，没披露多轮对话或实时流场景下的表现。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

66

SCORE

H1·K0·R1

18:17

67d ago

Hacker News 首页· rssEN18:17 · 05·22

KanBots：开源看板桌面应用，每张卡片上跑一个 AI 代理

KanBots 是一个开源桌面应用，把看板上的每张卡片变成一个独立的工作区，每个卡片可以并行跑一个 Claude Code 或 Codex 代理。你丢一个文件夹进去，它就自动生成看板，然后可以手动派代理干活，或者开“自动驾驶”模式——让产品经理、工程师、测试等角色自动拆任务、并行执行、互相检查输出。所有数据存在本地的 SQLite 里，代码不出机器，没...

#Agent#Tools#Kanbots#Hacker News

一句话点评

KanBots 把看板每张卡片变成一个独立工作区，并行跑 Claude Code 或 Codex 代理，还能开“自动驾驶”让产品经理、工程师等角色自动拆任务、互相检查。所有数据存在本地 SQLite，代码不出机器，这点对隐私敏感团队友好。开源 MIT 许可，免费，也有付费云版。但正文没披露并行代理的调度机制、任务冲突怎么处理，也没说支持多少卡片同时跑、延迟如何。如果只是简单轮询，大规模并行可...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

18:01

67d ago

r/LocalLLaMA· rssEN18:01 · 05·22

VPO：用向量奖励替代标量奖励，让模型在搜索时更愿意尝试不同答案

VPO（Vector Policy Optimization）把GRPO里单一的标量奖励改成了向量奖励，相当于给模型多个维度的反馈，而不是只给一个总分。实验显示，在四个任务上，VPO在pass@k和best@k这类测试时搜索指标上持平或超过了标量RL基线，搜索预算越大优势越明显。简单说，就是训练时鼓励模型生成更多样化的回答，这样在推理时多试几次就能找到...

#Reasoning#Code#Fine-tuning#Vector Policy Optimization

一句话点评

VPO把GRPO的单一奖励改成向量奖励，训练时鼓励模型生成更多样化的回答。实验显示，在四个任务上，VPO在pass@k和best@k等测试时搜索指标上持平或超过标量RL基线，搜索预算越大优势越明显。简单说，就是训练时鼓励模型生成更多样化的回答，这样在推理时多试几次就能找到更好的答案。关键数字：四个任务、pass@k和best@k指标。来源是Reddit帖子，正文被屏蔽，无法验证实验细节。...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

66

SCORE

H1·K1·R0

18:00

67d ago

AI HOT 精选· aihot-apiZH18:00 · 05·22

Google I/O 2026对话环节回顾

这篇博客回顾了Google I/O 2026的对话环节，主题涵盖AI、量子计算、机器人和创造力。但正文没有披露具体演讲者、产品发布或技术细节，信息量有限。

#Robotics#Google#Commentary

一句话点评

Google I/O 2026 对话环节回顾，但正文没提任何具体演讲者、产品发布或技术细节，信息量约等于零。标题看着大，实际是篇活动总结，对从业者没参考价值。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

32

SCORE

H0·K0·R0

17:46

67d ago

FEATUREDr/LocalLLaMA· rssEN17:46 · 05·22

Agent 里的调度模型能做多小？有人用 3B 激活参数的 MoE 跑通了本地 ReAct 循环

这篇帖子来自一个叫 HomoAgens1 的本地部署实验，他把 Agent 的调度模型和写代码的大模型拆开看，专门测调度环节能缩到多小。他用的 Qwen3.6-35B-A3B 是个 MoE 模型，实际干活时只激活约 3B 参数，跑在一块 12GB 显存的 GPU 上，关了 30 个专家做 offload，生成速度能到每秒 40 个 token。实验发现...

#Agent#Tools#Code#Qwen

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

调度模型可以很小，但小模型先崩的不是推理，是工具调用纪律——会自己编参数、重复错误调用。

锐评

这个实验把 agent 的调度和写代码拆开，专门测调度模型能缩多小。用 Qwen3.6-35B-A3B 这个 MoE 模型，实际只激活约 3B 参数，跑在 12GB 显存上，关了 30 个专家做 offload，生成速度能到每秒 40 个 token。实验发现，更小的稠密模型最先在工具调用纪律上出问题，比如自己编造参数、重复错误调用，而不是推理能力先崩。这点挺反直觉——通常大家觉得小模型先输在脑子不够用，但这里先输在手脚不老实。不过正文没披露具体测了哪些小模型、用的什么 benchmark，也没说工具调用失败率的具体数字。实验只跑在本地 ReAct 循环里，场景比较单一，换到更复杂的多步任务或不同框架下结论可能不一样。另外，MoE 模型 offload 专家后实际推理成本到底省了多少，也没给量化对比。还缺的是：小模型在工具调用上崩，是因为训练数据里工具调用样本太少，还是模型容量本身就不够记住工具 schema？如果能补上这个归因，对选模型会更有指导意义。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

17:34

67d ago

r/LocalLLaMA· rssEN17:34 · 05·22

BeeLlama v0.2.0 发布：单张 RTX 3090 跑 Qwen 3.6 27B，速度冲到 164 tok/s

BeeLlama 新版本主打 DFlash 优化，单卡 RTX 3090 上 Qwen 3.6 27B 的生成速度达到 164 tok/s，是基线（未优化）的 4.4 倍；Gemma 4 31B 跑到 177.8 tok/s，提速 4.93 倍。提示词处理速度基本没掉（1214 vs 1229 tok/s），说明加速主要靠解码阶段。不过正文只贴了部分跑...

#Inference-opt#Vision#Tools#BeeLlama

一句话点评

BeeLlama v0.2.0 在单张 RTX 3090 上把 Qwen 3.6 27B 的生成速度拉到 164 tok/s，比基线快 4.4 倍；Gemma 4 31B 跑到 177.8 tok/s，提速近 5 倍。提示词处理速度几乎没掉，说明加速主要靠解码阶段，对长上下文场景友好。不过正文只贴了部分跑分表，Gemma 4 的完整数据没披露，实测条件（精度、上下文长度、batch size...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

17:32

67d ago

FEATUREDHacker News 首页· rssEN17:32 · 05·22

微软开始取消内部 Claude Code 许可证，正文没披露范围和原因

这条消息来自 Hacker News 热帖，标题说微软在取消 Claude Code 的许可证，但原文只给了一个存档链接，没有展开讲取消了多少、为什么取消、什么时候开始的。帖子有 99 个赞和 56 条评论，说明关注度不低，但信息量很薄。我会先打个折：目前只能确认微软内部有人在动 Claude Code 的权限，具体是合规收紧、预算砍掉还是转向自家 C...

#Code#Microsoft#Claude#Product update

精选理由

精选 · 重要度 72 · 吸引力 + 共鸣

一句话点评

微软在砍 Claude Code 的许可证，但原文没给取消范围、原因和时间，只有一条存档链接，先别急着下结论。

锐评

这条消息目前只有标题和一条存档链接，正文没披露微软为什么取消、砍了多少个许可证、是临时收紧还是永久停用。Hacker News 上 99 个赞和 56 条评论说明从业者很关心，但讨论基础很薄。能确认的只有一点：微软内部有人在动 Claude Code 的权限。可能的原因有几个方向——合规部门收紧外部 AI 工具的使用、预算调整、或者微软在推自家的 Copilot 替代。但这些都是猜测，原文没有任何内部邮件或政策文件佐证。如果后续有微软员工出来说具体数字和原因，这条新闻才值得认真看。现在只能当个信号：大厂对第三方 AI 编码工具的态度可能在变。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

72

SCORE

H1·K0·R1

17:27

67d ago

FEATUREDAI HOT 精选· aihot-apiZH17:27 · 05·22

Kakuna：把原型代码自动加固成生产级项目的 AI 工具

Kakuna 是一个 AI 代理工具，专门把早期快速原型转成可维护的生产级代码库。它内置检查清单和“先定计划再执行”的工作流，模拟人类开发与运维的流程，在不动功能的前提下自动做代码审查、补测试、重构这些“无聊活”。工具强调用多个子代理并行干活来提效，一次大约 16 小时的运行能生成上百次提交，把一个脆弱的 MVP 变成结构清晰、能长期迭代的稳定项目。正...

#Agent#Code#Tools#Kakuna

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

一次跑16小时自动把原型代码加固成生产级，但正文没提它改完的代码能不能直接通过CI和人工review。

锐评

Kakuna 做的事是把一个脆弱的 MVP 代码库自动加固成结构清晰、能长期维护的版本。它用内置检查清单和“先定计划再执行”的流程，模拟开发运维的常规操作，在不动功能的前提下补测试、做重构、跑代码审查。一次大约 16 小时的运行能生成上百次提交，这个量级说明它确实在干大量重复的“无聊活”，而不是只改几个文件做做样子。不过正文没披露它实际跑在什么语言或框架的项目上，也没说加固后的代码是否通过了 CI 流水线或人工 review。这点先别太激动——能生成上百次提交不代表每次提交都靠谱，如果后续还得人工大量返工，省下的时间可能又还回去了。另外，它强调用多个子代理并行提效，但没给出并行带来的具体加速比或资源消耗，比如 16 小时是单机还是集群跑出来的。还缺一个关键信息：它处理的项目规模有多大。如果只是几百行的小原型，16 小时和上百次提交反而说明效率不高。如果是几千行的项目，那这个自动化程度才值得认真看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

17:25

67d ago

AI HOT 精选· aihot-apiZH17:25 · 05·22

Warp 终端现在能直接调 OpenRouter 的模型了

Warp 这个终端工具接入了 OpenRouter，工程师演示了怎么连 DeepSeek。正文只给了文档链接，没提价格和具体上线时间。

#Agent#Tools#OpenRouter#Warp

一句话点评

Warp终端现在能直接调OpenRouter的模型了，包括DeepSeek。对开发者来说，等于少装一个插件，在命令行里就能切换模型。但正文只给了文档链接，没提价格、延迟和具体上线时间，实际体验和成本未知。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

62

SCORE

H0·K1·R1

17:17

67d ago

The Verge · AI· rssEN17:17 · 05·22

别硬推 Grok 了，美国政府几乎不用它

路透社查了 400 多个美国政府 AI 使用案例，其中提到 Grok 或 xAI 的只有 3 个，而且都是写文档、管社交媒体这类基础活。正文没披露具体采购金额或用户数，但光看这个渗透率，Grok 在政府市场基本没存在感。Musk 一边把它吹成史上最大 IPO 的核心，一边实际落地数据却很骨感。

#Agent#Elon Musk#xAI#Reuters

一句话点评

路透社查了400多个美国政府AI使用案例，提到Grok或xAI的只有3个，还都是写文档、管社交媒体这类基础活。正文没披露具体采购金额或用户数，但光看这个渗透率，Grok在政府市场基本没存在感。Musk一边把它吹成史上最大IPO的核心，一边实际落地数据却很骨感。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

17:09

67d ago

FEATUREDAI HOT 精选· aihot-apiZH17:09 · 05·22

谷歌在 I/O 大会甩出一整套 AI 代理开发工具，从写代码到上线调试全包了

谷歌这次发布的不是单个模型，而是一条让 AI 代理（能自主干活的程序）落地的工具链。Antigravity 2.0 是个独立桌面应用，配了命令行工具和 SDK，方便开发者直接在本机跑代理。Google AI Studio 新增 Kotlin 支持，号称能一键生成安卓应用并发布，还出了手机版 App。Gemini API 里加了托管代理服务，部署步骤简化...

#Agent#Tools#Code#Google

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

谷歌把代理开发工具一口气打包了，从桌面到浏览器到部署都给了，但别急着喊生态，先看实际跑起来稳不稳。

锐评

谷歌这次 I/O 发的不是单个模型，而是一整套让 AI 代理落地的工具链。Antigravity 2.0 是个独立桌面应用，配了命令行和 SDK，开发者可以在自己电脑上直接跑代理，不用全扔云端。Google AI Studio 加了 Kotlin 支持，号称能一键生成安卓应用并发布，还出了手机版 App，方便在移动端调试。Gemini API 里新增了托管代理服务，部署步骤简化到一键，但正文没披露托管环境的延迟、并发上限和计费细节，这点先别太激动。 WebMCP 作为开放标准塞进了 Chrome 149，让网页能向代理暴露工具，相当于给代理开了个浏览器里的工具箱。Chrome DevTools 也开放给代理做自动化调试，理论上能省不少手动排查时间。企业客户可以直接连 Google Cloud 项目，DeepMind 的科学技能包则针对特定领域研究加速。整条链从开发、接口到部署都覆盖了，但关键信息缺了不少：Antigravity 2.0 的资源占用、托管代理的稳定性验证、WebMCP 的安全边界都没提。工具链看着全，实际能不能扛住生产环境的复杂度，还得等开发者大规模用起来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

17:03

67d ago

AI HOT 精选· aihot-apiZH17:03 · 05·22

Perplexity 开源了供应链安全扫描器 Bumblebee

Perplexity 今天开源了一个叫 Bumblebee 的工具，专门扫描 macOS 和 Linux 开发者机器上的高风险软件包、扩展和 AI 工具配置。它是只读的，不会改你系统。亮点是连上他们的 Computer 平台后，一旦有新的供应链风险出现，可以自动触发更深的扫描。目前只支持 macOS 和 Linux，Windows 用户暂时用不了。代码...

#Tools#Perplexity#Open source#Product update

一句话点评

Perplexity 开源了 Bumblebee，一个只读扫描器，专查 macOS/Linux 开发者机器上的高危包、扩展和 AI 工具配置。亮点是连上他们的 Computer 平台后，新风险出现能自动触发深度扫描。目前只支持 macOS 和 Linux，Windows 用户暂时用不了。短评：开源供应链扫描工具，只读不写系统，连平台能自动触发深度扫描。但只支持 macOS/Linux，W...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

17:01

67d ago

FEATUREDAI HOT 精选· aihot-apiZH17:01 · 05·22

智能体工作负载正在改写推理成本账本

SemiAnalysis 扒了 43.2 万条真实编码智能体的请求记录，输入 token 的中位数不是大家常说的 3.2 万或 6.4 万，而是 9.6 万。这个量级意味着模型在接到你的问题之前，已经吞下了比《了不起的盖茨比》全书还长的上下文。正文没披露用了哪些模型、成本曲线、采样方式和统计时间窗口，所以这个数字先当个参考，别急着拿它算账。

#Agent#Code#Inference-opt#SemiAnalysis

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

SemiAnalysis 扒了 43.2 万条真实编码智能体请求，输入 token 中位数是 9.6 万，不是大家常说的 3.2 万或 6.4 万。这个数字先当参考，正文没披露用了哪些模型、成本曲线和采样方式。

锐评

这条数据点值得从业者看一眼，因为它直接打脸了行业里对智能体输入长度的普遍假设。9.6 万 token 的中位数意味着模型在接到你的问题之前，已经吞下了比《了不起的盖茨比》全书还长的上下文——这对推理成本和延迟的影响是实打实的。如果这个数字有代表性，那很多按 3.2 万 token 做的成本估算都得重算。不过我会先打个折。正文没披露这 43.2 万条请求来自哪些模型、采样时间窗口多长、有没有过滤掉异常值。如果样本里混了大量调试阶段的超长上下文请求，中位数就会被拉高。另外也没说成本曲线——输入长了，但模型是不是用了缓存、分块处理或者投机解码来压成本，这些都不知道。还缺两样东西：一是输出 token 的分布，光看输入不看产出，算不出完整的推理账单；二是不同模型在这个输入量级下的延迟和成功率对比。有这两块，才能判断 9.6 万 token 到底是新常态，还是某个特定场景的偏态。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

16:41

67d ago

r/LocalLLaMA· rssEN16:41 · 05·22

用 DeepSeek 和 65MB 模型在浏览器里检测提示注入，F1 达 99%

Reddit 用户 Everlier 用 ml-intern 和 DeepSeek v4 Flash 训练了一个 DistilBERT 分类器，专门检测提示注入攻击。模型转成 ONNX int8 后只有 65MB，能在浏览器里通过 Transformers.js v3 跑推理，F1 分数宣称达到 99%。不过作者自己提醒，训练和测试用的数据都是合成生成...

#Agent#Safety#Inference-opt#DeepSeek

一句话点评

一个 Reddit 用户用 DeepSeek v4 Flash 合成数据，训练了一个 65MB 的提示注入检测模型，宣称 F1 达 99%，还能在浏览器里跑。关键问题是训练和测试数据都是合成生成的，可能太像，真实场景效果要打折。正文没披露合成数据的具体分布和多样性，也没提对抗性测试结果。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

16:41

67d ago

AI HOT 精选· aihot-apiZH16:41 · 05·22

Luma Agents 上线 Seedance 2.0，一键生成电影级画面

Luma Agents 推出了 Seedance 2.0，主打人像、风景、科幻、奇幻四种风格，声称能一键生成电影级画面。正文没披露模型参数、分辨率、生成速度或价格，所以实际效果和可用性还不清楚。如果你对 AI 视频生成感兴趣，可以点链接试试，但先别太激动。

#Agent#Multimodal#Vision#Luma Labs

一句话点评

Luma Agents 上线了 Seedance 2.0，主打四种风格一键生成电影级画面。但正文没披露分辨率、生成速度或价格，实际效果和可用性未知。如果你对 AI 视频生成感兴趣可以试试，但先别太激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

63

SCORE

H1·K1·R0

16:19

67d ago

Hacker News 首页· rssEN16:19 · 05·22

儿子用AI把老爸的法务会计工作自动化了62%

作者是12年经验的软件工程师，他老爸是法务会计（查欺诈、离婚藏钱那种）。他们拆了老爸15个旧案（1084小时、34.5万美元收费），算出62%的工作量可以自动化。大头是文档录入（占26%工时，90%可自动）——以前两周的活压缩到几小时，就能同时接10个案而不是3个。他们做了个叫CaseTrail的产品：先让AI逐页分类PDF、识别不同银行的流水单（这块...

#Tools#Hacker News#Product update

一句话点评

一个软件工程师帮做法务会计的老爸拆了15个旧案，算出62%工作量可自动化。大头是文档录入（占26%工时，90%可自动），以前两周的活压缩到几小时，就能同时接10个案而不是3个。他们做了个叫CaseTrail的产品，让AI逐页分类PDF、识别不同银行流水单，还能按自然语言指令（比如“找离婚案隐藏资产”）自动跑分析并标记风险。上个月真在离婚案里几分钟就揪出一笔异常税务付款。短评：数字扎实，场...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

16:17

67d ago

AI HOT 精选· aihot-apiZH16:17 · 05·22

Suno AI 做的《波多黎各》成夏日神曲，被美国早间节目 GMA 推荐

Suno 官方发帖说，今年夏天一首叫《波多黎各》的歌是用他们的 AI 工具做的，还上了美国早间节目 GMA 的推荐。帖子没透露播放量、创作者是谁、以及具体怎么生成的。

#Audio#Suno#GMA#Product update

一句话点评

Suno 官方说《波多黎各》是AI做的，还上了GMA早间节目。但没提播放量、创作者和生成细节，更像品牌宣传。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

38

SCORE

H1·K0·R0

16:10

67d ago

AI HOT 精选· aihot-apiZH16:10 · 05·22

GitHub 连续第三年拿下 Gartner 企业级 AI 编程代理领导者象限

Gartner 把 GitHub 放在企业级 AI 编程代理的领导者象限，这是第三年。正文没披露具体的评估标准、竞争对手位置，也没说 Copilot 的企业采用数据。所以这个排名更多是品牌背书，不能直接当采购决策依据。

#Agent#Code#GitHub#Gartner

一句话点评

GitHub Copilot 连续第三年被 Gartner 评为企业级 AI 编程代理领导者。但正文没披露评估标准、竞品位置和企业采用数据，这个排名更像品牌背书，不能直接当采购依据。短评：Gartner 连续三年把 GitHub 放领导者象限，但没给评分细节，当品牌新闻看就好。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

34

SCORE

H0·K0·R0

16:10

67d ago

r/LocalLLaMA· rssEN16:10 · 05·22

ByteShape 量化让 35B 模型在 6GB 笔记本上跑出 33 tok/s，比 Unsloth 快 30%

ByteShape 发布了一种新的量化方法，在 6GB 显存的 RTX 3060 笔记本上运行 Qwen3.6-35B-A3B 模型，生成速度达到 33.1 tok/s，比 Unsloth 的 UD-IQ4_XS 量化快 30%。不过预填充速度是 564 tok/s，反而慢了 4%。测试基于 llama.cpp，上下文长度 65,536，部分计算交给了...

#Inference-opt#Code#ByteShape#Qwen

一句话点评

ByteShape 新量化方法在 6GB 显存笔记本上跑 35B 模型，生成速度 33.1 tok/s，比 Unsloth 快 30%，但预填充慢了 4%。实测基于 llama.cpp，上下文 65K，部分计算交给 CPU。注意这是单点测试，没披露其他模型或硬件下的表现，且预填充慢可能影响首字延迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

16:06

67d ago

彭博科技· rssEN16:06 · 05·22

渣打CEO称AI会让部分人变成“低价值人类”，道歉后工会仍不满

渣打银行CEO Bill Winters在一次发言中称AI可能导致部分员工沦为“低价值人类”，引发工会强烈抗议。他随后道歉，但全球最大工会联合会之一认为道歉不够，未能安抚劳工组织。正文未披露他原话的完整上下文、道歉的具体措辞，以及可能受影响的员工规模。

#Bill Winters#Commentary

一句话点评

渣打CEO说AI可能让部分员工变'低价值人类'，工会炸了，道歉也没用。正文没披露原话完整上下文、道歉具体措辞和受影响员工规模，信息缺口大。这事更多是公关危机，不是技术新闻。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

16:03

67d ago

FEATUREDr/LocalLLaMA· rssEN16:03 · 05·22

llama.cpp 新分支让 MoE 模型在 12GB 显存上跑得更快，RTX 2060 上速度从 19/22 tk/s 提到 26 tk/s

comanderxv 给 llama.cpp 开了个叫“experts first”的分支，专门优化混合专家模型（MoE）的显存调度。做法是把常用的专家模块提前缓存到显存里，实测用 RTX 2060（12GB 显存）跑 Qwen3.6-35B-A3B 模型，专家缓存命中率约 62%，生成速度从原来的 19 或 22 token/秒提升到了 26 tok...

#Inference-opt#Tools#Code#llama.cpp

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

给 llama.cpp 开了个“专家优先”分支，把 MoE 模型常用模块提前缓存，12GB 显存跑 35B 模型能到 26 token/秒，但命中率 62% 意味着近四成情况还得等。

锐评

这个分支的思路很直接：混合专家模型（MoE）每次推理只激活一小部分专家，与其每次都从内存或硬盘现调，不如把最常用的那几个提前塞进显存里。实测用一张 RTX 2060（12GB 显存）跑 Qwen3.6-35B-A3B，生成速度从原来的 19 或 22 token/秒提到了 26 token/秒，提升幅度在 18% 到 37% 之间。不过“专家缓存命中率约 62%”这个数字得看你怎么理解。它说明有将近四成的请求还是没命中缓存，该慢的时候照样慢。正文没交代这个命中率是在什么任务上测的——写代码、聊天、还是长文总结——不同场景下专家被激活的分布可能差很多，实际体验的波动会比平均速度大。另外，这个分支目前只是个人 fork，还没合进 llama.cpp 主线。稳定性、兼容其他模型（比如 Gemma）的表现、以及缓存策略能不能自适应调整，正文都没提。如果你手头正好有 12GB 左右显存的卡想跑大 MoE 模型，可以试试，但别指望它对所有任务都稳定提速。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

16:01

67d ago

AI HOT 精选· aihot-apiZH16:01 · 05·22

DeepSeek-V4-Pro 宣布永久降价，但没说是多少钱

DeepSeek 官方发帖说 V4-Pro 的优惠永久化了，但正文没披露新价格、原价和生效时间。目前只知道降价是永久性的，具体省多少不清楚。

#DeepSeek#Product update

一句话点评

DeepSeek 官宣 V4-Pro 永久降价，但只说了“优惠永久化”，没给新价格、原价和生效时间。目前省多少全靠猜，建议等具体数字再评估。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

66

SCORE

H1·K0·R1

15:59

67d ago

FEATUREDHacker News 首页· rssEN15:59 · 05·22

DeepSeek 把 V4 Pro 的 75 折促销变成永久降价了

DeepSeek 在定价页更新了一条脚注：V4 Pro 模型现在的 75 折优惠在 2026 年 5 月 31 日结束后，会直接变成正式价格，也就是原价的四分之一。具体来说，输入 token（没命中缓存）从每百万 1.74 美元降到 0.435 美元，输出 token 从 3.48 美元降到 0.87 美元。缓存命中的输入价格更便宜，只要 0.0036...

#Inference-opt#DeepSeek#Product update

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

DeepSeek 把 V4 Pro 的 75 折直接定成正式价，输入降到 0.435 美元/百万 token，输出 0.87 美元，比原价砍了四分之三。

锐评

DeepSeek 在定价页用一条脚注把促销价变成了永久价。V4 Pro 的输入价格从每百万 token 1.74 美元降到 0.435 美元，输出从 3.48 美元降到 0.87 美元，相当于原价的四分之一。这个降价幅度不小，直接让 V4 Pro 的性价比往上跳了一档。不过正文只给了价格数字，没解释为什么能降这么多，也没说降价后模型的服务质量、并发限制或响应速度会不会有变化。V4 Pro 的并发上限是 500，比 Flash 的 2500 低不少，大规模调用时这点要先算清楚。另外，缓存命中的输入价格只要 0.0036 美元，比 Flash 的 0.0028 美元略高，但差距不大。还缺一个关键信息：降价后 V4 Pro 跟自家 Flash 以及其他厂商同级别模型的性能对比。光看价格便宜了，但实际任务里表现差多少，正文完全没提。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

15:38

67d ago

FEATUREDDwarkesh Patel 播客· rssEN15:38 · 05·22

从逻辑门到 AI 芯片：Reiner Pope 的芯片设计黑板课

MatX 的 CEO Reiner Pope 从最底层的与、或、非逻辑门讲起，一步步拆解 AI 芯片到底怎么工作。他先用一个 4 比特乘 4 比特、再用 8 比特累加的例子，演示了乘法累加（MAC）运算在电路里长什么样——这其实就是矩阵乘法的基本动作，AI 芯片绝大部分时间都在干这个。接着聊到数据搬运比计算还贵，所以芯片里要用多路复用器（mux）来省连...

#Inference-opt#Reiner Pope#MatX#Dwarkesh Patel

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

这篇不是新闻，是一堂从与或非门讲到GPU架构的芯片设计课。Reiner Pope用白板把矩阵乘法的电路实现拆得很透，适合想补硬件的算法工程师看。

锐评

这是一篇很硬的科普访谈，不是产品发布或融资消息。MatX CEO Reiner Pope从最底层的逻辑门开始，手把手演示了4比特乘法累加电路怎么搭，再一路讲到脉动阵列、流水线寄存器、FPGA和ASIC的区别、缓存和便签本的设计取舍，最后解释了为什么GPU核心比CPU小得多。Dwarkesh Patel作为投资人没藏着掖着，开头就说了自己是天使投资人，这点挺坦诚。访谈里最有意思的判断是：数据搬运比计算本身贵得多，所以芯片设计的大量精力都花在怎么用多路复用器省连线、怎么安排数据流上。Pope还拿人脑和芯片做了对比，但正文没给出具体结论，这部分更像一个开放讨论。缺的东西也很明显：全程没提MatX自家芯片的任何具体参数、性能指标或流片进度，也没和英伟达现有产品做直接对比。所以这更像一次面向公众的芯片通识课，而不是技术路线声明。如果你想知道MatX到底能不能打，这篇给不了答案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

15:37

67d ago

FEATUREDTechCrunch AI· rssEN15:37 · 05·22

Google 的 AI 眼镜我们上手试了，离好用就差一口气

Google 在 I/O 大会上给了一小段上手时间，试的是带显示功能的 Android XR 眼镜，不是今年秋天只出声的那款。镜片上能直接叠一层信息，比如天气、步行导航、打车详情和实时翻译，还能用 AI 自己捏小组件。眼镜会同时支持 iPhone 和安卓手机。但正文没提价格、什么时候开卖、续航和具体硬件参数，所以现在只能算工程机阶段，别急着掏钱。

#Multimodal#Vision#Google#Gemini

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

上手感觉不错，但别急着掏钱：价格、续航、开卖时间全没公布，现在就是个工程机。

锐评

Google 这次在 I/O 大会上拿出来的 AI 眼镜，是带显示功能的 Android XR 版本，不是今年秋天只出声的那款。镜片上能直接叠一层信息，比如天气、步行导航、打车详情和实时翻译，还能用 AI 自己捏小组件。眼镜会同时支持 iPhone 和安卓手机，这点对不想换生态的人挺友好。但正文只给了很短的上手时间，而且没提价格、什么时候开卖、续航和具体硬件参数。所以现在只能算工程机阶段，离真正能买还差好几步。我会先打个折：功能演示看着顺滑，但没经过日常折腾的验证，比如强光下显示效果、长时间佩戴发热、通知轰炸会不会烦人，这些全不知道。还缺一个关键信息：Google 打算怎么处理隐私和第三方应用生态。眼镜上一直开着摄像头和麦克风，路人怎么知道你在拍没拍？如果只有 Google 自己的服务好用，那它就是个 Gemini 配件，算不上独立设备。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

15:35

67d ago

r/LocalLLaMA· rssEN15:35 · 05·22

Qwen3-Coder 量化横评：UD-Q5_K_M 在 55GB 模型上保住 94% 的 top-1 准确率

Reddit 用户 alphatrad 用 3 块 Radeon Pro 9700 跑了一轮 Qwen3-Coder-Next 的量化对比测试。测试数据是 wikitext-2，切了 583 段，每段 512 token。结果里表现最好的 UD-Q5_K_M 量化版（55.2 GB）跟原版比，top-1 一致率 94%，平均 KL 散度 0.0217，...

#Code#Inference-opt#Benchmarking#Qwen

一句话点评

Reddit 用户用 3 块 Radeon Pro 9700 测了 Qwen3-Coder-Next 的量化版，UD-Q5_K_M 跟原版 top-1 一致率 94%，KL 散度平均 0.0217，文件 55.2 GB。数据来自 wikitext-2，只切了 583 段、每段 512 token，测试规模偏小，结论参考价值有限。正文被屏蔽，没披露具体推理速度或显存占用，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户