全部 · 2026-05-14

▸ 50 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-14 · 星期四2026年5月14日

23:54

74d ago

AI HOT 精选· aihot-apiZH23:54 · 05·14

Yetone 开源了一个 Agent Skill，让桌面应用代码写出原生手感

开发者 Yetone 把一篇桌面应用“最佳实践”文章做成了 Agent Skill，叫 native-feel-skill。Coding Agent 拿到这个 Skill 后，重构或开发跨平台桌面应用时，会自动遵循那些让界面响应快、交互跟手的写法，最终效果接近原生应用。项目代码已开源在 GitHub。正文没披露具体用了哪些最佳实践条目，也没说支持哪些框...

#Agent#Code#Yetone#GitHub

一句话点评

短评：把最佳实践做成Agent Skill，让Coding Agent自动写出接近原生体验的桌面应用，思路挺实用。点评：开发者Yetone把一篇桌面应用“最佳实践”文章做成了Agent Skill，叫native-feel-skill。Coding Agent拿到这个Skill后，重构或开发跨平台桌面应用时，会自动遵循那些让界面响应快、交互跟手的写法，最终效果接近原生应用。项目代码已开源...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

67

SCORE

H1·K1·R1

23:41

74d ago

FEATUREDAI HOT 精选· aihot-apiZH23:41 · 05·14

Anthropic 的 Mythos AI 五天挖出两个 macOS 内核漏洞，还串成一条提权攻击链

《华尔街日报》说，Anthropic 的安全研究工具 Mythos 在五天内帮研究人员找到两个之前没人发现的 macOS 内核漏洞，并把它们串成一个完整的提权攻击链，绕过了苹果的内存完整性保护。这意味着攻击者能碰到系统本该锁死的区域。报道指出，现在 macOS 的防御思路已经不是不让漏洞被发现，而是尽量抬高漏洞利用的门槛。Mythos 能帮上忙的地方在...

#Agent#Reasoning#Code#Anthropic

精选理由

精选 · 重要度 81 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic的Mythos AI五天挖出两个macOS内核零日漏洞并串成提权链，但正文没披露漏洞是否已报给苹果、测试环境是否受限，这点先别太激动。

锐评

这条消息的核心看点不是“AI又赢了”，而是速度。两个未知的macOS内核漏洞，从发现到串成完整提权攻击链，只用了五天。传统安全研究里，这种级别的漏洞挖掘往往以周甚至月为单位，Mythos把这个过程压缩到了工作日级别。它干的活不是自动扫描，而是帮研究人员做假设、分析代码行为、推理系统底层约束、建议利用路径——相当于一个资深逆向工程师在旁边不停出主意。但信息缺口也很明显。报道来自《华尔街日报》的片段，没说明测试是在什么环境跑的：是真实macOS最新版还是旧版内核？绕过内存完整性保护的具体机制是什么？这两个漏洞有没有按惯例先报给苹果？如果没报，那这就是一次能力展示而非负责任披露。另外，五天内完成的前提是研究人员本身水平很高，Mythos是加速器还是决定性因素，正文没说清楚。对从业者来说，这条消息的信号是：AI辅助漏洞挖掘已经从“能找简单bug”进化到“能串复杂利用链”。但别急着下结论说macOS不安全了——苹果的防御思路本来就是抬高利用门槛而非杜绝漏洞，Mythos证明的是门槛可以被更快地跨过去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

81

SCORE

H1·K1·R1

23:37

74d ago

Hacker News 首页· rssEN23:37 · 05·14

Rust 编译器要出 LLM 使用政策

Rust 官方仓库 rust-lang/rust 正在讨论是否给编译器项目加一条 LLM 使用政策。目前只有一个 PR 链接，正文没披露政策具体条款，比如是否禁止 AI 生成的代码提交、要不要标注 AI 辅助等。Hacker News 上有 24 票和 7 条评论，讨论热度不高。如果政策落地，Rust 会是少数明确约束 LLM 使用的主流编译器项目之一。

#Code#Rust#Hacker News#Policy

一句话点评

Rust 编译器项目正在讨论是否要出台 LLM 使用政策，目前只有一个 PR 链接，具体条款（比如是否禁止 AI 生成的代码提交、要不要标注 AI 辅助）正文没披露。Hacker News 上只有 24 票和 7 条评论，讨论热度不高。如果政策落地，Rust 会是少数明确约束 LLM 使用的主流编译器项目之一。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

23:35

74d ago

FEATUREDAI HOT 精选· aihot-apiZH23:35 · 05·14

Claude API 提示预缓存：先预热系统提示，再让真实请求直接命中缓存，首 token 生成更快

一个减少长提示首 token 延迟的实用技巧。在用户请求到达前，先单独发一次系统提示给 Claude，让它把提示写进缓存，但跳过输出。等真实请求进来时，缓存已经热好，直接命中，省掉重复处理长提示的时间。正文没披露具体提速多少，但思路很直接，适合系统提示固定、用户提示多变的场景。

#Inference-opt#Tools#Claude#Commentary

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

一个省钱的 API 调用技巧：先空跑一次系统提示把缓存热好，等真实请求进来直接命中，省掉重复处理长提示的时间。但正文没给具体提速数据，效果得自己测。

锐评

这条推文讲了一个很实用的 Claude API 调用技巧：预热提示缓存。做法是在用户请求到达前，先单独发一次系统提示给 Claude，让它把提示写进缓存，但跳过输出。等真实请求进来时，缓存已经热好，直接命中，省掉重复处理长提示的时间。这个思路适合系统提示固定、用户提示多变的场景，比如客服机器人或带固定人设的对话应用。但正文没披露具体能提速多少，也没说缓存能热多久、会不会被清掉。这些在实际落地时都是关键变量，得自己压测验证。另外要注意，预热请求本身也消耗 token，虽然不生成输出，但系统提示的输入 token 还是要算钱的。如果请求量不大，这个预热成本可能比直接跑还高。建议先拿自己的典型 prompt 长度测一轮，看首 token 延迟降了多少，再决定要不要加这层逻辑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

23:32

74d ago

AI HOT 精选· aihot-apiZH23:32 · 05·14

OpenCode 和 Qwen 3.6 Plus 又免费了

OpenCode 和 Qwen 3.6 Plus 开启了第二轮免费使用。官方说上次被薅光了 GPU，这次加了更多算力。但没说明免费额度、能用多久、免费期后怎么收费，也没说要不要申请资格。想白嫖的可以再试试，但别抱太大期望。

#Code#OpenCode#Qwen#Product update

一句话点评

OpenCode 和 Qwen 3.6 Plus 又免费了，上次被薅光 GPU，这次加了算力。但正文没披露免费额度、能用多久、免费后怎么收费，也没说要不要申请。想白嫖可以再试，别抱太大期望。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

23:26

74d ago

FEATURED彭博科技· rssEN23:26 · 05·14

Anthropic 跟美国政府杠上了，Figma 等公司把它列为财务风险

Anthropic 正在和美国政府打官司，焦点是联邦机构会不会禁用它的 AI 模型。这事已经不只是法律纠纷了——Figma 和其他一些公司开始在财务文件里把这场争端列为一个风险因素，担心如果政府真的下手，自家用 Anthropic 模型做的功能会受影响。正文没披露具体有多少家公司踩了这坑，也没说 Anthropic 的应对策略是什么。

#Safety#Anthropic#US government#Figma

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 跟美国政府的官司，已经让 Figma 等公司把它写进财报风险提示了——万一联邦机构真禁用，自家产品里用 Anthropic 模型的功能就得砍掉。

锐评

这条新闻最值得关注的点不是 Anthropic 在打官司，而是下游客户开始用脚投票、在财务文件里提前预警。Figma 把这事列为风险因素，说明企业客户对“政府会不会禁用某个模型”的担忧已经从口头讨论进入了正式的合规披露流程。正文没披露到底有多少家公司跟进了，也没说 Anthropic 有没有给客户提供替代方案或合同保障条款，这两点才是判断影响范围的关键。另外，文章没提官司本身进展到哪一步、联邦机构禁用是已经发生的动作还是只是可能性，所以现在只能把它当成一个信号：模型供应商的政治合规风险，正在变成采购决策里的硬指标。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

23:11

74d ago

欧盟 AI 法案· rssEN23:11 · 05·14

欧盟AI法案第50条透明度规则实操指南：2026年8月起，聊天机器人、AI生成内容、情绪识别和深度伪造都得贴标签

欧盟AI法案第50条从2026年8月2日起生效，要求四类AI使用场景必须做透明度披露，不限于高风险系统。第一，跟AI直接交互（比如聊天机器人）得告诉用户对面不是真人；第二，AI生成的合成内容（文字、图片、音频）要打水印或标注；第三，情绪识别和生物特征分类系统必须告知用户正在被识别；第四，深度伪造和涉及公共利益的AI生成文本也要标注。罚金最高可达3500...

#Safety#EU AI Act#European Commission#Policy

一句话点评

欧盟AI法案第50条2026年8月2日生效，要求四类场景必须做透明度披露：聊天机器人要告诉用户对面不是真人、AI生成内容要打水印、情绪识别要告知用户、深度伪造要标注。罚金最高3500万欧元或全球年营收7%。不限于高风险系统，范围比预期宽。但正文没解释水印技术标准是否统一，也没说小企业合规成本有多高。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H0·K1·R1

23:09

74d ago

FEATUREDr/LocalLLaMA· rssEN23:09 · 05·14

用强化学习让 Qwen3.5 自己攻自己，再把失败案例喂回去加固防线

作者搭了一套全自动的红队演练循环：先训练一个攻击模型，用强化学习（GRPO）对着 Qwen3.5 不断尝试越狱，成功诱导出有害回答就给奖励。第一轮攻击很快塌缩成同一种“写小说”套路，翻来覆去就一招。后来他们把攻击按底层策略聚类，奖励除以该策略的使用次数，逼攻击模型去挖新花样，这才炸出 7 类不同的越狱手法，其中虚构创作类占比最高，达 34%。接着用这些...

#Alignment#Safety#Fine-tuning#Qwen3.5

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

作者让Qwen3.5自己攻自己，攻击模型一开始只会用“写小说”这一招，后来靠奖励惩罚逼它挖出7类越狱手法，防守率从64%拉到92%，但正常回答准确率掉了4个点。

锐评

这个实验最实在的地方是它把红队演练做成了全自动闭环，而且没藏着掖着攻击模型“偷懒”的问题。第一轮GRPO训练的攻击模型很快就塌缩成反复用“虚构创作”这一种套路，说明不加干预的强化学习在越狱任务上会走捷径。作者用的解法很直接：先把攻击按底层策略聚类，再用奖励除以该策略的使用次数，逼模型去探索新花样。这招确实管用，炸出了7类不同的越狱手法，其中虚构创作类占比最高，达34%。防守侧的训练数据来自成功攻击样本加上良性边界案例，目的是让模型学会拒绝有害请求，但别把正常问题也误杀了。结果防守率从64%跳到92%，提升明显；代价是良性准确率从92%掉到88%。这个4%的跌幅不算小，说明模型在安全对齐上有点“宁可错杀”的倾向。信息缺口也很清楚：正文没披露用了什么有害请求集、攻击模型和防守模型的具体规模，也没说这7类越狱手法具体是什么、各自成功率多少。另外，良性准确率是在哪个测试集上测的也没交代，如果测试集本身偏简单，88%这个数字可能还要再打个折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

23:09

74d ago

r/LocalLLaMA· rssEN23:09 · 05·14

Llama-Studio：给本地 llama-server 套了个 Web 管理界面

开发者 m94301 发了个开源工具 Llama-Studio，用 Python 加少量 JS 给 llama-server 做了个 WebUI。核心功能是按模型保存 JSON 配置、固定端口跑多个实例、选 GPU、看显存占用，还内置了一个启动参数浏览器——直接读当前 llama-server 的 -help 输出，不用再开终端查参数格式。带一个粗略的...

#Tools#Inference-opt#m94301#Llama-Studio

一句话点评

Llama-Studio 给 llama-server 套了个 WebUI，按模型存配置、固定端口跑多实例、选 GPU、看显存，还内置了启动参数浏览器，不用再开终端查参数格式。作者说主要用来在家折腾设置、对比实验版和主线版。带手机界面，地下室也能改配置。开源，Python 加少量 JS。但正文没披露用户量、稳定性或性能开销，算是个个人工具，适合本地玩家尝鲜，生产环境慎用。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

22:55

74d ago

FEATUREDAI HOT 精选· aihot-apiZH22:55 · 05·14

Claude Code 更新 v2.1.142：后台会话可配置，快速模式默认切到 Opus 4.7

Anthropic 给 Claude Code 命令行工具发了 v2.1.142 版本。这次主要干了两件事：一是新增了 8 个命令行参数，用来控制后台会话的行为，比如可以指定会话闲置多久自动关掉、最多同时跑几个后台任务；二是把 Fast 模式的默认模型从之前的版本升级到了 Opus 4.7，意味着快速模式下模型的理解和生成能力会更强。另外修了 15 个...

#Agent#Tools#Code#Anthropic

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

Claude Code 命令行工具更新，后台会话现在可以自动关、限并发，Fast 模式默认模型升级到 Opus 4.7，还修了 15 个以上的 bug。

锐评

这次更新主要让 Claude Code 在后台跑任务时更可控。新增的 8 个命令行参数，比如可以设闲置多久自动关掉会话、最多同时跑几个后台任务，对用脚本批量跑代码或长时间挂任务的开发者比较实用，能省点资源、避免后台进程堆满。Fast 模式默认模型从旧版切到 Opus 4.7，意味着快速响应的同时理解和生成能力会更强，但正文没给出具体性能对比数据，实际提升多大得自己测。另外修了 15 个以上的问题，包括 MCP 工具超时和 Windows 网络驱动死锁这类影响稳定性的 bug，对日常使用体验会有改善。整体看是个扎实的维护版本，没有架构级变化，但后台会话控制和模型升级这两点对重度用户来说值得更新。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

22:55

74d ago

FEATUREDr/LocalLLaMA· rssEN22:55 · 05·14

让 7B 小模型从自己的错误里学习，HumanEval 正确率从 15% 涨到 68%，跑一次训练只要 3.5 美元

作者拿 Qwen 2.5 7B 基础模型做实验，先让它自己写代码、自己跑测试，把跑不过的代码和报错信息收集起来，再让它根据报错改出正确版本，这样就自动生成了“错误-修正”配对数据。用这批数据微调后，7B 模型在 HumanEval 上的通过题数从 25 题（约 15%）提升到 112 题（约 68%），数学能力也超过了 GPT-3.5。14B 版本只用...

#Code#Fine-tuning#Reasoning#Qwen

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

一个7B模型靠自己的报错信息自我纠错，HumanEval从15%拉到68%，数学超GPT-3.5，14B版训练成本只要3.5美元。

锐评

这个实验的思路很直接：让Qwen 2.5 7B先写代码，跑不过就收集报错和错误代码，再让它自己改出正确版本，用这些“错误-修正”配对数据做微调。结果HumanEval从25题（约15%）跳到112题（约68%），数学能力也超过了GPT-3.5。14B版本只用100对数据，在H100上跑95分钟，花费3.5美元。先打个折：这是个人实验，正文没披露测试集是否与训练数据有重叠，也没说HumanEval的164题是不是全测了。80%这个标题数字和68%的通过率对不上，可能混了其他设定。另外，只比了GPT-3.5，没和同等规模的微调模型对照，说服力有限。不过思路值得关注。它不需要人工标注，靠模型自己的执行反馈就能生成训练数据，对代码、数学这类有客观对错的场景尤其适用。缺的是多轮迭代的效果、不同基座模型的对比，以及错误类型分布的分析——如果模型只会改语法错误而逻辑错误原地踏步，那上限就很明显了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

22:44

74d ago

Hacker News 首页· rssEN22:44 · 05·14

英国难民安置系统换掉Palantir，省了“数百万”英镑

英政府自建系统替换了Palantir的Foundry平台，用于管理乌克兰难民住宿匹配。之前Palantir免费搭了6个月，后来两年合同分别花了450万和550万英镑。新系统由住房社区部内部团队开发，说每年能省“数百万”运行成本，而且更灵活、数据代码自己控制。正文没披露具体节省数字和开发成本，所以“数百万”还是个模糊数。这事也反映了英国对过度依赖美国大厂...

#BBC#Palantir#Policy

一句话点评

英政府自建系统替换Palantir，用于乌克兰难民住宿匹配。Palantir最初免费搭了6个月，后来两年合同分别花了450万和550万英镑。新系统由住房社区部内部开发，说每年能省“数百万”运行成本，更灵活、数据代码自己控制。正文没披露具体节省数字和开发成本，所以“数百万”还是个模糊数。这事也反映了英国对过度依赖美国大厂的警惕，但Palantir在英还有NHS、国防部等大合同，影响有限。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

52

SCORE

H1·K0·R1

22:37

74d ago

Hacker News 首页· rssEN22:37 · 05·14

安大略省审计发现，医生用的AI病历记录系统经常搞错基本信息

安大略省审计部门抽查了20款获批的AI病历记录系统（AI Scribe），发现60%的系统会把处方药写错——比如张冠李戴，把A患者的药记到B患者名下。审计报告还提到，这些系统会漏掉关键信息、凭空编造患者或医生都没说过的话。不过正文没披露具体样本量、错误率、审计方法和产品名称，所以这个60%到底有多严重还不好说。对AI从业者来说，这是个典型的医疗场景下幻...

#Audio#Tools#Safety#Ontario auditors

一句话点评

安大略审计署抽查20款AI病历记录系统，60%会把处方药写错，比如把A患者的药记到B名下。还会漏信息、编造对话。但正文没披露具体样本量、错误率、审计方法和产品名，这个60%到底多严重还不好说。对AI从业者来说，这是医疗场景下幻觉的实锤案例，但验证力度有限。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

22:21

74d ago

The Verge · AI· rssEN22:21 · 05·14

马斯克诉奥特曼案结案陈词：法官当场纠正马斯克律师

马斯克诉奥特曼案今天结案陈词。马斯克的律师 Steven Molo 表现糟糕：叫错共同被告名字（把 Greg Brockman 喊成 Greg Altman），声称马斯克不要求金钱赔偿但被法官当场纠正，而且整场陈词指控对方撒谎却拿不出多少证据支持马斯克的法律主张。OpenAI 律师 Sarah Eddy 的应对很简单——把己方提交的大量证据按时间线排好...

#Elon Musk#Sam Altman#OpenAI#Policy

一句话点评

马斯克律师结案陈词翻车：叫错被告名字、声称不索赔被法官当场纠正，整场指控对方撒谎但证据不足。OpenAI律师只按时间线排证据就压过对方。案子本身没新信息，看点全在律师表现有多离谱。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

22:05

74d ago

FEATUREDLatent Space· rssEN22:05 · 05·14

AI 原生医疗：1 亿次问诊、每周省 10–20 小时、几分钟搞定预授权

Abridge 这家公司 2018 年就起步了，比 ChatGPT 火起来早了四年多。他们一开始做的事很实在：把医生和病人的对话录下来，自动生成病历草稿，帮医生省掉下班后补病历的“睡衣时间”，每周能省出 10 到 20 小时。现在他们铺得更开了，今年预计要覆盖超过 8000 万次医患对话，进了 250 家美国大型医疗系统，支持 28 种以上语言和 50...

#Agent#Memory#Benchmarking#Abridge

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

Abridge 把医生和病人的对话录下来自动生成病历，每周帮医生省 10-20 小时写文书的时间。今年预计覆盖超 8000 万次对话，但正文没披露准确率数据和医生实际采纳率，这点先别太激动。

锐评

Abridge 做的事很直接：把医患对话变成结构化病历，再顺着这个口子往保险预授权、临床决策支持这些环节延伸。他们 2018 年就起步了，比这波大模型热早四年，先啃下了医院系统对接、医生信任这些脏活。现在铺到 250 家大型医疗系统，支持 28 种以上语言和 50 多个专科，今年预计处理超 8000 万次对话，去年 6 月估值已经到了 53 亿美元。每周省 10-20 小时文书时间这个数字来自他们自己的统计，但正文没给出样本量和测量方法，也没提不同科室、不同医生之间的差异有多大。从病历生成扩展到保险预授权“几分钟搞定”听起来很诱人，不过预授权涉及保险公司那边的规则引擎和人工审核，实际落地速度取决于外部系统对接，这点正文也没展开。还缺几块关键信息：模型在专科场景下的错误率、医生修改病历的比例、以及患者对录音知情同意的具体流程。医疗场景容错率极低，没有这些数据，很难判断 8000 万次这个量级背后是扎实的临床验证还是铺量的故事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

22:05

74d ago

AI HOT 精选· aihot-apiZH22:05 · 05·14

Luma Agents 号称能自动搞定电商素材全流程

Luma Labs 发推说他们的 Luma Agents 可以自动处理电商活动素材，从定义需求、设定风格到输出多种格式，号称能打破瓶颈。但正文没披露具体模型、定价或可复现的基准测试，所以效果和成本都未知。

#Agent#Luma Labs#Product update

一句话点评

Luma Labs 推了个叫 Luma Agents 的自动化工具，号称能包办电商素材从需求定义到多格式输出。但正文没披露用了什么模型、怎么收费，也没给可复现的测试结果，效果和成本全是未知数。短评：画饼阶段，先别激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

39

SCORE

H0·K0·R0

21:30

74d ago

FEATUREDTechCrunch AI· rssEN21:30 · 05·14

马斯克的 SpaceXAI 合并后已流失超 50 名员工

从 2 月合并算起，SpaceXAI 已经走了超过 50 人。TechCrunch 的报道把这波离职跟几件事挂上了钩：员工过劳、管理层变动、外面挖人，以及公司流动性事件可能削弱了留人激励——说白了，钱到手了，人就想走了。不过正文没披露离职人员的具体名字、岗位分布，也没说公司到底用了什么留人手段。

#Elon Musk#SpaceXAI#Personnel

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

合并后钱可能到手了，人就开始走了，但正文没说是哪些岗位在流失。

锐评

SpaceXAI 从 2 月合并到现在已经走了超过 50 人，TechCrunch 把这波离职归因到过劳、管理层变动、外部挖角，以及流动性事件可能削弱了留人激励——说白了，员工套现后没动力继续熬。我会先打个折：正文没披露离职人员的具体岗位分布，也没说公司到底用了什么留人手段，所以没法判断走的是核心研发还是边缘支持。如果走的主要是工程或研究岗，那对一家靠人才密度吃饭的 AI 公司来说，信号比数字本身更值得关注。还缺的信息是：同期入职人数、离职率跟行业基准的对比，以及马斯克系公司一贯的高压文化在这次合并后有没有变得更极端。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

21:09

74d ago

Product Hunt · AI· rssEN21:09 · 05·14

Basedash MCP Connectors：让 BI 工具直接帮你发邮件、建工单

Basedash 今天上线了 MCP Connectors，核心变化是：它原来只能读数据库、数据仓库和 SaaS 工具里的数据，现在能通过 MCP 协议反过来写数据了。你可以在聊天框里让 AI 把最新注册用户发邮件、把客服工单自动转成 Linear 的 bug、或者根据用户行为更新 HubSpot 的线索状态。支持 Linear、HubSpot、Sla...

#Agent#Tools#Basedash#Product update

一句话点评

Basedash 从只读数据升级为能写数据了：通过 MCP 协议，AI 可以在聊天框里直接操作 Linear、HubSpot、Slack 等工具，比如给新用户发邮件、把客服工单转成 bug。相当于给 BI 工具装上了“手”，能干活了。但正文没披露支持多少应用、权限怎么控制、定价和上线时间，这点先别太激动。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

48

SCORE

H0·K0·R1

21:07

74d ago

FT · 科技· rssEN21:07 · 05·14

OpenAI律师：马斯克用毫无根据的诉讼“想把我们缠死”

OpenAI律师在结案陈词中说，马斯克提起的诉讼毫无根据，目的就是“把OpenAI缠死”。这场官司可能影响OpenAI今年计划中的IPO，但正文没披露索赔金额和法院审理时间表。

#OpenAI#Elon Musk#Policy

一句话点评

OpenAI律师在结案陈词中直说，马斯克起诉就是想“缠死”他们，案子毫无根据。这场官司可能影响OpenAI今年计划中的IPO。正文没披露索赔金额和法院审理时间表，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

67

SCORE

H1·K0·R1

21:06

74d ago

FEATUREDAI HOT 精选· aihot-apiZH21:06 · 05·14

Codex 现在能挂脚本、发令牌，把代码助手塞进自动化流程里

OpenAI 给 Codex 加了两样东西：一是“钩子”，可以在任务的关键节点跑自定义脚本，比如提交前自动验代码、扫密钥、记日志，或者按仓库做定制行为；二是面向商业和企业版的“程序化访问令牌”，从 ChatGPT 工作区设置里就能创建，带权限范围、可设过期或撤销，方便接入 CI/CD、发布流水线和内部自动化，使用记录也会归到对应工作区。正文没提这些令牌...

#Code#Agent#Tools#OpenAI

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

Codex 能跑自定义脚本了，提交前自动验代码、扫密钥，还能用令牌接入流水线，但正文没提令牌权限粒度到底多细。

锐评

OpenAI 给 Codex 加了两样东西，让它在实际开发流程里更像个能干活的人，而不是只会聊天的助手。第一个是“钩子”，你可以在任务的关键节点插一段自定义脚本，比如提交前自动跑一遍代码检查、扫描有没有不小心提交的密钥、记录每次对话日志，或者按不同仓库做定制行为。这相当于给 Codex 装了个触发器，让它能嵌入到团队已有的开发规范里，而不是要求团队去适应它。第二个是面向商业和企业版的“程序化访问令牌”，从 ChatGPT 工作区设置里就能创建，带权限范围、可以设过期时间或随时撤销，方便接入 CI/CD、发布流水线和内部自动化，使用记录也会归到对应工作区。这点对管理比较有用，不用再拿个人账号硬扛自动化任务。不过正文没披露令牌的权限粒度到底多细，比如能不能精确到某个仓库或某类操作，也没说钩子脚本的执行环境限制和超时策略。这些会直接影响它在生产环境里的可用性，先别急着全量上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

21:05

74d ago

Hacker News 首页· rssEN21:05 · 05·14

Anthropic 开源法律版 Claude：一套插件，帮律师处理合同审查、合规检查等流程

Anthropic 在 GitHub 上发布了 Claude for Legal 项目，是一套面向法律工作流的插件集合。目前仓库有 3.6k Star、554 Fork，热度不低。但正文没有披露具体功能、许可证或部署要求——比如是直接调用 Claude API 的模板，还是需要本地跑模型；支持哪些法律场景（合同审查、法规检索、尽职调查等）也都没写。如果...

#Anthropic#Claude#Hacker News#Product update

一句话点评

Anthropic 在 GitHub 上丢了个 Claude for Legal 项目，说是法律工作流插件集，但正文几乎没写具体功能、许可证或部署要求。3.6k Star 热度不低，但信息缺口太大——是调 API 的模板还是本地跑模型？支持合同审查还是法规检索？全没提。短评：Anthropic 画了个法律 AI 的饼，但连馅儿是什么都没说。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

60

SCORE

H1·K0·R1

21:02

74d ago

Hacker News 首页· rssEN21:02 · 05·14

Runo：一个按 schema 直接返回 JSON 的爬虫 API，号称效率比同类高 6-7 倍

Runo 是一个新的网页抓取 API，核心卖点是用户只需定义一个 JSON schema（字段名、类型、示例），它就能直接返回结构化数据，不用自己写 CSS 选择器或 XPath，也不用再解析 HTML。作者声称效率比现有方案高 6-7 倍，但这个数字来自自述的“guesstimate”，没有公开测试方法。价格方面，免费版每月 500 次请求，不需要绑...

#Tools#Runo#Firecrawl#Product update

一句话点评

Runo 是一个新的网页抓取 API，核心卖点是用户只需定义一个 JSON schema（字段名、类型、示例），它就能直接返回结构化数据，不用自己写 CSS 选择器或 XPath，也不用再解析 HTML。作者声称效率比现有方案高 6-7 倍，但这个数字来自自述的“guesstimate”，没有公开测试方法。价格方面，免费版每月 500 次请求，不需要绑信用卡，但速率限制很严（1次/分钟），基...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

20:59

74d ago

r/LocalLLaMA· rssEN20:59 · 05·14

TurboQuant 实测：KV 缓存省 2.4 倍，但延迟反而变差了

vLLM 团队对比了 TurboQuant 和 FP8 两种 KV 缓存量化方案。FP8 能把缓存容量翻倍，精度损失几乎可以忽略；TurboQuant 的 k8v4 模式省得更多（2.4 倍），但吞吐和延迟指标全线变差。正文没披露具体测试环境和模型规模，所以这点先别太激动——省缓存但慢下来，对在线服务来说可能得不偿失。

#Inference-opt#Benchmarking#vLLM#MajorZesty

一句话点评

vLLM 团队实测 TurboQuant 和 FP8 两种 KV 缓存量化方案。FP8 缓存翻倍，精度损失几乎可忽略；TurboQuant 的 k8v4 模式省 2.4 倍，但吞吐和延迟全线变差。正文没披露测试环境和模型规模，省缓存但慢下来，在线服务可能得不偿失。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H0·K1·R1

20:59

74d ago

The Verge · AI· rssEN20:59 · 05·14

马斯克骂同事“蠢驴”，OpenAI 员工做了个奖杯送他

马斯克起诉奥特曼的庭审上出现了一个插曲：OpenAI 员工给研究员 Josh Achiam 定制了一个奖杯，上面刻着“永远别停止当个蠢驴”。起因是马斯克当年离开 OpenAI 时说要赶超 Google，Achiam 质疑“这真的好吗”，马斯克当场骂他 jackass。这个奖杯是同事后来买来送给 Achiam 的。庭审法官让双方律师当众念出奖杯上的字。正...

#Safety#Elon Musk#Sam Altman#OpenAI

一句话点评

庭审上 OpenAI 员工给研究员 Achiam 送了个奖杯，刻着“永远别停止当个蠢驴”——因为当年马斯克离开 OpenAI 说要赶超 Google，Achiam 质疑安全风险，被马斯克骂 jackass。法官让双方律师当众念出奖杯文字。这事跟合同纠纷无关，但暴露了 OpenAI 内部对安全质疑者的态度。正文没披露 Achiam 是否还在 OpenAI。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

20:39

74d ago

● P1Hacker News 首页· rssEN20:39 · 05·14

arXiv推出新政策对幻觉引用的论文实施一年禁投

arXiv 宣布，如果论文里出现编造的参考文献（即模型瞎编的引用），作者将被禁止投稿一年。这条消息来自一条推文，目前只有 24 个点赞和 2 条评论，正文没披露具体怎么界定“编造”、是否区分故意和无意、以及有没有申诉渠道。惩罚力度挺重，但执行细节还不清楚。

#arXiv#Policy#Safety/alignment

精选理由

精选 · 重要度 92 · 吸引力 + 知识量 + 共鸣

一句话点评

arXiv 对用 AI 编造参考文献的论文直接禁投一年，这比单纯拒稿狠多了，等于公开划了一条红线。

锐评

arXiv 这次的政策很直接：只要论文里出现 AI 聊天记录的残留、或者编造出不存在的参考文献（也就是“幻觉引用”），作者就会被禁止向 arXiv 投稿一年。这不是在讨论 AI 辅助写作的边界，而是针对最粗糙的“AI 代写然后直接扔上去”的行为。The Verge 的报道里用了“slop”这个词，指的就是那种毫无人工审核痕迹、连提示词都懒得删的垃圾稿件。政策针对的是“无可辩驳的证据”，比如正文里直接留下了跟 ChatGPT 的对话片段。这其实说明 arXiv 的审核逻辑不是去猜你有没有用 AI，而是抓那些连基本伪装都不做的极端案例。目前正文没披露这个审核是靠人工举报还是自动化工具，也没说一年后解禁的具体条件。这点先别太激动，它管不了那些认真用 AI 润色但仔细改过的人，主要打击的是最底端的学术灌水。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

92

SCORE

H1·K1·R1

20:37

74d ago

FEATURED彭博科技· rssEN20:37 · 05·14

马斯克的 xAI 发布首个编程助手 Grok Build，直接对标 Anthropic

xAI 推出了 Grok Build，一个能直接参与软件开发流程的 AI 编程助手，目标直指 Anthropic 的 Claude。目前公开信息很少，正文没披露定价、能用哪些代码编辑器、性能跑分，也没说什么时候正式开放。

#Agent#Code#xAI#Elon Musk

精选理由

精选 · 重要度 73 · 吸引力 + 共鸣

一句话点评

xAI 发了第一个编程助手 Grok Build，直接点名要跟 Anthropic 的 Claude 抢生意，但正文没给定价、跑分和上线时间，先当个预告看。

锐评

xAI 这次推出的 Grok Build，是一个能直接参与写代码、改 bug 的 AI 助手，目标很明确，就是冲着 Anthropic 的 Claude 去的。但这条新闻的信息量非常有限，更像是一个产品预告。正文没披露任何性能跑分，我们不知道它跟 Claude 或 GitHub Copilot 比到底强多少、弱多少。也没说支持哪些代码编辑器，是 VS Code 插件还是独立应用，这直接决定了开发者能不能用、好不好用。定价和正式开放时间同样没提，所以现在没法判断它的性价比和可用性。对于 AI 从业者来说，这条消息的价值在于确认了 xAI 正式进入编程助手这个卷得厉害的赛道。但所有关键决策信息——成本、能力、集成方式——目前都是空白。建议先观望，等有实测数据和公开 benchmark 再做判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

73

SCORE

H1·K0·R1

20:22

74d ago

Hacker News 首页· rssEN20:22 · 05·14

亚马逊爬虫终于认 robots.txt 了

作者收到亚马逊邮件，说从 2026 年 6 月 15 日起，Amazonbot 会按 robots.txt 规则爬站，不再需要手动申请。邮件还保留了 Outlook for Mac 的签名，作者觉得挺搞笑。正文没披露测试条件或变更日期，但这对站长是好事——之前亚马逊爬虫不守规则，逼得作者自己写了个反爬工具 Anubis。现在终于合规，省得自己折腾。

#Amazon#Product update

一句话点评

亚马逊终于让爬虫遵守 robots.txt 了，6 月 15 日起生效。之前 Amazonbot 不守规矩，逼得作者自己写反爬工具 Anubis。邮件还留着 Outlook for Mac 签名，挺搞笑。正文没披露测试条件或变更日期，但这对站长是好事——省得自己折腾。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

52

SCORE

H1·K0·R1

20:14

74d ago

FEATURED彭博科技· rssEN20:14 · 05·14

Figma营收指引超预期AI功能开始单独收费

Figma 给出了高于分析师预期的当期营收指引，并透露直接对 AI 功能收费的模式已经看到早期效果。正文没披露具体指引数字、定价或采用率，所以这点先别太激动。

#Figma#Product update

精选理由

精选 · 重要度 72 · 知识量 + 共鸣

一句话点评

Figma 当期营收指引高于分析师预期，并称直接对 AI 功能收费已见早期效果。但正文没披露具体指引数字、定价或采用率，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H0·K1·R1

20:13

74d ago

彭博科技· rssEN20:13 · 05·14

应用材料业绩预期超分析师预测，AI芯片需求拉动设备订单

应用材料（Applied Materials）给出的销售和利润预期高于分析师估计，主要驱动力是AI计算和存储芯片的需求。正文没披露具体数字、季度和对比范围，所以暂时没法判断这个“超预期”幅度有多大。对AI从业者来说，这条信号是：上游设备商还在扩产，说明下游芯片厂对AI硬件的资本开支没停。

#Inference-opt#Applied Materials#Product update

一句话点评

应用材料（Applied Materials）的销售和利润预期高于分析师估计，靠的是AI芯片需求。上游设备商还在扩产，说明下游芯片厂对AI硬件的资本开支没停。但正文没披露具体数字、季度和对比范围，暂时判断不了“超预期”幅度有多大。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

62

SCORE

H0·K1·R1

20:11

74d ago

r/LocalLLaMA· rssEN20:11 · 05·14

llama.cpp 每次对话都重算整个提示词，40k token 的缓存几乎没用上

有用户在 LocalLLaMA 反映，llama.cpp 在 150k 上下文窗口下，每次对话都重新处理 4 万多个 token 的提示词。虽然缓存相似度高达 0.996（几乎完全命中），但实际命中的 token 数只有约 4,750，导致提示词评估时间从 19 token 的 473 毫秒暴涨到 44,016 token 的 222 秒。缓存占用 4...

#Agent#Code#Inference-opt#llama.cpp

一句话点评

llama.cpp 在 150k 上下文下，每次对话都重算 4 万 token 的提示词，缓存相似度 0.996 但实际命中不到 5k token，导致单次评估从 0.5 秒飙到 222 秒。问题出在缓存上限设了 2.5GB，实际占用 4.6GB，超限后旧缓存被踢。正文没披露具体复现步骤和 llama.cpp 版本。短评：缓存命中率虚高，实际没省时间，调大缓存上限或换更智能的驱逐策略能缓解。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

63

SCORE

H1·K1·R1

20:11

74d ago

AI HOT 精选· aihot-apiZH20:11 · 05·14

Mixpanel 接入 Replit MCP，开发流程里直接看数据

Mixpanel 把数据分析功能做成了 Replit 的 MCP 工具，开发者发布产品后不用切后台就能看用户行为数据。正文只提了下周伦敦黑客松有现场演示，没交代具体能查哪些指标、怎么接入、要不要额外付费。

#Tools#Mixpanel#Replit#Product update

一句话点评

Mixpanel 把数据分析做成了 Replit 的 MCP 工具，开发者发完产品不用切后台就能看用户行为数据。正文只提了下周伦敦黑客松有现场演示，没交代具体能查哪些指标、怎么接入、要不要额外付费。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

20:10

74d ago

AI HOT 精选· aihot-apiZH20:10 · 05·14

SuperGrok Heavy 半年六折，Grok Build 开放测试

SuperGrok Heavy 半年套餐从每月 300 美元降到 99 美元，打了约 67% 的折扣，力度不小。同时 Grok Build 开始公测，但正文没披露具体功能范围，这点先别太激动。

#Tools#Grok#SuperGrok#Product update

一句话点评

SuperGrok Heavy 半年套餐从每月 300 美元降到 99 美元，打了六折，力度不小。但 Grok Build 公测只提了一嘴，没披露具体功能范围，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

63

SCORE

H1·K1·R1

20:06

74d ago

FEATUREDHacker News 首页· rssEN20:06 · 05·14

OpenAI 推出 Codex 移动版应用支持实时代码协作

OpenAI 把编程助手 Codex 搬进了 ChatGPT 手机 App（iOS/Android 预览版，免费和付费用户都能用）。核心卖点不是远程遥控电脑跑任务，而是手机端能实时看到 Codex 在电脑上的操作画面、终端输出、代码 diff，还能中途审批、改模型、换任务。底层用了一个安全中继层，不把电脑直接暴露在公网上。正文没披露手机端的具体延迟表现...

#Code#Agent#OpenAI#Hacker News

精选理由

精选 · 重要度 76 · 共鸣

一句话点评

OpenAI 把 Codex 搬进了手机 App，现在你可以用手机查看、审批、甚至指挥电脑上的 Codex 继续干活。

锐评

Codex 的移动端不是简单的远程遥控，它更像一个随身指挥中心。你可以在手机上查看所有正在跑的线程、审批操作、切换模型，甚至发起新任务，而代码、权限和文件都还留在你的电脑或远程环境里。OpenAI 说每周已经有超过 400 万人用 Codex，这次更新瞄准的就是那些需要随时插手的碎片时刻——比如通勤时给个方向、等咖啡时审批一个步骤。技术上，它靠一个安全中继层让手机和电脑保持连接，不用把机器直接暴露到公网。同时，Remote SSH 功能正式开放，企业可以把 Codex 接进受管的远程开发环境，再通过手机操作。HIPAA 合规支持也加上了，医疗场景能用。不过，正文没提移动端操作复杂任务时的延迟和稳定性表现，也没说免费版的用量限制。手机屏幕上看 diff 和终端输出的实际体验，还得等上手才知道。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

76

SCORE

H0·K0·R1

19:57

74d ago

r/LocalLLaMA· rssEN19:57 · 05·14

传英伟达要涨RTX 5090售价，因为GDDR7显存变贵了

Reddit帖子转述报道称，英伟达准备提高RTX 5090的定价，理由是GDDR7显存成本上涨。帖子没透露涨多少、什么时候涨，也没说RTX 50系列和PRO系列是否一起涨。正文被屏蔽，看不到更多细节。对本地跑模型的人来说，5090涨价意味着买卡门槛更高，但消息来源是传闻，可信度要打折。

#Inference-opt#NVIDIA#TechPowerUp#Product update

一句话点评

英伟达准备涨RTX 5090的价，理由是GDDR7显存成本涨了。帖子没透露涨多少、什么时候涨，也没说RTX 50系列和PRO系列是否一起涨。正文被屏蔽，看不到更多细节。对本地跑模型的人来说，5090涨价意味着买卡门槛更高，但消息来源是传闻，可信度要打折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

19:57

74d ago

FEATUREDTechCrunch AI· rssEN19:57 · 05·14

Richard Socher 拿了 6.5 亿美元要做能自己研究、自己迭代的 AI，还说这次会出产品

Richard Socher 的新公司融了 6.5 亿美元，目标是搞一个能无限自我研究和改进的 AI 系统。他特别强调这次不是纯研究，会实际交付产品。不过正文没披露具体靠什么技术实现、什么时候上线、产品长什么样，这些关键信息都还空着，所以这个承诺先打个折看。

#Agent#Reasoning#Richard Socher#Funding

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

6.5 亿美元融资，但正文没写技术方案、上线时间和产品形态，承诺先打个折。

锐评

Richard Socher 的新公司拿了 6.5 亿美元，要做一个能自己研究自己、无限自我改进的 AI 系统。这个目标听起来很宏大，但正文只给了 RSS 摘要级别的信息，没披露靠什么技术实现、什么时候能上线、产品到底长什么样。他说这次会实际交付产品，不是纯研究，但没有任何路线图或验证指标支撑这句话。我会先打个折看这件事。无限自我改进的 AI 在概念上接近递归自我提升，历史上这类项目要么停留在论文里，要么需要极强的工程约束才能跑通。正文没提团队规模、算力预算、安全机制，也没说清楚“自我研究”具体指模型改自己的架构还是自动搜超参。这些缺口让 6.5 亿这个数字显得更像融资能力而非技术可行性。还缺的东西很多：技术白皮书、原型演示、哪怕一个时间表。在没有这些之前，这条新闻的价值主要在关注 Socher 这个人又拿到了大钱，而不是 AI 真的开始自己造自己了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

19:55

74d ago

Product Hunt · AI· rssEN19:55 · 05·14

DramaBox：给 TTS 写个“剧本”，它就能演出来，还自带水印

Resemble AI 今天在 Product Hunt 上发了 DramaBox，一个能把场景描述转成“有表演感”语音的 TTS 模型。你写一句“主持人假装震惊、倒吸一口气然后大笑”，模型会按这个情绪和节奏去念，而不是平铺直叙。每个输出都打了 Resemble 自家的不可见水印，方便溯源。开源、只支持英文，模型和代码在 Hugging Face 上能...

#Audio#Resemble AI#Product update

一句话点评

Resemble AI 今天发了个叫 DramaBox 的 TTS 模型，亮点是能按场景描述（比如“主持人假装震惊、倒吸一口气然后大笑”）来念台词，带表演感，不是平铺直叙。每个输出都打了自家不可见水印，方便溯源。开源、只支持英文，模型和代码在 Hugging Face 上能找到。值得看的是“用文字指令控制语气”这个方向，比传统 TTS 更灵活，适合播客、短视频配音。但正文没披露模型参数量...

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

42

SCORE

H1·K0·R0

19:38

74d ago

r/LocalLLaMA· rssEN19:38 · 05·14

有人在单卡80GB显存上从零训了个7B MoE模型，280B token计划，14000步时事实准确率只有1/3

一位Reddit用户分享了自己从预训练到RLHF（PPO/GRPO）完整训一个7B MoE大模型的过程。模型用了64个专家，上下文窗口4096 token，计划训2800亿token。最抓眼球的是硬件门槛：只用一张80GB显存的GPU就跑起来了。但别急着兴奋——第14000步时模型的事实准确率只有1/3，说明这个规模下模型还没学到多少靠谱知识。正文没披...

#Fine-tuning#Inference-opt#Benchmarking#DeepSeek

一句话点评

一位Reddit用户用单张80GB显卡（如A100或H100）从零训了一个7B MoE模型，64个专家、4096上下文，计划训2800亿token。第14000步时事实准确率仅1/3，说明这个规模下模型还没学到多少靠谱知识。硬件门槛低是亮点，但效果验证很弱，正文没披露训练数据来源和具体评测集。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

19:05

75d ago

TechCrunch AI· rssEN19:05 · 05·14

Clawdmeter：把 Claude Code 用量做成桌面小仪表盘

一个叫 Clawdmeter 的开源小工具，能把你在 Claude Code 里的使用统计变成桌面上的迷你仪表盘，专给重度 AI 编程用户看。目前正文没披露支持哪些平台、显示几个指标、怎么安装，也没说它是读本地日志还是调 API。

#Code#Tools#Clawdmeter#Claude Code

一句话点评

Clawdmeter 是个开源小工具，能把你在 Claude Code 里的使用数据变成桌面仪表盘，适合重度 AI 编程用户。目前正文只说了这些，没提支持什么系统、显示几个指标、怎么安装，也没说它是读本地日志还是调 API。信息缺口挺大，想尝鲜得自己去 GitHub 翻。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

19:00

75d ago

FEATUREDThe Verge · AI· rssEN19:00 · 05·14

微软开始收回内部 Claude Code 授权，把开发者往自家 Copilot CLI 赶

微软去年 12 月给内部几千名开发者开放了 Claude Code，让项目经理、设计师这些非技术岗也能试着写代码，半年下来用的人非常多。现在微软准备收回大部分授权，把这些人推到 Copilot CLI 上。正文没披露具体收回多少授权、定价和迁移时间表，也没说 Copilot CLI 功能上能不能补上 Claude Code 的缺口。

#Code#Tools#Microsoft#Anthropic

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

微软要把内部 Claude Code 授权收回去，推自家 Copilot CLI，但正文没给迁移时间表和功能对比，先别急着站队。

锐评

微软去年 12 月给内部几千名开发者开了 Claude Code，让项目经理、设计师这些非技术岗也能上手写代码，半年下来用的人非常多。现在微软准备收回大部分授权，把人推到 Copilot CLI 上。这个动作说明 Claude Code 在内部确实好用，好用到了让微软觉得得踩刹车的地步。但正文没披露几个关键信息：到底收回多少授权、Copilot CLI 功能上能不能补上 Claude Code 的缺口、迁移时间表是什么。这些缺口让我没法判断这是正常的工具统一，还是微软在强行切流量。如果 Copilot CLI 体验跟不上，被推过去的员工大概率会用脚投票。另外，微软自己也在用别家模型做代码工具，这点本身就挺有意思，说明 Anthropic 在代码场景确实有竞争力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

18:59

75d ago

r/LocalLLaMA· rssEN18:59 · 05·14

Qwen3.6 的 Q4 和 Q6 差距大吗？

有人在单张 RTX 3090 上跑 Qwen3.6 密集 27B 模型，用 Q4_M 量化，速度约 65 tok/s，上下文能撑到 6.5 万到 10 万 token。他问换成 Q6 会不会好很多，但没贴 Q6 的实际跑分。所以目前只能知道 Q4 在 3090 上跑得挺快、显存够用，但精度损失多大、Q6 值不值得换，正文没给数据。

#Inference-opt#Qwen#NVIDIA#Commentary

一句话点评

Qwen3.6 27B 在单张3090上Q4量化跑65 tok/s，上下文能到6.5万-10万token，速度不错。但问Q6值不值得换，正文没给Q6数据，精度损失多大未知。建议自己跑个对比，别盲猜。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

18:55

75d ago

FEATUREDAI HOT 精选· aihot-apiZH18:55 · 05·14

IBM 开源多语言嵌入模型 R2：不到 1 亿参数，32K 上下文，检索跑分在同级里最高

IBM 在 Hugging Face 上发了两个新的多语言嵌入模型，都走 Apache 2.0 协议。小号 9700 万参数，在 MTEB 多语言检索上拿了 60.3 分，正文说这是目前所有开源同尺寸模型里最高的。大号 3.11 亿参数，得分 65.2，在 5 亿参数以下的开放模型里排第二。两个模型都基于 ModernBERT，支持 200 多种语言（...

#Embedding#RAG#Benchmarking#IBM

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

IBM 发了两个开源多语言嵌入模型，小号 9700 万参数在 MTEB 同尺寸里检索分最高，但正文没给跟更大模型的横向对比。

锐评

IBM 这次放出的 Granite Embedding Multilingual R2 有两个尺寸：9700 万参数和 3.11 亿参数，都走 Apache 2.0 协议，支持 200 多种语言和 32K 上下文窗口。小号在 MTEB 多语言检索上拿了 60.3 分，正文说这是目前所有开源同尺寸模型里最高的；大号 65.2 分，在 5 亿参数以下的开放模型里排第二。两个模型都基于 ModernBERT，训练细节在文章后半段有展开，包括用了 Matryoshka 嵌入来支持灵活降维，这对实际部署时平衡精度和速度有帮助。不过有几个信息缺口要注意。正文没披露训练数据的具体构成和去重策略，也没说明 32K 上下文在实际长文档检索任务上的表现到底如何——MTEB 的检索任务大多不测这么长的上下文。另外，虽然强调开源和 Apache 2.0，但没提是否提供配套的微调代码或评估脚本，想复现或二次开发的人还得自己摸索。速度吞吐数据有给，但只跟自家 R1 比，没拉上同期的其他开源模型做横向对比，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

18:55

75d ago

Hugging Face 博客· rssEN18:55 · 05·14

IBM 开源多语言嵌入模型 Granite R2：32K 上下文，97M 参数版称霸小模型检索

IBM 发布了 Granite Embedding Multilingual R2，两个模型都基于 ModernBERT 架构，采用 Apache 2.0 开源协议。一个 97M 参数的小模型，在同等规模（1 亿参数以下）的多语言检索任务上拿了最好成绩；另一个 311M 参数的大模型支持 Matryoshka 表示学习（一种可以截断向量维度、按需平衡速...

#Embedding#RAG#Benchmarking#Hugging Face

一句话点评

IBM 开源了 Granite Embedding Multilingual R2，两个 embedding 模型，Apache 2.0 协议。小号 97M 参数，在 1 亿参数以下的多语言检索里拿了 SOTA，支持 32K 上下文窗口。大号 311M 参数支持 Matryoshka 表示学习（可以截断向量维度来平衡速度和精度）。短评：小模型跑检索性价比不错，但正文没披露具体语言覆盖和评...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

18:49

75d ago

r/LocalLLaMA· rssEN18:49 · 05·14

cyankiwi AWQ 4-bit 量化新方法：用联合缩放让模型输出更接近原版

cyankiwi AWQ 4-bit 量化在 5 月 26 日更新中提出了一种新思路：把缩放因子和量化范围放在一起优化，目标是让量化后的模型输出分布尽量贴近原版。在 GPQA Diamond 测试集上，它对 Llama-3.3-70B-Instruct 的 KL 散度做到了 0.02826，而之前最好的 4-bit 基线是 0.04444——差距接近 ...

#Inference-opt#Benchmarking#cyankiwi#Meta

一句话点评

cyankiwi AWQ 4-bit 量化把缩放因子和量化范围一起优化，让量化后模型输出更贴近原版。在 GPQA Diamond 上，Llama-3.3-70B 的 KL 散度从 0.04444 降到 0.02826，差距接近 36%，说明分布保真度明显提升。不过正文没披露推理速度或显存占用，实际部署收益还不清楚。另外只测了 Llama-3 系列，其他架构效果未知。如果真能无损压缩，对本地部...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

62

SCORE

H0·K1·R1

18:31

75d ago

FEATUREDAI HOT 精选· aihot-apiZH18:31 · 05·14

Anthropic 推演 2028 年中美 AI 竞赛的两种结局

Anthropic 出了一份政策分析，推演了 2028 年全球 AI 领导权的两种走向。核心就一个变量：美国及其盟友能不能守住算力芯片这个优势。现在美国靠出口管制卡住了中国获取最先进训练芯片的渠道，但中国实验室靠人才、钻管制漏洞和大规模“蒸馏攻击”（说白了就是扒美国模型的能力来训练自己的模型）追得很紧。第一种情景是乐观的：如果政策继续收紧漏洞、打断蒸馏...

#Safety#Anthropic#Policy#Commentary

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 自己下场画了两张 2028 年的饼，核心就赌一件事：美国能不能靠芯片禁令把领先优势锁死。

锐评

这份报告与其说是预测，不如说是 Anthropic 写给美国政策圈的劝进表。它把全球 AI 领导权简化成一个变量：算力芯片。现在美国靠出口管制卡脖子，中国实验室则靠人才、钻管制漏洞和大规模“蒸馏攻击”（扒美国模型能力来训练自家模型）死咬不放。报告推演了两种 2028 年的局面：一种是美国继续收紧漏洞、打断蒸馏，把技术领先锁在 12 到 24 个月，由民主国家定规矩；另一种是美国不作为，中国靠绕过管制拿到算力反超，由威权政权主导 AI 规则。这里有几个点要先打折。第一，报告把“模型智能接近”完全归因于中国钻空子和蒸馏，但正文没给出蒸馏攻击让中国模型具体追回了几个月差距的量化证据。第二，12 到 24 个月的领先窗口是怎么算出来的，报告也没披露方法论，更像是一个政策喊话用的数字。第三，整篇分析站在美国及其盟友的算力优势上展开，对中国在应用层、数据效率和工程落地上的追赶路径讨论很少，这让第二种情景的推演显得有点单薄。还缺什么？缺第三方视角的算力差距实测数据，缺对蒸馏攻击实际效果边界的独立评估，也缺中国在受限条件下自研芯片和替代训练方案的进展对照。这些信息不补上，两种情景都更像立场声明而非推演。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

18:17

75d ago

Hacker News 首页· rssEN18:17 · 05·14

xAI 推出 Grok Build：一个跑在终端里的编程助手，先给 SuperGrok Heavy 用户用

xAI 今天发布了 Grok Build 的早期测试版，这是一个命令行（CLI）编程助手，面向专业开发者。它可以直接在你的终端里跑，支持先出计划再执行、并行子代理、以及接入你已有的 AGENTS.md、插件、MCP 服务器等工具。目前只对 SuperGrok Heavy 订阅者开放，安装命令是一行 curl。正文没披露具体定价、可用地区或正式发布日期，...

#Code#Tools#xAI#Grok

一句话点评

xAI 出了个终端里的编程助手 Grok Build，目前只给 SuperGrok Heavy 订阅者用。亮点是能先出计划让你审再执行、并行跑子代理、还能接你已有的 AGENTS.md 和 MCP 服务器。一行 curl 安装，挺方便。但正文没披露具体定价、可用地区或正式发布日期，这点先别太激动。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

52

SCORE

H0·K0·R1

18:16

75d ago

Product Hunt · AI· rssEN18:16 · 05·14

Coworker AI：按任务自动切换模型，号称省80%的API费

Coworker AI 的核心卖点是“上下文感知的模型路由”——说白了就是系统会根据你当前的任务（聊天、写代码、做文档、跑自动化流程等），自动选一个最便宜且够用的模型来干活，而不是所有请求都走最贵的旗舰模型。官方举了个例子：一家公司去年12月花50万美元的AI费用，到今年5月涨到1500万，CFO开始问“是砍AI预算还是砍人头”。Coworker 给的...

#Inference-opt#Coworker AI#Product update

一句话点评

Coworker AI 的核心是“上下文感知模型路由”，说白了就是系统根据任务自动选最便宜够用的模型，不一股脑全上旗舰。官方举了个例子：一家公司AI费用从去年12月的50万美元涨到今年5月的1500万，CFO开始问砍预算还是砍人头。这个痛点很真实，但正文没披露支持哪些模型、定价、路由规则，也没说实测能省多少。概念不新，关键看落地效果和成本透明度。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

48

SCORE

H0·K0·R1

18:16

75d ago

FEATUREDr/LocalLLaMA· rssEN18:16 · 05·14

网友追踪欧盟 15 家店 50 多天显卡价格：只有 RTX 5090 没降价，还涨了 3%

Reddit 用户 egudegi 用脚本每 6 小时抓一次欧盟 15 家店的显卡价格，攒了约 12.6 万条数据。结果显示 RTX 5090 均价从 3392 欧元涨到 3487 欧元，涨了 3%，是唯一没降价的型号。帖子正文被 Reddit 安全策略拦截，看不到更细的型号对比和店铺来源，所以没法判断涨价是普遍缺货还是个别渠道在抬价。

#Inference-opt#egudegi#NVIDIA#AMD

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

RTX 5090 是欧盟市场唯一没降价的卡，50 天还涨了 3%，但帖子被 Reddit 吞了，看不到具体店铺和型号对比。

锐评

这条数据挺有意思：有人用脚本每 6 小时抓一次欧盟 15 家店的显卡价格，攒了 12.6 万条记录，跑了 50 多天。结果 RTX 5090 均价从 3392 欧元涨到 3487 欧元，涨了 3%，是唯一没降价的型号。其他卡都在跌，说明市场整体在降温，但 5090 的供需还是紧。不过得打个折。帖子正文被 Reddit 安全策略拦截了，我们看不到更细的型号对比、店铺来源和价格分布。涨价 3% 是普遍缺货还是个别渠道在抬价，正文没披露。也没法判断这 15 家店覆盖了多大市场份额，数据能不能代表欧盟整体行情。对想买 5090 跑本地模型的人来说，这条信息说明现在不是好时机，但缺的细节太多，没法做更具体的购买建议。如果作者能补上店铺名单和型号细分，这条数据的参考价值会高很多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

18:09

75d ago

AI HOT 精选· aihot-apiZH18:09 · 05·14

Anthropic 发报告：美国在 AI 前沿领先，但没说怎么保持

Anthropic 发了一篇关于中美 AI 竞争的报告，结论是美国及其民主盟友目前在前沿 AI 领域领先。但正文没披露评估指标、具体策略或时间线，所以这个结论有多大参考价值不好说。想了解怎么保持优势的话，得自己点链接看全文。

#Anthropic#Policy#Commentary

一句话点评

Anthropic 发报告说美国及其盟友在前沿 AI 领先中国，但正文没披露评估指标、具体策略或时间线，结论参考价值有限。想了解怎么保持优势得自己点链接看全文。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

63

SCORE

H0·K0·R1

18:00

75d ago

FEATUREDAI HOT 精选· aihot-apiZH18:00 · 05·14

Claude Code 怎么啃下百万行老代码库：五个扩展点与上手顺序

Anthropic 这篇博客讲了 Claude Code 在百万行单体仓库、遗留系统和分布式架构里的实际用法。核心思路不是靠模型硬记，而是靠五个扩展点把项目知识喂给模型：CLAUDE.md 文件写项目规则、hooks 在操作前后自动检查、skills 封装可复用指令、plugins 接外部工具、MCP 服务器做本地代码库的智能搜索。文章给了从零开始的三...

#Agent#Code#Tools#Claude

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 自己下场讲怎么在百万行老代码里用 Claude Code，核心不是让模型硬记，而是靠五个扩展点把项目知识喂进去。

锐评

这篇博客是 Anthropic 官方出的 Claude Code 实战指南，专门讲怎么在百万行单体仓库、遗留系统和分布式架构里用。它没吹模型有多聪明，而是老老实实说：大代码库靠的是把项目上下文喂给模型，不是让模型自己记。具体给了五个扩展点：CLAUDE.md 文件写项目规则，hooks 在操作前后自动检查，skills 封装可复用指令，plugins 接外部工具，MCP 服务器做本地代码库的智能搜索。文章给了从零开始的三步上手路径，这点比较实在。但要注意，全文没有给出任何量化数据——没提在百万行代码库里准确率多少、一次任务平均消耗多少 token、比手动改快多少。所有建议都基于“我们观察到用户这样用效果好”，没有对照实验或用户调研样本量。所以这些最佳实践可以当参考，但别当验证过的结论。还缺一块：没讲失败案例。在遗留系统里改代码最容易踩的坑——比如改了 A 模块炸了 B 模块——文章完全没提 Claude Code 怎么处理这种跨模块依赖风险。如果你真要在生产环境的老代码上跑，这点得自己补测试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

18:00

75d ago

FEATUREDAI HOT 精选· aihot-apiZH18:00 · 05·14

Anthropic 发了份 AI 创业手册，把从想法到扩张拆成四步，每步都配了 Claude 的实操练习

Anthropic 这篇博客给 AI 原生创业画了一张路线图，分四个阶段：想点子、做最小可行产品、发布、扩张。每个阶段都给了目标、退出标准、常见翻车点，还附了用 Claude 做验证、客户调研、控制技术债、检查产品市场匹配和自动化工作流的提示词。文章没给具体案例数据，更像一套可以直接抄作业的框架。

#Agent#Code#Tools#Anthropic

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 出了一份 AI 创业实操手册，从想点子到扩张分了四步，附了现成的提示词模板，但没给任何真实案例数据，效果得自己试。

锐评

这份手册把 AI 创业拆成了四个阶段：想点子、做最小可行产品、发布、扩张。每个阶段都给了目标、退出标准和常见翻车点，还附了用 Claude 做验证、客户调研、控制技术债、检查产品市场匹配和自动化工作流的提示词。说白了，这是一套可以直接抄作业的框架，不是那种只讲大道理的文章。但得打个折。全文没给任何具体案例数据——没有用户增长曲线，没有留存数字，没有成本对比。所有方法论都停留在“应该这样做”的层面，缺少“这样做之后发生了什么”的验证。Anthropic 自己就是卖工具的，这份手册天然带着“多用 Claude 就能成”的倾向，技术债控制、自动化工作流这些环节尤其明显。还缺两块关键信息：一是不同阶段的模型选型建议，用 Opus 还是 Haiku，成本差好几倍，手册没提；二是团队配置，AI 原生团队到底要几个人、什么背景，也没说。这些空白让手册更像一份骨架，肉得自己填。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户