全部 · 2026-05-06

▸ 50 items · updated 3m ago

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-06 · 星期三2026年5月6日

23:37

82d ago

The Verge · AI· rssEN23:37 · 05·06

马斯克最忠诚的人，成了他最大的软肋

Shivon Zilis 在 Musk 诉 Altman 案中出庭作证，确认自己是马斯克四个孩子的母亲。她曾在 2017 年起同时在 Tesla、Neuralink 和 OpenAI 工作。正文未披露完整证词内容及对案件走向的具体影响。

#Elon Musk#Sam Altman#Shivon Zilis#Commentary

一句话点评

Shivon Zilis 出庭确认自己是马斯克四个孩子的母亲，并透露2017年起同时在特斯拉、Neuralink和OpenAI工作。

锐评

这条新闻的核心不是AI技术，而是Musk诉Altman案中一个关键证人的证词。Zilis是Musk的长期盟友，她的身份和跨公司工作经历可能成为法庭上质疑OpenAI早期治理结构的重要证据。正文未披露完整证词内容，所以目前只能确认她说了什么，无法判断对案件走向的具体影响。对于关注AI行业权力斗争的人，这是一条值得追踪的线索；但如果你只关心模型能力或产品，这条新闻暂时没有直接信息。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:16

82d ago

Product Hunt · AI· rssEN23:16 · 05·06

Unabyss：给 AI 装一个自动更新的“记忆层”，不用每次重新交代背景

Unabyss 是一个 MCP 原生的上下文层，能自动从你日常用的应用里提取、整理信息，然后通过 MCP 协议共享给任何 AI 工具。说白了就是：你设一次，以后 AI 就记住你的背景了，不用每次对话都重新说一遍“我是谁、我在做什么”。它支持细粒度权限控制，可以限制每个 AI 能看到哪些内容。目前标价免费，但正文没披露更新机制、支持哪些应用集成、上下文窗...

#Tools#Memory#Unabyss#Product update

一句话点评

一个MCP原生的上下文层，自动从日常应用提取信息并共享给AI工具，省去每次重复交代背景。支持细粒度权限控制，标价免费。但正文没披露更新机制、支持哪些应用集成、上下文窗口大小，实际效果和兼容性待验证。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

23:04

82d ago

Hacker News 首页· rssEN23:04 · 05·06

DeepSeek V4 Pro 打75折，到5月31日

DeepSeek 把 V4 Pro 的 API 价格打了75%的折扣，持续到5月31日。打折后，输入（缓存命中）每百万 tokens 只要0.0036美元，缓存未命中0.435美元，输出0.87美元。对比原价，输入缓存命中从0.0145美元降到0.0036美元，缓存未命中从1.74美元降到0.435美元，输出从3.48美元降到0.87美元。这个价格在主...

#DeepSeek#Hacker News#Product update

一句话点评

DeepSeek V4 Pro API 打75折到5月底，输出每百万tokens只要0.87美元。

锐评

DeepSeek 把 V4 Pro 的 API 价格打了75%的折扣，持续到5月31日。打折后，输出每百万 tokens 只要0.87美元，输入缓存命中更是低到0.0036美元。对比原价，输出从3.48美元降到0.87美元，缓存未命中从1.74美元降到0.435美元。这个价格在主流模型中算很低了，尤其是缓存命中价格几乎可以忽略。不过要注意，这是限时折扣，不是永久降价。另外，V4 Pro 支持1M上下文窗口，最大输出384K tokens，功能上支持 JSON 输出、工具调用等。但正文没披露具体上下文窗口的计费细节，也没说折扣结束后价格会恢复到多少。如果是高频调用且能命中缓存，成本确实能压得很低。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:55

82d ago

彭博科技· rssEN22:55 · 05·06

新加坡议会承诺AI时代不搞“无就业增长”

新加坡议会全票通过一项动议，承诺在AI转型期间不会出现经济增长但就业不增长的局面。动议本身是政治表态，正文没披露具体就业指标、执行机制或时间表，所以目前更像一个方向性承诺，不是可追踪的政策。

#Singapore Parliament#CNA#Policy

一句话点评

新加坡议会全票通过动议，承诺AI时代不会出现“有增长无就业”。目前只是政治表态，没有具体指标和执行机制。

锐评

新加坡议会全票通过一项动议，承诺在AI转型期间不会出现经济增长但就业不增长的局面。这本质上是一个政治表态，不是可追踪的政策。正文没有披露任何具体就业指标、执行机制或时间表，所以目前更像一个方向性承诺。对于AI从业者来说，这条新闻的信号意义大于实际约束力——新加坡政府至少在公开层面把“就业不增长”列为不可接受的结果，后续可能会影响企业部署AI时的合规预期。但缺的东西很多：没有说怎么衡量“就业不增长”，没有说企业如果裁员会有什么后果，也没有说政府会拿什么预算来兜底。如果后续配套细则出来，比如要求企业提交AI替代岗位的评估报告，那才是真正值得关注的政策落地。目前先当风向标看，别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:40

82d ago

FEATUREDFT · 科技· rssEN22:40 · 05·06

Arm 预计自家 AI 芯片明年能卖 20 亿美元，但没公布客户和制程

Arm 第一次自己做 AI 芯片，就给出了明年 20 亿美元的销售预期。这个数字不小，但文章正文被付费墙挡住了，看不到具体是卖给谁、用什么工艺生产、什么时候交货。软银在背后撑腰，需求据说很强劲，不过在没有客户名单和定价的情况下，这个预测先打个折看。

#Inference-opt#Arm#SoftBank#Product update

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Arm 第一次自己做 AI 芯片，就喊出明年 20 亿美元销售额。但正文被付费墙挡死，客户是谁、用什么工艺、什么时候交货全没披露，这个数字先打个折看。

锐评

Arm 不再只卖设计图纸，自己下场做 AI 芯片，还给出了明年 20 亿美元的销售预期。这个数字不小，但文章正文被付费墙完全挡住，我们只能看到摘要里说软银在背后撑腰、需求很强劲。关键信息全是缺口：没写芯片是给数据中心做推理还是训练用，没提客户名单，没披露用哪家代工厂、什么制程，也没说什么时候流片、什么时候交货。20 亿这个预测是来自已签的意向订单，还是内部测算，正文没披露。 Arm 以前靠收授权费赚钱，现在直接卖芯片，会跟自己的客户——比如高通、英伟达——变成竞争关系。这个转型能不能走通，要看它怎么平衡客户冲突，以及第一代芯片的实际性能。这些在现有信息里都看不到，所以 20 亿这个数，先当个方向看，别急着当真。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:31

82d ago

Product Hunt · AI· rssEN22:31 · 05·06

Basedash 把数据分析能力打包成 MCP 服务器，让 Claude、Cursor 等 AI 工具直接查你的数据库

Basedash 上线了一个 MCP 服务器，本质上是把它的 BI 平台包装成一个标准接口，让 Claude、Cursor、ChatGPT 等支持 MCP 的 AI 客户端能直接查询你已连到 Basedash 的数据库、数仓和 SaaS 工具。用户用自然语言就能拉实时数据、对比用户群、生成图表。官方说权限沿用团队已有的访问控制，但正文没披露具体的数据源...

#Agent#Tools#Basedash#Product Hunt

一句话点评

BI 工具 Basedash 把数据查询包装成 MCP 接口，让 Claude 等 AI 直接问数据库。

锐评

Basedash 把自家 BI 平台包装成 MCP 服务器，等于给 Claude、Cursor 这些 AI 客户端开了一个“数据后门”——用户用自然语言就能查已连到 Basedash 的数据库、数仓和 SaaS 工具，拉实时数据、对比用户群、生成图表。官方说权限沿用团队已有的访问控制，这点先别太激动，因为正文没披露具体支持哪些数据源、有没有额外计费、以及 MCP 驱动的查询是否走独立审计日志。对团队来说，好处是省了来回切工具和写 SQL 的时间；风险是自然语言查询容易产生模糊或错误的 SQL，且权限边界在 MCP 场景下可能被绕过。如果是小团队快速看数，这个方案挺省钱；但金融、医疗等需要严格审计的场景，建议等官方补上查询日志和源列表再上生产。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

22:14

82d ago

FT · 科技· rssEN22:14 · 05·06

马斯克曾想挖奥特曼去特斯拉，后来在OpenAI闹翻了

据Shivon Zilis（马斯克旗下公司高管）在法庭证词中透露，马斯克在跟奥特曼闹翻之前，曾试图挖他去特斯拉任职。这篇FT报道把这件事跟两人后来在OpenAI发展方向上的争执以及马斯克起诉OpenAI联系了起来。但正文被付费墙挡住了，没披露具体是什么职位、什么时间、什么条件。

#Elon Musk#Sam Altman#Shivon Zilis#Personnel

一句话点评

法庭证词爆料，但正文被付费墙挡住，缺关键细节。

锐评

FT这篇报道的核心信息来自Shivon Zilis的法庭证词：马斯克在跟奥特曼闹翻之前，曾试图挖他去特斯拉任职。但正文被付费墙完全挡住，没披露具体是什么职位、什么时间、什么条件。所以这条新闻目前只能当八卦看——它把这件事跟两人后来在OpenAI发展方向上的争执以及马斯克起诉OpenAI联系了起来，但缺少支撑判断的细节。对AI从业者来说，这条信息本身没有技术或商业启示，更多是人物关系背景。如果后续有更多证词或文件披露具体职位和条件，才可能看出马斯克当时对AI人才的布局思路。目前信息缺口太大，不值得据此做任何判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:57

82d ago

TechCrunch AI· rssEN21:57 · 05·06

Barry Diller 说信任 Sam Altman，但 AGI 快来了，信任没用

IAC 主席 Barry Diller 公开力挺 OpenAI CEO Sam Altman，但他同时警告：AGI 一旦接近，信任就变得无关紧要，必须提前装好护栏。Diller 没有具体说护栏是什么、什么时候装、怎么验证效果。正文没披露他是否了解 OpenAI 内部的安全流程，也没给出 AGI 的时间表。

#Safety#Alignment#Barry Diller#Sam Altman

一句话点评

IAC主席Diller挺Altman，但说AGI快来了，信任没用，得提前装护栏。

锐评

Barry Diller（IAC主席）在WSJ活动上公开力挺Sam Altman，但他真正想说的是：AGI一旦接近，信任就无关紧要了，必须提前装好护栏。这话本身没错，但问题在于全文没披露任何具体方案——护栏是什么、谁来装、什么时候装、怎么验证效果，一概没提。Diller也没说他是否了解OpenAI内部的安全流程，更没给出AGI的时间表。所以这条新闻的价值在于：一个非AI圈的老牌商业大佬开始公开喊“AGI需要硬约束”，说明安全议题正在从技术圈扩散到董事会层面。但如果你指望从中读到可操作的安全方法论，正文给不了。信息缺口很明显：没有具体技术方案、没有时间线、没有验证机制。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:51

82d ago

r/LocalLLaMA· rssEN21:51 · 05·06

Unsloth 给 Qwen3.6 嫁接 MTP 模块，本地推理速度提升 6%-50%

Reddit 用户 havenoammo 上传了嫁接 MTP（多 token 预测）模块的 Qwen3.6-35B-A3B 模型 GGUF 版，并晒出本地跑分。在单张 5090 FE 上，Q4 量化从 215 涨到 228 token/秒，提升约 6%；5090+3090 组合下 Q8 从 148 涨到 152 token/秒；另一用户用 2 张 50...

#Inference-opt#Qwen#Hugging Face#llama.cpp

一句话点评

单卡5090跑Qwen3.6-35B，MTP模块白送6%速度，几乎零成本。

锐评

Reddit用户havenoammo把MTP（多token预测，即模型一次猜多个词）嫁接到Qwen3.6-35B-A3B上，放出GGUF量化版并晒了本地跑分。单张5090上Q4量化从215涨到228 token/秒，提升约6%；5090+3090组合下Q8从148涨到152 token/秒。另一用户用2张5070 Ti+3090更夸张，从110跳到165 token/秒，但原文没解释配置差异，这点先别太激动。MTP原本是训练阶段的技巧，现在被强行塞进推理，效果居然正向，说明Qwen3.6的架构对这类嫁接容忍度高。不过正文没披露显存占用变化、生成质量是否下降，也没说MTP模块本身有多大。如果只是白嫖6%且不影响输出，那对本地部署用户挺划算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:43

82d ago

TechCrunch AI· rssEN21:43 · 05·06

Snap 与 Perplexity 的 4 亿美元合作悄悄终止

Snap 在季度财报里提了一句，去年 11 月宣布的那笔 4 亿美元交易已经“友好结束”。按原计划，Perplexity 的 AI 搜索会直接嵌进 Snapchat，Perplexity 要在一年内付给 Snap 4 亿美元的现金加股权。现在合作在 Q1 就停了，双方都没说具体原因。我会先打个折：公告里只给了“友好结束”这四个字，没披露是谁先叫停、钱付...

#Tools#Snap#Perplexity#Snapchat

一句话点评

4亿美元合作黄了，双方都说“友好分手”，但没提谁先撤。

锐评

Snap 在季度财报里轻描淡写一句：去年11月宣布的4亿美元合作已经“友好结束”。原计划是把 Perplexity 的 AI 搜索直接嵌进 Snapchat，Perplexity 一年内付给 Snap 4亿美元现金加股权。现在Q1就停了，双方都没说具体原因。我会先打个折：公告里只给了“友好结束”四个字，没披露是谁先叫停、钱付了多少、有没有分手费。4亿美元对 Perplexity 这种估值几十亿的搜索公司不算小数目，但如果是分期付，实际损失可能没那么大。缺的信息不少：合作终止是 Snap 觉得搜索嵌入效果不好，还是 Perplexity 觉得不值这个价？Snapchat 的 AI 功能（比如 My AI）会不会受影响？正文都没提。如果是 Perplexity 主动退出，说明它可能找到了更便宜的获客渠道；如果是 Snap 叫停，那它的 AI 战略可能又变了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:26

82d ago

Hacker News 首页· rssEN21:26 · 05·06

苹果拿一条老规矩卡新软件：AI 生成的 App 算谁的？

苹果从今年 1 月开始用 App Store 审核条款 2.5.2 卡 AI 编程应用，Replit 和 Vibecode 的更新被拒，一个叫 Anything 的 App 直接被下架。核心矛盾是：AI 生成的代码在用户手机上才跑出来，苹果审核时看不到，没法保证安全。Replit 试过把生成的 App 预览放到外部浏览器里，苹果还是没放行。这事不只是 ...

#Apple#Policy#Commentary

一句话点评

苹果用一条老规矩卡住了AI编程App，Replit和Vibecode更新被拒，Anything直接被下架。

锐评

苹果从1月开始用App Store审核条款2.5.2卡AI编程应用，Replit和Vibecode的更新被拒，一个叫Anything的App直接被下架。核心矛盾是：AI生成的代码在用户手机上才跑出来，苹果审核时看不到，没法保证安全。Replit试过把生成的App预览放到外部浏览器里，苹果还是没放行。这事不只是App Store的审核问题。版本号、发布说明、bug报告、文档截图——整个软件分发体系都假设“软件发出去就不动了”。但AI编程App生成的代码每个用户都不一样，而且随时在变。苹果的审核流程没法检查一个“运行时才决定行为”的东西。正文没披露苹果是否会推出针对AI生成代码的新审核规则，也没说Replit和Vibecode后续的应对方案。如果苹果坚持用旧规则卡新形态，这类App在iOS上基本没法正常更新。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:21

82d ago

FEATUREDThe Verge · AI· rssEN21:21 · 05·06

谷歌关停网页任务实验 Project Mariner，技术已并入 Gemini Agent

谷歌在 2026 年 5 月 4 日关掉了 Project Mariner，一个能让 AI 在浏览器里自动完成多步骤网页任务的实验项目。它之前最多支持同时跑 10 个任务。关停不是因为技术失败，而是这套能力已经挪到了谷歌正式产品里，比如 Gemini Agent 和 AI Mode。正文没披露具体迁移时间点和用户数据，所以实际落地效果还得看后续产品表现。

#Agent#Tools#Google#Project Mariner

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

谷歌把 Project Mariner 关了，但它的浏览器自动干活能力没死，只是搬进了 Gemini Agent 等正式产品。正文没给迁移时间表和用户数据，实际好不好用还得看后续。

锐评

Project Mariner 关停不是技术翻车，而是谷歌把实验项目的能力收编进了正式产品线，比如 Gemini Agent 和 AI Mode。这个项目之前能让 AI 在浏览器里自动完成多步骤网页任务，最多同时跑 10 个任务，属于典型的“让模型进业务流程干活”的 agent 玩法。现在关掉它，说明谷歌觉得这套东西已经成熟到可以脱离实验室标签，直接面向普通用户了。但正文没披露具体什么时候迁移的、有多少用户用过 Mariner、迁移后功能有没有打折，这些信息缺口让“落地效果”这件事还得打个问号。对从业者来说，这更像一个信号：浏览器自动化 agent 正在从 demo 阶段往产品化走，但谷歌没给任何性能对比或用户反馈，所以先别太激动，等 Gemini Agent 的实际表现再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:14

82d ago

Hacker News 首页· rssEN21:14 · 05·06

迪士尼乐园部署人脸识别入园

《卫报》报道迪士尼乐园在入口启用了人脸识别，标题玩了个“米老鼠在看着你”的梗。但正文没披露具体部署在哪个入口、用了哪家供应商、人脸数据保留多久、是否征得游客同意，以及覆盖范围有多大。对做AI或生物识别的人来说，关键缺口是缺乏任何生物特征治理细节——比如存储策略、脱敏方式、退出机制。这些信息缺失意味着目前只能当社会新闻看，没法评估技术合规性或隐私风险。

#Vision#The Guardian#Disneyland#Policy

一句话点评

迪士尼乐园入口启用人脸识别，但正文没披露供应商、数据存多久、游客能否退出。

锐评

《卫报》报道迪士尼乐园入口启用了人脸识别，标题玩了个“米老鼠在看着你”的梗。但正文没披露具体部署在哪个入口、用了哪家供应商、人脸数据保留多久、是否征得游客同意，以及覆盖范围有多大。对做AI或生物识别的人来说，关键缺口是缺乏任何生物特征治理细节——比如存储策略、脱敏方式、退出机制。这些信息缺失意味着目前只能当社会新闻看，没法评估技术合规性或隐私风险。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:06

82d ago

FEATUREDr/LocalLLaMA· rssEN21:06 · 05·06

Reddit 帖子称有匿名资金在付费让网红把中国 AI 塑造成威胁

一篇 r/LocalLLaMA 的帖子提到，有来源不明的资金在 TikTok 上付费给网红，让他们把中国 AI 渲染成安全威胁。帖子附了 WIRED 的链接，并点名一个由 OpenAI 和 Palantir 支持的超级政治行动委员会，但正文没披露具体花了多少钱、找了哪些创作者、以及针对哪些人群投放。另外，Reddit 原文链接返回了 403，帖子内容本...

#Safety#OpenAI#Palantir#WIRED

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

Reddit 原文被 403 挡了，WIRED 报道也没披露具体花了多少钱、找了哪些网红、投给了哪些人群。

锐评

这条消息的核心是一篇 WIRED 报道，说有一笔来源不明的资金在 TikTok 上付费给网红，把中国 AI 渲染成安全威胁。帖子点名了一个由 OpenAI 和 Palantir 支持的超级政治行动委员会，但正文没给出任何具体数字——花了多少钱、找了哪些创作者、针对什么人群投放，这些关键信息全是空白。Reddit 原帖链接直接返回 403，我们看不到原帖的讨论和补充细节。我会先打个折：这更像是一个值得关注的线索，而不是一个已经坐实的事实。如果后续有网红合同、付款记录或投放数据出来，才能判断这到底是一次有组织的舆论操作，还是个别账号的自发行为。目前能确认的只有 WIRED 做了报道，但报道本身的证据强度我们没法验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:05

82d ago

彭博科技· rssEN21:05 · 05·06

马斯克曾考虑让奥特曼进特斯拉董事会，庭审爆料

庭审中陪审团得知，马斯克曾考虑拉拢Sam Altman加入特斯拉董事会。这是两人恩怨官司的最新爆料，但正文没披露具体时间、条件或Altman的回应。

#Elon Musk#Sam Altman#Tesla#Personnel

一句话点评

马斯克曾考虑拉Sam Altman进特斯拉董事会，这是两人官司的新料。

锐评

庭审爆料，马斯克曾考虑让Sam Altman进特斯拉董事会。这是两人恩怨官司的最新进展，但正文被Bloomberg paywall挡住，没披露具体时间、条件或Altman的回应。信息缺口很大：是收购OpenAI前的拉拢，还是后来和解的筹码？Altman是否接洽过？这些都没说。目前只能确认这是个法庭上的单方说法，未经交叉质证，可信度要打折。对AI从业者来说，这条新闻本身信息量有限，但反映了两人关系从合作到对簿公堂的戏剧性转折，以及科技圈高层人事博弈的复杂性。如果后续有更多细节流出，比如时间线和具体条件，才值得深入分析。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:00

82d ago

FEATURED彭博科技· rssEN21:00 · 05·06

五角大楼把阿里和百度拉黑又撤回，中美科技休战协议一碰就碎

彭博这篇报道讲的是特朗普政府内部在针对中国科技公司的军事黑名单上闹出的乌龙。五角大楼一度把阿里巴巴和百度列入一份与军方有关联的公司名单，但很快又撤了回去。文章没披露具体的列入和移除时间点，也没说清楚名单的法律依据是什么。这件事直接冲击了当时中美之间脆弱的科技休战氛围，暴露出华盛顿内部在如何管控中国科技巨头这件事上根本没有统一意见。对阿里和百度来说，虽然...

#Bloomberg#Alibaba#Baidu#Policy

精选理由

精选 · 重要度 73 · 吸引力 + 共鸣

一句话点评

五角大楼把阿里和百度拉进军事黑名单又秒撤，华盛顿自己都没统一意见，这事对两家公司的实际业务影响有限，但暴露了政策有多乱。

锐评

这条新闻最值得看的是美国内部在对华科技管控上有多分裂。五角大楼一度把阿里巴巴和百度列入所谓与军方有关联的公司名单，但很快又撤了回去。彭博的报道没披露具体的列入和移除时间点，也没说清楚这份名单的法律依据到底是什么，是依据国防授权法还是其他行政令，正文没写。对阿里和百度来说，被拉进这种名单又迅速摘掉，短期股价可能晃一下，但实际业务冲击不大——毕竟名单本身就没生效。真正的问题是，这件事发生在中美科技休战期，直接动摇了市场对政策稳定性的预期。华盛顿内部显然没商量好怎么界定“涉军”，连五角大楼自己都搞不定，更别说让企业去合规了。报道还缺几个关键信息：名单的触发条件、移除流程、以及两家公司到底做了什么才被盯上。这些没披露，我们就没法判断这是行政失误还是政策试探。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:47

82d ago

r/LocalLLaMA· rssEN20:47 · 05·06

Qwen3.6-35B-A3B 跑在 AMD 单卡上，VS Code 写 React 一次跑通

Reddit 用户用一块 AMD R9700 跑 Qwen3.6-35B-A3B-UD-Q5_K_XL 模型，在 VS Code 里配合 Copilot 写代码。上下文窗口开到 262144 token，一次喂了 18 万 token 的输入、生成 1 万 token，还调了工具函数。Vite React 应用第一次运行就成功，只有一个 Playwri...

#Code#Tools#Inference-opt#Qwen

一句话点评

35B模型跑出94-105 token/s，本地写代码够用了。

锐评

Reddit用户用一块AMD R9700跑Qwen3.6-35B-A3B-UD-Q5_K_XL，在VS Code里配合Copilot写代码，上下文窗口开到262k，一次喂了18万token输入、生成1万token，还调了工具函数。Vite React应用第一次运行就成功，只有一个Playwright测试需要手动修正。速度约94-105 token/s，对35B模型来说相当快，说明量化（Q5_K_XL）和MoE架构（A3B）在消费级显卡上确实能跑。但注意这是单用户单任务场景，生产环境并发或长上下文持续推理时性能会打折。正文没披露具体显存占用和功耗，也没说是否用到Flash Attention等优化。如果是真的，这个配置对个人开发者做代码辅助挺省钱，但离企业级部署还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:39

82d ago

r/LocalLLaMA· rssEN20:39 · 05·06

Zyphra 发了款 8B MoE 推理模型，活跃参数不到 1B，号称数学推理比肩 DeepSeek-V3.2 和 GPT-5-High

Zyphra 刚放出 ZAYA1-8B，一个混合专家（MoE）推理模型，每次推理只激活不到 10 亿参数。官方说它数学和推理能力超过很多更大的开源模型，甚至接近 DeepSeek-V3.2 和 GPT-5-High（配合测试时计算）。但正文没披露训练数据集、具体跑分和许可证，所以这些对比结论暂时没法验证。如果真能做到，那成本会非常低——毕竟活跃参数少，...

#Reasoning#Inference-opt#Zyphra#AMD

一句话点评

一个只激活不到10亿参数的MoE模型，声称数学推理接近DeepSeek-V3.2和GPT-5-High，但没给训练数据、跑分和许可证，先别太激动。

锐评

Zyphra 新出的 ZAYA1-8B 是个混合专家（MoE）推理模型，每次推理只激活不到 10 亿参数。官方说它数学和推理能力超过很多更大的开源模型，甚至接近 DeepSeek-V3.2 和 GPT-5-High（配合测试时计算）。如果真能做到，那成本会非常低——毕竟活跃参数少，推理时显存和算力需求都小很多。但正文没披露训练数据集、具体跑分和许可证，所以这些对比结论暂时没法验证。另外，帖子来源是 Reddit 的 LocalLLaMA 板块，属于社区讨论，不是官方正式发布，信息可信度要打折。还缺什么？缺独立第三方跑分、模型权重下载链接、以及更详细的架构说明。如果是真的，对本地部署和低成本推理是个好消息，但建议等更多证据再下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:36

82d ago

FEATUREDr/LocalLLaMA· rssEN20:36 · 05·06

Atlas 推理引擎开源，在 DGX Spark 上跑 Qwen3.6-35B-FP8 能稳定跑到每秒 100 多个 token

Avarok 把 Atlas 推理引擎开源了。它用 Rust 和 CUDA 写成，镜像只有约 2.5GB，冷启动不到两分钟。在一台 DGX Spark 上跑 Qwen3.5-35B，实测持续速度约 111 tok/s，作者说比 vLLM 快 3.0 到 3.3 倍。引擎专门为 Blackwell SM120/121 写了内核，支持 NVFP4、FP8 ...

#Inference-opt#Code#Tools#Avarok Cybersecurity

精选理由

精选 · 重要度 77 · 吸引力 + 知识量 + 共鸣

一句话点评

一个2.5GB的推理引擎镜像，在DGX Spark上跑35B模型能到111 tok/s，作者说比vLLM快3倍多。但这是单机单卡测试，别急着对标生产环境。

锐评

Avarok把Atlas推理引擎开源了，用Rust和CUDA写成，镜像只有约2.5GB，冷启动不到两分钟。在一台DGX Spark上跑Qwen3.5-35B，实测持续速度约111 tok/s，作者声称比vLLM快3.0到3.3倍。这个速度确实亮眼，但得先打个折：测试环境是单机单卡，没有多用户并发、长上下文或混合负载的压力数据，生产场景下能保持多少还不清楚。引擎专门为Blackwell SM120/121写了内核，支持NVFP4和FP8量化，还用了MTP解码来提吞吐。这些优化方向是对的，但正文没披露精度损失对比、长文本下的显存占用和延迟抖动，也没给出和其他引擎在相同硬件上的公平对比方法。另外，Reddit原文被网络屏蔽，我们只能看到摘要，无法核实评论区里的实际反馈和潜在坑点。如果你正好有DGX Spark或者同款Blackwell卡，这个项目值得跑一下看看。但如果是通用部署，先别急着切，等社区把多卡、多模型和压力测试补上再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:19

82d ago

FEATURED彭博科技· rssEN20:19 · 05·06

Scale AI 拿到五角大楼 5 亿美元合同，帮军方筛数据、辅助决策

五角大楼给了 Scale AI 一份 5 亿美元的合同，让他们做数据筛选和决策支持。文章提到 Meta 是 Scale AI 的投资方，但没披露合同期限、具体部署范围、用的是什么模型。这笔钱本身是个信号：美军开始在数据工作流上砸大钱，而不只是买硬件或武器系统。

#Agent#Scale AI#Meta Platforms#Pentagon

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

五角大楼花5亿美元买数据筛选服务，不是买武器。合同细节没公布，Meta是投资方但未必参与干活。

锐评

这笔5亿美元的合同说明美军开始把真金白银砸在数据工作流上，而不只是硬件或武器系统。Scale AI拿到的任务是做数据筛选和决策支持，相当于帮军方从海量情报里快速挑出有用的东西。文章提到Meta是Scale AI的投资方，但正文没披露合同期限、具体部署范围、用的是什么模型、数据存在哪里。这些缺口挺关键的——没有期限就不知道这是短期试点还是长期基建，没有模型信息就判断不了技术自主程度。另外，军方AI项目通常对延迟、可解释性和安全审计要求极高，正文完全没提这些指标。这笔钱本身是个信号，但离“美军AI化”还差很多细节。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:07

82d ago

彭博科技· rssEN20:07 · 05·06

Arm 警告手机市场疲软，AI 数据中心增长勉强补坑

Arm 最新财报显示，智能手机业务拖累收入，但 AI 数据中心业务增长抵消了部分下滑。正文没披露具体销售指引、数据中心增速或手机业务占比，所以没法判断这个“抵消”到底能补多少。对 AI 从业者来说，Arm 在数据中心靠的是 CPU 架构授权，不是 GPU，这意味着它吃的是 AI 服务器里“配套”的份额，不是算力核心。手机疲软是长期趋势，AI 这块能撑多...

#Inference-opt#Arm#Commentary

一句话点评

Arm 靠 AI 数据中心拉业绩，但手机业务拖后腿，具体能补多少正文没给数。

锐评

Arm 最新财报说 AI 数据中心业务增长抵消了手机疲软，但正文没披露具体销售指引、数据中心增速或手机业务占比，所以没法判断这个“抵消”到底能补多少。对 AI 从业者来说，Arm 在数据中心靠的是 CPU 架构授权，不是 GPU，这意味着它吃的是 AI 服务器里“配套”的份额，不是算力核心。手机疲软是长期趋势，AI 这块能撑多久、撑多大，取决于服务器出货量，而服务器出货量又受资本开支节奏影响。如果数据中心增速只有个位数，那“抵消”可能只是杯水车薪。缺的是分业务线的收入占比和增速，以及管理层对下季度的具体指引。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:54

82d ago

FEATUREDr/LocalLLaMA· rssEN19:54 · 05·06

Reddit 实测：双卡跑大模型，PCIe 带宽可能没你想的那么吃紧

用户 ziphnor 用两张 RTX 5060 Ti 16GB 跑 vLLM，开启张量并行（TP=2）处理 32k 上下文预填充。实测 PCIe 峰值带宽只跑到 3–4 GB/s，大约占满一条 PCIe 4.0 x4 通道的 40%–50%。预填充速度在不同设置下分别达到约 840–850、1500 和 1600–1700 tokens/s。帖子没提解...

#Inference-opt#Benchmarking#ziphnor#vLLM

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

双卡跑推理 PCIe 带宽只用了 3-4 GB/s，远没到瓶颈，别被“必须上高带宽主板”的说法吓到。

锐评

这条实测挺实在的。用户用两张 RTX 5060 Ti 16GB 跑 vLLM 的张量并行，处理 32k 上下文的预填充，PCIe 峰值带宽只跑到 3–4 GB/s，大概是一条 PCIe 4.0 x4 通道的四到五成功力。预填充速度在不同设置下能到 840–1700 tokens/s，说明对于这种双卡跑大上下文推理的场景，PCIe 带宽远不是瓶颈，普通主板完全够用。不过得注意，帖子只披露了预填充阶段的带宽，解码阶段的带宽没提。解码时卡间通信模式不同，带宽需求可能更高，这点先别直接类推。另外测试只用了两张卡，卡多了或者模型更大时结论未必成立。正文也没说具体模型和精度，缺这些信息就没法判断这套配置的通用性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:46

83d ago

FEATUREDr/LocalLLaMA· rssEN18:46 · 05·06

Reddit 网友扒了 922 条 agent 任务记录，发现 DeepSeek v4 省钱的关键不在标价，在缓存命中率

一位 Reddit 用户分析了 922 条 agent 任务的实际调用记录，对比了 DeepSeek v4 Flash 和 Opus 4.7 的花费。两个模型每个任务都要吃掉大约 96 万 token，但 DeepSeek 单任务成本只要 0.01 美元，Opus 4.7 却要 1.52 美元。差距不在输入输出的标价，而在缓存：DeepSeek 的缓存...

#Agent#Inference-opt#Tools#DeepSeek

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

DeepSeek v4 跑 agent 任务便宜到离谱，单次 0.01 美元，Opus 4.7 要 1.52 美元，差距不在标价在缓存命中率。

锐评

这条分析挺实在，直接拿 922 条 agent 任务的实际调用记录算账。两个模型每次任务都要吞掉约 96 万 token，但 DeepSeek v4 Flash 单任务成本只要 0.01 美元，Opus 4.7 却要 1.52 美元，差了 150 倍。关键不在输入输出的标价，而在缓存：DeepSeek 的缓存命中率高达 97%，Opus 只有 87%，而且 DeepSeek 缓存读写价格比是 0.02，Opus 是 0.08。说白了，DeepSeek 把重复用到的系统提示、工具定义这些固定内容几乎全缓存住了，实际计费的 token 很少。不过得打个折。数据来自一个 Reddit 用户自己的任务记录，样本量 922 条不算大，任务类型、复杂度、用的框架都没披露，没法直接套到别的场景。另外原文被 Reddit 的网络安全拦截了，我只能根据摘要转述，具体实验设置和统计方法看不到。这点先别太激动。如果你跑 agent 时系统提示很长、工具调用频繁，缓存策略确实比标价重要得多。但想知道 DeepSeek 在别的任务上是不是也这么能省，还得看更多独立测试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:23

83d ago

TechCrunch AI· rssEN18:23 · 05·06

Greg Brockman 亲述：Elon Musk 当年是怎么离开 OpenAI 的

OpenAI 联合创始人 Greg Brockman 在法庭上回忆了 2017 年 8 月的一次关键会议：当时 OpenAI 还是个小非营利研究实验室，正讨论成立营利实体来筹钱做 AGI。Musk 要求完全控制公司，还刚给每位联合创始人送了辆 Model 3——Brockman 觉得这是在拉拢人心。与此同时，Sam Altman 也在争取支持。研究负责...

#Greg Brockman#Elon Musk#OpenAI#Personnel

一句话点评

Musk 要完全控制 OpenAI，Altman 在拉人，Brockman 觉得送 Model 3 是收买。

锐评

这是 Greg Brockman 在法庭上回忆的 2017 年 8 月内幕：当时 OpenAI 还是个小非营利实验室，正讨论成立营利实体筹钱做 AGI。Musk 要求完全控制公司，还刚给每位联合创始人送了辆 Model 3——Brockman 觉得这是在拉拢人心。同时 Sam Altman 也在争取支持。最终 Musk 退出，但这段谈判细节很少公开。正文没披露 Musk 具体要什么控制权、Altman 怎么拉的人，也没说当时营利实体的股权结构。看点在于创始人撕逼的罕见公开记录，但信息量有限，更像法庭证词节选，不是完整决策复盘。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:52

83d ago

彭博科技· rssEN17:52 · 05·06

美国最大电网CEO：数据中心用电太猛，电网得重新设计

美国最大电网的CEO David Mills说，数据中心带来的用电需求暴涨，电网必须重新设计才能扛住。正文没披露具体是哪个电网、用电量涨了多少、预算多少、什么时候动工。

#David Mills#Bloomberg#Commentary

一句话点评

电网要重新设计才能扛住AI用电潮，但正文没提具体涨了多少、预算多少。

锐评

一句话：美国最大电网CEO说电网得重新设计才能扛住数据中心带来的用电暴涨。关键信息缺口：没说是哪个电网（PJM？CAISO？）、用电量具体涨了多少、预算多少、什么时候动工。这相当于只给了个方向性警告，没有落地细节。对AI从业者来说，这信号意味着算力扩张可能遇到物理瓶颈——如果电网不改，新建数据中心并网周期会拉长、成本会上升。但正文没披露任何数字支撑，所以这点先别太激动，等具体方案出来再评估影响。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:11

83d ago

r/LocalLLaMA· rssEN17:11 · 05·06

DeepSeek V3.2 本地跑起来了，llama.cpp 新分支支持 404GB 量化版

开发者 fairydreaming 在 llama.cpp 上提交了一个 DeepSeek V3.2 的 PR，专门开了一个 deepseek-dsa 分支，一行 git clone 就能试。目前支持三种 GGUF 量化：Q4_K_M 约 404GB，Q8_0 约 714GB。如果你用 CUDA 跑 ggml_top_k() 爆显存，可以试试降低 ub...

#Inference-opt#Tools#fairydreaming#llama.cpp

一句话点评

社区开发者给 DeepSeek V3.2 做了 llama.cpp 支持，一行命令就能跑，但显存门槛极高。

锐评

fairydreaming 在 llama.cpp 上提交了 DeepSeek V3.2 的 PR，专门开了 deepseek-dsa 分支，git clone 即可试用。目前支持两种 GGUF 量化：Q4_K_M 约 404GB，Q8_0 约 714GB。这意味着跑 Q4 量化也需要至少 4 张 80GB A100 或 8 张 48GB 显卡，个人玩家基本没戏。正文没披露推理速度或显存优化细节，只提到 CUDA 下 ggml_top_k() 可能爆显存，建议降低 ubatch 或调高 -fitt。这点先别太激动：PR 还在早期，社区验证和 benchmark 都缺。对从业者来说，价值在于 llama.cpp 生态终于有人接 DeepSeek V3.2 了，后续如果能压到单卡可跑，本地部署才有意义。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:08

83d ago

Product Hunt · AI· rssEN17:08 · 05·06

iOrchestra AI 硬件工程师：用文字描述就能生成可生产的硬件设计

iOrchestra 在 Product Hunt 上发布了一个 AI 硬件工程师工具，号称从文字描述到可生产的硬件设计只需几分钟，而不是几周。它用多个 AI agent 自动生成 PCB 布局、原理图、机械和工业设计，还能仿真、迭代、自动生成物料清单（BOM）并直接送去生产。不过，正文没披露它支持哪些元器件、输出什么格式、如何做可制造性检查、定价多少...

#Agent#Tools#iOrchestra#Product Hunt

一句话点评

短评：从文字到可生产硬件设计，几分钟 vs 几周，听着很猛，但正文没披露支持哪些元器件、输出格式和定价，先别太激动。点评：iOrchestra 在 Product Hunt 上推了个 AI 硬件工程师，号称从文字描述到可生产的硬件设计只需几分钟，而不是几周。它用多个 AI agent 自动生成 PCB 布局、原理图、机械和工业设计，还能仿真、迭代、自动生成物料清单（BOM）并直接送去生产...

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

16:34

83d ago

● P1彭博科技· rssEN16:34 · 05·06

Anthropic 与 SpaceX 签署算力协议满足 Claude 需求增长

Anthropic 和马斯克的 SpaceX 签了一份算力合同，目的是撑住 Claude 越来越大的用量。报道没披露具体算力规模、合同金额、上线时间，也没说这批算力是拿来训练新模型还是跑线上推理。SpaceX 能不能挤进 Anthropic 的长期供应链，目前还看不出来。

#Inference-opt#Anthropic#SpaceX#Elon Musk

精选理由

精选 · 重要度 96 · 吸引力 + 共鸣

一句话点评

Anthropic 找 SpaceX 租数据中心来跑 Claude，说明自家算力已经跟不上用户增长了。但别急着喊“马斯克入局”，这只是商业租赁，不是技术合作。

锐评

Anthropic 跟 SpaceX 签了份算力租赁合同，把 Claude 的部分计算任务搬到 SpaceX 的数据中心去跑。Bloomberg 和 FT 都报了这事，但都没披露具体金额和租了多少台服务器。Latent Space 的社区消息提了个数字：300 兆瓦的电力容量，一年可能要花 50 亿美元——这个数如果属实，相当于 Anthropic 每年在算力上烧掉一笔巨款，侧面说明 Claude 的用户量和调用次数涨得很快，ARR 年化增长率被曝达到 8000%。不过，300MW 和 50 亿美元这两个数字来自社区传闻，不是官方确认，我会先打个折。SpaceX 的数据中心业务本身也不是主业，它能提供多少稳定的 GPU 集群、网络延迟怎么样，正文都没交代。Anthropic 选 SpaceX 而不是 AWS 或 Google Cloud，可能是为了分散供应商风险，也可能是因为传统云厂商的 GPU 排期太满。但跟一家火箭公司租服务器，运维和扩展性上会不会有坑，现在还看不出来。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:17

83d ago

FEATUREDHacker News 首页· rssEN16:17 · 05·06

Claude 大幅提高用量上限，并与 SpaceX 签下超 300 兆瓦算力合同

Anthropic 宣布了三项即时生效的调整：Claude Code 的 5 小时速率限制翻倍，Pro 和 Max 用户不再受高峰时段降速限制，Opus 模型的 API 调用频率也明显上调。这些变化背后是一笔新签的 SpaceX 算力合同——Anthropic 将在一个月内用上 Colossus 1 数据中心全部容量，超过 300 兆瓦、约 22 万张...

#Anthropic#Claude#SpaceX#Product update

精选理由

精选 · 重要度 76 · 吸引力 + 共鸣

一句话点评

Anthropic 宣布 Claude 用量限制放宽，背后是 SpaceX 的算力合同。但正文没披露具体放宽了多少倍、价格变不变，这点先别太激动。

锐评

Anthropic 这次调整挺实在：Claude Code 的五小时速率限制翻倍，Pro 和 Max 用户不再被高峰时段降速，Opus 模型的 API 调用频率也明显上调。这些变化背后是一笔新签的 SpaceX 算力合同——Anthropic 将在一个月内用上 Colossus 1 数据中心全部容量，超过 300 兆瓦、约 22 万张 NVIDIA GPU。这个数字不小，说明他们确实在解决算力瓶颈，而不是光画饼。但正文有几个关键信息没给：速率限制翻倍是从多少翻到多少？API 调用频率上调的具体倍数是多少？价格会不会跟着涨？这些直接影响用户判断，但公告里只放了张表格截图，没文字说明。另外，SpaceX 的合同金额、合作期限也没披露，只说“表达了兴趣”要搞轨道 AI 算力，这部分还太早期，别当真。整体看，这次更新对重度用户是利好，但缺了具体数字和定价信息，没法判断性价比到底提升了多少。如果你在用 Claude Code 或 Opus API，可以自己实测一下延迟和限流情况，别光看公告。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:09

83d ago

FEATUREDr/LocalLLaMA· rssEN16:09 · 05·06

本地大模型性能瓶颈：提示词处理速度常被忽视

Reddit 用户指出，本地跑大模型时，很多人只关心解码阶段每秒能生成多少 token，但实际瓶颈往往在处理提示词（prompt processing）上。比如写代码的 agent 任务，提示词轻松到 1.5 万 token；用 Mac mini 跑 Qwen3.6 27B 模型处理 6.4 万 token 的提示词，光处理就要 10 分钟以上。正文没...

#Inference-opt#Code#Reddit#Qwen

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

本地跑大模型，别只盯着生成速度，提示词处理阶段才是真卡脖子。

锐评

社区里很多人晒每秒生成多少 token，但 Reddit 上这个讨论点出了被忽略的真相：提示词预处理（prefill）阶段才是真正的性能瓶颈。你扔进去一大段上下文，模型得先一次性“读完”并理解，这个过程的计算量远大于逐字输出，延迟高得多。正文没给出具体测试数据，但逻辑上，长文档问答、代码库分析这类场景，等它“读”完可能比等它“写”完更久。目前信息只来自社区讨论，没有厂商或论文的量化对比，这点先别太激动。还缺的是：不同模型架构下 prefill 和 decoding 的延迟占比实测，以及针对 prefill 的优化方案到底能省多少时间。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:58

83d ago

Hacker News 首页· rssEN15:58 · 05·06

Tilde.run：给AI Agent一个可回滚的沙箱，跑在真实数据上也不怕

Tilde.run 是一个面向 AI Agent 的沙箱平台，核心卖点是“事务化、版本化的文件系统”。每个 Agent 运行都被当作一次数据库事务：跑完可以原子提交，也可以一键回滚。它把 GitHub 代码、S3 数据、Google Drive 文档挂载成一个统一的 ~/sandbox 目录，Agent 在里面读写，所有变更都被版本记录。网络默认隔离，...

#Agent#Tools#Tilde.run#Product update

一句话点评

把Agent跑成数据库事务，能一键回滚，适合敢让AI动生产数据但怕搞砸的团队。

锐评

Tilde.run 的核心是把每个 Agent 运行当作数据库事务——跑完原子提交，出问题一键回滚，不用恢复备份。它把 GitHub 代码、S3 数据、Google Drive 文档挂载成一个统一目录，Agent 在里面读写，所有变更都被版本记录。网络默认隔离，出站请求被策略检查和审计，能防数据泄露和凭证滥用。关键判断：这个思路对“让 Agent 动真实数据但怕搞砸”的场景很实用。回滚和审计是刚需，比事后补救强。但正文没披露隔离实现细节（是容器还是微VM）、API 延迟、定价模式，也没说是否开源。如果是真的，对做 Agent 工作流和自动化运维的团队是个省心工具。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:50

83d ago

FEATUREDr/LocalLLaMA· rssEN15:50 · 05·06

CopilotKit：一套 MIT 开源的 React 组件，帮你给 AI 应用搭聊天界面和生成式 UI

CopilotKit 是一套 MIT 协议开源的 React 组件库，专门用来给 agent 类应用搭前端。它把聊天、流式输出、工具调用、人机协同（HITL）和生成式 UI 这些常见需求都做成了现成的积木块。项目在 GitHub 上有 3 万颗星。它支持 AG-UI 协议，可以对接 LangGraph、CrewAI、LlamaIndex 等后端框架，核...

#Agent#Tools#CopilotKit#Vercel

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

CopilotKit 把 agent 前端拆成现成 React 组件，MIT 协议随便用，但正文被 Reddit 安全策略挡了，具体怎么用、好不好用没法验证。

锐评

这条消息本身信息量有限，因为原文链接返回了 403，我们看不到 Reddit 帖子的实际内容，只能根据摘要判断。摘要说 CopilotKit 是一套 MIT 开源的 React 组件库，把聊天、流式输出、工具调用、人机协同和生成式 UI 这些 agent 应用常见的前端需求做成了积木块，还支持 AG-UI 协议对接 LangGraph、CrewAI 等后端框架。GitHub 上标了 3 万颗星，说明社区关注度不低。它的核心卖点是让前端和后端的 agent 框架解耦，你不用绑死在某一个后端上。这对想快速搭 agent 应用原型、又不想从零写聊天界面和工具调用交互的团队来说，省事不少。但摘要没提这些组件在实际项目里的稳定性、文档质量、以及跟不同后端对接时会不会有坑。3 万星可以说明热度，不代表生产环境就稳了。另外，Reddit 帖子本身被挡，我们没法知道原帖是官方更新、用户反馈还是吐槽，这点先打个折。真要评估，得直接去看 GitHub 仓库的 issue 区和最近 commit 频率。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:46

83d ago

TechCrunch AI· rssEN15:46 · 05·06

Genesis AI 发布首个机器人模型 GENE-26.5，还秀了一双能拧魔方的手

Genesis AI 今天公开了它的第一个机器人基础模型 GENE-26.5，同时放出一段演示：几台机械手在完成拧魔方、叠积木这类精细操作。这家公司刚拿了 Khosla 领投的 1.05 亿美元种子轮，但正文没披露模型参数量、训练数据来源，也没说什么时候落地。演示看起来挺唬人，但没给任何成功率或延迟数据，这点先别太激动。

#Robotics#Genesis AI#Khosla#Product update

一句话点评

Khosla 投了 1.05 亿美元种子轮，Genesis AI 发了机器人模型 GENE-26.5 和一段拧魔方、叠积木的演示。但没给成功率、延迟，也没说参数量和训练数据，先别太激动。

锐评

Genesis AI 今天公开了它的第一个机器人基础模型 GENE-26.5，同时放出一段演示：几台机械手在完成拧魔方、叠积木这类精细操作。这家公司刚拿了 Khosla 领投的 1.05 亿美元种子轮，金额在种子轮里算很大，说明资本对“机器人基础模型”这个方向押注很重。但正文没披露模型参数量、训练数据来源，也没说什么时候落地。演示看起来挺唬人，但没给任何成功率或延迟数据，这点先别太激动。如果是真的，这个模型能直接控制多台机械手做精细活，比传统写死程序灵活很多，成本也可能更低。但缺的东西太多：模型多大、用了多少真实机器人数据、有没有仿真数据、泛化能力如何——这些都没说。种子轮 1.05 亿，估值估计不低，但产品成熟度还看不清。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:27

83d ago

TechCrunch AI· rssEN15:27 · 05·06

Tinder 母公司 Match Group 放缓招聘，因为 AI 工具太烧钱

Match Group 说今年剩下时间要放慢招人，因为 AI 工具“花了很多钱”。正文没披露具体用了哪些 AI 工具、花了多少钱、也没说裁员。关键信号是：AI 的运营成本开始直接跟人头预算抢资源。

#Tools#Match Group#Tinder#Commentary

一句话点评

AI 工具太烧钱，Tinder 母公司 Match Group 宣布放缓招聘。

锐评

Match Group 说今年剩下时间要放慢招人，因为 AI 工具“花了很多钱”。正文没披露具体用了哪些 AI 工具、花了多少钱、也没说裁员。关键信号是：AI 的运营成本开始直接跟人头预算抢资源。这跟之前“AI 能降本增效”的叙事不太一样——至少短期看，AI 的投入是实打实的成本项，而且可能比招人还贵。对于做 AI 应用的公司来说，这是个值得关注的信号：如果连 Match 这种成熟平台都觉得 AI 贵，那创业公司更得算清楚账。缺的信息不少：到底哪些 AI 功能在烧钱？是推荐模型、聊天机器人还是审核系统？成本大头是算力还是 API 调用？这些都没说。另外，放缓招聘不等于不招，也不等于裁员，所以“AI 替代人类”的结论还下不了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:21

83d ago

r/LocalLLaMA· rssEN15:21 · 05·06

本地模型+智能体框架已经能顶替初级IT运维了

#Agent#Tools#Code#Qwen

一句话点评

本地模型+智能体框架已经能顶初级运维了，实测1.5小时干完3小时的活。

锐评

Reddit用户Porespellar用Qwen3.6 27b搭配Hermes Agent跑了一周初级IT运维任务。他让智能体给系统打补丁、装Docker、配置5个GitHub仓库并启动服务，结果1.5小时干完，他自己估摸初级运维得花3小时。关键瓶颈不在模型能力，而是工具权限、审批流程和失败恢复——智能体遇到小问题能自己解决或请求批准，基本不用人插手。这个测试用的是27B参数模型，跑在DGX Spark克隆机上，算力门槛不高。但注意这是单次任务，不是长期稳定运行，正文也没披露失败率、安全审计结果或复杂场景（比如多系统联动、权限冲突）的表现。如果真能规模化，初级运维的配比可能会从1人管N台变成1人管更多台，但直接说“替代”还早。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:07

83d ago

r/LocalLLaMA· rssEN15:07 · 05·06

llama.cpp 跑 150K 上下文，内存从 108GB 涨到 120GB，疑似内存泄漏

Reddit 用户用 128GB Strix Halo 机器跑 Step-3.5-flash，加载 105GB 的 bartowski Q4_XS 模型，上下文开到 150K，内存占用从 108GB 一路爬到 120GB。用的是 llama.cpp 2.13.0 Vulkan 版和 LM Studio。帖子没贴日志，也没给最小复现步骤，所以没法确认是模...

#Memory#Inference-opt#llama.cpp#LM Studio

一句话点评

llama.cpp 疑似内存泄漏，跑 150K 上下文时内存从 108GB 涨到 120GB。

锐评

Reddit 用户用 128GB Strix Halo 机器跑 Step-3.5-flash，加载 105GB 的 Q4_XS 模型，上下文开到 150K，内存占用从 108GB 一路爬到 120GB。用的是 llama.cpp 2.13.0 Vulkan 版和 LM Studio。12GB 的涨幅在 150K 长上下文下不算离谱，但如果是持续增长而非稳定在高位，就可能是泄漏。帖子没贴日志，也没给最小复现步骤，所以没法确认是模型、量化格式还是推理框架的问题。如果是泄漏，跑超长上下文或服务部署时影响大；如果只是正常缓存增长，那问题不大。缺复现步骤和对比实验（比如换短上下文或换模型是否复现），目前只能标记为待验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:00

83d ago

TechCrunch AI· rssEN15:00 · 05·06

Ethos 获 a16z 2275 万美元融资，用语音注册专家网络

Ethos 从 a16z 拿了 2275 万美元，做的是专家网络——就是帮企业找行业专家咨询那种。它主打语音注册，专家不用填表，直接说话就能入驻。目前每周能上 3.5 万个专家，这个量级说明语音流程可能确实比填表快。但正文没披露估值、轮次、语音具体怎么工作，也没说定价，所以先别急着判断它是不是比 GLG、Third Bridge 那些老玩家便宜或好用。

#Audio#Ethos#a16z#Funding

一句话点评

a16z 投了 2275 万美元给专家网络平台 Ethos，主打语音注册，专家说话就能入驻。

锐评

Ethos 做的是帮企业找行业专家咨询的生意，和 GLG、Third Bridge 竞争。它拿语音注册当卖点：专家不用填表，直接说话就能入驻，目前每周能上 3.5 万个专家。这个量级说明语音流程可能确实比填表快，但正文没披露估值、轮次、语音具体怎么工作，也没说定价。所以先别急着判断它是不是比老玩家便宜或好用。a16z 领投算一个信号，但专家网络这个赛道不缺钱，缺的是差异化。如果语音注册真能大幅降低专家入驻门槛，那它可能切到更多长尾专家，但正文没给验证数据，比如入驻后专家被预约的比例、客户留存率。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:05

83d ago

● P1r/LocalLLaMA· rssEN14:05 · 05·06

Qwen3.6 27B NVFP4 量化在单张 RTX 5090 运行 200k 上下文

一位 Reddit 用户在单张 32GB 显存的 RTX 5090 上，用 vLLM 跑通了 Qwen3.6 27B 的 NVFP4 量化版，并验证了 200k 上下文长度。配置上用了 fp8_e4m3 的 KV 缓存、FlashInfer 和 3 个投机 token 的 MTP。10 次 200k 上下文跑分平均生成速度 73.6 tok/s，首 t...

#Inference-opt#Reasoning#Tools#Qwen

精选理由

精选 · 重要度 90 · 吸引力 + 知识量 + 共鸣

一句话点评

单张 RTX 5090 跑通 Qwen 3.6 27B 的 200k 上下文，80 TPS 够用，但来源是 Reddit 用户自测，没官方背书。

锐评

这条消息的核心看点很直接：一张消费级显卡（RTX 5090，48GB 显存）就能把 Qwen 3.6 这个 270 亿参数的模型跑起来，还带上了 20 万 token 的上下文窗口。这意味着处理一整本小说的长度，不需要昂贵的多卡服务器了。用户报告里提到用 FP8 精度加载模型，BF16 格式存 KV 缓存，推理速度能到每秒 80 个 token，这个速度日常聊天或做长文档摘要完全够用。不过得先打个折。信息全部来自 Reddit 的 r/LocalLLaMA 板块，属于社区玩家的自发测试，正文甚至因为反爬机制没抓到完整内容。我们看不到具体的延迟波动、显存占用的峰值细节，也不知道这个 80 TPS 是生成第一个 token 的速度还是稳定输出速度。另外，用 FP8 量化后模型能力会损失多少，在超长上下文里会不会出现注意力衰减，这些关键指标都没披露。如果你手头正好有这张卡，这条消息值得跟进验证。但做生产部署决策的话，还得等更严谨的基准测试，尤其是长文本召回率和推理稳定性的数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:03

83d ago

FEATUREDr/LocalLLaMA· rssEN14:03 · 05·06

Hugging Face 100个热门硬件配置分析

Reddit 用户 sob727 扒了 Hugging Face 上 100 套最热门的硬件配置，发现纯 CPU 方案里 Intel 一家独大。但正文没披露 GPU 占比、采样时间和统计方法，所以这个“最火”到底怎么算的还不清楚。如果你在纠结买什么硬件跑模型，这份数据只能当个参考，别直接抄作业。

#Inference-opt#Hugging Face#Intel#sob727

精选理由

精选 · 重要度 74 · 吸引力 + 共鸣

一句话点评

Reddit 帖子本身被屏蔽了，正文没披露具体硬件数据，只能看到标题说分析了 Hugging Face 上 100 个最热门的硬件配置。

锐评

这条信息目前只剩一个标题，原始帖子因为网络限制被挡在门外，我们看不到任何实际的分析内容。标题说的是对 Hugging Face 上 100 个最受欢迎的硬件配置做了分析，但具体是哪些显卡、内存组合、跑什么模型、成本多少，正文一概没披露。对想自己跑模型的人来说，这类社区统计其实挺实用，能直接看出大家真金白银投在了什么配置上，比厂商的推荐更接地气。但眼下我们连数据来源是爬虫抓的、用户自发填的还是其他渠道都不知道，也没法判断样本有没有偏向——比如是不是只统计了愿意公开配置的用户。这条新闻目前只能当个引子看，想知道具体结论得等有人绕过限制把内容搬出来，或者直接去 Reddit 看原帖。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:47

83d ago

r/LocalLLaMA· rssEN13:47 · 05·06

雷击把两台外接显卡干废了，跑推理时直接崩

Reddit 用户 milpster 发帖说，附近一次雷击不光断了家里网，还把正在跑推理的两台 eGPU（外接显卡坞）同时搞崩溃了。他在机箱里贴了铜接地胶带，但雷还是从网线或电源线窜进来。帖子没交代具体是什么显卡、损坏到什么程度（是彻底烧了还是重启能用），也没说能不能复现。对自建推理集群的人来说，这是个提醒：光靠机箱接地可能挡不住雷击浪涌，最好在电源和...

#Inference-opt#Reddit#Incident

一句话点评

雷击把两台跑推理的eGPU同时干废了，接地胶带没挡住。

锐评

Reddit用户milpster发帖说，附近一次雷击不光断了网，还把正在跑推理的两台外接显卡坞（eGPU）同时搞崩溃了。他在机箱里贴了铜接地胶带，但雷还是从网线或电源线窜进来。帖子没交代具体是什么显卡、损坏到什么程度（是彻底烧了还是重启能用），也没说能不能复现。对自建推理集群的人来说，这是个提醒：光靠机箱接地可能挡不住雷击浪涌，最好在电源和网线口都加浪涌保护器。正文没披露显卡型号和维修成本，这点先别太激动——可能只是驱动掉了，未必真烧硬件。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:00

83d ago

● P1The Verge · AI· rssEN13:00 · 05·06

Google AI 搜索功能更新支持引用 Reddit 帖子内容

Google 更新了 AI 搜索功能，会在摘要里直接展示来自 Reddit、社交媒体和论坛的“第一手观点”预览，把搜索词和相关的网络讨论串起来。官方说这是为了满足越来越多人在搜索时想看到真人建议的需求。不过公告没提这个功能具体什么时候、在哪些地区上线。对搜索团队来说，核心问题是 AI 摘要如何引用和排序这些用户生成内容来源。

#RAG#Tools#Google#Reddit

精选理由

精选 · 重要度 86 · 吸引力 + 知识量 + 共鸣

一句话点评

Google 的 AI 搜索摘要开始直接引用 Reddit 帖子和论坛内容了，这比只给链接更直接，但论坛里的“专家建议”质量参差不齐，别全信。

锐评

Google 这次更新，说白了就是让 AI 搜索概览在回答问题时，能像真人一样直接甩出一段 Reddit 或论坛里的帖子原文当论据。这解决了一个实际痛点：很多生活类、经验类问题，标准网页答案很空，而论坛里的真实用户分享更有用。但风险也在这，论坛内容没经过编辑审核，AI 直接引用可能把偏见、错误信息或玩笑话当成正经答案推给用户。 TechCrunch 的报道点出了这个设计选择可能带来的混乱，但正文没披露 Google 具体用什么机制来筛选和验证这些引用内容的可靠性。是只看点赞数，还是有别的算法？这点没说清楚。另外，报道也没提这种引用方式对 Reddit 等平台的流量是引流还是截流，这对内容创作者来说很关键。我会先打个折，这个功能对找攻略、产品评价这类查询可能挺方便，但遇到需要严谨事实的问题，最好还是多点一下原始链接核实。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:58

83d ago

FEATUREDr/LocalLLaMA· rssEN12:58 · 05·06

一个用公司内部数据测 RAG 的开放基准，模拟了 9 种数据源和 10 类检索失败模式

EnterpriseRAG-Bench 放出了一个 50 万文档的语料库，专门用来测 RAG 在公司内部数据上的表现。它模拟了 Redwood Inference 的 9 种数据源，并围绕 10 种检索失败模式设计了 500 个问题。基线测试显示，BM25 在整体上优于向量检索，而基于 agent/bash 的检索方式虽然完整度最高，但成本和延迟也明显更高。

#RAG#Agent#Benchmarking#EnterpriseRAG-Bench

精选理由

精选 · 重要度 81 · 吸引力 + 知识量 + 共鸣

一句话点评

一个模拟公司内部数据的RAG基准，50万文档+500道题，BM25整体跑赢向量检索，agent路线完整度最高但贵且慢。

锐评

EnterpriseRAG-Bench 放出了一个挺实在的测试集：50万份文档，模拟一家叫 Redwood Inference 的公司内部9种数据源，专门用来测外挂资料库（RAG）在真实业务场景下的检索能力。它没有只比谁跑分高，而是围绕10种常见的检索翻车模式设计了500个问题，这点比很多学术基准更接地气。基线结果有个反直觉的发现：老派的 BM25 关键字匹配，整体表现居然压过了向量检索。基于 agent 或命令行脚本的检索方式完整度最高，但代价是成本和延迟明显更高。原文没给出具体的准确率数字和成本对比，所以“好多少”和“贵多少”暂时没法量化。还缺两样东西：一是这套数据到底多像真实公司的信息杂烩（权限混乱、格式不一、过期文件），正文没展开；二是测试只覆盖了检索环节，没把大模型生成答案的质量一起拉通评估，实际落地效果还得自己补测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:56

83d ago

Hacker News 首页· rssEN12:56 · 05·06

Adam：一个用 C 写的嵌入式 AI Agent 库，号称 Agent 框架界的 SQLite

Adam 是一个用 C 语言写的跨平台 AI Agent 库，可以嵌入到任何应用里。它同时支持云端和本地大模型、工具调用、长期记忆、语音、会话管理、研究模式，甚至还有自我进化的循环。作者把它比作 Agent 框架界的 SQLite——小巧、可移植、开箱即用。目前 GitHub 上 8 个 Star、1 个 Issue，还没有评论。正文没披露具体支持哪些...

#Agent#Adam#SQLiteAI#Hacker News

一句话点评

一个自称Agent框架界SQLite的C语言库，功能吹得很全，但刚上线，社区反馈为零。

锐评

Adam把自己比作Agent框架里的SQLite——小巧、可嵌入、跨平台，用C语言写，支持云端和本地大模型、工具调用、长期记忆、语音、会话管理、研究模式，甚至自我进化循环。想法很性感：让开发者像嵌入数据库一样嵌入Agent能力。但正文没披露具体支持哪些模型、API接口长什么样、用什么许可证、运行时内存和CPU开销多少。GitHub上目前只有8个Star、1个Issue、0条评论，属于刚开张的状态。如果真能做到SQLite级别的轻量和稳定，那确实能解决当前Agent框架太重、依赖复杂的问题。但这点先别太激动——C语言写AI Agent库的维护成本极高，要对接不同模型API、处理工具调用的安全边界、管理长期记忆的持久化，任何一个环节做不好都容易翻车。建议观望，等它放出更多技术细节和实际跑起来的demo再评估。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

12:10

83d ago

MIT 科技评论· rssEN12:10 · 05·06

深海潜水器与军事聊天AI：本周科技简报

MIT科技评论本周简报聚焦两件事：一是Orpheus Ocean的潜水器下潜近6000米绘制海底矿物地图，成本远低于现有系统，但同样吸引深海采矿公司，环保争议随之而来；二是美军方测试对话式AI工具，可对潜在打击目标排序辅助决策，但存在AI错误、不透明及科技巨头影响力过大的隐忧。

#Agent#Tools#MIT Technology Review#Orpheus Ocean

一句话点评

MIT科技评论本周简报：Orpheus Ocean的潜水器下潜近6000米绘制海底矿物图，成本远低于现有系统，但同样吸引深海采矿公司，环保争议随之而来。另一条是美军测试对话式AI工具，可对潜在打击目标排序辅助决策，但存在AI错误、不透明及科技巨头影响力过大的隐忧。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:00

83d ago

FEATURED彭博科技· rssEN12:00 · 05·06

微软正考虑放弃一项清洁能源承诺，原因是数据中心用电量激增

彭博社援引知情人士消息称，微软正在内部讨论搁置一项关键的清洁能源目标。直接导火索是 AI 驱动的数据中心扩张导致电力需求暴涨，让原有的减排承诺变得难以兑现。不过报道没有披露具体是哪项承诺、涉及多少排放量，也没有时间表或最终决定。微软官方目前未回应。

#Microsoft#Bloomberg#Policy

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

微软可能因为 AI 数据中心太耗电，要放弃一项清洁能源承诺。但报道没说是哪项承诺、涉及多少排放，也没最终决定，先别急着下结论。

锐评

这条消息的核心矛盾很直白：一边是 AI 扩张带来的电力饥渴，一边是几年前立下的环保目标，现在微软内部在讨论要不要先保前者。彭博社的消息源是“知情人士”，但正文没披露具体是哪项清洁能源承诺被摆上砍掉的台面，也没给出涉及的碳排放量或时间表，微软官方也没回应。所以目前只能把它当作一个信号——科技巨头的减排路线图正在被自己的算力需求反噬。对从业者来说，值得盯的点不是微软“变卦”本身，而是这背后数据中心电力缺口的真实规模。如果连微软这种签了大量绿电采购协议的公司都觉得扛不住，那其他云厂商的压力只会更大。不过，在具体承诺名称和数字出来之前，这条消息更像是一次试探舆论水温的放风，先打个折看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:56

83d ago

r/LocalLLaMA· rssEN11:56 · 05·06

把注意力计算和权重拆开跑：Gemma 4 26B 能塞进两台旧电脑了

Reddit 用户分享了一个 Gemma 4 26B 的部署方案：把注意力计算（几 GB）放在本地机器，权重存在另一台廉价 Xeon 上，通过 larql 代码连接。这样一台机器不够显存跑完整模型时，可以用两台旧机器分担。但帖子没给任何速度或内存实测数据，实际延迟和吞吐量未知，想复现得自己试。

#Inference-opt#Gemma#Reddit#larql

一句话点评

把注意力计算和权重拆到两台旧机器上跑，思路挺省钱，但没实测数据，先别急着抄。

锐评

这个方案把 Gemma 4 26B 的注意力计算（几 GB）放在本地 GPU 机器，权重存在另一台廉价 Xeon 上，通过 larql 代码连接。好处是显存不够的旧机器也能跑大模型，两台凑一起比买新卡便宜。但帖子没给任何速度或内存实测数据，实际延迟和吞吐量未知，想复现得自己试。正文没披露网络带宽要求，如果两台机器之间走慢速网络，延迟可能高到没法用。另外，注意力计算和权重分离后，推理框架是否支持、代码稳定性如何，都是未知数。如果是真的挺省钱，但信息缺口太大，建议等社区跑出 benchmark 再决定是否投入。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:45

83d ago

r/LocalLLaMA· rssEN11:45 · 05·06

Qwen3.6-27B 用 MTP 投机解码，在 llama.cpp 上吞吐量翻 2.5 倍

Reddit 用户 havenoammo 放出了一个 Qwen3.6-27B 的魔改版 GGUF 模型，核心是把 3 层 Q8_0 量化的 MTP 草稿头嫁接到 Unsloth UD XL 的 GGUF 上，然后在 llama.cpp 里用一条还没合并的 PR（#22673）跑投机解码。实测吞吐量能到原来的 2.5 倍左右。关键信息：这个 MTP 支持...

#Inference-opt#Tools#Qwen#Unsloth

一句话点评

本地跑 Qwen3.6-27B 吞吐翻倍，但得自己编译 llama.cpp 的未合并 PR。

锐评

Reddit 用户 havenoammo 把 Qwen3.6-27B 的 3 层 MTP 草稿头（Q8_0 量化）嫁接到 Unsloth UD XL 的 GGUF 上，再用 llama.cpp 一条未合并的 PR（#22673）跑投机解码，实测吞吐量提升约 2.5 倍。关键点：这是本地 GGUF 首次支持 MTP，主分支还不包含。数字说明：3 层草稿头意味着每次推理先快速生成 3 个候选 token，再让主模型验证，成本低但延迟可能略增。正文没披露具体硬件和 batch size，也没对比原版 Qwen3.6-27B 的基线。如果是真的，对本地部署挺省钱，但得自己编译 PR，门槛不低。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:45

83d ago

The Verge · AI· rssEN11:45 · 05·06

微软 Office 和 LinkedIn 负责人现在也管 Teams 了

微软内部又一轮高管调整：负责 Office 和 LinkedIn 的 Ryan Roslansky 现在把 Teams 也收归旗下。原 Teams 负责人 Rajesh Jha 在微软干了 35 年后退休。这次调整是人事变动，正文没披露任何产品路线图或 AI 策略变化，所以暂时看不出对 Copilot 或 Teams 功能有什么直接影响。

#Microsoft#Ryan Roslansky#Rajesh Jha#Personnel

一句话点评

微软内部人事调整，跟产品功能无关。

锐评

微软把 Teams 划给了同时管 Office 和 LinkedIn 的 Ryan Roslansky，原负责人 Rajesh Jha 在干了 35 年后退休。这纯粹是高管换岗，正文没提任何 Copilot 或 Teams 的新功能、新策略。对 AI 从业者来说，这条消息暂时没有产品层面的信息量，不用过度解读。唯一值得留意的是：Teams 和 Office 归同一个人管，未来两个产品在 Copilot 集成上可能更容易对齐，但这点目前只是推测，正文没给证据。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

11:37

83d ago

FT · 科技· rssEN11:37 · 05·06

英国前内阁秘书：AI“输家”应获再培训补偿

英国前内阁秘书格斯·奥唐奈提议，为因AI失业的工人设立再培训基金。正文没披露资金规模、执行机构或资格规则。对从业者来说，劳动力成本会成为AI落地风险的一部分。

#Gus O’Donnell#Policy#Commentary

一句话点评

英国前内阁秘书提议为被AI取代的工人设再培训基金，但没提钱从哪来、谁管、谁有资格。

锐评

英国前内阁秘书格斯·奥唐奈提了个听起来很合理的方案：AI让谁失业，就出钱给谁再培训。但正文没披露资金规模、执行机构或资格规则——等于只画了个饼。对AI从业者来说，这条新闻的真正信号是劳动力成本会成为AI落地风险的一部分。如果你在给客户做自动化方案，以后可能得把“裁员补偿”或“再培训预算”算进ROI里，否则政策一落地项目就卡住。另外，奥唐奈是前公务员，不是现任决策者，提案离立法还有距离。目前英国政府没有公开回应，所以这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

11:35

83d ago

r/LocalLLaMA· rssEN11:35 · 05·06

把显示器插到主板上，能省出几百MB显存跑模型

Reddit用户Th3Sim0n分享了一个小技巧：如果你的CPU有核显，把显示器接到主板视频口上，让核显负责桌面渲染，独显就能省下几百MB显存。Windows或带图形界面的Linux都适用。正文没披露具体显卡型号和实测省了多少，但几百MB对跑大模型来说，可能刚好够多塞一层或一个长上下文。

#Inference-opt#Th3Sim0n#Reddit#Commentary

一句话点评

把显示器插到主板上，核显接管桌面渲染，独显能省几百MB显存。

锐评

Reddit 用户 Th3Sim0n 分享了一个零成本小技巧：如果你的 CPU 有核显，把显示器接到主板视频口，让核显负责桌面渲染，独显就能省下几百 MB 显存。Windows 或带图形界面的 Linux 都适用。几百 MB 对跑大模型来说，可能刚好够多塞一层或一个长上下文，尤其对 8GB、12GB 显存的用户很实用。但正文没披露具体显卡型号和实测省了多少，不同驱动和桌面环境差异可能很大。如果是真的，这比调量化参数简单得多。缺点：核显性能弱，高刷屏或 4K 多屏用户可能会觉得桌面卡顿。另外，部分主板 BIOS 默认关闭核显，需要手动开启。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

全部 · 2026-05-06

更多

频道

后台