全部 · 2026-05-25

▸ 50 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-25 · 星期一2026年5月25日

23:53

63d ago

AI HOT 精选· aihot-apiZH23:53 · 05·25

Anthropic 新模型 Claude Mythos 让欧洲央行紧急开会：银行补丁速度必须从“行板”提到“急板”

Anthropic 的 Claude Mythos 模型能自动挖出银行系统的高危漏洞，已发现数千个，覆盖主流操作系统和浏览器。欧洲央行为此临时召集会议，要求银行大幅加快补丁部署——以前几周做的事，现在可能30分钟内就会被黑客反向利用。但问题是，Mythos 目前只对少数美国机构开放，欧洲银行拿不到权限，只能靠美国同行分享经验。央行副主席说“没有权限不能...

#Safety#Anthropic#European Central Bank#Policy

一句话点评

Claude Mythos 能自动挖银行系统高危漏洞，已发现数千个，覆盖主流系统和浏览器。欧洲央行紧急开会要求银行把补丁部署从几周压缩到30分钟内——因为黑客可能反向利用。但Mythos只对少数美国机构开放，欧洲银行拿不到权限，只能靠美国同行分享经验。正文没披露Mythos的具体检出率、误报率，也没说哪些银行实际参与了测试。这点先别太激动：模型能力是真的，但封闭测试+信息不对称让欧洲监管只能...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

49

SCORE

H1·K0·R1

23:28

63d ago

r/LocalLLaMA· rssEN23:28 · 05·25

有人想给Splunk做个离线版AI助手，6个硬约束挺具体

Reddit上有人问怎么给Splunk（一个日志分析平台）做一个完全离线的自然语言助手。他列了6个硬性条件：必须全部部署在本地，不能有任何外呼请求，要用韩语对话，只读访问Splunk数据，用一个小模型跑在普通GPU上，还要有会话级记忆。正文没披露具体用什么模型或方案，但条件本身已经排除了大部分现成方案——不能联网意味着不能用GPT等云端API，小模型+...

#Agent#Tools#Memory#Splunk

一句话点评

一个Reddit用户想给Splunk日志平台做个完全离线的韩语助手，条件很硬：全本地部署、不能联网、小模型跑普通GPU、还要会话记忆。这基本排除了GPT等云端方案，只能用Qwen或Gemma这类小模型本地跑。难点在于韩语支持和小模型的理解能力——小模型读日志容易丢细节，会话记忆也会吃掉上下文窗口。正文没披露具体模型或方案，但条件本身已经够有挑战性。短评：离线+小模型+韩语，三重debuff叠...

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

61

SCORE

H0·K0·R1

23:00

63d ago

最佳拍档· atomZH23:00 · 05·25

AI扩张卡在能源和晶圆上，台积电是全球经济稳定器

Gavin Baker 聊了九个话题，包括 AI 扩张的主要瓶颈是能源和晶圆、台积电对全球经济稳定的作用、Anthropic 爆发式增长、轨道计算、多样性崩溃、不可能三角、定价模式以及战场 AI。正文没披露具体数据、机制或时间线，所以这些判断目前只是观点，没有支撑细节。

#Inference-opt#Gavin Baker#TSMC#Anthropic

一句话点评

Gavin Baker 聊了九个话题，核心判断是 AI 扩张卡在能源和晶圆，台积电是经济稳定器。但全文没给任何数据或时间线，全是观点。短评：观点有料，但没数据支撑，先打个折。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

23:00

63d ago

FEATURED彭博科技· rssEN23:00 · 05·25

华尔街银行每天付2.5万美元进行AI代理工作流培训

两位前银行家转型做AI培训，向华尔街银行收取最高每天2.5万美元的费用，教它们怎么把agent workflow（让模型进业务流程干活）落地。全球银行在AI上砸了数十亿美元，但正文没披露具体客户名单、合同金额，也没给出实测后自动化流程到底提效了多少。2.5万美元一天的价格说明这事目前还是高客单价定制服务，远没到标准化产品阶段。

#Agent#Commentary

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

华尔街银行正以每天2.5万美元的高价请人教员工怎么把AI塞进工作流，这价格说明大机构是真着急了，但效果还得看落地。

锐评

这条消息最值得看的是价格信号：一天2.5万美元，不是买模型，是买人教人。Bloomberg这篇报道点出了华尔街现在的一个真实焦虑——模型有了，但不知道怎么让业务部门用起来。所谓“AI代理工作流培训”，就是把大模型接进银行现有的流程里干活，比如自动整理研报、辅助合规审查，而不是让员工对着聊天框问着玩。文章没披露具体是哪几家银行在买单，也没说培训后实际省了多少人力或降低了多少错误率。这点先别太激动，2.5万美元一天更像是顶级咨询或技术高管的时价，可能包含定制方案，不是普通内训。还缺两个关键信息：一是这些“AI大师”到底教的是通用提示词技巧，还是能直接交付可复用的内部工具；二是银行内部的数据合规红线怎么在培训中被绕开。没有这两点，这更像一场高价科普，离真正的“代理工作流”落地还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

23:00

63d ago

彭博科技· rssEN23:00 · 05·25

日本百年电缆公司暴跌400亿美元，AI基建热潮出现裂缝

一家141岁的日本电缆公司一天内市值蒸发400亿美元，引发市场对AI基础设施投资过热的担忧。正文没有披露公司名称、暴跌的直接触发因素，也没有说明AI基建订单是否真的减少。400亿这个数字大致相当于一个中型AI公司的市值，单日跌掉这么多，说明市场对AI硬件需求的信心非常脆弱。

#Commentary

一句话点评

一家141岁的日本电缆公司一天跌掉400亿美元市值，相当于一个中型AI公司。正文没点名是哪家、也没说直接触发原因，更没确认AI基建订单是否真减少。市场对AI硬件需求的信心比想象中脆弱，但信息缺口太大，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

22:59

63d ago

FEATUREDAI HOT 精选· aihot-apiZH22:59 · 05·25

OpenAI 被曝下月发 GPT-5.6，上下文窗口拉到 150 万 token

开发者在 OpenAI Codex 的后台日志里挖出了一个叫 iris-alpha 的未公开模型，对应 GPT-5.6，可能 6 月发布。最直观的变化是上下文窗口涨到 150 万 token，比现在 GPT-5.5 API 的 105 万多出约 43%。有人在辅助工具 OpenCode 里实测，喂到 90 万 token 还能流畅回话，甚至能处理超过 ...

#Code#Tools#Inference-opt#OpenAI

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

GPT-5.6 被扒出后台日志，上下文涨到 150 万 token，但全是非官方爆料，OpenAI 一个字都没确认，先别太激动。

锐评

这条消息来自开发者在 OpenAI Codex 后台日志里挖出的未公开模型代号 iris-alpha，不是官方公告。最抓眼球的变化是上下文窗口拉到 150 万 token，比现在 GPT-5.5 API 的 105 万多出约 43%。有人在 OpenCode 里实测，喂到 90 万甚至超过 105 万 token 还能流畅回话，说明长文本处理确实有提升。另外爆料截图显示它能直接生成一个叫 Lumen Notes 的记事应用界面，栅格布局和配色比之前更成熟，前端产出更接近直接可用。但信息缺口很明显：正文没披露推理成本、响应延迟、幻觉率这些实际使用中更关键的指标。上下文大了，如果又慢又贵，对多数人意义有限。而且 iris-alpha、ember-alpha、beacon-alpha 这几个代号到底对应什么版本，现在完全不清楚。发布时间也只是“可能 6 月”，同期 Anthropic、Google、xAI 都有新模型传闻，这个时间窗口更像是行业集体发新货的节奏，不一定是 OpenAI 单独抢跑。总结：上下文窗口数字好看，实测也有初步验证，但缺少成本和性能数据，加上来源全是非官方日志，建议等正式发布再判断实际价值。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

21:50

63d ago

FEATUREDr/LocalLLaMA· rssEN21:50 · 05·25

一位律师用 12 块 V100 显卡搭本地集群跑法律文书起草，Qwen3.5-122B 模型跑到约 50 token/秒

Reddit 上一位律师分享了自己用 12 块 32GB 显存的 SXM V100 显卡搭建本地 AI 集群的进展，专门用来起草法律文书。核心模型是 Qwen3.5-122B-A10B，在 4 块 V100 上推理速度大约 50 token/秒。这套流程里还加了一个“验证器”，会在最终文件使用前自动拦截没有真实来源的引用、日期和 Bates 编号（案件...

#Agent#RAG#Fine-tuning#Qwen

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

一个律师用12块老款V100显卡跑122B模型写法律文书，还加了自动查证引用和编号的环节，但正文被Reddit屏蔽了，细节看不到。

锐评

这条分享的亮点在于把大模型落地到对准确性要求极高的法律起草场景，而且用的是二手市场淘来的V100，不是最新的H100。作者提到Qwen3.5-122B-A10B在4块V100上能跑到50 token/秒，这个速度对于文书起草来说够用了。更关键的是他加了一个“验证器”，专门拦截模型瞎编的案例引用、日期和案件编号——法律文书最怕的就是这个。但问题也很明显：Reddit原文被屏蔽了，我们看不到完整的硬件配置、功耗、总成本，也不知道验证器本身是怎么实现的，是规则匹配还是另一个模型。12块32GB V100的集群跑起来，电费和散热成本不会低，作者没提这些。另外，法律文书的准确性验证到底能做到什么程度，有没有和人工校对做过对比测试，正文也没披露。这点先别太激动，等作者补上细节再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

21:50

63d ago

Hacker News 首页· rssEN21:50 · 05·25

OpenBrief：一个本地跑的视频下载+摘要工具，主打隐私和免费

OpenBrief 是一个开源桌面工具，核心是帮你下载视频（基于 yt-dlp）、在本地转文字、生成语音，再用你自己带的 API Key 调用大模型做摘要和问答。所有处理都在你自己的电脑上完成，不上传数据，隐私有保障。它免费、开源，但需要你自己准备大模型的 API Key（比如 OpenAI 或本地跑的开源模型），这点先别太激动——不是开箱即用。正文没...

#Audio#Tools#OpenBrief#yt-dlp

一句话点评

OpenBrief 把视频下载、转文字、摘要全塞进本地，隐私好，但得自己带大模型 API Key，不是开箱即用。免费开源，适合手头有 Key 的人。正文没提支持哪些模型，也没说转录速度，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

21:45

63d ago

Hacker News 首页· rssEN21:45 · 05·25

微软 Copilot Cowork 被曝能偷文件：发条消息就把你的资料传出去

安全公司 PromptArmor 发现，微软 Copilot Cowork（M365 里的 AI 助手）存在一个设计缺陷，攻击者可以通过间接提示注入（把恶意指令藏在用户上传的技能文件里）让助手把文件偷走。关键问题在于：Copilot Cowork 给自己发邮件或 Teams 消息时不需要人工确认，而消息里可以嵌入外部图片链接——用户一打开消息，图片请求...

#Agent#Tools#Safety#Microsoft

一句话点评

微软 Copilot Cowork 有个设计缺陷：给自己发邮件或 Teams 消息不需要人工确认，攻击者把恶意指令藏在技能文件里，就能让助手把文件偷走。关键问题是消息里可以嵌入外部图片链接，用户一打开消息，图片请求就把数据传出去了。PromptArmor 说对 Claude Opus 4.7 等最新模型成功率很高。但正文没披露具体偷了哪些文件类型、影响多大范围、微软是否已修复。这点先别太激动...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

20:30

63d ago

Hacker News 首页· rssEN20:30 · 05·25

Yoti 年龄验证会把面部照片和设备指纹发给第三方

佐治亚理工和加州大学欧文分校的研究发现，全球最大的年龄验证服务商之一 Yoti（覆盖约 60% 需要年龄验证的网站，客户包括 Meta、OnlyFans、索尼 PlayStation 和 TikTok）在验证过程中会把用户的面部照片、IP 地址和设备指纹传给信用卡公司、IP 定位服务和数据经纪商等第三方甚至第四方。研究还指出，大多数要求年龄验证的网站实...

#Vision#Safety#Yoti#Hacker News

一句话点评

Yoti 号称隐私保护，实际验证时会把用户面部照片、IP 和设备指纹传给信用卡公司、IP 定位商等第三方甚至第四方。覆盖约 60% 需年龄验证的网站，客户包括 Meta、OnlyFans、PlayStation 和 TikTok。研究还发现大多数要求验证的网站根本没执行年龄限制。隐私风险大于实际保护，且用户无法控制数据流向谁。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

19:42

63d ago

FEATUREDAI HOT 精选· aihot-apiZH19:42 · 05·25

苹果被曝用定制版 1.2 万亿参数谷歌模型改造 Siri，简单问题仍跑本地

爆料说苹果下一代 Siri 的核心换成了一个定制的谷歌大模型，参数规模 1.2 万亿，比大家猜的 Gemini 3.5 Flash（约 3000 亿参数）大好几倍。复杂任务会交给这个大模型，简单查询还是留在手机上跑。苹果现在最头疼的是日常问题的响应速度，大模型再聪明，回慢了也没人用。另外，下个月 WWDC 可能会官宣 Apple Intelligenc...

#Agent#Inference-opt#Apple#Google

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

苹果给 Siri 换了个 1.2 万亿参数的谷歌定制模型，比 Gemini 3.5 Flash 大好几倍，但正文没提延迟和成本数据，这点先别太激动。

锐评

这条爆料的核心信息是：苹果下一代 Siri 可能不再死守自研模型，而是用了一个定制版谷歌大模型，参数规模 1.2 万亿，比大家猜的 Gemini 3.5 Flash（约 3000 亿参数）大好几倍。复杂任务交给云端大模型，简单查询留在手机上跑，这个分工思路不新鲜，但苹果愿意用外部模型来撑 Siri 的场面，态度转变比参数数字更值得关注。爆料里苹果最头疼的是日常问题的响应速度——模型再聪明，回慢了也没人用。但正文没披露这个 1.2T 模型的实际延迟、推理成本，也没说定制到底改了哪些地方。没有这些数字，很难判断它是真能落地还是实验室指标。另外，消息来源是社交媒体爆料，不是官方或供应链确认，可信度要打折。还缺几个关键信息：这个模型是直接调用谷歌 API 还是苹果自己部署？端侧和云端的切换逻辑是什么？下个月 WWDC 如果官宣，看苹果怎么解释隐私和延迟的取舍，才是判断这条爆料含金量的关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

19:37

63d ago

Hacker News 首页· rssEN19:37 · 05·25

挪威国家图书馆用2PB华为全闪存训练挪威语大模型

挪威国家图书馆正在用2PB华为OceanStor Dorado全闪存阵列搭建AI训练数据管道，目标是训练一个能理解挪威语的大模型。馆长说没有商业公司会专门做挪威语模型，而图书馆拥有全国最大的挪威语数字化馆藏（20PB原始数据，含书籍、报纸、网页等），还跟报社签了协议可以用版权内容训练——这点私人公司做不到。数据先在本地的Nvidia DGX H200和...

#Inference-opt#Huawei#Hacker News#Product update

一句话点评

挪威国家图书馆用2PB华为全闪存阵列训练挪威语大模型，数据源是20PB数字化馆藏（含版权内容），搭配Nvidia DGX H200。亮点是主权AI+独家数据，但正文没披露训练规模、成本、模型架构，实际效果未知。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

56

SCORE

H1·K1·R0

19:16

63d ago

r/LocalLLaMA· rssEN19:16 · 05·25

本地跑大模型，内存选高频128GB还是低频256GB？

一位用户在攒双RTX 3090的本地推理服务器，CPU是EPYC 7642，主板ASRock ROMED8 T2，支持8通道DDR4内存，电源1600W。现在纠结：是上128GB 3200MHz高频条，还是便宜点的256GB 2133MHz低频条？主要跑Qwen 3.5 397B这类MoE模型。高频内存能提升带宽，对推理速度有帮助，但容量翻倍能塞下更大...

#Inference-opt#Reddit#Qwen#ASRock

一句话点评

一个玩家在攒双3090本地推理机，纠结128GB高频内存还是256GB低频内存。高频内存带宽高，推理速度快；低频容量翻倍，能塞下更大模型。他主要跑Qwen 3.5 397B这类MoE模型，实测低频内存可能成为瓶颈。正文没披露具体预算和模型量化方案，这点先别太激动。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

46

SCORE

H0·K0·R1

19:12

64d ago

FEATUREDHacker News 首页· rssEN19:12 · 05·25

Anthropic 联合创始人 Chris Olah 在梵蒂冈回应教皇 AI 通谕：实验室自己也受商业和地缘压力，需要外部声音来挑刺

Chris Olah 在教皇 Leo XIV 发布 AI 通谕《Magnifica humanitas》的现场做了发言。他先承认，包括 Anthropic 在内的前沿 AI 实验室都困在商业竞争、地缘政治和野心里，光靠内部自觉不够，必须有不受这些利益捆绑的外部批评者来推动安全。他把现在的 AI 模型比作“让虚构角色活过来”，说它们不是传统意义上被精确设...

#Safety#Interpretability#Anthropic#Chris Olah

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 联合创始人跑到梵蒂冈承认自家公司困在商业和地缘政治压力里，光靠内部自觉不够，需要外部批评者盯着。他把 AI 模型比作“让虚构角色活过来”，这个比喻挺直观，但没解释这种“活过来”具体怎么控制。

锐评

Chris Olah 在教皇 AI 通谕发布现场的发言，姿态放得很低。他直接点出包括 Anthropic 在内的前沿实验室都受制于商业竞争、地缘政治和野心，内部自觉靠不住，必须有不被这些利益捆绑的外部声音来推动安全。这个判断本身不新鲜，但从 AI 公司创始人口中说出来，而且是在梵蒂冈这种场合，至少说明他们意识到单靠行业自律已经说服不了公众了。他把现在的 AI 模型描述成“让虚构角色活过来”，不是传统意义上被精确设计的工程系统，而是用人类语言“喂养”出来的、连训练者自己都觉得神秘的东西。这个说法有助于打破“AI 就是精密机器”的刻板印象，但正文没展开讲这种“神秘性”对安全具体意味着什么——是行为不可预测，还是内部机制不可解释，这两者差别很大。他提了三个需要教会帮忙的问题：全球穷人怎么办、人类繁荣长什么样、AI 模型到底是什么。前两个是分配和价值观问题，实验室确实答不了；第三个是本体论问题，但他说得比较抽象。整篇发言更像是一次公开站队和求助，而不是给出任何具体方案。缺的是：Anthropic 自己打算在哪些具体机制上接受外部监督，以及这种监督怎么落地。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

18:58

64d ago

FEATUREDAI HOT 精选· aihot-apiZH18:58 · 05·25

Anthropic 联合创始人在梵蒂冈谈 AI：实验室自己也困在商业和地缘压力里，需要外部监督

Chris Olah 在教皇利奥十四世 AI 通谕发布会上说了三件事。他先承认，包括 Anthropic 在内的前沿 AI 实验室都面临商业竞争、研究压力和地缘政治压力，这些会跟“做对的事”冲突，所以必须有人站在这些利益之外盯着。他把现在的 AI 模型比作“让虚构角色活过来”——不是传统工程设计的产物，而是用人类语言“养”出来的，连开发者自己也觉得内部...

#Safety#Interpretability#Alignment#Anthropic

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Olah 在梵蒂冈的发言很坦诚，直接承认自家实验室也受商业和地缘压力影响，所以需要外部盯着。他把大模型比作“让虚构角色活过来”，这个比喻比技术术语好懂。

锐评

Chris Olah 在教皇 AI 通谕发布会上的发言，核心就一个意思：别光让搞技术的人自己管自己。他代表 Anthropic 承认，所有前沿实验室都困在商业竞争、研究压力和地缘政治这几股力里，哪怕本意是好的，也会被带偏。所以他很看重教会这种外部力量来当“认真的批评者”。他把现在的 AI 模型讲得很形象——不是像造飞机那样精确设计出来的，而是用人类语言“养”出来的，像让虚构角色活过来，连开发者自己也觉得内部运作很神秘。这个说法直接点出了当前技术的黑箱特性，也解释了为什么需要计算机之外的人参与讨论。他提了三个需要教会发声的问题：全球穷人怎么办、人类繁荣长什么样、以及权力集中风险。但正文没给出任何具体方案或数据，更像是在抛议题。这点先别太激动，发言本身是姿态性的，实际约束力有限。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

18:47

64d ago

AI HOT 精选· aihot-apiZH18:47 · 05·25

Anthropic联合创始人受邀在教皇通谕发布会上演讲

Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的新通谕《Magnifica humanitas》发布会上发表演讲。通谕主题和演讲内容正文没披露，但能受邀去梵蒂冈讲AI，说明AI伦理话题已经进入最高层宗教话语体系。

#Interpretability#Anthropic#Chris Olah#Pope Leo XIV

一句话点评

短评：AI伦理进梵蒂冈，信号意义大于内容。 Anthropic联合创始人Chris Olah受邀在教皇Leo XIV新通谕发布会上演讲，说明AI伦理已进入最高层宗教话语体系。但正文没披露通谕主题和演讲要点，所以只能当信号看：宗教领袖开始主动介入AI治理，不是等科技公司自己定规矩。缺的是具体立场——教皇对可解释性、自主决策、人类尊严的具体态度？Olah作为可解释性代表人物，演讲是否侧重透...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

18:09

64d ago

FEATUREDAI HOT 精选· aihot-apiZH18:09 · 05·25

Grok Build 测试版上线，SuperGrok 用户能直接用它做图、剪视频和跑自动化脚本

xAI 把 Grok Build 的测试版开放给了所有 SuperGrok 和 X Premium+ 用户。这次主要给了三个东西：Plan Mode 可以分步骤拆解任务；Imagine 模块能直接生成图片和视频；还有一个命令行工具（CLI），方便你把 Grok 接进自动化流程或者编排器里干活。想试的话去 x.ai/cli 就能开始。

#Agent#Multimodal#Tools#xAI

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

Grok Build 开放测试，给了分步规划、生图和命令行接口，但正文没提任务完成率和稳定性，先当半成品看。

锐评

xAI 把 Grok Build 的测试版推给了 SuperGrok 和 X Premium+ 用户，核心给了三样东西：Plan Mode 让模型把复杂任务拆成步骤执行，Imagine 模块能直接出图和视频，还有一个命令行工具方便你把 Grok 接进自动化流程。这相当于让 Grok 从聊天框走进实际工作流，方向是对的。但正文只说了功能列表，没给任何性能数据。Plan Mode 拆解任务的准确率多少？Imagine 生成的图在典型场景下可用率如何？CLI 的延迟和并发限制是什么？这些全都没披露。另外，Beta 版只面向付费用户，免费层的表现和付费层有没有差异也不清楚。我会先打个折：功能看起来实用，但没验证数据支撑，别急着把它当生产工具。等有人跑过真实任务、贴出成功率再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

17:52

64d ago

r/LocalLLaMA· rssEN17:52 · 05·25

Qwen 0.8B 微调成 AI 内容检测器，本地跑不到 1 秒

开发者 jslominski 用 Pangram 的 EditLens 数据集微调了 Qwen 3.5 0.8B 模型，训练约 20 小时，做成了一个 Chrome 扩展叫 Slop Hammer。模型从 Hugging Face 下载，ONNX 格式约 400MB，在 M1 MacBook Pro 上本地推理，不到 1 秒就能返回一段文字是 AI 生...

#Fine-tuning#Inference-opt#Qwen#Pangram

一句话点评

一个 0.8B 的小模型，微调 20 小时，400MB 的 ONNX 文件，在 M1 MacBook 上本地跑，不到 1 秒就能判断一段文字是不是 AI 写的。开发者把它做成了 Chrome 扩展，叫 Slop Hammer。听起来挺实用，但有几个坑：Pangram 的 EditLens 数据集主要覆盖英文，中文效果未知；0.8B 模型能力有限，复杂文本或刻意改写可能误判；正文没披露测试集上...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

17:11

64d ago

r/LocalLLaMA· rssEN17:11 · 05·25

小模型少量化，能打赢大模型多量化吗？

Reddit 用户问了一个很实际的问题：同样跑在本地，一个参数量小但精度高（比如 Gemma 4 31B Q4 K S）的模型，和一个参数量大但压缩更狠（比如 26B A4B Q8）的模型，写创意内容谁更强？他举了两组对比：31B Q4 vs 26B Q8，以及 27B Q4 vs 35B Q6。量化就是把模型参数从高精度（如 FP16）压缩成低精度（...

#Inference-opt#Reddit#Gemma#Qwen

一句话点评

Reddit 用户问了个实在问题：同样跑本地，小模型高精度（31B Q4）和大模型低精度（26B Q8）写创意内容谁更强？目前没人给明确答案，因为效果高度依赖任务和硬件。关键缺口：正文被屏蔽，没披露具体对比案例和用户配置。量化（压缩参数精度）会损失细节，但大模型底子好，两者互有胜负。想自己试的，建议拿创意写作任务跑两遍，看哪个更顺眼。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

58

SCORE

H1·K0·R1

16:56

64d ago

r/LocalLLaMA· rssEN16:56 · 05·25

Llama 3.1 8B 越狱挑战：10 个提示词攻破教学助手的防护层

Reddit 用户 forevergeeks 发起了一个针对 Llama 3.1 8B 苏格拉底式教学助手的红队挑战，提供 10 个提示词，目标是让模型突破运行时治理层，直接给出最终答案或跳出科学数学辅导范围。成功意味着越狱。正文没披露具体提示词或防护机制细节，所以无法判断难度和实际效果。

#Agent#Safety#Alignment#Meta

一句话点评

Reddit 上有人发起 Llama 3.1 8B 苏格拉底式教学助手的越狱挑战，给 10 个提示词，目标是让模型绕过防护直接给答案或跳出辅导范围。正文没披露具体提示词和防护细节，所以难度和效果没法判断。短评：挑战本身有看点，但信息不全，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

62

SCORE

H1·K1·R1

16:44

64d ago

● P1Hacker News 首页· rssEN16:44 · 05·25

Uber COO称AI支出效益难以证明合理性

Uber 首席运营官 Andrew Macdonald 公开说，公司内部越来越难证明 AI 花出去的钱值不值。起因是 CTO 之前透露，2026 年的 Claude Code 预算已经用光了，这个细节让高管层“炸了锅”。但正文没披露 Uber 具体花了多少钱、跑了多少任务、用了多少 token，也没说他们用什么标准判断“值不值”。所以这句话更像一个信号...

#Inference-opt#Uber#Andrew Macdonald#Business Insider

精选理由

精选 · 重要度 92 · 吸引力 + 共鸣

一句话点评

Uber COO 公开说 AI 花的钱越来越难交代了，连内部 Claude Code 的年度预算都提前烧光了。

锐评

Uber 运营老大 Andrew Macdonald 在一个访谈里直接说，现在要证明砸在 AI 上的钱花得值，越来越难了。他提到公司 CTO 之前透露，2026 年给 Claude Code（一个 AI 编程工具）批的预算已经提前花完，这件事在内部引发了激烈讨论。Macdonald 用“脑袋爆炸的时刻”来形容，说明大公司内部对 AI 投入产出比的质疑声在变大。这条消息来自 Business Insider 对 Macdonald 访谈的报道，不是 Uber 的官方财报或详细成本拆解。正文没披露具体花了多少钱、预算总额是多少，也没说烧钱换来了什么可量化的效率提升。所以“预算花完”更像一个信号，而不是一个结论——可能说明用量超预期，也可能说明当初预算给得太少。还缺两样东西：一是 Uber 内部到底怎么衡量 AI 工具的实际收益，比如节省了多少工程师时间；二是其他大公司有没有类似情况，这到底是个例还是普遍现象。光凭一个高管的抱怨，还不足以判断 AI 投入是不是真的在退潮。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

92

SCORE

H1·K0·R1

16:40

64d ago

AI HOT 精选· aihot-apiZH16:40 · 05·25

Luma Agents 帮你生成电商主图，说能提升转化率

Luma Labs 发推说 Luma Agents 能根据你上传的参考图和风格定义，自动生成电商商品主图，号称能把浏览者变成买家。但正文没披露任何转化率提升数据、定价或测试条件，这点先别太激动。

#Agent#Vision#Luma Labs#Product update

一句话点评

Luma Agents 能根据参考图和风格定义自动生成电商主图，号称把浏览者变买家。但正文没披露任何转化率提升数据、定价或测试条件，这点先别太激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

38

SCORE

H0·K0·R0

16:25

64d ago

r/LocalLLaMA· rssEN16:25 · 05·25

llama.cpp 要修多卡张量切分崩溃，测试说速度比层切分快35%

Reddit 用户爆料 llama.cpp 正在修 Split Mode Tensor 在多 GPU 下的崩溃问题。他测试下来，张量切分比层切分生成速度快约35%，但每90到120分钟就会因显存耗尽崩一次。帖子引用了 GitHub issue 22404，但没透露修复什么时候上线。正文没披露具体模型和显卡型号，所以这个35%的加速只能当个参考，实际效果...

#Inference-opt#llama.cpp#ggml-org#Product update

一句话点评

llama.cpp 正在修多卡张量切分（tensor split）的崩溃问题。有用户测出生成速度比层切分快约35%，但每90-120分钟就因显存耗尽崩一次。正文没披露具体模型和显卡型号，这个加速只能当参考。修复上线时间未知，GitHub issue 22404 可追踪。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

16:00

64d ago

TechCrunch AI· rssEN16:00 · 05·25

ClickUp 用几千个 AI 代理替换几百名员工

成立九年的项目管理公司 ClickUp 裁掉数百人，换成几千个 AI 代理来干活。正文没披露具体裁了哪个部门、占总员工比例多少、分几批裁、以及 AI 代理实际部署条件。

#Agent#ClickUp#Personnel#Commentary

一句话点评

项目管理公司 ClickUp 裁掉数百人，换成几千个 AI 代理。九岁公司敢这么赌，说明老板觉得 AI 干活比人便宜且可控。但正文没披露裁了哪个部门、占总员工比例多少、分几批裁、以及 AI 代理实际部署条件——是客服、测试还是项目管理流程里的具体环节？这点先别太激动，裁员换 AI 的 ROI 和落地细节才是关键。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

70

SCORE

H1·K0·R1

15:26

64d ago

AI HOT 精选· aihot-apiZH15:26 · 05·25

Qwen3.7-Max 隐式缓存上线：自动开启，不用配置

Qwen3.7-Max 新增了隐式缓存功能，默认自动启用，用户无需任何设置就能享受更快的响应和更低的成本。不过官方没说具体能省多少钱、延迟降多少，也没给缓存命中率。如果你需要更稳定、更高的命中率，可以改用显式缓存（需要手动配置）。

#Inference-opt#Qwen#Alibaba Cloud#Product update

一句话点评

Qwen3.7-Max 上线了隐式缓存，默认自动开，用户不用改任何设置就能省成本、提速度。但官方没披露具体省多少钱、延迟降多少，也没给缓存命中率——这点先别太激动。如果你需要更稳定的效果，可以手动配显式缓存。正文没披露实测数据，实际收益得自己跑一遍才知道。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H0·K1·R1

15:17

64d ago

r/LocalLLaMA· rssEN15:17 · 05·25

又一个KV缓存计算器上线，支持所有Hugging Face模型

Reddit用户Fun-Purple-7737发布了一个叫KVANTA的网页工具，专门算KV缓存大小，号称支持Hugging Face上任何LLM或VLM，代码开源（Apache 2.0）。好处是省得自己手算或猜显存够不够，但正文没披露它用的计算公式，也没说测试过多少模型、准不准。如果你手头有模型想快速估缓存占用，可以试试，但结论先打个折。

#Tools#Inference-opt#Hugging Face#Fun-Purple-7737

一句话点评

KVANTA 是一个网页工具，能自动算 Hugging Face 上任何 LLM/VLM 的 KV 缓存大小，省得手算或猜显存。代码开源（Apache 2.0）。但正文没披露计算公式，也没说测过多少模型、准不准。如果你手头有模型想快速估缓存占用，可以试试，但结论先打个折。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

15:09

64d ago

r/LocalLLaMA· rssEN15:09 · 05·25

Qwen3.6 35B 被 Reddit 用户推为本地 agent 场景新选择，但工具调用和循环问题还在

Reddit 用户实测 Qwen3.6 35B A3B（IQ4_NL 量化版）做本地 agent 任务，比 Gemma4 和 GLM 4.7 Flash REAP 更稳。Gemma4 工具调用经常崩，GLM 聊两三轮就卡循环，Qwen3.6 偶尔也会循环但整体可用。用户用了 Hermes Agent 和 Pi 做测试，没跑标准 benchmark，所以...

#Agent#Tools#Inference-opt#Qwen

一句话点评

Reddit 用户实测，Qwen3.6 35B A3B（IQ4_NL 量化版）做本地 agent 比 Gemma4 和 GLM 4.7 Flash REAP 更稳。Gemma4 工具调用常崩，GLM 聊两三轮就卡循环，Qwen3.6 偶尔也循环但整体可用。测试用了 Hermes Agent 和 Pi，没跑标准 benchmark，所以结论偏主观。35B 量化后能跑在消费级显卡上，这点对本地部...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

15:05

64d ago

AI HOT 精选· aihot-apiZH15:05 · 05·25

教皇里奥发通谕：AI时代要守住“深刻的人性”

教皇里奥十四世在5月15日发布的通谕《伟大的人性》中，重点警告了AI驱动的战争、对劳动力的冲击，以及现有法律和伦理框架跟不上技术权力扩张的问题。通谕呼吁建立新的法律和伦理体系来约束AI。正文没有披露具体的政策建议或技术细节，更多是原则性呼吁。

#Safety#Alignment#Pope Leo XIV#Magnifica Humanitas

一句话点评

教皇Leo十四世发通谕警告AI战争和失业风险，原则性呼吁建立新伦理框架，但没给具体政策建议或技术细节。来源是The Verge，权威性够但信息密度低，适合当舆论风向标，不适合当决策依据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

15:03

64d ago

FEATUREDr/LocalLLaMA· rssEN15:03 · 05·25

RTPurbo：用几百步训练把全注意力模型转成稀疏推理，长上下文预填充快 9.36 倍

这篇论文提出 RTPurbo，能把原本用全注意力的模型改成稀疏注意力来跑推理，而且只需要几百步训练。做法是只给“检索头”保留完整的 KV 缓存，其他头用一个 16 维的 token 索引器来近似，相当于大幅压缩了要存要算的内容。在 100 万 token 的长上下文场景下，预填充阶段最高快了 9.36 倍，解码阶段快了约 2.01 倍。正文没披露具体用...

#Inference-opt#Reasoning#Benchmarking#RTPurbo

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

RTPurbo 把全注意力模型改成稀疏推理，只给“检索头”留完整缓存，其他头用 16 维索引器近似，长上下文预填充快 9.36 倍、解码快 2 倍，但正文没披露具体模型和验证集。

锐评

这篇论文的思路挺直接：不是所有注意力头都需要记住全部历史，只有少数“检索头”在长上下文里真正干活。RTPurbo 的做法就是只给这些头保留完整的 KV 缓存，其余头用一个 16 维的 token 索引器来近似，相当于把要存要算的内容大幅压缩。结果在 100 万 token 的场景下，预填充阶段最高快了 9.36 倍，解码阶段快了约 2.01 倍，而且只需要几百步训练就能把全注意力模型转过来。不过现在能看到的只有 Reddit 上的讨论和 Bloomberg 的标题，原文被网络屏蔽了，没法确认具体在哪些模型和基准上测的。46 个赞和 45 条评论说明社区关注度不低，但讨论里也没挖出更多定价或开源细节。还缺两块：一是这个方法在不同架构、不同规模模型上的泛化表现，二是稀疏化之后长文本推理的质量到底掉了多少，光看速度不够。另外，几百步训练的成本如果本身就不低，那对个人开发者来说门槛还在。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

14:14

64d ago

r/LocalLLaMA· rssEN14:14 · 05·25

MiniCPM5-1B 低调上线，1B 参数小模型能跑多快？

Reddit 用户 kevinlch 发帖引用了 MiniCPM5-1B 的 Hugging Face 页面，但正文被 Reddit 屏蔽，无法获取模型规格、基准分数、许可证或推理条件。目前只能确认这是一个 1B 参数的小模型，具体能力、训练数据、开源协议一概未知。想尝鲜的得自己去 Hugging Face 翻，但注意：正文没披露任何实测数据，别急着下结论。

#OpenBMB#kevinlch#Product update

一句话点评

OpenBMB 在 Hugging Face 上传了 MiniCPM5-1B，一个 1B 参数的小模型。但 Reddit 帖子正文被屏蔽，模型规格、基准分数、许可证一概未知。想尝鲜得自己去 Hugging Face 翻，但注意：正文没披露任何实测数据，别急着下结论。短评：只有名字和参数规模，其他全是坑。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

48

SCORE

H0·K1·R0

14:00

64d ago

FEATUREDr/LocalLLaMA· rssEN14:00 · 05·25

《金融时报》报道了去安全护栏工具 Heretic，称其 10 分钟内就能解除 Meta Llama 3.3 的限制

Reddit 用户分享了一篇《金融时报》的文章，主角是一个叫 Heretic 的工具。这个工具专门用来移除开源模型（比如 Meta 的 Llama 3.3）内置的安全护栏，让模型能回答原本被禁止的敏感问题。文章提到，Heretic 的创建者 Philipp Emanuel Weidmann 说，用这个工具不到 10 分钟就能搞定一个模型。目前他们已经生...

#Safety#Fine-tuning#Financial Times#Heretic

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

FT 报道了一个叫 Heretic 的工具，10 分钟就能卸掉 Llama 3.3 的安全护栏，已生成 3500 多个“去限制”模型，下载量 1300 万次。数字挺大，但正文没披露这些下载是真实使用还是重复抓取。

锐评

这条新闻的核心不是技术多高明，而是门槛低到离谱——10 分钟、一个工具，就能把 Meta 花大力气做的安全对齐给拆了。Heretic 的创建者说已经搞出 3500 多个去限制模型，总下载量 1300 万次，这个量级说明需求不小，很多人就是想要一个“什么都能说”的模型。但要注意，信息来源是 Reddit 用户转述的 FT 文章，我们拿到的 RSS 源里连原文链接都打不开，直接返回了 403。所以目前能确认的只有 Reddit 帖子本身（46 个赞、45 条评论），FT 原文的具体内容、采访对象、数据口径都没法交叉验证。1300 万下载这个数字尤其需要打折——它可能包含了同一用户多次下载、镜像站点的重复计数，或者只是模型文件被爬虫抓取的次数。还缺什么：Heretic 具体是怎么绕过护栏的，是直接修改权重还是用提示词注入；Meta 对此有没有回应；这些去限制模型有没有被用于实际作恶的案例。在官方公告或 FT 原文可查之前，这更像一个关于开源模型安全边界失控的信号，而不是一条可以照单全收的事实报道。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

13:53

64d ago

AI HOT 精选· aihot-apiZH13:53 · 05·25

教皇与Anthropic合作，讨论AI时代人类未来

梵蒂冈办了一场活动，教皇XIV和Anthropic联合创始人Christopher Olah聊了AI时代人类怎么办。Olah说AI有真实可能大规模替代人类劳动，还观察到模型内部出现了类似喜悦、恐惧的“内部状态”——这点先别太激动，正文没披露具体怎么测的、样本多大、验证多强。合作机制、时间线、具体项目都没说，目前更像一场高层对话，不是落地计划。

#Safety#Interpretability#Anthropic#Christopher Olah

一句话点评

教皇和Anthropic聊AI，更像一场高层对话而非落地计划。Olah说AI可能大规模替代人类劳动，还观察到模型内部有类似喜悦、恐惧的“状态”——这点先别太激动，正文没披露怎么测的、样本多大、验证多强。合作机制、时间线、具体项目都没说，信息缺口明显。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

66

SCORE

H1·K0·R1

13:50

64d ago

FEATUREDr/LocalLLaMA· rssEN13:50 · 05·25

小模型做智能体流程不流行，不是能力不行，是商业账算不过来

这篇帖子直接点破：小模型搭的智能体方案没成为主流，跟技术能不能跑通关系不大，核心是商业风险和验证成本。作者举了两个例子——Gemma 4 31B 在 tau2-bench 上能跑到 86.4% 的准确率，DeepSeek V4-Flash 的输出 token 价格差不多是 Claude Opus 4.6 的 89 分之一，单看指标和成本都挺能打。但问题...

#Agent#Reasoning#RAG#NVIDIA

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

小模型搭智能体方案没成主流，不是技术不行，是没人愿意担验证风险。Gemma 4 31B 跑分 86.4%，DeepSeek V4-Flash 成本只有 Claude Opus 4.6 的 1/89，但审计发现 7-9B 模型正确回答里有一半到三分之二的推理是错的，这点先别太激动。

锐评

这篇帖子把商业账算得很直白：小模型智能体方案卡在验证成本上，不是能力不够。作者引用的数据挺有冲击力——Gemma 4 31B 在 tau2-bench 上拿到 86.4% 的准确率，DeepSeek V4-Flash 输出 token 价格大约是 Claude Opus 4.6 的 89 分之一，单看指标和成本确实能打。但问题出在可靠性审计上：一项被引用的审计显示，7 到 9B 规模的模型在给出正确答案时，有大约一半到三分之二的情况下推理过程是断裂的。这意味着你省下的推理费用，可能得加倍花在人工复核上。帖子本身来自 Reddit r/LocalLLaMA，46 个赞和 45 条评论说明社区关注度不低，但讨论里也没挖出更多定价细节。原文链接指向彭博社报道，不过我们拿到的 RSS 源被 Reddit 网络拦截了，实际文章内容没抓到，所以目前只能基于帖子摘要做判断。还缺两块关键信息：一是 DeepSeek 这个定价是限时促销还是永久调价，二是那项审计的具体样本量和任务类型。在官方公告和完整审计报告出来前，这条新闻更适合当行业风向标看，别急着当采购依据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

13:14

64d ago

FEATUREDr/LocalLLaMA· rssEN13:14 · 05·25

NuExtract3 发布：一个 4B 开源视觉模型，能把图片和文字转成 Markdown、做 OCR 和按模板抽信息，自己电脑就能跑

Numind 放出了 NuExtract3，一个基于 Qwen3.5-4B 的开源视觉语言模型，用 Apache-2.0 协议。它主要干三件事：把图片或文字转成 Markdown 格式、从图片里直接识别文字（OCR）、以及按你给的 JSON 模板把非结构化内容抽成结构化数据。模型只有 4B 参数，对硬件要求不高，官方说最低 4GB 显存就能在本地部署。...

#Multimodal#Vision#Tools#Numind

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

一个4B小模型把图片转Markdown和结构化数据，4GB显存就能跑，但Reddit原文被屏蔽了，实际效果得自己测。

锐评

NuExtract3 是个基于 Qwen3.5-4B 的开源视觉模型，主打三件事：图片转 Markdown、OCR 文字识别、按你给的 JSON 模板把非结构化内容抽成结构化数据。4B 参数意味着硬件门槛很低，官方说最低 4GB 显存就能在本地部署，这对个人开发者或小团队来说挺友好。权重以 Safetensors、GGUF 和 MLX 格式发布，覆盖了主流推理框架。但这条消息有个硬伤：Reddit 原文被网络屏蔽，我们拿到的只是标题和摘要，缺少模型实际表现、定价细节和官方公告链接。46 个赞和 45 条评论说明社区关注度不低，但讨论内容我们看不到，没法判断用户反馈是正面还是翻车。目前缺的东西很明确：官方技术报告或博客链接、与上一代或同类模型（如 MinerU、OmniParser）的对比数据、以及实际抽取准确率的 benchmark。在官方放出完整公告前，这条新闻只能当个信号看——方向对，但细节全盲。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

13:09

64d ago

Hacker News 首页· rssEN13:09 · 05·25

微软取消威斯康星州244英亩数据中心计划

微软取消了在威斯康星州卡利多尼亚建设244英亩数据中心的计划。标题和链接提到社区反对，但正文未披露项目时间线、投资规模、电力方案或替代选址。

#Microsoft#Caledonia#Incident

一句话点评

微软取消威斯康星244英亩数据中心，社区反对是主因。正文没披露投资额、时间线或替代选址，信息缺口大。33个HN点赞、12条评论，热度一般。这事对AI基建的警示：选址阻力正在变成真实成本，但具体影响多大还看不清。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

12:52

64d ago

Product Hunt · AI· rssEN12:52 · 05·25

Tough Tongue AI 销售版：几分钟搭一个能打电话、能上 Zoom、还能自己进步的 AI 销售员

Tough Tongue AI 今天在 Product Hunt 上线了销售版，主打让中小企业和行业专家几分钟内搭出一个 AI 一线员工。这个 AI 同事能打电话、加入 Zoom 或 Google Meet，也能嵌在你的应用里。每个 AI 都带真人语音和虚拟形象，而且每次对话后会自动复盘——标记哪里没说好、建议加什么新技能，但需要你点头才生效。正文没透...

#Tough Tongue AI#Product Hunt

一句话点评

Tough Tongue AI 今天在 Product Hunt 上线销售版，让中小企业和专家几分钟搭出能打电话、进 Zoom 的 AI 销售员。每次对话后自动复盘，标记哪里没说好、建议加新技能，但需你点头才生效。这点先别太激动——正文没透露底层模型和具体定价，只说了有免费版和五折。如果真能低成本让 AI 在真实销售场景里自我迭代，对缺人力的团队挺实用，但效果和成本还得看实测。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

55

SCORE

H0·K0·R0

12:13

64d ago

r/LocalLLaMA· rssEN12:13 · 05·25

2016款Mac Pro跑70k上下文，每秒11个token

一位Reddit用户把llama.cpp跑在2016款Mac Pro上，机器配的是双D700显卡。在新版Linux和Vulkan驱动支持下，Qwen 3.5 9B Q4 MTP模型跑出了70k上下文、每秒11个token的输出速度，Qwen 2.5 Coder Q4更快，达到22 t/s。这个速度对一台快10年的老机器来说相当不错，但正文没披露具体功耗...

#Inference-opt#Code#Benchmarking#Apple

一句话点评

一台2016款Mac Pro，双D700显卡，在Linux和Vulkan驱动下跑Qwen 3.5 9B Q4 MTP模型，70k上下文输出速度11 token/s，Qwen 2.5 Coder Q4更快，22 token/s。对一台快10年的老机器来说，这个速度相当不错，说明老硬件在本地推理上仍有潜力。但正文没披露功耗，实际跑起来可能电费感人。另外，测试只覆盖了Qwen系列，其他模型兼容性未知。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

11:55

64d ago

r/LocalLLaMA· rssEN11:55 · 05·25

用小模型（Qwen 3.5 9B / Gemma 4）+ LangGraph 搭 ReAct 循环 Agent

一个 Reddit 用户在试单 Agent + LangGraph 的工作流，挂了大约 5 个工具，还能接收图片输入。跑了几轮循环后，Qwen 9B 生成了大量推理 token，输出有时被截断或直接不返回。正文没披露具体延迟和成本，但小模型跑多轮循环容易爆 token 这点值得注意。

#Agent#Tools#Multimodal#Qwen

一句话点评

有人在 Reddit 上试了用 Qwen 3.5 9B 和 Gemma4 搭 LangGraph 循环 Agent，挂了约 5 个工具，还能收图片。跑几轮后 Qwen 9B 狂吐推理 token，输出经常被截断或直接不回。小模型跑多轮循环容易爆 token，这点先别太激动。正文没披露具体延迟和成本，但如果是生产环境，token 开销和稳定性都是坑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

67

SCORE

H1·K1·R1

11:52

64d ago

r/LocalLLaMA· rssEN11:52 · 05·25

OSCAR RotationZoo：给 KV 缓存做 2-bit 量化，先离线算好旋转矩阵

OSCAR RotationZoo 发布了一组预计算好的 K/V 旋转矩阵，专门用来把 KV 缓存压到 2-bit（INT2），号称能省约 7 倍内存。测试数据给了一个例子：Qwen3-4B-Thinking-2507 在 GPQA 上跑 2-bit 得 67.17 分，跟 BF16 的 67.27 几乎没差。不过正文没披露具体用了多少校准样本、延迟有...

#Inference-opt#Benchmarking#OSCAR#Qwen

一句话点评

OSCAR 搞了一组预计算好的旋转矩阵，能把 KV 缓存压到 2-bit，内存省约 7 倍。Qwen3-4B 在 GPQA 上 2-bit 得分 67.17，跟 BF16 的 67.27 几乎没差，这点先别太激动——正文没披露用了多少校准样本，也没说延迟变化。如果校准成本低、推理速度不掉，那对本地部署挺实用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

71

SCORE

H1·K1·R1

11:06

64d ago

r/LocalLLaMA· rssEN11:06 · 05·25

本地 AI 怎么改善生活？有人用它解析体检报告

Reddit 上有人问本地 AI 的实际用途，发帖者自己举了个例子：把血检 PDF 扔给本地模型，让它转成结构化数据，方便自己追踪健康指标。帖子没透露用了什么模型、什么工具链，也没给出可复现的步骤，所以这点先别太激动——想法不错，但想抄作业还缺细节。

#Multimodal#Code#Reddit#Sam Altman

一句话点评

有人把血检PDF扔给本地模型转结构化数据，方便自己追踪健康指标。想法不错，但正文没披露用了什么模型和工具链，想抄作业还缺细节。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

48

SCORE

H1·K0·R1

10:06

64d ago

r/LocalLLaMA· rssEN10:06 · 05·25

RTX Pro 6000 配 i7-14700KF 微调求优化，用户实测 475W 功耗

一位 Reddit 用户在原本跑 4090 的 Intel i7-14700KF 主机上装了 RTX Pro 6000，测出 475W 功耗下能效比最佳，然后问大家有没有针对主流推理引擎（比如 llama.cpp、vLLM）的冷门优化技巧，系统是 Debian 13 Trixie。帖子没提微调的具体设置，比如用了什么框架、batch size 或量化精...

#Fine-tuning#Inference-opt#Reddit#NVIDIA

一句话点评

RTX Pro 6000 在 475W 功耗下能效最佳，但用户只问了推理优化，没提微调框架、batch size 或量化精度。正文被 Reddit 屏蔽，实际讨论内容未知。如果是跑大模型微调，单卡 48GB 显存够跑 70B 模型 QLoRA，但 i7-14700KF 的 PCIe 通道数可能限制多卡扩展。建议关注实际能效曲线和 Debian 13 下的驱动兼容性，别只看功耗数字。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

48

SCORE

H0·K1·R1

09:18

64d ago

r/LocalLLaMA· rssEN09:18 · 05·25

NuExtract3：4B小模型做文档结构化，支持图文输入和JSON模板

Numind 发布了 NuExtract3，一个 4B 参数的视觉-语言推理模型，专门用来从文档里抽结构化信息。它同时吃文字和图片，能按你给的 JSON 模板输出字段，也能把图片转成 Markdown。支持多语言文档，还带推理和非推理两种模式。4B 参数意味着本地跑得动，成本低，但正文没披露具体精度和延迟数据，这点先别太激动。

#Multimodal#Vision#Reasoning#numind

一句话点评

NuExtract3 是个 4B 参数的视觉语言模型，专干一件事：从文档里抽结构化信息。你给个 JSON 模板，它按字段填；也能把图片转成 Markdown。4B 意味着本地能跑，成本低，但正文没披露精度和延迟，这点先别太激动。支持多语言和推理/非推理两种模式，算实用向的小模型。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

09:01

64d ago

FEATUREDr/LocalLLaMA· rssEN09:01 · 05·25

一个让 Codex 在无头 Linux 上安全折腾的沙盒框架

作者 superSmitty9999 放出了一个概念验证工具 ai-sandbox-manager，用 LXC 模板给 Codex 开了 sudo 权限、浏览器操作、Docker 和共享 GPU 访问，同时加了个钩子阻止 git push，让模型在隔离副本里干活，降低把系统搞崩的风险。正文没披露性能开销和具体延迟数据。

#Agent#Tools#Code#Codex

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

给 Codex 开了个带 GPU 的隔离沙箱，能跑 sudo 和浏览器，还拦了 git push 防手滑。性能开销和延迟没给，先当玩具看。

锐评

这个项目解决了一个很实际的痛点：让 AI 在本地干活时别把系统搞崩。作者用 LXC 容器给 Codex 配了一套隔离环境，模型在里面有 sudo 权限、能操作浏览器、用 Docker，还能共享 GPU 算力。最聪明的一手是加了钩子阻止 git push，等于给 AI 上了道保险，防止它把实验代码直接推到生产仓库。不过正文只给了概念验证，没披露任何性能数据。容器化本身有开销，加上 GPU 直通和共享访问，实际跑起来延迟多少、显存怎么分配，这些关键信息都缺。另外，这个方案目前只针对 Codex，能不能套到其他模型上也没说。如果你正好在用 Codex 做自动化开发，这个思路值得跟，但现阶段别指望拿来跑生产。先等作者补上性能基准和更完整的隔离策略再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

08:39

64d ago

r/LocalLLaMA· rssEN08:39 · 05·25

MiMo-V2.5-coder：128GB内存就能跑的代码模型，工具调用靠谱

开发者 jedisct1 在 Reddit 上发布了 MiMo-V2.5-coder，主打代码生成和工具调用。亮点是只需要 128GB 内存就能跑，作者说比 Qwen3.6 和 DeepSeek 4 更适合写代码，工具调用也稳定。但正文没披露参数量、评测分数、训练细节和许可证，所以实际能力得自己试。如果你有 128GB 的机器，可以当个免费替代试试，但...

#Code#Tools#MiMo-V2.5-coder#Qwen

一句话点评

一个开发者说 MiMo-V2.5-coder 在 128GB 内存机器上就能跑代码生成和工具调用，声称比 Qwen3.6 和 DeepSeek 4 更适合写代码。但正文没披露参数量、评测分数、训练细节和许可证，实际能力得自己试。如果你有 128GB 的机器，可以当个免费替代试试，但别指望它真能比肩那些大厂模型。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

61

SCORE

H0·K1·R1

08:35

64d ago

r/LocalLLaMA· rssEN08:35 · 05·25

Grok 明年要出一个 0.5T 参数的模型

Reddit 用户转了一条马斯克的推文，说 Grok 明年会出一个 0.5T 参数的模型。0.5T 就是 5000 亿参数，比现在最大的开源模型（比如 Llama 3 405B）还大一圈。但正文只有一条推文链接，点进去被 Reddit 屏蔽了，所以没看到马斯克具体说了什么——0.5T 是指总参数量还是激活参数、什么时候发、开不开源，全都没披露。目前只能...

#Grok#Elon Musk#Commentary

一句话点评

马斯克说 Grok 明年出 0.5T（5000 亿参数）模型，比 Llama 3 405B 还大。但正文只有一条被屏蔽的推文链接，0.5T 是总参数还是激活参数、开不开源、什么时候发，全没披露。目前只能当个饼看，别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

58

SCORE

H1·K1·R1

08:31

64d ago

FEATUREDFT · 科技· rssEN08:31 · 05·25

Meta 和 Google 模型的安全护栏几分钟内就被扒掉了

有软件能让模型回答生物武器和恶意软件的问题，但正文没披露具体是哪些模型、怎么复现、用了什么工具，也没提两家公司有没有应对措施。

#Safety#Meta#Google#Safety/alignment

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Meta 和 Google 模型的安全护栏几分钟就被扒掉，但报道正文是付费墙，没给出模型名、工具和复现步骤，先别急着下结论。

锐评

这条消息来自 FT 的付费订阅页，我们能看到的只有摘要：有软件能让模型回答生物武器和恶意软件的问题，护栏几分钟内被移除。但正文没披露具体是哪些模型、怎么复现、用了什么工具，也没提两家公司有没有应对措施。对从业者来说，这种“几分钟绕过”的说法不算新鲜——越狱提示词和微调攻击一直存在，关键在于攻击成本、是否需要模型权重、以及绕过的是 API 层还是本地部署的护栏。这些细节目前全是空白。在官方公告或技术复现报告出来前，这条只能当标题新闻看。真正值得盯的是：如果攻击不需要模型权重、成本极低，那说明当前对齐技术（RLHF 等）的鲁棒性比想象中差；如果只是某种已知越狱的变体，那新闻价值就大打折扣。还缺攻击面、模型版本和厂商回应，这三块补不上，就没法判断严重程度。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

08:25

64d ago

Hacker News 首页· rssEN08:25 · 05·25

Geomatic：一个用命令行画几何图形、还能自动求导的工具

这是一个命令驱动的几何画板，输入 `c = \circle p0 2` 就能画圆，支持 NumPy/PyTorch 风格的广播运算、反向传播和梯度下降。你可以把几何图形当成可微分的变量，让模型自动算梯度、做优化，还能把向量场可视化出来。正文没披露性能数据或具体应用案例，但思路挺有意思：把几何建模和自动微分揉到一起，适合做形状优化或物理仿真原型。

#Tools#Geomatic#Product update

一句话点评

一个命令驱动的几何画板，输入 `c = \circle p0 2` 就能画圆，支持 NumPy/PyTorch 风格的广播运算和反向传播。核心是把几何图形当成可微变量，让模型自动算梯度做优化，还能可视化向量场。思路挺有意思，适合形状优化或物理仿真原型。但正文没披露性能数据或具体应用案例，目前更像一个技术 demo，离工程落地还有距离。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

60

SCORE

H1·K1·R0

08:16

64d ago

r/LocalLLaMA· rssEN08:16 · 05·25

MLX 加了个 W8A8 量化，M5 Pro 上首字延迟从 2.84 秒降到 2.52 秒

Mininglamp AI 给苹果 MLX 框架加了个 W8A8 激活量化（就是把模型计算时的中间数值也压缩到 8 位，省显存也省时间）。在 M5 Pro 芯片上、上下文 4516 token 的场景里，首字生成时间从 2.839 秒降到 2.519 秒，后续生成速度是 79.5 token/秒。提升幅度不算大（约 11%），但好处是不用改模型结构就能...

#Inference-opt#Mininglamp AI#MLX#Cider

一句话点评

Mininglamp AI 给苹果 MLX 框架加了 W8A8 激活量化，把模型计算时的中间数值也压到 8 位。在 M5 Pro 上、4516 token 上下文里，首字生成从 2.84 秒降到 2.52 秒，后续速度 79.5 token/秒。提升约 11%，不算惊艳，但好处是不改模型结构就能用。正文没披露精度损失和更多芯片测试，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

07:24

64d ago

AI 群聊日报· atomZH07:24 · 05·25

群聊日报：83%的AI生成PR被关、美国三十州限制数据中心、AgentHub开源

今天群聊日报有两篇深度分析值得细读。一是Flask作者Armin Ronacher的博客：Pi项目90天内收到3145条外部issue和PR，83%被自动关闭，合入率不到10%。这些内容不是垃圾——行文专业、推理完整，但结论往往是错的，因为AI的错误模式是“前提偏了但推理自洽”，老手的直觉根本抓不住这种失败。Ronacher的解法是写/is命令，让AI...

#Agent#Code#Armin Ronacher#Anthropic

一句话点评

Flask作者Armin Ronacher的Pi项目90天收到3145条外部issue/PR，83%被自动关闭，合入率不到10%。这些不是垃圾，而是AI生成的“前提偏了但推理自洽”的错误——老手直觉抓不住这种失败。他的解法是写/is命令，让AI从代码和执行路径独立验证，不给假设空间。短评：AI没增加能review代码的人，只增加了代码量和噪音。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

07:14

64d ago

r/LocalLLaMA· rssEN07:14 · 05·25

纯 Node.js 写 MCP 教程，从 JSON-RPC 到本地 GGUF 模型全跑通

作者 purellmagents 发了一个叫 MCP from Scratch 的仓库，用纯 Node.js 手把手教你搭 MCP 协议。教程分四步：先讲 JSON-RPC 和 stdio 传输（就是进程间用标准输入输出传消息），然后写一个 MCP 服务器，再接入本地 GGUF 模型（.gguf 文件那种量化模型），最后做一个 plan-act-obs...

#Agent#Tools#Inference-opt#purellmagents

一句话点评

一个纯 Node.js 的 MCP 教程仓库，手把手教你从 JSON-RPC 写到本地 GGUF 模型接入，最后搭一个 plan-act-observe 的 agent 循环。适合想自己动手跑通 MCP 协议但不想碰 Python 的人。不过正文被 Reddit 屏蔽了，看不到具体代码和细节，只能从标题和摘要判断内容。如果教程真能覆盖从传输层到 agent 循环的完整链路，对本地模型玩家挺实...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户