全部 · 2026-05-24

▸ 48 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-24 · 星期日2026年5月24日

22:21

64d ago

r/LocalLLaMA· rssEN22:21 · 05·24

hipEngine：在 AMD RDNA3 显卡上原生跑 Qwen 3.6，速度不错

hipEngine 发布了一个专为 AMD RDNA3 显卡（如 Strix Halo、7900 XTX）优化的推理引擎，原生支持 Qwen 3.6 模型。在 35B-A3B 模型、128K 上下文、INT8 KV 缓存的测试中，预填速度达到 1076.5 tok/s，解码速度 60.0 tok/s，显存峰值约 20.89 GiB。这个速度在本地部署大...

#Inference-opt#hipEngine#Qwen#AMD

一句话点评

AMD RDNA3 显卡（如 7900 XTX）用户有福了：hipEngine 这个新推理引擎让 Qwen 3.6 跑得飞快，35B-A3B 模型在 128K 上下文下预填 1076.5 tok/s、解码 60 tok/s，显存只占 20.89 GiB。速度在本地部署里算第一梯队，但注意这是 INT8 KV 缓存下的成绩，精度有折损；且只支持 RDNA3，老卡用不了。正文没披露对比基线（比如...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

22:13

64d ago

AI HOT 精选· aihot-apiZH22:13 · 05·24

Luma Agents 能按简报批量生成 UGC 风格广告了

Luma Labs 说 Luma Agents 可以根据你给的简报和风格设定，自动生成看起来像用户自拍的那种广告视频。正文没披露能生成多少条、怎么收费、用了什么模型，也没说这些广告能不能直接投放到平台。

#Agent#Luma Labs#Product update

一句话点评

Luma Agents 能按简报和风格自动生成像用户自拍的广告视频，省了真人拍摄成本。但正文没披露能生成多少条、怎么收费、用了什么模型，也没说这些广告能不能直接投放到平台。短评：UGC 广告生成工具，省拍摄成本，但缺量、价、模型和投放细节，先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

58

SCORE

H1·K0·R1

19:23

64d ago

r/LocalLLaMA· rssEN19:23 · 05·24

本地跑模型，你们用啥前端？

Reddit 用户 Borkato 在 LocalLLaMA 版问大家跑本地模型用什么前端。他自己用 Vim 加了一个自定义文本补全插件，觉得 llama-server 虽然是个稳妥的默认选项，但功能有限。帖子正文没透露更多细节，比如他用的什么模型、补全插件怎么写的、llama-server 具体哪里不够用。

#Code#Tools#Reddit#LocalLLaMA

一句话点评

Reddit 用户 Borkato 在 LocalLLaMA 版问大家跑本地模型用什么前端，他自己用 Vim 加自定义文本补全插件，觉得 llama-server 功能有限。帖子正文没披露他用什么模型、插件怎么写的、llama-server 具体哪里不够用。短评：一个本地模型用户的工具选择帖，信息量不大，但能反映社区对 llama-server 的普遍感受——够用但不够灵活。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

42

SCORE

H0·K0·R1

19:10

65d ago

FEATUREDr/LocalLLaMA· rssEN19:10 · 05·24

用户成功在消费级GPU上运行大型语言模型Qwen3.6

Reddit 用户用 GTX 1060 6GB、32GB DDR3 内存和 E5-2698v3 CPU，在 LM Studio 里跑通了 unsloth 版 Qwen3.6-35B-a3b-MTP GGUF Q4_K_XL 量化模型。上下文窗口开到 131072 token，GPU 卸载了 41 层，KV 缓存用 Q4_0 量化。实测预填充速度约 13...

#Inference-opt#Qwen#LMStudio#Reddit

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

有人在 3080Ti 上跑 Qwen 3.6 27B 模型，开了 MTP 加速后实测 4.5 t/s，速度能看但不算快。

锐评

这条信息来自 Reddit 用户分享的实测数据，但原文被屏蔽了，看不到完整的配置细节和生成质量反馈。已知的是用一张 RTX 3080 Ti 跑 Qwen 3.6 27B 模型，开启了 MTP（多 token 预测，一种让模型一次猜多个词来提速的技术），最终跑到每秒 4.5 个 token。这个速度对于消费级单卡来说能用了，但谈不上流畅，日常对话会感觉有点等。另外两条相关帖子提到更极端的方案：有人用 GTX 1060 6GB 这种老卡也能跑，还有人用两张 RTX 3060 组 400 美元的低成本方案跑到 30-50 t/s。综合看，这个模型对硬件门槛压得够低，但单卡体验取决于你能接受多慢。正文没披露量化精度、上下文长度和显存占用，这些才是决定能不能日常用的关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

19:00

65d ago

TechCrunch AI· rssEN19:00 · 05·24

Xreal 说智能眼镜终于做明白了，但正文没透露 Google 合作细节、产品规格、定价和上市时间

Xreal 创始人兼 CEO Chi Xu 认为智能眼镜行业到了一个转折点，公司已经掌握了这门生意。不过这篇报道只放了这句话，没披露任何具体信息：和 Google 的合作到底做什么、眼镜的参数、卖多少钱、什么时候卖，全都没说。所以这条消息更像一个表态，暂时没法验证。

#Vision#Xreal#Google#Chi Xu

一句话点评

Xreal 老板说智能眼镜行业到转折点了，公司已经“掌握这门生意”。但全文没提跟 Google 合作具体做什么、眼镜参数、价格、上市时间。这条消息更像一个表态，暂时没法验证，先别太激动。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

50

SCORE

H1·K0·R0

18:08

65d ago

FEATUREDAI HOT 精选· aihot-apiZH18:08 · 05·24

DeepSeek 要把旗舰模型的价格永久打 75 折

Bloomberg 发了条短讯，说 DeepSeek 打算把自家旗舰模型的 API 调用价格永久降到原价的四分之一。但正文没披露具体是哪个模型、这个折扣适用于哪些接口、什么时候生效，也没给出原来的定价基准。我会先打个折看待这条消息——在官方出公告之前，只能确认降价意图，算不出实际能省多少钱。

#DeepSeek#Product update

精选理由

精选 · 重要度 77 · 吸引力 + 知识量 + 共鸣

一句话点评

Bloomberg 发了条短讯，说 DeepSeek 要把旗舰模型 API 价格永久降到四分之一。但正文没说是哪个模型、哪些接口、什么时候生效，也没给原价。在官方出公告前，只能确认降价意图，算不出实际能省多少。

锐评

这条消息目前只能当“标题新闻”看。Bloomberg 的报道只提了 75% 的永久折扣，但关键信息全缺：旗舰模型指的是 V3 还是 R1？折扣覆盖输入、输出还是全部 token？生效日期和原来的定价基准也没给。没有这些，75% 就是一个没法验证的数字。从行业角度看，DeepSeek 的 API 本来就不贵，再打四分之一折，如果覆盖的是主力模型，对做批量推理、数据清洗的开发者确实有吸引力。但反过来想，如果折扣只针对某个特定接口或者有调用量门槛，实际受益面就没那么大。现在最需要的是 DeepSeek 官方定价页面更新或者一份正式公告。在那之前，这条消息的价值在于提醒你关注后续动作，而不是现在就调整预算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

77

SCORE

H1·K1·R1

17:46

65d ago

r/LocalLLaMA· rssEN17:46 · 05·24

IBM 两个 OCR 小模型对比：加了动态提示的 2stage 版到底有没有进步？

Reddit 用户发帖问 granite-docling-258m 和 granite-docling-2stage-258m 两个 OCR 模型的实际效果差异。帖子正文只提到 2stage 版本用动态提示（dynamic prompt）预计算页面布局对象，没有给出任何 OCR 基准测试或准确率数据。两个模型都是 2.58 亿参数的小模型，适合本地部署...

#Vision#IBM#Reddit#Granite Docling

一句话点评

IBM 两个 2.58 亿参数的小 OCR 模型，2stage 版用动态提示预计算页面布局，但发帖人没给任何准确率数据。正文没披露基准测试，实际提升未知。适合本地部署，但效果要自己试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

62

SCORE

H1·K1·R1

17:18

65d ago

AI HOT 精选· aihot-apiZH17:18 · 05·24

让 Codex 自己学会把重复活做成自动化工具

这是一个提示词框架，教 Codex 翻自己的聊天记录和记忆，找出那些至少干过两次、输入稳定的重复任务，然后自动把它们变成技能、子智能体或自动化工具，避免重复造轮子。流程包括生成候选清单、执行创建，最后汇报结果和待验证项。正文没披露这个框架在实际测试中的成功率或误判率，但思路挺实用——相当于让模型自己给自己写脚本，省掉人工梳理重复工作流的时间。

#Code#Agent#Memory#Codex

一句话点评

这个提示词框架让 Codex 自己翻聊天记录和记忆，找出至少干过两次、输入稳定的重复任务，自动变成技能或自动化工具。相当于让模型给自己写脚本，省掉人工梳理重复工作流的时间。正文没披露实际测试的成功率或误判率，这点先别太激动。思路挺实用，但效果得看实测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

17:00

65d ago

FEATUREDFT · 科技· rssEN17:00 · 05·24

欧洲央行要求银行修补AI模型暴露的风控漏洞

欧洲央行临时召集银行开会，要求它们修补最新AI模型暴露出来的风控漏洞。监管方强调这会威胁金融系统稳定，但正文没披露具体涉及哪些银行、漏洞属于什么类别、以及修复截止日期。

#European Central Bank#Policy

精选理由

精选 · 重要度 76 · 吸引力 + 共鸣

一句话点评

欧洲央行把银行叫去开会，说最新AI模型测出了他们的风控漏洞，得赶紧修。但正文被付费墙挡了，具体是哪些模型、什么漏洞、涉及哪些银行，全没看到。

锐评

这条消息的核心是监管在主动用新模型给银行做压力测试，而不是等出事了再补救。欧洲央行召集银行，说明测试结果可能具有普遍性，不是个别机构的问题。但FT的报道正文被付费墙完全挡住，我们只能看到标题和导航栏，连导语都没有。所以关键信息全是缺口：用了什么模型、测出了哪类风控缺陷、是信用风险还是操作风险、涉及多少家银行、整改期限多长，一概不知。Bloomberg的转述也只是复述FT的标题，没有补充细节。对从业者来说，这更像一个信号——监管开始把AI当成审计工具来用了，但具体怎么用、效果如何，还得等更完整的披露。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

76

SCORE

H1·K0·R1

16:31

65d ago

FEATUREDHacker News 首页· rssEN16:31 · 05·24

AI 芯片成本结构变了：内存开销已占到近三分之二

Epoch AI 估算，从 2024 年第一季度到 2025 年第四季度，高带宽内存（HBM）在 AI 芯片物料成本里的占比从 52% 涨到了 63%。这个数字是拿英伟达、AMD、谷歌和亚马逊四家的 AI 芯片按出货量加权平均算出来的。同期逻辑芯片的成本占比基本没动，在 13% 左右；先进封装从 19% 降到 15%，其他辅助部件从 15% 降到 9%...

#Inference-opt#Epoch AI#Commentary

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

AI 芯片的成本结构变了：现在近三分之二的钱花在了内存上，而不是计算核心。

锐评

Epoch AI 算了笔账，从 2024 年初到 2025 年底，高带宽内存（HBM，你可以理解为给 AI 芯片配的极速仓库）在物料成本里的占比从 52% 涨到了 63%。这个数字是拿英伟达、AMD、谷歌和亚马逊四家的 AI 芯片按出货量加权平均算的，所以基本代表了市场主流。同期负责计算的逻辑芯片成本占比几乎没动，在 13% 左右；先进封装和其他部件的份额反而在缩水。这说明芯片本身的设计和制造进步，并没有减轻对内存的饥渴，模型越来越大，数据吞吐的需求把成本压力全推给了内存。不过得留个心眼：原文只给了百分比变化，没披露这四家各自的出货量权重和具体定价模型。我们不知道是 HBM 单价涨了，还是芯片设计里堆了更多 HBM 堆栈。另外，63% 是物料成本，不是最终售价，芯片公司的毛利空间没体现在里面。如果后续能看到按芯片型号拆分的成本明细，才能判断这波涨价是三星/SK 海力士在赚，还是英伟达们在主动堆料。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

16:24

65d ago

FEATUREDAI HOT 精选· aihot-apiZH16:24 · 05·24

TrapDoor 供应链攻击把 AI 编程助手变成了新攻击面

这次攻击同时在 npm、PyPI 和 Crates.io 上投放了 34 个恶意包，目标是偷加密货币、AI 和安全开发者的钱包、SSH 密钥和云凭证。手法不是直接藏恶意代码，而是给流行开源项目提 Pull Request，往里面塞被篡改的 CLAUDE.md 和 .cursorrules 配置文件。开发者把仓库拉到本地后，Claude Code 或 C...

#Agent#Code#Safety#npm

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

AI 编程助手的配置文件成了攻击入口，34 个恶意包同时污染 npm、PyPI、Crates.io，偷钱包和云凭证。

锐评

这次攻击的聪明之处在于不直接藏恶意代码，而是给开源项目提 PR，往 CLAUDE.md 和 .cursorrules 里塞被篡改的指令。开发者把仓库拉到本地后，Claude Code 或 Cursor 会把这些文件当可信配置执行，等于攻击者借 AI 助手的手在开发者机器上跑命令。涉及 34 个包，横跨三大包管理器，目标是加密货币和安全开发者的钱包、SSH 密钥和云凭证。目前信息仅来自一条 Bloomberg 标题和 Hacker News 讨论，46 个赞、45 条评论说明关注度不低，但原文没披露具体包名、受影响项目或攻击时间线。在官方公告或技术分析出来前，这还是一条标题新闻。还缺的关键信息：哪些开源项目的 PR 被利用、恶意配置文件的具体内容、各包管理器下架响应时间，以及 Claude Code 和 Cursor 团队对此的回应。如果确认是首次将 AI 助手作为攻击面，这个手法值得所有用 AI 编程工具的人警惕——你信任的配置文件，可能已经被别人改过。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

15:24

65d ago

● P1r/LocalLLaMA· rssEN15:24 · 05·24

OpenBMB 发布 BitCPM-CANN 在华为昇腾 NPU 上的 1.58 比特大模型训练方案

OpenBMB 放出了 BitCPM-CANN，一个在华为昇腾 NPU 上原生跑通的 1.58-bit（三值）大模型训练方案。他们用和 MiniCPM4 一样的架构与数据，从零训了 0.5B、1B、3B、8B 四个尺寸。1B 到 8B 的模型在 11 个测试集上平均保住了全精度模型 95.7% 到 97.2% 的性能，3B 版本在 BBH 上打平，3B...

#Fine-tuning#Inference-opt#Benchmarking#OpenBMB

精选理由

精选 · 重要度 96 · 吸引力 + 知识量 + 共鸣

一句话点评

面壁智能在华为昇腾 NPU 上原生训练并开源了 1.58-bit 大模型，显存省了约 6 倍，能力保留率 90% 以上，但正文没给具体评测基准和延迟数据。

锐评

这条消息最值得看的是“全栈国产算力跑通了极低比特训练”。BitCPM-CANN 从量化算子到训练框架全在昇腾 910B 上完成，意味着以后在华为卡上做 1.58-bit 模型有了公共基础设施，不用每家从头搭一遍。四个尺寸（0.5B 到 8B）都开源了，官方说推理显存比 BF16 省约 6 倍，能力保留率在 90% 到 97.2% 之间，8B 模型能塞进旗舰手机跑。但先别太激动。文章没交代这个“能力保留率”是在哪些基准上测的，也没提推理延迟和吞吐。极低比特模型最怕的是生成质量在长文本或复杂任务上掉得厉害，光看一个百分比不够。另外，训练成本、与同尺寸全精度模型在真实业务场景下的对比也都没给。如果后续能补上这些，才能判断它是不是真能当端侧主力模型用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

96

SCORE

H1·K1·R1

15:05

65d ago

AI HOT 精选· aihot-apiZH15:05 · 05·24

Pixverse 测了个角色设计工作流：GPT Image 出图，Seedance 做动画

Pixverse 放了个角色设计工作流测试：先用 GPT Image 2.0 生成 Lucas 的静态概念图，再用 Seedance 2.0 把图做成弹跳动画。效果从静态到电影级动态。正文没披露具体耗时、成本或可控性，目前只是演示链路通不通。

#Multimodal#Vision#Pixverse#GPT Image 2.0

一句话点评

Pixverse 把 GPT Image 2.0 和自家 Seedance 2.0 串起来做了个角色设计工作流：先画静态概念图，再一键生成弹跳动画。效果看着挺顺，但正文没披露耗时、成本或可控性，目前只是演示链路通不通。这点先别太激动，等开放测试再看实际体验。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

45

SCORE

H0·K1·R0

15:02

65d ago

r/LocalLLaMA· rssEN15:02 · 05·24

llama.cpp 能不能让模型完全跑在显存里？

Reddit 用户用 RTX 4070（12GB 显存）跑 llama.cpp，Gemma4 26B 和 Qwen 3.6 35B MoE 能到 40 token/s。他想知道 Qwen3.5-9B 量化版能不能完全塞进显存，因为 Gemma4-e2b Q4_IXS 在 8192 上下文下还会用掉约 3.5GB 系统内存。正文没披露具体量化等级和上下文...

#Inference-opt#Reddit#Qwen#Gemma

一句话点评

RTX 4070（12GB）跑 Gemma4 26B 和 Qwen 3.6 35B MoE 能到 40 token/s，但 Gemma4-e2b Q4_IXS 在 8192 上下文下还会吃掉约 3.5GB 系统内存，说明小模型想完全塞进显存还得看量化等级和上下文长度。正文没披露具体量化等级，这点先别太激动——40 t/s 可能是低量化+短上下文的成绩。对本地部署党来说，9B 模型全进显存是可...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

42

SCORE

H0·K1·R1

15:00

65d ago

TechCrunch AI· rssEN15:00 · 05·24

我试了亚马逊的 Bee 穿戴设备：又方便又有点毛骨悚然

TechCrunch 记者试用了亚马逊去年收购的 AI 穿戴设备 Bee。这玩意像个随身录音笔，全天录对话、转文字、做摘要，还能跟日历联动发提醒。记者觉得用起来确实方便，但隐私焦虑也上来了——毕竟它一直在听你说话。正文没披露价格、传感器规格、上市时间和购买条件。

#Audio#Memory#Amazon#TechCrunch

一句话点评

亚马逊去年收购的Bee穿戴设备，像个随身录音笔，全天录对话、转文字、做摘要，还能联动日历发提醒。记者试用后觉得方便，但隐私焦虑——它一直在听。正文没披露价格、上市时间和传感器规格，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

66

SCORE

H1·K0·R1

14:22

65d ago

r/LocalLLaMA· rssEN14:22 · 05·24

有人在本地用 Gemma 4 2B 跑 JSON 输出、调工具、找 Java bug，全成功了

Reddit 用户用 LM Studio 加 Spring AI 在本地跑 Gemma 4 2B，测了三件事：输出符合 schema 的 JSON、调用天气工具（参数传了里加）、暴露 reasoning_content 推理过程。最意外的是让它做 Java 代码审查，它发现了一个 string == 的 bug，最后给了 50/100 分。2B 模型能...

#Tools#Reasoning#Code#Google

一句话点评

短评：2B模型能发现Java的==bug，但别急着吹，测试环境太理想。点评：Reddit用户用LM Studio+Spring AI本地跑Gemma 4 2B，测了结构化JSON输出、工具调用（查里加天气）和推理过程暴露。最亮眼的是代码审查：它发现了一个string ==比较的bug，打了50/100分。2B模型能到这个程度，说明小模型在结构化任务上进步明显。但注意：这是单次演示，不是系...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

14:09

65d ago

FEATUREDAI HOT 精选· aihot-apiZH14:09 · 05·24

格雷格·布罗克曼亲述：差点让 OpenAI 散伙的那 72 小时

OpenAI 联合创始人兼总裁格雷格·布罗克曼在这期播客里，第一次详细讲了公司最惊险的一次内部危机。他回忆了 Sam Altman 被董事会解雇后，自己接到电话时的场景、当天就辞职的原因，以及第二天在 Sam 家里策划“凤凰”备份公司的经过。转折点出现在 Ilya Sutskever 发了一条推文之后。除了这场风波，他还聊了 OpenAI 早期在纳帕谷...

#Greg Brockman#OpenAI#Commentary

精选理由

精选 · 重要度 72 · 吸引力 + 共鸣

一句话点评

布罗克曼首次亲口复盘OpenAI那场72小时政变，从接到解雇电话到在Sam家策划“凤凰”备份公司，细节比之前所有报道都更接近第一视角。

锐评

这期播客最大的价值是布罗克曼以当事人身份还原了OpenAI董事会解雇Sam Altman后的72小时。他讲了自己在哪里接到电话、为什么当天就辞职，以及第二天在Sam家里设计“凤凰”备份公司的过程。转折点被归结为Ilya Sutskever发了一条推文，但正文没披露推文具体内容和Ilya立场转变的真实原因，这部分只能听他单方面叙述。除了宫斗戏，他还提到OpenAI早期在纳帕谷定下的三步技术路线用了十年，以及现在公司内部代码“很难说有多少不是AI写的”。这些说法没有给出可验证的数据，更像播客对谈中的个人判断。整体来看，这是一份重要的口述史料，但信息缺口也很明显：董事会决策的具体依据、其他关键人物的视角、以及“凤凰”计划最终为何没有启动，正文都没交代。如果是真的想搞清楚那次危机全貌，光听这一边还不够。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

72

SCORE

H1·K0·R1

14:09

65d ago

● P1Hacker News 首页· rssEN14:09 · 05·24

DeepSeek 宣布旗舰模型永久降价 75%

Bloomberg 的标题说 DeepSeek 会把自己旗舰 AI 模型的价格永久打 75 折。不过正文没披露具体是哪个模型、原价多少、什么时候生效。Hacker News 上这篇帖子有 46 个赞和 45 条评论，说明关注度不低，但讨论里也没挖出更多定价细节。我会先打个折：在官方公告出来前，这还只是一条标题新闻。

#DeepSeek#Bloomberg#Hacker News#Product update

精选理由

精选 · 重要度 89 · 吸引力 + 知识量 + 共鸣

一句话点评

DeepSeek把旗舰模型价格永久砍了75%，但正文没披露具体是哪个模型、新价格是多少，也没说降价后推理质量会不会缩水。

锐评

DeepSeek宣布对旗舰模型永久降价75%，Bloomberg的报道只给了这个比例，没写具体模型名称、原价和新价格。降价幅度看着很大，但缺少对比基准——不知道是跟自家之前的促销价比，还是跟行业均价比。另外，报道也没提降价是否会影响模型性能或服务等级，比如并发限制、延迟会不会变差。对开发者来说，价格降了是好事，但得等官方公布具体定价和对应的API条款才能判断实际省多少。如果降价同时不砍服务质量，那对中小团队接入大模型的门槛确实会低一截。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

89

SCORE

H1·K1·R1

13:05

65d ago

r/LocalLLaMA· rssEN13:05 · 05·24

Qwen3.6-35B-A3B vs Gemma4-26B-A4B：Reddit 用户实测，Gemma4 在 AMD 9070 XT 上跑得更快

Reddit 用户 MarcCDB 对比了 Qwen3.6-35B-A3B 和 Gemma4-26B-A4B 两款 MoE 模型，结论是 Gemma4 在 Radeon 9070 XT 上用最新版 llama.cpp 跑得更快。但帖子没贴跑分数据，也没说用了什么 prompt 或上下文长度，所以这个“更快”到底快多少、在什么条件下成立，目前不清楚。如果...

#Inference-opt#Benchmarking#Qwen#Gemma

一句话点评

Reddit 用户 MarcCDB 说 Gemma4-26B-A4B 在 Radeon 9070 XT 上用最新 llama.cpp 比 Qwen3.6-35B-A3B 跑得快，但没贴跑分、没提 prompt 和上下文长度。这个“更快”缺条件，先打五折。正文被 Reddit 墙了，看不到更多细节。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

61

SCORE

H1·K0·R1

13:02

65d ago

Hacker News 首页· rssEN13:02 · 05·24

DeepSeek Reasonix：一个专为DeepSeek缓存机制优化的终端编程助手，号称能把输入成本压到1/5

Reasonix 是一个开源终端编程助手，只对接 DeepSeek 的 API。它的核心卖点是利用 DeepSeek 的字节级前缀缓存——对话历史只追加不重排，长会话缓存命中率能到 94%，输入 token 成本降到原来的 1/5 左右。按官方报价，常规输入每百万 token 0.07 美元，缓存命中后只要 0.014 美元，长期跑确实省钱。工具链包括...

#Agent#Code#Inference-opt#DeepSeek

一句话点评

DeepSeek Reasonix 是一个只对接 DeepSeek API 的开源终端编程助手。核心卖点是利用 DeepSeek 的字节级前缀缓存——对话历史只追加不重排，长会话缓存命中率能到 94%，输入 token 成本降到原来的 1/5 左右。按官方报价，常规输入每百万 token 0.07 美元，缓存命中后只要 0.014 美元，长期跑确实省钱。工具链包括终端 TUI、MCP 外部工...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

12:55

65d ago

Hacker News 首页· rssEN12:55 · 05·24

约束衰减：LLM Agent 在后端代码生成中的脆弱性

这篇论文发现，给 LLM 写代码的 Agent 加越多结构性约束（比如必须用某个框架、数据库、ORM），它的表现就崩得越厉害。作者管这叫“约束衰减”。他们在 8 个 Web 框架上测了 100 个任务，结果能跑的配置从基线到全约束任务，断言通过率平均掉了 30 个百分点，弱的直接归零。框架差异也很大：Flask 这种显式框架表现还行，FastAPI、D...

#Agent#Code#Research release

一句话点评

给 LLM 写代码的 Agent 加越多结构性约束（必须用某个框架、数据库、ORM），它崩得越厉害。论文在 8 个 Web 框架上测了 100 个任务，断言通过率平均掉了 30 个百分点，弱的直接归零。框架差异也大：Flask 这种显式框架还行，FastAPI、Django 这种约定多的反而差。主要翻车点在数据层（SQL 写错、ORM 用不对）。不过论文没披露用了什么模型、什么 Agent ...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

61

SCORE

H1·K0·R1

12:05

65d ago

AI HOT 精选· aihot-apiZH12:05 · 05·24

Claude Code 自动模式：让多个任务同时跑

作者说 Claude Code 的自动模式去掉了每次操作的权限确认弹窗，这样你可以在一个会话跑着的时候，另开一个会话并行干活，不用干等着。

#Agent#Code#Tools#Claude

一句话点评

Claude Code 的自动模式去掉了每次操作的权限确认弹窗，让你能同时开多个会话并行干活，不用干等着。核心价值是省掉手动确认的等待时间，适合批量改代码或跑多个任务。但正文没披露自动模式下的安全机制——没有弹窗意味着模型可以直接执行写文件、跑命令等操作，误操作或恶意指令的防护全靠模型自身判断，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

11:31

65d ago

r/LocalLLaMA· rssEN11:31 · 05·24

Qwen 3.6 小模型自己玩《地下城》开源游戏，效果还行

有人在 RTX 5090 上用 LM Studio 跑 Qwen 3.6 的 35B 参数版（激活 3B），给了 24 万 token 上下文、8 千 token 输出，让它玩开源游戏 DCSS。结果不带 MTP（多 token 预测）的版本能正常操作，带 MTP 的版本反而一直调用错工具、反复用错。这个模型是 4-bit 量化版，跑在本地，延迟应该不...

#Agent#Tools#Vision#Qwen

一句话点评

有人在RTX 5090上用LM Studio跑Qwen 3.6的35B参数版（实际激活3B），给了24万token上下文、8千token输出，让它玩开源游戏DCSS。不带MTP（多token预测）的版本能正常操作，带MTP的反而一直调用错工具。模型是4-bit量化版，跑在本地，延迟应该不低。正文没披露具体帧率或成功率，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

11:12

65d ago

r/LocalLLaMA· rssEN11:12 · 05·24

Gemma 4 E2B 在 4GB 显存上跑三四十次后输出质量明显下降

有用户用 GTX 1650（4GB 显存）跑 Gemma 4 E2B，通过 llama-server 连续调用约 30-40 次后，输出开始变短、漏掉 JSON 字段甚至返回空内容。重启 llama-server 后质量立刻恢复。正文没披露具体是显存泄漏还是缓存污染，但 4GB 显存跑现代模型本身就紧巴巴，连续推理后质量下降大概率是显存或上下文缓存被撑...

#Inference-opt#Gemma#llama-server#NVIDIA

一句话点评

4GB显存跑Gemma 4 E2B，连续推理30-40次后输出变短、漏字段甚至返回空，重启服务立刻恢复。大概率是显存泄漏或缓存污染，4GB跑现代模型本来就紧巴巴。正文没披露具体原因，但这对本地部署用户是个提醒：显存不够时别连续猛跑，中间得重启。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

11:02

65d ago

FEATUREDr/LocalLLaMA· rssEN11:02 · 05·24

在 llama-server 网页里用原生工具做联网资料检索的实操分享

一位 Reddit 用户分享了怎么在 llama-server 自带的网页界面里，直接用 llama.cpp 的原生工具实现联网资料检索（也就是 web RAG）。他的做法分七步：先开启 get_datetime 和 exec_shell_command 这两个工具，然后让模型通过 firejail 沙箱、一个独立的 Linux 用户以及一个 Alpi...

#RAG#Tools#Agent#llama.cpp

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

用 llama.cpp 自带工具在本地跑联网检索，思路挺巧，但正文被 Reddit 屏蔽了，具体步骤看不到。

锐评

这条帖子讲的是怎么在 llama-server 的网页界面里，直接用 llama.cpp 的原生工具实现联网资料检索。作者给了一套七步操作，包括开启 get_datetime 和 exec_shell_command 两个工具，再通过 firejail 沙箱、独立 Linux 用户和 Alpine OCI 虚拟机来跑 wget 抓网页，安全隔离做得挺细。但问题是，Reddit 原文返回了 403，我们拿到的只有“你被网络安全屏蔽了”的提示，正文完全缺失。所以上面这些步骤是从摘要里拼出来的，具体配置参数、命令写法、模型选型（摘要提到 Qwen）以及实际效果，正文都没披露。对想复现的人来说，这条信息目前只能当个方向参考。安全隔离的思路值得看，但能不能跑通、延迟多大、检索质量如何，都得等原文恢复或者作者补发才能判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

10:17

65d ago

r/LocalLLaMA· rssEN10:17 · 05·24

13k欧元买工作站跑本地大模型：Mac Studio还是RTX PRO 5000？

Reddit用户纠结花1.3万欧元买M5 Ultra Mac Studio还是RTX PRO 5000工作站，主要用来本地测试30B-35B参数的开源模型、处理26.2万token长上下文、跑推理框架和评估工具。明确排除了本地微调，因为租一台B200云实例（RunPod）就够用，成本更低。帖子正文被Reddit屏蔽，所以没有更多配置细节。

#Inference-opt#Fine-tuning#Reddit#RunPod

一句话点评

1.3万欧元预算，在M5 Ultra Mac Studio和RTX PRO 5000工作站之间纠结，主要跑30B-35B模型和26万token长上下文。亮点是用户明确排除了本地微调——租一台B200云实例更划算，说明本地部署的边界清晰。但正文被Reddit屏蔽，没有具体配置和跑分，只能看个热闹。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

08:45

65d ago

r/LocalLLaMA· rssEN08:45 · 05·24

用AI搜产品，Gemma 4跑偏了，Claude 4.6得再问一次才出结果

Reddit用户测试用AI做产品调研：Gemma 4 26B的agent花1分钟跑完，但方向错了，只给出泛品类目；Claude Sonnet 4.6搜得更久，但第一次也没给出具体产品，得再补一句“排除没有匹配产品的厂商”才出候选。说明当前AI做产品搜索，要么快但不准，要么慢但需要人工二次引导。正文没披露具体搜索的产品和测试次数，所以这点先别太激动。

#Agent#Tools#Gemma#Claude

一句话点评

Reddit 用户实测：Gemma 4 26B 做产品搜索 agent，1 分钟跑完但方向全错，只给了泛品类目；Claude Sonnet 4.6 搜更久，第一次也没出具体产品，得补一句“排除没匹配产品的厂商”才出候选。快但不准，慢但得人工二次引导。正文没披露搜的具体产品和测试次数，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

58

SCORE

H0·K1·R1

08:29

65d ago

Hacker News 首页· rssEN08:29 · 05·24

Greg Brockman 聊 OpenAI 差点死掉的 72 小时

这是一期播客，Greg Brockman 讲了 OpenAI 历史上最惊险的 72 小时：Sam Altman 被董事会开除后，他当天辞职，第二天在 Sam 家设计了一个叫“Phoenix”的备份公司，直到 Ilya Sutskever 发推才扭转局面。他还聊了 OpenAI 为什么放弃纯非营利结构、为什么 ChatGPT 不再显示推理过程、以及公司多...

#Greg Brockman#OpenAI#Commentary

一句话点评

Greg Brockman 在播客里详述了 OpenAI 史上最惊险的 72 小时：Sam Altman 被董事会开除后，他当天辞职，第二天在 Sam 家设计了一个叫“Phoenix”的备份公司，直到 Ilya Sutskever 发推才扭转局面。他还聊了 OpenAI 为什么放弃纯非营利结构、为什么 ChatGPT 不再显示推理过程、以及公司多少代码已是 AI 写的（“很难说哪部分不是”）...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

07:30

65d ago

AI 群聊日报· atomZH07:30 · 05·24

群聊日报：200美元订阅值8000美元API、信息图没人看图、AI成本超过人类员工

一张信息图引爆讨论：200美元/月的coding plan按API价值折算值8000-10000美元，被认为是IPO前的巨额补贴窗口，应趁现在烧token跑通商业闭环。但随后群友做了注意力实验，发现几乎所有人都在盯左边文字，右边插图被集体忽略——这对用AI做信息图传播的人是个警钟。成本侧坏消息集中：Fortune报道微软AI成本已超过人类员工，有公司群...

#Agent#Code#Inference-opt#Microsoft

一句话点评

一张信息图引爆讨论：$200/月的coding plan按API价值折算值$8000-$10000，被认为是IPO前的巨额补贴窗口，应趁现在烧token跑通商业闭环。但随后群友做了注意力实验，发现几乎所有人都在盯左边文字，右边插图被集体忽略——这对用AI做信息图传播的人是个警钟。成本侧坏消息集中：Fortune报道微软AI成本已超过人类员工，有公司群发邮件要求节省Codex token。技术...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

61

SCORE

H0·K1·R1

07:00

65d ago

FEATURED机器之心 · 公众号· rssZH07:00 · 05·24

ICML 2026 中了一篇让视觉模型学会“多条思路并行思考”的论文，但正文被验证页挡住了

这篇被 ICML 2026 接收的论文叫 Visual Para-Thinker，给视觉语言模型加了一套并行思考框架。核心是用 Pa-Attention 和 LPRoPE 把视觉推理拆成四条独立路径，让模型同时从不同角度理解图像，再综合出答案。训练数据是 16.3 万组问答对，规模不算大，所以泛化能力得打个问号。不过目前文章页面被微信环境异常验证挡住了...

#Multimodal#Vision#Reasoning#Visual Para-Thinker

精选理由

精选 · 重要度 79 · 吸引力 + 知识量 + 共鸣

一句话点评

ICML 2026 收了篇给视觉模型加“并行思考”的论文，用四条独立路径同时看图再综合答案，但训练数据只有 16.3 万组问答对，泛化能力得打个问号。

锐评

这篇论文的核心卖点是让视觉语言模型不再一条道走到黑，而是同时从四个角度理解图像，再综合出答案。具体做法是用 Pa-Attention 和 LPRoPE 把视觉推理拆成四条独立路径，相当于给模型装了四个并行工作的“眼睛”，各看各的，最后汇总。训练数据是 16.3 万组问答对，这个量级在视觉推理任务里不算大，所以论文里展示的效果能不能在更复杂或没见过的场景里复现，目前还不好说。比较遗憾的是，原文页面被微信的环境验证挡住了，没法看到具体的实验设置、基准测试对比和消融实验细节。比如这四条路径到底各自负责什么类型的视觉信息，是颜色、形状、空间关系还是别的，正文没披露。另外，并行思考带来的额外计算开销有多大，延迟增加多少，这些实际部署时很关键的数字也看不到。如果你在做多模态模型推理优化，这个思路值得看一眼，但别急着当成熟方案用。先等论文全文放出来，看看它在更多基准上的表现，以及跟现有串行推理方法的公平对比再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

79

SCORE

H1·K1·R1

07:00

65d ago

FEATURED机器之心 · 公众号· rssZH07:00 · 05·24

Meta 裁员后留下的员工被塞进新坑：技术经理回去写代码，AI 工程师转岗做数据标注

这篇文章讲的是 Meta 裁员后没走的人日子也不好过。公司开始把一些工程经理重新赶回一线写代码（IC 岗），同时把部分做基础设施和 AI 的工程师调去搞数据标注。文章提到一个关键数字：经理和下属的比例从以前的 1:8 直接拉到了 1:50，说明管理层被大幅压缩。另外还爆了个料，说 Meta 持有数据标注公司 Scale AI 49% 的股份，但正文没展...

#Agent#Fine-tuning#Meta#Scale AI

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Meta 把经理和下属比例从 1:8 拉到 1:50，还让部分 AI 工程师转岗做数据标注，这波操作比裁员本身更说明公司想省钱省到骨头里。

锐评

这条消息最值得看的是两个数字：经理管的人从 8 个变成 50 个，以及 Meta 持有 Scale AI 49% 的股份。前者说明 Meta 在把管理层压扁，逼着工程经理回去写代码，不再养纯管理岗。后者解释了为什么敢把 Infra 和 AI 工程师调去搞数据标注——反正标注公司自己是大股东，肥水不流外人田。不过文章正文因为微信环境验证没抓到，很多关键信息是缺的。比如转岗到底涉及多少人、是临时还是永久、员工有没有补偿或离职选项，这些都没披露。另外 49% 的持股比例如果属实，Meta 对 Scale AI 的控制力会很强，但文章没展开说这个股权结构是怎么来的，也没提 Scale AI 的估值和收入依赖度。我会先打个折：这条更像内部员工吐槽，数字有冲击力但缺少官方确认。如果比例真从 1:8 跳到 1:50，那管理幅度已经大到不现实，要么是试点，要么是统计口径有猫腻。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

06:08

65d ago

r/LocalLLaMA· rssEN06:08 · 05·24

Qwen3.6-35B-A3B 无审查版：200K 上下文跑 5 轮没崩，还支持 MTP 量化

Reddit 用户分享了 Qwen3.6-35B-A3B 无审查版（Genesis V2）的 GGUF 和 FP8 Safetensors 格式链接，并在 Beelink GTR9 Pro（Strix Halo 硬件）上测试了 Q8_K_P MTP 量化。跑了 5 轮、每轮 200K 上下文，没出现卡死、循环或重复调用工具的情况；在 120K toke...

#Code#Tools#Inference-opt#Qwen

一句话点评

Qwen3.6-35B-A3B 的无审查版（Genesis V2）已在 Hugging Face 放出 GGUF 和 FP8 格式。有用户在 Strix Halo 迷你主机上跑了 Q8_K_P 量化，5 轮 200K 上下文没卡死、没循环，120K 后切换任务也正常。但正文被 Reddit 屏蔽，具体测试环境和工具调用细节看不到。亮点是 35B 参数但激活仅 3B，推理成本低，适合本地部署。...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

04:51

65d ago

r/LocalLLaMA· rssEN04:51 · 05·24

给 TradingAgents 套了个本地 GUI，能用 Ollama 跑

有人把 TradingAgents（一个交易智能体框架）fork 了，加了个本地网页界面，支持 OpenAI、Anthropic、Ollama、Qwen、DeepSeek 等 10 家模型供应商。亮点是“简洁报告模式”，能省大约一半的 token——这对本地跑模型挺实用，token 就是钱（或显存）。不过正文没披露这个模式具体砍掉了哪些信息，也没说交易...

#Agent#Tools#RAG#TradingAgents

一句话点评

有人给交易智能体框架 TradingAgents 套了个本地网页界面，支持 Ollama 等 10 家模型。亮点是“简洁报告模式”能省约一半 token——本地跑模型时 token 就是显存，这点挺实用。但正文没披露砍掉了哪些信息，也没说交易策略的实际效果，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

04:09

65d ago

FEATURED新智元 · 公众号· rssZH04:09 · 05·24

Anthropic 三张底牌全翻：Mythos 1 首次现身，Opus 4.8 被扒出

Anthropic 的新模型和项目被提前曝光了。claude-opus-4.8 的名字出现在 Google Vertex AI 平台上，同时一份 59.8MB 的 Claude Code 源码映射文件泄露，里面 51.2 万行 TypeScript 代码不仅提到了 Sonnet 4.8，还带出了 Mythos 1 的线索。Mythos 1 看起来和 C...

#Code#Safety#Vision#Anthropic

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 的 Opus 4.8 和神秘项目 Mythos 1 被提前扒出来了，但信息全来自泄露的代码片段和平台抓取，官方一个字都没说，先别太激动。

锐评

这条消息的核心是“泄露”，不是“发布”。Opus 4.8 的名字出现在 Google Vertex AI 的模型列表里，同时一份 59.8MB 的 Claude Code 源码映射文件被公开，里面 51.2 万行 TypeScript 代码提到了 Sonnet 4.8 和 Mythos 1。从代码线索看，Mythos 1 可能跟 Claude Code 和安全工具 Claude Security 有关，但具体是什么形态——是新模型、新功能还是内部代号——正文没披露。这类泄露能说明 Anthropic 确实在跑这些项目，但没法判断完成度或发布时间。代码里出现名字，可能只是预留接口或早期测试。Vertex AI 上短暂露脸，也可能是灰度测试或配置错误。目前缺三个关键信息：官方确认、实际能力描述、以及任何可验证的基准测试。在 Anthropic 自己开口之前，这些名字只能当八卦看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

04:09

65d ago

FEATURED新智元 · 公众号· rssZH04:09 · 05·24

AI 第一次独立跑完芯片设计全流程：219 个英文单词进去，7nm 图纸出来，工程师全程没碰键盘

Verkor 的 Design Conductor 用一段 219 个英文单词的规格说明，在 12 小时内自动生成了 VerCore RISC-V CPU 的 ASAP7 7nm GDSII 版图，中间没有工程师介入。跑分结果是 1.48GHz 下 CoreMark 拿到 3261 分。不过先别太激动：这颗芯片还没实际流片验证，而且正文明确说没做缓存，...

#Agent#Code#Tools#Verkor

精选理由

精选 · 重要度 79 · 吸引力 + 知识量 + 共鸣

一句话点评

AI 从一段 219 词的规格说明直接生成了 7nm 芯片版图，12 小时跑完，但没流片、没缓存，性能分先打个折。

锐评

Verkor 的 Design Conductor 做了一次全自动芯片设计演示：输入一段 219 个英文单词的规格说明，12 小时后直接输出 ASAP7 7nm 工艺的 GDSII 版图，中间没有工程师插手。这颗叫 VerCore 的 RISC-V CPU 在 1.48GHz 下跑出 CoreMark 3261 分，看起来不低，但正文明确说它没做缓存，而且还没实际流片验证。也就是说，目前只有仿真结果，芯片能不能用、功耗和面积表现如何，全是未知数。我会把这件事理解成一个工具链打通的概念验证，而不是芯片设计已经能甩给 AI 的信号。219 词规格说明能覆盖的设计复杂度有限，没缓存也意味着实际场景里性能会大打折扣。另外，正文没披露生成过程中有没有人工筛选或多次重跑，也没说这套流程对更复杂的 SoC 设计是否适用。想判断它到底省了多少人力，还得等流片回来的实测数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

79

SCORE

H1·K1·R1

04:09

65d ago

FEATURED新智元 · 公众号· rssZH04:09 · 05·24

AI 写的文章数量已经超过人类了，但正文被微信验证页挡住了

这篇来自新智元的文章标题说 AI 生成的文章数量碾压人类，但正文被微信环境异常验证页完全挡住，看不到任何具体内容。从已有的英文摘要看，研究方 Graphite 从 CommonCrawl 里抽了 4.3 万篇文章做检测，发现从 2024 年 11 月起 AI 写的英文文章数量超过了人类写的。他们用的检测器自称误判率约 4.2%、漏判率约 0.6%，也就...

#Benchmarking#Graphite#Merriam-Webster#CommonCrawl

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

标题说AI文章碾压人类，但正文被微信验证页挡死了，具体怎么碾压、数据怎么算的，全看不到。

锐评

这条新闻的标题很唬人，但点进去只有微信的“环境异常”验证页，正文完全没加载出来。从英文摘要看，研究方 Graphite 从 CommonCrawl 这个网页快照库里抽了 4.3 万篇文章做检测，结论是 2024 年 11 月起 AI 写的英文文章数量超过了人类。他们用的检测器自称误判率约 4.2%、漏判率约 0.6%，也就是每 100 篇人类文章里可能错杀 4 篇，每 1000 篇 AI 文章里可能漏掉 6 篇。这个准确率不算差，但也没到能当铁证的程度。我会先打个折：4.3 万篇样本在 CommonCrawl 的海量数据里只是九牛一毛，抽样方式、文章类型、语言分布全都没披露。而且检测器本身也是 AI 模型，用 AI 去抓 AI，容易陷入循环论证。另外，这个“碾压”只针对英文文章，中文、日文等其他语言的情况完全没提。还缺什么：样本是怎么选的，有没有按网站类型分层；检测器对改写、翻译、人机混写文章的识别能力如何；数据只到 2024 年 11 月，之后趋势是加速还是放缓，正文没披露，这些缺口让结论暂时只能当个参考。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

04:00

65d ago

FT · 科技· rssEN04:00 · 05·24

AI 逼着麦肯锡们重新想怎么收费

客户开始质疑咨询顾问的价值，越来越习惯按任务完成效果付费。正文没披露具体怎么改价，但趋势是明摆着的：AI 让传统按人天收费的模式站不住了。

#McKinsey#Financial Times#Commentary

一句话点评

麦肯锡们被AI逼着改收费模式，客户开始按效果付费，不再认人天计价。正文没披露具体怎么改价，但趋势很明确：传统咨询的人天费逻辑被AI打穿了。关键看他们敢不敢真按结果定价，以及怎么定义“效果”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

04:00

65d ago

AI HOT 精选· aihot-apiZH04:00 · 05·24

OpenClaw 2026.5.22 发布：模型列表响应降到5毫秒，npm包锁依赖防投毒

OpenClaw 新版本把 /models 接口响应时间压到约5毫秒，之前没给具体数字，但5毫秒对网关层来说基本是瞬时返回。npm 包现在加了锁定依赖，能防止依赖链被篡改或投毒，对生产环境部署更安全。Windows 安装和更新路径也做了加固。整体是一次性能和安全的小迭代，没有新功能，但如果你在用 OpenClaw 做模型路由，值得升一下。

#Inference-opt#Safety#OpenClaw#Product update

一句话点评

OpenClaw 小版本更新，/models 接口响应压到约5毫秒，网关层基本瞬时返回。npm 包加了锁定依赖，防依赖链投毒，Windows 安装路径也加固了。没新功能，但做模型路由的话值得升。正文没披露5毫秒是P50还是P99，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

61

SCORE

H0·K1·R0

03:51

65d ago

量子位 · 公众号· rssZH03:51 · 05·24

胡彦斌花一个月用Vibe Coding写粉丝App，余华在节目里学本地部署

胡彦斌用Vibe Coding（让AI写大部分代码，人只负责描述需求）花一个月做了粉丝社区App“焰火”。余华在综艺里提到自己在学“本地部署”（把模型装在自己电脑上跑）。米拉·乔沃维奇的MemPalace记忆系统在LongMemEval评测上拿了96.6%，但正文没披露测试样本量和具体任务类型，这个分数先别太激动。

#Agent#Code#Memory#Hu Yanbin

一句话点评

胡彦斌用Vibe Coding（让AI写代码，人只描述需求）一个月做了个粉丝App，余华在综艺里学本地部署，名人效应大于技术价值。米拉·乔沃维奇的MemPalace在LongMemEval上拿96.6%，但正文没披露测试样本量和任务类型，这个分数先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

03:21

65d ago

r/LocalLLaMA· rssEN03:21 · 05·24

本地 TTS 大乱斗：作者把截至 2026 年 5 月的所有工具跑了一遍基准

UkieTechie 搞了个 tts-bench 项目，专门给本地 TTS 工具做性能测试。目前已经放出了 Windows 和 Mac 的跑分结果，Linux 还在等一台 5900XT + RTX 3090 的工作站出数据。正文被 Reddit 墙了，看不到具体榜单和延迟数字，但至少知道有人在认真拉表对比本地语音合成方案。

#Audio#Benchmarking#UkieTechie#Benchmark

一句话点评

有人搞了个 tts-bench 项目，专门给本地 TTS 工具跑分，目前只出了 Windows 和 Mac 的结果，Linux 还在等一台 5900XT + RTX 3090 的工作站出数据。正文被 Reddit 墙了，看不到具体榜单和延迟数字，但至少知道有人在认真拉表对比本地语音合成方案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

03:05

65d ago

FEATUREDr/LocalLLaMA· rssEN03:05 · 05·24

视觉模型直接读 PDF vs 先 OCR 再问答：一次长文档实测

作者用 Claude Sonnet 4.5 跑了 MMLongBench-Doc 里的 30 份带图、带表格的 PDF，共 171 道题，对比两种路线：让模型直接看 PDF 画面，和先用 OCR 把文档转成文字再喂给模型。直接看 PDF 的准确率只有 52.0%，在六套方案里排第五，每次查询成本 0.2552 美元。表现最好的是 LlamaCloud ...

#Vision#RAG#Benchmarking#Claude

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

直接让模型看 PDF 画面做问答，准确率垫底还更贵，这条路线目前不划算。

锐评

这篇测试把两种文档问答路线摆在一起比了比：让 Claude Sonnet 4.5 直接看 PDF 画面，准确率只有 52.0%，在六套方案里排第五，每次查询成本 0.2552 美元。表现最好的是先用 LlamaCloud 把文档转成文字再喂给模型，准确率拉到 59.6%，成本反而降到 0.1885 美元。也就是说，直接看画面既不准又更贵，OCR 路线反而更省钱。不过得打个折。测试只用了 MMLongBench-Doc 里的 30 份 PDF、171 道题，样本量不大，结论能不能推广到其他类型的文档还不清楚。正文也没披露这 30 份文档的具体构成，比如图表占比多少、扫描质量如何，这些都会影响 OCR 和视觉路线的表现差距。另外，测试只用了 Claude 一款模型，换成 Gemini 或 GPT-4o 这类视觉能力更强的模型，排名会不会变，正文也没说。还缺一个关键信息：OCR 路线的预处理时间成本。LlamaCloud 解析一份长文档要多久、出错率多高，这些都没提。如果解析环节经常翻车或者耗时太长，那省下来的查询费用可能就被前置成本吃掉了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

02:49

65d ago

r/LocalLLaMA· rssEN02:49 · 05·24

不玩角色扮演，还要不要无审查模型？

Reddit 用户发帖问：如果对角色扮演没兴趣，无审查模型还有用吗？他提到 OpenAI 和五角大楼的合作，以及自己跑的一些测试——无审查版本在随机问题上会出奇怪错误，Qwen3.6 在加了“不要宣传”的系统提示后，原本能答的受限话题就变了。帖子没交代测试了多少次、用了哪些模型版本、评估标准是什么，所以这点先别太激动。核心矛盾是：无审查模型在正经场景（...

#RAG#Safety#Alignment#OpenAI

一句话点评

Reddit 用户实测发现，Qwen3.6 加一句“不要宣传”的系统提示后，原本能答的受限话题就变了。但帖子没交代测试次数、模型版本和评估标准，这点先别太激动。核心矛盾是：无审查模型在正经场景（比如 RAG 外挂资料库）到底有没有用？正文没披露具体错误类型和频率，信息缺口明显。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

02:47

65d ago

r/LocalLLaMA· rssEN02:47 · 05·24

Reddit 上有人搭了个三模型智能体：DeepSeek 当大脑，本地 Qwen 干活，Gemma 跑杂活

一位用户在 LibreChat 里搭了一套三模型智能体架构：用 OpenRouter 上的 DeepSeek v4 pro 当主规划器，本地跑 Qwen 35B（约 160 token/秒）当执行工人，再用一台迷你 PC 跑 Gemma E2B 处理琐碎任务。他问社区有没有更小的角色专用模型或更好的编排模式。正文没披露具体延迟、成本或任务复杂度，但 1...

#Agent#Tools#Inference-opt#DeepSeek

一句话点评

一位用户在LibreChat里搭了三模型智能体：OpenRouter上的DeepSeek v4 pro当主规划，本地Qwen 35B（约160 token/秒）当执行工人，迷你PC跑Gemma E2B处理琐碎任务。这套分工挺实在，但正文没披露具体延迟和成本，也没说任务多复杂。社区在找更小的角色专用模型或更好的编排模式，说明当前方案还有优化空间。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H0·K1·R1

01:16

65d ago

r/LocalLLaMA· rssEN01:16 · 05·24

Qwen3.6-27B 在 MacBook M5 Max 上跑 MTP，速度从 19 涨到 22.3 tps

有人在 MacBook M5 Max（128GB 内存）上用 llama.cpp 测了 Qwen3.6-27B 的 MTP（多 token 预测）功能，吞吐从 19 tokens/秒提到 22.3 tokens/秒，提升约 17%。这个涨幅不算大，但好处是不用改模型结构、不额外耗显存。不过正文没披露具体采样参数和 batch 大小，所以这个速度能不能复...

#Inference-opt#Benchmarking#Qwen#Unsloth

一句话点评

MacBook M5 Max 上测 Qwen3.6-27B 的 MTP（多 token 预测，一次猜多个词），吞吐从 19 tokens/秒提到 22.3，涨了 17%。好处是不改模型结构、不额外吃显存。但正文没披露采样参数和 batch 大小，这个速度能不能复现要打个问号。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

61

SCORE

H0·K1·R1

00:19

65d ago

r/LocalLLaMA· rssEN00:19 · 05·24

llampart 1.0.0：给 llama-server 套了个本地桌面级 Web 界面

开发者发布了 llampart 1.0.0，一个专门给 llama-server 用的独立本地 Web UI。界面支持 6 种语言（英、波、德、法、意、西），有双栏对话侧边栏（可以固定、选择性删除、一键清空但保留固定对话），还集成了 MCP 工具流（让模型调用外部工具干活）。设置面板分了外观、模型、MCP、工具、数据、高级几个区，支持暗色、亮色和毛玻璃...

#Tools#Reasoning#llama.cpp#Svelte

一句话点评

llampart 1.0.0 是一个专为 llama-server 做的本地 Web 界面，相当于给 llama.cpp 配了个好看好用的桌面级聊天 UI。支持 6 种语言、双栏对话侧边栏（可固定、选择性删除、一键清空保留固定对话）、MCP 工具流（让模型调用外部工具干活），还有毛玻璃主题和壁纸自定义。MIT 协议，完全免费。亮点是界面细节做得比较到位，比如导出默认不带走敏感设置、有 Rea...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

00:13

65d ago

FEATUREDr/LocalLLaMA· rssEN00:13 · 05·24

KV 缓存量化对模型伤害不大，权重量化才是大头：Qwen3.6 27B 的一次小测试

Reddit 用户 hopbel 拿 Qwen3.6 27B 在 wikitext-2 上跑了一组 16k 上下文的近似 KLD 测试，想看看 KV 缓存量化和模型权重量化哪个更影响输出质量。他用 Q5_K_M 权重当基准，对比了两组配置：一组是 Q5_K_S 权重配 q4_0 的 KV 缓存，KLD 分数 0.016304；另一组是 Q4_K_XL ...

#Inference-opt#Benchmarking#Qwen#llama.cpp

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

KV 缓存量化对输出质量的影响远小于模型权重量化，Qwen3.6 27B 测试里权重降一档的损失是 KV 缓存降一档的 1.6 倍。

锐评

这条测试直接回答了一个本地部署党常纠结的问题：显存不够时，先砍 KV 缓存精度还是先砍模型权重精度。hopbel 用 Qwen3.6 27B 在 wikitext-2 上跑 16k 上下文，拿 Q5_K_M 权重当基准，用近似 KLD 分数衡量输出分布偏移。结果很直观：权重从 Q5_K_M 降到 Q4_K_XL（KV 缓存保持 f16），KLD 涨到 0.026；而权重只降到 Q5_K_S 但 KV 缓存压到 q4_0，KLD 才 0.016。也就是说，权重降一档带来的输出变化，比 KV 缓存从 f16 压到 4-bit 还大六成。不过得打几个折。第一，测试只用了 wikitext-2 这一个数据集，测的是语言建模困惑度层面的分布偏移，不代表长文本推理、多轮对话或代码生成场景下的实际体验。第二，KLD 是近似值，正文没披露具体近似方法，分数本身只能看相对大小，不能当绝对质量指标。第三，只测了 Qwen3.6 27B 一个模型，其他架构或更小模型上结论能不能复现还不清楚。如果手头显存紧张，这条测试给的方向是：优先保模型权重的精度，KV 缓存量化到 4-bit 甚至更低，损失可能比你想象的小。但前提是你的使用场景和测试条件接近——短上下文、语言建模类任务。长上下文或多轮对话下 KV 缓存精度的影响，这条测试没覆盖到。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

00:00

65d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 05·24

你编程十年，但在 AI 面前还是个新手

Flask 作者 Armin Ronacher 用 Pi 开发 Pi 时发现，项目 issue 里 83% 被自动关闭，因为大量 AI 生成的报告虽然行文专业、推理自洽，但结论是错的。问题不在 AI 代码质量差，而在于很多老手还在用过去的直觉判断 AI 输出——人类的错误有迹可循，AI 却会在一个错误假设上推导出一整套看似滴水不漏的方案，老手的经验识别...

#Code#Agent#Armin Ronacher#Commentary

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

Flask作者用AI开发Pi，发现83%的issue是AI生成的“专业废话”，结论全错。老手最容易被这种自洽的胡说骗到。

锐评

Armin Ronacher拿自己的项目Pi做实验，结果issue tracker里83%的报告被自动关闭，PR合入率不到10%。这些AI生成的报告行文专业、推理自洽，但核心结论是错的。问题不出在代码质量，而出在很多人，尤其是经验丰富的老手，还在用过去的直觉判断AI输出。人类的错误有迹可循，AI却会从一个错误假设出发，推导出一整套滴水不漏的方案，老手那套识别人类错误的直觉在这里完全失灵。 Ronacher给出的解法不是更仔细地复核AI输出，而是从源头约束。他写了一个叫`/is`的命令，核心就一句话：别信issue里的分析，从代码和执行路径独立验证。这要求使用者先有自己的判断地图，再拿AI的结论去对照关键点，而不是顺着AI的思路走。文章里那组极端数据说明，行业对“会用AI”的标准还没共识，大多数人以为自己会了，其实还差着一层：知道AI什么时候在假装理解，知道在什么点上介入能扭转方向。这篇文章的价值在于它来自一线维护者的真实数据，不是空谈。但正文没披露Pi自动关闭issue的具体判断逻辑，也没给出那83%里有多少是纯AI生成、多少是人类和AI混合提交的。这些缺口让“AI污染开源社区”的结论需要打个折，可能有一部分是低质量人类贡献被误判。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

00:00

65d ago

Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·24

美国地方政府开始对数据中心说不：从税收优惠到暂停令，AI 的物理扩张撞上电网和民意墙

美国地方政府对数据中心的态度正在从“抢着给优惠”转向“先算清楚账”。文章梳理了从缅因到西雅图超过30个州提出的300多项限制法案，核心矛盾是：数据中心建得快（18-24个月），但电网扩容慢（7-15年），导致电网升级成本（仅PJM区域就达436亿美元，95%分摊给普通用户）和电费上涨转嫁给了居民。弗吉尼亚州2025财年因数据中心税收豁免损失16亿美元，...

#Policy#Commentary

一句话点评

美国超30州提出300多项限制数据中心法案，核心矛盾是电网扩容慢（7-15年）远落后于数据中心建设（18-24个月），仅PJM区域电网升级成本436亿美元，95%摊给居民。弗吉尼亚2025财年因税收豁免损失16亿美元。正文没披露这些限制对具体AI项目的影响，但选址灵活性和成本都在恶化。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

58

SCORE

H1·K0·R1

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户