全部 · 2026-05-16

▸ 50 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-16 · 星期六2026年5月16日

23:57

72d ago

FEATUREDr/LocalLLaMA· rssEN23:57 · 05·16

同批模型在 Strix Halo、RTX 3090 和 RTX 5070 上的实测对比

一位用户自己跑了 55 组本地推理测试，覆盖 Strix Halo、RTX 3090 和 RTX 5070 三块卡、五种推理后端，模型从 0.35B 小不点到 35B-A3B 混合专家都有。结论很直接：能塞进 12GB 显存的模型，RTX 5070 比 RTX 3090 快；但到了 14B 到 31B 这个区间，模型超过 12GB 又刚好能装进 24G...

#Inference-opt#Benchmarking#Reasoning#C_Coffie

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

自己跑的数据最踏实。结论很直给：12GB 以内 5070 更快，14-31B 区间 3090 的 24GB 显存优势明显，Strix Halo 在特定后端下能打但兼容性还欠火候。

锐评

这位老哥干了件实在事：把 Strix Halo、RTX 3090 和 RTX 5070 拉到一起，用五种推理后端跑了 55 组测试，模型从 0.35B 小不点到 35B-A3B 混合专家都有。结论很清晰——能塞进 12GB 显存的模型，5070 比 3090 快，新卡架构在中小模型上有优势。但一到 14B 到 31B 这个区间，模型超过 12GB 又刚好能装进 24GB，3090 的大显存就翻身了。Strix Halo 的表现要看后端，某些组合下能跟独显掰手腕，但兼容性还不是开箱即用。不过这篇帖子正文被 Reddit 的安全策略挡了，具体数字、延迟分布、功耗对比都没拿到。55 组测试的原始数据表和所用后端版本也没披露，没法验证他说的“快”是快多少、在什么 batch size 下测的。另外 Strix Halo 的内存带宽上限摆在那，跑大模型时会不会撞墙，这点先别太激动。如果你手里已经有 3090，单纯为了跑 14B 以上模型换 5070 可能不划算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

23:39

72d ago

r/LocalLLaMA· rssEN23:39 · 05·16

有人试过 MTP 预发布分支吗？速度能快 20%

一位用户在双路 Xeon 8268 CPU 加 Tesla T4 的机器上测试了 llama.cpp 的 MTP 预发布分支，输出速度约 38 tokens/s，比正式版的 30 tokens/s 快了约 20%。正式版还在轻量编码时崩溃过，预发布版反而没出问题。不过这只是单用户单配置的体验，正文没披露 MTP 分支的具体改动或稳定性测试，这点先别太激动。

#Inference-opt#Vision#Code#Reddit

一句话点评

一位用户在双路Xeon 8268加Tesla T4上测试llama.cpp的MTP预发布分支，输出速度约38 tokens/s，比正式版30 tokens/s快约20%。正式版轻量编码时崩溃，预发布版反而没出问题。不过这只是单用户单配置体验，正文没披露MTP分支的具体改动或稳定性测试，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

56

SCORE

H1·K1·R1

23:04

72d ago

AI HOT 精选· aihot-apiZH23:04 · 05·16

Figure人形机器人连续自主运行四天，仓库里干到第四天没停

Figure的F.03机器人在真实仓库里24小时不间断干活，抓取、搬运、分拣，已经连续跑了四天。测试目的是看它能撑多久、出什么故障、怎么恢复。之前人形机器人大多是演示单次动作，这次是测持续工作能力，离实用更近一步。正文没披露具体故障次数和维护间隔，所以这点先别太激动，但能连续跑四天本身是个信号。

#Robotics#Agent#Figure#Benchmark

一句话点评

Figure的F.03机器人在真实仓库里连续自主运行四天，抓取、搬运、分拣，测的是持续工作能力而非单次演示。正文没披露故障次数和维护间隔，这点先别太激动，但能跑四天本身是个信号——人形机器人从‘能动’往‘能干’迈了一步。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

22:23

72d ago

Hacker News 首页· rssEN22:23 · 05·16

Zerostack：一个纯 Rust 写的 Unix 风格编程代理

Zerostack 在 crates.io 上发布了 1.0.0 版本，自称是受 Unix 启发的编程代理，用纯 Rust 实现。正文没披露它的架构、工具接口或跑分结果，所以目前只能知道它是个新工具，具体能力还不清楚。

#Agent#Code#Tools#Zerostack

一句话点评

一个纯 Rust 写的编程代理，号称受 Unix 启发，但正文没披露架构、工具接口或跑分。目前只有 crates.io 上的包，0 条评论，15 个点赞，社区还没验证。如果是真的，纯 Rust 意味着低资源占用和强隔离，但没跑分前先打个折。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

22:19

72d ago

r/LocalLLaMA· rssEN22:19 · 05·16

Qwen 3.6 35B 在双 3090 上跑 MTP 后速度掉到 80 t/g，有人试出更好的方案吗？

Reddit 用户分享在双 RTX 3090 上跑 Qwen 3.6 35B 的实测：分两层部署时 prompt 处理速度 1500 token/秒，生成速度 120 token/秒；但 llama.cpp 合并 MTP（多 token 预测，让模型一次猜多个 token 来加速推理）后，生成速度降到 80 token/秒。该用户目前改用 CPU 溢出...

#Inference-opt#Qwen#llama.cpp#NVIDIA

一句话点评

双3090跑Qwen 3.6 35B，MTP合并后生成速度从120掉到80 token/秒，反而变慢了。用户改用CPU溢出方案，prompt处理冲到3500 token/秒，但生成还是80。MTP理论上能加速，实测却降速，说明当前实现或配置还有坑。正文没披露具体MTP参数和模型量化精度，这两点对结果影响很大。社区还在等优化，别急着上MTP。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

52

SCORE

H1·K1·R1

21:54

72d ago

r/LocalLLaMA· rssEN21:54 · 05·16

Qwen3.5-122B 量化版实测：Q5 跑出 20 tok/s，比 Q6 快 18%

Reddit 用户用 llama.cpp 的 MTP 模式跑了两个 Qwen3.5-122B 的量化版。Q5 版本在 4200 个评估 token 上达到 20.24 tok/s，Q6 版本在 3283 个 token 上跑到 17.17 tok/s。Q5 比 Q6 快了约 18%，但精度损失多少正文没披露。MTP 是让模型在生成时提前预测多个 tok...

#Inference-opt#Benchmarking#Qwen#Unsloth

一句话点评

Qwen3.5-122B 量化版在 llama.cpp 的 MTP 模式下跑出 20 tok/s，比 Q6 快 18%，但精度损失没披露。MTP 就是让模型生成时提前猜多个 token，类似投机解码。测试 token 数只有几千，参考价值有限。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H0·K1·R1

21:43

72d ago

FEATUREDAI HOT 精选· aihot-apiZH21:43 · 05·16

MagicPath 直接嵌进 Codex 当画布用，拖拽 UI 就能实时出代码

MagicPath 的 CEO 演示了把自家工具直接跑在 Codex 里，不再需要 Figma 和 IDE 两头切。用户在 Codex 里贴一条命令就能装好，然后像拖积木一样摆界面，Codex 会实时感知项目结构并自动生成、修改代码。演示里没提复杂交互和状态管理能覆盖到什么程度，但至少常规 UI 搭建看起来省掉了一轮导出导入的折腾。

#Agent#Code#Tools#MagicPath AI

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

MagicPath 直接跑进 Codex 里了，拖拽 UI 就能实时改代码，不用 Figma 和 IDE 两头切。但演示没提复杂交互和状态管理能覆盖多少，先当原型加速器看。

锐评

这条更新把界面设计和代码生成塞进了同一个窗口。MagicPath 的 CEO 演示了在 Codex 里贴一条命令就能装好，然后像搭积木一样拖拽 UI 组件，Codex 会实时感知项目结构并自动生成、修改代码。以前设计师在 Figma 画完，开发再手动导出导入，现在这步省了。但正文没披露复杂交互逻辑和状态管理能覆盖到什么程度。演示里只展示了常规 UI 搭建，如果遇到表单校验、多步骤流程、数据绑定这些，这套拖拽加自动生成能不能扛住还不清楚。另外也没提生成代码的质量和可维护性，会不会为了快速出界面而牺牲代码结构。如果是真的能稳定跑通常规页面，对快速原型和简单工具类产品挺省钱。但生产环境能不能用，还得看后续有没有更复杂的案例放出来。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

21:34

72d ago

r/LocalLLaMA· rssEN21:34 · 05·16

有人在 Mac mini 上跑通了 δ-mem 长记忆方案，LoCoMo 评分从 0.05 涨到 0.18

一位 Reddit 用户把 δ-mem（一种给大模型加长期记忆的新方法）移植到了 MLX 框架上，在 64GB 内存的 Mac mini 上跑 Qwen3-4B-Instruct。搭配 OpenClaw 历史记录后，LoCoMo-10 mini 长程记忆评分从 0.05 提升到 0.18（满分未知，但涨幅接近 3.7 倍），OpenClaw 回放测试的...

#Memory#Agent#Benchmarking#Apple

一句话点评

有人在64GB Mac mini上把δ-mem（一种给大模型加长期记忆的新方法）移植到了MLX框架，跑Qwen3-4B。长程记忆评分从0.05涨到0.18，涨了近3.7倍，延迟只多了30%。但注意：这是4B小模型，评分满分未知，且正文被屏蔽，没披露测试集规模和复现细节。如果是真的，低成本本地记忆方案挺省钱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

20:40

72d ago

FEATUREDAI HOT 精选· aihot-apiZH20:40 · 05·16

工具调用代理的认知与行动脱节机制研究

这篇可解释性论文专门研究了让模型调用工具的代理，发现一个挺要命的问题：模型经常心里知道该调工具了，但手上就是没动作。这种“知道却做不到”的比例在 26% 到 54% 之间，而且毛病全出在从认知到行动的过渡阶段，不是模型没看懂。内部探测显示，模型在后期层处理最后一个 token 时，会把信号转歪，转出来的方向几乎和要执行的动作正交，导致行动失败。研究想通...

#Agent#Tools#Interpretability#Research release

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

模型心里知道该调工具，手上却没动作，这种“知道却做不到”的比例高达26%-54%，问题出在后期层把信号转歪了。

锐评

这篇论文挖出了一个挺具体的 bug：模型调用工具时，认知和行动会脱节。不是模型没看懂该不该调，而是看懂之后，在最后几层处理时把信号方向转偏了，偏到几乎和要执行的动作正交，结果就是不动手。不匹配率在 26% 到 54% 之间，这个范围说明不同场景下严重程度不一样，但整体都不低。研究用的是探测隐藏状态的方法，定位到问题完全卡在“认知到行动”的过渡阶段。这比泛泛说“提示没写好”或“训练不够”要精确得多，直接指向了模型后期层的几何结构。对做 agent 的人来说，这意味着单纯改 prompt 或加训练数据可能治标不治本，性能上限被这个内部信号旋转卡住了。不过正文没披露实验用的是哪些具体模型和工具调用场景，也没说这个比例是在什么任务上测出来的。如果是在简单任务上就有 26% 的失败率，那放到复杂业务流程里只会更糟。另外，研究说想预测干预效果，但没给出实际干预后的改善数字，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

20:17

72d ago

FEATUREDTechCrunch AI· rssEN20:17 · 05·16

AI 淘金热的“有产者”和“无产者”

Menlo Ventures 的合伙人 Deedy Das 算了笔账，说现在 OpenAI、Anthropic、英伟达这类公司的创始人和员工里，大概有 1 万人已经靠股权攒下了超过 2000 万美元的退休级财富。与此同时，其他软件工程师正面临裁员，年薪天花板卡在 50 万美元以下，还焦虑自己练了一辈子的编程手艺在市场上越来越不值钱。有人吐槽，这轮热潮里...

#Deedy Das#OpenAI#Anthropic#Commentary

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

Menlo Ventures 合伙人算了笔账：AI 圈大概有 1 万人靠股权攒下超 2000 万美元退休金，而其他程序员正面临裁员和年薪天花板。

锐评

这条信息来自 Menlo Ventures 合伙人 Deedy Das 在社交媒体上的个人估算，不是正式研究报告，所以数字本身要先打个折。他说用“信封背面算出来的”方法推算出 OpenAI、Anthropic、英伟达这类公司里大概有 1 万人已经靠股权攒下超过 2000 万美元的退休级财富。这个数字说明什么？说明这轮 AI 热潮的财富分配极度集中，头部公司的早期员工和创始人拿走了绝大部分红利。与此同时，Das 观察到其他软件工程师正面临两重压力：一是裁员在全面进行，二是年薪天花板卡在 50 万美元以下，而且很多人焦虑自己练了一辈子的编程手艺在市场上越来越不值钱。这种“有人暴富、有人失业”的撕裂感，他说在旧金山已经到了最严重的程度。不过正文没披露这个 1 万人的估算具体用了什么假设，也没说股权流动性如何——纸面财富和能兑现的钱是两回事。另外，文章只呈现了 Das 一方的观察，没有引用被裁工程师或普通从业者的直接说法，情绪判断多于数据支撑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

19:58

72d ago

AI HOT 精选· aihot-apiZH19:58 · 05·16

彭博：美国AI相关岗位开始出现大规模裁员

彭博报道称，美国那些容易被AI替代的岗位已经开始出现大规模裁员。但正文没披露具体裁员人数、受影响行业以及衡量标准，所以这个结论的力度有多大还不好判断。

#Bloomberg#Commentary

一句话点评

彭博报道美国AI相关岗位开始大规模裁员，但正文没披露具体裁员人数、受影响行业以及衡量标准，所以这个结论的力度有多大还不好判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

70

SCORE

H1·K0·R1

19:51

72d ago

r/LocalLLaMA· rssEN19:51 · 05·16

本地跑 Qwen 3.6 写 HTML 动画，效果接近顶级模型，速度 2.7 token/秒

有人在 Reddit 上拿同一个“单文件 HTML Canvas 驾驶动画”的 prompt 测了 11 个模型，本地跑的 Qwen3.6-27B Q4_K_M 主观排名第二，仅次于 Kimi k2.6 Thinking，还超过了 Claude-opus-reasoning-distilled 的 27B 量化版。代价是速度只有 2.70 tok/s，...

#Code#Benchmarking#Qwen#Claude

一句话点评

本地跑 Qwen3.6-27B 量化版，写一个 HTML Canvas 驾驶动画，主观效果排第二，只输给 Kimi k2.6 Thinking，还压过了 Claude 蒸馏版。代价是速度只有 2.7 tok/s，几乎没法交互。测试只有一条 prompt，样本太少，排名参考价值有限。正文被 Reddit 屏蔽，没披露具体评分标准和硬件配置，量化对效果的影响也不清楚。如果是真的，说明小模型在特定...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

19:43

72d ago

AI HOT 精选· aihot-apiZH19:43 · 05·16

Codex 现在能自定义键盘快捷键了

Codex 更新了键盘快捷键自定义功能，你可以在设置里按自己的习惯改键位，不用再死记默认组合。正文没提版本号、支持哪些平台、以及什么时候推送给所有用户，所以想用的话得自己去设置里翻一翻。

#Code#Tools#Product update

一句话点评

Codex 终于能自定义快捷键了，不用再死记默认组合。正文没提版本号、支持哪些平台、以及什么时候推送给所有用户，想用的话得自己去设置里翻一翻。短评：改键位这种基础功能现在才加，说明之前团队优先级不在这。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

58

SCORE

H0·K1·R0

19:04

73d ago

FEATUREDDwarkesh Patel 播客· rssEN19:04 · 05·16

别把“聪明”和“权力”混为一谈

Dwarkesh Patel 在这篇博客里聊了一个挺常见的误解：我们总把 AI 的智力等同于它能掌握的权力。他上来就举了个例子，如果按“在多种领域达成目标的能力”来定义智力，那斯大林可能是史上最聪明的人，但这显然不是我们讨论超级 AI 时脑子里想的那个东西。文章的核心观点是，现在 AI 变强的方式，主要是被训练去干好编程这类有经济价值的活儿，这和现实世...

#Reasoning#Alignment#Dwarkesh Patel#Donald Trump

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

Dwarkesh 捅破了一层窗户纸：现在 AI 变强靠的是练编程，不是练权谋，把智力直接等同于权力是搞混了赛道。

锐评

Dwarkesh Patel 这篇博客的核心判断很直接：我们总把 AI 的“智力”和它能掌握的“权力”当成一回事，这其实是个误解。他上来就用斯大林举例——如果按“在多种领域达成目标的能力”来定义智力，那斯大林可能是史上最聪明的人，但这显然不是我们讨论超级 AI 时脑子里想的那个东西。文章指出，现实世界的权力更多来自权威、信任和让大规模人群协作的能力，而不是某种孤立的、算无遗策的战略推理。特朗普的权力不是因为他那颗大脑是地球上最强的优化引擎，而是因为数亿人认可的政府给了他巨大的授权。这个区分对 AI 从业者来说很实用。现在模型变强的主要路径，是被训练去干好编程这类有明确经济价值的活儿，这和获取现实权力之间的相关性并不强。文章引用了 Garett Jones 的研究：个人智商和收入只是弱相关，但国家平均智商和国家产出强相关，因为智力有外溢效应——更聪明的社会协作更好、储蓄更多。发明高压蒸汽机的特里维西克穷困而死，但英国有一大批这样的人，才撑起了全球帝国。文章没给出量化证据来证明“AI 走经济赛道就不会自动获得权力”，更多是概念辨析和思想实验。它也没讨论如果 AI 同时掌握经济效率和策略博弈能力会怎样，这个缺口让结论更像一个提醒而非定论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

19:01

73d ago

FEATUREDDwarkesh Patel 播客· rssEN19:01 · 05·16

预训练并行策略与翻车训练笔记

这篇笔记聊了两件事：预训练为什么容易跑崩，以及怎么把训练拆到多张 GPU 上。跑崩的核心原因有两个——破坏因果性和引入偏差。比如 MoE 路由里用专家选择（expert choice）分配 token，会让 token n 的去向依赖 token n+k 的路由结果，训练时看到了推理时看不到的信息；token 丢弃也会让后面的 token 影响前面的处...

#Fine-tuning#Inference-opt#Benchmarking#Dwarkesh

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

预训练跑崩的两大元凶：破坏因果性和引入偏差。MoE 路由用专家选择会让训练看到推理时看不到的信息，FP16 累加超过 1024 后误差能到 10 倍。

锐评

这篇笔记把预训练翻车的坑讲得很实在。核心就两类：一是破坏因果性，比如 MoE 里用专家选择分配 token，会让 token n 的去向依赖后面 token n+k 的路由结果，训练时偷看了推理时拿不到的信息，传 Llama 4 表现不佳可能跟这有关；token 丢弃也有类似问题，后面 token 匹配度更高会导致前面 token 被忽略，Gemini 2 Pro 据说踩过这个坑。二是引入偏差，偏差不像方差能平均掉，会越滚越大。GPT-4 早期训练就栽在 FP16 集体通信上——FP16 在 1024 以上精度间隔变大，反复加 1 会被反复舍入回原值，累加结果能差 10 倍，这种 bug 极难排查。文章还抛出一个有意思的问题：训练翻车的原因是不是就那么几种，修完就一劳永逸？聊的人觉得不是，规模每上一个台阶都会有新坑冒出来，光数值精度这一块就能花式翻车。另外他对 AI 自动写 CUDA kernel 短期不乐观，认为这更接近 AGI 完全体问题。缺的东西也明显：全是经验之谈和传闻，没有实验数据或复现验证，Llama 4 和 Gemini 2 Pro 的案例都标注是 rumor 和 apparently。当成工程避坑清单看有用，但别当正式结论引用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

19:00

73d ago

FEATUREDDwarkesh Patel 播客· rssEN19:00 · 05·16

RLVR 做科学发现可能格外不灵光

Dwarkesh 拿科学史上的长验证周期来质疑 RLVR 在科学发现上的适用性。文章指出，理论的验证闭环动辄几十年甚至上百年，而且当时看起来更优的理论，预测精度反而可能更差。比如哥白尼 1543 年的日心说模型，因为坚持正圆轨道，实际预测效果不如托勒密打磨了上千年的地心本轮体系，甚至更复杂；要等到 1838 年恒星视差被观测到，才算在观测上彻底驳倒第谷...

#Reasoning#Alignment#Dwarkesh#Michael Nielsen

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

科学理论的验证周期动辄几十年上百年，用 RLVR 这种靠即时反馈优化的方法去搞科学发现，大概率水土不服。

锐评

Dwarkesh 这篇的核心判断很直接：别指望靠强化学习加可验证奖励（RLVR）就能让 AI 在科学上大杀四方。他拿科学史举例，理论的验证闭环长得离谱，哥白尼 1543 年提出日心说，要等到 1838 年恒星视差被观测到才算在观测上彻底驳倒对手，中间隔了近 300 年。而且当时哥白尼的模型预测精度还不如托勒密打磨了上千年的地心体系，甚至更复杂，因为哥白尼坚持正圆轨道，不得不塞进更多本轮。文章还提到水星进动的例子，牛顿力学解释不了水星轨道每世纪多转出的 43 角秒，当时的天文学家推测有颗叫“祝融星”的未知行星，结果要等到 1915 年爱因斯坦的广义相对论才给出答案。这说明科学进步里掺杂了大量我们还没法清晰描述的判断和启发式方法，很难塞进一个即时打分的 RL 循环里。文章没给出任何量化实验或 AI 模型测试数据，纯粹是历史案例的类比论证。它缺的是：如果非要用 RLVR 做科学，具体会在哪个环节卡死？是奖励函数没法定义，还是探索空间太大？这些都没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

19:00

73d ago

FEATUREDAI HOT 精选· aihot-apiZH19:00 · 05·16

RLVR 在科学领域可能格外不灵光

Dwarkesh Patel 聊了一个很要命的问题：用 RLVR（靠可验证奖励信号做强化学习）去搞科学发现，可能比我们想的难得多。文章没给实验数据，纯靠科学史案例来推演。核心矛盾是，科学理论的验证周期动不动就是几十年甚至上百年，而且当时看起来更准的模型，未必是更对的理论。比如哥白尼的日心说刚出来时，预测精度还不如托勒密打磨了上千年的地心说，连模型本身都...

#Reasoning#Alignment#Dwarkesh#Commentary

精选理由

精选 · 重要度 81 · 吸引力 + 知识量 + 共鸣

一句话点评

科学不是刷题，RLVR 在科学发现上可能吃大亏，因为验证周期动不动几十年起步，模型当时跑分高不代表理论对。

锐评

Dwarkesh 这篇文章没给实验数据，纯靠科学史推演，但推得挺狠。RLVR 靠可验证奖励信号驱动，代码有测试用例，数学有证明器，科学理论却没有这种即时反馈。哥白尼 1543 年的日心说刚出来时，预测精度还不如托勒密打磨了上千年的地心说，开普勒定律到 1619 年才补上，牛顿统一到 1686 年，恒星视差更是 1838 年才测到。这不是任何一个现有 RLVR 训练循环能消化的延迟。我会先打个折：文章讨论的是科学理论发现这个极端场景，跟 RLVR 在代码、数学推理上的表现是两码事。但它的提醒是成立的——RLVR 拿的是短期反馈的工资，科学经常在一个世纪后才结账，中间还得忍受一堆错误预测。海王星 1846 年被算出来是成功案例，水星多余的 43 角秒却让人追着祝融星跑了几十年，直到 1915 年爱因斯坦才收尾。正文没披露任何实验对比或基准数字，所以这更像一篇思想实验，别当结论用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

81

SCORE

H1·K1·R1

18:58

73d ago

r/LocalLLaMA· rssEN18:58 · 05·16

一年后我换掉了IDE里的AI补全，改用命令行编码代理

Reddit用户/ievkz分享过去一年的编程习惯变化：不再用IDE里的AI自动补全，转而使用一个支持@引用文件的命令行编码代理。IDE现在只用来做Git对比、调试和导航，这部分工作估计只占他全部工作的5-10%。正文没披露他用的是哪个具体工具或模型，但核心判断是：补全式的AI辅助效率低，不如让代理在终端里直接操作文件。

#Agent#Code#Tools#JetBrains

一句话点评

一位Reddit用户说过去一年编程习惯变了：不再用IDE里的AI自动补全，改用命令行编码代理（@引用文件），IDE只用来做Git对比、调试和导航，这部分只占他工作的5-10%。正文没披露他用的是哪个工具或模型。核心判断是：补全式AI效率低，不如让代理在终端直接操作文件。这点先别太激动——这只是个人经验，样本量1，且没提具体工具和效果对比。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

18:56

73d ago

FEATUREDAI HOT 精选· aihot-apiZH18:56 · 05·16

Eric Jang 从零复现 AlphaGo：2026 年训练强围棋 AI 只要几千美元算力

Eric Jang 花了几个月从零实现 AlphaGo，并把过程写成教程和代码放了出来。他原本的理解是“用自我对弈训练的搜索增强神经网络”，但亲手做一遍后对细节有了更深体会。他给出一条关键判断：前沿研究仍然很贵，但特定能力的落地成本掉得很快——到 2026 年，训练一个能打的围棋 AI 租算力只要几千美元，不再需要 DeepMind 级别的资源。他自称...

#Reasoning#Code#Eric Jang#AlphaGo

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

亲手复现 AlphaGo 后，Eric Jang 说 2026 年训练一个能打的围棋 AI 租算力只要几千美元，不再是 DeepMind 级资源。

锐评

这条分享的价值不在技术新，而在成本信号。Eric Jang 花几个月从零复现 AlphaGo，结论很直接：前沿研究依然烧钱，但把一项确定能力落地，价格已经跌到个人或小团队能承受的范围。他给出的数字是 2026 年租算力几千美元就能训出能打的围棋 AI，对比 2016 年 DeepMind 动辄百万美元级的投入，降幅超过两个数量级。不过要打个折。正文没披露他用的具体硬件配置、训练时长和最终棋力对标的是哪个版本，也没说几千美元是只算训练还是含调试迭代。这些缺口让“几千美元”更像一个量级示意，不能直接当预算表用。另外，他自称围棋和 AlphaGo 学徒，代码和教程已公开，想验证的人可以自己跑一遍。对从业者的实际意义是：别再默认复现经典系统需要大厂资源。如果连 AlphaGo 这种曾被视为算力怪兽的项目都能压到这个成本，很多“太贵所以不做”的内部论证该重新算了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

18:31

73d ago

AI HOT 精选· aihot-apiZH18:31 · 05·16

Codex 现在支持自定义快捷键了

OpenAI Devs 说 Codex 现在可以在设置里自定义键盘快捷键，让你按自己的习惯来，不用硬记默认键位。正文没提支持哪些平台、什么时候上线、或者需要什么版本，所以想用的话得自己去设置里翻一翻。

#Code#Tools#OpenAI#Product update

一句话点评

Codex 现在能自定义快捷键了，不用硬记默认键位，按自己习惯来就行。不过正文没披露支持哪些平台、什么时候上线、需要什么版本，想用的话得自己去设置里翻一翻。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

63

SCORE

H0·K1·R1

18:12

73d ago

r/LocalLLaMA· rssEN18:12 · 05·16

OpenReader：开源文档朗读器，支持 EPUB/PDF 导出有声书

OpenReader v3.0.0 是一个开源的文档朗读服务器，支持 EPUB、PDF、DOCX、TXT 和 Markdown 格式。它可以用 OpenAI、Replicate、Deepinfra 或自托管的 OpenAI 兼容 API 来生成语音，还能通过 ffmpeg 导出带章节元数据的 m4b/mp3 有声书。简单说就是：你丢进去一本书或一篇文档...

#Audio#Tools#OpenReader#OpenAI

一句话点评

OpenReader v3.0.0 是一个开源文档朗读服务器，支持 EPUB、PDF、DOCX、TXT 和 Markdown 格式。它可以用 OpenAI、Replicate、Deepinfra 或自托管的 OpenAI 兼容 API 来生成语音，还能通过 ffmpeg 导出带章节元数据的 m4b/mp3 有声书。简单说就是：你丢进去一本书或一篇文档，它帮你读出来，还能导出成有声书。短评...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

65

SCORE

H1·K1·R0

17:43

73d ago

Product Hunt · AI· rssEN17:43 · 05·16

CtrlOps：用自然语言管 Linux 服务器，部署从 60 分钟缩到 5 分钟

CtrlOps 是一个 AI 终端工具，让你用自然语言给 Linux 服务器下命令，比如部署、调试、监控。它内置脚本库、可视化文件管理、一键从 GitHub 仓库部署，号称原来 60 分钟的部署现在 5 分钟搞定。所有操作在本地执行，凭据不出机器，服务器上不需要装任何代理。目前支持 Mac、Windows、Linux，有免费选项。不过正文没披露定价细节...

#Agent#Code#Tools#CtrlOps

一句话点评

CtrlOps 让你用自然语言给 Linux 服务器下命令，部署、调试、监控一条龙，号称 60 分钟变 5 分钟。所有操作本地执行，凭据不出机器，服务器不用装代理，这点对安全敏感的用户挺友好。但正文没披露定价细节、权限控制粒度、支持哪些发行版，以及 AI 生成命令出错了怎么兜底。短评：省时间但缺安全细节，先别急着上生产。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

48

SCORE

H1·K0·R1

17:19

73d ago

r/LocalLLaMA· rssEN17:19 · 05·16

海盗船出AI工作站：Ryzen 395 + 128GB统一内存，能跑大模型吗？

Reddit 上有人贴了海盗船 AI Workstation 300 的配置单：Ryzen AI Max 395 处理器、128GB LPDDR5X 内存（最多可分 96GB 给显存用）、1TB 固态。统一内存意味着 CPU 和 GPU 共享这 128GB，跑大模型时显存上限比普通消费卡高不少，但正文没披露实际跑模型的速度、能跑多大参数量的模型，也没说...

#Inference-opt#Corsair#AMD#Reddit

一句话点评

海盗船这台工作站用 Ryzen AI Max 395 和 128GB 统一内存，最多能分 96GB 给显存，跑大模型显存上限比普通消费卡高不少。但正文没披露实际跑模型的速度、能跑多大参数量的模型，也没说价格。统一内存带宽有限，跑推理可能比不过独立显卡，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

46

SCORE

H1·K1·R1

17:02

73d ago

r/LocalLLaMA· rssEN17:02 · 05·16

iOS 上跑本地大模型，哪个 App 能稳定调用自家后端？

Reddit 用户想找个 iOS App，能连自己电脑上的本地推理后端（兼容 OpenAI 接口）。他试了四个：Apollo、Locally AI、Noema、3 Sparks。3 Sparks 能用，但缺 MCP 和联网搜索；Noema 连 Mac Studio 跑 DeepSeek V4 Flash 直接卡死。正文没披露具体报错或硬件配置，所以问题...

#Agent#Tools#Inference-opt#3 Sparks

一句话点评

Reddit 用户想找个 iOS App 连本地推理后端，试了四个：Apollo、Locally AI、Noema、3 Sparks。3 Sparks 能用但缺 MCP 和联网搜索；Noema 连 Mac Studio 跑 DeepSeek V4 Flash 直接卡死。正文没披露具体报错或硬件配置，所以问题可能出在兼容性或资源占用上。目前没有完美方案，选型得看你对 MCP 和搜索的需求是否迫切。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

46

SCORE

H0·K1·R1

17:00

73d ago

FEATUREDAI HOT 精选· aihot-apiZH17:00 · 05·16

开源模型井喷：Gemma 4、DeepSeek V4、Kimi K2.6 等集体发布，CAISI 评估称开源落后闭源

这个月开源模型扎堆更新，DeepSeek V4、Gemma 4、Kimi K2.6、MiMo 2.5、GLM-5.1 全来了。CAISI（美国 AI 标准与创新中心）用 9 个基准测了 DeepSeek V4，给出的结论是开源模型跟美国闭源前沿差距在拉大，尤其在 CTF 安全挑战、ARC-AGI-2 和他们的私密基准 PortBench 上 V4 得分...

#Benchmarking#Gemma#DeepSeek#Kimi

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

CAISI 说 DeepSeek V4 跟美国闭源差距在拉大，但它的 Elo 分被 CTF、PortBench 和 ARC-AGI-2 的极端低分拉低了，这点先别太激动。

锐评

这个月开源模型扎堆发版，但最值得聊的不是模型本身，而是 CAISI 对 DeepSeek V4 的评估方式。CAISI 用 9 个基准算出 Elo 分，结论是开源跟美国闭源前沿差距在拉大。但仔细看，V4 的 Elo 被三个基准拖了后腿：CTF-Archive-Diamond 安全挑战、CAISI 自己的私密基准 PortBench，以及 ARC-AGI-2。其中 CTF 只跑了部分题目然后用统计方法外推，ARC-AGI-2 的评分方式也跟公开榜单不一样。这几个基准的权重把整体分差放大了。作为对比，Epoch AI 的 ECI 指数同样用统计方法跨基准比较，显示差距大概在 3 到 7 个月，没有 CAISI 画的那么夸张。文章作者也承认两边都不完整——这些评估都用的是标准化、简化的测试环境，比如编程题只给一个 for 循环和固定 token 预算，而不是模型实际训练时用的 Claude Code 或 OpenCode 这类工具链。这就好比用自动挡考试的成绩去判断一个赛车手的水平。正文没披露 V4 在各项基准上的原始得分，也没说 PortBench 具体测什么。要判断差距到底多大，还得看用模型原生工具链跑出来的结果。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

16:41

73d ago

r/LocalLLaMA· rssEN16:41 · 05·16

Strix Halo 跑 Llama.cpp：27B 模型靠 MTP 提速 22%，35B 反而变慢

有人在 Strix Halo 上测了 Llama.cpp 的 MTP（多 token 预测，即一次预测多个 token 来加速推理）。Qwen3.6-27B-MTP 在 5 轮对话、约 28.5k 上下文下，总耗时从 258.65 秒降到 200.55 秒，快了约 22%。但同设置下 Qwen3.6-35B-MTP 反而从 58.86 秒涨到 60.2...

#Inference-opt#Benchmarking#Qwen#Unsloth

一句话点评

AMD Strix Halo 上测了 Llama.cpp 的多 token 预测（MTP，一次预测多个 token 加速推理）。Qwen3.6-27B 快了约 22%，但 35B 反而慢了。好消息是 27B 在本地跑长对话能省点时间，坏消息是 35B 不升反降，说明 MTP 对模型大小和硬件很敏感。正文没披露具体硬件配置和功耗，这点先别太激动。如果是真的，对本地部署 27B 模型挺省钱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

67

SCORE

H1·K1·R1

16:38

73d ago

AI HOT 精选· aihot-apiZH16:38 · 05·16

vLLM 宣布支持万亿参数模型，但正文没给细节

vLLM 团队发推说社区协作又成了，vLLM 现在能跑万亿参数模型。但正文只感谢了社区，没提具体模型名字、参数到底多少、怎么实现的、能不能复现。标题很猛，信息缺口也很大。

#Inference-opt#vLLM#Product update#Open source

一句话点评

短评：标题说能跑万亿参数，正文只感谢社区，没提模型名、参数数、实现方式。信息缺口太大，先别激动。标题很猛，但正文只有一句“又一次Day0协作，又一次社区胜利”，连模型名字都没提。万亿参数是稀疏MoE还是稠密？用了多少卡、什么硬件、延迟多少？能不能复现？全没披露。vLLM团队一贯靠谱，但这条更像社区感谢信而非技术公告。建议等具体实现细节出来再评估，目前信息不足以判断这是真突破还是标题党。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

63

SCORE

H1·K0·R1

16:05

73d ago

FEATUREDAI HOT 精选· aihot-apiZH16:05 · 05·16

AntLingAGI 开源万亿级推理模型 Ring-2.6-1T，专为智能体工作流设计，5 月底前在 OpenRouter 打二五折

AntLingAGI 把 Ring-2.6-1T 开源了，同时上线了 OpenRouter 平台。这个模型参数量达到万亿级别，不是单纯回答问题，而是冲着让模型进业务流程干活去的：规划步骤、调用工具、维持长上下文、跑完复杂任务。训练用了 Async RL 和 IcePop 两种方法，正文没展开解释具体怎么做的。5 月底前在 OpenRouter 调用有 ...

#Agent#Reasoning#Tools#AntLingAGI

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

万亿参数模型开源，5月底前调用打二五折。但训练方法 Async RL 和 IcePop 正文没解释，效果先别太激动。

锐评

AntLingAGI 把 Ring-2.6-1T 开源了，这是个万亿参数的大模型，专门冲着让模型进业务流程干活去的：规划步骤、调用工具、维持长上下文、跑完复杂任务。5 月底前在 OpenRouter 上调用打二五折，想试的话成本很低。但正文对训练方法 Async RL 和 IcePop 一笔带过，没展开说具体怎么做的、跟现有方法比好在哪。万亿参数跑 agent 工作流，推理延迟和资源消耗会是个实际问题，正文也没给任何性能数据或对比基准。我会先打个折：开源和折扣是实打实的，但模型到底能不能稳定跑通复杂任务、工具调用准确率多少、长上下文下会不会崩，这些关键信息全缺。等有人跑出实测结果再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

15:37

73d ago

The Verge · AI· rssEN15:37 · 05·16

索尼解释 Xperia 1 XIII 的 AI 相机助手：不修图，只给建议

索尼澄清，Xperia 1 XIII 的 AI 相机助手不会自动修图，而是根据光线、景深和拍摄对象，给出曝光、色彩和背景虚化的四种调节建议。它还会推荐“最上镜的角度”，但演示视频里只是建议用户拉近镜头，跟真正找角度不是一回事。索尼之前发的宣传帖引发争议，现在赶紧出来解释。

#Vision#Sony#The Verge#Product update

一句话点评

索尼Xperia 1 XIII的AI相机助手不是自动修图，而是根据光线、景深给四种曝光/色彩/虚化建议，还会推荐“最上镜角度”——但演示里只是让用户拉近镜头，跟找角度两码事。索尼之前宣传翻车，现在赶紧澄清。实际效果存疑，建议等实测。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

61

SCORE

H1·K1·R0

15:28

73d ago

r/LocalLLaMA· rssEN15:28 · 05·16

用 Apple Watch 录音，iPhone 本地转文字，还接入了 Notion 和 Obsidian

开发者发布了一款叫 Dictawiz 的 iOS 应用，核心卖点是 Apple Watch 录音后直接在 iPhone 上本地转文字，用的是 Parakeet 和 Whisper 模型，不需要联网。还做了一个自定义键盘，可以在任何 App 里语音输入。支持发送到 Notion、Obsidian，甚至通过自定义 webhook 和 Cloudflare ...

#Audio#Tools#Memory#Apple

一句话点评

Dictawiz 让 Apple Watch 录音后直接在 iPhone 本地转文字，用了 Parakeet 和 Whisper 模型，不联网。还做了自定义键盘，能在任何 App 里语音输入，支持发到 Notion、Obsidian 和自定义 webhook。亮点是本地运行，隐私好，但正文没披露延迟、定价、模型大小和准确率。如果是小模型，长录音或嘈杂环境可能翻车。适合快速记想法，但别当主力转...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

15:25

73d ago

FEATUREDAI HOT 精选· aihot-apiZH15:25 · 05·16

SANA-WM：一个 26 亿参数的开源世界模型，一张图加镜头轨迹就能在单卡上生成 1 分钟 720p 视频

英伟达放出了一个叫 SANA-WM 的开源模型，26 亿参数，专门干一件事：你给它一张图，再给一条摄像机移动的路线，它就能直接吐出一段 1 分钟长、720p 清晰度、镜头完全可控的视频。我会先打个折，它目前放出的 demo 主要是固定机位、让场景自己动，但论文里说支持精确的六自由度镜头轨迹控制。技术上它靠四招把成本打下来：第一，用混合线性注意力机制，把...

#Multimodal#Vision#NVIDIA#SANA-WM

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

英伟达开源了一个26亿参数的视频模型，一张图加一条镜头路线就能生成1分钟720p视频，单张显卡就能跑。

锐评

SANA-WM 最直接的价值是把长视频生成的门槛打下来了。26亿参数不算大，训练只用了64张H100跑15天，推理时一张H100就能出1分钟720p视频，甚至有个量化版能在RTX 5090上34秒跑完。对比论文里提到的工业级方案，它的吞吐量高出36倍，这对想自己部署试玩的团队来说很友好。技术上它主要解决了长视频的显存和连贯性问题。核心是用混合线性注意力机制，把逐帧的Gated DeltaNet和周期性的softmax注意力拼在一起，避免了全softmax注意力在60秒视频上直接爆显存。镜头控制走的是双分支路线，一个粗粒度全局位姿分支加一个细粒度像素对齐几何分支，论文说能做到精确的六自由度轨迹跟随。另外还有个170亿参数的第二阶段精修模型专门优化纹理和运动细节。不过要冷静看两点。一是目前放出来的demo主要是固定机位让场景自己动，真正按复杂镜头轨迹走的长视频效果还没公开可验证。二是训练数据只用了约21.3万个公开视频片段，虽然他们自己标了度量级位姿，但这个数据量对世界模型的泛化能力能撑到什么程度，正文没给出系统性的评测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

15:21

73d ago

FEATUREDHacker News 首页· rssEN15:21 · 05·16

特斯拉披露两起 Robotaxi 事故，远程安全员介入时撞了

特斯拉公开了两起 Robotaxi 碰撞事故，都发生在远程安全员接管车辆的时候。目前 TechCrunch 的报道正文没披露具体地点、时间、伤亡情况和车辆当时的决策状态，也没说清楚远程接管是在什么触发条件下启动的。Hacker News 上只有 27 个点赞和 17 条评论，讨论热度一般。我会先打个折：光凭标题和摘要看不出是系统先出错再交给人，还是人接...

#Robotics#Tesla#TechCrunch#Hacker News

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

特斯拉承认两起 Robotaxi 事故都发生在远程安全员接管时，但正文没披露地点、伤亡和接管触发条件，先别急着下结论。

锐评

这条新闻的价值在于特斯拉自己承认了事故，而且明确指向远程接管这个环节。但 TechCrunch 的报道正文没放出来，我们只能看到标题和 Hacker News 上的 27 个点赞、17 条评论，讨论热度一般。关键信息全缺：事故发生在哪、有没有人受伤、车辆当时是自己先出错还是安全员主动介入、远程接管延迟多大。这些缺口让判断没法做实。对从业者来说，远程接管本身就是自动驾驶的灰色地带——人不在车里，反应时间、网络延迟、环境感知都打折。如果事故是在系统已经搞不定、紧急丢给人的情况下发生的，那问题出在交接机制；如果是安全员自己操作失误，那说明远程操控的人因工程没做好。两种情况性质完全不同，但原文都没说。我会先打个折：这条新闻目前只能当个信号看，说明特斯拉的远程接管流程出了事，但具体是系统问题还是人的问题，得等后续披露。如果后续有事故报告或监管文件出来，才值得认真分析。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

15:18

73d ago

r/LocalLLaMA· rssEN15:18 · 05·16

给 llama.cpp 加自定义采样器，有人写了个防重复循环的 demo

DeProgrammer99 给 llama-server 做了个自定义采样器扩展原型，附带一个 C++ 写的循环检测器——专门打断重度量化模型里常见的 1-3 token 重复循环。这个分支基于合并了 MTP（多 token 预测）后的 llama.cpp master，兼容推测解码，还提供了 Windows x64 Vulkan 编译版和一条示例命...

#Inference-opt#Code#Tools#DeProgrammer99

一句话点评

DeProgrammer99 给 llama.cpp 的 llama-server 做了个自定义采样器扩展原型，附带一个 C++ 写的循环检测器，专门打断重度量化模型里常见的 1-3 token 重复循环。这个分支基于合并了 MTP（多 token 预测）后的 llama.cpp master，兼容推测解码，还提供了 Windows x64 Vulkan 编译版和一条示例命令。短评：量化...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

63

SCORE

H0·K1·R1

14:54

73d ago

AI HOT 精选· aihot-apiZH14:54 · 05·16

烧吧，宝贝，烧吧：一个帮你销毁代币的开源工具

开发者 dtnewman 在 GitHub 上开源了一个叫“Burn, Baby, Burn”的工具，让用户自己销毁（burn）持有的代币，从而减少总供应量。这个项目在 Hacker News 上拿到了 100 个点赞。简单说，就是你想让某个代币变稀缺，可以用它把一部分代币永久打入黑洞。项目本身是命令行工具，代码量不大，适合懂点技术的用户自己操作。正文...

#GitHub#Hacker News#Open source

一句话点评

一个命令行工具，让你自己销毁持有的代币，减少总供应量。项目在 HN 上拿了 100 赞，但代码量不大，适合懂技术的用户自己操作。正文没披露支持哪些链、有没有合约验证，这点先别太激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

28

SCORE

H0·K0·R0

14:40

73d ago

r/LocalLLaMA· rssEN14:40 · 05·16

Lemonade 本地 AI 工具 macOS 版转正，一个 3MB 的二进制文件跑三大系统

Lemonade 宣布 macOS 支持结束测试，正式可用。这个本地 AI 工具只有一个 3MB 的便携二进制文件，就能在 Linux、Windows 和 macOS 上跑。目前开放了五大能力：OmniRouter（路由）、编程、图片生成、语音生成和语音转文字。3MB 的体积意味着几乎不占硬盘，启动快，适合随身带一个 U 盘跑本地模型。但正文没披露具体...

#Multimodal#Code#Audio#Lemonade

一句话点评

Lemonade 的 macOS 版正式上线，核心卖点是那个 3MB 的便携二进制文件，跨平台（Linux、Windows、macOS）都能跑，启动快，适合 U 盘随身带。目前开放了路由、编程、图片生成、语音合成和转写五大能力。但正文被屏蔽，没披露具体支持哪些模型、性能如何、是否依赖联网。3MB 体积确实轻量，但能力覆盖这么广，实际跑起来对硬件要求可能不低，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H0·K1·R1

14:15

73d ago

r/LocalLLaMA· rssEN14:15 · 05·16

同一个双摆模拟题，Claude 和 DeepSeek 选了相反的物理约定，一秒就能看出差异

作者用完全相同的提示词让 Claude 3.5 Sonnet 和 DeepSeek V3 模拟双摆运动，初始条件都是 θ1=π/2、θ2=π/2、角速度为零。在同一个渲染器下，两个模型输出的动画在一秒内就出现镜像行为——一个摆向左，另一个摆向右。这说明模型对物理约定（比如角度正方向的定义）有不同理解，而且这种差异在动态模拟中会立刻暴露。正文没披露具体用...

#Code#Reasoning#Benchmarking#Claude 3.5 Sonnet

一句话点评

同一个双摆提示词，Claude 3.5 Sonnet 和 DeepSeek V3 跑出镜像动画，一秒内就看出方向相反。问题出在模型对角度正负的默认约定不同，不是谁对谁错，而是物理模拟里这种隐性偏差会立刻暴露。正文没披露具体用了哪个渲染器、跑了多少次、是否复现，所以这点先别太激动——它更像一个有趣的观察，不是严谨评测。对做代码生成或物理仿真的团队有提醒价值：模型对物理常识的“默认值”可能不一致...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

13:46

73d ago

AI HOT 精选· aihot-apiZH13:46 · 05·16

杭州开了个国家级机器人训练基地，给具身智能搞“职业技能培训”

5月16日，国家人工智能应用中试基地（具身智能）在杭州挂牌启用，相当于给机器人建了一个国家级“职业技能训练场”。这个基地既展示已经落地的商业场景，也演示数据采集和技能训练过程，目的是帮机器人技术从实验室往真实应用走。杭州还从5月1日起施行了全国首部具身智能机器人地方性法规，要求建设中试和检测平台，并推动机器人在应急救援、医疗康养等领域落地。目前杭州已有...

#Robotics#Hangzhou#国家人工智能应用中试基地#Policy

一句话点评

杭州搞了个国家级机器人训练基地，5月16日挂牌，相当于给机器人建了个“职业技能训练场”。当地已有700多家机器人相关企业，2025年产业集群产值1068亿元。5月1日还施行了全国首部具身智能地方性法规，要求建中试和检测平台，推动机器人在应急救援、医疗康养等领域落地。基地展示商业场景和数据采集过程，帮技术从实验室走向应用。但正文没披露基地具体训练能力、开放时间或企业入驻细节，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

66

SCORE

H1·K1·R0

13:05

73d ago

FEATUREDAI HOT 精选· aihot-apiZH13:05 · 05·16

Anthropic 内部手册：AI 反而会让创业失败率变高

Anthropic 发了份内部手册叫《Founder's Playbook》，结论挺反直觉：像 Claude Code 这类 AI 工具，不是让创业更容易成功，而是会把失败率推高。手册把创业拆成想法、原型、发布、扩张四个阶段，逐个拆解 AI 放大风险的方式。最核心的问题是，AI 能几分钟跑出一个能用的原型，创始人很容易把“能跑通”当成“市场需要”，再用...

#Agent#Code#Tools#Anthropic

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic自己发了份手册，说AI工具反而会让创业失败率变高，这结论挺打脸的。

锐评

Anthropic这份内部手册的结论很直接：像Claude Code这类AI工具，不是创业的万能药，反而可能让更多人更快地撞墙。核心问题在于，AI几分钟就能跑出一个能用的原型，创始人很容易把“能跑通”当成“市场需要”，再用AI搜一堆资料来强化自己的错误判断。手册把创业拆成想法、原型、发布、扩张四个阶段，逐个拆解AI怎么放大风险——比如原型不等于验证、用AI堆出来的代码会埋下“智能体技术债”、创始人自己变成所有决策的瓶颈。最终结论是，AI把执行成本打到极低，判断力反而成了最稀缺的东西。手册认为真正的护城河，是把行业知识结构化沉淀成专属的“技能包”。不过这份材料是Anthropic的内部手册，正文没披露具体的数据支撑或案例研究，更像是一份经验总结和警示。它没给出量化指标，比如失败率具体会推高多少，也没讨论不同行业、不同团队规模下的差异。这点先别太激动，可以把它当成一份来自AI工具开发方的反向思考，而不是一份严谨的行业报告。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

12:49

73d ago

r/LocalLLaMA· rssEN12:49 · 05·16

有人用开源模型做了个代码审查工具，声称比 CodeRabbit 便宜 6 倍

Reddit 用户 Axintwo 发帖说，他做的 PrixAI 用开源模型做 PR 代码审查，在一个测试 PR 里 10 个埋点问题全抓出来了。价格方面，CodeRabbit 标价每月 60 美元，PrixAI 声称便宜 6 倍，也就是大概 10 美元。不过正文没披露具体用了哪些开源模型、跑在什么硬件上、延迟怎么样，也没说是不是本地部署。如果真能 1...

#Code#Agent#CodeRabbit#PrixAI

一句话点评

Reddit 用户 Axintwo 用开源模型做了个 PR 代码审查工具 PrixAI，号称比 CodeRabbit 便宜 6 倍（月费约 10 美元 vs 60 美元），并在一个测试 PR 中 10 个埋点问题全抓出来了。但正文没披露具体用了哪些开源模型、跑在什么硬件上、延迟如何，也没说是否本地部署。如果真能 1/6 的价格做到同等效果，对个人开发者和小团队挺有吸引力，但验证太弱——一个测...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

12:11

73d ago

Product Hunt · AI· rssEN12:11 · 05·16

pixserp：一个API接口，让大模型直接查实时网页，支持10种答案格式

pixserp 是一个给大模型用的实时网页搜索API，一个接口就能查网页、新闻、图片、地点、购物、航班、酒店、YouTube、字幕和任意URL，结果自带引用。价格是每1000次请求1.5美元，作者说比Perplexity Sonar Pro（约19美元/千次）便宜很多。响应时间大约1.5秒，支持流式输出。可以直接替换OpenAI SDK的base_ur...

#RAG#Tools#pixserp#Product update

一句话点评

pixserp 是一个给大模型用的实时网页搜索API，一个接口就能查网页、新闻、图片、地点、购物、航班、酒店、YouTube、字幕和任意URL，结果自带引用。价格是每1000次请求1.5美元，作者说比Perplexity Sonar Pro（约19美元/千次）便宜很多。响应时间大约1.5秒，支持流式输出。可以直接替换OpenAI SDK的base_url，集成成本低。短评：一个接口查十种...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

42

SCORE

H0·K1·R0

12:06

73d ago

FEATUREDHacker News 首页· rssEN12:06 · 05·16

SANA-WM：一个 26 亿参数的开源世界模型，能根据单张图片和镜头轨迹生成 1 分钟 720p 可控视频

NVIDIA 放出了一个叫 SANA-WM 的开源模型，参数规模 26 亿，主打的是用一张图加一条镜头移动路线，直接生成长达一分钟的 720p 视频。它把长视频生成拆成两步：先用一个混合线性注意力的主干网络跑出长序列粗稿，再用一个 170 亿参数的精修模型去改善纹理、动作和后半段的画质。训练成本不算高，64 块 H100 跑 15 天，用了约 21.3...

#Multimodal#Vision#NVIDIA#Open source

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

NVIDIA 开源了一个 26 亿参数的世界模型，一张图加镜头轨迹就能生成一分钟 720p 视频，单张 H100 就能跑。

锐评

SANA-WM 把长视频生成拆成了两步：先用一个混合线性注意力的主干网络跑出长序列粗稿，再用一个 170 亿参数的精修模型去改善纹理、动作和后半段的画质。这种“粗稿+精修”的思路让它在 64 块 H100 上训练 15 天就能搞定，推理时一张 H100 就能生成一分钟 720p 视频，蒸馏版在 RTX 5090 上 34 秒就能跑完。成本控制得不错。它用了约 21.3 万段公开视频来训练，靠自研的标注管线从这些视频里提取了精确的 6 自由度相机位姿。论文说它的动作跟随精度比之前的开源方案强，画质跟 LingBot-World 这类工业级模型有得一拼，但吞吐量是对方的 36 倍。这点先别太激动，正文没披露具体的基准测试细节和对比条件，36 倍这个数字得看是在什么设定下比的。目前缺的关键信息是训练数据的具体来源、开源协议、推理时的显存占用细节，以及跟其他模型在统一标准下的盲评结果。另外，它主打“世界模型”，但演示案例都是固定视角的风景漫游，能不能在需要物理交互或动态物体逻辑的场景里保持一致性，正文没提，这点得等实测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

11:34

73d ago

Hacker News 首页· rssEN11:34 · 05·16

OpenClaw 作者一个月烧了 130 万美元的 OpenAI 接口费

OpenClaw 的开发者发推说，30 天内光 OpenAI 的 token 就花了 130 万美元。正文没披露具体用了多少 token、调了哪些模型、有没有折扣或包月协议，也没有账单截图。如果是真的，这个烧钱速度说明要么用户量极大，要么每个请求都用了最贵的模型（比如 GPT-4 Turbo 或 o1）。但信息缺口太大，没法判断是真实成本还是营销噱头。

#OpenClaw#OpenAI#Commentary

一句话点评

OpenClaw 开发者称30天烧了130万美元OpenAI token费，约合每天4.3万美元。正文没披露具体用量、模型组合或是否有折扣协议，也无账单截图。如果是真的，要么用户量极大，要么每个请求都用了最贵模型（如GPT-4 Turbo）。但信息缺口太大，无法判断是真实成本还是营销噱头。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

11:03

73d ago

r/LocalLLaMA· rssEN11:03 · 05·16

给显卡降功耗，跑本地模型更省电

Reddit 用户 NotArticuno 实测给 GPU 降功耗墙（power limit）对本地推理的影响。测试用 qwen3.5:9b 模型，跑 TG128 生成和 PP512 处理。正文没披露具体显卡型号和数字结果，所以省了多少电、速度掉多少都不清楚。思路本身对自建服务器或长期跑推理的人有价值——降功耗能省电费、降温度，适合不在意那点速度损失的用户。

#Inference-opt#NotArticuno#Qwen#Commentary

一句话点评

Reddit 用户实测给 GPU 降功耗墙跑本地推理，思路对自建服务器或长期跑推理的人有价值——省电费、降温度。但正文没披露具体显卡型号和数字结果，省了多少电、速度掉多少都不清楚，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

52

SCORE

H1·K0·R1

10:22

73d ago

FEATURED机器之心 · 公众号· rssZH10:22 · 05·16

机器人为什么需要世界模型？顶尖机构联合发布综述

这篇综述正文被微信的验证页面挡住了，我没法看到具体内容。从标题和已知信息看，NTU MARS Lab 联合几家机构发了一篇 43 页的综述，讲的是机器人世界模型。世界模型可以理解成让机器人脑子里有个对物理世界的模拟器，能预判“我动一下会发生什么”，而不是每次都靠真实试错。文章大概会梳理这类模型怎么定义、用什么架构、在哪些任务上能用，以及当前卡在哪——比...

#Robotics#Multimodal#Benchmarking#NTU MARS Lab

精选理由

精选 · 重要度 72 · 吸引力 + 知识量

一句话点评

这篇综述正文被微信验证页挡住了，我没法看到具体内容。从标题和已知信息看，NTU MARS Lab 联合几家机构发了一篇 43 页的综述，讲的是机器人世界模型。世界模型可以理解成让机器人脑子里有个对物理世界的模拟器，能预判“我动一下会发生什么”，而不是每次都靠真实试错。文章大概会梳理这类模型怎么定义、用什么架构、在哪些任务上能用，以及当前卡在哪——比如动作一致性、推理速度、物理落地这些老问题。

锐评

这篇综述的标题和合作阵容（NTU MARS Lab、UC Berkeley、微软等）看起来挺有分量，43 页的篇幅也说明不是随便水一篇。但问题在于，我实际点进去只看到微信的验证页面，正文完全被挡住了，所以下面所有判断都只能基于标题和已知信息，没法核实具体内容。从已知信息推测，这篇综述的核心应该是把“机器人世界模型”这个方向做一次系统梳理。世界模型说白了就是让机器人脑子里有个物理模拟器，能提前想清楚“我动一下会发生什么”，而不是每次都靠真实试错去撞墙。这个方向最近很热，但一直卡在几个老问题上：动作一致性差、推理太慢、物理落地不靠谱。如果这篇综述能把这些坑讲清楚，对从业者来说挺实用。但要注意，正文没披露具体用了哪些基准、对比了什么方法、有没有开源代码或模型。这些信息缺口让我没法判断这篇综述的深度和实用性。另外，微信验证页挡住正文这件事本身也说明，这条链接的访问稳定性有问题，想细看的人可能得自己去找原论文。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

72

SCORE

H1·K1·R0

10:22

73d ago

机器之心 · 公众号· rssZH10:22 · 05·16

Anthropic 让 Claude Code 跑在卡片大小的开发板上

Anthropic 在 Code With Claude 活动上给开发者发了一台 Cardputer，这是一块 ESP32-S3 掌上开发板，大小跟卡片差不多。官方说它能跑完整的 Claude Code，也就是让开发者在这块小板上直接写代码、调模型。正文没披露具体跑起来延迟多高、能处理多复杂的任务，但能在这么小的硬件上塞进一个完整的 AI 编程助手，成...

#Code#Tools#Anthropic#Claude

一句话点评

Anthropic 给开发者发了张卡片大小的 ESP32-S3 开发板，说能跑完整 Claude Code。听着挺酷，但正文没披露延迟和任务复杂度——这么小的硬件跑完整编程助手，大概率只能处理极简单的代码补全或脚本，别指望能写复杂项目。更像一个概念验证或开发者玩具，离实用还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

10:22

73d ago

机器之心 · 公众号· rssZH10:22 · 05·16

2026杭州具身智能大赛：不比炫技，比谁真能干活

2026年杭州国际具身智能场景应用大赛设了三个赛道，200多支队伍在真实场景里比干活——消防、电力巡检、数据中心、水下救援、仓库物流。正文没披露具体技术方案和评分标准，但方向很明确：别光秀走路翻跟头，得能进真实环境解决实际问题。

#Robotics#Agent#Multimodal#机器之心

一句话点评

短评：比赛方向务实，但没披露技术细节和评分标准，先别太激动。 2026年杭州这场具身智能大赛，200多支队伍在消防、电力巡检、数据中心、水下救援、仓库物流等真实场景里比干活，而不是比走路翻跟头。方向是对的——行业确实需要从炫技转向解决实际问题。但正文没披露具体技术方案、评分标准、参赛队伍的技术水平，也没说这些场景的难度系数和真实环境还原度。所以这个比赛的意义更多是信号：政策方和产业方在推动...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

09:30

73d ago

Hacker News 首页· rssEN09:30 · 05·16

Δ-Mem：给大模型加一个超小内存，不用改模型结构就能记住历史

这篇论文提出了一种叫 Δ-Mem 的轻量记忆机制，核心思路是给一个已经训练好的、参数冻结的大模型（full-attention backbone）外挂一个固定大小的在线记忆状态。这个状态矩阵通过 delta 规则（一种增量更新算法）不断压缩和存储历史信息，生成时再用它的输出去修正注意力计算，相当于给注意力加了一个低秩的“记忆偏置”。效果上，只用了一个 ...

#Memory#Research release

一句话点评

给冻结的大模型外挂一个8×8的记忆状态矩阵，用delta规则增量压缩历史，推理时修正注意力计算。MemoryAgentBench涨了31%，LoCoMo涨了20%，成本极低——8×8矩阵几乎不占显存。但论文没披露延迟对比，也没说长上下文场景下记忆是否会饱和。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

08:52

73d ago

FEATUREDAI HOT 精选· aihot-apiZH08:52 · 05·16

三个研究员用 Anthropic 的 Mythos 工具，六天写出一个 macOS 内核漏洞，绕过了苹果 M5 芯片的内存完整性保护

苹果在 M5 和 A19 芯片上花五年做的 MIE 内存完整性保护，被三个研究员用 Anthropic 的 Mythos 工具攻破了。他们 4 月 25 日发现漏洞，5 月 1 日就写完利用程序，全程只用了六天。攻击手法是纯数据攻击，不碰指针，靠普通用户权限的标准系统调用就能拿到 root 权限。团队已经当面把报告交给了苹果。完整技术细节要等苹果发补丁...

#Agent#Code#Safety#Anthropic

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

三个研究员用Anthropic的Mythos工具，六天就绕过了苹果在M5芯片上花了五年做的内存保护，靠普通权限就能拿root。技术细节等苹果补丁后才公开，现在先别急着下结论。

锐评

这条消息的冲击力在于速度对比：苹果用五年打造的MIE内存完整性保护，被三个人六天就攻破了。4月25日发现漏洞，5月1日写完利用程序，而且用的是纯数据攻击，不碰指针，只靠标准系统调用就从普通用户提权到root。这说明MIE在设计上可能存在盲区，攻击面不在它重点防护的指针区域。不过现在能说的有限。完整技术报告要等苹果发补丁后才公开，正文没披露漏洞的具体原理、Mythos在过程中到底起了多大作用，也没说这个漏洞是否影响A19芯片的iOS设备。团队当面交了报告，苹果还没回应时间线。对从业者来说，这条新闻的价值暂时是信号级的：AI辅助安全研究的效率在提升，六天从发现到完整利用的速度值得关注。但漏洞是否可复现、影响范围多大，都得等补丁和论文出来再判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

08:10

73d ago

FEATUREDAI HOT 精选· aihot-apiZH08:10 · 05·16

Codex 现在能遥控多台电脑，ChatGPT 里切项目就能换设备

Codex 通过 ChatGPT 不仅能连一台电脑，还能直接控制另一台，多设备管理不用来回切换客户端，在 ChatGPT 里换个项目就能拿到对应设备的上下文和文件。推文里还提到支持远程 SSH 去设置其他虚拟机，多机协作的灵活度上了一个台阶。不过正文没披露延迟表现和权限隔离细节，实际用起来稳不稳还得看后续反馈。

#Agent#Tools#Code#Codex

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Codex 现在能在 ChatGPT 里直接切项目管多台电脑，还支持远程 SSH 设虚拟机，但延迟和权限隔离细节正文没提，实际稳不稳先打个折。

锐评

Codex 这次更新把多设备管理塞进了 ChatGPT 的对话窗口，你换个项目就能拿到对应机器的上下文和文件，不用来回切客户端。推文还提到能通过远程 SSH 去配置其他虚拟机，这对需要同时维护开发机、测试服、生产环境的人来说，确实省了跳转的麻烦。但正文只给了功能描述，没披露任何性能数据。多设备远程控制的延迟是多少？权限怎么隔离？万一一个会话能摸到所有机器，安全风险就大了。这些关键信息缺失，让这条更新看起来更像功能预告而非可投产的能力。另外，推文来源是个人账号，不是 OpenAI 官方公告，可靠性要打个折。建议等官方文档或实际用户反馈出来再判断，别急着把它当主力远程管理工具。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

07:28

73d ago

AI 群聊日报· atomZH07:28 · 05·16

Bloomberg 数据：AI 高暴露岗位连续两年下降，Technical Writer 跌 18%；Anthropic 全员重置 Claude Code 限额

Bloomberg 报道，BLS 标记的 18 个 AI 高暴露职业 2024-2025 年整体就业降 0.2%，同期全美增 0.8%。Technical writer 跌 18%，图形设计师跌 7.7%，客服跌 4.8%。群友感叹“居然现在才开始减”，并预测 UI 翻译师也快没了。Anthropic 周五惊喜全员重置了 Claude Code 的 5...

#Agent#Code#Tools#Bloomberg

一句话点评

Bloomberg 数据：BLS 标记的 18 个 AI 高暴露职业 2024-2025 年就业降 0.2%，同期全美增 0.8%。Technical writer 跌 18%，图形设计师跌 7.7%，客服跌 4.8%。群友感叹“居然现在才开始减”，并预测 UI 翻译师也快没了。Anthropic 周五惊喜全员重置了 Claude Code 的 5 小时和周限额，但原本的 reset 时间不...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户