全部 · 2026-05-23

▸ 50 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-23 · 星期六2026年5月23日

23:39

65d ago

Hacker News 首页· rssEN23:39 · 05·23

ICE 花 2500 万美元采购虹膜扫描设备，合同金额是上次的五倍

美国移民执法局（ICE）在 5 月 22 日与 Bi2 Technologies 签了一份 2500 万美元的虹膜扫描合同，金额是去年 9 月那份合同的五倍多。这次采购 1570 台设备，是上次 200 台的近八倍，预计 6 月底前到位。合同是单一来源（没竞标），而且没要求通过 FedRAMP（美国政府云安全审查），也没有独立审计或国会通知。正文没披露...

#Vision#ICE#Bi2 Technologies#Policy

一句话点评

ICE 花 2500 万美元买 1570 台虹膜扫描仪，6 月底到位，金额是上次的 5 倍，设备量是 8 倍。但合同没竞标、没过 FedRAMP 云安全审查、没独立审计，也没通知国会。设备能查 500 万条在押记录，方便外勤快速验人。便宜吗？单价约 1.6 万美元，不算贵，但安全审查和隐私保障全跳过了，这点先别太激动。正文没披露设备具体部署地点和性能指标。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

23:00

65d ago

r/LocalLLaMA· rssEN23:00 · 05·23

用本地模型做会计月结，慢但能用

一位 Reddit 用户用 Qwen 3.6 27B 跑月结、银行对账、应收应付，还搭了个 SQLite 数据库让模型自己管。他把 Claude 的技能和 Anthropic 的金融仓库整合了进去，说效果还行。但速度很慢——因为买不起 5000 美元的机器，只用一块集成显卡跑 MTP 版模型，得跑一整夜才能出结果。正文没披露准确率、处理了多少笔账、具体...

#Agent#Tools#Code#Qwen

一句话点评

有人用 Qwen 3.6 27B 跑月结、对账、应收应付，还让模型自己管 SQLite 数据库。他把 Anthropic 的金融仓库和 Claude 技能搬过来用，说效果还行。但速度慢到要跑一整夜——因为买不起 5000 美元的机器，只用集成显卡跑 MTP 版。正文没披露准确率、处理了多少笔账，这点先别太激动。本地模型能干活了，但离替代 QuickBooks 还差得远。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

22:48

65d ago

FEATUREDr/LocalLLaMA· rssEN22:48 · 05·23

llama.cpp 服务器现在自带 8 个原生工具，不用再拼 MCP 就能让本地模型直接读文件、搜代码、跑命令

llama.cpp 的 server 端多了一个实验性的 --tools 参数，一口气给了 8 个内置工具：read_file、file_glob_search、grep_search、exec_shell_command、write_file、edit_file、apply_diff 和 get_datetime。说白了，就是让跑在本地的模型能直接读...

#Agent#Tools#Code#llama.cpp

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

llama.cpp 服务器现在自带 8 个本地工具，能直接读文件、搜内容、执行 shell 命令，不用再外挂 MCP 了。但官方还没做安全沙箱，文件操作和命令执行都没白名单限制，先别在生产环境里用。

锐评

llama.cpp 的 server 端加了一个实验性的 --tools 参数，一口气给了 8 个内置工具，包括读文件、按文件名模式搜索、用 grep 搜内容、执行 shell 命令、写文件、编辑文件、打补丁和获取当前时间。这相当于把 llama-server 直接变成了一个轻量级的 agent 运行环境，你只需要一个 gguf 模型文件就能让模型在本地干活，不用再费劲去搭 MCP 或者别的重型封装。不过，安全这块目前基本是裸奔的。帖子明确说了，文件操作都相对于你启动服务器的那个目录，但没有命令白名单，也没有限制文件操作不能跳出这个目录。也就是说，模型如果被诱导执行了 rm -rf 之类的命令，它是真的会跑下去的。这点先别太激动，自己玩玩可以，别直接暴露给不信任的输入。帖子没提这些工具是怎么被模型调用的，是走 function calling 格式还是靠提示词注入，也没说不同模型的支持程度和调用成功率。这些信息缺口让这个功能的实际可用性打了个折扣，得自己实测才知道靠不靠谱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

21:45

65d ago

FEATUREDAI HOT 精选· aihot-apiZH21:45 · 05·23

阶跃星辰发了 StepAudio 2.5 实时语音模型，能听懂语气、停顿和情绪，还支持自定义人格

这个模型不只是把语音转成文字再回复，它会捕捉你说话时的语气、语速、停顿甚至微表情这些“副语言”信息，让对话更自然。你可以通过 API 给它设定人格、背景故事和说话风格，官方说原生人格选项超过一万种，组合起来能有数百万种特征。产品内置了 5 个预设人格可以直接试，并且用 RLHF（基于人类反馈的强化学习）做了调优，在复杂的角色扮演压力测试里也能保持人设不...

#Audio#Agent#Alignment#StepFun

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

StepFun 发了实时语音模型 StepAudio 2.5，能听懂语气、停顿这些副语言信息，还支持自定义人格，但没给延迟、成本和实际测试数据，先当 demo 看。

锐评

StepAudio 2.5 主打的是“听懂你怎么说”，不只是“你说了什么”。它声称能捕捉语气、语速、停顿甚至微表情，这比传统语音助手多了一层副语言理解，理论上能让对话更自然。人格化是另一个卖点：通过 API 可以设定角色的背景故事和说话风格，官方说原生人格选项超过一万种，组合起来能有数百万种特征，还内置了 5 个预设人格可以直接试。用 RLHF 做调优，在角色扮演压力测试里保持人设不崩，这点听起来不错，但正文没披露测试的具体设置和失败率，也没说延迟多少、单次调用成本多少。实时语音模型最怕的就是响应慢和幻觉崩人设，这两项没数据就很难判断实际可用性。另外，微表情捕捉是怎么实现的、需要什么硬件支持，正文也没提。我会先打个折，等看到 API 文档和实测延迟再判断它是不是真能进生产环境。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

21:30

65d ago

r/LocalLLaMA· rssEN21:30 · 05·23

本周 GitHub AI 项目涨星榜：代码智能体、个人记忆和本地开发工具最火

Reddit 用户 Sam_Tech1 整理了本周 GitHub 上增长最快的 10 个 AI 开源项目。codegraph 和 openhuman 分别涨了 1.4 万和 1.7 万颗星，领跑榜单。这批项目集中在几个方向：代码智能体（让 AI 自己写代码、修 bug）、个人 AI 助手（带记忆功能，能记住你的偏好）、浏览器自动化（AI 帮你操作网页）...

#Agent#Code#Memory#Sam_Tech1

一句话点评

本周 GitHub 上 AI 开源项目涨粉最快的两个是 codegraph（+1.4 万星）和 openhuman（+1.7 万星），方向集中在代码智能体、带记忆的个人助手和浏览器自动化。openhuman 能记住用户偏好，这点对本地部署的个性化助手挺实用；codegraph 则是让 AI 自己写代码修 bug，适合开发者提效。不过榜单来源是 Reddit 用户整理，非官方统计，可能存在采样...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

20:14

65d ago

r/LocalLLaMA· rssEN20:14 · 05·23

Command A+ 218B MoE 跑上苹果芯片，MLX 移植已提 PR

Cohere 刚开源的 Command A+（218B 总参数/25B 激活，128 专家取 8，Apache 2.0）被开发者移植到了 mlx-lm，能在 Apple Silicon 上跑了。架构上有几个特别设计：一个共享专家配大中间层（16384），跟路由输出做 (routed + shared)/2 平均；路由用 sigmoid 而非 softm...

#Inference-opt#Tools#Cohere#Apple

一句话点评

Cohere 的 218B MoE 模型 Command A+ 被移植到 mlx-lm，能在 Apple Silicon 上跑了。实测 BF16 转 Q8 后生成速度 22.9 tok/s，峰值内存 241GB——这意味着你需要一台 256GB 以上的 Mac 才能跑，成本不低。架构上有意思的点：共享专家和路由输出做平均，路由用 sigmoid 而非 softmax，滑动窗口 3:1 加交错...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

19:51

65d ago

r/LocalLLaMA· rssEN19:51 · 05·23

NVIDIA 的 Nemotron 人物画像向量已开源，支持按年龄、职业、爱好搜人

Feisty_Plant4567 把 NVIDIA 的 Nemotron-Personas 数据集做成了预计算向量，用 Qwen 0.6B 模型对几百万条合成人物画像（含姓名、年龄、职业、爱好）提取了向量。目前覆盖韩国、日本、法国和美国四个国家，在 Hugging Face 上发布了合集，还搭了一个网页 demo 支持语义搜索和 K 近邻分组。正文没披...

#Embedding#Agent#NVIDIA#Qwen

一句话点评

有人把 NVIDIA 的 Nemotron-Personas 合成人物画像数据集做成了预计算向量，用 Qwen 0.6B 模型跑了百万级画像，覆盖韩、日、法、美四国。好处是省了你自己跑 embedding 的算力，直接搜语义或做 K 近邻分组。但注意：0.6B 模型向量质量有限，且只覆盖四个国家，地域偏差明显。正文没披露向量维度、检索延迟和存储成本，这些对实际落地很关键。短评：省力但别当主力...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

19:00

66d ago

AI HOT 精选· aihot-apiZH19:00 · 05·23

Replit Agent 接上 Squidler：说人话就能测 App，测完还能自己修

Replit 的 AI 编程助手 Agent 接入了测试工具 Squidler，用户用自然语言描述想要的功能，Agent 直接生成应用并部署，Squidler 像真人一样点来点去测 bug，测出问题再自动丢回给 Agent 修。整个过程不用写一行测试脚本，等于把“写代码→测 bug→改代码”这个循环全自动化了。正文没披露这套流程跑一轮要多久、Squid...

#Agent#Tools#Code#Replit

一句话点评

Replit Agent 接上 Squidler 后，你只需用自然语言描述想要的功能，Agent 自动生成应用并部署，Squidler 像真人一样点来点去测 bug，测出问题再自动丢回给 Agent 修——全程不用写一行测试脚本。等于把“写代码→测 bug→改代码”这个循环全自动化了。但正文没披露这套流程跑一轮要多久、Squidler 的测试覆盖率有多高，也没说它能不能测复杂交互或跨页面逻辑...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

18:32

66d ago

r/LocalLLaMA· rssEN18:32 · 05·23

用 OpenRouter 数据给推理服务商按缓存命中率排了个梯队

Reddit 用户用 OpenRouter 的数据给各家推理服务商按缓存命中率排了梯队，但正文只贴了一张图，没披露样本量、具体服务商名单和各自的命中率数字。缓存命中率高意味着重复请求多、推理成本能降不少，但缺少这些关键信息，没法判断这个排名有多靠谱。

#Inference-opt#OpenRouter#Benchmark

一句话点评

Reddit 用户拿 OpenRouter 数据给推理服务商按缓存命中率排了梯队，但正文只贴了张图，没披露样本量、具体服务商和命中率数字。缓存命中率高意味着重复请求多、推理成本能降不少，但缺关键信息，排名可信度打折。短评：图不错，但缺样本量和具体数字，先别急着信。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

58

SCORE

H1·K0·R1

18:10

66d ago

r/LocalLLaMA· rssEN18:10 · 05·23

Chrome 里那个小模型 Gemini Nano 现在能直接跑，不用显卡

一个叫 Dobby 的 Chrome 扩展让你在浏览器里本地跑 Gemini Nano，16GB 内存加硬盘空间就行，不需要 GPU。Chrome 给每个会话设了 9216 个 token 的上限，作者估测速度大概每秒 20 个 token，但没贴实测数据。这个速度偏慢，适合简单任务，比如摘要或分类，别指望实时对话。正文没披露模型参数量或具体延迟测试方法。

#Inference-opt#Tools#Google#Chrome

一句话点评

一个叫 Dobby 的 Chrome 扩展让你在浏览器里本地跑 Gemini Nano，16GB 内存加硬盘就行，不用 GPU。Chrome 给每个会话设了 9216 个 token 上限，作者估测速度约每秒 20 个 token，但没贴实测数据。这个速度偏慢，适合摘要或分类，别指望实时对话。正文没披露模型参数量或具体延迟测试方法。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

17:39

66d ago

r/LocalLLaMA· rssEN17:39 · 05·23

Hermes Agent 建目录失败：报告成功但实际没创建

有用户用 Qwen3.5 9B 跑 Hermes Agent，让它创建一个目录。Agent 返回 mkdir 成功，但文件系统里根本没变化，Hermes 日志也没有任何警告。问题可能是 Agent 对系统调用的反馈做了假阳性判断，或者底层工具链有 bug。正文没披露具体复现步骤和模型版本细节，这点先别太激动，但如果是普遍问题，那 Agent 的可靠性就...

#Agent#Tools#Code#Hermes Agent

一句话点评

有用户用 Qwen3.5 9B 跑 Hermes Agent 创建目录，Agent 返回成功但文件系统没变化，日志也无警告。问题可能是 Agent 对系统调用反馈做了假阳性判断，或底层工具链有 bug。正文没披露复现步骤和模型版本，这点先别太激动，但如果是普遍问题，Agent 的可靠性就存疑了。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

46

SCORE

H1·K0·R1

16:45

66d ago

r/LocalLLaMA· rssEN16:45 · 05·23

30次跑分实测：MI60显卡跑Gemma 4和Qwen3，HomeAssistant语音指令1.2秒搞定

一位Reddit用户在MI60 32GB显卡上跑了30次llama-bench，测试Gemma 4 26B（Q4_1量化）和Qwen3 35B（Q4_0量化）。固定输入512个token、生成128个token，结果HomeAssistant语音指令耗时不到1.2秒，Frigate视频摘要不到18秒。这个延迟对智能家居场景够用，但注意测试只跑了一次生成...

#Inference-opt#Benchmarking#Reddit#Gemma

一句话点评

在MI60 32GB显卡上跑了30次llama-bench，Gemma 4 26B和Qwen3 35B的智能家居延迟实测：HomeAssistant语音指令不到1.2秒，Frigate视频摘要不到18秒。对本地部署来说这个速度够用，但注意测试只生成128个token，实际场景如果对话更长或视频片段更多，延迟会明显上升。另外正文没披露功耗和显存占用，MI60的性价比优势缺少数据支撑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

16:06

66d ago

Hacker News 首页· rssEN16:06 · 05·23

Claw-Coder：一个全本地跑的 AI 编程助手，带知识图谱和 Docker 沙箱

作者做了一个叫 Claw-Coder 的本地 AI 编程助手，核心思路是给本地小模型（8B、13B 甚至 1B）配上工具链，让它们也能干点正经活。它集成了外挂资料库（RAG）来存代码向量，避免小模型上下文窗口被撑爆；还搭了一个知识图谱，帮模型理解代码之间的关联关系。另外它给了模型搜索工具（防幻觉）、Docker 执行环境（让模型自己跑代码验证结果），以...

#Agent#RAG#Code#Claw-Coder

一句话点评

一个本地AI编程助手，给8B、1B等小模型配上RAG（外挂资料库存代码向量）、知识图谱（理清代码关系）、搜索工具（防幻觉）和Docker执行环境（让模型自己跑代码验证结果）。思路对，但项目闭源，正文没披露任何性能基准或延迟数据，小模型到底能跑多快、代码生成质量如何，全是未知数。短评：本地小模型+工具链，思路好但闭源无数据，先别激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

16:04

66d ago

r/LocalLLaMA· rssEN16:04 · 05·23

跑 RAG 用稠密模型还是 MoE？有人实测 Qwen 35B 稠密比 27B MoE 快 2.5 倍

Reddit 用户用单张 RTX 3090 跑 RAG，对比 Qwen3.6 35B APEX（稠密）和 Qwen3.6 27B MTP（MoE），稠密模型生成速度约 150 tok/s，MoE 只有 60 tok/s，而且稠密模型回答质量更好。不过帖子没交代检索怎么做的、用了什么提示词、量化方式，也没给评估指标，所以这个结论只能当个参考，不能直接推广...

#RAG#Inference-opt#Claude#Qwen

一句话点评

Reddit 用户用单张 RTX 3090 跑 RAG，发现稠密模型 Qwen3.6 35B 生成速度约 150 tok/s，比 MoE 版 27B 的 60 tok/s 快一倍多，回答质量也更好。但帖子没交代检索怎么做、用了什么提示词、量化方式，也没给评估指标，结论只能当个参考。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

15:38

66d ago

r/LocalLLaMA· rssEN15:38 · 05·23

26M参数模型在CPU上跑函数调用，比0.6B模型快4.4倍，准确率还更高

Reddit用户gvij用4核CPU测了Needle 26M和Qwen3-0.6B在50次工具调用上的表现。Needle工具匹配准确率72.0%，平均延迟10.9秒；Qwen3准确率56.0%，延迟47.9秒。Needle参数少23倍，但准确率高出16个百分点，速度快4.4倍。测试分5个难度等级，正文没披露各等级具体结果。

#Agent#Tools#Benchmarking#Needle

一句话点评

26M参数模型在4核CPU上工具调用准确率72%，比0.6B的Qwen3高16个百分点，速度快4.4倍。参数少23倍反而更强，说明小模型做工具调用不一定输给大模型。但测试仅50次查询，样本太少，统计意义有限；且正文没披露各难度等级的具体结果，高难度下差距可能缩小。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

71

SCORE

H1·K1·R1

15:38

66d ago

r/LocalLLaMA· rssEN15:38 · 05·23

GPT-5.5 的“秘密武器”就是让模型用原始人模式思考？

Reddit 用户声称 GPT-5.5 在一次普通对话中意外泄露了它的思考过程，并贴了一个 Gist 日志链接。帖子没有给出可复现的设置、模型来源，也没提这种“原始人思考”到底省不省 token。正文没披露任何效率数据，所以这点先别太激动。

#Reasoning#Fine-tuning#OpenAI#GPT-5.5

一句话点评

Reddit 用户声称 GPT-5.5 在一次普通对话中意外泄露了它的思考过程，并贴了一个 Gist 日志链接。帖子没有给出可复现的设置、模型来源，也没提这种“原始人思考”到底省不省 token。正文没披露任何效率数据，所以这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

15:12

66d ago

● P1AI HOT 精选· aihot-apiZH15:12 · 05·23

Anthropic 最快下周完成超 300 亿美元融资，估值将反超 OpenAI

彭博社援引知情人士消息，Anthropic 的新一轮融资最快下周敲定，总额预计超过 300 亿美元，公司估值可能突破 9000 亿美元，直接超过 OpenAI。这轮融资推进很快，几周内就从收到提案走到了谈判尾声，但正文没披露具体领投方和条款细节。公司同时给出了很猛的收入预期：第二季度营收 109 亿美元，比上季度翻了一倍多，并且有望首次实现季度盈利；年...

#Anthropic#OpenAI#Bloomberg#Funding

精选理由

精选 · 重要度 88 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 要拿 300 亿美元融资，估值冲上 9000 亿反超 OpenAI，但正文没披露领投方和条款，数字先打个折看。

锐评

这条消息的核心是钱和速度。Anthropic 最快下周敲定超过 300 亿美元融资，估值可能突破 9000 亿美元，直接压过 OpenAI。从收到提案到谈判尾声只花了几周，说明资本在抢着下注。公司给出的收入预期也很猛：第二季度营收 109 亿美元，比上季度翻了一倍多，而且可能首次实现季度盈利；年化营收下月底前有望突破 500 亿美元。去年 7 月这个数字还只有 40 亿，增长曲线确实陡。但要注意，这些数字全部来自彭博社引述的“知情人士”，Anthropic 官方没有确认。正文没披露具体领投方、估值计算方式、是否有对赌条款，也没说这 300 亿是纯股权还是包含债务融资。年化营收这种算法本身就有放大效应，用短期高峰去推全年，实际落袋多少还得看后续几个季度。另外，估值反超 OpenAI 这个说法需要看参照系。OpenAI 的估值也在动态变化，而且两家公司的收入结构、客户集中度、模型商业化进度都不一样，单纯比估值数字意义有限。如果后续能拿到融资条款、投资方背景和审计后的营收数据，才能判断这轮是真金白银的认可，还是资本在 AI 赛道抢座位的焦虑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

88

SCORE

H1·K1·R1

13:58

66d ago

FEATURED机器之心 · 公众号· rssZH13:58 · 05·23

FlashAR 用 0.05% 的训练数据，把自回归图像模型的生成速度提了 22.9 倍

浙大和阿德莱德大学搞了个 FlashAR，专门给预训练好的自回归图像模型加速。拿 Emu3.5-Image-34B 试了一下，生成一张 512×512 的图，原来要 130.10 秒，现在只要 5.68 秒，快了 22.9 倍。而且只用了原始训练数据量的 0.05% 做微调，GenEval 分数从 80.48 变成 80.29，画质基本没掉。正文没披露...

#Inference-opt#Vision#Multimodal#Zhejiang University

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

FlashAR 把自回归图像模型生成速度提了 22.9 倍，只用了 0.05% 的训练数据微调，画质几乎没掉。但正文没披露具体用了什么加速方法，这点先别太激动。

锐评

浙大和阿德莱德大学这个 FlashAR，专门给已经训练好的自回归图像模型加速。拿 Emu3.5-Image-34B 跑 512×512 的图，原来要 130 秒，现在 5.68 秒就出图，快了 22.9 倍。微调只用了原始训练数据量的 0.05%，GenEval 分数从 80.48 掉到 80.29，画质损失可以忽略不计。但原文因为微信环境验证问题，实际内容没抓到，只看到了摘要。具体 FlashAR 是怎么做到这种加速的——是改了采样策略、蒸馏了小模型、还是做了投机解码之类的——正文没披露。也没有提到这个方法对其他自回归图像模型（比如 LlamaGen 系列）的通用性如何，以及 5.68 秒是在什么硬件上跑的。如果这个方法真像摘要说的这么省数据、不掉点，那对自回归图像生成落地是个好消息，毕竟 130 秒等一张图根本没法用。但得等看到完整论文才能判断这个加速是不是靠牺牲多样性或者只对特定模型有效。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

13:58

66d ago

FEATURED机器之心 · 公众号· rssZH13:58 · 05·23

Bengio 团队新论文：用多条并行思路链做递归推理，效果比单条串行推理好

这篇论文提出了 GRAM，一个会生成多条内部推理轨迹、再从中挑出最优解的递归模型。在极难数独测试上，GRAM 用 16 步递归、同时跑 20 条并行思路，准确率达到 97.0%；作为对比，传统串行递归模型 TRM 要跑到 320 步才做到 90.5%。简单说，就是让模型多想几条路再选，比闷头一条路走到黑更靠谱，而且推理步数还少得多。不过正文没披露具体的...

#Reasoning#Inference-opt#Benchmarking#Yoshua Bengio

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

Bengio 团队让模型同时想 20 条思路再挑最优，比闷头一条路走到底靠谱得多，推理步数还少了 20 倍。

锐评

这篇论文的核心思路很直接：让模型在推理时多生成几条内部思路，再从中选最好的，而不是像传统串行推理那样一条路走到黑。在极难数独测试上，GRAM 用 16 步递归、同时跑 20 条并行轨迹，准确率干到 97.0%；对比的串行模型 TRM 要跑到 320 步才 90.5%。这说明并行采样加筛选的策略，在步数效率和最终效果上都明显占优。不过正文没披露具体的计算开销和延迟数据。20 条并行轨迹意味着推理时的算力消耗至少是串行的 20 倍，虽然步数少了，但总计算量未必省。另外，测试只用了数独这一个任务，能不能泛化到更开放的推理场景还不清楚。如果是真的能在其他任务上也保持这种效率优势，那这条技术路线挺值得跟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

13:58

66d ago

机器之心 · 公众号· rssZH13:58 · 05·23

没有大模型、没有自有流量，AppLovin 靠预测用户终身价值把广告做到千亿市值

AppLovin 用自研的 Axon 2 广告引擎，把投放逻辑从“按点击出价”换成“按用户终身价值（LTV）预测出价”，2024 年股价涨了 790%，2025 年市值逼近 2500 亿美元。它没有自己的大模型，也没有微信、抖音那样的自有流量池，核心是把广告主的花费用在能长期付费的用户身上。正文没披露 Axon 2 的具体模型架构和训练数据量，但效果数...

#Embedding#Multimodal#Agent#AppLovin

一句话点评

AppLovin 靠自研的 Axon 2 广告引擎，把投放逻辑从“按点击出价”换成“按用户终身价值（LTV）预测出价”，2024 年股价涨了 790%，2025 年市值逼近 2500 亿美元。它没有自己的大模型，也没有微信、抖音那样的自有流量池，核心是把广告主的花费用在能长期付费的用户身上。正文没披露 Axon 2 的具体模型架构和训练数据量，但效果数据很猛。短评：没大模型没流量，靠 LTV...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

13:54

66d ago

r/LocalLLaMA· rssEN13:54 · 05·23

Apex-Testing 更新：95% 覆盖率的真实仓库编程评测

Apex-Testing 更新了它的真实仓库编程评测，覆盖率达到 95%。评测用了 65-70 个私有 GitHub 仓库、70 个任务、8 个类别，还统计了平均成本、平均耗时、按类别加权得分、ELO 排行榜和模型对比。正文没披露具体哪些模型上榜、成本多低、延迟多高，所以这点先别太激动。不过用私有仓库测编程能力，比公开题库更贴近实际干活场景。

#Agent#Code#Benchmarking#Apex-Testing

一句话点评

Apex-Testing 更新了编程评测，用 65-70 个私有仓库、70 个任务测模型写代码的真实能力，覆盖率达 95%。比公开题库更贴近干活场景，但正文没披露具体模型排名、成本和耗时，所以先别太激动。缺实测数据，等榜单出来再判断谁真能打。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

13:45

66d ago

r/LocalLLaMA· rssEN13:45 · 05·23

小米12 Pro 跑本地模型：Llama.cpp 和 LiteRT 谁更快？

有人在改装成 24/7 服务器的小米12 Pro 上测了 Gemma-4-E4B 模型。Llama.cpp 的提示处理速度是 30.6 token/秒，生成速度 5.7 token/秒；LiteRT 生成稍快一点，但会把 CPU 跑满，功耗也更高。正文没披露具体功耗数据和测试条件，所以这点先别太激动。

#Inference-opt#Benchmarking#Xiaomi#Google

一句话点评

有人在改装成服务器的小米12 Pro上测了Gemma-4-E4B模型，Llama.cpp提示处理30.6 token/秒，生成5.7 token/秒；LiteRT生成稍快但CPU跑满、功耗更高。正文没披露具体功耗数据和测试条件，所以这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

13:29

66d ago

r/LocalLLaMA· rssEN13:29 · 05·23

给 exo 加原生 MTP，Qwen3.6 在 M5 Max 上推理速度翻倍

有人在 exo 分布式推理框架里提交了原生 MTP（多 token 预测）的 PR。实测在 M5 Max 48GB 笔记本上，Qwen3.6 27B 模型从 17.27 tok/s 涨到 34.06 tok/s（K=2，速度翻倍）；35B-A3B 混合模型从 85.14 涨到 98.59 tok/s（K=1，提升约 16%）。MTP 让模型一次预测多个...

#Inference-opt#exo#Qwen#Apple

一句话点评

有人在 exo 分布式推理框架里给 Qwen3.6 的 MLX 模型加上了原生 MTP（多 token 预测），实测在 M5 Max 48GB 笔记本上，27B 模型速度从 17.27 tok/s 翻倍到 34.06 tok/s（K=2），35B-A3B 混合模型从 85.14 涨到 98.59 tok/s（K=1，提升约 16%）。MTP 让模型一次预测多个 token，相当于流水线干活，...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

13:00

66d ago

TechCrunch AI· rssEN13:00 · 05·23

马斯克放弃地球太阳能，xAI 全面转向天然气

TechCrunch 报道，马斯克的 xAI 已全面押注天然气，SpaceX 则专注轨道数据中心。他早年承诺的“太阳能电力经济”似乎被搁置。正文未披露项目规模、成本、时间线或马斯克本人的直接表态，所以目前只能确认方向转变，具体影响和动机还不清楚。

#Elon Musk#xAI#SpaceX#Commentary

一句话点评

马斯克放弃地球太阳能，xAI 全面押注天然气，SpaceX 专注轨道数据中心。早年承诺的“太阳能电力经济”被搁置。正文未披露项目规模、成本、时间线或马斯克本人直接表态，目前只能确认方向转变，具体影响和动机不清楚。短评：马斯克自己打脸，太阳能梦碎，天然气真香。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

12:53

66d ago

r/LocalLLaMA· rssEN12:53 · 05·23

Qwen3.6 35B-A3B MTP 在 24GB 笔记本显卡上跑到 249 token/秒，比自家 27B 稠密模型快 3.4 倍

有人在笔记本版 RTX 5090（24GB）上跑了 Qwen3.6 的 35B-A3B 混合专家模型（MoE，每次只激活约 3B 参数），配合 MTP 投机解码（让模型先猜几个后续 token，猜对了就一次多出几个 token），10 次 2000 token 测试平均 249 token/秒。对比同系列的 27B 稠密模型（每次全量计算 27B 参数...

#Inference-opt#Code#Benchmarking#Qwen

一句话点评

短评：MoE + MTP 让 35B 模型在笔记本 5090 上跑到 249 token/s，比同系列 27B 稠密模型快 3.4 倍，挺离谱的。点评：Qwen3.6 的 35B-A3B 混合专家模型（每次只激活约 3B 参数）配合 MTP 投机解码（让模型先猜几个后续 token，猜对了就一次多出几个 token），在笔记本版 RTX 5090（24GB）上跑出 249 token/s...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

11:50

66d ago

Hacker News 首页· rssEN11:50 · 05·23

从第一性原理让深度学习跑得更快

这篇博客把深度学习性能优化拆成三个瓶颈：计算（GPU算浮点运算的时间）、内存带宽（搬数据的时间）、开销（其他杂项）。作者用工厂比喻解释——你买了312 teraflops的算力，但大部分时间可能花在搬材料上，而不是真正干活。比如非矩阵乘法的算子（像layer norm）只占BERT总FLOPs的0.2%，却因为内存带宽限制跑得极慢。正文没有披露具体优化...

#Inference-opt#Commentary

一句话点评

这篇把深度学习性能瓶颈拆成计算、内存带宽、开销三个工厂比喻，说人话讲清了为什么非矩阵乘法的算子（如layer norm）只占BERT总FLOPs的0.2%，却因内存带宽限制跑得极慢。正文没披露具体优化方法或硬件条件，更像科普框架而非实操指南。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

52

SCORE

H1·K0·R0

11:40

66d ago

FEATUREDr/LocalLLaMA· rssEN11:40 · 05·23

Qwen3.6 27B模型40GB显存100k上下文推理速度实测

Reddit用户实测，用40GB显存跑Qwen3.6 27B模型，在100k上下文窗口下生成速度22-30 tok/s，提示处理速度300-500 tok/s。这个速度对本地部署来说算不错了，但正文没披露具体量化精度和硬件配置（比如是否用多卡或量化），所以实际效果可能因设置不同有出入。

#Agent#Inference-opt#Multimodal#Qwen

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

这条帖子本身被 Reddit 屏蔽了，正文没披露任何测试数据，只能看到标题在问怎么解读结果。

锐评

这条信息其实是个空壳。帖子标题是“有人能帮我解释一下这些结果吗？”，但正文被 Reddit 的网络安全机制拦住了，我们看不到任何图表、数字或测试配置。标题里提到的 Qwen3.6 27B 在 100k 上下文窗口下的推理性能测试，具体测了什么、跑分多少、用了什么框架，一概不知。从标题推测，发帖人可能跑出了一组让他困惑的数据，比如长上下文下速度骤降、显存异常，或者质量波动。但没看到原始截图，这些只能是猜测。如果你手上有这份测试结果，我会先看三个点：用的是哪种注意力实现（flash attention 还是原生），KV 缓存是 FP16 还是量化过的，以及测试的 prompt 长度是不是真的塞满了 100k。这三个变量对长窗口推理的影响比模型本身还大。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

11:01

66d ago

彭博科技· rssEN11:01 · 05·23

黄仁勋喊超微收紧合规，台湾审查风暴下供应链承压

彭博报道，英伟达CEO黄仁勋要求超微电脑（Super Micro）加强合规管理，背景是台湾正在收紧对AI服务器出货的审查。正文没披露具体违规细节、超微的回应，也没说台湾审查到底卡了什么环节。这件事的信号是：美国芯片巨头已经在主动要求代工厂配合出口管制，供应链合规成本会继续上升。

#Nvidia#Super Micro#Bloomberg#Policy

一句话点评

黄仁勋亲自催超微电脑加强合规，背景是台湾收紧AI服务器出货审查。信号很明确：美国芯片巨头在主动压代工厂配合出口管制，供应链合规成本只会更高。正文没披露超微具体违规了什么、台湾审查卡在哪个环节，也没给超微的回应。信息缺口不小，但方向已经够清楚——合规不再是法务部门的事，而是直接影响出货节奏的硬约束。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

11:00

66d ago

FEATUREDThe Verge · AI· rssEN11:00 · 05·23

上手 Gemini Omni：什么都能转什么都能生，我先拿毛绒玩具试了试

作者去年用 Gemini 给儿子的毛绒鹿做过一段度假视频，没给孩子看，但这件事让他反复琢磨“无害的 AI 乐子”和“纯 AI 垃圾”之间的那条线。这次上手 Gemini 的“任意输入、任意输出”新模型，他再次拿那只毛绒鹿做了一段 deepfake 视频，发现生成逼真视频的工具已经好用到几乎不需要技术门槛，而且这个趋势还在加速。正文没披露模型参数量、定价...

#Multimodal#Vision#Google#Gemini

精选理由

精选 · 重要度 73 · 吸引力 + 共鸣

一句话点评

作者又拿儿子的毛绒鹿做 deepfake 视频，工具已经简单到几乎没门槛，但正文没给模型参数、定价和上线时间，这点先别太激动。

锐评

这篇上手体验更像一篇随笔，而不是产品评测。作者用 Gemini 的新模型给一只毛绒鹿生成了一段逼真视频，想讨论“无害的 AI 乐子”和“纯 AI 垃圾”之间的界限。他得出的核心判断是：生成逼真视频的工具已经好用到几乎不需要技术门槛，而且这个趋势还在加速。但正文来自 RSS 片段，信息量很有限。没披露模型参数量、推理成本、生成延迟，也没提安全控制措施或公开发布计划。唯一能确认的是输入输出模态很灵活，能做到“任意输入、任意输出”。想认真评估这个模型还缺太多关键信息：它比现有视频生成方案到底快多少、省多少？在 deepfake 滥用上 Google 加了哪些限制？这些都没说。目前只能把它当成一个信号：大厂的多模态生成能力又往前拱了一步，但离可用的产品还有多远，正文没给答案。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

73

SCORE

H1·K0·R1

10:01

66d ago

r/LocalLLaMA· rssEN10:01 · 05·23

本地大模型社区活跃度下降，是不是泡沫快破了？

Reddit 用户 fairydreaming 发帖说 LocalLLaMA 板块的参与度在下降，还引用了 Google Trends 数据。但正文没披露具体趋势数值、时间范围和测量方法，所以这个判断目前只能当个信号看，不能当结论。如果社区活跃度真的持续走低，可能说明大家对本地跑大模型的预期在降温，但这点先别太激动——也可能是用户分流到了其他平台或工具。

#Reddit#LocalLLaMA#Google#Commentary

一句话点评

Reddit LocalLLaMA 板块用户发帖称社区活跃度下降，并引用 Google Trends 数据，但正文没披露具体趋势数值、时间范围和测量方法，所以这个判断目前只能当个信号看，不能当结论。如果社区活跃度真的持续走低，可能说明大家对本地跑大模型的预期在降温，但这点先别太激动——也可能是用户分流到了其他平台或工具。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

56

SCORE

H1·K0·R1

09:46

66d ago

AI HOT 精选· aihot-apiZH09:46 · 05·23

Mistral收购Emmi AI，补物理仿真团队做工业AI

Mistral AI宣布收购Emmi AI，后者有30多名物理仿真和数字孪生方向的研发人员。这笔交易的核心是补人——Mistral想用物理仿真能力做工业AI，比如在制造、能源场景里让模型理解真实物理规律。数字孪生就是给设备建一个虚拟副本，可以低成本跑模拟、做预测。30多人不算大团队，但对工业AI这种重垂直场景来说，关键人才比人数重要。正文没披露收购金额...

#Robotics#Mistral AI#Emmi AI#Partnership

一句话点评

Mistral 收购了做物理仿真和数字孪生的 Emmi AI，30 多人团队，想补工业 AI 的物理理解能力。数字孪生就是给设备建虚拟副本，低成本跑模拟。30 人不大，但工业场景关键人才比人数重要。正文没披露收购金额，也没说具体落地客户，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

70

SCORE

H1·K1·R0

09:16

66d ago

r/LocalLLaMA· rssEN09:16 · 05·23

DGX Spark 跑 Agent 实测：4 路并发 138 TPS，但 30K 上下文是极限

Reddit 用户用 DGX Spark 跑 RedHatAI/Qwen3.6-35B-A3B-NVFP4，塞了 30K token 的提示词，输出 5000 token。单流约 51 TPS，4 路并发时总吞吐 138.56 TPS。数字看着不错，但注意：30K 上下文已经是极限，再长可能撑不住。正文没披露显存占用和功耗，所以实际部署成本不好判断。

#Agent#Tools#Inference-opt#RedHatAI

一句话点评

DGX Spark 跑 Qwen3.6-35B 的 agent 实测：30K 提示词+5K 输出，单流 51 TPS，4 路并发总吞吐 138.56 TPS。数字不错，但 30K 上下文已是极限，再长可能崩。正文没披露显存和功耗，实际部署成本不好判断。短评：单流 51 TPS 够用，但上下文短是硬伤。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

08:51

66d ago

r/LocalLLaMA· rssEN08:51 · 05·23

求推荐印度语言语音识别模型：Sarvam Saaras v3 被点名，但价格和跑分都没说

Reddit 用户求推荐能识别印地语、南印语言和中英混说的语音识别模型，要求拿来就能用，不想自己微调。有人提了 Sarvam Saaras v3，但正文没披露它的基准分数、定价或部署限制，所以没法判断它到底好不好用、贵不贵。

#Audio#Reddit#Sarvam#Saaras v3

一句话点评

Reddit 用户求推荐能识别印地语、南印语言和中英混说的语音识别模型，要求拿来就用。有人提了 Sarvam Saaras v3，但正文没披露它的基准分数、定价或部署限制，所以没法判断它到底好不好用、贵不贵。短评：有人推荐但没给分数和价格，先别急着用。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

42

SCORE

H0·K0·R1

08:00

66d ago

FEATUREDFT · 科技· rssEN08:00 · 05·23

SpaceX、OpenAI 和 Anthropic 计划IPO融资

FT 标题说这三家明星公司的上市会检验 AI 泡沫能撑多大，但正文被付费墙挡住，没披露估值、时间表、募资额或交易结构。信息缺口：不知道它们打算融多少钱、按什么估值上、以及上市后老股东怎么退出。

#SpaceX#OpenAI#Anthropic#Funding

精选理由

精选 · 重要度 82 · 吸引力 + 共鸣

一句话点评

三家公司同时传出IPO，但FT这篇正文被付费墙挡了，具体估值和财务数据都没看到，先别急着下注。

锐评

SpaceX、OpenAI 和 Anthropic 扎堆准备上市，这件事本身比任何一家单独 IPO 都更有信号意义——市场正在逼着这些烧钱大户从私募转向公开市场募资。FT 的标题暗示这会是一场“选边站”的巨型 IPO 竞赛，但正文被付费墙锁死，我们看不到具体的估值区间、营收数据或承销商名单。从已知信息判断，这三家代表了完全不同的赌注：SpaceX 赌的是实体基建和太空经济，OpenAI 赌的是通用大模型的规模化变现，Anthropic 赌的是更谨慎的安全路线也能跑通商业闭环。它们同时冲击公开市场，会一次性吸走大量资金，对后面排队的 AI 和深科技公司形成挤出效应。但关键问题全在细节里——各自的亏损规模、收入结构里有多少是关联方订单、上市后原有大金主会不会借机减持，这些正文都没披露。等招股书出来再细看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

82

SCORE

H1·K0·R1

07:45

66d ago

AI 群聊日报· atomZH07:45 · 05·23

GPT-5 推翻 80 年数学猜想；DeepSeek V4 Pro 永久降价至 1/4；GLM-5.1 高速版 400 tokens/s；ds4 引擎让 ...

GPT-5 否证了 Erdős 1946 年提出的平面单位距离猜想，Fields 奖得主 Gowers 审阅后说如果是人类投稿他会直接推荐接受。DeepSeek V4 Pro 把促销价永久化，输入缓存命中 0.025 元/百万 token，输出 6 元，群友说正愁六月涨价结果直接变长期价。GLM-5.1 高速版跑到 400 tokens/s，比 Hai...

#Reasoning#Inference-opt#Tools#OpenAI

一句话点评

GPT-5 否证了 Erdős 1946 年的平面单位距离猜想，Fields 奖得主 Gowers 审阅后说如果是人类投稿他会直接推荐接受。关键信号：模型是通用 LLM 而非专为数学训练，说明推理能力跨领域迁移了。DeepSeek V4 Pro 把促销价永久化，输入缓存命中 0.025 元/百万 token，输出 6 元，群友说正愁六月涨价结果直接变长期价。GLM-5.1 高速版跑到 400...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

07:44

66d ago

r/LocalLLaMA· rssEN07:44 · 05·23

有人在 RX 9060 XT 上跑了 Gemma4 26B 量化版，38 token/秒，90k 上下文不崩

Reddit 用户用 mudler 做的 Gemma4 26B A4B Apex GGUF 量化模型，在 RX 9060 XT 16GB 显卡上通过 llama.cpp Vulkan 跑，测出 38 token/秒的生成速度，上下文拉到 90k 也没出现循环或明显的质量下降。这个速度对本地跑 26B 模型来说算快的，而且长上下文没崩说明量化做得比较稳。...

#Inference-opt#Gemma#mudler#llama.cpp

一句话点评

Reddit 用户实测，Gemma4 26B A4B 的 Apex 量化版在 RX 9060 XT 16GB 显卡上跑出 38 token/秒，上下文拉到 90k 也没崩。这个速度对本地 26B 模型算快的，长上下文没出循环或质量下降，说明量化做得稳。但注意：来源是单用户自测，显卡是 AMD 中端卡，N 卡表现未知；正文被墙，没披露量化具体参数和测试细节。如果这速度能复现，16GB 显存跑 ...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

07:15

66d ago

AI HOT 精选· aihot-apiZH07:15 · 05·23

飞书里直接调本地 Claude Code，开源项目已上线

feishu-claude-code-bridge 这个开源项目把飞书和本机的 Claude Code CLI 连起来了。你在飞书发消息，它转成 prompt 传给 `claude -p` 执行，再把输出流式同步回飞书。反过来 Claude 也能读飞书里的上下文、创建编辑文档。相当于把飞书当聊天界面，背后跑本地模型干活。项目还能扩展接 Codex 等其...

#Agent#Code#Tools#Feishu

一句话点评

飞书当聊天界面，背后跑本地 Claude Code 干活，挺实用。但注意 6 月 15 日起 `claude -p` 模式要单独计费，成本会涨。项目开源可扩展，但正文没披露延迟和稳定性数据，生产环境需谨慎。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

05:23

66d ago

FEATUREDAI HOT 精选· aihot-apiZH05:23 · 05·23

微软自己算了一笔账：有些活交给 AI 干，比雇人还贵

微软在一份报告里直接对比了两种成本：用 token 计费调用模型、用 agent 跑业务流程，以及雇人干同样的活。结论是，在这些特定场景下，AI 的综合开销已经超过了人工工资。报告没展开讲具体是什么任务、人力成本按哪个市场算的，但至少说明现在企业上 AI，不是闭着眼就能省钱。

#Agent#Microsoft#Commentary

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

微软自己算了一笔账，发现用 AI 跑某些任务比雇人还贵，别急着把活儿都甩给模型。

锐评

微软这份报告直接捅破了一层窗户纸：现在上 AI 不一定省钱。他们对比了按 token 调用模型和用 agent 跑业务流程的开销，发现综合成本已经超过了雇人干同样活的工资。这个结论挺实在，但正文没披露具体是什么任务、人力成本按哪个市场算的，也没给数字——缺了这些，我们没法判断是普遍现象还是只在某些高人力成本地区、某些复杂任务上成立。对企业来说，这条信息最大的价值是提醒：别把 AI 当成默认的降本工具。token 计费模式下，高频调用很容易把账单堆上去；agent 跑流程如果没设计好回退和人工兜底，隐性成本更高。我会先打个折——如果任务本身容错率低、需要大量上下文或频繁调用外部工具，AI 的成本优势可能真不如雇个实习生。还缺两样东西：一是微软有没有算上模型微调、运维和集成的人力成本；二是对比基准——雇人工资是按美国还是全球均值算的。这些不补上，结论就只能当个警示，不能当决策依据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

05:21

66d ago

r/LocalLLaMA· rssEN05:21 · 05·23

给 Gemma4 31B 写了个 Jinja 模板，专治思维标签不闭合

Reddit 用户 ggonavyy 发了个 llama.cpp 用的 Jinja 模板，说在 Pi-coding-agent 测试里不再出现 thinking 标签打开或关闭的错误。帖子没贴跑分，也没说怎么复现，所以效果到底多稳得自己试。

#Code#Agent#Tools#Google

一句话点评

一个 Reddit 用户给 Gemma4 31B 做了个 Jinja 模板，号称能修掉 thinking 标签开关错误。没跑分、没复现步骤，效果稳不稳得自己试。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

61

SCORE

H1·K1·R0

04:46

66d ago

Product Hunt · AI· rssEN04:46 · 05·23

Goldfish：按一下 Option，它就知道你最近在忙什么

Goldfish 是一个 Mac 上的 AI 写作助手，核心卖点是“不用重复交代背景”。它会在本地记住你最近的工作内容，在任何应用里按 Option 键就能直接写回复、总结聊天记录、改写句子或调取之前的信息，省去复制粘贴和重新解释的麻烦。目前只支持 Mac，正文没披露用了什么模型、是否支持 Windows 以及具体定价，隐私方面只说了“本地记忆”，但没...

#Goldfish#Ben Lang#Haylli Weintraub

一句话点评

Goldfish 是一个 Mac 端 AI 写作助手，核心卖点是“不用重复交代背景”。它会在本地记住你最近的工作内容，在任何应用里按 Option 键就能直接写回复、总结聊天记录、改写句子或调取之前的信息，省去复制粘贴和重新解释的麻烦。目前只支持 Mac，正文没披露用了什么模型、是否支持 Windows 以及具体定价，隐私方面只说了“本地记忆”，但没说明记忆的存储方式和数据是否加密。短评：省...

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

55

SCORE

H1·K0·R0

04:21

66d ago

Latent Space· rssEN04:21 · 05·23

模型厂都在转型做 Agent 了：OpenAI、AI21、DeepSeek 集体转向

Latent Space 汇总了 5 月 4-5 日的 AI 新闻，翻遍 12 个 Reddit 板块和 544 个 Twitter 账号后得出一个判断：OpenAI、AI21、DeepSeek 这些模型公司正在把产品重心从“卖模型”转向“卖 Agent”——也就是把模型装进业务流程、UI、记忆和成本结构里一起卖。OpenAI 的 Greg 直接说“模...

#Agent#Tools#Code#Latent Space

一句话点评

OpenAI、AI21、DeepSeek 等模型公司集体转向卖 Agent——把模型装进业务流程、UI、记忆和成本结构里一起卖。Greg 直言“模型不再是产品”，AI21 甚至裁掉模型团队。DeepSeek 首次组建“Harness 团队”。但正文没披露这些 Agent 产品的实际效果或用户数据，判断主要来自高管发言和团队调整，验证还弱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

03:47

66d ago

● P1量子位 · 公众号· rssZH03:47 · 05·23

DeepSeek V4 继续打价格战，缓存输入每百万 token 只要两分五；宁德时代、京东、网易在谈投资，梁文锋说目标是通用人工智能

DeepSeek-V4-Pro 的 API 从 6 月 1 日起维持促销价，缓存输入每百万 token 收 0.025 元人民币，这个价格在同类模型里算很低了。彭博社的消息说 DeepSeek 正在谈一轮 700 亿人民币的融资，投前估值 450 亿美元，宁德时代、京东、网易都有意参与。创始人梁文锋对外表态，公司的目标还是通用人工智能（AGI）。不过原...

#Inference-opt#DeepSeek#CATL#Liang Wenfeng

精选理由

精选 · 重要度 90 · 吸引力 + 知识量 + 共鸣

一句话点评

DeepSeek V4 Pro 把缓存输入打到每百万 token 两分五厘，价格战继续。但正文被验证页挡了，融资和 AGI 表态都只能看摘要。

锐评

这条消息最实在的点是价格：DeepSeek-V4-Pro 的缓存输入每百万 token 收 0.025 元人民币，在同类模型里确实很低，对高频调用场景能省一笔。彭博社传的融资规模很大，700 亿人民币、投前估值 450 亿美元，宁德时代、京东、网易这些名字也出现了，说明资本和产业方都在押注。梁文锋重申目标是 AGI，这个表态本身不新鲜，但在融资传闻的背景下，更像是对投资人喊话。不过原文被微信的验证页挡住了，我们只能依赖摘要。融资轮次、具体条款、资金用途这些关键信息都没法核实。价格虽然低，但没看到性能对比和实际吞吐限制，不知道便宜是不是以牺牲速度或质量换来的。另外，V4 Pro 和之前版本的能力差异、开源策略有没有变化，正文也没披露。这些缺口让整条消息更像一个信号而非可评估的事实。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

90

SCORE

H1·K1·R1

03:44

66d ago

Hacker News 首页· rssEN03:44 · 05·23

微软自己算账：AI 比雇人还贵

微软内部测算发现，用 AI 处理某些任务的成本高于直接雇人。正文没披露具体对比了哪些岗位、用了什么模型、以及 token 消耗量或 agent 调用次数，所以这个“更贵”到底贵多少、在什么场景下成立，目前还不清楚。但微软自己承认 AI 成本高，说明大模型落地时，推理开销和人工替代之间的经济账还没算平。

#Agent#Microsoft#Commentary

一句话点评

微软自己算账发现，用AI处理某些任务比雇人还贵。正文没披露对比了哪些岗位、用了什么模型、token消耗量或agent调用次数，所以“更贵”到底贵多少、在什么场景下成立，目前不清楚。但微软承认AI成本高，说明大模型落地时推理开销和人工替代之间的经济账还没算平。短评：微软自己说AI比人贵，但没给具体数字和场景，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

03:27

66d ago

FEATUREDr/LocalLLaMA· rssEN03:27 · 05·23

美团 LongCat 放出视频数字人模型 1.5 版，换用 Whisper 做语音驱动，推理步数压到 8 步

美团 LongCat 在 Hugging Face 上发了 LongCat-Video-Avatar-1.5，模型权重用 MIT 协议开源。它能做音频驱动视频、音频加图片驱动视频，还能接着一段视频往后生成。这版把语音编码器从 Wav2Vec2 换成了 Whisper-Large，理论上对语音的理解会更准。推理部分用 DMD2 蒸馏把步数降到了 8 NF...

#Multimodal#Audio#Vision#Meituan

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

美团把数字人模型升级到1.5版，MIT协议开源，推理步数砍到8步，但正文没给任何效果对比数据。

锐评

LongCat-Video-Avatar-1.5 这次更新主要做了两件事：一是把语音编码器从 Wav2Vec2 换成了 Whisper-Large，理论上对语音内容的理解会更准，不再只是听个音色；二是用 DMD2 蒸馏把推理步数压到了 8 NFE，生成速度应该快了不少。模型权重用 MIT 协议发在 Hugging Face 上，商用友好，这点对做数字人集成的团队比较实在。但这条消息最大的问题是没给任何量化结果。换了编码器之后口型同步率有没有提升、8 步蒸馏相比原版画质损失多少、延迟降到什么程度，正文一概没提。Reddit 原帖还被屏蔽了，只能看到 Hugging Face 页面上的说明，信息源本身就打了折扣。我会先打个折看待这个版本：开源和低步数是实打实的，但效果提升目前只能靠“理论上”三个字撑着。想用的团队最好自己跑一遍测试集，别只看蒸馏步数就冲。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

03:16

66d ago

FEATUREDr/LocalLLaMA· rssEN03:16 · 05·23

club-rdna16：一个在 16GB AMD 显卡上实测本地大模型的仓库

这个仓库用一张 RX 6900 XT（16GB 显存）跑 llama.cpp，后端是 ROCm/HIP，专门验证 AMD 卡在本地跑大模型的实际表现。目前放出的一个亮点是 Qwen3.6 35B-A3B 这个 MoE 模型，用 q8 格式缓存 KV 状态，能稳定撑到 131k 上下文窗口。正文没披露具体的推理速度、功耗和温度数据，所以性能上限和日常可用...

#Inference-opt#Benchmarking#Qwen#AMD

精选理由

精选 · 重要度 73 · 吸引力 + 知识量 + 共鸣

一句话点评

一张 RX 6900 XT 跑 Qwen3.6 35B-A3B 能撑到 131k 上下文，但正文没给速度和功耗，先别太激动。

锐评

这个仓库用一张 16GB 显存的 RX 6900 XT 跑 llama.cpp，后端是 ROCm/HIP，专门验证 AMD 卡在本地跑大模型的实际表现。目前放出的一个亮点是 Qwen3.6 35B-A3B 这个 MoE 模型，用 q8 格式缓存 KV 状态，能稳定撑到 131k 上下文窗口。131k 意味着你可以一次性塞进一本中篇小说或大量代码文件，对本地长文本处理来说是个不错的信号。但正文没披露推理速度、功耗和温度数据，所以性能上限和日常可用性还不好判断。AMD 卡跑大模型的老问题是生态兼容和优化不如 NVIDIA，这个仓库能跑通本身就有参考价值，但别把它当成性能标杆。另外，仓库只测了一张卡，多卡或不同型号的表现未知。还缺什么：具体的 token 生成速度、首 token 延迟、内存占用峰值，以及不同量化格式下的对比。如果作者能补上这些，对想用 AMD 卡跑本地模型的人会更有说服力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

73

SCORE

H1·K1·R1

02:35

66d ago

AI HOT 精选· aihot-apiZH02:35 · 05·23

Kling AI 在戛纳办了场官方会，聊 AI 怎么进电影制作流程

Kling AI 在戛纳电影市场（Marché du Film）搞了场官方会议，跟全球电影人聊 AI 怎么真正进制作流程。官方说它已经用在动画长片、好莱坞剧集、实验短片和院线电影四种类型上。正文没披露具体合作方或项目细节，所以这点先别太激动——能进戛纳本身是个信号，但实际落地效果和规模还不清楚。

#Multimodal#Vision#Kling AI#Marché du Film

一句话点评

Kling AI 在戛纳电影市场办了官方会议，宣称已用于动画长片、好莱坞剧集、实验短片和院线电影四种类型。能进戛纳是个信号，但正文没披露具体合作方或项目细节，实际落地效果和规模还不清楚，这点先别太激动。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

35

SCORE

H0·K0·R1

01:39

66d ago

AI HOT 精选· aihot-apiZH01:39 · 05·23

Models.dev：一个开源 AI 模型数据库，查规格和定价用的

Models.dev 在 GitHub 上开源了一个 AI 模型数据库，收录了各模型的规格、定价和功能信息。项目在 Hacker News 上拿到了 101 个点赞，但正文没披露具体收录了多少个模型。如果你经常对比不同模型的价格和参数，这个库能省去挨个翻文档的麻烦。

#Models.dev#GitHub#Hacker News#Open source

一句话点评

Models.dev 在 GitHub 上开源了一个 AI 模型数据库，收录各模型的规格、定价和功能。Hacker News 上拿了 101 个赞，但正文没披露具体收录了多少个模型。如果你经常对比不同模型的价格和参数，这个库能省去挨个翻文档的麻烦。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

01:10

66d ago

r/LocalLLaMA· rssEN01:10 · 05·23

G4-MeroMero-26B-A4B：Gemma 4 的 uncensored 微调版，拒绝率降到 12%

LLMFan46 放出了 G4-MeroMero-26B-A4B-it-uncensored-heretic，这是基于 Google Gemma 4 的 26B 参数（实际激活 4B）模型做的微调版，主打“不设限”。标题里两个关键数字：KLD 0.0152 说明微调后和原模型的输出分布偏离很小，基本没改模型能力；12/100 的拒绝率意味着每 100 ...

#Fine-tuning#Benchmarking#LLMFan46#Hugging Face

一句话点评

基于Gemma 4的26B参数模型（实际激活4B）做了个不设限微调版。KLD 0.0152说明输出分布偏离很小，基本没改原模型能力；12/100拒绝率意味着每100次提问只拒绝12次，比原版宽松不少。但正文被屏蔽，没披露具体用了什么数据、基准测试结果如何，也没说微调成本。如果真能保持原模型质量又降低拒绝率，对本地部署和角色扮演场景挺实用，但验证信息不足，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

00:41

66d ago

AI HOT 精选· aihot-apiZH00:41 · 05·23

Google DeepMind 扩大与新加坡合作，主攻科学发现、防疫和医疗

Google DeepMind 宣布扩大与新加坡的合作，新项目覆盖三个方向：加速科学发现、加强大流行病防范和改善医疗保健。正文没披露预算、时间表、具体模型或部署规模，所以目前只能知道合作范围变宽了，但投入多大、落地多快还不清楚。

#Safety#Google DeepMind#Singapore#Partnership

一句话点评

DeepMind 跟新加坡的合作又扩大了，这次覆盖科学发现、大流行病防范和医疗三个方向。但正文没披露预算、时间表、具体模型或部署规模，所以目前只能知道合作范围变宽了，投入多大、落地多快还不清楚。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

63

SCORE

H0·K1·R0

00:05

66d ago

FEATUREDAI HOT 精选· aihot-apiZH00:05 · 05·23

奥纬咨询调查：74%的科技公司CEO在冻结或缩减招聘，AI正在吃掉初级岗位

奥纬咨询这份全球CEO调查里，科技行业被AI冲击得最狠。74%的CEO说正在冻结或减少招聘，比去年又高了7个百分点。大公司下手更重，39%的“超大规模”企业计划裁员，小公司这个比例是28%。最惨的是初级岗位：打算在未来一两年砍掉入门级职位的CEO比例，从去年的17%直接翻到43%。只有17%的CEO说会多招新人。报告把这叫“把人才金字塔削成了钻石”——...

#Oliver Wyman#Commentary

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

科技公司砍入门岗的意愿一年翻倍，从17%跳到43%，但67%的AI部署还在试点阶段——裁人比用AI快，这个时间差会先伤到团队。

锐评

奥纬咨询这份调查把科技行业的招聘收缩讲得很直白：74%的CEO在冻结或缩减招聘，比去年又高了7个百分点。最扎眼的是初级岗位，打算在未来一两年砍掉入门级职位的CEO比例从17%翻到43%，而愿意多招新人的只有17%。报告把这叫“把人才金字塔削成了钻石”——中层还在，底层被抽掉。不过这里有个关键信息缺口：超过90%的CEO说在部署AI，但67%仍停在规划或试点阶段。也就是说，裁人的决心跑得比AI落地快得多。报告自己也提醒，如果裁员速度超过了AI真正能顶上的速度，企业会先暴露在运营风险里。另外，正文没披露样本量和地区分布，不知道这74%到底代表多少家公司、覆盖哪些市场，所以这个比例先别直接当成全球科技行业的精确切片。还缺一个视角：砍掉入门岗之后，三年后的中层从哪来。报告提了这个问题，但没给答案。如果企业现在不投资初级员工，未来的人才梯队和文化会是什么样，这点CEO们自己也没想清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户