ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-05-16

63 items · updated 3m ago
RSS live
2026-05-16 · 星期六2026年5月16日
23:39
27d ago
r/LocalLLaMA· rssEN23:39 · 05·16
有人试过 MTP 预发布分支吗?速度能快 20%
一位用户在双路 Xeon 8268 CPU 加 Tesla T4 的机器上测试了 llama.cpp 的 MTP 预发布分支,输出速度约 38 tokens/s,比正式版的 30 tokens/s 快了约 20%。正式版还在轻量编码时崩溃过,预发布版反而没出问题。不过这只是单用户单配置的体验,正文没披露 MTP 分支的具体改动或稳定性测试,这点先别太激动。
#Inference-opt#Vision#Code#Reddit
精选理由
HKR三项都过,但这是单条Reddit用户对llama.cpp预发布分支的体验,没有可复现的配置细节,也没有上游确认。对本地推理用户有用,但对更广的AI行业来说信号弱。
一句话点评
一位用户在双路Xeon 8268加Tesla T4上测试llama.cpp的MTP预发布分支,输出速度约38 tokens/s,比正式版30 tokens/s快约20%。正式版轻量编码时崩溃,预发布版反而没出问题。不过这只是单用户单配置体验,正文没披露MTP分支的具体改动或稳定性测试,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K1·R1
23:04
27d ago
AI HOT 精选· aihot-apiZH23:04 · 05·16
Figure人形机器人连续自主运行四天,仓库里干到第四天没停
Figure的F.03机器人在真实仓库里24小时不间断干活,抓取、搬运、分拣,已经连续跑了四天。测试目的是看它能撑多久、出什么故障、怎么恢复。之前人形机器人大多是演示单次动作,这次是测持续工作能力,离实用更近一步。正文没披露具体故障次数和维护间隔,所以这点先别太激动,但能连续跑四天本身是个信号。
#Robotics#Agent#Figure#Benchmark
精选理由
四天24/7仓库测试是个实在的进展,但来源单薄,没给故障率、维护间隔和对比基线,所以分数压在60-71区间。
一句话点评
Figure的F.03机器人在真实仓库里连续自主运行四天,抓取、搬运、分拣,测的是持续工作能力而非单次演示。正文没披露故障次数和维护间隔,这点先别太激动,但能跑四天本身是个信号——人形机器人从‘能动’往‘能干’迈了一步。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
22:19
27d ago
r/LocalLLaMA· rssEN22:19 · 05·16
Qwen 3.6 35B 在双 3090 上跑 MTP 后速度掉到 80 t/g,有人试出更好的方案吗?
Reddit 用户分享在双 RTX 3090 上跑 Qwen 3.6 35B 的实测:分两层部署时 prompt 处理速度 1500 token/秒,生成速度 120 token/秒;但 llama.cpp 合并 MTP(多 token 预测,让模型一次猜多个 token 来加速推理)后,生成速度降到 80 token/秒。该用户目前改用 CPU 溢出...
#Inference-opt#Qwen#llama.cpp#NVIDIA
精选理由
HKR 三项都过,钩子来自 MTP 合并后吞吐不升反降的反直觉结果,数字具体到 120→80 t/g 和 3500 p/p 的 CPU overflow,对跑本地大模型的人有参考价值。但来源是单条求助帖,没有披露完整配置或可复现的 benchmark,所以放在 lower all 档。
一句话点评
双3090跑Qwen 3.6 35B,MTP合并后生成速度从120掉到80 token/秒,反而变慢了。用户改用CPU溢出方案,prompt处理冲到3500 token/秒,但生成还是80。MTP理论上能加速,实测却降速,说明当前实现或配置还有坑。正文没披露具体MTP参数和模型量化精度,这两点对结果影响很大。社区还在等优化,别急着上MTP。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K1·R1
21:54
27d ago
持续报道 · 1dr/LocalLLaMA· rssEN21:54 · 05·16
Qwen3.5-122B 量化版实测:Q5 跑出 20 tok/s,比 Q6 快 18%
Reddit 用户用 llama.cpp 的 MTP 模式跑了两个 Qwen3.5-122B 的量化版。Q5 版本在 4200 个评估 token 上达到 20.24 tok/s,Q6 版本在 3283 个 token 上跑到 17.17 tok/s。Q5 比 Q6 快了约 18%,但精度损失多少正文没披露。MTP 是让模型在生成时提前预测多个 tok...
#Inference-opt#Benchmarking#Qwen#Unsloth
精选理由
HKR-K 和 HKR-R 通过:帖子给出了 llama.cpp ROCm MTP 下的具体吞吐数字,且涉及本地推理成本。HKR-H 不通过,且仅单条 Reddit 来源、缺少硬件与质量细节,因此归入 all。
一句话点评
Qwen3.5-122B 量化版在 llama.cpp 的 MTP 模式下跑出 20 tok/s,比 Q6 快 18%,但精度损失没披露。MTP 就是让模型生成时提前猜多个 token,类似投机解码。测试 token 数只有几千,参考价值有限。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
21:34
27d ago
r/LocalLLaMA· rssEN21:34 · 05·16
有人在 Mac mini 上跑通了 δ-mem 长记忆方案,LoCoMo 评分从 0.05 涨到 0.18
一位 Reddit 用户把 δ-mem(一种给大模型加长期记忆的新方法)移植到了 MLX 框架上,在 64GB 内存的 Mac mini 上跑 Qwen3-4B-Instruct。搭配 OpenClaw 历史记录后,LoCoMo-10 mini 长程记忆评分从 0.05 提升到 0.18(满分未知,但涨幅接近 3.7 倍),OpenClaw 回放测试的...
#Memory#Agent#Benchmarking#Apple
精选理由
HKR 三项都过,但这是 Reddit 单用户实验,配置小(64GB Mac mini),复现细节也不够,所以留在 all 层,不到 72 分 featured 门槛。
一句话点评
有人在64GB Mac mini上把δ-mem(一种给大模型加长期记忆的新方法)移植到了MLX框架,跑Qwen3-4B。长程记忆评分从0.05涨到0.18,涨了近3.7倍,延迟只多了30%。但注意:这是4B小模型,评分满分未知,且正文被屏蔽,没披露测试集规模和复现细节。如果是真的,低成本本地记忆方案挺省钱。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
19:51
27d ago
r/LocalLLaMA· rssEN19:51 · 05·16
本地跑 Qwen 3.6 写 HTML 动画,效果接近顶级模型,速度 2.7 token/秒
有人在 Reddit 上拿同一个“单文件 HTML Canvas 驾驶动画”的 prompt 测了 11 个模型,本地跑的 Qwen3.6-27B Q4_K_M 主观排名第二,仅次于 Kimi k2.6 Thinking,还超过了 Claude-opus-reasoning-distilled 的 27B 量化版。代价是速度只有 2.70 tok/s,...
#Code#Benchmarking#Qwen#Claude
精选理由
HKR三项都通过,因为这是一个具体的本地vs前沿模型编码测试,有排名和速度数据。但来源是Reddit单帖,只测了一个HTML Canvas任务,样本量和权威性有限,所以分数压在60-71区间。
一句话点评
本地跑 Qwen3.6-27B 量化版,写一个 HTML Canvas 驾驶动画,主观效果排第二,只输给 Kimi k2.6 Thinking,还压过了 Claude 蒸馏版。代价是速度只有 2.7 tok/s,几乎没法交互。测试只有一条 prompt,样本太少,排名参考价值有限。正文被 Reddit 屏蔽,没披露具体评分标准和硬件配置,量化对效果的影响也不清楚。如果是真的,说明小模型在特定...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
19:43
27d ago
AI HOT 精选· aihot-apiZH19:43 · 05·16
Codex 现在能自定义键盘快捷键了
Codex 更新了键盘快捷键自定义功能,你可以在设置里按自己的习惯改键位,不用再死记默认组合。正文没提版本号、支持哪些平台、以及什么时候推送给所有用户,所以想用的话得自己去设置里翻一翻。
#Code#Tools#Product update
精选理由
Codex 一个小 UX 更新:K 项有一条具体功能,但版本号、支持平台和上线时间都没披露,不值得上推荐位。
一句话点评
Codex 终于能自定义快捷键了,不用再死记默认组合。正文没提版本号、支持哪些平台、以及什么时候推送给所有用户,想用的话得自己去设置里翻一翻。短评:改键位这种基础功能现在才加,说明之前团队优先级不在这。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
18:58
27d ago
r/LocalLLaMA· rssEN18:58 · 05·16
一年后我换掉了IDE里的AI补全,改用命令行编码代理
Reddit用户/ievkz分享过去一年的编程习惯变化:不再用IDE里的AI自动补全,转而使用一个支持@引用文件的命令行编码代理。IDE现在只用来做Git对比、调试和导航,这部分工作估计只占他全部工作的5-10%。正文没披露他用的是哪个具体工具或模型,但核心判断是:补全式的AI辅助效率低,不如让代理在终端里直接操作文件。
#Agent#Code#Tools#JetBrains
精选理由
HKR 三项都靠一个具体的工作流切换和那个 5-10% 的断言落地,但这是一条 Reddit 个人经验帖,没有列出具体工具、没有控制对比、也没有可复现的配置,所以留在 all 里,不单独提级。
一句话点评
一位Reddit用户说过去一年编程习惯变了:不再用IDE里的AI自动补全,改用命令行编码代理(@引用文件),IDE只用来做Git对比、调试和导航,这部分只占他工作的5-10%。正文没披露他用的是哪个工具或模型。核心判断是:补全式AI效率低,不如让代理在终端直接操作文件。这点先别太激动——这只是个人经验,样本量1,且没提具体工具和效果对比。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
18:56
27d ago
● P1AI HOT 精选· aihot-apiZH18:56 · 05·16
Eric Jang 从零实现 AlphaGo 训练框架和成本分析
Eric Jang 花了几个月从零实现 AlphaGo,并把过程写成教程和代码放了出来。他原本的理解是“用自我对弈训练的搜索增强神经网络”,但亲手做一遍后对细节有了更深体会。他给出一条关键判断:前沿研究仍然很贵,但特定能力的落地成本掉得很快——到 2026 年,训练一个能打的围棋 AI 租算力只要几千美元,不再需要 DeepMind 级别的资源。他自称...
#Reasoning#Code#Eric Jang#AlphaGo
精选理由
我会先打个折:这是个人分享,不是论文或模型发布,所以信息密度有限。但亮点很明确——Eric Jang 一个人花几个月从零把 AlphaGo 做出来,还给了个具体成本判断:2026 年租算力训强围棋 AI 只要几千美元。这个数字直接说明当年需要大团队、大预算的系统,现在个人和小团队也能碰了。正文没披露具体训练配置和模型强度验证,所以“强”到什么程度还不好说,这点先别太激动。整体适合当一条有话题、有数字、对从业者有参考价值的动态来推。
一句话点评
Eric Jang 用休假时间从零复现了 AlphaGo,并公开了训练成本。这比看论文更实在,能直接摸清当年那套搜索加自我对弈在今天到底要花多少钱。
锐评
Eric Jang 在播客里聊了他从零搭建 AlphaGo 的过程,核心是想搞懂深度神经网络怎么把极其耗时的树搜索“压缩”进一个十层网络里。他提到 AlphaGo 的蒙特卡洛树搜索能给出每一步的明确改进方向,这比现在大语言模型用的强化学习聪明得多——后者得从几万个 token 里猜哪一步做对了,效率极低。 这次复现最有价值的是他顺带做了成本分析,让我们能直观对比 2016 年的烧钱玩法和现在的开销。不过,正文没披露他具体用了什么显卡、花了多少电费或租了多少云实例,只说了是基于现代工具重写。这点信息缺口挺关键,因为成本数字直接决定个人开发者或小团队能不能玩得起这套流程。 另外,他还试了用 AI 自动调参跑实验,发现让模型写代码、调超参已经很顺,但选研究方向、跳出死胡同这类需要“品味”的活,AI 目前还干不了。这个判断很实在,别被“AI 研究员”的噱头带偏,它现在更像一个任劳任怨的实习生,而不是能拍板课题的导师。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
18:31
27d ago
AI HOT 精选· aihot-apiZH18:31 · 05·16
Codex 现在支持自定义快捷键了
OpenAI Devs 说 Codex 现在可以在设置里自定义键盘快捷键,让你按自己的习惯来,不用硬记默认键位。正文没提支持哪些平台、什么时候上线、或者需要什么版本,所以想用的话得自己去设置里翻一翻。
#Code#Tools#OpenAI#Product update
精选理由
HKR-K 和 HKR-R 通过:Codex 在设置里加了可配置快捷键,涉及开发者的工作流习惯。HKR-H 不通过,且正文没披露平台范围或版本号,所以这只是一个小的产品更新。
一句话点评
Codex 现在能自定义快捷键了,不用硬记默认键位,按自己习惯来就行。不过正文没披露支持哪些平台、什么时候上线、需要什么版本,想用的话得自己去设置里翻一翻。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R1
18:12
27d ago
r/LocalLLaMA· rssEN18:12 · 05·16
OpenReader:开源文档朗读器,支持 EPUB/PDF 导出有声书
OpenReader v3.0.0 是一个开源的文档朗读服务器,支持 EPUB、PDF、DOCX、TXT 和 Markdown 格式。它可以用 OpenAI、Replicate、Deepinfra 或自托管的 OpenAI 兼容 API 来生成语音,还能通过 ffmpeg 导出带章节元数据的 m4b/mp3 有声书。简单说就是:你丢进去一本书或一篇文档...
#Audio#Tools#OpenReader#OpenAI
精选理由
H 和 K 都成立:OpenReader 把多格式文档、TTS 后端和有声书导出整合成一个可测试的工具。但只是一个小型开源产品更新,对行业影响有限,所以 R 不成立,tier 保持 all。
一句话点评
OpenReader v3.0.0 是一个开源文档朗读服务器,支持 EPUB、PDF、DOCX、TXT 和 Markdown 格式。它可以用 OpenAI、Replicate、Deepinfra 或自托管的 OpenAI 兼容 API 来生成语音,还能通过 ffmpeg 导出带章节元数据的 m4b/mp3 有声书。简单说就是:你丢进去一本书或一篇文档,它帮你读出来,还能导出成有声书。 短评...
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R0
17:43
27d ago
Product Hunt · AI· rssEN17:43 · 05·16
CtrlOps:用自然语言管 Linux 服务器,部署从 60 分钟缩到 5 分钟
CtrlOps 是一个 AI 终端工具,让你用自然语言给 Linux 服务器下命令,比如部署、调试、监控。它内置脚本库、可视化文件管理、一键从 GitHub 仓库部署,号称原来 60 分钟的部署现在 5 分钟搞定。所有操作在本地执行,凭据不出机器,服务器上不需要装任何代理。目前支持 Mac、Windows、Linux,有免费选项。不过正文没披露定价细节...
#Agent#Code#Tools#CtrlOps
精选理由
HKR-H 和 HKR-R 成立,但 HKR-K 不成立。这更像一个 Product Hunt 风格的工具介绍,没有权限模型、发行版支持和定价信息,所以归入低价值浏览层级。
一句话点评
CtrlOps 让你用自然语言给 Linux 服务器下命令,部署、调试、监控一条龙,号称 60 分钟变 5 分钟。所有操作本地执行,凭据不出机器,服务器不用装代理,这点对安全敏感的用户挺友好。但正文没披露定价细节、权限控制粒度、支持哪些发行版,以及 AI 生成命令出错了怎么兜底。短评:省时间但缺安全细节,先别急着上生产。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R1
17:19
27d ago
r/LocalLLaMA· rssEN17:19 · 05·16
海盗船出AI工作站:Ryzen 395 + 128GB统一内存,能跑大模型吗?
Reddit 上有人贴了海盗船 AI Workstation 300 的配置单:Ryzen AI Max 395 处理器、128GB LPDDR5X 内存(最多可分 96GB 给显存用)、1TB 固态。统一内存意味着 CPU 和 GPU 共享这 128GB,跑大模型时显存上限比普通消费卡高不少,但正文没披露实际跑模型的速度、能跑多大参数量的模型,也没说...
#Inference-opt#Corsair#AMD#Reddit
精选理由
H/K/R 三个信号都沾边,靠的是工作站规格和本地跑模型省钱的讨论角度。但帖子没给 LLM 吞吐量、价格和具体模型测试数据,信息缺口明显,所以落在 40–59 的低价值区间。
一句话点评
海盗船这台工作站用 Ryzen AI Max 395 和 128GB 统一内存,最多能分 96GB 给显存,跑大模型显存上限比普通消费卡高不少。但正文没披露实际跑模型的速度、能跑多大参数量的模型,也没说价格。统一内存带宽有限,跑推理可能比不过独立显卡,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H1·K1·R1
17:02
27d ago
r/LocalLLaMA· rssEN17:02 · 05·16
iOS 上跑本地大模型,哪个 App 能稳定调用自家后端?
Reddit 用户想找个 iOS App,能连自己电脑上的本地推理后端(兼容 OpenAI 接口)。他试了四个:Apollo、Locally AI、Noema、3 Sparks。3 Sparks 能用,但缺 MCP 和联网搜索;Noema 连 Mac Studio 跑 DeepSeek V4 Flash 直接卡死。正文没披露具体报错或硬件配置,所以问题...
#Agent#Tools#Inference-opt#3 Sparks
精选理由
这是一条 Reddit 求推荐帖,不是发布、基准测试或行业事件。但它列出了具体 App 条件和功能缺口(3 Sparks 能用但缺 MCP 和网页搜索),对本地 LLM 用户有参考价值——想省钱省隐私、在手机上跑推理的人会关心。不过信息量有限,正文没披露各 App 的延迟或样本量,判断只能挂在已知缺口上。
一句话点评
Reddit 用户想找个 iOS App 连本地推理后端,试了四个:Apollo、Locally AI、Noema、3 Sparks。3 Sparks 能用但缺 MCP 和联网搜索;Noema 连 Mac Studio 跑 DeepSeek V4 Flash 直接卡死。正文没披露具体报错或硬件配置,所以问题可能出在兼容性或资源占用上。目前没有完美方案,选型得看你对 MCP 和搜索的需求是否迫切。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H0·K1·R1
16:41
27d ago
r/LocalLLaMA· rssEN16:41 · 05·16
Strix Halo 跑 Llama.cpp:27B 模型靠 MTP 提速 22%,35B 反而变慢
有人在 Strix Halo 上测了 Llama.cpp 的 MTP(多 token 预测,即一次预测多个 token 来加速推理)。Qwen3.6-27B-MTP 在 5 轮对话、约 28.5k 上下文下,总耗时从 258.65 秒降到 200.55 秒,快了约 22%。但同设置下 Qwen3.6-35B-MTP 反而从 58.86 秒涨到 60.2...
#Inference-opt#Benchmarking#Qwen#Unsloth
精选理由
单机 llama.cpp/Strix Halo 的 Reddit 测试,受众窄,但具体耗时数据让它在 all 档站得住,不到 featured。
一句话点评
AMD Strix Halo 上测了 Llama.cpp 的多 token 预测(MTP,一次预测多个 token 加速推理)。Qwen3.6-27B 快了约 22%,但 35B 反而慢了。好消息是 27B 在本地跑长对话能省点时间,坏消息是 35B 不升反降,说明 MTP 对模型大小和硬件很敏感。正文没披露具体硬件配置和功耗,这点先别太激动。如果是真的,对本地部署 27B 模型挺省钱。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
16:38
27d ago
AI HOT 精选· aihot-apiZH16:38 · 05·16
vLLM 宣布支持万亿参数模型,但正文没给细节
vLLM 团队发推说社区协作又成了,vLLM 现在能跑万亿参数模型。但正文只感谢了社区,没提具体模型名字、参数到底多少、怎么实现的、能不能复现。标题很猛,信息缺口也很大。
#Inference-opt#vLLM#Product update#Open source
精选理由
标题的万亿级规模是钩子,H 和 R 都成立,但正文信息缺口太大——没披露模型名称、参数规模和复现条件,K 不通过。整体属于有趣但不够上推荐的程度。
一句话点评
短评:标题说能跑万亿参数,正文只感谢社区,没提模型名、参数数、实现方式。信息缺口太大,先别激动。 标题很猛,但正文只有一句“又一次Day0协作,又一次社区胜利”,连模型名字都没提。万亿参数是稀疏MoE还是稠密?用了多少卡、什么硬件、延迟多少?能不能复现?全没披露。vLLM团队一贯靠谱,但这条更像社区感谢信而非技术公告。建议等具体实现细节出来再评估,目前信息不足以判断这是真突破还是标题党。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
15:37
27d ago
The Verge · AI· rssEN15:37 · 05·16
索尼解释 Xperia 1 XIII 的 AI 相机助手:不修图,只给建议
索尼澄清,Xperia 1 XIII 的 AI 相机助手不会自动修图,而是根据光线、景深和拍摄对象,给出曝光、色彩和背景虚化的四种调节建议。它还会推荐“最上镜的角度”,但演示视频里只是建议用户拉近镜头,跟真正找角度不是一回事。索尼之前发的宣传帖引发争议,现在赶紧出来解释。
#Vision#Sony#The Verge#Product update
精选理由
一个消费级AI产品的小更新:HKR-H来自The Verge的防守性报道框架,索尼主动澄清“不烂”制造了话题;HKR-K来自具体的4条建议机制,明确了功能边界;HKR-R对AI从业者较弱,所以留在all层级。
一句话点评
索尼Xperia 1 XIII的AI相机助手不是自动修图,而是根据光线、景深给四种曝光/色彩/虚化建议,还会推荐“最上镜角度”——但演示里只是让用户拉近镜头,跟找角度两码事。索尼之前宣传翻车,现在赶紧澄清。实际效果存疑,建议等实测。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K1·R0
15:28
27d ago
r/LocalLLaMA· rssEN15:28 · 05·16
用 Apple Watch 录音,iPhone 本地转文字,还接入了 Notion 和 Obsidian
开发者发布了一款叫 Dictawiz 的 iOS 应用,核心卖点是 Apple Watch 录音后直接在 iPhone 上本地转文字,用的是 Parakeet 和 Whisper 模型,不需要联网。还做了一个自定义键盘,可以在任何 App 里语音输入。支持发送到 Notion、Obsidian,甚至通过自定义 webhook 和 Cloudflare ...
#Audio#Tools#Memory#Apple
精选理由
H/K/R 都轻度通过:工作流具体,对本地 AI 用户有参考价值,但延迟、准确率和价格都没披露。这是一个实用的独立工具更新,不是行业级新闻。
一句话点评
Dictawiz 让 Apple Watch 录音后直接在 iPhone 本地转文字,用了 Parakeet 和 Whisper 模型,不联网。还做了自定义键盘,能在任何 App 里语音输入,支持发到 Notion、Obsidian 和自定义 webhook。亮点是本地运行,隐私好,但正文没披露延迟、定价、模型大小和准确率。如果是小模型,长录音或嘈杂环境可能翻车。适合快速记想法,但别当主力转...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
15:18
27d ago
r/LocalLLaMA· rssEN15:18 · 05·16
给 llama.cpp 加自定义采样器,有人写了个防重复循环的 demo
DeProgrammer99 给 llama-server 做了个自定义采样器扩展原型,附带一个 C++ 写的循环检测器——专门打断重度量化模型里常见的 1-3 token 重复循环。这个分支基于合并了 MTP(多 token 预测)后的 llama.cpp master,兼容推测解码,还提供了 Windows x64 Vulkan 编译版和一条示例命...
#Inference-opt#Code#Tools#DeProgrammer99
精选理由
HKR-K 和 HKR-R 通过:采样器机制具体,且对本地推理用户有实际意义。HKR-H 偏弱,帖子没有提供基准测试、采用计划或更广泛的产品影响。
一句话点评
DeProgrammer99 给 llama.cpp 的 llama-server 做了个自定义采样器扩展原型,附带一个 C++ 写的循环检测器,专门打断重度量化模型里常见的 1-3 token 重复循环。这个分支基于合并了 MTP(多 token 预测)后的 llama.cpp master,兼容推测解码,还提供了 Windows x64 Vulkan 编译版和一条示例命令。 短评:量化...
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R1
14:54
27d ago
AI HOT 精选· aihot-apiZH14:54 · 05·16
烧吧,宝贝,烧吧:一个帮你销毁代币的开源工具
开发者 dtnewman 在 GitHub 上开源了一个叫“Burn, Baby, Burn”的工具,让用户自己销毁(burn)持有的代币,从而减少总供应量。这个项目在 Hacker News 上拿到了 100 个点赞。简单说,就是你想让某个代币变稀缺,可以用它把一部分代币永久打入黑洞。项目本身是命令行工具,代码量不大,适合懂点技术的用户自己操作。正文...
#GitHub#Hacker News#Open source
精选理由
这更像是一个Hacker News上的实用工具链接,而非AI行业新闻。HKR三项均未命中目标受众,且与AI关联极弱,评分低于40合理。
一句话点评
一个命令行工具,让你自己销毁持有的代币,减少总供应量。项目在 HN 上拿了 100 赞,但代码量不大,适合懂技术的用户自己操作。正文没披露支持哪些链、有没有合约验证,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
28
SCORE
H0·K0·R0
14:40
27d ago
r/LocalLLaMA· rssEN14:40 · 05·16
Lemonade 本地 AI 工具 macOS 版转正,一个 3MB 的二进制文件跑三大系统
Lemonade 宣布 macOS 支持结束测试,正式可用。这个本地 AI 工具只有一个 3MB 的便携二进制文件,就能在 Linux、Windows 和 macOS 上跑。目前开放了五大能力:OmniRouter(路由)、编程、图片生成、语音生成和语音转文字。3MB 的体积意味着几乎不占硬盘,启动快,适合随身带一个 U 盘跑本地模型。但正文没披露具体...
#Multimodal#Code#Audio#Lemonade
精选理由
K 和 R 过关:文章给出了具体的 macOS 能力覆盖和 3 MB 二进制体积声明,对本地 AI 用户有明确参考价值。H 偏弱,没有性能或采用数据支撑,所以分数落在 60–71 区间。
一句话点评
Lemonade 的 macOS 版正式上线,核心卖点是那个 3MB 的便携二进制文件,跨平台(Linux、Windows、macOS)都能跑,启动快,适合 U 盘随身带。目前开放了路由、编程、图片生成、语音合成和转写五大能力。但正文被屏蔽,没披露具体支持哪些模型、性能如何、是否依赖联网。3MB 体积确实轻量,但能力覆盖这么广,实际跑起来对硬件要求可能不低,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
14:15
27d ago
r/LocalLLaMA· rssEN14:15 · 05·16
同一个双摆模拟题,Claude 和 DeepSeek 选了相反的物理约定,一秒就能看出差异
作者用完全相同的提示词让 Claude 3.5 Sonnet 和 DeepSeek V3 模拟双摆运动,初始条件都是 θ1=π/2、θ2=π/2、角速度为零。在同一个渲染器下,两个模型输出的动画在一秒内就出现镜像行为——一个摆向左,另一个摆向右。这说明模型对物理约定(比如角度正方向的定义)有不同理解,而且这种差异在动态模拟中会立刻暴露。正文没披露具体用...
#Code#Reasoning#Benchmarking#Claude 3.5 Sonnet
精选理由
这是一个 Reddit 单次实验,不是系统评测,所以分数压在 60–71 区间。但它的价值在于用极低成本(一个双摆提示词)快速暴露了模型对物理约定(θ 正方向定义)的敏感度差异,对做模型评测的人是个提醒:提示词里隐含的歧义可能让比较结果失真。正文没披露两个模型的具体版本号,也没说重复多次是否稳定,这点先别太激动。
一句话点评
同一个双摆提示词,Claude 3.5 Sonnet 和 DeepSeek V3 跑出镜像动画,一秒内就看出方向相反。问题出在模型对角度正负的默认约定不同,不是谁对谁错,而是物理模拟里这种隐性偏差会立刻暴露。正文没披露具体用了哪个渲染器、跑了多少次、是否复现,所以这点先别太激动——它更像一个有趣的观察,不是严谨评测。对做代码生成或物理仿真的团队有提醒价值:模型对物理常识的“默认值”可能不一致...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
13:46
28d ago
AI HOT 精选· aihot-apiZH13:46 · 05·16
杭州开了个国家级机器人训练基地,给具身智能搞“职业技能培训”
5月16日,国家人工智能应用中试基地(具身智能)在杭州挂牌启用,相当于给机器人建了一个国家级“职业技能训练场”。这个基地既展示已经落地的商业场景,也演示数据采集和技能训练过程,目的是帮机器人技术从实验室往真实应用走。杭州还从5月1日起施行了全国首部具身智能机器人地方性法规,要求建设中试和检测平台,并推动机器人在应急救援、医疗康养等领域落地。目前杭州已有...
#Robotics#Hangzhou#国家人工智能应用中试基地#Policy
精选理由
H和K靠机器人训练场这个钩子和杭州的产业数据通过。R不通过,因为这只是地方基建新闻,不是模型或产品能力更新,不直接冲击成本、安全、就业或竞争。
一句话点评
杭州搞了个国家级机器人训练基地,5月16日挂牌,相当于给机器人建了个“职业技能训练场”。当地已有700多家机器人相关企业,2025年产业集群产值1068亿元。5月1日还施行了全国首部具身智能地方性法规,要求建中试和检测平台,推动机器人在应急救援、医疗康养等领域落地。基地展示商业场景和数据采集过程,帮技术从实验室走向应用。但正文没披露基地具体训练能力、开放时间或企业入驻细节,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
12:49
28d ago
r/LocalLLaMA· rssEN12:49 · 05·16
有人用开源模型做了个代码审查工具,声称比 CodeRabbit 便宜 6 倍
Reddit 用户 Axintwo 发帖说,他做的 PrixAI 用开源模型做 PR 代码审查,在一个测试 PR 里 10 个埋点问题全抓出来了。价格方面,CodeRabbit 标价每月 60 美元,PrixAI 声称便宜 6 倍,也就是大概 10 美元。不过正文没披露具体用了哪些开源模型、跑在什么硬件上、延迟怎么样,也没说是不是本地部署。如果真能 1...
#Code#Agent#CodeRabbit#PrixAI
精选理由
Reddit用户自测,10个植入问题全检出,价格比CodeRabbit低6倍,数字漂亮但来源单一,没有第三方复现,所以放在'all'档的上限。正文没披露具体用了哪些开源模型、延迟多高、是否支持复杂多文件PR,这些缺口让判断不能往上提。
一句话点评
Reddit 用户 Axintwo 用开源模型做了个 PR 代码审查工具 PrixAI,号称比 CodeRabbit 便宜 6 倍(月费约 10 美元 vs 60 美元),并在一个测试 PR 中 10 个埋点问题全抓出来了。但正文没披露具体用了哪些开源模型、跑在什么硬件上、延迟如何,也没说是否本地部署。如果真能 1/6 的价格做到同等效果,对个人开发者和小团队挺有吸引力,但验证太弱——一个测...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
12:15
28d ago
● P1r/LocalLLaMA· rssEN12:15 · 05·16
MTP 支持合并至 llama.cpp 主分支
llama.cpp 的 master 分支合并了 PR #22673,正式加入 MTP(Multi-Token Prediction)支持。MTP 让模型在推理时一次预测多个后续 token,而不是逐个生成,理论上能降低解码延迟。不过正文没披露具体支持哪些模型、有没有 benchmark 数据、以及合并到了哪个正式版本。如果你跑本地模型,可以关注后续 ...
#Inference-opt#llama.cpp#ggml-org#Open source
精选理由
MTP 支持合并进 llama.cpp 主分支,对本地推理玩家是个直接可用的更新——从 main 分支编译就能跑。但正文只有 RSS 摘要,没披露 MTP 的具体机制(比如是单头还是多头预测)、支持哪些模型、实测能快多少,也没给发布版本号。信息缺口明显,所以分数压在 68 合理:有钩子、有新事实、有触达面,但验证和细节全缺,属于小规模开源推理优化更新。
一句话点评
llama.cpp 主分支正式合并 MTP 支持,本地跑 DeepSeek 类模型推理速度能提一截。
锐评
MTP(多 token 预测)被合进 llama.cpp 主分支,意味着以后用这个推理引擎跑 DeepSeek-V2/V3 这类模型时,可以一次预测多个 token,而不是一个一个字往外蹦。对本地部署的人来说,最直接的好处是生成速度变快、延迟更低。社区讨论里有人提到 b9180 这个构建版本已经落地,说明代码不是停留在 PR 阶段,而是真能用了。 不过目前信息主要来自 Reddit 帖子标题和合并记录,正文被屏蔽,看不到具体实现细节和性能对比数据。比如到底快了多少、显存占用有没有变化、支持哪些量化格式,这些关键数字都缺失。另外 MTP 对输出质量是否有影响,社区也没展开讨论。 想尝鲜的话可以更新 llama.cpp 试试,但建议先在自己常用的模型上跑一遍对比,别急着上生产环境。等有人放出实测数据,再判断这个合并的实际收益有多大。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
12:11
28d ago
Product Hunt · AI· rssEN12:11 · 05·16
pixserp:一个API接口,让大模型直接查实时网页,支持10种答案格式
pixserp 是一个给大模型用的实时网页搜索API,一个接口就能查网页、新闻、图片、地点、购物、航班、酒店、YouTube、字幕和任意URL,结果自带引用。价格是每1000次请求1.5美元,作者说比Perplexity Sonar Pro(约19美元/千次)便宜很多。响应时间大约1.5秒,支持流式输出。可以直接替换OpenAI SDK的base_ur...
#RAG#Tools#pixserp#Product update
精选理由
HKR-K 有一个产品事实,但 HKR-H/R 都很弱。定价、模型、延迟和 API 细节都没说,这只是一个低价值的 Product Hunt 工具更新,随便翻翻就行。
一句话点评
pixserp 是一个给大模型用的实时网页搜索API,一个接口就能查网页、新闻、图片、地点、购物、航班、酒店、YouTube、字幕和任意URL,结果自带引用。价格是每1000次请求1.5美元,作者说比Perplexity Sonar Pro(约19美元/千次)便宜很多。响应时间大约1.5秒,支持流式输出。可以直接替换OpenAI SDK的base_url,集成成本低。 短评:一个接口查十种...
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
12:06
28d ago
● P1Hacker News 首页· rssEN12:06 · 05·16
SANA-WM开源世界模型发布 可生成一分钟720p可控视频
NVIDIA 放出了一个叫 SANA-WM 的开源模型,参数规模 26 亿,主打的是用一张图加一条镜头移动路线,直接生成长达一分钟的 720p 视频。它把长视频生成拆成两步:先用一个混合线性注意力的主干网络跑出长序列粗稿,再用一个 170 亿参数的精修模型去改善纹理、动作和后半段的画质。训练成本不算高,64 块 H100 跑 15 天,用了约 21.3...
#Multimodal#Vision#NVIDIA#Open source
精选理由
标题说 SANA-WM 是个 2.6B 参数的开源世界模型,能生成 1 分钟 720p 视频。我会先打个折:正文只给了链接、9 分和 8 条评论,训练数据、许可证、推理成本、跟其他模型的对比跑分全都没披露。2.6B 这个尺寸在视频模型里算小的,如果真能稳定跑一分钟不崩,推理成本可能比较友好,但这点先别太激动,因为没看到任何实测证据。开源是个加分项,不过没写是什么许可证,商用能不能用还不清楚。整体看,这是个有话题度的发布,但信息缺口很大,实际能力得等更多细节出来才能判断。
一句话点评
NVIDIA 开源了一个 26 亿参数的世界模型,一张图加镜头轨迹就能在单张显卡上生成一分钟 720p 可控视频,但模型权重还没放出来。
锐评
SANA-WM 把长视频生成的门槛打下来了。它用 26 亿参数的小模型,在单张 H100 上就能跑出一分钟 720p 视频,甚至还有个蒸馏版能在 RTX 5090 上用 34 秒搞定。对比它提到的 LingBot-World 等工业级方案,吞吐量号称高了 36 倍,训练也只用了 64 张 H100 跑 15 天,成本确实低。 能这么省,核心在于它把注意力机制做了混合设计:逐帧用轻量的 Gated DeltaNet,隔一段时间才做一次完整的 softmax 注意力,显存不会随着视频变长而爆炸。另外它专门加了一个双分支模块来控制 6 自由度镜头轨迹,让画面跟着指定路径走,不是随机乱飘。 不过先别太激动。正文明确说模型权重还是“soon”的状态,没得下载跑不起来。另外它只用了约 21.3 万段公开视频训练,这个数据量对世界模型来说不算大,泛化能力要打问号。演示视频全是固定视角的慢速自然场景,没看到快速运动或复杂交互,实际可控性还得等开源后自己测。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
11:34
28d ago
Hacker News 首页· rssEN11:34 · 05·16
OpenClaw 作者一个月烧了 130 万美元的 OpenAI 接口费
OpenClaw 的开发者发推说,30 天内光 OpenAI 的 token 就花了 130 万美元。正文没披露具体用了多少 token、调了哪些模型、有没有折扣或包月协议,也没有账单截图。如果是真的,这个烧钱速度说明要么用户量极大,要么每个请求都用了最贵的模型(比如 GPT-4 Turbo 或 o1)。但信息缺口太大,没法判断是真实成本还是营销噱头。
#OpenClaw#OpenAI#Commentary
精选理由
H和R通过:130万美元月账单是强钩子,也切中开发者的成本焦虑。K不通过:只有金额,没有用量、模型组合、定价和账单证明,信息不完整,所以留在all层级。
一句话点评
OpenClaw 开发者称30天烧了130万美元OpenAI token费,约合每天4.3万美元。正文没披露具体用量、模型组合或是否有折扣协议,也无账单截图。如果是真的,要么用户量极大,要么每个请求都用了最贵模型(如GPT-4 Turbo)。但信息缺口太大,无法判断是真实成本还是营销噱头。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
11:03
28d ago
r/LocalLLaMA· rssEN11:03 · 05·16
给显卡降功耗,跑本地模型更省电
Reddit 用户 NotArticuno 实测给 GPU 降功耗墙(power limit)对本地推理的影响。测试用 qwen3.5:9b 模型,跑 TG128 生成和 PP512 处理。正文没披露具体显卡型号和数字结果,所以省了多少电、速度掉多少都不清楚。思路本身对自建服务器或长期跑推理的人有价值——降功耗能省电费、降温度,适合不在意那点速度损失的用户。
#Inference-opt#NotArticuno#Qwen#Commentary
精选理由
H和R靠的是降功耗跑推理这个反直觉的实用钩子,本地用户确实会在意电费和显卡寿命。但K不通过:正文没披露GPU型号、具体功耗限制值以及TG128/PP512的测试结果,信息缺口太大,只能算一条低价值的实操贴士。
一句话点评
Reddit 用户实测给 GPU 降功耗墙跑本地推理,思路对自建服务器或长期跑推理的人有价值——省电费、降温度。但正文没披露具体显卡型号和数字结果,省了多少电、速度掉多少都不清楚,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
10:22
28d ago
机器之心 · 公众号· rssZH10:22 · 05·16
Anthropic 让 Claude Code 跑在卡片大小的开发板上
Anthropic 在 Code With Claude 活动上给开发者发了一台 Cardputer,这是一块 ESP32-S3 掌上开发板,大小跟卡片差不多。官方说它能跑完整的 Claude Code,也就是让开发者在这块小板上直接写代码、调模型。正文没披露具体跑起来延迟多高、能处理多复杂的任务,但能在这么小的硬件上塞进一个完整的 AI 编程助手,成...
#Code#Tools#Anthropic#Claude
精选理由
HKR的H和R很强,K也有具体的设备宣称,但这更像一个Claude Code的硬件演示彩蛋,不是Anthropic的能力发布。性能、联网、能否复现都没披露,先别太激动。
一句话点评
Anthropic 给开发者发了张卡片大小的 ESP32-S3 开发板,说能跑完整 Claude Code。听着挺酷,但正文没披露延迟和任务复杂度——这么小的硬件跑完整编程助手,大概率只能处理极简单的代码补全或脚本,别指望能写复杂项目。更像一个概念验证或开发者玩具,离实用还有距离。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
10:22
28d ago
机器之心 · 公众号· rssZH10:22 · 05·16
2026杭州具身智能大赛:不比炫技,比谁真能干活
2026年杭州国际具身智能场景应用大赛设了三个赛道,200多支队伍在真实场景里比干活——消防、电力巡检、数据中心、水下救援、仓库物流。正文没披露具体技术方案和评分标准,但方向很明确:别光秀走路翻跟头,得能进真实环境解决实际问题。
#Robotics#Agent#Multimodal#机器之心
精选理由
HKR三项都过:标题有钩子,信息具体,话题踩中行业焦点。分数在60-71区间合理,因为正文没披露比赛结果、技术方法细节和可复现的评测标准,信息缺口明显。
一句话点评
短评:比赛方向务实,但没披露技术细节和评分标准,先别太激动。 2026年杭州这场具身智能大赛,200多支队伍在消防、电力巡检、数据中心、水下救援、仓库物流等真实场景里比干活,而不是比走路翻跟头。方向是对的——行业确实需要从炫技转向解决实际问题。但正文没披露具体技术方案、评分标准、参赛队伍的技术水平,也没说这些场景的难度系数和真实环境还原度。所以这个比赛的意义更多是信号:政策方和产业方在推动...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
09:30
28d ago
Hacker News 首页· rssEN09:30 · 05·16
Δ-Mem:给大模型加一个超小内存,不用改模型结构就能记住历史
这篇论文提出了一种叫 Δ-Mem 的轻量记忆机制,核心思路是给一个已经训练好的、参数冻结的大模型(full-attention backbone)外挂一个固定大小的在线记忆状态。这个状态矩阵通过 delta 规则(一种增量更新算法)不断压缩和存储历史信息,生成时再用它的输出去修正注意力计算,相当于给注意力加了一个低秩的“记忆偏置”。效果上,只用了一个 ...
#Memory#Research release
精选理由
HKR-H 和 HKR-R 通过,因为在线记忆对 agent 开发者确实重要。HKR-K 不通过:该条目只披露了标题和 arXiv 链接,没有机制、指标或可复现的成果,所以分数落在 60–71 区间。
一句话点评
给冻结的大模型外挂一个8×8的记忆状态矩阵,用delta规则增量压缩历史,推理时修正注意力计算。MemoryAgentBench涨了31%,LoCoMo涨了20%,成本极低——8×8矩阵几乎不占显存。但论文没披露延迟对比,也没说长上下文场景下记忆是否会饱和。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
08:52
28d ago
● P1AI HOT 精选· aihot-apiZH08:52 · 05·16
研究员用Anthropic Mythos工具六天破解苹果M5芯片内存完整性保护
苹果在 M5 和 A19 芯片上花五年做的 MIE 内存完整性保护,被三个研究员用 Anthropic 的 Mythos 工具攻破了。他们 4 月 25 日发现漏洞,5 月 1 日就写完利用程序,全程只用了六天。攻击手法是纯数据攻击,不碰指针,靠普通用户权限的标准系统调用就能拿到 root 权限。团队已经当面把报告交给了苹果。完整技术细节要等苹果发补丁...
#Agent#Code#Safety#Anthropic
精选理由
我会先打个折:正文只提了三位研究人员和 Mythos 工具,没披露漏洞是否已报给苹果、Mythos 具体怎么辅助的、以及 Anthropic 的回应,所以信息有缺口。但 6 天从发现到完成内核漏洞利用、绕过 M5/A19 的 MIE 并拿到 root,这个速度和效果本身就很说明问题——AI 辅助攻击开发的门槛在降。对从业者来说,这比单纯说“AI 不安全”更有冲击力,因为直接落在具体芯片和系统上。H/K/R 全过,但单篇来源和缺少后续处理信息,让我没给到 85 分以上。
一句话点评
Anthropic 的安全研究工具 Mythos 帮研究员六天挖出两个苹果 M5 芯片的内核漏洞,直接绕过了内存完整性保护。但正文没披露漏洞具体细节和苹果的回应。
锐评
这条消息的看点不是 Anthropic 又发了个模型,而是他们用自家工具 Mythos 干了件很实际的事:在六天内找到并利用了两个 macOS 内核未知漏洞,成功绕过了苹果 M5 芯片的内存完整性保护机制。内存完整性保护可以理解为芯片层面的一道硬锁,防止恶意代码篡改内核数据,绕过它意味着攻击者能在系统最底层执行任意代码。 目前的信息都来自 RSS 摘要,正文是空的,所以没法判断漏洞的严重等级、利用条件苛刻与否,也不知道 Anthropic 是否按常规漏洞披露流程提前通知了苹果。标题里“五天内”和“六天”的差异,可能是不同来源统计口径不同,但都指向同一个事实:自动化漏洞挖掘的效率在提高。 对从业者来说,这条消息的价值在于它提供了一个具体案例,说明 AI 辅助安全研究正在从理论走向实战。但别急着下结论说“AI 已经能独立挖漏洞了”,工具还是需要研究员来操作和决策。还缺的关键信息是:漏洞是否已被修复、Mythos 这套工具对外部研究者的开放程度,以及这种效率提升对防守方意味着多大的压力。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
06:31
28d ago
● P1新智元 · 公众号· rssZH06:31 · 05·16
OpenAI大规模重组由总裁Brockman主导
标题说 OpenAI 大规模重组,总裁 Brockman 掌权。但正文只显示微信验证页,没披露重组范围、汇报线、涉及团队、决策过程和时间表。信息缺口很大,目前只能当传闻看。
#OpenAI#Brockman#Personnel
精选理由
硬排除-零信源:标题声称OpenAI大规模重组,但正文没有任何可验证的组织事实,连正文本身都不存在。H和R通过,但K不通过,不能作为重大人事新闻打分。
一句话点评
OpenAI 总裁 Brockman 亲自接管产品,要把所有 AI 代理业务整合成一个平台。这轮高管换血说明他们急了,但正文没披露具体产品路线图,先别太激动。
锐评
OpenAI 又换高管了,这次是联合创始人兼总裁 Greg Brockman 亲自下场抓产品,目标是把公司所有“让模型进业务流程干活”的 AI 代理业务,整合成一个统一的平台。从 The Verge 的报道看,Brockman 在内部备忘录里明确说要“投资单一代理平台”,这基本等于承认之前多条业务线各自为战,现在要集中火力。 这次调整的背景是 AI 代理领域的竞争已经白热化,谷歌、Anthropic 都在猛推类似产品。OpenAI 频繁换将,说明他们对目前的推进速度不满意。但报道里没提这个新平台具体长什么样、什么时候上线、跟现有的 ChatGPT 插件或 Assistant API 是什么关系。这些关键信息都缺着,所以这次重组到底是真能提速,还是又一次内部权力洗牌,现在下不了判断。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K0·R1
06:31
28d ago
新智元 · 公众号· rssZH06:31 · 05·16
只用头显和手柄,就能高精度重建全身动作
这篇 ICML'26 的工作声称只用 VR 头显和两个手柄,就能还原全身骨骼动作,精度还很高。正文被验证页挡住了,没披露用了什么模型、数据集、误差指标,也没说是否可复现。如果真能省掉全身追踪套件,对 VR 社交和动捕行业会挺省钱,但这点先别太激动——信息缺口太大,没法判断实际效果。
#Vision#Multimodal#ICML#Research release
精选理由
HKR-H 靠低硬件门槛的动捕钩子通过,加上 ICML'26 给了一点研究可信度。HKR-K 和 HKR-R 不通过,因为能访问的正文只有验证页,没有指标、方法或从业者视角。
一句话点评
ICML'26 的工作号称只用 VR 头显和两个手柄就能还原全身骨骼动作,精度还高。但正文被验证页挡住了,没披露用了什么模型、数据集、误差指标,也没说是否可复现。如果真能省掉全身追踪套件,对 VR 社交和动捕行业会挺省钱,但这点先别太激动——信息缺口太大,没法判断实际效果。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
04:04
28d ago
● P1量子位 · 公众号· rssZH04:04 · 05·16
阿里健康发布医疗AI青灵子 接入BMJ十年期刊文献
阿里健康发布了一款叫“青灵子”的医疗 AI,目标用户是中国 500 万医生。它直接拿了 BMJ 集团旗下 70 本期刊过去十年的全文内容做知识底子,不是只搜摘要。回答问题时,模型会按 PICO 框架(把临床问题拆成患者、干预、对照、结局)和 GRADE 证据分级来走流程,相当于先框定问题结构再给答案,而不是自由发挥。产品还拉了 300 多位临床专家做审...
#RAG#Reasoning#Safety#Alibaba Health
精选理由
阿里健康把BMJ的期刊库直接做成回答的证据底座,再用临床专家评审兜底,等于在“模型胡说”和“医生不敢用”之间加了一层硬约束。正文没披露评审通过率、更新频率和实际延迟,这些会直接影响医生愿不愿意买单。我会先打个折:方向对,但落地效果还得看真实诊疗场景的反馈。
一句话点评
阿里健康推了个叫“青灵子”的医疗AI,主打卖点是接了BMJ十年期刊文献当证据源,但正文没披露具体评测数据和临床验证结果,这点先别太激动。
锐评
这条新闻的核心卖点是“证据源”——阿里健康的医疗AI“青灵子”直接接入《英国医学杂志》(BMJ)过去十年的期刊文献,想用顶级循证证据把自己和市面上其他医疗大模型区分开。机器之心那篇稿子提到一个数字:有医生88天登录了193次,想说明产品粘性高,但样本量只有一个人,完全不能代表500万中国医生的使用情况。 两篇报道都来自科技媒体,不是医疗专业期刊或第三方评测机构,所以目前只能看到厂商宣传的“独家合作”和“顶级证据”,看不到任何关于回答准确率、误诊率、科室覆盖范围的独立验证数据。医疗AI最要命的就是安全性和可靠性,光说接了BMJ不够,得说清楚模型在真实问诊场景下到底表现怎么样。 还缺几个关键信息:第一,BMJ文献是实时更新还是定期导入,更新延迟多久;第二,模型是通用大模型加RAG(外挂资料库)方案,还是专门用医学数据训练过;第三,有没有做过和医生诊断的对照实验。这些没披露之前,只能把它当成一个“声称有更好资料来源的医疗问答工具”,离“神助攻”还有距离。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
02:35
28d ago
AI HOT 精选· aihot-apiZH02:35 · 05·16
藏师傅PPT新增截图美化,不烧GPT资源自动配背景
藏师傅PPT Skills更新了截图美化功能,能根据截图尺寸、长宽比、当前PPT模板和配色自动匹配背景图,效果类似CleanShot X这类专业截图工具。关键是它不消耗GPT-Image 2.0的额度,省成本。还能自动裁剪过长的图片并排成两列展示。正文没披露支持哪些模板类型和颜色主题的匹配精度,这点先别太激动。
#Vision#Tools#藏师傅PPT Skills#GPT-Image 2.0
精选理由
藏师傅 PPT Skills 这次更新加了个截图自动美化功能,能根据截图尺寸、长宽比、PPT 模板和颜色主题自动配背景,而且不消耗 GPT-Image 2.0 的额度——这点对经常做 PPT 截图的人来说挺省钱。但正文没披露用户规模、定价或者模型能力变化,所以就是个 60–71 分段的单功能更新,不涉及更广的 AI 竞争或就业话题。
一句话点评
藏师傅PPT Skills新增截图美化,能根据截图尺寸、PPT模板和配色自动配背景,效果类似CleanShot X。关键是不耗GPT-Image 2.0额度,省成本。还能自动裁剪长图排成两列。但正文没披露支持哪些模板类型和颜色主题的匹配精度,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K1·R0
00:28
28d ago
r/LocalLLaMA· rssEN00:28 · 05·16
RTX 5090 跑 Qwen3.6 推理冲到 3238 tok/s,但序列长度只有 64 token
Reddit 用户发帖称,在 RTX 5090 32GB 上用 open-dLLM 跑未经训练的 Qwen3.6 模型,达到了 3238 tok/s 的推理速度。代价是序列长度只有 64 token、batch size 为 1、扩散步数 10 步——这基本是玩具级配置,实际生成一句话就截断了。帖子说训练后会补质量评测,但正文没披露训练数据量、训练时长...
#Inference-opt#Benchmarking#Qwen#Open-dLLM
精选理由
这个帖子的核心是一个惊人的速度数字,而且给出了完整的测试条件,信息量够。但来源是 Reddit 用户,样本只有 64 token,实际场景参考价值有限,所以分数卡在 60-71 区间,不上精选。
一句话点评
RTX 5090 跑 Qwen3.6 号称 3238 tok/s,但序列长度只有 64 token、batch size 1、扩散步数 10 步——相当于每次只生成一句话就截断,纯玩具级。帖子说训练后会补质量评测,但正文没披露训练数据量和时长,也没说模型是否真的收敛。速度数字好看,但离可用差得远。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
00:00
28d ago
● P1Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·16
OpenAI通过Plaid让ChatGPT接入银行账户
ChatGPT 在美国向 Pro 用户开放了个人理财功能预览,通过 Plaid 连接银行账户后,能读取余额、交易记录和投资持仓,回答消费和储蓄问题。文章指出,OpenAI 的隐私承诺存在两个关键缺口:理财对话未被列入广告敏感话题排除清单,意味着消费和贷款讨论可以触发广告匹配;财务数据的模型训练默认是 opt-in,用户需主动关闭。作者认为,这个功能的主...
#Tools#OpenAI#Plaid#ChatGPT
精选理由
我会先打个折:正文只说了 OpenAI 通过 Plaid 让 ChatGPT 连接银行账户,没披露上线时间、授权流程和可访问的数据范围,所以这更像一个信号而不是一个可评估的产品更新。但信号本身够强——让模型直接碰银行数据,权限和安全的坑一个都不少,从业者看到标题就会想点进去看细节。HKR 三项都踩中了,只是信息缺口把分数压在 featured 档,没往上走。
一句话点评
ChatGPT 要接你的银行账户了,用的是 Plaid 这个中间人,能看余额和流水但不能转账。
锐评
OpenAI 给 ChatGPT 开了个新口子:通过 Plaid 直接读你的银行账户数据。Plaid 就是那个很多金融 App 背后负责安全连接银行的中间件,所以技术上不是 OpenAI 自己存你的密码,而是你授权 Plaid 把只读数据喂给 ChatGPT。能看余额、信用卡欠款、交易记录,但碰不了钱,没法转账或支付。 这件事的逻辑跟之前接健康数据一样——让模型拿到更私密的个人上下文,回答才能更贴你本人。比如你问“我能不能买这个沙发”,它能直接扫一眼账户说“你信用卡还欠着八千,建议下个月再说”。但正文没披露这些财务数据会不会被 OpenAI 用来训练模型,也没说数据在服务器上留多久。隐私政策这块目前是空的,这点先别太激动。 对从业者来说,这等于把 AI 助手往“个人 CFO”方向推了一步,但信任门槛比健康数据还高。银行账户是多数人最敏感的数字资产,一次数据泄露的代价远大于推荐错一家餐厅。OpenAI 能不能让用户放心把账本交出来,比技术接没接通更重要。
HKR 分解
hook knowledge resonance
打开信源
97
SCORE
H1·K1·R1
00:00
28d ago
● P1OpenAI 博客· rssEN00:00 · 05·16
OpenAI与马耳他合作向全体公民提供ChatGPT Plus
OpenAI 与马耳他政府宣布全球首个国家级合作:所有公民完成马耳他大学开发的 AI 素养课程后,可免费获得一年 ChatGPT Plus。课程教 AI 能做什么、不能做什么、怎么用,不设背景门槛。第一阶段 2026 年 5 月启动,由马耳他数字创新局负责分发。正文没披露覆盖多少人口、政府是否承担成本、以及课程具体时长。
#Tools#Safety#OpenAI#Malta
精选理由
HKR-H/K 通过:国家级 ChatGPT Plus 分发是一个真实的分发信号。HKR-R 偏弱,因为正文缺少覆盖人数、费用分摊、上线日期或采购矛盾,所以这条归入普通合作类。
一句话点评
马耳他成了全球第一个全民免费领 ChatGPT Plus 的国家,但得先上完 AI 素养课才能用一年。
锐评
OpenAI 和马耳他政府合作,给所有公民发一年免费 ChatGPT Plus,条件是先完成马耳他大学设计的一门 AI 素养课。这更像一次国家级的付费获客实验:用课程筛选用户,用补贴培养使用习惯。马耳他人口不到 60 万,成本可控,适合跑通“政府买单、全民普及”的模式。OpenAI 也借机把“智能像水电一样变成公共设施”的说法落地了一次。 不过,正文没披露 OpenAI 给马耳他的具体价格,也没说一年后公民是否要自己续费、数据隐私条款有没有特殊安排。课程内容、完成率和实际使用数据也都没给。这些缺口让“全民普及”的效果暂时没法验证。 另外,OpenAI 提到已在爱沙尼亚、希腊做教育合作,马耳他这次是把范围从学校扩到全体公民。如果后续能公布续费率、使用频次和课程通过率,才能判断这是真普及还是品牌活动。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R0
00:00
28d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·16
Agent Runtime 正在成为 AI 的下一个主战场
Cline 的 benchmark 数据显示,同一个模型在不同 runtime(运行环境)上跑,性能能差出 4.8 个百分点——这差不多等于把模型升一个版本。更夸张的是,Cline 团队只优化 runtime 的提示词、工具定义和错误处理,不换模型,就把分数从 47% 拉到 57%,提升了 10 个百分点。文章认为,模型 API 价格已经打到地板价(D...
#Agent#Benchmarking#Tools#Cline
精选理由
只有 R 通过:话题踩中了 agent 工具链竞争这条线,Cline 和 DeepSeek 两个锚点够抓人。但正文缺 benchmark 数字、招聘条件和 runtime 机制,信息密度不够,达不到精选标准。
一句话点评
同一个模型在不同运行环境上跑,性能能差出4.8个百分点,相当于白升一个模型版本。Cline团队只改提示词和工具定义,不换模型,就把分数从47%拉到57%。文章说模型API价格已打到地板价,价值正从模型层转移到平台层。但正文没披露Cline的benchmark具体任务集,也没说DeepSeek那个Harness PM岗位到底要做什么。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K0·R1

更多

频道

后台