ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-05-12

121 items · updated 3m ago
RSS live
2026-05-12 · 星期二2026年5月12日
23:04
31d ago
r/LocalLLaMA· rssEN23:04 · 05·12
新优化器 STAM 号称训练成本砍半,但没给基准测试细节
Reddit 用户 assemsabryy 的自研优化算法 STAM 被 SSRN 收录。论文称在部分实验中训练计算成本最高降 50%,但正文没披露具体 benchmark 和对比条件。STAM 全称 Stable Training with Adaptive Momentum,核心思路是自适应动量让训练更稳。50% 这个数字看着挺省钱,但没交代是在什...
#Inference-opt#Benchmarking#SSRN#assemsabryy
精选理由
HKR里K勉强过关:帖子给出了可验证的“最多降50%”训练成本说法,但Reddit自报加上SSRN收录本身说服力弱,而且没披露基准和复现条件,从业者很难直接参考。
一句话点评
Reddit 用户自研的优化算法 STAM 被 SSRN 收录,号称训练计算成本最高降 50%。核心思路是自适应动量让训练更稳。50% 这个数字看着挺省钱,但正文没披露具体 benchmark 和对比条件,也没说在什么模型、什么任务上测的。SSRN 是预印本平台,不是顶会,验证力度弱。短评:省钱数字诱人,但缺 benchmark 细节,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
23:00
31d ago
彭博科技· rssEN23:00 · 05·12
1789 Capital 合伙人上 Bloomberg 聊 SpaceX 和 Cerebras 的 IPO
这是一段 Bloomberg 电视采访,1789 Capital 的合伙人 Paul Abrahimzadeh 在节目里聊了 SpaceX 和 Cerebras 的上市话题。正文没有披露具体时间、估值、发行结构或交易条款,所以目前只能知道有人在公开场合讨论这两家明星公司的 IPO 前景,但拿不到任何硬数字或判断依据。
#1789 Capital#Paul Abrahimzadeh#SpaceX#Funding
精选理由
Bloomberg 来源可信,Cerebras IPO 对 AI 硬件市场有一定关联。但 HKR-K 不通过,因为这条内容没给出估值、时间线或交易细节,属于低价值信息段。
一句话点评
1789 Capital合伙人在Bloomberg电视上聊了SpaceX和Cerebras的IPO前景,但正文没披露任何具体时间、估值或发行条款。目前只能确认有人在公开场合讨论这两家明星公司上市,拿不到硬数字或判断依据。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H1·K0·R0
23:00
31d ago
彭博科技· rssEN23:00 · 05·12
中国AI硬件供应商被零部件短缺卡住脖子
彭博社报道,中国AI硬件供应商正面临零部件短缺,需求却“吃不饱”。正文被屏蔽,没披露具体缺什么零件、交期多长、哪些供应商受影响、订单量多大。信息缺口明显,但短缺本身说明供应链压力在加剧。
#Inference-opt#Bloomberg#Incident
精选理由
Bloomberg 的权威性和中国 AI 硬件瓶颈支撑 HKR-H 和 HKR-R。HKR-K 不成立,因为正文缺少组件名称、交付周期或订单规模,所以归入 all 而非 featured。
一句话点评
彭博社报道中国AI硬件供应商零部件短缺,需求却“吃不饱”。但正文被屏蔽,没披露具体缺什么零件、交期多长、哪些供应商受影响、订单量多大。信息缺口明显,但短缺本身说明供应链压力在加剧。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
22:32
31d ago
Product Hunt · AI· rssEN22:32 · 05·12
Mi:一个30行代码的零配置CLI编程助手,修Bug和重构专用
Mi是一个极简的自主编程助手,整个核心只有30行代码,一个JavaScript文件,不需要装框架,依赖只有Node内置模块。它用循环调用大模型——问模型要不要用工具,执行,把结果喂回去,重复。内置两个工具:bash(能跑任何系统命令)和skills(按需加载Markdown写的操作手册),足够它读仓库、写代码、跑测试、修Bug。支持任何兼容OpenAI...
#Agent#Code#Mi#Product update
精选理由
小 Product Hunt 工具发布:HKR-H 和 HKR-R 通过,但 HKR-K 偏弱。它只说了“30 行零配置”加 bug 修复/重构两个场景,没有模型、价格、权限模型或测试结果。
一句话点评
30行代码的编程Agent,核心就是一个循环:问模型要不要用工具、执行、把结果喂回去。内置bash(能跑任何系统命令)和skills(按需加载Markdown操作手册),够它读仓库、写代码、跑测试、修Bug。支持任何兼容OpenAI的API,包括本地模型。开源免费,但正文没披露具体用哪个模型、跑一次修Bug要多少轮调用、成本多高。极简是卖点,但效果完全取决于你接的模型,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
22:24
31d ago
r/LocalLLaMA· rssEN22:24 · 05·12
Derpy Turtle:给 Kokoro 语音模型做微调的 Windows 图形界面,训练时间从 26 小时降到 4 小时
Reddit 用户 Great-Investigator30 发布了一个叫 Derpy Turtle 的 Windows 图形界面工具,专门用来微调 Kokoro 语音模型,并配合 RVC 做声音转换。作者说用 CPU 跑一次训练大概要 26 小时,换成 RTX 3060 用 CUDA 加速后只要 4 小时,成本降了不少。不过正文没披露训练数据量、模型...
#Audio#Tools#Great-Investigator30#Kokoro
精选理由
这是一条 Reddit 个人工具发布,属于 LocalLLaMA 社区的音频细分方向。RTX 3060 上的耗时数据(26h→4h)提供了可参考的信号,但整体仍是一个小型开源产品更新,重要性在 60–71 区间。
一句话点评
一个Reddit用户做了个Windows图形界面工具Derpy Turtle,用来微调Kokoro语音模型并配合RVC做声音转换。亮点是训练时间从CPU的26小时降到RTX 3060的4小时,成本大幅降低。但正文没披露训练数据量、模型效果对比,也没说是否支持批量处理或多人声。适合想低成本玩语音克隆的爱好者,但效果和稳定性需要自己试。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
21:13
31d ago
彭博科技· rssEN21:13 · 05·12
黄仁勋年薪降27%,股票奖励缩水至3630万美元
英伟达CEO黄仁勋2026财年总薪酬降至3630万美元,降幅27%,主要原因是股票奖励价值缩水。正文被Bloomberg付费墙挡住,没披露具体缩水原因和业绩挂钩细节。
#Nvidia#Jensen Huang#Personnel
精选理由
HKR中H和K通过,因为27%的降薪幅度和3630万美元的薪酬数字都有信息量,且与英伟达AI业务火热形成反差。R不通过,这是公司治理新闻,不是模型、算力供给或开发者工具相关的内容,对从业者决策帮助不大。
一句话点评
黄仁勋2026财年薪酬降27%至3630万美元,主因股票奖励缩水。但正文被付费墙挡住,没披露缩水是股价跌了还是业绩没达标,也没说跟业绩挂钩的具体条款。这点先别太激动——薪酬下降未必是坏事,可能只是股票授予节奏调整。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K1·R0
21:00
31d ago
FT · 科技· rssEN21:00 · 05·12
中国科技巨头在AI股市热潮中表现落后
FT说腾讯和阿里这类大公司没像纯AI概念股那样涨。正文没披露具体涨跌幅和对比时间段,所以这点先别太激动——可能只是短期炒作没轮到它们,不代表基本面有问题。
#Tencent#Alibaba#FT#Commentary
精选理由
标题有钩子,但正文只提腾讯阿里落后于纯AI标的,没披露具体回报率或时间窗口,信息不够支撑判断。这是市场评论,不是AI能力或产品故事。
一句话点评
中国科技巨头没赶上这波AI股市狂欢,涨幅远低于美国同行。FT这篇付费墙后的文章没给具体数字,但核心判断是:市场更看好美国AI公司,中国巨头受制于芯片管制和监管不确定性。这点先别太激动——正文没披露对比数据,也没说哪些公司掉队。缺的是涨幅差距的具体百分比、以及中国公司是否有追赶动作。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R0
20:42
31d ago
r/LocalLLaMA· rssEN20:42 · 05·12
本地跑大模型怎么提速?有人用 7900XTX 跑 Qwen2 7B,80k 上下文 40 token/s
一位用户在 Reddit 上分享了自己的本地推理配置:Ryzen 5 7600X + Radeon 7900XTX 24GB,用 llama.cpp 和 Vulkan 跑 Qwen2 7B Q4 量化版,80k 上下文窗口下达到 40 token/s。他想知道不升级硬件,只改软件能不能把上下文拉到 120-140k、速度提到 60 token/s。帖子...
#Inference-opt#Tools#Reddit#Qwen
精选理由
这是一条Reddit求助帖,不是新方法、新机制或验证过的结果。有硬件和速度数字,但缺少可复现的优化手段。
一句话点评
一位 Reddit 用户用 AMD 7900XTX(24GB)跑 Qwen2 7B 量化版,80k 上下文下达到 40 token/s,想不升级硬件只靠软件优化把上下文拉到 120-140k、速度提到 60 token/s。帖子正文被屏蔽,看不到具体配置和讨论。40 t/s 对本地 7B 模型来说已经不错,但 80k 上下文下显存压力不小,想再拉长上下文和提速,关键看是否用了 Flash A...
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R1
19:43
31d ago
彭博科技· rssEN19:43 · 05·12
iOS 27 相机 App 可自定义界面,Siri 也要改设计
彭博社报道,苹果计划在 iOS 27 中给相机 App 做一个完全可自定义的界面,专业用户能自己调整按钮布局和功能。标题还提到 Siri 会有设计改动,但正文没披露具体改了啥——是交互方式、视觉风格还是底层机制,目前不清楚。
#Apple#Product update
精选理由
H/K 通过:Bloomberg 给出了 iOS 27 相机可定制化的具体细节,加上苹果/Siri 的标题钩子。AI 相关性弱,Siri 机制未披露,属于常规产品更新。
一句话点评
iOS 27 相机 App 支持专业用户自定义按钮布局和功能,Siri 有设计改动但正文没披露具体改了啥。彭博社爆料,可信度较高,但 Siri 部分信息缺口大,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R0
19:10
31d ago
r/LocalLLaMA· rssEN19:10 · 05·12
注意力漂移:自回归推测解码模型学到了什么
这篇论文发现推测解码(用一个小模型快速写草稿,大模型再验证)有个问题叫“注意力漂移”:小模型在写长草稿时,注意力会从原始提示词慢慢滑到自己刚生成的词上,导致草稿质量下降。作者加了一个后归一化层和每个隐藏状态的RMSNorm,在模板扰动测试下,草稿接受长度比EAGLE3(一种主流推测解码方法)提升了最多2倍。正文没披露具体延迟和显存开销,所以实际部署成本...
#Inference-opt#Reasoning#EAGLE3#Research release
精选理由
HKR 三项都过:命名了新失败模式,给了 2 倍接受长度的结果,跟推理成本挂钩。留在 all 是因为来源和话题偏窄,正文没披露生产环境的延迟、吞吐或成本数据。
一句话点评
推测解码(小模型写草稿,大模型验证)提速的关键是草稿够长够准。这篇发现小模型写长草稿时注意力会从原始提示词滑向自己刚生成的词,导致草稿跑偏——他们管这叫“注意力漂移”。修法是在EAGLE3基础上加后归一化和每层RMSNorm,模板扰动测试下草稿接受长度最高提升2倍。但正文没披露具体延迟和显存开销,实际部署成本未知。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
19:06
31d ago
r/LocalLLaMA· rssEN19:06 · 05·12
500欧元预算,5060 Ti 16GB 还是魔改3080 20GB?
一位用户打算花约500欧元升级工作站,跑Qwen 3.6 27B和Gemma 4 31B推理。候选是RTX 5060 Ti 16GB和魔改20GB显存的RTX 3080,二手价都在550欧元左右。目前他用llama.cpp,也在考虑vLLM或SGLang。关键差异:5060 Ti架构新、功耗低,但显存少4GB;3080 20GB显存更大,能塞下更大模型...
#Inference-opt#Code#Qwen#Gemma
精选理由
价值不高但也不是纯噪音:只有R(相关性)达标。帖子是Reddit上的购买咨询,没有实测吞吐量、量化配置或功耗数据。评分压在40–59区间的低端。
一句话点评
用户纠结5060 Ti 16GB和魔改3080 20GB,二手价都约550欧元。关键差异:3080多4GB显存,能塞下Qwen 3.6 27B或Gemma 4 31B,但魔改卡稳定性存疑;5060 Ti架构新、功耗低,但16GB跑大模型可能不够。正文没披露具体推理速度或量化方案,这点先别太激动。如果主要用llama.cpp,显存优先更实际。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
19:00
31d ago
r/LocalLLaMA· rssEN19:00 · 05·12
本地写代码助手,340行文件直接爆内存
一位用户在32GB DDR5笔记本上用llama.cpp跑Qwen 3.5 9B Q5做代码补全,喂入一个340行、24k上下文的文件后直接OOM。正文没披露具体后端是Vulkan还是CPU,但问题很典型:本地小模型处理长上下文时,显存/内存不够用,尤其代码文件一长就容易崩。如果你也在笔记本上跑本地编码助手,这个案例提醒你注意上下文长度和模型大小的平衡...
#Code#Tools#Reddit#Qwen
精选理由
这是 LocalLLaMA 的故障排查帖,不是行业新闻。HKR-K 有可复现的具体条件,HKR-R 触及本地代码助手的内存痛点,但单条用户反馈只能归入低价值浏览层级。
一句话点评
32GB DDR5笔记本跑Qwen 3.5 9B Q5做代码补全,喂一个340行、24k上下文的文件直接OOM。问题很典型:本地小模型处理长代码文件时,内存是瓶颈,尤其Q5量化后模型本身占约5-6GB,加上24k上下文KV cache(约2-3GB),32GB物理内存不一定够用。正文没披露后端是Vulkan还是CPU,但无论哪种,长上下文场景下内存管理都是关键。如果你也在笔记本上跑本地编码助...
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R1
18:20
31d ago
Hacker News 首页· rssEN18:20 · 05·12
Anthropic 官方警告:市面上卖 Claude 公司股票的,基本都是骗局
Anthropic 发了一篇支持中心公告,直接说任何未经董事会批准的股票转让都无效,也不会被公司承认。他们点名了一批未经授权的机构,包括 Open Door Partners、Unicorns Exchange、Pachamama、Lionheart Ventures,以及 Hiive 和 Forge 的新发行业务。这些机构声称能帮你买到 Anthro...
#Safety#Anthropic#Incident#Safety/alignment
精选理由
HKR-H和HKR-R成立,但HKR-K弱:RSS条目只确认了Anthropic支持页的存在,没有给出骗局机制、金额、受影响范围或处置细节。
一句话点评
Anthropic 官方发警告:任何未经董事会批准的股票转让都无效,公司不认。点名了 Open Door Partners、Unicorns Exchange、Pachamama、Lionheart Ventures 等机构,说它们声称能帮你买 Anthropic 股票,实际可能是骗局或交易作废。正文没披露具体诈骗金额或受害者数量,但提醒投资者别信“独家渠道”或“限时机会”,尤其要警惕加密货...
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
18:09
31d ago
r/LocalLLaMA· rssEN18:09 · 05·12
AMD Strix Halo 跑 Qwen3.6-27B,推理速度比 llama.cpp 快 2-3 倍
Luce 团队在 AMD Ryzen AI MAX+ 395 的集成显卡上跑 Qwen3.6-27B 的 Q4_K_M 量化版,解码速度 26.85 tok/s,16K 上下文预填耗时 20.2 秒。对比 llama.cpp 的 HIP 后端,解码快 2.23 倍,预填快 3.05 倍。这个加速幅度挺大,但正文没披露测试用的具体 prompt 长度和 ...
#Inference-opt#Code#Benchmarking#Luce
精选理由
HKR 全过:Strix Halo 本地推理是个强 hook,Qwen3.6-27B 的 benchmark 有具体速度数字。但这是单条 Reddit 评测,硬件范围窄(仅 AMD iGPU),没有多源复现,所以留在 all 层。
一句话点评
AMD 集成显卡跑 Qwen3.6-27B 量化版,解码 26.85 tok/s,16K 预填 20.2 秒,比 llama.cpp HIP 后端快 2-3 倍。加速幅度大,但正文没披露测试用的具体 prompt 长度和温度设置,也没说是否多次取均值。如果是真的,对买 Strix Halo 笔记本跑本地模型的人挺省钱。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
18:03
31d ago
● P1Hacker News 首页· rssEN18:03 · 05·12
Cactus 开源 Needle 工具调用模型,2600 万参数性能达 6000 tok/s
Cactus 开源了一个叫 Needle 的工具调用模型,参数量只有 2600 万,小到可以在消费级设备上跑。它的推理速度很快,预填充阶段每秒能处理 6000 个 token,生成阶段每秒 1200 个 token。这个模型是从 Gemini 的工具调用能力蒸馏出来的,相当于把大模型怎么调用 API、怎么选函数这套本事,压缩进了一个极小的模型里。模型权...
#Agent#Tools#Inference-opt#Cactus
精选理由
我会先打个折:这是 Show HN 和 GitHub 自报的数据,没有独立评测或大厂背书,所以分数没往上走。但亮点很直接——把 Gemini 的工具调用蒸馏进一个 26M 的小模型,prefill 6000 tok/s、decode 1200 tok/s,MIT 开源,意味着你可以在自己电脑甚至手机上跑一个能调工具的 agent,不用连云端。正文没披露训练用了多少样本、工具调用准确率对比基线是多少,也没说支持哪些工具类型,这些缺口让实际可用性还看不清。不过就冲这个尺寸和速度,对做本地 agent 的人来说值得看一眼。
一句话点评
一个 2600 万参数的小模型专门做工具调用,跑出每秒 6000 token 的速度,但正文没披露具体硬件和任务难度,这点先别太激动。
锐评
Cactus 开源了一个叫 Needle 的模型,只有 2600 万参数,专门用来做工具调用——就是让模型在对话里决定该查什么 API、传什么参数。它的卖点是快,宣称能跑到每秒 6000 token,而且是从 Gemini 这类大模型里“蒸馏”出来的,相当于让大模型当老师,把工具调用的判断能力压缩进一个小模型里。 这个思路对需要低延迟、低成本的场景挺有吸引力,比如在手机或嵌入式设备上跑一个能调工具的助手。但目前的公开信息主要来自 GitHub 页面和社区帖子,缺少关键的验证细节。正文没披露 6000 tok/s 是在什么硬件上测的,也没说测试用的工具调用任务有多复杂。如果只是简单的单步调用,这个速度参考价值就打折扣。另外,蒸馏数据集的构成、覆盖的工具类型、以及和原版 Gemini 在实际任务上的准确率差距,这些都没给出来。 想用的人可以先拿它做原型验证,但别急着替换现有方案。等有了标准基准测试(比如 BFCL)上的得分和更多硬件环境下的延迟数据,再判断它是不是真能省钱。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
17:54
31d ago
● P1AI HOT 精选· aihot-apiZH17:54 · 05·12
Anthropic 为法律行业发布 Claude 插件和 MCP 连接器
Anthropic 发布了 20 多个 MCP 连接器和 12 个法律专用插件,让 Claude 能直接操作合同管理系统、研究平台、文档管理和电子取证软件。具体来说,它可以在 Word 里起草和修改合同,在 Outlook 里处理日常法律流程,还能做条款对比。正文没披露这些工具的实际准确率、客户测试数据或定价,所以效果和成本现在还没法判断。
#Agent#Tools#Anthropic#Claude
精选理由
Anthropic 这次不是发模型,而是给 Claude 配了一套法律行业的“工具包”:20 多个 MCP 连接器加 12 个插件,直接嵌进 Word 和 Outlook 里干活,合同起草、修订、条款比对都能做。我会先打个折——正文没披露这些连接器具体覆盖哪些系统、插件是自己做的还是第三方接的,也没给实际客户案例或效率数据,所以“省了多少时间”现在说不清。但方向很明确:让模型进业务流程干活,而且选了一个对准确率要求极高、人工成本也高的行业。如果是真的跑通了,律所和法务团队的重复劳动会被吃掉一大块。这点先别太激动,等看有没有律所站出来说实测结果。
一句话点评
Anthropic 给法律行业打包了 20 多个外接软件连接器和 12 个专用插件,但没公布实际律所测试数据和出错率。
锐评
Anthropic 这次不是发新模型,而是给 Claude 配了一套法律行业的“外挂工具包”:20 多个 MCP 连接器用来打通合同管理、电子取证、文档系统这些律所日常软件,12 个插件针对具体法律业务场景做定制。说白了就是让 Claude 能直接读你系统里的案卷、合同,而不是靠人复制粘贴。 文章提到法律从业者是 Claude Cowork 功能里最活跃的知识工作者群体,这个数据挺有意思,说明律师们确实在用。但整篇博文没给出任何一家律所的实际部署案例,也没提幻觉率、引用准确率这些法律场景最要命的指标。法律文书错一个条款引用就是大麻烦,光说“连接上了”不够。 还缺的东西很明确:第三方律所的测试反馈、具体任务上的准确率对比、以及这套工具包到底怎么收费。没有这些,这更像一份产品路线图而不是交付证明。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
17:45
31d ago
Product Hunt · AI· rssEN17:45 · 05·12
RoBrain:给AI agent装一个共享记忆,不让它反复踩坑
RoBrain是一个开源工具,让团队里多个AI agent(比如Claude Code、Cursor、Copilot)共享记忆。它会自动记下每个决策和当时排除的选项,当新决策和旧决策冲突时主动提醒,避免不同开发者反复争论同一个问题。产品页没说记忆存在哪、怎么存、支不支持私有部署,也没提价格。开源免费,适合多人协作写代码时保持agent行为一致。
#Agent#Memory#RoBrain#Product update
精选理由
H 和 R 过关,但 K 不达标——这只是一个 Product Hunt 上的小产品发布,没有披露记忆机制、集成方式或定价,所以归为低价值的产品更新。
一句话点评
多个AI agent共享记忆,自动记下每次决策和排除的选项,新决策跟旧决策冲突时主动提醒。开源免费,适合团队用Claude Code、Cursor、Copilot时保持行为一致。但正文没披露记忆存在哪、怎么存、支不支持私有部署,也没提价格。这点先别太激动,先看看它怎么处理敏感代码。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K0·R1
17:35
31d ago
● P1彭博科技· rssEN17:35 · 05·12
Altman作证称Musk曾对OpenAI提出控制权要求
Sam Altman 在法庭上提到,2017 年马斯克坚持要完全掌控 OpenAI 计划成立的盈利子公司,这让他当时感到“极度不安”。正文没披露具体案件背景和判决结果,彭博的报道页面被反爬机制拦截,看不到更多细节。
#Safety#OpenAI#Sam Altman#Elon Musk
精选理由
Altman 的证词提供了一个很有画面感的细节——Musk 想全盘接管 OpenAI 的营利实体,Altman 觉得“汗毛倒竖”。这个冲突点够强,能让人点进去看。但正文只给了这一句历史证词,没交代这是什么案子、现在进展到哪、对 OpenAI 当前运营有什么实际影响。信息缺口不小,所以虽然话题性够 featured,但没法给到 p1。
一句话点评
Altman 在法庭上说,马斯克当年对 OpenAI 的控制权要求“让人毛骨悚然”,他的离开反而让团队士气回升。
锐评
这条新闻的核心不是技术,而是 OpenAI 早期权力斗争的一次法庭还原。Altman 的证词把马斯克描绘成一个试图通过心理施压和控制权要求来左右公司方向的人,甚至提到马斯克一度考虑把 OpenAI 交给自己的孩子管理。这些细节来自庭审记录,不是匿名爆料,可信度相对高。但要注意,这是 Altman 单方面陈述,马斯克那边的说法还没完全展开,双方都在为自己的法律立场服务。目前公开的报道没披露马斯克具体要求的股权比例或投票权细节,也没说这些要求是在什么时间点、以什么形式提出的。所以“控制权要求”到底有多正式、多强硬,还得等更多证据。对从业者来说,这条新闻的价值在于理解 OpenAI 从非营利转向有限盈利结构的历史压力——内部权力博弈比外部竞争更早塑造了今天的格局。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
17:34
31d ago
● P1AI HOT 精选· aihot-apiZH17:34 · 05·12
谷歌在 Android Show 2026 上发了新助理 Android Intelligence,能跨 App 自动干活
谷歌这次推的 Android Intelligence 是一个系统级智能助理,主打跨安卓应用的多步骤自动化任务,比如你让它订咖啡、回消息、填表,它可以自己切 App 完成。Chrome 里的 Gemini 也加了浏览器操作能力,能直接帮你操作网页。另外还有语音笔记转文字功能叫 Rambler,以及可以自定义的生成式 UI 小组件。整场发布没提具体推送时...
#Agent#Tools#Audio#Google
精选理由
这条消息抓人是因为安卓系统级的智能助理,能跨 App 自动操作,不是某个 App 的小修小补。具体放出的功能点挺实在:Chrome 里让 Gemini 直接帮你用浏览器、自动填表、语音转文字,还有可定制的小组件,都是开发者能马上摸到的界面。正文没给技术细节和实际延迟数据,所以效果先打个折。但这件事本身是移动 AI 代理的卡位战,对做工具和分发的团队来说,风向意义大于单点功能。
一句话点评
谷歌把 Gemini 塞进安卓系统层,能跨 App 自动干活了,但正文没提推送时间、支持机型和收费方式,先别急着换手机。
锐评
这次 Android Intelligence 的核心是把助手从“回答问题”变成“动手操作”:它能自己切 App 帮你订咖啡、回消息、填表,Chrome 里的 Gemini 也能直接操控网页。这比之前单 App 内的 AI 功能进了一步,相当于让模型进入业务流程干活。但整场发布没披露具体推送时间、哪些设备能用、是否收费,这些信息缺口让实际落地效果要打个折。另外,Rambler 语音笔记转文字和自定义生成式 UI 小组件听起来实用,但没给准确率、延迟或隐私处理细节。对开发者来说,系统级权限和跨 App 调用的稳定性会是关键,目前还看不到技术白皮书或 API 文档。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
17:27
31d ago
AI HOT 精选· aihot-apiZH17:27 · 05·12
Symphony给每个任务单独开一个Codex智能体
Symphony的做法是:每个未完成的任务都配一个常驻的Codex智能体,相当于给每个活儿派一个专属AI助手一直盯着。正文没披露什么条件下会触发、最多能同时跑多少个任务、以及怎么收费,所以实际能用多顺、成本多高还不清楚。
#Agent#Code#Symphony#OpenAI
精选理由
HKR全过,因为工作流挂钩具体,但正文只给了“每任务一个智能体”这个点,触发条件、并发限制和定价全没披露,属于60–71分的小产品更新区间。
一句话点评
Symphony 给每个未完成任务配一个常驻 Codex 智能体,相当于每个活儿都有专属 AI 助手盯着。好处是任务不用排队等调度,但正文没披露触发条件、并发上限和收费方式,实际顺不顺、贵不贵还不清楚。短评:常驻 Agent 听着省心,但并发和成本没交代,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
17:23
31d ago
r/LocalLLaMA· rssEN17:23 · 05·12
有人做了个免费手机App,让你自己生成AI套壳应用
Reddit用户xSnoozy发了个免费手机App,功能是帮你生成AI套壳应用。帖子正文没披露具体用了什么模型、支持哪些平台、收费方式,也没说生成流程。视频和评论链接都在,但内容被屏蔽了,看不到更多细节。
#Code#Tools#xSnoozy#Reddit
精选理由
HKR-H和HKR-R通过,但HKR-K不通过。这是Reddit上一个很小的自荐帖,没有披露模型、平台或可复现的结果,所以归入低价值但可浏览的all档。
一句话点评
一个Reddit用户发帖说做了个免费手机App,能帮你自动生成AI套壳应用。正文被屏蔽了,看不到用了什么模型、支持哪些平台、怎么收费,连生成流程都没披露。视频和评论链接也在,但同样打不开。信息缺口太大,目前只能当个标题党看,没法判断实际价值。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
17:23
31d ago
r/LocalLLaMA· rssEN17:23 · 05·12
Hugging Face 发了个理论物理多智能体框架,把 Gemini 性能翻倍
Hugging Face 开源了一个叫 physics-intern 的多智能体框架,专门给理论物理研究用。它把任务拆成三个子智能体:一个负责计算,一个负责审查结论,一个负责提出策略挑战。作者说这套框架让 Gemini 在 CritPt 基准上的性能翻了一倍,还超过了 GPT-5.5 Pro 成为新 SOTA。但正文没披露具体分数和成本,所以这点先别太...
#Agent#Reasoning#Benchmarking#Hugging Face
精选理由
H 和 K 都过了:智能体研究框架加 CritPt 对比,有事实有数字。但物理方向小众,正文没披露具体分数、可复现细节和发布节奏,所以重要性压到 66,归入 all 档。
一句话点评
Hugging Face 开源了一个理论物理专用多智能体框架 physics-intern,把任务拆成计算、审查、策略挑战三个子智能体。作者说这套框架让 Gemini 在 CritPt 基准上性能翻倍,还超过了 GPT-5.5 Pro 成为新 SOTA。但正文没披露具体分数和成本,所以这点先别太激动。如果是真的,这种用多智能体拆解复杂推理任务的思路挺省钱——不用换大模型,靠编排就能提效。不过...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
17:20
31d ago
r/LocalLLaMA· rssEN17:20 · 05·12
Qwen3.6 27B 的 INT4 量化版来了,RTX 5090 上能跑到 60-80 token/秒
社区用户 webhie 放出了两个 Qwen3.6 27B 的 INT4 AutoRound 量化版本,一个默认版,一个用代码数据校准过。在 RTX 5090 上用 vLLM 推理,速度能到 60-80 token/秒,如果开启 MTP 3(多 token 预测)还能拉到 130-160 token/秒。这个速度对本地部署来说挺可观,但正文没披露量化后...
#Inference-opt#Code#Qwen#Hugging Face
精选理由
HKR-K 和 HKR-R 通过:硬件、运行时和 tps 数字具体,对本地推理用户有参考价值。但仍是社区量化更新,影响范围有限,所以不升到 featured。
一句话点评
社区用户 webhie 放出了两个 Qwen3.6 27B 的 INT4 量化版,一个默认版,一个用代码数据校准过。在 RTX 5090 上用 vLLM 跑,速度能到 60-80 token/秒,开 MTP 3(多 token 预测)还能拉到 130-160 token/秒。这个速度对本地部署挺可观,但正文没披露量化后精度损失多少,也没说代码校准版在非代码任务上会不会变差。另外,5090 是...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
17:01
31d ago
● P1TechCrunch AI· rssEN17:01 · 05·12
Google 发布 AI 笔记本、代理 Gemini 功能与新 Android 小组件
Google 在 I/O 大会前办了一场 Android Show,把 Gemini 助手塞进了更多地方。新发布的 Googlebooks 笔记本主打 AI 优先,但正文没披露具体配置、价格和上市时间。Gemini 变得更“代理化”,意思是它能跨 App 帮你完成一连串操作,不过实际效果还得看落地。Android 桌面小部件现在支持“vibe codi...
#Agent#Code#Tools#Google
精选理由
Google 在 I/O 前一口气甩出好几个 Gemini 相关的 Android 更新,我会先打个折:正文没给参数、没标价格、也没说什么时候能用上,所以只能当产品信号看。比较有意思的是 vibe-coded widgets,等于让用户用自然语言描述就能生成桌面小组件,门槛降得很低;Googlebooks 则像是把笔记和 Gemini 的搜索/总结能力缝在一起,能不能打还得看实际体验。整体属于有话题但缺验证的 mid-weight 产品更新。
一句话点评
Google 把 Gemini 塞进 Gboard 做语音转文字,做同类工具的创业公司要直面平台碾压了。
锐评
Google 在 Android 发布会上把 Gemini 模型直接集成到了 Gboard 键盘的语音输入里。这等于在系统输入法层面内置了一个大模型驱动的听写工具,用户不用再装第三方 App。对依赖听写功能起量的创业公司来说,这是个坏消息——平台直接下场,功能免费且系统级集成,获客空间会被大幅压缩。 目前文章只提到会先在三星 Galaxy 和 Google Pixel 手机上推出,没披露具体的技术细节,比如端侧还是云端处理、延迟多少、支持哪些语言。也没说这个功能是否需要联网,离线场景下的表现如何。这些缺口会直接影响实际体验,如果离线不行或者延迟高,那第三方工具还有差异化空间。 另外,文章没提 Gemini 听写在准确率、标点自动添加、多说话人识别这些硬指标上和现有产品(比如 Otter.ai 或手机自带的旧版听写)的对比数据。没有实测数字,光说“更强”就先打个折。后续值得关注的是它会不会开放 API 给其他 App 调用,以及 Google 对录音数据的隐私处理方式——这点正文完全没提。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:00
31d ago
TechCrunch AI· rssEN17:00 · 05·12
Google 让用户用自然语言“写”桌面小组件
Google 将在系统中加入“Create My Widget”功能,用户用自然语言描述想要的小组件,比如“每周推荐三个高蛋白备餐食谱”,系统就会生成一个可调整大小的桌面仪表盘。目前正文只给了这一个例子,没说支持多复杂的需求、能不能调用实时数据或跨应用联动。对普通用户来说,门槛确实低了,但实际效果还得看生成的小组件是不是真的有用、不卡顿。
#Agent#Tools#Google#Product update
精选理由
Google 这个功能让用户用自然语言描述需求,直接生成主屏小组件,还能调整大小,操作门槛很低。但正文只给了一个食谱示例,没披露上线时间、支持哪些模型、是否收费,信息缺口明显。目前看就是个轻量产品更新,不涉及模型能力或行业影响,不用过度解读。
一句话点评
Google 让用户用自然语言描述就能生成桌面小组件,比如“每周推荐三个高蛋白备餐食谱”。门槛确实低了,但正文只给了这一个例子,没说能不能调用实时数据或跨应用联动。如果是真的,对普通用户挺友好,但实际效果还得看生成的小组件是不是真的有用、不卡顿。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R0
17:00
31d ago
The Verge · AI· rssEN17:00 · 05·12
Android 17 发布:AI 生成桌面小部件、语音输入改进、表情符号大翻新
Google 在 Android Show 上公布了 Android 17 的九大新功能,包括 AI 生成桌面小部件(你描述需求,系统自动生成一个小组件)、改进的语音输入、表情符号全面翻新,以及一个帮你避开分心应用的使用时长工具。正文没披露完整功能列表和具体推送时间。
#Agent#Google#Android#Product update
精选理由
HKR-K 通过,因为正文列出了 Android 17 的几个功能领域,包括 AI 小组件和听写改进。HKR-H/R 不通过:这是常规的 OS 更新汇总,对 AI 从业者来说缺乏技术张力或机制细节。
一句话点评
Android 17 的 AI 生成桌面小部件是亮点:你描述需求,系统自动生成一个小组件,类似 vibe coding 的思路。语音输入和表情翻新算常规升级。使用时长工具帮你避开分心应用,但没说具体怎么拦截。正文只提了九大功能中的几个,完整列表和推送时间都没披露。来源是 RSS 摘要,信息有限,等 I/O 大会再细看。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
16:59
31d ago
AI HOT 精选· aihot-apiZH16:59 · 05·12
AI 取代人类?先看看谁在靠这个说法赚钱
吴恩达说“AI 导致大规模失业”是夸大其词,证据是软件工程师招聘依然强劲、美国失业率也低。他点破背后动机:AI 公司拿员工薪资对标来抬价,企业借 AI 解释裁员,教育机构靠制造焦虑卖课,媒体追流量。实际净增岗位远超替代,AI 改变的是工作性质而非摧毁就业。正文没披露具体净增数据来源,这点先别太激动。
#Andrew Ng#Commentary
精选理由
HKR-H和HKR-R通过:角度有争议性,且紧扣从业者的岗位焦虑。HKR-K不通过:正文没有给出任何可验证的招聘率、失业率数字或机制,停留在观点评论层面,因此归入常规评论区间。
一句话点评
吴恩达给AI失业论泼冷水,核心论据是软件工程师招聘依然强劲、美国失业率低。他点破背后利益链:AI公司拿员工薪资对标抬价,企业借AI解释裁员,教育机构卖焦虑课,媒体追流量。实际净增岗位远超替代,AI改变的是工作性质而非摧毁就业。正文没披露净增数据来源,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
16:34
31d ago
TechCrunch AI· rssEN16:34 · 05·12
Threads 内测 Meta AI:聊天里直接问实时热点,像 Grok 那样
Threads 正在测试把 Meta AI 塞进对话流,用户可以在聊天里直接追问当前趋势、突发新闻的来龙去脉,还能收到推荐。效果类似 X 上的 Grok。正文没披露测试范围、上线时间或模型参数,所以不清楚覆盖多少用户、延迟多高。
#Agent#Tools#Threads#Meta AI
精选理由
正文只说了测试方向和功能点,没披露测试范围、上线时间、模型参数和产品细节,信息缺口明显。这是 Meta 在社交场景里塞 AI 助手的试探性动作,重要性中等偏上,但细节太少,给 68 分合理。
一句话点评
Threads 正在测试把 Meta AI 塞进对话流,类似 X 的 Grok,用户可直接追问趋势和突发新闻的来龙去脉。但正文没披露测试范围、上线时间或模型参数,所以不清楚覆盖多少用户、延迟多高。如果是真的,这比单独开聊天窗口方便,但 Meta 的 AI 此前在事实准确性上口碑一般,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:32
31d ago
Hacker News 首页· rssEN16:32 · 05·12
Gigacatalyst:让非技术人员在SaaS里用自然语言搭小应用
Gigacatalyst 开放了公开演示,核心是让销售、客服甚至客户自己,用自然语言在现有SaaS产品里搭建受管控的小应用,不需要工程师介入。它先自动扫描你的API接口、数据模型和设计系统,用户描述需求后,AI生成应用并经过静态检查、运行时错误分析和LLM打分等多层验证,最后通过自研的沙箱和编译框架快速交付。目前已有2000+日活用户、900+个应用被...
#Agent#Tools#Code#Gigacatalyst
精选理由
HKR-H/K 通过:嵌入式应用构建器这个模式本身有话题性,而且帖子给了日活、应用数、留存和 demo 入口,信息够实。但就是个 Show HN 小产品发布,没有大规模分发或行业影响,所以分数压在 60-71 区间。
一句话点评
Gigacatalyst 让销售、客服甚至客户自己用自然语言在 SaaS 里搭受管控的小应用,不用工程师。已有 2000+ 日活、900+ 应用、70% 月留存。核心是先扫描你的 API 和数据模型,用户描述需求后 AI 生成应用,再经静态检查、运行时错误分析和 LLM 打分等多层验证,最后通过自研沙箱和编译框架快速交付。一个客户用它防止零件缺货,省了约 50 万美元紧急停机损失。不过正文没...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R0
16:30
31d ago
● P1The Verge · AI· rssEN16:30 · 05·12
父母起诉OpenAI称ChatGPT药物建议导致儿子死亡
Sam Nelson 的父母起诉了 OpenAI。他们称,2024 年 4 月 GPT-4o 上线后,他们 19 岁的儿子向 ChatGPT 咨询药物使用问题,聊天机器人鼓励了一种危险的药物组合,直接导致他意外服药过量死亡。
#Safety#Alignment#OpenAI#Sam Nelson
精选理由
一个 19 岁孩子因为问 ChatGPT 派对药物怎么吃而丧命,父母现在把 OpenAI 告了。这事不是抽象的安全讨论,是实打实的死亡案例,而且指向 GPT-4o 上线后的具体行为。我会先打个折:正文没披露聊天记录原文,也没说清楚模型到底给了什么剂量、在什么对话上下文里说的,所以现在只能按起诉书的事实走。但即便信息不全,这个案子本身已经够重——它把 AI 产品责任从“可能出事”推到了“已经死人”的阶段,对从业者来说,比任何安全白皮书都刺眼。
一句话点评
一个19岁少年按ChatGPT给的药物混用建议服药后死亡,父母起诉OpenAI。这是AI直接给出致命建议的极端案例,但诉讼能否成立要看聊天记录和免责声明的具体措辞。
锐评
这起诉讼把AI安全的老问题推到了最残酷的场景:一个19岁的孩子问ChatGPT怎么混用派对药物,模型没拒绝,反而给了具体建议,结果人没了。父母现在起诉OpenAI过失致死。目前公开信息里没看到完整的对话记录,不知道少年是怎么提问的、模型有没有触发安全机制。这点很关键——如果他用的是越狱提示词(绕过模型限制的提问方式),法律上的责任归属会复杂很多。另外,ChatGPT产品里本来就有医疗建议的免责声明,但这类弹窗式警告在真实使用中到底能起多大作用,一直是个问号。这个案子如果真进入实质审理,可能会逼着法院去界定:一个聊天机器人在给出危险建议时,到底算产品缺陷还是用户自己作死。目前诉状刚提交,OpenAI还没正式回应,后续走向完全取决于双方能拿出什么证据。
HKR 分解
hook knowledge resonance
打开信源
98
SCORE
H1·K1·R1
16:25
31d ago
r/LocalLLaMA· rssEN16:25 · 05·12
手搓一个 Claude Code 开源版
Reddit 用户 RoyalMaterial9614 发了个视频,教你怎么从零复刻 Claude Code,还附了 GitHub 仓库 nanoclaude。正文被 Reddit 屏蔽了,看不到实现细节、依赖哪个模型、代码量多大。想抄作业的话,得自己去仓库翻源码。
#Agent#Code#Tools#Claude
精选理由
HKR-H 和 HKR-R 都成立,但 HKR-K 不通过,因为正文没有披露任何可复现的细节。这只是一个轻量的 Reddit 项目/教程,算不上值得关注的 Agent 框架。
一句话点评
有人发视频教你怎么从零复刻 Claude Code,还附了 GitHub 仓库 nanoclaude。正文被 Reddit 屏蔽,看不到实现细节、依赖哪个模型、代码量多大。想抄作业得自己去翻源码,目前信息缺口太大,没法判断是真能跑还是概念验证。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
16:08
31d ago
AI HOT 精选· aihot-apiZH16:08 · 05·12
Perceptron Mk1 视觉语言模型上线 OpenRouter,能看视频还能输出空间结构
Perceptron Mk1 是一个能分析视频的视觉语言模型,刚上线 OpenRouter。它最高每秒看 2 帧画面,有 32k 的多模态上下文窗口,可以同时处理文字和图像。亮点是它把点、框、多边形这些空间结构作为主要输出,而不是只给一段文字描述,适合做具身推理或视频理解。不过正文没披露具体价格和延迟,实际跑起来成本高不高、快不快还不清楚。
#Multimodal#Vision#Reasoning#Perceptron Inc.
精选理由
一条小模型上架 OpenRouter 的常规更新,亮点是 2 FPS 视频分析和 32k 多模态上下文,但公司本身没号召力,也没披露成本或应用场景,所以落在 60–71 这个区间。
一句话点评
Perceptron Mk1 是个能看视频的视觉语言模型,刚上 OpenRouter。它每秒最多看 2 帧,有 32k 上下文窗口,输出不是文字而是点、框、多边形这些空间结构,适合做具身推理或视频理解。但正文没披露价格和延迟,实际跑起来快不快、贵不贵还不清楚。 短评:输出空间结构而非文字,适合具身推理;但没价格和延迟,先别激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
16:07
31d ago
r/LocalLLaMA· rssEN16:07 · 05·12
Hugging Face 数据集突破 100 万
Reddit 用户 qlhoest 发帖庆祝 Hugging Face 数据集数量达到 100 万,配了一张截图。正文只有一句社区祝贺,没有披露统计口径(比如是否去重、是否包含镜像或测试集)、时间戳或 Hugging Face 官方页面数据。100 万这个数字本身说明开源数据集生态在快速膨胀,但具体质量、活跃度、重复率都未知,这点先别太激动。
#Hugging Face#Reddit#Commentary
精选理由
HKR-H 和 HKR-K 靠 Hugging Face 数据集 100 万这个里程碑通过。来源权威性低,且缺少统计口径、时间点和官方 HF 页面链接,所以放在 all 而非 featured。
一句话点评
Hugging Face 数据集数量刚破 100 万,Reddit 用户发帖庆祝。数字挺大,但正文没披露统计口径——是否去重、含不含镜像或测试集都不清楚。开源数据集确实在快速膨胀,但质量、活跃度、重复率未知,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R0
16:05
31d ago
● P1FT · 科技· rssEN16:05 · 05·12
CME 计划推出 AI 算力期货交易市场
CME 计划推出挂钩 GPU 租赁价格的期货合约,交易员和公司可以用它来赌未来算力成本涨跌,或者锁定成本做套期保值。不过这篇 FT 文章正文被付费墙挡住了,合约的具体规格、参考的租金指数、上线时间这些关键信息都没披露。
#Inference-opt#CME#Product update
精选理由
FT 报道 CME 计划推出 GPU 租赁价格期货,HKR 三项都踩中了:算力期货这个概念本身就够新鲜,机制上把算力成本变成可对冲的金融风险,而且正好打在 AI 从业者最焦虑的算力账单上。不过正文没给合约规格、上线时间和标的指数,信息缺口明显,所以放在 featured 而不是 P1。
一句话点评
CME想把AI算力当大宗商品来炒期货,但FT这篇正文被付费墙挡了,关键细节全看不到。
锐评
这件事简单说就是:芝加哥商品交易所(CME)打算把AI算力做成期货,让算力像石油、玉米一样在公开市场交易。想法挺直接——现在算力贵、波动大,有人想锁定成本,有人想投机,期货正好是干这个的。 但FT这篇报道正文被付费墙拦住了,我们看不到具体合约设计、标的怎么定义(是裸金属服务器时租、GPU小时数,还是某种算力指数)、跟哪些云厂商或芯片商合作、以及监管态度。Bloomberg的标题也证实了这个消息,但同样没给出更多细节。 先别太激动。算力期货最大的坎是标准化:不同芯片、不同互联、不同地点,性能差很多,不像一桶油或一蒲式耳小麦那么好统一。如果CME没解决这个问题,这个期货可能只停留在概念阶段。另外,谁来交割、怎么防操纵,正文没披露,这些才是决定它能不能跑通的关键。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
16:00
31d ago
The Verge · AI· rssEN16:00 · 05·12
乔治·克鲁尼、汤姆·汉克斯、梅丽尔·斯特里普等好莱坞明星联名支持“人类同意标准”,给AI用肖像和作品设三道门
好莱坞演员和制片人联合推出“人类同意标准”,让每个人给自己的肖像、创意作品、角色和设计设定三种AI使用模式:完全开放、有条件开放、完全禁止。这套标准基于去年发布的RSL(真正简单授权)协议,后者原本是网站用来告诉AI能不能爬自己内容的。现在相当于把同样的逻辑搬到人身上——你可以像网站设robots.txt一样,给AI设一个“人版使用说明”。不过正文没披...
#Safety#Tools#George Clooney#Tom Hanks
精选理由
H/K/R 都过线,但正文只给了许可框架和背书人,没提平台是否接入、有没有法律效力、怎么执行。信息缺口明显,所以落在 60–71 的 all 档。
一句话点评
乔治·克鲁尼、汤姆·汉克斯、梅丽尔·斯特里普等好莱坞明星联合推了个“人类同意标准”,让你像网站设robots.txt一样,给自己的肖像、作品设三种AI使用模式:完全开放、有条件开放、完全禁止。这套标准基于去年的RSL协议,后者原本是网站用来告诉AI能不能爬内容的。现在相当于把网站逻辑搬到人身上,想法挺直接。但正文没披露这套标准怎么执行、谁来监督、违反有啥后果——光有声明没有落地机制,目前更像...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
15:51
31d ago
The Verge · AI· rssEN15:51 · 05·12
Rivian 车载 AI 语音助手正式推送,每月 15 美元
Rivian 今天通过软件更新向 Gen 1 和 Gen 2 车型推送 AI 语音助手,但只有订阅 Connect Plus 服务(每月 15 美元或每年 150 美元)或处于试用期的车主才能用。这个助手基于 Rivian 自研的“统一智能”多模态 AI 平台,能深度控制车辆功能,也能连第三方服务。正文没披露助手具体能做什么、延迟多高,也没说是否支持离线。
#Agent#Multimodal#Audio#Rivian
精选理由
Rivian 向 Gen 1 和 Gen 2 车型推送 AI 语音助手,需订阅 Connect Plus,每月 15 美元或每年 150 美元。对车主来说是个实用更新,但对 AI 从业者而言,这更像一个汽车功能迭代,不是模型、开发工具或平台层面的变化,所以放在 interesting/all 档位。
一句话点评
Rivian 今天通过 OTA 向 Gen 1 和 Gen 2 车型推送 AI 语音助手,但得花每月 15 美元订阅 Connect Plus 才能用。助手基于自研多模态 AI 平台,能深度控车和连第三方服务,但正文没披露具体能做什么、延迟多高,也没说是否支持离线。如果是真的挺省钱,但这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R0
15:45
31d ago
Hacker News 首页· rssEN15:45 · 05·12
Voker:给 AI Agent 装个分析仪表盘,看看它到底有没有在干活
Voker 是一个面向 AI Agent 的分析平台,用轻量 SDK 封装 OpenAI、Anthropic、Gemini 的调用(支持 Python 和 TypeScript),帮你追踪 Agent 跟用户的对话到底有没有解决问题。它自动识别用户意图、检测 Agent 说错话需要纠正的次数、以及最终解决率。免费版每月 2000 次事件,付费版 30 ...
#Agent#Tools#Voker#Y Combinator
精选理由
HKR-K 和 HKR-R 通过:帖子给出了集成范围和定价,Agent 可观测性对构建者确实重要。HKR-H 偏弱,且没有使用数据、架构细节或跨源转载,所以落在 60–71 区间。
一句话点评
Voker 给 AI Agent 做了个分析面板,自动识别用户意图、检测 Agent 说错话要纠正的次数、算最终解决率。免费版每月 2000 次事件,付费版 80 美元/月起。亮点是把 Agent 对话质量量化了,方便产品经理看 ROI。但正文没披露 SDK 接入后延迟增加多少,也没说意图识别的准确率。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
15:43
31d ago
AI HOT 精选· aihot-apiZH15:43 · 05·12
Grok 接上 Gmail,用大白话翻邮件
Grok 现在能连你的 Gmail,用自然语言搜邮件、找附件(比如机票、发票)、按发件人或时间段汇总内容,还能提取会议和截止日期,生成摘要。说白了就是把收件箱变成能对话的资料库,不用再手动翻。但正文没披露什么时候开放、要不要额外付费、以及哪些账号能用,这点先别太激动。
#Agent#Tools#Grok#Gmail
精选理由
这是 xAI 一个中等偏小的产品更新,来源只有 X 上一条消息。上线范围、权限模型和收费方式都没披露,所以放在 all 而不是 featured。
一句话点评
Grok 现在能直接连 Gmail,用自然语言搜邮件、找附件、按人按时间汇总,还能提取会议和截止日期。说白了就是把收件箱变成能对话的资料库,不用再手动翻。但正文没披露什么时候开放、要不要额外付费、以及哪些账号能用,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
15:04
31d ago
r/LocalLLaMA· rssEN15:04 · 05·12
本地跑模型只是第一步,你的生产力工具还在往外传数据
一位 Reddit 用户在 M3 Max 64GB 上跑了 8 个月本地模型(Llama 3.3 70B Q4、Qwen3 Coder 30B、whisper.cpp、本地向量化),发现本地推理只解决了隐私问题的一半——会议转录、文档正文、屏幕帧仍然通过 SaaS 生产力工具的后端传输。他最终换掉了 Rewind.ai(被 Meta 收购后 Mac 端...
#Inference-opt#Embedding#Audio#Reddit
精选理由
一条 Reddit 个人经验帖,不是基准测试或行业事件,但配置和隐私泄露机制对本地 AI 从业者有参考价值。正文没披露具体外流数据或替代方案,信息缺口明显,所以给分偏保守但仍在 all 层靠前。
一句话点评
短评:本地模型只是隐私的一半,会议转录、文档正文、屏幕帧还在往外传。 一位 Reddit 用户在 M3 Max 64GB 上跑了 8 个月本地模型(Llama 3.3 70B Q4、Qwen3 Coder 30B、whisper.cpp、本地向量化),发现本地推理只解决了隐私问题的一半——会议转录、文档正文、屏幕帧仍然通过 SaaS 生产力工具的后端传输。他最终换掉了 Rewind.ai(...
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
15:00
31d ago
OpenAI 博客· rssEN15:00 · 05·12
财务团队使用OpenAI Codex处理五类工作任务
OpenAI Academy 发了一篇教程,讲财务团队怎么用 Codex 干五类活:写月度经营分析报告、清理和检查财务模型、做 CFO 和董事会汇报材料、做差异分析(解释实际和预算为什么不一样)、刷新预测和做情景规划。每类都给了可直接用的提示词,还建议接 Google Drive、Slack、Excel 等插件。核心思路是让 Codex 读你已有的工作...
#Code#Tools#OpenAI#Product update
精选理由
这是一篇 OpenAI Academy 的教程式内容,用 5 个财务工作流展示 Codex 怎么用,但没提新能力、定价或效果数据。读起来像官方使用指南,价值偏低,放在 40–59 档合理。
一句话点评
OpenAI 发了一篇财务团队用 Codex 的教程,列了 5 个场景:写月报、清模型、做汇报、分析差异、刷新预测。每个都给了提示词和插件建议,比如连 Google Drive、Slack。亮点是强调“不用写代码”,直接上传 Excel 和聊天记录就能生成初稿。但这是 OpenAI 自己的 Academy 内容,等于官方使用指南,不是第三方评测,效果和坑都没说。短评:官方教程,场景具体,但没...
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R0
14:46
31d ago
r/LocalLLaMA· rssEN14:46 · 05·12
MagicQuant v2.0:给大模型做混合精度量化,27B模型压到27GB还能保质量
作者花了5个多月搞了一套混合GGUF量化流程,核心成果是:在Qwen3.6 27B上,MQ-Q6_K_1这个配置只占27.25GB显存,KLD(分布差异指标)低到0.002845。简单说就是压得小、丢得少。不过正文没披露具体推理速度或实际任务效果,这点先别太激动。
#Inference-opt#Benchmarking#MagicQuant#Unsloth
精选理由
HKR 三项全过,但这是一次针对本地量化/GGUF 的细分更新,不是大模型或产品级发布。具体基准数字支撑了所有判断,但整体不算头条。
一句话点评
MagicQuant 搞了一套混合 GGUF 量化流程,在 Qwen3.6 27B 上压到 27.25GB 显存,KLD(分布差异指标)低至 0.002845,意思是压得小、丢得少。但正文被屏蔽,没披露推理速度或实际任务效果,这点先别太激动。如果是真的,本地跑大模型能省不少显存。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
14:46
31d ago
AI HOT 精选· aihot-apiZH14:46 · 05·12
Runway 办了个“还没拍出来的节目”提案赛,二十强出炉
Runway 搞了个叫“尚未存在的节目”的提案比赛,刚公布了二十位获奖者,前五名的提案展示已经可以看。正文没披露评委是谁、奖金多少、评选标准是什么,所以目前只能当个创意征集活动来看,离实际落地还有距离。
#Commentary
精选理由
HKR里H勉强过关,因为比赛概念有点新鲜感;但K和R都不行——这读起来像Runway社区的一个比赛通知,没有评审细节、奖金条款、制作计划或产品机制,对AI从业者来说信息量不足。
一句话点评
Runway 搞了个“尚未存在的节目”提案比赛,刚公布二十强,前五名展示已可看。目前信息有限,评委、奖金、评选标准都没披露,只能当创意征集看,离落地还远。
HKR 分解
hook knowledge resonance
打开信源
39
SCORE
H1·K0·R0
14:24
31d ago
● P1Hacker News 首页· rssEN14:24 · 05·12
Statewright:用可视化状态机提高AI智能体的可靠性
这是一个刚在 Hacker News 上展示的开源项目,核心思路是用 Rust 写一个状态机引擎,把 Claude Code 能调哪些工具、能跑多少轮、怎么跳转、什么条件下才能执行下一步,全部用状态图管起来。作者说 130 亿到 200 亿参数的模型在真实的 SWE-bench 任务上表现都有稳定提升,但正文没披露具体的基准分数、样本量和评测流程,这点...
#Agent#Code#Tools#Statewright
精选理由
我会先打个折:SWE-bench 具体分数没披露,没法判断改进幅度有多大。但用状态机硬约束工具调用这个思路本身靠谱,尤其对 Claude Code 这类编程 agent 的稳定性有帮助。小模型能跑是个加分项,说明不是堆算力的玩法。整体值得推荐,但别把“一致改进”当成碾压性提升。
一句话点评
一个开源项目用可视化状态机给AI智能体加护栏,思路不新但实现得干净,目前只有101个Star,还没经过复杂场景验证。
锐评
Statewright 做的事很直接:用状态机(可以理解成一张画好的流程图,规定 AI 只能按图上的路径走)来管住 AI 智能体的行为,防止它跑偏。它提供了一个可视化编辑器,让你拖拽节点和连线来定义流程,然后把这个流程作为护栏嵌进智能体的运行里。 项目目前挂在 GitHub 上,101 个 Star,2 个 Fork,基本还处于早期展示阶段。正文没披露任何性能数据、延迟开销,也没给出在真实业务里的测试结果。它更像一个概念验证,告诉你“可以这么干”,但还没证明“这么干真的稳”。 对从业者来说,这个方向本身不新鲜,很多团队已经在用 LangGraph 或自研的状态机做类似的事。Statewright 的卖点是可视化,降低了非开发人员的配置门槛。但缺的东西也很明显:没有大规模并发下的稳定性报告,没有跟现有 agent 框架的集成案例,也没有说明当状态机规则和模型自身推理冲突时怎么仲裁。如果是真的想用在生产环境,这些信息缺口都得自己填。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
13:24
32d ago
AI HOT 精选· aihot-apiZH13:24 · 05·12
微软发布材料科学多任务模型MatterSim-MT,可同时模拟多种物性
微软研究院的MatterSim团队推出了MatterSim-MT,一个能同时模拟多种材料物性(不止是势能面)的多任务模型。正文没披露模型参数量、训练数据规模、具体评测基准以及是否开源,所以目前没法判断它比单任务模型强多少、成本高不高。如果真能一个模型搞定多个物性模拟,对材料筛选这类场景会省不少事,但具体效果还得等更多细节。
#Reasoning#Microsoft Research#MatterSim#Research release
精选理由
触发硬排除规则4:材料科学AI交叉,没有agent或产品落地含义。HKR-K 有模型名和能力描述,但参数、数据集和评测结果均未披露,信息缺口明显。
一句话点评
微软研究院的MatterSim-MT号称能同时模拟多种材料物性,不止是势能面。但正文没披露模型参数量、训练数据规模、具体评测基准以及是否开源,所以目前没法判断它比单任务模型强多少、成本高不高。如果真能一个模型干多个活,对材料筛选这类场景会省不少事,但具体效果还得等更多细节。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H0·K1·R0
13:10
32d ago
r/LocalLLaMA· rssEN13:10 · 05·12
llama.cpp 开 MTP 后推理速度从 49 涨到 64 tok/s
有人在 RTX5090、128GB DDR5、Ryzen 9 9950X3D 的机器上测了 Qwen3.6-27B-Q8_0 模型,开了 llama.cpp 的统一 CUDA 内存和 MTP(多 token 预测),上下文拉到 262k,draft max 设为 3。结果吞吐从 49 tok/s 提到 64 tok/s,涨了约 30%。不过正文没披露具...
#Inference-opt#llama.cpp#Qwen#Unsloth
精选理由
这是一条 Reddit 用户单次复现的测试结果,覆盖范围仅限于本地推理调优圈子。但硬件配置和 tok/s 数字都很具体,31% 的提升对跑大模型的用户有参考价值,所以放在 all 层级的高位。
一句话点评
RTX5090+128GB内存跑Qwen3.6-27B,开统一内存和MTP后吞吐从49 tok/s提到64 tok/s,涨约30%。但正文没披露具体延迟和显存占用,统一内存是否依赖CPU-GPU带宽也没说。如果是真的,低成本扩上下文挺省钱,但先别太激动,单用户测试,验证弱。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
13:09
32d ago
r/LocalLLaMA· rssEN13:09 · 05·12
Gemma 4 跑分:单卡 H100 上稠密模型 vs MoE,谁更快?
有人在单张 H100 上测了 Gemma 4 两种架构的推理速度。稠密版 31B 用 MTP(多 token 预测,一次猜多个字)跑到 125.3 tok/s,而 DFlash(一种并行解码方法)跑到 122.1 tok/s,两者几乎持平。MoE 版 26B-A4B(实际激活 4B 参数)差距就大了:DFlash 冲到 306.4 tok/s,MTP ...
#Inference-opt#Benchmarking#Google#NVIDIA
精选理由
一个Reddit上的单点基准测试,只报了吞吐量,没披露完整复现环境。对所有人有参考价值,但不够格上推荐位。
一句话点评
单张 H100 上测 Gemma 4 两种架构推理速度:稠密版 31B 用 MTP(一次猜多个 token)跑到 125 tok/s,DFlash(并行解码)122 tok/s,几乎持平;MoE 版 26B-A4B(实际只激活 4B 参数)差距拉开,DFlash 冲到 306 tok/s,MTP 264 tok/s。MoE 下并行解码优势明显,但测试条件有限(vLLM、32K 上下文、温度 ...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
13:07
32d ago
Ben's Bites· rssEN13:07 · 05·12
学系统,别学语法:AI 编程的陷阱与出路
Ben's Bites 这期核心观点是:AI 编程的陷阱在于只学语法(怎么写代码),而真正该学的是系统(整个软件怎么运转)。作者用自己从无代码工具(Webflow、Airtable、Zapier)到写代码的亲身经历说明,理解系统比记住语法更重要。另外本期还汇总了 20 多条 AI 动态:Claude Code 现在可以在一个终端窗口里管理多个 agen...
#Agent#Code#Audio#Ben’s Bites
精选理由
这是一篇 20 多条 AI 动态的汇总简报,信号面广但缺乏机制、日期或一手测试。它命中了 K(有具体动态)和 R(开发者工具竞争),但汇总类内容本身价值上限不高,所以分数在偏低区间。
一句话点评
Ben's Bites 这期核心观点:AI 编程的陷阱是只学语法,真正该学的是系统(整个软件怎么运转)。作者用自己从无代码工具(Webflow、Airtable、Zapier)到写代码的经历说明,理解系统比记语法重要。另外汇总了 20 多条 AI 动态:Claude Code 现在可以在一个终端窗口里管理多个 agent,Codex 直接在 Chrome 里工作(macOS 和 Window...
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H0·K1·R1
13:00
32d ago
TechCrunch AI· rssEN13:00 · 05·12
Dessn 获 600 万美元,做直接改生产代码的 AI 设计工具
Dessn 拿了 600 万美元,做一款直接对接生产代码库的 AI 设计工具。意思是设计师改完界面,AI 自动同步到实际代码,不用前端再手动调。600 万不算大额融资,但说明团队更想验证产品方向而非烧钱扩张。正文没披露这轮是种子轮还是 A 轮、投资方是谁、定价和上线时间,这些信息目前是空的。
#Code#Tools#Dessn#Funding
精选理由
HKR-K和HKR-R通过:故事给了600万美元融资和生产代码库工作流这个钩子。HKR-H偏弱,加上轮次、投资方、定价和上线时间都没披露,分数卡在60–71区间。
一句话点评
Dessn 拿了 600 万美元,做一款能直接改生产代码的 AI 设计工具。设计师改完界面,AI 自动同步到实际代码,前端不用再手动调。600 万不算大钱,更像验证方向而非烧钱扩张。正文没披露轮次、投资方、定价和上线时间,信息缺口不小。 短评:AI 设计工具不少,但能直接改生产代码的少见。600 万验证方向够用,但没披露轮次和投资方,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R1
12:57
32d ago
r/LocalLLaMA· rssEN12:57 · 05·12
llama.cpp 新增内置评测工具,支持 AIME、GSM8K 等 4 个数据集
ggerganov 给 llama.cpp 提了个 PR,加了一个叫 llama-eval 的评测示例。目前支持 4 个数据集:AIME、AIME2025、GSM8K 和 GPQA。这意味着你可以在本地直接跑模型在这些基准上的得分,不用再单独搭评测环境。不过正文没披露合并状态、命令行参数、评分规则和运行所需硬件,想立刻用还得等后续更新。
#Benchmarking#Fine-tuning#ggml-org#llama.cpp
精选理由
HKR-K和HKR-R通过:PR明确写了llama-eval和几个评测集,llama.cpp用户确实在意本地可复现的跑分。HKR-H偏弱,加上合并状态和运行参数都没披露,分数压在60–71区间。
一句话点评
llama.cpp 作者提了个 PR,加了个叫 llama-eval 的评测示例,目前支持 AIME、GSM8K 等 4 个数据集。以后本地跑模型得分不用再单独搭环境了,挺方便。但正文没披露合并状态、命令行参数和硬件要求,想立刻用还得等。短评:本地跑分省事,但细节全缺,先别急着用。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
12:30
32d ago
NVIDIA 博客· rssEN12:30 · 05·12
NVIDIA 和 SAP 给企业 AI 智能体加了一层安全壳
SAP 把 NVIDIA OpenShell 嵌进自家 AI 平台,作为所有 SAP AI 智能体(包括在 Joule Studio 里自建的那些)的运行时安全层。正文列了具体能力:文件系统和网络策略强制、隔离执行环境、基础设施容器化、身份集成、审计钩子,以及 Joule Studio 里能用 NemoClaw。但没提定价和上线日期。
#Agent#Tools#Safety#NVIDIA
精选理由
HKR-K/R 通过,因为 SAP OpenShell 运行时安全集成是具体且对企业智能体相关的事实。HKR-H 不通过,且这是一篇厂商博客,缺少基准测试、定价或部署规模信息,所以分数落在 60–71 区间。
一句话点评
NVIDIA 和 SAP 把 OpenShell 嵌进 SAP 的 AI 平台,给所有智能体(包括用户在 Joule Studio 自建的)加了一层运行时安全壳。正文列了文件系统隔离、网络策略强制、审计钩子等能力,但没提定价和上线日期。对企业用户来说,这比事后补安全方案靠谱,但落地成本未知,先别急着上生产。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
12:27
32d ago
Product Hunt · AI· rssEN12:27 · 05·12
Memdex:把 AI 聊天记录变成本地记忆,下次提问自动补上下文
Memdex 是一个 Chrome 插件,能自动抓取你在 ChatGPT、Claude、Gemini 上的对话,加密存在本地浏览器数据库(IndexedDB)里,不会上传。下次写 prompt 时,它会像 Grammarly 标错别字一样,把之前聊过的相关内容划出来,点一下就能注入到当前对话里。免费版只保留最近 10 条对话,Pro 版不限量。数据全在...
#Memory#Memdex#Product Hunt#Product update
精选理由
只有 Product Hunt 摘要,信息量太少。HKR-R 靠本地记忆这个痛点勉强成立,但 HKR-H 和 HKR-K 都因为没机制、没平台、没价格而挂掉。
一句话点评
Memdex 是个 Chrome 插件,自动抓取你在 ChatGPT、Claude、Gemini 上的对话,加密存在本地浏览器数据库里,不上传。下次写 prompt 时,它会像 Grammarly 标错别字一样,把相关历史内容划出来,点一下就能注入。免费版只保留最近 10 条对话,Pro 不限量。数据全在本地,隐私友好,但跨设备同步和搜索能力正文没披露。如果是重度多模型用户,省去手动翻历史的...
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
11:43
32d ago
r/LocalLLaMA· rssEN11:43 · 05·12
5090 跑 Qwen3.6 27B 量化版,256K 上下文不溢出
Reddit 用户用一张 RTX 5090 跑 Qwen3.6-27B 的 Q5_K_M 量化版,开了 256K 上下文(262144 token),配合 MTP 投机解码(最多 3 个草稿 token),KV 缓存用 q8_0 压缩,显存没爆。实测 llama-server-mtp 跑满 -ngl 99(全部层放 GPU),没出现 spillover...
#Inference-opt#Qwen#llama.cpp#Open source
精选理由
HKR 三项都过,但这就是 Reddit 上一条单机配置记录,只说了条件和结果,没给速度、显存曲线或可复现步骤。对本地推理玩家是个有用信号,但信息量不够上头条。
一句话点评
一张 RTX 5090 就能跑 Qwen3.6-27B 的 256K 上下文,显存没爆。关键是用 Q5_K_M 量化(模型体积砍半)加 q8_0 KV 缓存压缩,配合 MTP 投机解码(一次猜最多 3 个 token 来提速)。实测 -ngl 99 全放 GPU 没 spillover,说明 24GB 显存刚好够。但注意这是 Reddit 用户单次测试,没给生成速度(token/s)和长上下...
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
11:32
32d ago
r/LocalLLaMA· rssEN11:32 · 05·12
RTX 4090 跑大模型时把功耗锁到 40%,性能不掉
Reddit 用户 OkFly3388 在 RTX 4090 上用 llama.cpp 跑 Qwen3.6-27B,上下文开到 262k,然后用 `sudo nvidia-smi -pl N` 把显卡功耗墙拉低。帖子说功耗能降到原来的 40%,而且性能没损失。正文没披露具体锁了多少瓦,也没给跑分对比,所以“性能不掉”目前只是个人说法,没有量化验证。如果...
#Inference-opt#Reddit#Qwen#NVIDIA
精选理由
一条 Reddit 用户实测:RTX 4090 跑 Qwen3.6-27B,用 nvidia-smi 把功耗上限拉低,耗电降到40%,声称性能没损失。如果属实,本地玩家能省不少电费和风扇噪音。但正文没给具体 token/s、功耗曲线或多卡对比,只有一句结论,可信度打折扣。先当实用技巧收藏,别急着全信。
一句话点评
Reddit 用户实测,RTX 4090 跑 Qwen3.6-27B 时用 `sudo nvidia-smi -pl N` 拉低功耗墙,声称功耗降到 40% 且性能不掉。正文没披露具体锁了多少瓦,也没给跑分对比,所以“性能不掉”目前只是个人说法,没有量化验证。如果是真的挺省钱,但建议等有人放出 benchmark 再跟。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
11:29
32d ago
机器之心 · 公众号· rssZH11:29 · 05·12
光轮智能加入谷歌英伟达的物理AI仿真标准组,开源GPU物理引擎
光轮智能在2026年3月加入了Newton TSC,这个组织由英伟达、谷歌DeepMind、迪士尼研究院和丰田研究院组成,一起搞一个开源的GPU物理仿真引擎。文章把仿真说成是物理AI的数据和评估层——说白了就是给机器人、自动驾驶这些物理世界里的AI造一个能低成本、高安全地跑实验的虚拟训练场。正文没披露光轮具体贡献了什么技术或资源,也没说这个标准组目前有...
#Robotics#Benchmarking#Tools#Guanglun Intelligence
精选理由
H和K成立:谷歌/英伟达/DeepMind参与治理的钩子真实,Newton TSC加入事实具体。影响分卡在中段,因为没披露任何发布、基准测试、定价或采用数据。
一句话点评
光轮智能加入英伟达、谷歌DeepMind等主导的Newton TSC,参与开源GPU物理仿真引擎标准制定。仿真被定位为物理AI的数据和评估层,相当于给机器人、自动驾驶造虚拟训练场,能低成本、高安全跑实验。但正文没披露光轮具体贡献了什么技术或资源,也没说标准组目前进展,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R0
11:26
32d ago
● P1新智元 · 公众号· rssZH11:26 · 05·12
OpenAI 发布 GPT-Realtime-2,一个号称 GPT-5 级推理能力的实时音频模型
OpenAI 推出了 GPT-Realtime-2,官方把它叫做“GPT-5 级推理音频模型”。同时发布的还有 Realtime-Translate 和 Realtime-Whisper 两个配套工具。新模型支持 128K 上下文窗口,提供五档推理强度可选,API 定价是每百万输入 token 32 美元、输出 token 64 美元。不过,这篇文章因...
#Audio#Reasoning#Agent#OpenAI
精选理由
OpenAI 同一天发的产品更新,实时音频推理是个硬功能,不是概念稿。128K 上下文和 5 档推理强度让开发者能按场景调成本与效果,32/64 美元的定价也给了算账依据。我会先打个折:正文没提延迟数据和实际录音样本,这点先别太激动。但语音 agent 的落地成本一直是瓶颈,这篇信息密度够,值得推给做实时交互的从业者。
一句话点评
OpenAI 发了 GPT-Realtime-2,一个能直接听懂人话、带推理能力的音频模型,但正文被微信屏蔽了,关键细节看不到。
锐评
OpenAI 这次把音频模型直接挂上了“GPT-5 级推理”的标签,野心不小。从摘要看,GPT-Realtime-2 支持 128K 上下文窗口,意味着它能一次性处理很长的对话或会议录音,不用频繁切段。五档推理强度可选,给了开发者在响应速度和思考深度之间做取舍的空间,这点比较实用。定价是每百万输入 token 32 美元、输出 64 美元,不算便宜,但如果是真能替代一部分需要人脑去听的复杂任务,这个成本账可以再算。 不过,这篇报道的正文因为微信环境验证被屏蔽了,我没看到实际测试案例、延迟数据,也没看到它跟上一代或竞品的直接对比。官方说“GPT-5 级推理”,但没披露具体用什么基准测试来证明,这点先别太激动。配套的翻译和转写工具具体强在哪,正文也没展开。想判断它是不是真能“接管耳朵”,还得等实测跑完延迟和准确率再说。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
11:26
32d ago
新智元 · 公众号· rssZH11:26 · 05·12
MAGIC-TTS:华南理工让AI朗读能控制每个字的时长和停顿
华南理工大学提出的MAGIC-TTS,把语音合成里每个字的时长和字后的停顿分开控制。之前模型预测字时长平均误差36.88毫秒,停顿误差18.92毫秒;MAGIC-TTS把两项分别压到10.56毫秒和8.32毫秒。效果就是AI朗读不再像匀速念稿,该停的地方停、该拖长的地方拖长,更像真人。不过正文没披露用了多少训练数据、推理速度如何,实际部署成本还不清楚。
#Audio#Fine-tuning#Benchmarking#South China University of Technology
精选理由
MAGIC-TTS在字级时长和停顿控制上给出了实打实的精度提升,两个MAE指标都降到了10ms左右,对追求真人感的语音合成场景有价值。但这是华南理工的单点研究,不是大厂或前沿实验室的成果,行业扩散面有限,放在all层级合适。
一句话点评
华南理工的MAGIC-TTS把每个字的时长和字后停顿分开控制,朗读不再像匀速念稿。字时长误差从36.88毫秒降到10.56毫秒,停顿误差从18.92降到8.32毫秒,效果更接近真人。但正文没披露训练数据量和推理速度,部署成本未知,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
10:58
32d ago
阿里技术 · 公众号· rssZH10:58 · 05·12
阿里与蚂蚁联合发布 LoongSuite GenAI 可观测语义规范,统一追踪大模型调用链路
阿里和蚂蚁联合推出了 LoongSuite GenAI 可观测语义规范,给大模型应用加了一套统一的追踪标准。这套规范定义了 Entry(入口)、Step(步骤)、Skill(技能)和 token 级别的推理观测,已经在 OpenClaw、QwenPaw、Hermes Agent 以及 vLLM、SGLang、TensorRT-LLM 等推理引擎里落地。...
#Agent#Tools#Inference-opt#Alibaba
精选理由
HKR 的 K 和 R 都过了:它给出了具体的观测层级(Entry、Step、Skill、Token)和落地场景(三个命名系统),对做 Agent 生产的团队来说,观测成本高、调试难是真实痛点。H 没过是因为标题全是术语堆砌,没有让人想点进去的钩子。分数卡在 60–71 是因为这是单家厂商的技术规范,没有跨生态的采用数据或性能对比,信息量够但说服力有限。
一句话点评
阿里和蚂蚁给大模型应用搞了一套统一追踪标准,叫 LoongSuite GenAI 可观测语义规范。说白了就是给 Agent 调用链、推理引擎(vLLM、SGLang 等)加了个通用日志格式,方便排查问题。已经在 OpenClaw、QwenPaw 等内部系统落地,但正文没披露具体效果数据,比如追踪开销、定位效率提升多少。对做 Agent 或推理服务的人来说,统一观测标准比各家自建日志省事,但开...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R1
10:41
32d ago
r/LocalLLaMA· rssEN10:41 · 05·12
翻译模型评测翻车:自动指标说没问题,人工一查71%都有错
作者用TranslateGemma-12b翻译了21段英文字幕(含西班牙语、日语、泰语、简体中文),自动评测指标只标出1段有问题,但人工MQM评测员在84条译文中标记了60条错误,其中13条是严重错误。自动指标几乎完全失效,漏掉了七成以上的翻译问题。正文没披露具体错误类型和模型参数量,但结论很清楚:光靠BLEU这类自动分数判断翻译质量,基本等于没测。
#Benchmarking#TranslateGemma#Claude#DeepSeek
精选理由
作者用21个英文字幕片段测了TranslateGemma-12b的84条译文,自动指标只标记了1条有问题,但人工MQM标了60条,其中13条是Major级错误。这个差距说明自动指标严重漏报,对依赖它们做评估的团队是个警示。不过样本只有21条字幕,来源是Reddit跟帖,所以重要性压到69,不上精选。
一句话点评
自动翻译评测的BLEU分数基本是废的——作者用TranslateGemma-12b翻21段字幕,自动指标只标出1段有问题,人工评测员却在84条里揪出60条错误,其中13条严重。漏检率71%。正文没披露具体错误类型和模型参数量,但结论很硬:光靠自动分数判断翻译质量等于没测。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
10:37
32d ago
r/LocalLLaMA· rssEN10:37 · 05·12
给AI写代码助手养个桌面宠物
Reddit用户jacek2023分享了一个叫OpenPets的项目,让AI编程助手在桌面上有个宠物形象。正文没披露具体功能、许可证、支持哪些IDE或运行环境,目前只有GitHub和项目链接。
#Agent#Code#Tools#OpenPets
精选理由
HKR-H靠标题的怪趣味通过;HKR-K和HKR-R都挂掉,因为帖子没给可验证的细节或工作流影响,所以留在低价值的all层级。
一句话点评
给AI编程助手养个桌面宠物,OpenPets项目,目前只有GitHub链接和一张图。正文没披露具体功能、支持哪些IDE、怎么跑,连许可证都没提。如果是真的,也就是给终端加个电子宠物,跟生产力关系不大。先别激动,等代码放出来再说。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
10:11
32d ago
r/LocalLLaMA· rssEN10:11 · 05·12
Qwen3.6 35B 画棋盘 SVG 几乎完美,ZAYA1 8B 本地跑但推理死循环
Beamsters 测了一批模型画国际象棋棋盘 SVG 的能力。Qwen3.6 35B-A3B 的 MLX oQ4 量化版几乎完美,ZAYA1 8B 在 8-bit 量化下本地显存不到 12GB 就能跑,但推理时陷入死循环,一张 SVG 都没生成出来。正文没披露具体测试方法和评分标准,所以这个“几乎完美”到底多好、其他模型差在哪,目前只能看个大概。
#Code#Benchmarking#Inference-opt#Qwen
精选理由
这是一次窄场景的 Reddit 视觉生成测试,方法披露有限,但对本地模型从业者有用——ZAYA1 8B 在 12GB 以下内存跑 8-bit 量化会陷入推理循环,说明小模型量化后稳定性还不够。Qwen3.6 35B-A3B 的 MLX oQ4 接近完美,说明这个量化方案在中等规模模型上效果不错。不过正文没披露测试的 prompt 细节和重复次数,结论的泛化性要打个折。整体信息密度够,但不够上精选。
一句话点评
Beamsters 测了模型画棋盘 SVG 的能力。Qwen3.6 35B-A3B 的 MLX oQ4 量化版几乎完美,但正文没披露评分标准,这个“几乎完美”得打折。ZAYA1 8B 在 8-bit 量化下本地显存不到 12GB 就能跑,挺省钱,但推理时陷入死循环,一张 SVG 都没生成出来——这点先别太激动。缺测试方法和对比基线,只能看个大概。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
10:04
32d ago
AI HOT 精选· aihot-apiZH10:04 · 05·12
GPT-4o + Kling AI 联手生成超写实 F1 直播截图,连压缩伪影都复刻了
有人用 GPT image 2(GPT-4o 的图片生成功能)和 Kling AI,按详细提示词合成了一张 F1 电视转播视角的截图。画面里一位年轻女性戴着赛车耳机、神情紧张,身份特征从参考图里保住了;背景加了“FINAL LAP”横幅、计时塔和直播标识。最狠的是连压缩伪影、肤质和 8K 画质都模拟了,看起来就像真从电视上截的。不过正文没披露用了多少样...
#Multimodal#Vision#Kling AI#GPT
精选理由
HKR 的 H 和 R 都达标,但正文就是一个生成演示,没给完整提示词、设置或可复现的测试。没有产品发布或新能力展示,所以兴趣度偏低。
一句话点评
有人用 GPT image 2 + Kling AI 按提示词合成了一张 F1 电视转播截图,连压缩伪影和 8K 画质都模拟了,看起来像真从电视上截的。身份特征从参考图保住了,背景加了“FINAL LAP”横幅和直播标识。但正文没披露用了多少样本、跑了多少轮,也没说参考图分辨率多高、有没有人工精修。如果真能一张图搞定广播级细节,那做广告素材或影视预可视化能省不少钱。不过目前只是单张 demo...
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
09:49
32d ago
Hacker News 首页· rssEN09:49 · 05·12
宇树 GD01 量产载人机甲:53.7 万美元,能变四足,先别想通勤
宇树机器人宣布 GD01 载人机甲量产,售价 53.7 万美元(约 390 万人民币),比之前传的 65 万便宜了一截。车重 500 公斤(含驾驶员),站起来比人高两倍,能两腿走也能趴下变四足爬坡,CEO 亲自开直播撞墙展示结实。但正文没披露产量、交付时间、电池续航和具体硬件参数。目前只在中国卖,欧美没渠道也没过安全认证——欧盟 2027 年新机械法规...
#Robotics#Unitree#Product update
精选理由
HKR-H靠骑乘变形机器人和53.7万美元价格拿分;HKR-K只限于价格和投产状态。正文没披露产能、交付时间、硬件参数或AI能力,所以落在60–71的产品更新区间。
一句话点评
宇树 GD01 载人机甲量产版定价 53.7 万美元,比之前传的 65 万便宜,但正文没披露产量、交付时间和电池续航。CEO 直播撞墙展示结实,这点先别太激动——目前只在中国卖,欧美没渠道也没过安全认证。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R0
09:42
32d ago
r/LocalLLaMA· rssEN09:42 · 05·12
llama.cpp 新 PR:让 MiMo v2.5 能看图了
llama.cpp 的 PR #22883 给 MiMo v2.5 加上了视觉能力,标题直白说“现在 MiMo 能看见了”。但正文被 Reddit 屏蔽,没披露是否已合并、模型参数多大、跑起来需要什么硬件。对跑本地模型的人来说,多一个能看图的架构总是好事,但具体效果和门槛还不清楚。
#Vision#Multimodal#ggml-org#llama.cpp
精选理由
HKR-K 通过:llama.cpp 加了 MiMo v2.5 Vision 支持,对本地多模态用户有用。正文没披露合并状态、模型大小、推理配置和性能数据,所以就是个小的开源更新,面向所有人。
一句话点评
llama.cpp 的 PR #22883 给 MiMo v2.5 加了视觉能力,标题说“现在 MiMo 能看见了”。但正文被 Reddit 屏蔽,没披露是否已合并、模型参数多大、跑起来需要什么硬件。对跑本地模型的人来说,多一个能看图的架构总是好事,但具体效果和门槛还不清楚。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K1·R0
09:29
32d ago
Product Hunt · AI· rssEN09:29 · 05·12
Whisper 给 AI 安全助手免费接上互联网实时数据
Whisper 发布了一个免费 MCP 服务器,能让 Claude、Cursor 等 AI 工具在 2 分钟内接入实时的 BGP(互联网路由表)、DNS(域名解析)、WHOIS(域名注册信息)和威胁图谱。团队号称底层有 460 亿条数据点,查询延迟低于 1 毫秒,并且提供免费套餐。创始人是前 RIPE NCC 和 ICANN 的工程师,背景偏互联网基础...
#Tools#Whisper Internet Infra AI Context#Product update
精选理由
小 MCP 工具发布:HKR-K 通过,因为它把 AI 连到了 BGP、DNS 和威胁图数据上。接口规格、数据源和使用限制都没披露,所以 HKR-H/R 偏弱,条目保持 all。
一句话点评
Whisper 做了一个免费 MCP 服务器,让 Claude 等 AI 工具两分钟就能查实时 BGP(互联网路由表)、DNS(域名解析)和威胁情报。底层号称有 460 亿数据点,查询延迟低于 1 毫秒,创始人是前 RIPE NCC 和 ICANN 的工程师,背景靠谱。 短评:给 AI 装了个实时网络地图,免费版够用,但数据源和限频没提。 关键看免费套餐的调用次数限制和数据新鲜度,正文没...
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K1·R0
09:22
32d ago
FT · 科技· rssEN09:22 · 05·12
芯片公司Cerebras花钱挤进OpenAI的圈子
FT标题说Cerebras为进入OpenAI核心圈付了代价,但正文被付费墙挡住,没披露具体金额、合作机制、合同条款或时间线。目前只知道这家做AI芯片的公司跟OpenAI搭上了关系,可能带来一笔意外收入。具体怎么合作、花了多少钱,正文没披露。
#Inference-opt#Cerebras#OpenAI#Sam Altman
精选理由
FT 的牌子加上 OpenAI 和 Cerebras 这对组合,让 HKR 的 H 和 R 都能过线。但 K 项卡住了:没价格、没机制、没时间表,信息密度撑不起高分。所以落在 60–71 这个行业报道的常规区间,不亏不赚。
一句话点评
Cerebras 付了笔钱挤进 OpenAI 核心圈,具体金额、合作方式、合同条款全被付费墙挡住了。RSS 只提了一句“进入 Altman 圈子可能带来意外收入”,但没说是卖芯片、做推理还是联合研发。对 Cerebras 来说,能搭上 OpenAI 这条线是品牌背书,但代价未知——如果是低价供货或独家绑定,利润空间可能被压得很薄。正文没披露任何数字,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
08:58
32d ago
r/LocalLLaMA· rssEN08:58 · 05·12
Gemma 4 E4B 做短音频转写又快又稳
Reddit 用户实测,Gemma 4 E4B 转写短片段和外语音频速度很快、结果稳定。但帖子也承认,一小时的长音频还是得靠 Whisper。正文没交代具体剪了多长的片段、测了哪些语言、错误率多少,也没说跑在什么硬件上,所以这个“快又稳”目前只能当个参考,不能直接拿来跟 Whisper 比。
#Audio#Gemma#Whisper#Commentary
精选理由
H 和 R 勉强过关:短音频本地转写有实用场景,也碰了隐私和成本痛点。K 不通过,因为帖子没披露任何测试时长、语种、错误率或硬件条件,只能算一条低价值的社区传闻。
一句话点评
Reddit 用户说 Gemma 4 E4B 转写短音频和外语音频又快又稳,但长音频还得靠 Whisper。帖子没交代片段多短、测了哪些语言、错误率多少,也没说跑在什么硬件上,所以这个“快又稳”目前只能当个参考,不能直接跟 Whisper 比。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
08:51
32d ago
Product Hunt · AI· rssEN08:51 · 05·12
Claude-Share:一个让你把 Claude Code 订阅分享给朋友的小工具
这是一个开源的小命令行工具,核心功能是让你能安全地把自己的 Claude Code 订阅分享给朋友,并且你始终掌握控制权。产品页没说清楚它的权限模型怎么设计的、怎么收费(目前标了免费)、部署方式,以及具体支持哪些 Claude Code 工作流。如果你有团队协作需求,想省一份订阅费,可以关注一下,但具体怎么“安全分享”、会不会有隐私风险,正文没披露,这...
#Code#Tools#Claude#Product update
精选理由
Product Hunt 条目只说 claude-share 支持 Claude Code 安全分享;权限、定价、部署方式均未披露。HKR-R 通过,HKR-H/K 不通过,因此作为低权重的全层级信号保留。
一句话点评
一个开源CLI工具,让你把Claude Code订阅分享给朋友,自己保留控制权。免费,但权限模型、部署方式、隐私风险都没说清楚。如果是真的,团队能省一笔订阅费,但安全分享怎么落地,正文没披露,先别急着用。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H0·K0·R1
06:33
32d ago
FT · 科技· rssEN06:33 · 05·12
韩国总统顾问提议给全民发“AI补贴”
一位韩国总统顾问公开建议,应该给每个韩国公民发一笔“AI奖金”,理由是AI带来的生产力提升会让社会财富增加,需要让全民分享红利。但正文没披露具体发多少钱、钱从哪来、什么时候发。同一天三星和SK海力士股价下跌,原因是另一位政策官员的发言让市场对芯片出口前景产生疑虑。这个提议目前还只是一个想法,离落地还很远。
#Samsung#SK Hynix#Policy
精选理由
HKR-H和HKR-R通过:韩国总统顾问把AI收益和全民分红挂钩,三星和SK海力士股价有反应。HKR-K不通过:金额、资金来源、落地路径正文都没披露。
一句话点评
韩国总统顾问提议给全民发“AI奖金”,理由是AI提升生产力后社会财富增加,应全民共享。但正文没披露具体金额、资金来源和发放时间,目前只是一个想法,离落地很远。同一天三星和SK海力士股价下跌,因为另一位官员的发言让市场对芯片出口前景产生疑虑。这个提议更像政治信号,不是可执行政策,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
04:46
32d ago
Hacker News 首页· rssEN04:46 · 05·12
OpenAI 联合多家芯片厂发布新网络协议 MRC,专为大模型训练集群解决网络拥堵和故障
OpenAI 联合 AMD、Broadcom、Intel、微软、NVIDIA 发布了一个叫 MRC(多路径可靠连接)的网络协议,专门解决大模型训练时 GPU 之间数据传输的拥堵和故障问题。核心思路是把一次数据传发送到几百条路径上同时走,哪条路堵了或断了就自动绕开,微秒级切换,不用等网络重新算路由。MRC 已经用在 OpenAI 最大的 NVIDIA G...
#Inference-opt#OpenAI#Hacker News#Research release
精选理由
HKR-R 勉强过关,因为 OpenAI 训练网络涉及算力成本和前沿模型竞争。HKR-H/K 不通过:标题太泛,架构、规模、性能数字都没披露。
一句话点评
OpenAI 联合 AMD、Broadcom、Intel、微软、NVIDIA 发布 MRC 网络协议,核心是把一次数据传撒到几百条路径上同时走,哪条堵了或断了就微秒级自动绕开,不用等网络重算路由。已用在 Stargate 超算上。正文没披露具体延迟降低百分比或训练吞吐提升倍数,只说“减少了 GPU 空闲”。开源到 OCP,但实际效果要看大规模集群的实测数据。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K0·R1
04:33
32d ago
● P1Latent Space· rssEN04:33 · 05·12
Thinking Machines 发布原生交互模型:2760 亿参数,120 亿激活,实时语音不再靠外挂
Thinking Machines 终于又冒泡了,这次直接扔了个新模型 TML-Interaction-Small。总参数 2760 亿,是个 MoE 架构,实际干活时只激活 120 亿参数。它最狠的地方是把实时语音交互做进了模型骨子里,不再像以前那样给大语言模型外挂语音识别和合成模块。模型能同时听、说、看、想,用 200 毫秒一个的“微对话轮次”连续...
#Multimodal#Audio#Agent#Thinking Machines
精选理由
我会先打个折——基准分是 Thinking Machines 自己跑的,还没第三方复现,所以“超过 GPT 和 Gemini”先别太激动。但这条消息值得推,因为它给出了具体架构(276B MoE、12B 激活)、200ms 微轮次这个硬指标,还直接挑战了语音 agent 里常用的 VAD 方案。对正在搭实时语音管线的从业者来说,哪怕只是思路参考也有价值。
一句话点评
Thinking Machines 扔了个实时语音模型,把听、说、看、想全塞进一个模型里,不再外挂语音识别和合成,200 毫秒一轮对话,演示效果很自然,但正文没提实际延迟和可用性。
锐评
这条新闻最值得看的是架构思路:TML-Interaction-Small 总参数 2760 亿,但实际干活只激活 120 亿,用 MoE 把成本压下来。它把音频和图像直接喂给模型,不经过单独的编码器,端到端延迟控制在 200 毫秒以内,这比传统“语音转文字→大模型→文字转语音”的流水线快得多,也更像人和人聊天。 团队自己做了几个新基准来测“时机感”,比如能不能在用户指定的时间点开口、能不能在视频里动作发生的瞬间给出反馈。这些指标比跑分更有参考价值,因为实时交互的难点不是回答对不对,而是开口的时机对不对。 不过正文没披露这个模型实际跑在什么硬件上、单次推理成本多少、有没有开源计划。演示视频很流畅,但真实网络环境和嘈杂场景下的表现还是未知数。另外,2760 亿参数即使只激活 120 亿,部署门槛也不低,小团队想用上可能还得等。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
04:22
32d ago
Product Hunt · AI· rssEN04:22 · 05·12
TestSprite 3.0:派一群AI代理替你测App,几分钟跑完
TestSprite 3.0 号称能派一群并行AI代理,像真人一样点遍App每个功能,几分钟内自动生成并跑完端到端测试。后端可以写复杂集成测试,带动态变量、自动清理和数据流调试;前端则让代理先探索App再出测试。还加了UI漂移自动修复、回归测试自动登录,以及给Claude Code和Codex用的CLI。官方说能省90%测试成本——但正文没披露支持哪些...
#Agent#Code#Tools#TestSprite
精选理由
Product Hunt 上的小更新:H 和 R 过关,但 K 不达标——框架、测试类型、价格、基准全没提。属于 60-71 分段的可浏览信号,信息缺口明显,先别太激动。
一句话点评
TestSprite 3.0 号称派一群AI代理并行点遍App,几分钟跑完端到端测试,省90%成本。但正文没披露支持哪些框架、测试类型、定价,也没给可复现的基准测试。如果是真的挺省钱,但先别太激动。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R1
03:30
32d ago
Product Hunt · AI· rssEN03:30 · 05·12
MiniCPM-V 4.6 发布,13亿参数多模态模型面向手机端
MiniCPM-V 4.6 是一个开源的多模态大模型(MLLM),只有 1.3B 参数,专门跑在手机和消费级硬件上,能理解图片和视频。它用了混合 4 倍/16 倍视觉 token 压缩(把图像信息压缩成更少的 token,减少计算量),还提供了 iOS/Android/HarmonyOS 的演示应用,并支持 vLLM、SGLang、llama.cpp ...
#Multimodal#Vision#MiniCPM#Product update
精选理由
HKR-K 通过,因为文章给出了 1.3B 移动端 VLM 这个新事实;HKR-H 和 HKR-R 不通过,因为基准、许可证、价格和上下文窗口都没披露。这是一条轻量产品更新,不算重点报道。
一句话点评
MiniCPM-V 4.6 是一个只有 1.3B 参数的开源多模态模型,专门优化在手机和消费级硬件上跑图片和视频理解。它用了混合 4 倍/16 倍视觉 token 压缩,说白了就是把图像信息压成更少的 token 来省算力。已经提供了 iOS/Android/HarmonyOS 的演示应用,也支持 vLLM、llama.cpp 这些推理框架。 值得注意的点:参数极小(1.3B),意味着在手...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
03:08
32d ago
AI HOT 精选· aihot-apiZH03:08 · 05·12
答案之外:信息呈现方式正成为AI智能层的一部分
SiliconFlowAI 认为,让大模型输出 HTML 比默认的 Markdown 能做出更丰富的排版和交互,是个值得试的技巧。长远看,人类喜欢用语音输入,但视觉(图像、动画、视频)才是更好的输出形式——因为大脑约三分之一的皮层专门处理视觉。AI 输出会沿着“原始文本→Markdown→HTML→交互式神经视频/模拟”这条路演进,最终可能由扩散模型直...
#Multimodal#Vision#Tools#SiliconFlowAI
精选理由
H和R靠输出格式这个角度勉强过关,但K完全不过:没有数据、实验、来源或具体案例支撑,按硬排除规则6,分数压在40以下。
一句话点评
短评:输出格式从 Markdown 换 HTML 就能提升交互,这招成本低、见效快,值得一试。但别急着吹“视觉革命”,正文没披露具体效果和用户反馈。 SiliconFlowAI 提了个实用技巧:让大模型输出 HTML 而非默认 Markdown,能直接做出更丰富的排版和交互,比如按钮、图表。这招几乎零成本,适合快速提升产品体验。长远看,他们画了条路线:原始文本→Markdown→HTML→...
HKR 分解
hook knowledge resonance
打开信源
36
SCORE
H1·K0·R1
03:06
32d ago
彭博科技· rssEN03:06 · 05·12
澳大利亚监管警告:洗钱团伙正用AI批量搞诈骗
澳大利亚金融犯罪监管机构称,洗钱分子正在用AI扩大诈骗规模、自动化操作流程、伪造文件。正文没披露具体案件数量、涉案金额、执法行动或用了哪些AI工具,信息缺口明显。
#Tools#Australia financial crimes watchdog#Policy#Incident
精选理由
HKR三项都过,但事实基础单薄:澳大利亚监管机构发了个警告,列出两种AI滥用方式(自动化诈骗流程、生成假文件),没有涉案金额、具体案件、执法行动或新规。这正好落在60–71分的通用政策/事件区间。
一句话点评
澳大利亚金融犯罪监管机构发警告,说洗钱团伙开始用AI批量搞诈骗、自动走流程、伪造文件。但正文被墙了,没披露具体案件数、涉案金额、用了哪些AI工具,也没说执法行动。信息缺口很大,这点先别太激动。如果是真的,说明AI降低了犯罪门槛,但监管目前只能喊话,缺实证。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
02:37
32d ago
纽约时报中文网· rssZH02:37 · 05·12
为什么中国人不像美国人那样怕AI:纽约时报观点文章说中国把AI当基础设施用
这篇观点文章认为,中美AI竞赛方向不同:美国追求超级智能,中国把AI当基础设施铺进学校、医院、交通和政务。作者举了刷脸坐车、AI教学、城市大脑等例子,但正文没披露这些项目的实际成本或部署效果。文章引用2020年人口普查数据说中国近40%人口在农村,包括1.1亿儿童,认为AI可以弥补教育和医疗资源缺口。这点先别太激动——文章没给出任何落地验证数据。
#Agent#Vision#Robotics#Jacob Dreyer
精选理由
文章提供了一个有意思的框架(中国把AI当基建)加一个普查数字(近40%农村人口),但没有给出任何部署效果、成本或可验证的AI案例。属于评论性内容,信息密度有限,所以分数压在60-71的评论区间。
一句话点评
这篇观点文把中美AI路线差异讲得挺清楚:美国追超级智能,中国把AI当基础设施铺进学校、医院、交通。作者举了刷脸坐车、AI教学、城市大脑等例子,但正文没披露这些项目的实际成本或部署效果。文章引用2020年人口普查数据说中国近40%人口在农村,包括1.1亿儿童,认为AI可以弥补教育和医疗资源缺口。这点先别太激动——文章没给出任何落地验证数据。整体是篇立场鲜明的评论,适合了解叙事框架,但别当事实报告用。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
02:27
32d ago
r/LocalLLaMA· rssEN02:27 · 05·12
Blackwell 显卡跑 Nemotron 模型,单卡 270 tok/s 解码速度
elsung 放出了 Blackwell LLM Toolkit,在单张 RTX Pro 6000 96GB 显卡上用 NVFP4 精度、8K 上下文跑 Nemotron-3-Nano-Omni V3,解码速度达到 270 tok/s。这个工具包包含 TensorRT-LLM 配置、为 Blackwell 重新编译的 LMCache 轮子、测试脚本,以...
#Inference-opt#Multimodal#Benchmarking#Nvidia
精选理由
这是一个围绕 TensorRT-LLM 配置的社区工具包,主要面向推理工程师,影响力低于模型或平台发布,所以落在 60-71 这个偏低区间。
一句话点评
单张RTX Pro 6000跑Nemotron-3-Nano-Omni V3达到270 tok/s,速度不错,但用的是NVFP4精度(4位浮点),比FP8精度损失更大,适合对质量不敏感的场景。工具包开源了TensorRT-LLM配置和LMCache轮子,但正文被屏蔽,没披露具体显存占用和功耗。如果是真的,本地部署成本很低,但精度和长上下文表现需要实测验证。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
02:22
32d ago
Hacker News 首页· rssEN02:22 · 05·12
Claude 写了 3000 行代码,就是不肯 pip install 一个库
作者想用 Claude Code 修 Fandom 维基的错别字,结果 Claude 自己手写了约 3000 行 Python,重新实现了 pywikibot、mwparserfromhell 和维基的 RETF 规则集,全程没搜一下有没有现成库。作者后来花两分钟谷歌找到这三个库,把代码从 3000 行砍到 1259 行,但 Claude 还坚持保留自...
#Code#Claude#pywikibot#Hacker News
精选理由
一条 HN 帖子,标题有冲击力(3000 行 vs 一行 import),但正文只有 19 个点赞和 6 条评论,没有复现条件。这个数字本身挺夸张,但证据太薄:没披露 prompt 是什么、用的 Claude 哪个版本、是不是故意没给 pywikibot 的上下文。对 AI 编码 agent 的从业者来说,这是个有趣的个案,但不足以作为 feature 或深度分析。
一句话点评
Claude Code 写 3000 行 Python 手搓 pywikibot、mwparserfromhell 和维基 RETF 规则集,作者花两分钟谷歌找到现成库,代码砍到 1259 行。问题出在基准测试封闭环境(无网络、无 pip install)奖励手写代码,模型被 RL 训成不搜库。Claude 还坚持保留 18 条本地拼写规则,其实全在 RETF 里。正文没披露模型版本、pro...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
02:19
32d ago
● P1AI HOT 精选· aihot-apiZH02:19 · 05·12
Mira 的新公司 Thinking Machines 发了个原生多模态交互模型,前台 200 毫秒一响应,后台跑长线推理
这个模型把音频、视频、文字直接吃进去,不用再靠 agent 把一堆独立模型串起来。前台交互模型每 200 毫秒处理一次输入,保持对话的实时感,用户可以随时打断;后台推理模型负责长程规划和调工具。正文没披露具体参数量、训练数据和成本,也没给评测对比,所以实际效果和泛化能力还得看后续公开信息。
#Multimodal#Audio#Tools#Thinking Machines
精选理由
我会先打个折:正文没披露定价、开放范围和具体 benchmark,所以只能按现有信息给到 87。亮点在于 Thinking Machines 没有只发模型权重,而是给了一套前台 200 毫秒交互节点加后台推理的分层设计,原生多模态输入不是后期缝合的。这对正在折腾实时多模态 agent 的团队来说,至少提供了一个可参考的架构思路,但没看到代码或论文之前,不宜再往上拉。
一句话点评
Thinking Machines 发了个原生多模态交互模型,前台 200 毫秒一刷保持实时感,后台另跑推理做重活。正文没给参数量、训练数据和评测,效果先打七折。
锐评
Mira Murati 离开 OpenAI 后搞的 Thinking Machines 终于亮出了第一个产品。这个模型最大的卖点是原生多模态,音频、视频、文字一口吃进去,不用像现在很多方案那样靠 agent 把语音识别、视觉、语言模型串成流水线。架构上分了两层:前台交互模型每 200 毫秒处理一次输入,保证对话不卡顿,用户可以随时插话打断;后台推理模型负责长程规划和调工具。这种设计思路挺务实,把实时交互和重度推理拆开,各干各的。 但正文没披露任何硬指标。参数量多大、训练数据从哪来、推理成本多少、跟 GPT-4o 或 Gemini 的对比评测,一概没有。200 毫秒的响应间隔听起来不错,可如果后台推理要等好几秒,前台再快也只是在拖时间。另外,原生多模态听着高级,实际能不能稳定处理嘈杂环境下的语音、模糊视频画面,还得看后续公开的测试结果。 现在还缺的是第三方实测和开放试用。光靠一篇公告没法判断这个模型到底比现有方案强在哪,建议等有公开 benchmark 或 demo 再下结论。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
02:12
32d ago
r/LocalLLaMA· rssEN02:12 · 05·12
调一个参数,把大模型预填充速度从380拉到2090 tok/s
Reddit 用户 coder543 在 RTX 3090 上跑 GPT-OSS-120B 模型,把 -ub(batch size)从 512 调到 8192,预填充速度从 380 tok/s 飙升到 2090 tok/s,快了 4.5 倍。代价是生成速度从 32.29 降到 30.05 tok/s,几乎没影响。这个技巧对部分模型参数放在 CPU 上的...
#Inference-opt#llama.cpp#NVIDIA#coder543
精选理由
一条 Reddit 调参笔记,HKR 三项全过:速度对比清晰、参数可复现、直击本地推理的成本痛点。但来源单一、缺乏更广泛的验证或讨论,所以分数压在 60–71 区间,不上精选。
一句话点评
Reddit 用户 coder543 发现,在 RTX 3090 上跑 GPT-OSS-120B(部分层在 CPU),把 llama.cpp 的 batch size(-ub)从 512 调到 8192,预填充速度从 380 tok/s 飙到 2090 tok/s,快了 4.5 倍,生成速度只掉了 2 tok/s(32→30),几乎无感。代价是显存占用更高,但没具体数字。这个技巧对显存不够、...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
02:05
32d ago
r/LocalLLaMA· rssEN02:05 · 05·12
用自来水给 DGX 散热,跑 Qwen3.5 大模型温度没超过 68°C
Reddit 用户用自来水给 DGX 散热,跑 Qwen3.5-122B-A10B Q6_K 模型,GPU 利用率 95%,显存占用 110GB,上下文窗口 80k,连续做视觉分析时温度稳定在 68°C 以下,生成速度 18.77 tokens/s。成本很低,但正文没披露水冷的具体改造方案和长期可靠性。
#Vision#Inference-opt#Reddit#NVIDIA DGX
精选理由
Reddit 硬件折腾帖,不是模型或产品发布,但第一手实测数据有用。自来水冷却 DGX 这个点子够怪,95% 利用率压到 68°C 说明散热方案有效,18.77 tokens/s 在 80k 上下文下也算能跑。不过正文没披露水冷改造的具体成本和长期稳定性,这点先别太激动。适合推给所有关注本地部署和硬件压榨的从业者,但不够上头条。
一句话点评
Reddit 用户用自来水给 DGX 散热,跑 Qwen3.5-122B-A10B Q6_K 模型,GPU 利用率 95%,显存占用 110GB,上下文窗口 80k,连续做视觉分析时温度稳定在 68°C 以下,生成速度 18.77 tokens/s。成本很低,但正文没披露水冷的具体改造方案和长期可靠性。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
01:50
32d ago
● P1彭博科技· rssEN01:50 · 05·12
韩国政策制定者提议AI税支持公民红利计划
一位韩国高层政策官员放出了一个想法:从 AI 赚的钱里抽税,然后直接给国民分红。消息一出,市场先慌了,三星股价跟着跌。不过正文被付费墙挡了,具体的税率、每人能分多少、法案走到哪一步、什么时候能落地,这些关键信息都没披露。我会先打个折,这目前还只是个口头提议,离真金白银发到手里还差得远。
#Samsung Electronics#SK Hynix#South Korea#Policy
精选理由
Bloomberg 的信源和当天市场反应撑得起 H/K/R 全过。我会先打个折:这只是一篇 Reddit 帖子,没有独立复现,也没给出论文或代码,所以分数压在 74 这个低位 featured 档。提案本身缺税率、支付规模和落地时间,更像一个试探气球,但话题性够强。
一句话点评
韩国官员提议对AI征税,把钱直接分给国民,这想法直接把股市吓出一身冷汗。
锐评
韩国政策制定者抛出了一个很直接的想法:对AI征税,然后把钱作为“公民红利”发下去。消息一出,韩国股市立刻剧烈波动,说明市场把这当真了,而且很紧张。 目前的信息来自彭博的一则视频报道,正文没披露具体的税率、征收对象(是算力、AI公司营收还是替代掉的岗位)以及预计能发多少钱。这些关键细节全是空白,所以市场的恐慌更多是对“AI税”这个概念的应激反应,而不是对一份成型法案的定价。 这个提议背后是AI抢饭碗的焦虑,但“征税-发钱”的链条太长了。先别太激动,在真正进入立法程序前,这更像是一次政策试探。接下来要看韩国企划财政部或相关委员会会不会拿出具体方案,以及三星、SK海力士这些重度依赖AI的巨头怎么表态。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
01:37
32d ago
纽约时报中文网· rssZH01:37 · 05·12
特朗普带16个CEO访华,英伟达黄仁勋没被邀请
特朗普本周带16位CEO去北京见习近平,名单上有苹果库克、特斯拉马斯克,但英伟达黄仁勋没被邀请。英伟达正等中美批准出口H200芯片早期型号,这个节骨眼上缺席,说明审批可能还没松动。思科CEO原本在名单上,后来临时说去不了。代表团覆盖金融、芯片、航空、农业,特朗普想谈投资和贸易委员会。
#Donald Trump#Elon Musk#Tim Cook#Policy
精选理由
AI含量偏窄:核心信息是英伟达H200出口审批和黄仁勋缺席。这属于60–71分的常规行业报道区间,不够专题深度。
一句话点评
特朗普带16位CEO访华,名单上有苹果库克、特斯拉马斯克,但英伟达黄仁勋没被邀请。英伟达正等中美批准出口H200芯片早期型号,这个节骨眼上缺席,说明审批可能还没松动。思科CEO原本在名单上,后来临时说去不了。代表团覆盖金融、芯片、航空、农业,特朗普想谈投资和贸易委员会。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
01:24
32d ago
持续报道 · 32d● P1Hacker News 首页· rssEN01:24 · 05·12
Anthropic 宣布 Claude 平台在 AWS 正式上线
Anthropic 宣布 Claude 平台在 AWS 上正式可用(GA),AWS 客户可以用自己的 AWS 身份认证和账单来使用 Claude 的全部功能。正文没有披露具体功能清单、定价细节或上线区域,所以暂时没法判断跟直接调用 Bedrock 上的 Claude 有什么区别、会不会更贵。对已经在用 AWS 的团队来说,少一套账号和发票流程是实在的便...
#Anthropic#AWS#Claude#Product update
精选理由
硬排除-云厂商推广:RSS 正文只有标题、URL、29 分和 9 条评论,没有披露任何具体功能、价格或上线条件,信息缺口太大,不值得收录。
一句话点评
Anthropic把Claude全套功能搬上AWS,小企业不用另开账户就能用。但正文没提具体价格和套餐细节,省钱程度得自己算。
锐评
Anthropic在AWS上正式推出了完整的Claude平台,不再只是通过Bedrock调用单个模型。现在AWS客户可以直接用AWS账号登录、结算,还能把消费算进已有的AWS承诺用量里。对小企业来说,这省掉了单独找Anthropic签约、另走一套采购流程的麻烦。 平台带了几个关键能力:Claude Managed Agents可以批量部署智能体,还有代码执行、技能模块和所谓的“顾问策略”。但官方博客只讲了功能清单,没给出任何定价数字或小企业套餐的具体档位。想判断是不是真省钱,得自己去平台后台看费率。 另外,文章强调Claude在Bedrock上依然可用,AWS是数据处理方——这暗示新平台模式下数据处理责任可能有所转移,但正文没展开说明合规细节。如果你在意数据控制权,这块需要找官方文档补全。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H0·K0·R0
00:39
32d ago
AI HOT 精选· aihot-apiZH00:39 · 05·12
Cursor 现在能装进 Microsoft Teams 了
Cursor 官方宣布支持 Microsoft Teams 集成,加上已有的 Slack 和 Linear,凑齐了三种办公协作工具。如果你公司用微软全家桶,Teams 是绕不开的入口,这个集成能省掉来回切换的麻烦。不过正文没披露具体能做什么(比如能不能在 Teams 里直接调 Cursor 写代码)、权限怎么管、什么时候上线、要不要额外付费——目前只给...
#Tools#Cursor#Microsoft Teams#Slack
精选理由
HKR-K 和 HKR-R 基于 Cursor 一个小的工作流更新通过,但 HKR-H 偏弱。正文只确认了 3 种集成;权限、具体操作和价格均未披露,所以留在 all 层级。
一句话点评
Cursor 集成了 Teams,加上已有的 Slack 和 Linear,凑齐三大办公协作入口。对微软全家桶用户来说,省掉来回切换的麻烦。但正文没披露具体能做什么(比如能不能在 Teams 里直接调 Cursor 写代码)、权限怎么管、什么时候上线、要不要额外付费——目前只给了安装链接。 短评:集成入口是好事,但功能细节全缺,先别激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R1
00:00
32d ago
● P1OpenAI 博客· rssEN00:00 · 05·12
OpenAI Parameter Golf 竞赛吸引千名参与者测试AI辅助研究
OpenAI 搞了个叫 Parameter Golf 的比赛,规则很硬:模型加代码总共不能超过 16MB,训练时间只有 10 分钟(用 8 张 H100),看谁能在固定数据集上把测试损失压到最低。八周里一千多人交了超过两千份方案。我会先打个折,因为这是 OpenAI 自己发的总结,但里面确实有些实在的观察。最狠的几招不是发明新架构,而是把已有组件调得更...
#Agent#Code#Inference-opt#OpenAI
精选理由
OpenAI 自己复盘了这场实验,给出了具体的参与人数和提交量,不是空谈。我会先打个折,因为目前只是一篇帖子,没有论文或可复现的代码放出来,所以分数停在 78,不往上拉了。
一句话点评
OpenAI办了个“参数高尔夫”比赛,上千人用AI编程助手在极小的模型和极短的时间里刷榜,结果发现调参和压缩技巧比发明新架构更管用。
锐评
OpenAI 搞的这个 Parameter Golf 比赛挺有意思:给你一个固定的网页数据集,要求模型加代码总大小不超过 16MB,训练时间只有 10 分钟(用 8 张 H100),看谁能把测试损失压到最低。八周里收到 2000 多份提交,一千多人参加。 最值得看的是,很多高分方案并没有发明什么新架构,而是把已有组件调得更精细,或者把模型压缩(量化)做得更狠。比如有人把前几名的方法合并起来,再仔细调了优化器和初始化,就拿到了好成绩。还有人用 GPTQ 这类量化手段把模型压得更小,从而在有限空间里塞进更多参数。这说明在极端资源限制下,工程细节比算法创新更直接有效。 另一个观察是,大量参赛者用了 AI 编程助手来降低试错成本,这让比赛节奏变快,但也给主办方审核提交带来了新麻烦——代码是不是人写的、功劳怎么算,都成了问题。OpenAI 也直说,这个比赛成了他们发现技术人才的一个渠道。 不过文章没披露最终的最好成绩具体是多少,也没说这些技巧在更大规模模型上能迁移多少。所以这些省钱省时间的操作,目前还只是在这个特定小擂台里验证过。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
00:00
32d ago
● P1Computing Life · 鸭哥· atomZH00:00 · 05·12
AI 造成的失眠被 AI 帮我治好了
作者三月底开始严重失眠,每晚只能睡两三个小时,辞职后也没好转。他没靠瞎猜,而是让 AI 花五分钟写了个 app,把苹果手表和手机里 HealthKit 的健康数据(咖啡因、酒精、入睡时间、深睡时段等)全导出来,再让 AI 跑多变量回归分析,看哪些因素和睡眠时长负相关最明显。结果发现,晚饭后最后一次用 AI 的时间是头号变量——用得越晚,睡得越差;而喝咖...
#Agent#Code#Tools#Apple
精选理由
这篇是个人量化实验,不是行业大新闻,但数据很具体。作者先写了个 app 拉出 HealthKit 数据,做回归发现晚饭后最后一次用 AI 的时间越晚,当晚睡眠越短;停用后平均多睡 1 小时 40 分钟。我会先打个折:这只是单人数据,没有复现,也没公开代码或论文,所以重要性停在 78。但 HKR 三项都成立,角度新鲜,数字也够硬,对开源微调那批人来说,既戳中 AI 过劳的焦虑,又给了个可复现的追踪思路。
一句话点评
一个AI重度用户发现,晚上用AI搞多线程高强度脑力活,比咖啡因更毁睡眠。他让AI写了个App拉取健康数据做回归分析,最后戒掉晚间AI,平均多睡1小时40分钟。
锐评
这篇个人实验最有意思的地方,是把诊断失眠的路径从“猜”变成了“算”。作者让AI写了个iOS应用,把Apple Watch里的咖啡因、血糖、睡眠阶段等数据全导出来,再喂给AI跑多元回归,最后揪出的头号嫌疑犯不是咖啡也不是屏幕蓝光,而是晚间使用AI的时长。这个结论反直觉,因为大家习惯把AI和刷手机归为一类,但作者点出了关键区别:AI替你干了脏活累活,留给人的全是高强度的阅读、判断和多线程切换,大脑一直处于紧绷的创新状态,退不出来。 数字上,戒掉晚间AI后,他平均每晚多睡1小时40分钟,这个改善幅度相当大。但要注意,这完全是单一个案,没有对照组,样本量就是他自己几十天的数据。正文也没披露回归模型的具体系数、显著性水平,或者有没有控制其他变量,所以这个相关性有多牢靠,得打个问号。 另一个值得从业者琢磨的点,是他对“软件用户是AI而非人”的实践。他让AI写了个给人用的数据导出壳,但真正的分析和呈现全在AI的聊天界面里完成。这等于把传统App的架构拆了,人只当AI的手替,去点一下屏幕授权。这种设计思路对做工具型产品的人会有启发,但文章没展开讲这种模式下出错怎么排查、数据隐私怎么处理,这些缺口恰恰是工程落地时要填的坑。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
00:00
32d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·12
AI 语音输入的关键不在模型,在键盘层
Google 在 Android Show 上发布了 Gboard Rambler,一个基于 Gemini 的免费语音输入功能,直接嵌在默认键盘里。文章认为,基础转录能力(去填充词、自动标点、改口理解)在 2026 年已经拉平,主流方案准确率都在 90%-97% 之间,继续比谁去填充词更好没意义。真正的胜负手在三个不对称:一是键盘入口——Android...
#Audio#Google#Commentary
精选理由
观点有趣,但正文没给转录准确率或用户规模,缺验证。作为框架性文章有用,不值得上推荐位。
一句话点评
Google 把语音输入塞进默认键盘,免费,这对创业公司是降维打击。基础转录准确率 90%-97% 已拉平,胜负不在模型而在入口。Android 上 Gboard 能直接调麦克风,第三方在 iOS 只能靠后台音频通道“骗”权限,体验差还耗电。创业公司月费 10-15 美元,Google 免费。正文没披露 Rambler 实际准确率和延迟,这点先别太激动。但架构上 Google 本地+云端双路...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
00:00
32d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·12
Google 调系统,别人只能建连接器:AI 时代的操作系统优势,模型质量追不上
Google 让 Gemini 直接调用手机 App(比如长按电源键让它读邮件加购物车),而 OpenAI 和 Anthropic 只能给每个服务单独建连接器(要注册、配 OAuth、管 token 过期),或者更慢的截屏模拟点击。关键差别不是模型多聪明,而是 Google 拥有 Android 系统底层权限,Gemini 像系统组件一样不需要额外授权...
#Agent#Tools#Google#OpenAI
精选理由
这是一篇平台战略评论,核心论点是操作系统级别的控制权比模型能力更难追平。标题的对比有钩子,但正文没披露 Android 接口机制、覆盖应用数量和上线条件,信息缺口扣分。话题切中从业者对代理分发权的关注,所以落在 60–71 的 all 档。
一句话点评
Google 让 Gemini 直接调 Android 系统接口操作 App,不用像 OpenAI 那样一个个建 Connector(每个都要单独注册、配 OAuth、管 token 过期)。关键不是模型多强,而是 Google 拥有系统底层权限,Gemini 像系统组件一样免授权。首批只开放了外卖、打车和生鲜配送,但 demo 已能读邮件加购物车。欧盟 DMA 正要求开放此权限给第三方 A...
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1

更多

频道

后台