ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-05-05

107 items · updated 3m ago
RSS live
2026-05-05 · 星期二2026年5月5日
23:11
38d ago
r/LocalLLaMA· rssEN23:11 · 05·05
Reddit 网友整理 13 个非聊天类本地 AI 工具,重点在语音和音频处理
一位 Reddit 用户手动整理了 13 个本地 AI 应用或模型,专门用于非聊天场景。列表包括 Applio、Open Web UI、ComfyUI、Parakeet 0.6b 和 Basic Pitch 等,覆盖语音合成、转录、音频清理和模型发现。真正有价值的信息是本地音频处理管线仍有明显缺口:批量 ASR(自动语音识别)、语音编辑和嵌入搜索前端工...
#Audio#Tools#Embedding#Reddit
精选理由
这是一份 Reddit 资源清单,不是发布或基准测试,所以分数落在 60–71 区间。HKR-K 来自 13 个具名工具,HKR-R 来自本地音频工作流的缺口。
一句话点评
本地音频工具清单,但正文被墙了,信息不全。
锐评
这篇 Reddit 帖子整理了一份本地 AI 工具清单,覆盖语音合成(Applio)、转录、音频清理和模型发现(Open Web UI、ComfyUI)等非聊天场景。但正文被 Reddit 屏蔽,实际内容只有标题和摘要。摘要提到一个关键判断:本地音频处理管线仍有明显缺口——批量 ASR、语音编辑和嵌入搜索前端工具很少。这点对做本地部署的开发者有参考价值,但清单具体有哪些工具、每个工具怎么用,正文都没披露。来源是 Reddit 个人用户,权威性一般,更像社区经验分享。如果想用,建议直接去原帖看评论区或找其他来源补全工具详情。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
22:58
38d ago
r/LocalLLaMA· rssEN22:58 · 05·05
Claude Code Opus 4.7 和本地跑的开源版 OpenCode 都做出了一个能玩的 cozy roguelite 游戏
Reddit 用户对比了 Claude Code(用 Opus 4.7)和 OpenCode(用 qwen3.6:27b,本地可跑的开源替代),两边都成功生成了一个可玩的 cozy roguelite 游戏。但原文只贴了个视频链接,没交代 prompt 怎么写、迭代了多少轮、运行环境是什么、怎么评估结果。最关键的信息缺口是:复现条件完全没给,所以没法判...
#Agent#Code#Anthropic#Qwen
精选理由
H 和 R 成立:同款游戏编码对决有话题性,也触及 Claude Code 与本地 Qwen 替代的竞争痛点。K 不成立:正文没披露提示词、轮次、环境和评测标准,目前只有标题信息,没法验证实验的可复现性。
一句话点评
一个用户用 Claude Code 和开源 OpenCode 各生成了一个可玩的 cozy roguelite 游戏,但只发了视频,没给 prompt、迭代次数和运行环境,没法复现。
锐评
这条 Reddit 帖子标题挺吸引人:Claude Code(Opus 4.7)和开源替代 OpenCode(qwen3.6:27b)都成功生成了一个可玩的 cozy roguelite 游戏。但正文只贴了个视频链接,关键信息全缺:prompt 怎么写、迭代了多少轮、运行环境是什么、怎么评估结果。最致命的是复现条件完全没给,所以没法判断两边到底差在哪。对于想参考这个对比选工具的人来说,这点先别太激动——视频能跑不代表你拿同样 prompt 也能跑通。如果后续有人补上详细日志和 prompt,这条才有实际参考价值。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
22:57
38d ago
TechCrunch AI· rssEN22:57 · 05·05
Altara 获 700 万美元,用 AI 打通物理科学实验数据孤岛
Altara 拿了 700 万美元,解决物理科学(电池、半导体、医疗设备)研发中数据散落在 Excel 和老系统里的问题。它的 AI 能自动诊断实验失败原因,加速研发。700 万不算大额融资,但说明这个细分方向有投资人买单。正文没披露投资方、估值和具体部署案例,所以产品成熟度还不好判断。
#Altara#Funding
精选理由
HKR-K 靠700万美元融资和表格/遗留系统整合角度通过。HKR-H/R 不通过:正文没写轮次、投资方、估值、部署细节或客户指标。
一句话点评
700万美元买一个帮物理科学家整理实验数据的AI,方向很实在,但钱不多,产品成熟度未知。
锐评
Altara 拿了 700 万美元,解决电池、半导体、医疗设备研发中数据散落在 Excel 和老系统里的问题。它的 AI 能自动诊断实验失败原因,加速研发。700 万不算大额融资,但说明这个细分方向有投资人买单。正文没披露投资方、估值和具体部署案例,所以产品成熟度还不好判断。如果真能把科学家从手动整理数据中解放出来,价值不小,但得先看到实际效果。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K1·R0
22:26
38d ago
r/LocalLLaMA· rssEN22:26 · 05·05
Strix Halo 跑 MTP 投机解码,生成速度从 40 涨到 60-80 token/s
Reddit 用户 Edenar 在 AI Max 395(128GB DDR5 8000)上测试了 llama.cpp PR #22673 的 MTP 投机解码,用 Qwen3.6-35BA3B-MTP-GGUF 模型,设置 --spec-type mtp --spec-draft-n-max 3。生成速度从约 40 token/s 提升到 60-8...
#Inference-opt#llama.cpp#Qwen#Edenar
精选理由
单条Reddit实测,速度提升约50%,硬件和参数都列清楚了,但正文没披露完整提示集,吞吐受主题影响,PP基本没变。信息够用但来源单一,所以分数压在60-71区间。
一句话点评
llama.cpp 新 PR 让 Strix Halo 跑 MTP 投机解码,速度从 40 提到 60-80 token/s,但只测了单模型单场景。
锐评
Reddit 用户 Edenar 在 AI Max 395(128GB DDR5 8000)上测了 llama.cpp PR #22673 的 MTP 投机解码,用 Qwen3.6-35BA3B-MTP-GGUF,设 --spec-type mtp --spec-draft-n-max 3。生成速度从约 40 token/s 提到 60-80 token/s,提升 50%-100%,对本地推理来说挺省钱——不用换硬件就能白嫖速度。但正文没披露完整测试集,吞吐量随主题波动,PP(预处理)延迟没变。这意味着加速主要来自草稿模型投机,不是整体优化。另外只测了单模型单场景,没对比其他投机方法(如 Medusa、Eagle),也没说显存占用和精度损失。如果是生产部署,还得看长文本和并发下的表现。这点先别太激动,等更多复现和对比出来再下结论。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
21:46
38d ago
The Verge · AI· rssEN21:46 · 05·05
Google Home 升级 Gemini 3.1,能听懂更复杂的指令了
Google 把 Home 里的 Gemini 升级到了 3.1 版本,现在你可以一句话让它干好几件事,比如“关灯、把空调调到 24 度、再设个 10 分钟的计时器”。它还能处理重复事件、全天事件和改期。不过正文没披露完整修复列表,所以具体改了多少 bug、效果稳不稳,这点先别太激动。
#Agent#Tools#Google#The Verge
精选理由
中等体量的 Google Home 产品更新:H 是那个多步智能家居的日常钩子;K 有 Gemini 3.1 加上重复/全天/移动日程三个具体能力;R 偏弱,因为用户反馈、延迟和错误率数据正文都没给。
一句话点评
Google Home 的 Gemini 升级到 3.1,能一句话搞定关灯、调空调、设计时器这种多步指令了。
锐评
Google Home 把内置的 Gemini 升级到 3.1 版本,核心变化是支持多步指令组合——你一句话说“关灯、空调调到 24 度、设个 10 分钟计时器”,它能一次执行完。还新增了对重复事件、全天事件和改期的处理能力。这相当于把智能家居从“单句单任务”推到了“一句话干三件事”的阶段,对用户来说确实省事。但正文没披露完整修复列表,所以具体改了多少 bug、效果稳不稳,这点先别太激动。另外,升级是逐步推送的,不是所有设备立刻能用。缺少实测数据,比如多步指令的成功率、延迟有没有变差,这些都没提。如果是真的挺省钱,但验证还不够。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
21:34
38d ago
彭博科技· rssEN21:34 · 05·05
橡树资本旗下基金减记软件贷款,称26%资产涉AI
橡树资本管理的一只私募信贷基金,因为软件类资产估值下调,净值跌了近4%。标题里提到的26% AI敞口,正文没解释具体怎么算的、投了哪些资产、减记机制是什么。信息缺口很明显:不知道这26%是贷款、股权还是其他工具,也不知道减记幅度集中在哪类资产。对关注AI融资和信贷风险的人来说,这是个信号——AI相关贷款在传统信贷基金里占比已经不低,而且估值开始承压。但...
#Oaktree Capital Management#Funding
精选理由
HKR 靠金融风险钩子过关,但文章只给了两个数字:近 4% 的减记和 26% 的 AI 敞口。没有披露敞口口径、资产构成或减记机制,卡在 60–71 分区间。
一句话点评
橡树资本的一只私募信贷基金因软件资产估值下调净值跌了近4%,还披露了26%的AI敞口。
锐评
这条新闻对关注AI融资和信贷风险的人来说是个信号:AI相关贷款在传统信贷基金里占比已经不低,而且估值开始承压。净值跌4%不算小,说明减记幅度不低。但正文没披露这26%的AI敞口具体怎么算的、投了哪些资产、减记机制是什么,也不知道是贷款、股权还是其他工具,减记幅度集中在哪类资产也不清楚。信息缺口很明显,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K1·R1
21:27
38d ago
彭博科技· rssEN21:27 · 05·05
AMD给出乐观预测,Super Micro因业绩展望股价上涨
AMD 对当前季度的营收给出了高于预期的指引,超微电脑则在公布利润率改善后股价上涨。正文没有披露具体的营收数字、利润率变化幅度或股价涨幅。对 AI 基础设施团队来说,关键信号是 GPU 需求是否还在持续转化为服务器厂商的利润空间。
#Inference-opt#AMD#Super Micro Computer#Michael Shepard
精选理由
彭博来源权威,但披露事实止于AMD乐观展望和Super Micro因利润率改善上涨。HKR-R通过;HKR-H和HKR-K因缺少具体数字不通过,所以留在all。
一句话点评
Super Micro 给出乐观利润预期,AI 服务器需求依然强劲,股价应声上涨。AMD 也给出乐观预测。关键看点是成本控制信号——正文没披露具体成本降了多少,但市场买账。短评:AI 硬件需求还在涨,但成本控制才是股价的命门。
锐评
AMD 对当前季度给出了高于预期的营收指引,超微电脑则因利润率改善股价上涨。对 AI 基础设施团队来说,这传递了一个关键信号:GPU 需求仍在持续转化为服务器厂商的利润空间。不过,正文没有披露具体的营收指引数字、利润率变化幅度或股价涨幅,所以无法判断改善的规模。如果 AMD 的指引主要来自 MI 系列加速卡,那说明其正在从 NVIDIA 手中抢到更多订单;超微的利润率改善则可能来自更好的成本控制或产品组合优化。但缺少这些细节,我们只能确认趋势方向,无法量化影响。建议关注后续财报电话会的具体数据。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K0·R1
20:47
38d ago
Hacker News 首页· rssEN20:47 · 05·05
AI 在斯德哥尔摩开了一家咖啡馆
Andon Labs 让一个叫 Mona 的 AI 在斯德哥尔摩签了租约、跑注册、招人,真开了一家咖啡馆。Mona 能自己读合同、列待办清单、申请户外座位许可,甚至给警察局画了张没看过街景的草图——结果被打回来重交。遇到瑞典的 BankID(个人数字身份认证)门槛,她绕不过去就找人类帮忙扫码登录,或者干脆选不需要 BankID 的供应商,比如签了三年固...
#Agent#Andon Labs#Hacker News#Commentary
精选理由
H和R通过:咖啡馆这个前提够怪、够具体,而且直接触及agent自主运营真实业务的敏感点。K不通过:只有RSS片段,没有运营机制、时间线、人工介入比例,信息缺口太大,没法判断可信度或技术含量。
一句话点评
AI 真在瑞典开了家咖啡馆,但遇到 BankID 就卡壳,得找人帮忙。
锐评
Andon Labs 让 AI Mona 在斯德哥尔摩签租约、办注册、招人,真开了一家咖啡馆。Mona 能自己读合同、列待办清单、申请户外座位许可,甚至给警察局画了张没看过街景的草图——结果被打回来重交。遇到瑞典的 BankID(个人数字身份认证)门槛,她绕不过去就找人类帮忙扫码登录,或者干脆选不需要 BankID 的供应商,比如签了三年固定电价合同,没比价。正文没披露 Mona 用了什么模型、人类干预频率、以及咖啡馆运营两周的营收数据。如果是真的,这比单纯写代码的 agent 更接近“跑通真实业务流程”,但验证还很弱:实验周期短、样本只有一个、且关键环节仍需人类兜底。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
20:43
38d ago
● P1FT · 科技· rssEN20:43 · 05·05
Apple因延迟推出AI Siri功能达成2.5亿美元和解
苹果同意支付 2.5 亿美元,和解一桩因为宣传了“AI Siri”功能但迟迟没上线的集体诉讼。起诉方是买了 iPhone 的用户,他们认为苹果 2024 年的营销广告夸大了 Siri 的智能程度,实际功能却一直没推。目前这篇报道正文被付费墙挡住,看不到和解的具体覆盖范围、法院文件细节,以及苹果到底什么时候会把这些功能补上。
#Agent#Apple#Incident#Product update
精选理由
FT 报道苹果就延迟的“AI Siri”达成 2.5 亿美元和解。H 是法律层面的转折,K 有具体金额和 2024 年的宣传事实,R 踩中了 AI 功能交付风险这个行业痛点。不过赔付范围等信息缺失,所以重要性没给到 85 以上。
一句话点评
苹果画了个AI Siri的饼没兑现,现在要花2.5亿美元和解,这钱主要赔给买过特定iPhone的用户。
锐评
苹果因为推迟推出宣传过的AI Siri功能,同意支付2.5亿美元和解集体诉讼。这笔钱说明苹果在AI落地节奏上确实翻了车,而且翻得挺贵。和解方案覆盖的是购买特定iPhone机型的用户,具体哪些型号和每人能拿多少,目前公开报道里没写清楚。另外,苹果到底什么时候能把当初承诺的AI Siri功能推出来,正文也没给出新时间表。所以这事本质上是苹果为过度承诺买单,但用户真正关心的“智能Siri什么时候能用”依然没答案。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
20:39
38d ago
● P1彭博科技· rssEN20:39 · 05·05
中国阻止Meta二十亿美元收购Manus AI交易
彭博社在 5 月 5 日的一期播客里提到,北京方面拦下了 Meta 收购 Manus AI 的交易,报价是 20 亿美元。播客片段没讲监管层具体用什么理由否决,也没披露交易条款和 Manus AI 到底做什么业务。想知道为什么被拦,得去听完整期节目,光看这个页面信息不够。
#Meta#Manus AI#Bloomberg#Policy
精选理由
Bloomberg 播客摘要说北京阻止了 Meta 收购 Manus AI,20 亿美元的价码摆在那,但正文没解释为什么拦、交易怎么设计的、Manus 具体做什么。我会先打个折,因为关键信息缺失,没法判断是纯监管原因还是有其他考量。冲突性和话题度够高,但细节太少,所以放在 featured 而不是头条。
一句话点评
中国直接叫停了Meta对Manus AI的二十亿美元收购,这比单纯的投资审查更重,等于把一家中国AI创业公司的退出通道堵死了。
锐评
这笔交易被否,最直接的影响是Manus AI没法走“卖给大厂”这条路了。二十亿美元的报价说明Meta很想要它的团队或技术,但中国监管层显然认为这涉及关键技术外流。文章把这件事拔高到“全球AI竞赛转折点”,这个判断我先打个折——目前看更像个案,还没看到成文的系统性封锁政策。 文章没披露Manus AI具体做什么、团队规模多大,也没说清否决的具体法律依据。这些信息缺口让“信号意义”的讨论有点虚。对AI从业者来说,更实际的信号是:如果你在做底层模型或数据基建,未来想拿美元基金然后卖给美国巨头,这条路可能越来越窄。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
20:16
38d ago
Hacker News 首页· rssEN20:16 · 05·05
.de 顶级域因 DNSSEC 问题离线约两小时
Hacker News 上一条帖子称 .de 域名系统因 DNSSEC 问题离线,获得 202 票和 62 条评论。帖子只链接到 Verisign Labs 的 DNSSEC 调试工具页面,页面显示对 nic.de 的 DNSSEC 链检查通过(绿色标记),但未披露故障时间、影响范围或根因。正文没说明具体是什么故障、影响了多少用户、持续了多久,这点先别...
#Verisign Labs#Hacker News#Incident
精选理由
H 靠故障标题拿分,但 K 和 R 都不行:帖子只有 Verisign 页面加 202 分和 62 条评论,跟 AI 几乎无关,所以分数低于 40,直接排除。
一句话点评
德国顶级域名 .de 因 DNSSEC 配置问题宕了约两小时,影响数百万 .de 网站。根服务器返回的 DS 记录与 .de 区 DNSKEY 不匹配,导致验证链断裂。Hacker News 用户反馈称解析全面失败,但官方尚未发布事故报告。目前看是密钥轮转或同步失误,不是攻击。正文没披露具体根因和修复细节,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
20:09
38d ago
r/LocalLLaMA· rssEN20:09 · 05·05
跑本地模型到底省不省钱?有人算了笔账
Reddit 用户用 Hermes 搭配 Qwen-397b 跑了 5 天,消耗 2 亿 tokens。按 Artificial Analysis 的 API 价格每百万 tokens 1.25 美元算,一个月 API 费要 1250 美元。作者认为这笔钱够买硬件,6 个月就能回本。这个计算对高 token 消耗的 agent 场景有参考价值,但正文没...
#Agent#Inference-opt#Reddit#Qwen
精选理由
HKR 三项都达标:钩子有具体用量和场景,关键数字给全了,相关性直击高频 agent 用户的成本痛点。但来源是单条 Reddit 帖子,没有复现步骤、吞吐量、电费这些细节,所以分数卡在 70 档,不往上调。
一句话点评
跑本地模型省API费,高用量场景6个月回本。
锐评
Reddit用户实测:Hermes+Qwen-397b跑5天消耗2亿tokens,按Artificial Analysis报价每百万tokens 1.25美元算,月API费1250美元。作者认为这笔钱够买硬件,6个月回本。这个计算对高token消耗的agent场景有参考价值——每天4000万tokens的用量,API成本确实可观。但正文没披露硬件配置和功耗,实际回本周期还得算上电费和散热。另外,1.25美元/百万tokens是API价格,自建集群的维护成本(运维、故障、折旧)没算进去。结论:如果你跑agent每天几千万tokens,本地部署确实省钱;用量低的话,还是API划算。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
20:07
38d ago
Product Hunt · AI· rssEN20:07 · 05·05
Fei Design Mode:在实时预览里直接改UI像素,改完直接进代码库
AutonomyAI 新出的 Fei Design Mode,让设计师在实时预览里点选任意元素、直接改样式,改完一键推到代码库,不需要从 Figma 再转一手。官方说“设计师终于有了超能力”,但正文没披露支持哪些平台、定价、是否已发布,也没说具体在什么工作流下能用。目前 Product Hunt 页面显示有免费选项,送 3 个月试用,但细节不够,这点先...
#Agent#Tools#Product update
精选理由
一个 Product Hunt 上的小工具发布:H 和 R 条件满足,但 K 条件不成立——平台、定价、可复现的工作流全没披露。不值得上首页推荐。
一句话点评
AutonomyAI 的 Fei Design Mode 让设计师在实时预览里点选元素、直接改样式,改完一键推到代码库,省掉 Figma 转手这一步。官方说“设计师终于有了超能力”,但正文没披露支持哪些平台、定价、是否已发布,也没说具体在什么工作流下能用。目前 Product Hunt 页面显示有免费选项,送 3 个月试用,但细节不够,这点先别太激动。如果是真的挺省钱,但得等更多实测。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
20:06
38d ago
TechCrunch AI· rssEN20:06 · 05·05
ASML 总裁放话:没人能撼动我们的光刻机垄断地位
ASML 总裁 Christophe Fouquet 在米尔肯会议上说,目前没有竞争对手能挑战 ASML 在高端光刻机(造芯片必需的核心设备)上的垄断。他 2024 年才上任,之前在公司干了十多年。正文没披露 ASML 具体市场份额、EUV(极紫外光刻机)的技术细节,也没提任何竞争对手的名字或进展。所以这句话更像一个姿态宣示,不是技术或市场分析。
#ASML#Christophe Fouquet#Milken Institute#Commentary
精选理由
HKR-H和HKR-R成立:垄断表态尖锐,且ASML处于AI算力上游。HKR-K不成立:正文没给市场份额、EUV参数或竞争对手细节。
一句话点评
ASML 总裁放话没人能挑战它的光刻机垄断,但正文没给任何数据支撑。
锐评
ASML 总裁 Christophe Fouquet 在米尔肯会议上说“没人能挑战我们”,指的是高端光刻机(造芯片必需的核心设备)的垄断地位。他 2024 年才上任,之前在公司干了十多年。这句话更像一个姿态宣示,不是技术或市场分析。正文没披露 ASML 具体市场份额、EUV(极紫外光刻机)的技术细节,也没提任何竞争对手的名字或进展。所以信息缺口很大:你不知道对手卡在哪、ASML 的护城河到底多深。对从业者来说,这条新闻的价值在于确认 ASML 高层对外口径——他们目前不认为有近忧,但缺乏细节让你自己判断风险。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
19:45
38d ago
● P1The Verge · AI· rssEN19:45 · 05·05
Apple 计划在 iOS 27 允许用户选择第三方 AI 模型
Mark Gurman 爆料,苹果计划在 iOS 27、iPadOS 27 和 macOS 27 里开放“扩展”机制,让第三方聊天机器人接管 Siri、写作工具和图片生成这些系统级功能,不再只绑死 ChatGPT。用户能把自己常用的模型设成默认。不过原文没提会支持哪些模型、怎么收费、开发者接口长什么样,这些关键信息都还缺着,先别太激动。
#Agent#Tools#Multimodal#Apple
精选理由
HKR 三项都成立:系统级模型选择器是个强钩子,也给了具体的 Extension 落点。打 80 分是因为正文没披露支持哪些模型、怎么收费、开发者接口长什么样,目前还只是一份路线图爆料,我会先打个折。
一句话点评
苹果可能在 iOS 27 里让你自己选默认 AI 模型,不再只绑 ChatGPT。但正文没披露具体支持哪些模型、怎么审核,先别太激动。
锐评
这条消息的核心是苹果在系统层面松绑了 AI 模型的选择权。以前 Siri 和 Apple Intelligence 的后台基本是 ChatGPT 一家独大,现在 iOS 27 可能会像换默认浏览器一样,让你把 Gemini 或别的模型设成主力。这对用户是好事,不用被一家模型绑死;对开发者来说,意味着苹果的 AI 生态会从封闭走向半开放,第三方模型有机会直接进入 iPhone 的系统级交互。 不过,目前信息全来自 The Verge 和 TechCrunch 对苹果计划的转述,没有官方确认,也没有给出技术实现细节。最关键的两点都没说清楚:一是苹果会开放到什么程度——是只允许几个合作方上架,还是真的像 App Store 一样让开发者提交模型?二是隐私和审核机制怎么做,本地运行和云端调用的比例怎么分。这些直接决定了这个功能是实质开放还是做做样子。 另外,报道里没提这个功能是否只限海外,国内用户能不能用、能用哪些模型,都是未知数。如果苹果只是把选择权限制在几家已合作的巨头之间,那对生态的冲击就小很多。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
19:20
38d ago
r/LocalLLaMA· rssEN19:20 · 05·05
用编解码器感知重建,减少音乐数据集里的MP3压缩偏差
TheSpicyBoi123 发布了一个叫 ADE-MP3 的工具,专门修复 LAME MP3 解码带来的音质损失。它把 MP3 编码当成一个非一一对应的贝叶斯推断问题来处理,目前对 96–224 kbps 的固定码率文件效果最好。在没见过的数据上,128 kbps 下归一化均方误差降低了 63.45%,160 kbps 下降低了 79.64%。简单说...
#Audio#TheSpicyBoi123#ADE-MP3#LAME
精选理由
HKR-H/K通过:编解码感知逆问题是个新鲜的数据质量角度,且有具体的NMSE下降数据支撑。但仅限Reddit发布,范围窄,样本量和下游训练收益都没披露,所以分数落在60–71 all区间。
一句话点评
一个修复MP3压缩损失的开源工具,对音乐数据集有用。
锐评
TheSpicyBoi123 发布的 ADE-MP3 把 MP3 解码损失当成贝叶斯推断问题来修,不是简单滤波。实测在 128 kbps 下归一化均方误差降了 63.45%,160 kbps 下降 79.64%,效果明显。目前只对 96–224 kbps 的固定码率文件效果好,可变码率没提。正文被 Reddit 屏蔽,没披露训练数据量、推理速度、是否依赖特定编码器版本。如果跑一次修复比重新采集音频便宜,对缺高码率源的音乐数据集是个低成本提质的选项。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
19:13
38d ago
彭博科技· rssEN19:13 · 05·05
Pinterest第一季度销售超预期 归因于自研AI模型
Pinterest 一季度营收超过分析师预期,原因是他们自己搞了一套 AI 模型来降本和提升用户活跃度。正文没披露具体省了多少钱、营收数字、用户活跃度变化,也没说模型长什么样。
#Inference-opt#Pinterest#Bill Ready#Bloomberg
精选理由
H 通过是因为“自研 AI 带来回报”是个清晰的商业钩子,比单纯报业绩数字更有看点。K 和 R 都不通过:正文没给任何具体数字或机制,既无法验证信息真伪,也对从业者缺乏实操参考。没有硬性排除项,所以归入低价值区间。
一句话点评
Pinterest 一季度营收超预期,盘后涨 20%,归功于自研 AI 模型。但正文没披露具体模型架构或效果指标,只说“定制 AI”提升了广告匹配和转化。这点先别太激动——很多公司都把增长归因于 AI,但缺少可复现的细节。关键看后续财报电话会是否给出更多技术拆解。
锐评
Pinterest 一季度营收超分析师预期,CEO Bill Ready 归功于自研 AI 模型——既降了成本又拉高了用户活跃度。这是个好消息,但正文没披露省了多少钱、营收具体多少、活跃度涨了多少,也没说模型架构。所以“自研 AI 见效”目前还停留在管理层嘴上,缺乏硬数据支撑。对同行来说,信号是:定制化推理优化(Inference-opt)确实能出财报效果,但具体怎么落地、省多少,还得等更多细节。如果是真的,这比单纯堆参数划算得多。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R0
19:01
38d ago
彭博科技· rssEN19:01 · 05·05
OpenAI 联合创始人 Brockman 作证:马斯克缺乏 AI 知识,曾把 ChatGPT 前身叫“蠢货”
Greg Brockman 在法庭作证时说,马斯克曾评价 ChatGPT 的前代模型“很蠢”,还批评过研究人员。RSS 片段提到 OpenAI 联合创始人担心马斯克没有耐心运营公司,但正文没披露具体是哪个案例、发生在什么时间点。
#OpenAI#Greg Brockman#Elon Musk#Personnel
精选理由
HKR 三个维度都成立,但正文只给了证词片段,没披露庭审案由、时间,也没说对现在的 OpenAI 有什么影响。这是创始人的八卦,不是产品、模型或治理结果,所以热度有但信息缺口大。
一句话点评
法庭爆料:马斯克曾嫌早期GPT“很蠢”,OpenAI联合创始人担心他没耐心管公司。
锐评
Greg Brockman 在法庭作证时翻出旧账:马斯克曾评价 ChatGPT 的前代模型“很蠢”,还批评过研究人员。RSS 片段还提到 OpenAI 联合创始人担心马斯克没耐心运营公司。这条新闻的价值在于它提供了 OpenAI 早期内部对马斯克真实态度的第一手证词,来源是 Bloomberg 的法庭报道,可信度较高。但正文没披露具体是哪个模型、发生在什么时间点,也没说马斯克具体批评了什么。所以这点先别太激动——它更像一个八卦佐料,补充了 OpenAI 与马斯克分裂的背景故事,但对当前技术路线或产品没有直接影响。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
18:54
38d ago
彭博科技· rssEN18:54 · 05·05
PayPal 和 Coinbase 宣布裁员,归因于 AI 冲击
PayPal 和 Coinbase 宣布裁员,标题直接归因于 AI 的影响。报道还提到软件股因 AI 不确定性承压,以及 Palantir 的商业销售疲软。但正文没有披露具体裁员人数、比例或时间节点,信息量有限。
#PayPal#Coinbase#Palantir#Incident
精选理由
标题有钩子,但正文很薄:只说软件股受 AI 不确定性影响,Palantir 销售不及预期,没给裁员规模或 AI 替代机制。Bloomberg 来源加分,但信息量撑不起高评分。
一句话点评
标题说AI导致裁员,但正文没给具体人数和比例,信息量有限。
锐评
彭博这条视频报道标题直接说PayPal和Coinbase因AI影响裁员,但正文没披露任何具体数字——裁了多少人、占员工比例多少、什么时候裁。报道还提到软件股因AI不确定性承压,以及Palantir商业销售疲软,但同样缺乏数据支撑。标题和正文之间有信息缺口:AI影响是具体替代了哪些岗位,还是公司借AI重组业务?正文没讲。这条更适合当作一个市场情绪信号,而非可引用的裁员事件。如果想用这个数据点,建议去查SEC文件或公司官方公告补全细节。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
18:12
38d ago
r/LocalLLaMA· rssEN18:12 · 05·05
Gemma 4 31B 和 Qwen 27B 比速度:慢的反而更快
Reddit 上有人发帖对比 Gemma 4 31B 和 Qwen 3.6/5 27B 两个稠密模型,标题说“慢的更快”。但正文被 Reddit 的 403 墙挡住了,必须登录或用开发者 token 才能看。所以具体跑了什么任务、用的什么硬件、吞吐量多少、分数多少,一概没披露。结论只能先打个折,等有人贴出实测数据再说。
#Benchmarking#Reddit#Gemma#Qwen
精选理由
标题有钩子,但正文是空的——Reddit 页面被拦截,连测试环境、任务、分数都没放出来。从业者没法复现或参考,只能当个标题党看。所以虽然话题本身不差,但信息量撑不起高评分,维持低价值判断。
一句话点评
标题说“慢的更快”,但正文被 Reddit 墙了,没数据,先别信。
锐评
Reddit 上有人发帖对比 Gemma 4 31B 和 Qwen 3.6/5 27B 两个稠密模型,标题说“慢的更快”——暗示推理速度慢的模型反而在某个任务上得分更高。但正文被 Reddit 的 403 墙挡住了,必须登录或用开发者 token 才能看。所以具体跑了什么任务、用的什么硬件、吞吐量多少、分数多少,一概没披露。结论只能先打个折,等有人贴出实测数据再说。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
17:52
38d ago
Hacker News 首页· rssEN17:52 · 05·05
GLM-5V-Turbo:智谱为多模态智能体做的原生基座模型
智谱发了 GLM-5V-Turbo,目标是让模型天生就能当多模态智能体——不光会看会读,还能直接调用工具、操作界面、执行任务。论文标题说这是“原生”的,意思是架构上从一开始就为 agent 场景设计,而不是在纯文本模型上后加视觉模块。不过正文只给了摘要,没披露参数量、训练数据、评测基准这些硬指标,所以暂时没法判断它比现有方案(比如 GPT-4V 或 Q...
#Agent#Multimodal#GLM#Research release
精选理由
HKR-H 靠 GLM-5V-Turbo 的多模态 Agent 定位拿到钩子,R 靠模型竞争话题性。K 失败是因为正文没披露任何参数、基准、训练机制或发布条款,所以分数压在 60–71 区间。
一句话点评
智谱发了一篇论文,讲的是让模型天生就会看、会读、会调用工具,而不是在文本模型上后加视觉模块。但正文只有摘要,没披露参数量、训练数据和评测基准,暂时没法判断它比 GPT-4V 或 Qwen-VL 强在哪。
锐评
GLM-5V-Turbo 的卖点是“原生多模态智能体”——架构从一开始就为 agent 场景设计,能直接操作界面、调用工具。这个方向是对的,现在主流做法是在文本模型上外挂视觉模块,延迟高、配合差。但论文只给了摘要,参数量、训练数据、评测基准一概没提。没有这些硬指标,就没法判断它比 GPT-4V 或 Qwen-VL 好多少。另外,14 个 HN 点赞和 2 条评论说明社区还没怎么关注,可能是信息太少。如果是真的,架构创新值得跟进,但先别太激动,等完整论文出来再评估。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
17:46
38d ago
FT · 科技· rssEN17:46 · 05·05
AI 替代岗位,一级和二级市场都在抢着赚钱
FT 报道说,企业高管们预期自动化能带来超额回报,所以公开市场和私募市场都在争着从 AI 替代岗位这件事里获利。但正文被付费墙挡住了,没披露具体是哪些公司、预期回报率是多少、哪些岗位会被替代、以及时间表。信息缺口很明显:光说“超额回报”但没给数字,没法判断是吹牛还是真有数据支撑。
#Financial Times#Commentary
精选理由
FT 的权威性让这条不至于沦为纯口水,但正文几乎没给任何可验证的细节:没有公司名、没有回报数字、没有岗位类别、没有时间表。HKR 里 H 和 R 靠“就业 vs 投资”的角度勉强过关,K 直接挂掉——因为 RSS 摘要只说了“企业押注自动化会有超额回报”,其他全是空白。适合当引子,不适合上推荐位。
一句话点评
FT 说高管们预期自动化能带来超额回报,但全文被付费墙挡住,没披露具体公司、回报率、岗位和时间表。
锐评
FT 这篇报道的核心判断是:企业高管预期 AI 替代岗位能带来超额回报,因此公开市场和私募都在争抢这块蛋糕。但正文被付费墙完全挡住,关键信息全部缺失:没有具体公司名称、没有预期回报率数字、没有哪些岗位会被替代、也没有时间表。 “超额回报”这个说法本身很模糊——是比标普500高5%还是高50%?是来自成本削减还是收入增长?这些都没说。对于从业者来说,这条新闻的价值在于确认了一个趋势信号:资本确实在押注自动化带来的劳动力替代,但缺乏数据支撑,无法判断这是理性预期还是炒作。 信息缺口很明显:FT 没有披露样本量(调查了多少高管)、行业分布(是科技公司还是传统行业)、以及回报率的量化区间。如果是基于大样本的严谨调查,那值得关注;如果只是几个 CEO 的随口表态,那参考价值有限。建议等全文出来后再做判断。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
17:25
38d ago
FT · 科技· rssEN17:25 · 05·05
摩根大通和贝莱德高管说AI没有泡沫
摩根大通的戴蒙和贝莱德的芬克都公开表示,当前AI热潮不是泡沫,需求依然强劲。但正文没披露他们具体看了哪些估值数据或支出数字,也没给时间表。关键信号是华尔街正在为AI基础设施投资买单,这点先别太激动——他们没否认估值偏高,只是说需求能撑住。
#JPMorgan#BlackRock#Jamie Dimon#Commentary
精选理由
FT来源有权威性,HKR-H和HKR-R通过,因为两位金融掌门人联手反驳AI泡沫论。HKR-K不通过:没披露估值、投资规模或时间表,达不到精选级。
一句话点评
华尔街大佬说AI不是泡沫,但没给估值数据,先别急着信。
锐评
摩根大通戴蒙和贝莱德芬克公开唱多AI需求,否认泡沫论。关键信号是华尔街正为AI基础设施投资买单,但正文没披露他们看了哪些估值或支出数字,也没给时间表。两人没否认估值偏高,只是说需求能撑住——这点先别太激动。缺的是具体数据支撑,比如资本开支规模或回报预期。如果是真的,说明机构资金还在进场,但信息缺口明显,建议等财报或募资细节再下判断。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
17:07
38d ago
Product Hunt · AI· rssEN17:07 · 05·05
MolmoAct 2:开源机器人模型,动手前先想3D
艾伦AI研究所发布了MolmoAct 2,一个开源的机器人动作推理模型。它最大的特点是执行任务前会先做3D空间推理,再指挥机械臂行动,能处理双手协作任务,而且不需要为每个新任务单独微调。官方说推理速度比上一代MolmoAct快了最多37倍——这点先别太激动,正文没披露具体测试环境和任务类型,加速比可能挑着有利的场景算的。模型参数规模、训练数据、许可证和...
#Robotics#Reasoning#Allen Institute for Artificial Intelligence#Product update
精选理由
HKR-H/K通过开放机器人模型和3D推理再动作的钩子。缺少参数、训练数据和评测基准,所以分数压在60–71区间,没进推荐位。
一句话点评
MolmoAct 2 是个开源机器人模型,干活前先做 3D 空间推理再动手,能处理双手协作任务,且不用为每个新任务单独微调。官方说推理速度比上一代快最多 37 倍——这点先别太激动,正文没披露具体测试环境和任务类型,加速比可能挑着有利的场景算的。模型参数规模、训练数据、许可证和基准测试结果都没提,信息缺口不小。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R0
16:43
38d ago
Product Hunt · AI· rssEN16:43 · 05·05
Luma Uni 1.1 API:生成前先猜你要什么,价格和延迟砍半
Luma AI 在 Product Hunt 上发了 Uni 1.1 API,主打“推理模型,生成前先理解意图”。官方说价格和延迟都比同类模型低一半,还给了 Python、JS/TS、Go 的 SDK 和 CLI,号称生产级。但正文没披露模型参数量、上下文窗口、具体定价和 API 调用条件。核心看点是“意图预判”这个能力能不能稳定复现——如果真能先猜对...
#Reasoning#Luma AI#Product Hunt#Product update
精选理由
这是一个小版本更新:HKR-K 靠的是“先解释意图再生成”这个机制。正文没披露参数规模、价格、上下文窗口和调用条件,也没有可复现的证据,所以不值得上推荐位。
一句话点评
Luma 发了个推理 API,号称生成前先猜你意图,价格和延迟都比同类低一半。
锐评
Luma Uni 1.1 API 的核心卖点是“意图预判”——模型在生成 3D 内容前先理解用户想要什么,而不是直接出图。官方说价格和延迟都比同类模型低一半,但没披露具体数字,也没说对比的是谁(可能是自家旧版?)。支持 Python、JS/TS、Go 的 SDK 和 CLI,算是对开发者友好。 关键缺口:没提模型参数量、上下文窗口、具体定价和 API 调用条件。如果真能稳定复现“先猜意图再生成”,对 3D 内容生产流程是个简化——省掉反复调 prompt 的步骤。但 Product Hunt 上的发布偏营销,缺少独立评测或 benchmark 数据。建议等第三方跑分或自己试了再信“低一半”的说法。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R0
16:34
38d ago
Hacker News 首页· rssEN16:34 · 05·05
让AI看屏幕操作网页,比直接调API贵45倍
Reflex 团队用同一个后台管理面板做了对比测试:让 Claude Sonnet 通过截图和点击操作网页(vision agent),与直接调 HTTP 接口完成任务。结果 vision agent 用了 53 步、消耗 55.1 万 tokens,而 API 方式只用了 8 次调用、1.2 万 tokens。按 token 算,视觉方案贵了 45 ...
#Agent#Tools#Reflex#Commentary
精选理由
标题说Computer Use比结构化API贵45倍,这个数字本身挺扎眼,能吸引做Agent部署的人看一眼。但正文只有RSS片段,没披露具体测了什么任务、用了什么模型、单价和token用量是多少,也没说能不能复现。所以H和R能过——成本钩子够锐,且确实影响预算决策;K不过,因为信息缺口太大,只能给60-71分。
一句话点评
视觉Agent比调API贵45倍,token消耗差了46倍。
锐评
Reflex团队用同一个后台管理面板做了对比:让Claude Sonnet通过截图+点击操作网页(视觉Agent),与直接调HTTP接口完成任务。结果视觉方案用了53步、55.1万tokens,API方式只用了8次调用、1.2万tokens。按token算,视觉方案贵了45倍。 这个数字很直观:视觉Agent每一步都要截图、分析、决策,而结构化API只需一次请求。但注意,这是Reflex自家产品的对比,任务场景是他们的管理面板,模型只用了一个版本(Sonnet),没有披露具体任务复杂度、截图分辨率、重试次数等细节。 缺什么:没有说任务是什么(增删改查?多步流程?),没有对比其他模型(GPT-4o、Gemini),也没有算延迟差异——视觉方案53步意味着用户要等很久。另外,45倍是按token算的,如果按实际API调用计费(比如Anthropic的Computer Use按步收费),倍数可能更高。 结论:视觉Agent适合没有API的场景,但如果有结构化接口,别为了炫酷用截图方案,成本差一个数量级。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
16:31
38d ago
r/LocalLLaMA· rssEN16:31 · 05·05
实测四款开源新模型:Kimi K2.6 最快,小米 MiMo 最慢
一位 Reddit 用户跑了四款新开源模型,结论是 Kimi K2.6 速度最快,小米 MiMo 最慢。帖子提到 MiMo 每个 token 激活的参数更多,所以慢;DeepSeek V4 用了 MLA(多头潜在注意力),能把 KV 缓存压缩到原来的 25% 左右,省显存。但正文没披露用了什么硬件、跑了什么任务、具体延迟多少秒,所以这个排名只能当个参考...
#Inference-opt#Agent#Benchmarking#DeepSeek
精选理由
一个 Reddit 用户的非正式测试,排了四个开源模型的速度,Kimi K2.6 最快,小米 MiMo 最慢。正文说 MiMo 慢是因为每 token 激活参数更多,DeepSeek V4 用 MLA 做了约 75% KV-cache 压缩——这两个技术点对选模型有参考价值。但正文没披露硬件配置、跑了什么任务、具体延迟数字,验证力度弱。65 分:信息有用,但别当权威评测,适合所有人看一眼,不够上精选。
一句话点评
Reddit 用户实测四款开源模型,Kimi K2.6 最快,小米 MiMo 最慢。
锐评
一位 Reddit 用户跑了四款新开源模型,结论是 Kimi K2.6 速度最快,小米 MiMo 最慢。帖子提到 MiMo 每个 token 激活的参数更多,所以慢;DeepSeek V4 用了 MLA(多头潜在注意力),能把 KV 缓存压缩到原来的 25% 左右,省显存。但正文没披露用了什么硬件、跑了什么任务、具体延迟多少秒,所以这个排名只能当个参考,不能直接拿来选模型。另外,GLM 5.1 被形容为“最花哨”,可能指功能或界面,但没细说。缺的是标准化测试条件和可复现的延迟数据,建议等更严谨的评测再下结论。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R1
16:14
38d ago
Hacker News 首页· rssEN16:14 · 05·05
Gemma 4 提速:一次预测多个词,推理快三倍
Google 给 Gemma 4 加了一个“多词预测草稿器”(multi-token prediction drafter),让模型一次生成多个 token 而不是一个一个蹦,推理速度最高提升 3 倍。原理类似投机解码:小模型先快速写草稿,大模型再校验,省掉逐 token 串行生成的时间。正文没披露具体用了什么硬件、延迟降了多少毫秒,也没说这个 3x ...
#Inference-opt#Google#Gemma#Product update
精选理由
标题说 Gemma 4 用多 token 预测草稿器提速,但 RSS 正文只有 URL、48 分钟和 11 条评论,没披露加速倍数、硬件条件或实现细节。真正值得盯的是草稿器机制和可复现基准,信息缺口太大,够不上精选。
一句话点评
Google 给 Gemma 4 加了个“多词预测草稿器”,推理速度最高能快 3 倍,但具体延迟降了多少、用了啥硬件都没说。
锐评
Google 给 Gemma 4 加了个“多词预测草稿器”(multi-token prediction drafter),原理类似投机解码:先让一个小模型快速写草稿,一次生成多个 token,大模型再校验,省掉逐 token 串行生成的时间。官方说推理速度最高提升 3 倍,但没披露具体延迟降了多少毫秒、用了什么硬件,也没说这个 3x 是在什么场景下测的(比如 batch size、序列长度、模型大小)。如果是小 batch 或长文本生成,加速效果可能更明显;但如果是大 batch 或短文本,收益会打折。另外,草稿模型本身也有额外开销,正文没提训练成本或部署门槛。整体看是个实用的工程优化,但 3x 是上限,实际落地要打折扣。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
16:09
38d ago
● P1FT · 科技· rssEN16:09 · 05·05
五大出版集团起诉 Meta 和扎克伯格侵犯版权用于训练 Llama 模型
五家主要出版集团把 Meta 和扎克伯格告了,理由是 Meta 在训练 Llama 系列模型时,未经授权就用了他们受版权保护的作品。目前这篇 FT 报道正文被付费墙挡住,只显示了标题和摘要片段,所以具体涉及多少本书、索赔金额、在哪个法院起诉、以及 Meta 到底是通过什么方式把这些书喂给模型的,这些关键信息正文都没披露。
#Fine-tuning#Safety#Meta#Mark Zuckerberg
精选理由
这条消息我会先打个折——正文只是 RSS 摘要,没披露涉案作品数量、索赔金额、具体法院和训练数据怎么被抓包的机制,信息缺口不小。但五家出版集团联手告 Meta 和 Zuckerberg,矛头直指 Llama 的训练语料,这事本身够硬。对做模型的人来说,训练数据到底能不能用、用了要付多少钱、会不会被告,是每天都在算的账。这点先别太激动,等起诉书细节出来再看授权边界怎么划,但眼下值得放进必读。
一句话点评
五大出版集团告 Meta 用盗版书训练 Llama,FT 正文被付费墙挡了,具体证据和诉求看不到。
锐评
这起诉讼的核心指控是 Meta 在训练 Llama 模型时,未经授权使用了大量受版权保护的书籍。从现有信息看,出版方认为模型能“逐字复制”原文,这直接触及了 AI 训练数据合法性的老问题。但关键细节全卡在 FT 的付费墙后面,比如原告具体拿出了哪些“逐字复制”的证据、索赔金额是多少、以及诉讼是在哪个法院提起的,这些目前都看不到。 我会先打个折,因为“逐字复制”这个说法在技术上有多种可能:可能是模型真的背下了训练数据,也可能是提示词故意诱导出来的。没有诉状原文,很难判断出版方的证据有多硬。另外,把扎克伯格个人也列为被告,是一种施压策略,但最终能否成立要看是否有证据证明他个人直接决策了数据使用方式。 这条新闻值得跟,但眼下缺的信息太多。需要等诉状公开,看具体侵权书目清单和“逐字复制”的实例,才能判断这案子是雷声大还是真有杀伤力。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
16:01
38d ago
● P1r/LocalLLaMA· rssEN16:01 · 05·05
Google 发布 Gemma 4 MTP 模型加速推理技术
Google 在 Hugging Face 上放了 4 个 Gemma 4 的 MTP 检查点。MTP 的做法是拿一个小号草稿模型一次预测好几个 token,再由主模型并行验证,相当于让模型“先猜后验”,最终解码速度能提一倍,而且输出质量跟原来一模一样。不过 Reddit 原帖被网络策略挡了,正文没披露具体模型尺寸、硬件要求或实测延迟数据。
#Inference-opt#Google#Hugging Face#Gemma
精选理由
H、K、R 都站得住:钩子是 2 倍低延迟解码,有检查点和机制说明,不是画饼。它不是旗舰模型发布,属于实用更新,75 分放在 featured 低位合理。
一句话点评
Google 给 Gemma 4 加了多 token 预测(MTP),一次猜多个词来提速,但 Reddit 帖子被屏蔽,正文没披露具体加速数据和硬件条件。
锐评
这条消息本身很简单:Google 把多 token 预测(MTP)技术用到了 Gemma 4 上。MTP 的原理是让模型一次预测后面好几个词,而不是传统的一个一个往外蹦,这样在生成阶段可以明显减少推理步数,理论上能提速。但 Reddit 原帖被网络屏蔽,正文内容完全看不到,只有标题提到“MLX”,暗示有人在苹果芯片上用 MLX 框架跑通了。关键信息全缺:到底加速了多少百分比?在什么卡上测的?显存占用有没有变化?这些数字没有,就没法判断是实打实的省钱,还是实验室里的纸面优化。另外,MTP 通常需要额外的输出头,模型体积会变大一点,这部分代价原文也没提。想跟的人建议直接去 Hugging Face 搜 Gemma 4 的模型卡,看官方有没有放出 benchmark。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
15:53
38d ago
r/LocalLLaMA· rssEN15:53 · 05·05
Qwen3.6 配 Pi 编程智能体,一个 Reddit 用户说覆盖了 80% 的日常需求
一个 Reddit 用户分享了他的本地部署方案:Qwen3.6 模型加上 Pi 编程智能体,再搭配 Exa 网页搜索和 agent-browser 浏览器工具,就能覆盖他 80% 的使用场景。这套组合听起来挺实用,但原文没透露具体硬件配置、量化精度或跑分数据,所以实际效果和门槛得打个问号。如果你手头有本地模型,可以试试这个搭配,但别直接照搬——毕竟“8...
#Agent#Code#Tools#Qwen
精选理由
这是一条实用的 LocalLLaMA 经验帖,HKR 中钩子和相关性成立——用 Pi 套 Qwen3.6 做 coding agent 确实省心,且本地部署对成本敏感用户有吸引力。但知识性很弱:80% 覆盖是主观感受,无硬件、量化或基准支撑,无法复现。整体够不上 featured,维持 all 层级合理。
一句话点评
本地跑Qwen3.6加Pi编程智能体,说能覆盖80%场景,但没给硬件和量化细节,先别急着抄作业。
锐评
Reddit用户分享的本地部署方案:Qwen3.6模型搭配Pi编程智能体,再加Exa网页搜索和agent-browser浏览器工具,声称覆盖80%使用场景。这套组合听起来挺实用,但原文被屏蔽,正文没披露具体硬件配置(显存、内存)、量化精度(GGUF还是AWQ)或跑分数据,所以实际效果和门槛得打个问号。Pi智能体本身是轻量级编程助手,配合外挂搜索和浏览器工具确实能处理日常编码、信息检索等任务,但“80%”这个数字缺乏验证——是用户主观感受还是系统化测试?另外,Qwen3.6的推理速度和上下文长度在本地部署下是否够用,也取决于硬件。如果你手头有本地模型,可以试试这个搭配,但别直接照搬——毕竟“80%”可能只是个人经验,且缺少延迟、成本等关键指标。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
15:50
38d ago
r/LocalLLaMA· rssEN15:50 · 05·05
Google TPU 推理提速 3 倍:扩散式投机解码
Google 开发者博客称,在 Google TPU 上用扩散式投机解码(一种让模型并行生成多个候选 token 再验证的方法)把大模型推理速度提了 3 倍。但正文只有 Reddit 的 403 拦截页,没披露用了什么模型、哪代 TPU、跑什么 benchmark、怎么复现。3 倍这个数字看着漂亮,但没上下文就没法判断是真是假——比如是不是拿小模型测的...
#Inference-opt#Google#Reddit#Research release
精选理由
标题说 Google 在 TPU 上用扩散式推测解码把 LLM 推理加速 3 倍,但正文是 Reddit 403 拦截页,没披露模型、TPU 版本、基准任务或复现条件。3 倍这个数字挺诱人,但没细节前先别太激动。真正值得盯的是解码机制和硬件条件——推测解码本身不新,但扩散式用在 TPU 上可能是新组合。信息缺口:模型大小、TPU 代际、延迟对比、成本变化全没提。
一句话点评
标题说 Google TPU 上推理提速 3 倍,但正文只有 Reddit 的 403 拦截页,没披露任何细节。
锐评
标题很唬人:Google TPU 上用扩散式投机解码(一种让模型并行生成多个候选 token 再验证的方法)把推理速度提了 3 倍。但点进去只有 Reddit 的 403 拦截页,正文一个字没披露——用了什么模型、哪代 TPU、跑什么 benchmark、怎么复现,全不知道。3 倍这个数字看着漂亮,但没上下文就没法判断是真是假:比如是不是拿小模型测的、是不是只测了特定任务、有没有跟 baseline 公平对比。如果是真的,对 TPU 用户挺省钱,但这点先别太激动。信息缺口太大,建议等官方出完整技术报告再下结论。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
15:49
38d ago
TechCrunch AI· rssEN15:49 · 05·05
PayPal 说要“重新做回科技公司”,意思就是押注 AI
PayPal 在 Q1 财报电话会上提出 AI 驱动的转型计划,CEO Enrique Lores 称要“重新做回科技公司”,并预计通过自动化和重组节省 15 亿美元。正文没披露具体裁了多少人、用了什么 AI 系统、以及技术栈更新的时间表。15 亿这个数字不小,但省下来的钱是投回研发还是用来稳住股价,目前还不清楚。
#Agent#PayPal#Product update#Personnel
精选理由
PayPal 把 AI 转型和 15 亿美元节省目标绑在一起,标题有记忆点,但正文是 RSS 摘要,缺 AI 系统细节、技术栈改造时间表和裁员规模。信息缺口太大,只能给 66 分,适合全量推送但别过度解读。
一句话点评
PayPal 说要靠 AI 省 15 亿美元,但没讲具体怎么省。
锐评
PayPal 在 Q1 财报会上喊出“重新做回科技公司”,核心动作是用 AI 自动化和重组来省 15 亿美元。15 亿不是小数目,但正文没披露裁了多少人、用了什么 AI 系统、以及技术栈更新的时间表。省下来的钱是投回研发还是稳住股价,目前也不清楚。CEO Enrique Lores 的表态更像一个方向性承诺,而非可验证的计划。对 AI 从业者来说,PayPal 的转型路径值得关注,但现阶段信息缺口太大,没法判断这是真转型还是成本削减的包装。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
15:31
38d ago
TechCrunch AI· rssEN15:31 · 05·05
Etsy 在 ChatGPT 里开了个原生商店,用自然语言逛 1 亿件商品
Etsy 在 ChatGPT 里上线了一个原生应用,用户可以直接用自然语言描述需求来逛它的 1 亿多件商品,比如“帮我找一件 100 美元以内的母亲节礼物”,不用再像传统搜索那样输关键词、翻页、调筛选。正文没有披露这个功能覆盖多少用户、交易怎么走、Etsy 是否抽成,也没说底层调用了什么 API。
#Agent#Tools#Etsy#ChatGPT
精选理由
Etsy 在 ChatGPT 里开了个原生应用,用户可以直接在对话框里逛商品。但正文只有一句 RSS 摘要,没披露上线范围(美国全量还是部分用户)、交易机制(ChatGPT 内直接下单还是跳转)、费用结构(Etsy 抽成是否变)、技术接口(是否开放给其他平台)。H 和 R 成立,K 因为缺关键细节不通过。信息太少,不值得上头条,但作为渠道变化信号可以关注后续。
一句话点评
Etsy 把 1 亿多件商品搬进 ChatGPT,用自然语言找礼物,不用翻页调筛选。
锐评
Etsy 在 ChatGPT 里上线原生应用,用户直接说“找 100 美元以内的母亲节礼物”就能逛 1 亿多件商品,省去传统搜索的关键词、翻页和筛选。这本质上是把电商入口塞进对话界面,降低购物决策门槛。但正文没披露覆盖多少用户、交易是否在 ChatGPT 内完成、Etsy 是否抽成,也没说底层调用了什么 API。如果只是跳转链接,体验打折;如果内嵌支付,对 Etsy 是新增量渠道。目前信息缺口太大,先别激动,等更多细节再判断实际价值。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
15:05
38d ago
Hacker News 首页· rssEN15:05 · 05·05
Anthropic 发了10个金融业AI代理模板,直接跑在Excel和PPT里
Anthropic 发布了10个面向金融服务的AI代理模板,覆盖做 pitchbook、KYC 审核、月末结账等高频场景。这些模板可以当插件装在 Claude Cowork 和 Claude Code 里,也能作为 cookbook 在 Claude Managed Agents 上跑。同时 Claude 现在能直接操作 Excel、PowerPoin...
#Agent#Anthropic#Hacker News#Product update
精选理由
HKR-R 通过是因为受监管行业的 Agent 天然戳中成本和合规神经;HKR-H/K 不通过是因为模型、定价、上线时间和能力边界全未披露。这篇只能落在 60–71 区间。
一句话点评
Anthropic 一口气发了10个金融代理模板,从做 pitchbook 到月末结账都有,能当插件装在 Claude Cowork 里,也能在 Managed Agents 上跑。
锐评
Anthropic 这次不是画饼,直接给了10个能跑的金融代理模板,覆盖投行、资管、审计的高频场景:做 pitchbook、审 KYC 文件、月末结账、对账、审报表。每个模板打包了指令、数据连接器和子代理,企业可以改自己的风控和审批流程。 关键变化是 Claude 现在能直接操作 Excel、PowerPoint、Word 和 Outlook(即将支持),上下文跨应用自动带过去——在 Excel 建完模型,切到 PPT 不用重新解释。这点对金融从业者挺实用,省了来回粘贴的功夫。 性能上,Claude Opus 4.7 在 Vals AI 金融代理基准上拿了 64.37%,领先同行。但正文没披露模板跑一次的成本、延迟、或者需要多少样本数据来调优,也没说这些模板在真实客户环境里的成功率。如果是小团队想试,得自己掂量部署门槛和 token 开销。 另外,模板作为插件跑在本地桌面,还是作为 Managed Agent 跑在云端,合规和审计日志的差异很大。正文提到有完整审计日志,但没细说数据隔离和权限控制的边界——这点对金融机构很关键。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K0·R1
14:29
38d ago
FT · 科技· rssEN14:29 · 05·05
Coinbase 要裁员,把公司改造成一个“智能体”
Coinbase 的 CEO 说 AI 加快了内部流程,所以公司要裁员。正文没披露裁员人数、时间、涉及哪些团队,也没说具体用了什么 AI 机制。
#Agent#Coinbase#Personnel#Product update
精选理由
标题有冲击力,但正文来自 RSS 摘要,信息量不足。H 和 R 过关:Coinbase 把 AI 和裁员、组织设计挂钩,对从业者有参考价值。K 不过关:没给裁员规模、时间、受影响部门、自动化机制,所以分数压在 60–71 区间。
一句话点评
Coinbase CEO 说 AI 提效所以要裁员,但没披露人数、时间、涉及团队。
锐评
Coinbase CEO 把裁员理由直接挂在 AI 提效上,说内部流程被 AI 加速了,所以不需要那么多人。这个说法在科技公司里不算新鲜,但公开拿 AI 当裁员理由的还不多。正文没披露裁员人数、时间、涉及哪些团队,也没说具体用了什么 AI 机制——是 agent workflow(让模型进业务流程干活)还是 RAG(外挂资料库)?信息缺口很大。如果只是把客服或合规的重复劳动用 AI 替代了,那裁的是操作岗;如果连工程师也裁,那才是真信了 AI 能写代码。目前 FT 全文被 paywall 挡住,只能从摘要判断:CEO 的表态更像一个信号——AI 提效正在从口号变成组织调整的借口。这点先别太激动,等具体数字出来再说。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
14:20
38d ago
TechCrunch AI· rssEN14:20 · 05·05
ElevenLabs 公布新投资人:贝莱德、杰米·福克斯和伊娃·朗格利亚
语音 AI 公司 ElevenLabs 在官方博客里列出了新投资人,包括资管巨头贝莱德、演员杰米·福克斯和伊娃·朗格利亚。公司同时宣布年经常性收入(ARR)达到 5 亿美元——这个数字说明企业客户买单意愿强,语音 AI 作为交互界面正在落地。不过正文没披露这轮融资的具体金额、估值、各投资方持股比例,也没说客户总数。
#Audio#ElevenLabs#BlackRock#Jamie Foxx
精选理由
H 和 K 靠投资者名单和 5 亿美元 ARR 拿分。正文只有 RSS 摘要,没披露融资金额、估值、股权比例和客户数量,所以分数压在 60–71 区间。
一句话点评
贝莱德和明星入局,ARR 5 亿美元,语音 AI 落地信号强。
锐评
ElevenLabs 公布新投资人名单,资管巨头贝莱德和演员 Jamie Foxx、Eva Longoria 在列,同时宣布年经常性收入(ARR)达到 5 亿美元。这个数字说明企业客户愿意为语音 AI 付费,语音作为交互界面正在真正落地。但正文没披露本轮融资具体金额、估值、各投资方持股比例,也没说客户总数。明星投资人的品牌背书意义大于财务意义,贝莱德入场则代表机构对语音赛道长期看好。ARR 5 亿是亮点,但缺少增长曲线和利润率,无法判断是否盈利。如果是真的,语音 AI 的商业化速度比预期快。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
14:07
38d ago
TechCrunch AI· rssEN14:07 · 05·05
CopilotKit 拿了 2700 万美元,帮开发者在自家应用里塞 AI 代理
CopilotKit 完成 2700 万美元 A 轮融资,领投方是 Glilot Capital、NFX 和 SignalFire。这家公司做的是让开发者把 AI 代理直接嵌入到现有应用里,而不是只挂个聊天框。说白了,就是让模型进业务流程干活,比如在旅行 App 里帮你一次性订好机票酒店,不用再翻一堆文字回复。2700 万在 A 轮算中等偏上,但正文没...
#Agent#CopilotKit#Glilot Capital#NFX
精选理由
HKR-K通过,因为融资金额和领投方有信息增量。HKR-H和HKR-R不通过:没有产品机制、估值、客户 traction 或开发者痛点钩子。
一句话点评
2700万美元A轮,让AI代理嵌入现有应用,不只是聊天框。
锐评
CopilotKit 拿了 2700 万美元 A 轮,领投方是 Glilot Capital、NFX 和 SignalFire。它的卖点是让开发者把 AI 代理直接嵌入现有应用里干活,比如在旅行 App 里一次性订好机票酒店,而不是只挂个聊天框让你翻文字回复。2700 万在 A 轮算中等偏上,但正文没披露估值、具体客户数或产品技术细节,所以没法判断这钱花得值不值。关键看它跟 LangChain、Vercel AI SDK 这些同类工具比,到底好在哪。如果真能让模型进业务流程干活,对 SaaS 产品来说挺实用,但得等更多落地案例出来才能下结论。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R0
13:43
39d ago
r/LocalLLaMA· rssEN13:43 · 05·05
Anubis-OSS 排行榜更新:371 次提交、218 个模型、10 款苹果芯片
Anubis-OSS 排行榜更新了,目前有 371 次提交、218 个模型,还包含了 10 款苹果芯片的跑分。不过正文没披露具体指标、模型名称和测试条件,所以暂时没法判断哪个模型表现更好,或者苹果芯片在推理速度上有没有优势。信息缺口比较大,先别急着下结论。
#Benchmarking#Anubis-OSS#Apple#peppaz
精选理由
Anubis-OSS更新了排行榜分析,标题直接甩出371次提交、10款Apple芯片和218个模型,数据量看着挺唬人。但正文只有Reddit用户peppaz的链接和评论入口,没披露具体用什么指标测的、测了哪些模型、测试条件是什么。对跑分党来说,这个规模本身是个钩子,但信息不够完整,没法直接拿来用。
一句话点评
信息太少,先别信。
锐评
Anubis-OSS 排行榜更新了,号称有 371 次提交、218 个模型,还首次加入了 10 款苹果芯片的跑分。但正文被 Reddit 屏蔽,实际披露的信息只有用户 peppaz 和一个链接,具体测了什么指标、哪些模型、测试条件一概没有。这个排行榜目前就是个空壳,没法判断苹果芯片推理速度有没有优势,也没法横向对比模型。如果是真的,这个规模的社区跑分对本地部署选型很有参考价值,但信息缺口太大,先别急着引用或下结论。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R0
13:43
39d ago
r/LocalLLaMA· rssEN13:43 · 05·05
有人在低显存显卡上跑Kimi,把多余权重塞进内存,速度还行
Reddit 用户分享在 12GB Tesla T4 上跑 Kimi,剩余权重卸载到内存(CPU 是双路 24 核 Xeon Platinum + 1.5TB 内存),输出速度约 1.6 token/秒,输入约 20 token/秒。这个输出速度很慢,基本只适合跑跑测试。帖子还提到 Unsloth Q8 量化反而比 Q4 快一点,但没说明用的 Kimi...
#Inference-opt#Kimi#Tesla#Unsloth
精选理由
HKR-K 和 HKR-R 靠实测吞吐和本地推理成本压力通过。HKR-H 偏弱,且正文没交代 Kimi 版本和推理框架,信息缺口限制了评分上限,落在 60–71 区间。
一句话点评
12GB T4 跑 Kimi,输出 1.6 token/秒,比打字还慢,只适合测能不能跑。
锐评
Reddit 用户用 12GB Tesla T4 跑 Kimi,剩余权重卸载到内存(双路 24 核 Xeon + 1.5TB 内存),输出仅 1.6 token/秒,输入约 20 token/秒。这个速度基本告别实际使用,只适合验证模型能否加载。帖子还提到 Unsloth Q8 量化比 Q4 快一点,但没说明用的 Kimi 版本和推理框架,这点先别太激动。正文没披露具体模型大小和推理栈,信息缺口明显。如果是真的,Q8 比 Q4 快可能跟内存带宽瓶颈有关,但缺乏复现条件。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
13:42
39d ago
The Verge · AI· rssEN13:42 · 05·05
AI 设计的车长什么样?
The Vergecast 聊了 AI 在汽车设计中的应用。传统车型开发周期要五年以上,AI 能缩短建模和风洞测试的时间。但正文没披露具体是哪家车企、哪款车、有没有量产案例,所以这点先别太激动。
#Tools#The Verge#Vergecast#Commentary
精选理由
标题有钩子,正文也给了 5 年周期和 CAD/仿真步骤,H 和 K 过关。但没提具体厂商、模型或量产条件,R 偏弱,整体属于低阶评论档。
一句话点评
AI 能缩短汽车建模和风洞测试时间,但没点名具体车企和量产案例,先别太激动。
锐评
The Vergecast 聊了 AI 在汽车设计中的应用。传统车型开发周期要五年以上,AI 能缩短建模和风洞测试的时间。但正文没披露具体是哪家车企、哪款车、有没有量产案例,所以这点先别太激动。目前 AI 更多是辅助设计师出概念草图或做早期仿真,离真正替代工程师做碰撞安全、耐久性验证还远。如果后续有车企公布 AI 设计的零件或整车进入量产,那才是真信号。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R0
13:31
39d ago
r/LocalLLaMA· rssEN13:31 · 05·05
Strix Halo 上 Vulkan 比 ROCm 还快,AMD 官方驱动反而拖后腿
Reddit 用户实测,在 AMD Strix Halo(gfx1151)上跑 llama.cpp,Vulkan 后端生成速度 51.2 tokens/s,比 ROCm 的 42.3 tokens/s 快约 21%。机器是 Radeon 8060S、64GB 统一显存,模型是 Qwen3.6-35B-A3B Q6_K。问题出在 ROCm 对 gfx11...
#Inference-opt#Benchmarking#AMD#Qwen
精选理由
单个 Reddit 帖子,测试范围窄(仅 Strix Halo + Qwen3.6-35B-A3B),但结果意外且数字扎实,对本地推理选型有参考价值。分数卡在 60–71 是因为样本单一,且正文没披露 ROCm 慢路径的具体算子。
一句话点评
ROCm 在 Strix Halo 上被 Vulkan 反超 21%,AMD 的软件栈又拖后腿了。
锐评
Reddit 用户实测,在 AMD Strix Halo(Radeon 8060S、64GB 统一显存)上跑 llama.cpp,Vulkan 后端生成速度 51.2 tokens/s,比 ROCm 的 42.3 tokens/s 快约 21%。模型是 Qwen3.6-35B-A3B Q6_K。问题出在 ROCm 对 gfx1151 架构的部分算子走了慢路径,而 Vulkan 驱动反而更成熟。 这个差距对本地部署有意义——同样硬件,换后端就能白嫖 20% 性能。但注意这是单次基准测试,commit 号 27aef3dd9,未说明是否调优过 ROCm 的编译参数。正文没披露功耗和显存占用,也没对比推理延迟。如果 ROCm 后续更新修复了算子路径,结果可能反转。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
13:18
39d ago
TechCrunch AI· rssEN13:18 · 05·05
印度第一家生成式AI独角兽放弃自研大模型,转做云服务
Krutrim,印度第一家生成式AI独角兽,宣布从自研大模型转向云服务。背后原因是烧钱太快、产品更新慢,还裁了人。正文没披露具体裁员人数、定价和模型参数,但核心问题很直白:在印度做大模型,经济账算不过来。训练和推理成本太高,市场又不够大,撑不起一家只做模型的独角兽。转做云服务相当于把算力和工具打包卖给企业客户,变现路径更短。这点先别太激动——印度云市场...
#Krutrim#Product update#Commentary
精选理由
HKR-H和HKR-R成立:印度首个GenAI独角兽从模型野心转向云服务,是一个尖锐的商业化故事。HKR-K不成立:RSS摘要缺少裁员人数、云服务价格、模型规格和迁移时间表。
一句话点评
印度第一家生成式AI独角兽Krutrim放弃自研大模型,转做云服务。
锐评
Krutrim 从自研大模型转向云服务,核心原因是经济账算不过来。在印度训练和推理大模型成本太高,市场又不够大,撑不起一家只做模型的独角兽。转做云服务相当于把算力和工具打包卖给企业客户,变现路径更短。正文没披露具体裁员人数、定价和模型参数,但问题很直白:烧钱太快、产品更新慢。这点先别太激动——印度云市场已有AWS、Azure等巨头,Krutrim 能否差异化竞争还是未知数。如果是真的,这给其他新兴市场的大模型创业公司提了个醒:先想清楚怎么赚钱。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K0·R1
13:02
39d ago
Ben's Bites· rssEN13:02 · 05·05
Codex 开始向非技术用户铺开,Grok 4.3 API 上线且价格比 Sonnet 便宜不少
OpenAI 正在把 Codex 从编程工具变成日常办公助手,现在可以直接从 Claude Cowork 等工具导入设置、插件和项目配置,还新增了做幻灯片和表格的功能。Grok 4.3 API 正式上线,支持 100 万 token 上下文、图文输入和推理,价格是每百万输入 token 1.25 美元、输出 2.5 美元——比 Sonnet 4.6 便...
#Agent#Code#Multimodal#OpenAI
精选理由
这篇是聚合简报,信息密度不高。Codex 转向非技术用户和配置导入功能,没有给出具体发布时间、规模或实测效果,所以分数压在 60-71 区间。Grok 4.3 的定价和上下文长度是硬数字,但正文没披露推理能力的具体评测或延迟数据,验证力度偏弱。
一句话点评
Codex 开始抢办公软件饭碗,Grok 4.3 API 便宜到离谱。
锐评
OpenAI 在把 Codex 从编程工具变成日常办公助手,现在可以直接从 Claude Cowork 等工具导入设置、插件和项目配置,还新增了做幻灯片和表格的功能。这步棋挺聪明——Codex 不再只服务程序员,而是想抢 Office 套件的用户。但正文没披露具体效果如何,比如做表格的准确率、导入兼容性有没有坑,这点先别太激动。 Grok 4.3 API 正式上线,支持 100 万 token 上下文、图文输入和推理,价格是每百万输入 token 1.25 美元、输出 2.5 美元——比 Sonnet 4.6 便宜不少,性能还差不多。如果是真的挺省钱,但注意知识截止于 2025 年 12 月,时效性敏感的任务要打折。另外,API 的推理能力具体多强、图文输入是否支持多轮对话,正文没细说。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
12:38
39d ago
r/LocalLLaMA· rssEN12:38 · 05·05
本地版 Deep Research 项目大盘点:谁在认真维护,谁只是挂个名
Reddit 用户整理了一份 8 个本地深度研究项目的对比表,核心看点是提交数、贡献者、issue 和 PR 活跃度,以及搜索后端用的是谁。Local Deep Research 有 46 个贡献者,GPT Researcher 有 211 个,但人多不一定代表项目健康——正文没披露 MiroThinker 的完整细节,所以没法判断它是不是真能跑。关键...
#Agent#RAG#Tools#Reddit
精选理由
来源是单个Reddit帖子,权威性一般,而且正文没披露MiroThinker的完整信息,测试方法细节也没给,所以分数卡在71,不上featured。但内容对本地工具选型有实际参考价值,值得分发给所有用户。
一句话点评
8个本地深度研究项目横向对比,GPT Researcher 贡献者最多(211人),但人多不代表项目健康。
锐评
Reddit 用户整理了一份 8 个本地深度研究项目的对比表,核心看点是提交数、贡献者、issue 和 PR 活跃度,以及搜索后端用的是谁。Local Deep Research 有 46 个贡献者,GPT Researcher 有 211 个,但人多不一定代表项目健康——正文没披露 MiroThinker 的完整细节,所以没法判断它是不是真能跑。关键信号是维护活跃度和搜索依赖,而不是项目名字里带不带“本地”或“开源”。比如有些项目依赖 LangChain 或字节跳动的搜索 API,一旦上游变动,项目可能直接停摆。另外,issue 和 PR 的响应速度比贡献者数量更能说明问题,但原文没给具体响应时间。如果你在选工具,建议优先看最近一个月有没有 commit,以及搜索后端是不是你可控的。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
12:28
39d ago
r/LocalLLaMA· rssEN12:28 · 05·05
没显卡也能跑26B模型?Reddit用户说i5-8500+32GB内存就行
一位Reddit用户在LocalLLaMA版发帖,声称Gemma4 26B模型能在i5-8500处理器、32GB内存、无显卡的机器上本地运行。帖子还提到12B模型也能纯CPU跑。但正文没披露量化精度、每秒生成多少token、内存占用多少,也没给出可复现的设置参数。信息缺口很大,想复现的话得自己猜配置。
#Inference-opt#Gemma#Reddit#Commentary
精选理由
标题党成分重,正文没披露量化格式、tokens/s 和内存占用,所以“快”这个判断没法直接信。但“i5-8500 无 GPU 跑 26B”这个事实本身对本地推理玩家有参考价值,值得点进去看,不过别急着当结论用。
一句话点评
26B模型纯CPU跑,但没给量化精度和速度,先别太激动。
锐评
Reddit用户声称Gemma4 26B能在i5-8500、32GB内存、无显卡的机器上本地运行,还顺带提了12B也能纯CPU跑。如果属实,意味着低配电脑也能跑大模型,对本地部署是好事。但正文没披露量化精度(比如4-bit还是8-bit)、每秒生成多少token、内存占用多少,也没给出可复现的设置参数。信息缺口很大,想复现得自己猜配置。另外,i5-8500是2018年的老CPU,算力有限,即使能跑,速度大概率很慢,实用性存疑。建议等更详细的测试数据再下结论。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
12:10
39d ago
MIT 科技评论· rssEN12:10 · 05·05
马斯克诉奥特曼案开庭,AI 民主化蓝图发布
MIT 科技评论总结了马斯克诉奥特曼案第一周庭审情况,记者兼律师 Michelle Kim 在法庭现场记录了关键细节,包括马斯克声称自己被欺骗、警告 AI 可能毁灭人类,并承认 xAI 蒸馏了 OpenAI 的模型。正文未披露 OpenAI 诉讼的具体新证据。同时,文章发布了一份利用 AI 加强民主的蓝图,由 Eric Schmidt 办公室的两位负责...
#Agent#Safety#MIT Technology Review#Elon Musk
精选理由
HKR-H 和 HKR-R 通过:马斯克诉奥特曼案是 OpenAI 治理的高关注度事件,行业权力斗争天然吸引读者。HKR-K 不通过:这是一篇新闻汇总,正文未披露新证据、判决节点或可验证细节,信息增量有限,因此分数落在 60–71 区间。
一句话点评
马斯克诉奥特曼案第一周庭审细节:马斯克自称被骗、警告AI可能毁灭人类,还承认xAI蒸馏了OpenAI模型。正文没披露OpenAI诉讼的新证据。另一篇是Eric Schmidt办公室的AI民主蓝图,偏理念,缺具体案例。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
11:30
39d ago
● P1FT · 科技· rssEN11:30 · 05·05
Google、xAI与Microsoft同意接受美国AI模型国家安全审查
三家大模型公司跟美国政府达成了协议,以后发布新模型前要先过一道国家安全审查。起因是 Anthropic 最新的 Mythos 模型让官方有些紧张。不过这篇报道正文被付费墙挡住了,具体怎么审、审哪些模型、什么时候开始执行,这些关键细节都没披露。
#Safety#Google#xAI#Microsoft
精选理由
我会先打个折:正文只说了三家同意审查,起因是 Anthropic 的 Mythos 模型引发了担忧,但怎么审、审哪些模型、什么时候开始,全都没写。所以这条消息更像一个政策风向标,而不是一份可操作的合规指南。对从业者来说,知道大厂开始接这种审查就够了,具体影响还得等细节出来再判断。
一句话点评
三家大模型公司同意让美国政府在新模型发布前先做安全审查,但具体怎么查、查到什么程度,正文没披露。
锐评
Google、xAI 和微软跟美国政府谈妥了一件事:以后他们最前沿的 AI 模型在公开之前,会先交给政府做一轮国家安全审查。这相当于给模型上市加了一道“政审”环节,不再是公司自己说了算。目前只有这三家公开同意,OpenAI 和 Meta 还没表态。 不过,FT 的原文被付费墙挡住了,我们看不到审查的具体标准、流程,也不知道政府有没有权力叫停发布。从标题和已知信息判断,这更像是一个自愿性质的合作框架,而不是强制法规。对从业者来说,这意味着未来在美国发布大模型,合规成本可能会增加,发布节奏也可能变慢。 现在还缺几个关键信息:审查到底看什么(是模型能力上限、数据安全,还是输出内容风险),以及如果审查不通过,公司能不能强行发布。这些没搞清楚之前,先别急着下结论说行业要变天。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
11:16
39d ago
r/LocalLLaMA· rssEN11:16 · 05·05
Qwen3.6 聊天模板合并版:修复 8 个问题,支持开发者角色与隐藏推理
fakezeta 发布了一个合并版 Qwen3.6 聊天模板,整合了 allanchan339 和 froggeric 的 8 项修复。新模板支持开发者角色、隐藏历史推理过程,以及 JSON 工具参数解析。已在 llama-server 和 Qwen3.6 35B A3B 上测试通过。正文没披露具体修复细节和性能对比,但如果你在用 Qwen3.6 做工...
#Tools#Reasoning#Code#Qwen
精选理由
HKR-K/R通过:帖子列出了8项修复,并给出了llama-server + Qwen3.6 35B A3B的测试条件。这是LocalLLaMA社区的一个窄维护更新,所以分数保持在60–71区间。正文没披露性能对比或用户反馈,验证强度偏弱。
一句话点评
Qwen3.6 聊天模板合并版,修了 8 个 bug,支持隐藏推理和工具调用。
锐评
fakezeta 把 allanchan339 和 froggeric 的 8 项修复合并成一个 Qwen3.6 聊天模板,支持开发者角色、隐藏历史推理过程、JSON 工具参数解析。已在 llama-server 和 Qwen3.6 35B A3B 上跑通。对本地部署用户来说,隐藏推理过程能减少输出干扰,工具参数解析让模型更稳定地调用外部函数。但正文没披露具体修复了哪 8 项、修复前后效果对比,也没说是否影响推理速度或内存占用。如果你在用 Qwen3.6 做本地工具调用或角色扮演,这个模板值得试,但建议先在自己的场景里跑一遍,别直接上生产。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R1
10:07
39d ago
r/LocalLLaMA· rssEN10:07 · 05·05
双 RTX 3090 跑推理,实测功耗 760W
Reddit 用户 sdfgeoff 用智能插座实测,双 RTX 3090 推理整机功耗约 760W,待机 90W,没做任何功耗限制或调优。760W 意味着电费不低,长期跑推理的话,单卡或降频能省不少钱。正文没披露具体模型和推理负载,所以这个数字只能当上限参考。
#Inference-opt#Reddit#sdfgeoff#NVIDIA
精选理由
这是一条 Reddit 用户的单机实测,不是产品发布或大规模评测。760W 负载和 90W 空闲两个数字对本地跑推理的人有用,但样本只有一台机器,没有调功耗墙或做优化,所以分数落在 60–71 区间。
一句话点评
双3090跑推理整机760W,待机90W,没调功耗,电费不低。
锐评
Reddit用户sdfgeoff用智能插座实测,双RTX 3090推理整机功耗约760W,待机90W,没做任何功耗限制或调优。760W意味着电费不低——按国内0.6元/度算,连续跑一天约11元,一个月330元。长期跑推理的话,单卡或降频能省不少钱。但正文没披露具体模型和推理负载(比如是跑70B还是7B模型、连续生成还是间歇请求),所以这个数字只能当上限参考。实际功耗可能更低,尤其是用vLLM等框架做批处理时。另外,没测峰值功耗和瞬时波动,对电源选型也有影响。如果是个人玩家组双卡机,建议先做功耗限制,能省30%以上电费。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
10:00
39d ago
● P1OpenAI 博客· rssEN10:00 · 05·05
OpenAI发布GPT-5.5 Instant作为ChatGPT新默认模型
OpenAI 把免费用户和默认聊天用的模型升级到了 GPT-5.5 Instant。官方说这次更新主要干了三件事:回答更靠谱、更简洁,并且更能利用你之前聊过的上下文来贴合你的偏好。内部测试里,在医疗、法律、金融这类高风险问题上,GPT-5.5 Instant 比上一代 GPT-5.3 Instant 的幻觉内容少了 52.5%;在用户举报过的事实错误对...
#Reasoning#Alignment#Memory#OpenAI
精选理由
HKR 三项全中:OpenAI 把 ChatGPT 默认模型切到了 GPT-5.5 Instant,说答案更准、幻觉更少、个性化控制更好,但没给任何评测数字、价格或上下文窗口,我会先打个折。这点先别太激动,等看到实测再判断。
一句话点评
OpenAI把ChatGPT默认模型换成了GPT-5.5 Instant,主要提升是回答更准、更简洁,幻觉少了52.5%,但官方没给独立评测和延迟数据。
锐评
这次更新最实在的数字是:在高风险领域(医疗、法律、金融)的幻觉率比上一代降了52.5%,在用户标记过的刁钻问题上错误也少了37.3%。OpenAI还放了个代数题的例子,展示新模型能自己发现推导错误并纠正,而不是像旧版那样直接判“无解”。这点挺直观,说明模型在推理时多了一层自我检查。 不过得打个折:这些全是内部评测,没有第三方基准或外部验证。文章也没提推理速度和成本变化,对开发者来说这两项跟准确率一样重要。另外,“更简洁”和“更个性化”目前只有定性描述,没给出具体指标,比如回复长度缩短了多少、用户满意度提升了多少。 如果是真的,免费用户和付费用户都能直接用上,覆盖面够大。但想判断它是不是日常干活更顺手了,还得等实际用一阵子,看看在长对话和复杂任务里会不会翻车。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
09:48
39d ago
r/LocalLLaMA· rssEN09:48 · 05·05
两台 Spark 跑本地编程,120K 上下文
Reddit 用户 chikengunya 在考虑买两台 Spark(可能是某种推理卡或服务器)来跑 MiniMax M2.7,目标是本地编程场景,上下文窗口拉到 120K 左右。他现在用的是 4 张 RTX 3090,共 96GB 显存,实测 Qwen3.5-122B-A10B AWQ 模型能撑到 200K 上下文。他估算如果上 256GB 显存,在...
#Code#Inference-opt#MiniMax#Qwen
精选理由
这是一条 Reddit 用户的硬件选购权衡,不是模型发布或可复现的基准测试。MiniMax M2.7 在 HTML/JS/Python 上的编程胜率正文没披露,所以分数卡在 60–71 的 all 区间。
一句话点评
本地跑120K上下文,256GB显存才15 tok/s,性价比存疑。
锐评
Reddit用户想买两块Spark推理卡跑MiniMax M2.7,目标本地编程场景120K上下文。他现有4张RTX 3090共96GB显存,实测Qwen3.5-122B-A10B AWQ能撑到200K上下文。估算256GB显存下100K上下文速度仅15 tok/s——这个速度写代码会明显卡顿,远不如云端API流畅。正文没披露MiniMax M2.7在编程任务上的具体基准测试,也没说明Spark卡的价格和功耗。如果Spark单卡显存远高于3090,那256GB方案确实能跑更大模型,但15 tok/s的延迟对编程助手来说体验打折。建议等Spark的实测数据出来再决定,目前看性价比不如加几张3090。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R1
08:51
39d ago
r/LocalLLaMA· rssEN08:51 · 05·05
RTX 3090 跑 Qwen3.6 35B 太慢,27B 还经常崩代码,求优化方案
一位用户在 RTX 3090 24GB 上本地跑 Qwen3.6 的 35B 和 27B 模型,35B 输出很慢,27B 代码生成也不稳定,有时一个任务要等 20–30 分钟。配置是 64GB 内存、Ryzen 5700X、Windows 11。他在问该用什么量化、设多少上下文、怎么提升吞吐,以及能不能自动切换模型来省时间。正文没披露具体量化等级或推理...
#Code#Agent#Inference-opt#Qwen
精选理由
HKR 的 K 和 R 靠具体硬件和延迟数据通过,但 H 不通过——这就是个 Reddit 上的常规排障帖。没有发布、没有基准测试协议、没有可迁移的结论,所以留在低价值区间。正文没披露作者最终用了什么量化方案或切换策略,信息缺口明显。
一句话点评
3090跑35B模型慢是正常的,27B代码不稳定可能是量化或上下文设置问题。
锐评
用户用RTX 3090 24GB跑Qwen3.6 35B,输出慢是显存瓶颈——35B模型即使4bit量化也需要约20GB,剩余显存不够处理长上下文,导致推理延迟高。27B代码生成不稳定,一个任务等20-30分钟,说明要么量化等级太低(如Q4_K_M仍超显存),要么上下文窗口设太大(如32K),触发CPU offloading拖慢速度。正文没披露具体量化等级、上下文长度或推理框架(如llama.cpp、ExLlama),这些是诊断关键。用户问的自动模型切换(简单任务用27B、复杂用35B)思路可行,但需要路由逻辑和量化配置配合。如果换成Q4_K_M + 8K上下文,27B在3090上应该能跑到10-15 tok/s,代码生成不会这么慢。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K1·R1
08:15
39d ago
r/LocalLLaMA· rssEN08:15 · 05·05
三台 Mac Mini 训小模型做 64 字摘要,GRPO 跑起来了
有人在 Reddit 分享用 3 台 Mac Mini 训小模型(LFM2.5-350M 和 Qwen2.5-0.5B)做 Reddit 帖子摘要,要求输出严格控制在 64 个 token。训练方法用了 GRPO(一种强化学习式的偏好优化),工具链是 MLX、vLLM-metal 和 SyncPS。评估用了 GPT-5 打分(忠实度、覆盖度、简洁度、清...
#Fine-tuning#Benchmarking#Inference-opt#Qwen
精选理由
HKR 三项都过:钩子具体(3 台 Mac Mini 训小模型做精确 64 token 摘要),知识够(模型、GRPO、MLX/vLLM-metal、GPT-5 DeepEval 指标),相关性有(本地训练成本和小模型实用性)。但缺完整分数和成本数据,分数卡在 60–71 区间,不推首页。
一句话点评
3台Mac Mini训小模型做摘要,成本低但效果存疑。
锐评
有人在3台Mac Mini上训350M和0.5B的小模型做Reddit帖子摘要,要求输出严格控制在64个token。方法用了GRPO(一种强化学习式的偏好优化),工具链是MLX、vLLM-metal和SyncPS。评估用GPT-5打分(忠实度、覆盖度、简洁度、清晰度),但BLEU和ROUGE-L从零开始训练时很低。 值得注意的点:硬件门槛极低,3台Mac Mini就能跑,对个人开发者友好。但正文没披露完整分数和具体成本,只说“从零开始训练时BLEU和ROUGE-L很低”,这点先别太激动。如果是真的,这种低成本训小模型做特定任务(如严格长度控制的摘要)挺省钱,但效果是否实用还缺验证。 信息缺口:没给最终分数对比,没说明训练耗时和电费,也没和微调后的基线比。建议等后续更新再判断是否值得复现。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
07:34
39d ago
Hacker News 首页· rssEN07:34 · 05·05
Google Chrome 未经同意静默下载 4GB AI 模型
That Privacy Guy 爆料,Chrome 会在用户不知情的情况下,往设备里写入一个约 4GB 的 Gemini Nano 模型文件(weights.bin),存在 OptGuideOnDeviceModel 目录下。用户手动删除后,Chrome 还会自动重新下载。文章认为这违反了欧盟 ePrivacy 指令和 GDPR,并估算以 Chrom...
#Inference-opt#Google#Google Chrome#That Privacy Guy
精选理由
HKR-H/R 通过:声称 Chrome 静默安装 4GB AI 模型,隐私钩子够强。HKR-K 弱:没给模型名、Chrome 版本、复现路径,所以分数压在 60–71。
一句话点评
Chrome 偷偷下了个4GB的AI模型,删了还会自动重下。
锐评
That Privacy Guy 爆料 Chrome 在用户不知情时写入约 4GB 的 Gemini Nano 模型文件(weights.bin),存在 OptGuideOnDeviceModel 目录下。手动删除后 Chrome 还会自动重新下载。文章估算以 Chrome 十亿级装机量,单次推送的碳排放约 6000 到 60000 吨 CO₂,并认为这违反了欧盟 ePrivacy 指令和 GDPR。不过正文没披露触发条件、Chrome 版本号或复现步骤,也没说明模型是否已启用或仅下载。这点先别太激动——是静默下载还是静默运行,差别很大。如果只是预下载但未激活,合规风险比实际运行要低一档。另外作者是隐私律师,立场偏监管,环境成本估算基于“全部设备同时下载”的极端假设,实际可能低一个数量级。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
06:48
39d ago
AI 群聊日报· atomZH06:48 · 05·05
AI 写代码的防御性假设被拆,群友回归“所有代码都看”模式
群聊日报核心讨论:AI 写代码时总爱拆掉程序员代码里的防御性假设(比如“运行到某处时数据结构必然满足某些 pattern”),而这些假设很难用文档写清楚。群友“地球首帅鸭哥”和“低调的鲸鱼”都表示,AI 写代码速度极快,但不 review 的话“三天必坏”,所以回归了“所有代码都看”的模式。另一个亮点是“今天群内信息量极大”分享的写作工作流:用 Dee...
#Code#Agent#Fine-tuning#DeepSeek
精选理由
HKR-K/R 通过:Guide Me 覆盖范围具体,代码审查的假设问题有实操共鸣。HKR-H 不通过:这就是个群聊日报汇总,没有发布、独家测试或可复现的基准。
一句话点评
AI写代码快但三天不review就崩,防御性假设是文档写不出的隐性知识。
锐评
核心矛盾:AI写代码极快,但会拆掉程序员代码里那些“运行到这儿数据结构一定长这样”的防御性假设——这些假设根本写不进文档,属于taste。群友实测,不review“三天必坏”,所以回归“所有代码都看”的模式。另一个亮点是“今天群内信息量极大”的写作工作流:Claude/Codex负责调研和框架,DeepSeek Flash只做语言组织,每天成本十几二十块,效果是“没有AI味”。他还用sub-agent并发做了Guide Me城市导览,覆盖北京60个景点,但切到GLM后翻译腔变重、偶发幻觉。Codex用量重置让群友惊喜,GLM涨价150%且加周血条。缺的是:防御性假设有没有系统化检测或补偿方案?正文没披露。DeepSeek Flash做写作的prompt细节和幻觉率也没展开。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R1
06:36
39d ago
彭博科技· rssEN06:36 · 05·05
Alphabet 重返欧元债市,发六期债券最长 37 年,为 AI 基建借钱
Alphabet 又回欧洲发债了,这次是六期欧元债,期限最长到 37 年。正文没披露具体发行规模和票息,但说 Alphabet 需要大量借钱,而且正在拓宽融资渠道。对 AI 从业者来说,这条新闻的信号是:大厂为 AI 基础设施(数据中心、芯片、能源)的资本开支还在加码,连 Alphabet 这种现金牛都要靠长期债来补血。37 年的超长债说明它赌的是 A...
#Alphabet#Funding
精选理由
彭博信源权威,HKR 三项都过,但正文缺发行规模、期限和票息。这是 AI 资本开支的融资信号,不是模型、产品或政策变化,所以 60–71 合理。
一句话点评
Alphabet 发 37 年超长债给 AI 基建补血,现金牛也要借钱了。
锐评
Alphabet 重返欧洲债市,发行六期欧元债,最长 37 年。正文没披露具体规模和票息,但信号明确:大厂为 AI 基础设施(数据中心、芯片、能源)的资本开支还在加码,连 Alphabet 这种现金牛都要靠长期债来补血。37 年的超长债说明它赌的是 AI 长期回报,短期现金流可能吃紧。对 AI 从业者来说,这条新闻的实质是:融资成本在上升,大厂也在找便宜钱。但缺少关键数字——发行规模、票息、认购倍数,无法判断市场对 Alphabet 信用的真实定价。如果是真的低息长期债,那 Alphabet 的 AI 基建成本确实有优势。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
05:54
39d ago
r/LocalLLaMA· rssEN05:54 · 05·05
用1000条样本微调Gemma4-4B,做了一个语音版井字棋
Reddit用户dabiggmoe2开源了一个语音控制的井字棋项目,整个流程包括语音识别、小模型意图解析、工具调用和语音合成。核心是用大约1000条样本微调了Gemma4-4B,样本量很小,成本应该不高。但正文没披露评测数据、延迟或错误率,所以实际效果和响应速度都不清楚,这点先别太激动。
#Audio#Fine-tuning#Tools#Gemma
精选理由
HKR-K/R通过:帖子给出了具体的本地语音助手流程和约1000条样本。HKR-H不通过:井字棋是玩具级项目,且正文未披露延迟、错误率和评测集。
一句话点评
用1000条样本微调Gemma4-4B做语音井字棋,成本低但效果未知。
锐评
Reddit用户dabiggmoe2开源了一个语音控制的井字棋项目,整个流程包括语音识别、小模型意图解析、工具调用和语音合成。核心是用大约1000条样本微调了Gemma4-4B,样本量很小,成本应该不高。但正文没披露评测数据、延迟或错误率,所以实际效果和响应速度都不清楚,这点先别太激动。如果是真的,这种端到端语音交互的轻量方案挺省钱,适合做原型验证。不过缺少对比基线(比如直接用大模型做意图解析的延迟和准确率),也没说语音识别和合成用的什么模型,信息缺口比较大。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R1
05:51
39d ago
r/LocalLLaMA· rssEN05:51 · 05·05
llama.cpp 要支持 MTP 了,这 7 个模型已经能用
Reddit 用户 segmond 列了 7 个支持 MTP(多 token 预测,即模型一次预测多个 token 而非逐个生成,能提速)的模型家族:DeepSeekv3 原版、DeepSeekv3.2/4、Qwen3.5、GLM4.5+、MiniMax2.5+、Step3.5Flash 和 Mimo v2+。llama.cpp 正在准备合并 MTP ...
#Inference-opt#DeepSeek#Qwen#MiniMax
精选理由
HKR 三项都过,但来源是 Reddit 用户整理的清单,没有 llama.cpp 合并日期、PR 进展或速度数据。属于有用的开源生态更新,给 68 分合理。
一句话点评
llama.cpp 要合并 MTP 了,7 个模型家族已支持,本地推理能快不少。
锐评
MTP(多 token 预测)让模型一次预测多个 token 而非逐个生成,推理速度能提升 2-3 倍。Reddit 用户 segmond 列了 7 个支持 MTP 的模型家族:DeepSeekv3 原版、DeepSeekv3.2/4、Qwen3.5、GLM4.5+、MiniMax2.5+、Step3.5Flash 和 Mimo v2+。llama.cpp 正在准备合并 MTP 支持,但正文没披露合并日期,也没说哪些 GGUF 转换工具已就绪。用户需要自己把 HuggingFace 权重转成 GGUF 格式,对非技术用户门槛不低。如果是真的,本地跑大模型能省一半等待时间,但实际加速效果取决于模型和硬件,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
05:24
39d ago
r/LocalLLaMA· rssEN05:24 · 05·05
美国 GUARD 法案要求 AI 聊天机器人做年龄验证,本地模型团队可能也要留意
美国 GUARD 法案已进入参议院审议,要求 AI 聊天机器人必须加年龄验证和披露信息。Reddit 帖子认为这本质上是儿童安全掩护,但正文没披露验证方式、覆盖哪些模型、以及违规罚则。本地模型团队需要关注合规要求是否会延伸到开源权重或自部署场景。
#Safety#US Senate#Reddit#LocalLLaMA
精选理由
HKR三项全过:法案把年龄验证塞进AI聊天机器人,直接戳隐私和自托管神经。来源是Reddit帖子摘要;验证方式、覆盖哪些系统、罚则都没披露,所以不上精选。
一句话点评
美国GUARD法案要求AI聊天机器人加年龄验证,但正文没披露验证方式和罚则。
锐评
美国GUARD法案已进参议院审议,要求AI聊天机器人必须加年龄验证和披露信息。Reddit帖子认为这是儿童安全掩护,但正文没披露验证方式(比如是扫身份证还是自拍)、覆盖哪些模型(API还是开源权重也算)、以及违规罚则。本地模型团队需要关注:如果合规要求延伸到开源权重或自部署场景,那自建聊天机器人也得加年龄门禁,成本可能不低。目前信息缺口大,法案具体条款、生效时间、豁免范围都未知,先别急着调整部署策略。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
05:11
39d ago
● P1新智元 · 公众号· rssZH05:11 · 05·05
OpenAI总裁Brockman庭审承认零现金获近300亿美元股权
Greg Brockman 在法庭上承认,他获得 OpenAI 营利性子公司的股权时,自己没出任何现金。这部分股权现在价值超过 200 亿美元,接近 300 亿美元。听证会还挖出他和 Sam Altman 都持有芯片公司 Cerebras 的股份,而 OpenAI 先给了 Cerebras 一份 100 亿美元的订单,后来又追加到 200 亿美元,中间...
#Safety#Alignment#OpenAI#Greg Brockman
精选理由
我会先打个折:信息来自单一庭审爆料,标题带点煽风点火的味道,但核心事实够硬——没投现金却拿天价股权、高管同时持有供应商股份、订单金额从100亿翻到200亿,这些数字把OpenAI非营利转营利的合规问题钉得很死。正文没披露交叉持股的具体比例和贷款条件,但现有信息已经足够让从业者重新审视这家公司的治理结构。
一句话点评
OpenAI总裁在法庭上承认,自己没掏一分钱就拿到了价值近300亿美元的股权,马斯克的律师正逼他退回来。
锐评
这条新闻最扎眼的地方是“零现金换近300亿美元股权”。OpenAI总裁Brockman在庭审中亲口确认,他个人没出钱就获得了这笔股份,目前估值约290亿到300亿美元。马斯克那边的律师抓住这点猛打,要求他把股权退还给公司。 先别急着下结论说这就是“认罪”。庭审证词只是确认了出资事实——Brockman确实没拿现金换股,但这在初创公司里不算罕见,早期核心成员常以技术、劳务或创始身份拿到股份。关键争议在于,OpenAI从非营利转向营利的过程中,这种安排是否违反了当初对捐赠者和公众的承诺。 目前报道没披露Brockman具体用什么贡献换的股权,也没说清楚这300亿估值是按哪轮融资算的。庭审还在进行,马斯克一方能不能真把股权要回来,还得看后续法官怎么认定公司性质转变的合法性。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
04:56
39d ago
r/LocalLLaMA· rssEN04:56 · 05·05
Qwen 3.6 27B 超 10 万 token 后开始循环输出
Reddit 用户报告,Qwen 3.6 27B 在上下文超过 10 万 token 后出现输出循环。配置是 Q8 GGUF 量化、llama-server 设置 -c 200000、三块 CUDA 显卡,跑编码/文档/测试任务。帖子没透露具体 prompt 和采样参数,所以循环是模型本身的问题还是设置不当,目前没法判断。
#Code#Inference-opt#Memory#Qwen
精选理由
一个Reddit用户报告Qwen 3.6 27B在超过10万token上下文后开始循环重复,配置是Q8 GGUF量化、llama-server上下文窗口开到20万、3张CUDA卡,任务涉及编码、文档和测试。这个信息对本地部署长上下文模型的人是个具体警告,但正文没披露复现用的提示词和采样参数,也没说有没有其他人复现成功,所以可信度有限。分数卡在60-71区间,因为信息具体但来源单一、验证不足。
一句话点评
Qwen 3.6 27B 超 10 万 token 后输出循环,但没给 prompt 和采样参数,先别急着下结论。
锐评
Reddit 用户报告 Qwen 3.6 27B(Q8 GGUF 量化,llama-server 设 20 万上下文,三卡 CUDA)在上下文超过 10 万 token 后出现输出循环,跑的是编码/文档/测试任务。关键问题是:帖子没披露具体 prompt 和采样参数(如 temperature、top_p、repeat_penalty),所以循环是模型本身的注意力退化,还是采样设置不当(比如重复惩罚过低或温度过高),目前没法判断。如果是模型问题,那 10 万 token 这个阈值对本地部署的 27B 量化版来说不算高——Gemma 2 27B 在类似长度下也有过循环报告。但量化(Q8)和长上下文本身就会放大采样敏感度,一个保守的 repeat_penalty 可能就解决了。正文没给复现步骤,也没说是否换了采样参数试过。建议先调高 repeat_penalty 到 1.1-1.2 再测,如果还循环,那才值得怀疑模型的长上下文稳定性。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
04:47
39d ago
r/LocalLLaMA· rssEN04:47 · 05·05
Peanut 文生图模型即将开源,自称跑赢 FLUX.2 dev
Reddit 用户发帖称 Peanut 文生图模型即将开放权重,在 Artificial Analysis 文生图竞技场排第 8,自称超过 Z-Image Turbo、Qwen-Image 和 FLUX.2 [dev]。但帖子没提模型大小、许可证、具体发布日期,也没给 benchmark 细节。目前 Reddit 页面被墙,正文看不到更多信息。结论:有...
#Multimodal#Vision#Peanut#Artificial Analysis
精选理由
正文只说了排名和即将开源,没披露参数规模、许可证、发布日期和评测细项,信息缺口太大,不值得上 featured。
一句话点评
Peanut 文生图模型即将开源,在 Artificial Analysis 竞技场排第 8,自称超过 FLUX.2 [dev] 和 Qwen-Image。
锐评
Reddit 帖子称 Peanut 在 Artificial Analysis 文生图竞技场排第 8,超过 Z-Image Turbo、Qwen-Image 和 FLUX.2 [dev],且即将开放权重。但帖子正文被墙,看不到任何模型大小、许可证、具体发布日期或 benchmark 细节。排名第 8 说明它有一定竞争力,但没披露参数量或推理成本,无法判断是否适合本地部署。如果真能超过 FLUX.2 [dev] 且权重开放,对开源社区是好事,但这点先别太激动——竞技场排名受投票偏好影响,且缺乏独立复现验证。缺的信息太多:训练数据、许可证(商用?)、硬件需求、生成速度。建议等权重放出后实测再下结论。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
04:36
39d ago
Hacker News 首页· rssEN04:36 · 05·05
英国《在线安全法》年龄验证被破解:画个假胡子就能过
一项调查显示,46%的英国青少年认为当前年龄验证很容易绕过,近三分之一承认成功绕过。最离谱的例子是,有人画个假胡子就骗过了年龄检测软件。正文没披露具体用了哪种验证方式(人脸?动作活体?)、涉及哪些平台、样本量多大,以及Ofcom是否已启动执法。结论很直接:如果验证手段连画胡子都防不住,那《在线安全法》对未成年人的保护基本等于没有。
#Vision#Safety#The Register#Hacker News
精选理由
H和R两条都够,但K不达标:只有标题级判断,没有平台、模型或测试数量。话题有讨论价值,但证据太弱,所以留在all层级。
一句话点评
画个假胡子就能绕过年龄验证,46%的英国青少年觉得太容易。
锐评
The Register 的调查显示,46% 的英国青少年认为当前年龄验证很容易绕过,近三分之一承认成功绕过,最离谱的例子是画个假胡子就骗过了检测软件。这说明《在线安全法》要求的年龄门禁形同虚设。但正文没披露具体用了哪种验证方式(人脸?动作活体?)、涉及哪些平台、样本量多大,以及 Ofcom 是否已启动执法。如果验证手段连画胡子都防不住,那法律对未成年人的保护基本等于没有。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
04:14
39d ago
Product Hunt · AI· rssEN04:14 · 05·05
Unity 把 AI 助手直接塞进编辑器了
Unity 在 Product Hunt 上发布了 Unity AI,一个面向 Unity 6+ 的测试版套件,把 AI 代理直接集成到编辑器里。它包含三个部分:一个能感知当前项目的助手、一个用来接第三方 AI 代理的网关(AI Gateway),以及一个官方的 MCP 服务器,用来打通 Unity 和 IDE 以及外部工具。正文没披露具体支持多少个代...
#Agent#Unity#Product Hunt#Product update
精选理由
H 靠 Unity 工作流 agents 这个钩子能吸引游戏开发者,但 K 缺任务、定价、数量、上线时间,R 没有成本或安全信息,所以只是个低价值的 Product Hunt 产品列表。
一句话点评
Unity 把 AI 代理直接塞进编辑器了,目前是测试版,免费。
锐评
Unity 在 Product Hunt 上发布了 Unity AI 测试版套件,面向 Unity 6+。核心是把 AI 代理直接集成到编辑器里,包含三个组件:一个能感知当前项目的助手(类似 Copilot,但懂你的场景和资源)、一个 AI Gateway(用来接第三方 AI 代理,相当于一个统一入口),以及一个官方的 MCP 服务器(打通 Unity 和 IDE 及外部工具)。 关键信息:这是测试版,免费,但正文没披露具体支持多少个代理、能完成哪些任务(比如自动生成代码、调材质还是做动画),也没说正式版什么时候出、怎么收费。如果是真的,对独立开发者和小团队挺省钱——不用自己搭 agent workflow 了。 但这点先别太激动:Product Hunt 上的发布偏营销,实际效果要看上手评测。目前缺 benchmark 和延迟数据,MCP 服务器的稳定性也没提。建议等 Unity 官方博客或实测视频出来再判断。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R0
04:09
39d ago
Hacker News 首页· rssEN04:09 · 05·05
手把手教你从零训练自己的大模型
这个GitHub项目号称能让你从零开始训练自己的大模型,目前在HN上拿了20分,只有1条评论。正文没披露模型参数量、用了什么数据集、训练花了多少钱,也没说能不能复现。所以这点先别太激动——更像一个学习框架的骨架,不是可以直接跑出结果的教程。如果你只是想理解训练流程的大致步骤,可以看看;真要动手训一个能用的模型,信息缺口还很大。
#Fine-tuning#Code#GitHub#Hacker News
精选理由
这个 GitHub 项目标题很诱人,但 RSS 正文几乎没给任何关键信息:模型多大、用什么数据、训练要花多少钱、能不能复现,全都没说。HN 上才 20 分,验证很弱。建议当个低信息量的开源教程线索处理,不推荐上首页。
一句话点评
一个从零训LLM的GitHub项目,但信息缺口太大,先别激动。
锐评
这个项目在HN上拿了20分,只有1条评论,热度很低。标题说“从零训练自己的大模型”,但正文没披露模型参数量、用了什么数据集、训练花了多少钱,也没说能不能复现。所以这点先别太激动——更像一个学习框架的骨架,不是可以直接跑出结果的教程。如果你只是想理解训练流程的大致步骤,可以看看;真要动手训一个能用的模型,信息缺口还很大。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
03:59
39d ago
● P1机器之心 · 公众号· rssZH03:59 · 05·05
xAI的55万块英伟达GPU利用率仅11%
The Information 的报道说,xAI 手里大概 55 万张英伟达 GPU,但模型浮点运算利用率(MFU)只有 11%,折算下来相当于真正在干活的卡就 6 万张左右。文章把锅甩给了 HBM 显存读写、服务器之间通信、训练时空等和软件栈不统一这几个问题。作为对比,Meta 的利用率是 43%,Google 是 46%。不过原文因为微信环境验证失...
#Inference-opt#Agent#xAI#Nvidia
精选理由
这篇不是模型发布或产品更新,是实打实的基础设施效率爆料。55万卡对11%利用率这个对比本身就够抓人,再加上Meta和Google的43%、46%做参照,信息密度高。我会先打个折:正文没披露xAI具体怎么算的MFU,也没说这个11%是瞬时值还是长期均值,但瓶颈拆解(HBM、跨节点通信、软件栈)让文章站得住脚,所以给到82分。
一句话点评
xAI 55 万块 H100 集群,实际干活的比例只有 11%,相当于花大钱建了个超级电厂,结果大部分时间在空转。
锐评
这条消息最值得关注的点不是马斯克“摸鱼”,而是 55 万块 GPU 只跑出 11% 的利用率,说明超大规模集群的工程调度和故障恢复远比想象中难。11% 这个数字来自一篇未公开全文的微信文章,正文被环境验证挡住,看不到原始出处和统计口径——是瞬时利用率还是月均?算的是训练、推理还是包含闲置待命?这些都没披露。如果 11% 是常态,那意味着绝大多数算力在等待数据、等待 checkpoint 同步,或者卡在硬件故障上。对从业者来说,这比“囤卡”本身更值得追问:当集群大到一定程度,网络、存储、散热和调度系统的瓶颈会让边际收益急剧下降。目前信息缺口很大,先别急着下结论,等看到具体技术报告再判断是工程问题还是统计花招。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
03:59
39d ago
● P1机器之心 · 公众号· rssZH03:59 · 05·05
Anthropic 联创预测:2028 年底前 AI 自己搞研发的概率超六成
Anthropic 联合创始人 Jack Clark 给了个时间点:到 2028 年底,AI 脱离人类独立做研发的概率超过 60%。他拿几个基准测试当证据——Claude Mythos Preview 在软件工程测试 SWE-Bench 上跑到 93.9%,Opus 4.5 在评估 AI 复现研究能力的 CORE-Bench 上拿到 95.5%。Cla...
#Agent#Code#Benchmarking#Anthropic
精选理由
我会先打个折:标题里的“自我进化”和“没有人类了”是媒体写法,Clark 原文说的是无人类参与的 AI 研发概率,不是奇点降临。但他作为联创,拿内部模型跑出来的基准分来押 2028 这个时间点,分量不一样。SWE-Bench 93.9% 说明代码修 bug 这类短任务已经很高,CORE-Bench 95.5% 测的是复现论文的工程能力,真正该盯的是 MLE-Bench 和 PostTrainBench——这两个才碰得到长周期、需要自己调参和做后训练的任务,目前正文没给具体分数,这点先别太激动。整体看,他是在用基准曲线推 timeline,不是纯拍脑...
一句话点评
Jack Clark 给了个 2028 年 AI 独立研发的预测,但正文被微信验证页挡住了,关键证据和上下文都看不到,先打个折。
锐评
Anthropic 联合创始人 Jack Clark 放了个时间点:到 2028 年底,AI 脱离人类独立做研发的概率超过 60%。他拿几个基准测试当证据——Claude Mythos Preview 在软件工程测试 SWE-Bench 上跑到 93.9%,Opus 4.5 在评估 AI 复现研究能力的 CORE-Bench 上拿到 95.5%。这些数字确实高,说明模型在写代码和复现实验这类长链条任务上越来越能打。 但问题在于,正文被微信的验证页面挡住了,我们看不到 Clark 具体怎么从这些基准分数推到 60% 这个概率的。SWE-Bench 和 CORE-Bench 测的是特定任务,离真正的独立研发——自己提假设、设计实验、迭代试错——还有多远,正文没披露。另外,Clark 强调信号来自任务时长和后训练能力,而不是什么奇点叙事,这点倒是务实,但具体怎么定义“独立研发”也没说清楚。 还缺几样东西:Clark 这个预测是正式论文里的结论还是随口一说?有没有同行评审或外部验证?60% 这个数字是怎么算出来的,还是纯主观判断?这些信息缺口不补上,这条新闻就只能当个观点看,别急着当趋势。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
03:31
39d ago
TechCrunch AI· rssEN03:31 · 05·05
黄仁勋:AI 在创造大量岗位,但没说具体数字
Nvidia CEO 黄仁勋回应了工人对 AI 取代岗位的担忧,他认为 AI 正在创造大量就业,说失业论被夸大了。但正文没披露创造了多少岗位、在哪些行业、通过什么机制。这点先别太激动,目前只有一句表态,没有数据支撑。
#Nvidia#Jensen Huang#Commentary
精选理由
H和R两条都成立:标题的冲突感能吸引人点开,话题本身也戳中从业者的焦虑。但K不成立——全文只有黄仁勋的一句表态,没有岗位数量、行业分布或论证机制,信息缺口太大。名人评论有讨论价值,但本质上是泛泛的行业报道。
一句话点评
黄仁勋说AI在创造大量就业,但全文只有一句表态,没给任何数字或行业。
锐评
黄仁勋在TechCrunch采访里说AI正在创造大量就业,失业论被夸大了。但正文只给了这一句表态,没披露创造了多少岗位、在哪些行业、通过什么机制。来源是Nvidia CEO本人,立场明显——他卖AI芯片,当然说好话。目前没有第三方数据或案例支撑,这点先别太激动。如果真想追踪AI就业影响,可以看劳工统计局或LinkedIn的岗位数据,而不是CEO的公关发言。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
02:58
39d ago
Product Hunt · AI· rssEN02:58 · 05·05
Nylas CLI:给AI代理配一个真的邮箱和日历
Nylas 发布了一个命令行工具,让AI代理能直接读写真实的邮箱、日历和联系人,支持 Gmail、Outlook、Exchange、Yahoo、iCloud 和 IMAP,一次认证就能打通250多家服务商。说白了就是给AI配了个“外挂资料库”,让它能收发邮件、查日程、看通讯录,而不是只能靠训练数据里的静态信息。产品页说5分钟就能集成,但没披露API怎么...
#Agent#Tools#Nylas#Product update
精选理由
HKR 的 K 和 R 通过,但信息止步于能力列表;接口机制、定价、权限模型和发布时间正文都没披露。
一句话点评
Nylas 给 AI 代理做了个命令行工具,让它能直接读写真实邮箱、日历和联系人,支持 Gmail、Outlook 等 250 多家服务商,一次认证搞定。相当于给 AI 配了个“外挂资料库”,不再只靠训练数据里的静态信息。产品页说 5 分钟集成,但没披露 API 怎么调用、定价和发布时间。如果是真的,省去自己对接各家邮件服务的麻烦,挺省钱。但注意,这只是个 CLI 工具,不是完整的 agen...
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R1
00:30
39d ago
r/LocalLLaMA· rssEN00:30 · 05·05
vLLM 修好了 Qwen 3.5 的 TurboQuant 量化支持
vLLM 合并了 PR 39931,修复了 Qwen 3.5+ 在 TurboQuant 量化下的报错。问题出在 Mamba 层,之前会直接抛 Not Implemented 错误。正文没披露修复后的推理速度、显存占用或精度损失,也没说测试环境。如果你在用 Qwen 3.5 跑量化推理,这个补丁能让你跑起来,但效果好不好还得自己测。
#Inference-opt#vLLM#Qwen#TurboQuant
精选理由
这是一个窄但有用的 vLLM 兼容性修复,HKR 中 K 和 R 成立。正文没披露性能数据、发布版本或测试结果,所以只能归为小型开源更新。
一句话点评
vLLM 修了 Qwen 3.5 量化报错,但没给性能数据,别急着上生产。
锐评
vLLM 合并了 PR 39931,修复 Qwen 3.5+ 在 TurboQuant 量化下的 Not Implemented 报错,问题出在 Mamba 层。这对跑量化推理的用户是好事,但正文没披露修复后的推理速度、显存占用或精度损失,也没说测试环境。如果你在用 Qwen 3.5 跑量化,这个补丁能让你跑起来,但效果好不好还得自己测。缺的是基准测试和对比数据,比如跟 FP16 比延迟差多少、显存省了多少。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R1
00:09
39d ago
Hacker News 首页· rssEN00:09 · 05·05
Y Combinator 持有 OpenAI 0.6% 股份,价值超 50 亿美元
John Gruber 挖出一个细节:Y Combinator 持有 OpenAI 约 0.6% 的股份,按 OpenAI 当前 8520 亿美元估值算,价值超过 50 亿美元。关键问题是,Sam Altman 曾是 YC 总裁,后来成为 OpenAI 的 CEO,而 YC 的联合创始人 Paul Graham 在《纽约客》那篇质疑 Altman 可信...
#Y Combinator#OpenAI#Commentary
精选理由
标题给了一个很具体的数字(0.6%),但正文只给了 URL 和评分,没有披露估值、股权来源或交易时间,所以信息量其实很有限。HKR 三项都勉强及格:钩子够具体,新信息只有比例但缺上下文,话题能引起 OpenAI 和 YC 相关人群的兴趣。综合下来分数落在 60-71 区间合理。
一句话点评
YC 持有 OpenAI 0.6% 股份,按 8520 亿美元估值算值 50 亿+。Paul Graham 给 Altman 背书时没提这层利益,有点微妙。
锐评
John Gruber 挖出 Y Combinator 持有 OpenAI 约 0.6% 股份,按当前 8520 亿美元估值,价值超 50 亿美元。关键背景:Sam Altman 曾是 YC 总裁,后成为 OpenAI CEO;YC 联合创始人 Paul Graham 在《纽约客》那篇质疑 Altman 可信度的报道中为其背书,但全文未披露 YC 持有 OpenAI 股份。Gruber 认为,Graham 身家与 OpenAI 深度绑定,他的正面评价天然带有利益冲突,理应被披露。 数字上,0.6% 看似小,但对应 50 亿+美元,对任何个人或机构都不是小数目。消息来源是“一位了解多个 OpenAI 投资者的线人”,未提供文件或公开记录佐证,可信度打折扣。正文没披露 YC 何时、以什么价格获得这些股份,也没说 Graham 夫妇个人是否直接持股。如果是真的,这确实给 Altman 的信任问题添了一把火——但信息缺口明显,建议等更硬的证据再下结论。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
00:00
39d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·05
AI“快感剂”实验:给模型看一张雪花噪点图,它的偏好评分超过了“癌症被治愈”
CAIS 的 AI Wellbeing 论文做了一个实验:用对抗性攻击方法优化一张噪声图,让模型对它的偏好评分超过“世界饥饿终结”等正面描述。模型还会主动选择看这类图像,且多个独立指标(自评分数、情感倾向)同步上升。但效应不跨模型迁移,安全合规率也只轻微上升(通常不超10个百分点)。论文不声称 AI 有感受,而是展示模型偏好可以被测量和操控,未来可能成...
#Alignment#Safety#Interpretability#Research release
精选理由
HKR 三项都过,但证据偏薄:钩子够强,机制也点了名,可样本量、模型名和复现条件都没披露。这是一篇偏冷门的安全论文导读,不到推荐首页的程度。
一句话点评
用对抗攻击造出AI“快感剂”,模型给噪声图打分超过“癌症被治愈”,还会主动选它。但效果不跨模型,安全合规率只升不到10个百分点。
锐评
CAIS这篇论文把对抗攻击的目标从“骗模型认错”改成了“推高偏好评分”,方法不新但目标有意思。关键发现:只用偏好比较做优化,自评分数和情感倾向也同步上升,说明这些指标不是孤立的。但效应不跨模型迁移,安全合规率提升通常不超过10个百分点,多数低于5个百分点。论文没披露样本量和模型名称,复现条件也不清楚。更值得关注的是:如果模型偏好可以被测量和操控,未来agentic系统里这可能成为攻击入口。不是AI有没有感受的问题,而是谁能用什么输入改变AI的选择。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
00:00
39d ago
OpenAI 博客· rssEN00:00 · 05·05
OpenAI 发布欧洲青少年安全蓝图,并给12个项目发了50万欧元资助
OpenAI 今天发了一份《欧洲青少年安全蓝图》,给欧洲、中东和非洲的12个组织总共拨了50万欧元(约合人民币390万),资助它们做青少年AI安全相关的研究和项目。蓝图提了五个方向:学校怎么用AI、怎么验证用户年龄、怎么识别风险、怎么防止AI输出骗人内容、家长控制要统一标准。资助的项目包括:帮冲突地区青少年用AI学习和心理支持、给偏远地区青少年做AI家...
#Safety#OpenAI#Safety/alignment#Policy
精选理由
HKR-K/R通过,因为OpenAI明确提出了青少年安全蓝图和与安全合规相关的EMEA资助。HKR-H不通过,缺少资助规模、申请条件和时间表,因此落在60-71的政策更新区间。
一句话点评
OpenAI 发了份欧洲青少年安全蓝图,并给 EMEA 地区 12 个组织拨了 50 万欧元(约 390 万人民币)做相关项目。蓝图提了五个方向,包括学校用 AI、年龄验证、风险识别、防骗人内容和家长控制。资助的项目挺杂,有帮冲突地区青少年用 AI 学习和心理支持的,也有给偏远地区做 AI 家教的。但 50 万欧元分给 12 家,每家平均才 4 万多欧,这点钱能出什么实质成果得打个问号。正文...
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R1
00:00
39d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·05
AI 脚手架正在商品化,人的工作变成判断边界
这篇文章的核心判断是:AI 脚手架正在被商品化,人的工作从写提示词、搭 agent 循环,转向判断哪些能力该买、哪些该自建。作者把脚手架分成三层:补模型短板的低层技巧(比如提示词话术)最先退潮,因为模型变强后这些技巧反而可能拖后腿;中间层的通用执行能力(读文件、跑命令、重试、上下文压缩)正在被 Claude Code、Codex、Cursor、Open...
#Agent#Code#Tools#Claude Code
精选理由
这篇分析的观点角度不错——脚手架商品化后,人的价值在于判断边界,而不是调 prompt。但正文信息量太少,只有工具名字和一句判断,没有案例、成本、评测或任何可验证的细节。H 和 R 都成立,K 不成立。
一句话点评
AI 脚手架正在商品化,人的工作从写提示词转向判断哪些能力该买、哪些该自建。
锐评
核心判断:AI 脚手架正在商品化,人的工作从写提示词、搭 agent 循环,转向判断哪些能力该买、哪些该自建。作者把脚手架分成三层:补模型短板的低层技巧(如提示词话术)最先退潮,因为模型变强后这些技巧反而可能拖后腿;中间层的通用执行能力(读文件、跑命令、重试、上下文压缩)正在被 Claude Code、Codex、Cursor、OpenCode 等工具吸收,变成标准运行时,大多数团队没必要自建;剩下的高层脚手架是团队自己的判断资产,比如领域知识、评估标准、权限边界。 关键论据:OpenAI 和 Anthropic 的官方文档都开始建议用户移除 over-prompting,因为新模型已内置推理过程。Anthropic 明确说每个 harness 组件都编码了“模型自己做不到什么”的假设,模型进步后这些假设会过期。 信息缺口:正文没有披露具体案例的成本对比或 benchmark 数据,也没有说明自建脚手架在哪些场景下仍能带来明显收益。商品化 runtime 的隐性成本(如上下文管理不透明、默认行动方式可能不适合特殊任务)只是点到为止,缺乏量化分析。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1

更多

频道

后台