ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-06-04

111 items · updated 3m ago
RSS live
2026-06-04 · 星期四2026年6月4日
23:01
8d ago
Hacker News 首页· rssEN23:01 · 06·04
潜变量智能体:把多模型辩论压缩进一个模型里
多模型辩论能提升推理质量,但代价是每次都要生成超长对话,算力成本很高。这篇论文提出一种后训练方法,把多模型辩论的能力蒸馏到单个模型内部——先用两阶段微调让模型学会辩论结构,再用动态奖励和长度裁剪把辩论过程“内化”。结果是单个模型在多个基准上表现不输甚至超过显式多模型辩论,但生成 token 数最多减少 93%。论文还发现,内化后的模型在激活空间里出现了...
#Agent#Reasoning#Fine-tuning#Research release
精选理由
HKR-H 通过,因为标题把多模型辩论和后训练挂钩,有钩子。HKR-K/R 不通过:正文只有链接和分数,没有方法、实验或影响数据,属于低价值研究线索。
一句话点评
多模型辩论能提升推理质量,但每次都要生成超长对话,算力成本很高。这篇论文提出一种后训练方法,把多模型辩论的能力蒸馏到单个模型内部——先用两阶段微调让模型学会辩论结构,再用动态奖励和长度裁剪把辩论过程“内化”。结果是单个模型在多个基准上表现不输甚至超过显式多模型辩论,但生成 token 数最多减少 93%。论文还发现,内化后的模型在激活空间里出现了对应不同辩论角色的独立方向,甚至可以通过激活操...
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K0·R0
22:43
8d ago
● P1TechCrunch AI· rssEN22:43 · 06·04
Anthropic 上市前年化收入冲到 470 亿美元,Daniela Amodei 对 AI 回报质疑不以为然
Anthropic 5 月年化收入达到 470 亿美元,而 2025 年底这个数字还只有约 90 亿,增速很快。公司联合创始人 Daniela Amodei 在 IPO 前回应了外界对 AI 投资回报的怀疑,但报道没透露具体上市时间表。
#Anthropic#Daniela Amodei#Funding#Commentary
精选理由
这条消息有明确的新闻钩子——IPO 前创始人对 AI 回报质疑的回应,加上罕见的收入数字,对行业有参考价值。不过报道没透露上市时间表,所以重要性到不了行业地震级别,放在 88 分合理。
一句话点评
年化收入从90亿跳到470亿,增速夸张,但正文没给IPO时间表,也没说这470亿是纯订阅还是含了定制项目。
锐评
Anthropic 在 IPO 前放出的收入数字很猛:5 月年化收入冲到 470 亿美元,而 2025 年底才约 90 亿,半年翻了五倍多。Daniela Amodei 对外界“AI 烧钱没回报”的质疑摆了摆手,但报道本身没披露上市的具体时间,也没拆开这 470 亿里有多少是经常性订阅、多少是一次性大单或定制合同。我会先打个折——年化收入这种口径容易把峰值月乘以十二,如果 5 月刚好有大客户集中签约,数字就会虚高。另外,成本端完全没提,不知道烧钱速度是不是也跟着翻倍。想判断这波增长能不能撑起 IPO 估值,还缺毛利率、客户留存率和非关联方收入占比。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
22:42
8d ago
r/LocalLLaMA· rssEN22:42 · 06·04
RTX 3090 跑着跑着掉线?清一下 PCIe 延长线灰尘就好了
一位 LocalLLaMA 用户报告,他买的二手 ROG Strix GA35 上的 RTX 3090 在高负载下会报 Xid 79 错误并断开连接。折腾一圈后发现,问题出在 PCIe 延长线接口积灰。用细刷子和 91% 异丙醇清理后,显卡就稳定了。这个案例提醒:二手卡出类似掉驱动、掉总线错误,先别急着退货或换卡,清灰可能是成本最低的排查步骤。正文没披...
#Inference-opt#NVIDIA#ASUS#LocalLLaMA
精选理由
HKR在爱好者层面全通过,但证据来源只是Reddit上一条维修经验分享,受众也仅限于用3090+PCIe riser的本地用户;有用,但到不了行业级。
一句话点评
二手RTX 3090高负载掉驱动?先别急着退货,清灰可能就搞定。一位LocalLLaMA用户发现,Xid 79错误(GPU掉总线)的元凶是PCIe延长线接口积灰,用细刷和异丙醇清理后稳定运行。这提醒我们:二手卡出这类问题,硬件接触不良比核心损坏更常见,成本最低的排查步骤就是清灰。正文没披露具体负载场景和清理前后的温度变化,但案例本身对捡垃圾党有实操参考价值。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K1·R1
22:29
8d ago
TechCrunch AI· rssEN22:29 · 06·04
Airbnb CEO 要自己建 AI 实验室,去年没签大模型合作是因为产品还不够好
Airbnb CEO Brian Chesky 计划成立一个新的 AI 实验室。他透露去年没有签下任何大模型合作,原因是当时市面上的产品还不够成熟。正文没披露实验室的具体方向、预算或团队规模。
#Airbnb#Brian Chesky#Product update
精选理由
HKR-H 通过,因为 Airbnb 是 AI 实验室领域的新面孔,有话题性。HKR-K/R 不通过:正文只说了计划和一个之前没签合作的旧闻,没有可验证的细节或对从业者的实际影响。
一句话点评
Airbnb CEO Brian Chesky 要自建 AI 实验室,理由是去年没签大模型合作,因为当时产品不够成熟。这等于说市面上现成的模型没满足他的需求,决定自己搞。但正文没披露实验室方向、预算和团队规模,所以目前只是一个意向声明。对从业者来说,信号是 Airbnb 对现有模型能力仍有保留,可能更看重垂直场景的定制或数据闭环。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R0
22:26
8d ago
r/LocalLLaMA· rssEN22:26 · 06·04
Higgs Audio v3 TTS 4B:专为语音聊天设计的4B参数TTS模型,支持100种语言和实时控制
Higgs Audio 发布了 v3 版 TTS 模型,4B 参数,主打语音聊天场景,支持 100 种语言和行内控制(比如在文本里插入语气标签)。模型已上传 Hugging Face,但正文没披露延迟、评测结果和许可证,所以实际对话流畅度和商用风险都不清楚。4B 参数量在端侧部署上算中等,如果能做到低延迟,对语音助手和实时对话类应用会挺实用,但这点先别...
#Audio#Higgs Audio#BosonAI#Hugging Face
精选理由
这是一个小体量的本地语音模型更新,HKR 里 H 和 K 成立。正文内容单薄:只给了 Hugging Face 链接,但缺许可证、延迟和评测数据,所以分数压在 60–71 区间。
一句话点评
Higgs Audio 发了 4B 参数的 TTS v3,主打语音聊天,支持 100 种语言和行内语气控制。4B 参数量在端侧算中等,如果能做到低延迟,对实时对话类应用挺实用。但正文没披露延迟、评测结果和许可证,实际对话流畅度和商用风险都不清楚,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
22:06
8d ago
Hacker News 首页· rssEN22:06 · 06·04
用 Lean 验证多边形相交算法,Opus 4.8 一次生成成功
作者发布了一个用 Lean 形式化验证的多边形相交实现,并称 Opus 4.8 一次性生成了算法和形式化证明,而之前的模型需要多步推理。正确性来自 Lean 检查器加上人工审查一小段规格说明,而不是 LLM 输出本身。这意味着你可以信任这段代码不会算错,但验证过程依赖人工写的规格,不是全自动的。
#Code#Reasoning#Agent#Opus 4.8
精选理由
这是个 GitHub/Show HN 单点实验,没有基准、样本量或 prompt 细节。Lean 几何验证这个方向本身比较窄,够不上 featured。
一句话点评
Opus 4.8 一次性生成了多边形相交算法和 Lean 形式化证明,之前模型做不到。正确性靠 Lean 检查器 + 人工审规格,不是 LLM 输出本身可信。亮点是“一次过”,但验证依赖人工写规格,不是全自动。短评:一次生成算法+证明挺惊艳,但验证靠人写规格,不是全自动。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
21:50
8d ago
AI HOT 精选· aihot-apiZH21:50 · 06·04
NotebookLM 上线来源归属功能
NotebookLM 现在能告诉你它生成的内容是参考了哪些资料、用了什么提示词。点击“迭代”还能直接调整。之前生成结果像黑箱,现在至少能查来源了,对需要验证信息的人比较实用。
#RAG#Tools#NotebookLM#Product update
精选理由
HKR 三项都过,因为这次加的是生成结果级别的来源追溯,能看到具体资料和提示词,对 RAG 场景的信任和审计价值很直接。不过只是 NotebookLM 一个产品功能更新,所以分数压在 60–71 的产品更新区间。
一句话点评
NotebookLM 上线了来源归属功能,能直接看到生成内容用了哪些资料和提示词,还能点“迭代”修改。之前生成结果像黑箱,现在至少能查来源了,对需要验证信息的人比较实用。不过正文没披露支持哪些文件格式、是否覆盖所有生成类型,以及免费版是否能用。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
21:47
8d ago
AI HOT 精选· aihot-apiZH21:47 · 06·04
Gemini macOS 版:双击 Command 键自动附加当前窗口
Gemini 的 macOS 应用新增了一个快捷操作:同时按下两个 Command 键,就能把当前活动窗口直接“贴”到聊天里,省去手动截图或切换标签页的麻烦。正文没说明支持哪些类型的窗口、隐私如何处理,以及具体从哪个版本开始支持。
#Multimodal#Vision#Tools#Gemini
精选理由
HKR 三项都过,但披露的事实就一个 macOS 快捷键:双击 Command 附加活动窗口。版本号、权限、隐私处理、支持范围全没写,所以归为 all-tier 的小产品更新。
一句话点评
Gemini macOS 版加了个快捷操作:双击 Command 键,当前窗口直接贴进聊天,省了手动截图。正文没提支持哪些窗口类型、隐私怎么处理,也没说从哪个版本开始。这点先别太激动,等补上细节再试。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R1
21:38
8d ago
Product Hunt · AI· rssEN21:38 · 06·04
微软 MAI-Voice-2:15 种语言的语音克隆和情感控制 TTS,定价比 OpenAI 便宜
微软发布了 MAI-Voice-2,一个支持 15 种语言的语音合成模型,能做语音克隆(从短样本复制声音)和精细的情感控制(让语气带喜怒哀乐),而且跨语言保持声音一致。定价是每百万字符 22 美元,比 ElevenLabs 便宜,跟 OpenAI Realtime API 的 TTS 层价格差不多。已经在 Azure AI Foundry 上线,后续会...
#Audio#Microsoft#Product update
精选理由
HKR-K 靠15种语言、带情感的TTS和语音克隆通过。Product Hunt 这条内容很薄,没有价格、参数或上线条件,所以只能放在小产品更新档位。
一句话点评
微软 MAI-Voice-2 上线,主打 15 种语言的语音克隆和情感控制,定价每百万字符 22 美元,比 ElevenLabs 便宜,跟 OpenAI Realtime TTS 层价格持平。短评:语音克隆+情感控制+跨语言一致,价格还比 ElevenLabs 低,做语音助手的可以试试。但正文没披露延迟和模型参数量,实际体验和扩展性存疑。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R0
21:28
8d ago
AI HOT 精选· aihot-apiZH21:28 · 06·04
Nemotron Parakeet ASR 印尼语准确率 97.7%,成本降 90%
Rafiqspace.ai 微调了英伟达的 Nemotron Parakeet ASR 模型,把印尼语语音转文字的准确率做到 97.7%(词错率 2.3%),比市面上通用工具高出一截。更关键的是每小时成本砍掉最多 90%——如果是真的挺省钱。原文没披露用了多少训练数据、微调的具体方法,也没说 90% 的成本节省是相对哪个基准。
#Audio#Fine-tuning#NVIDIA#Rafiqspace.ai
精选理由
触发硬排除规则-纯营销:英伟达发文宣传客户使用 Nemotron Parakeet ASR 的微调结果。HKR-K 有数字,但缺乏独立基准或可复现的设置。
一句话点评
印尼语语音转文字准确率做到 97.7%(词错率 2.3%),比通用工具高出一截。更关键的是每小时成本砍掉最多 90%——如果是真的挺省钱。原文没披露用了多少训练数据、微调的具体方法,也没说 90% 的成本节省是相对哪个基准。
HKR 分解
hook knowledge resonance
打开信源
39
SCORE
H1·K1·R0
21:25
8d ago
持续报道 · 1dr/LocalLLaMA· rssEN21:25 · 06·04
BeeLlama v0.3.1:单张 RTX 3090 跑 31B 模型,速度翻近 5 倍
BeeLlama 新版基于最新 llama.cpp,集成了 DFlash、MTP、q6_0 缓存和 TurboQuant 等优化。实测用一张 RTX 3090 跑 Qwen 3.6 27B 和 Gemma 4 31B,最高达到 177.8 tokens/秒,是基准线的 4.93 倍。这个速度意味着本地跑大模型几乎感觉不到延迟,成本也低——一张 3090...
#Inference-opt#BeeLlama#llama.cpp#Qwen
精选理由
标题的 177.8 tps 和 4.93x 加速是硬钩子,但 Reddit 403 导致测试条件缺失,验证性打折扣。属于小产品更新,分数 68 合理,不调整。
一句话点评
BeeLlama v0.3.1 把 Qwen 3.6 27B 和 Gemma 4 31B 在单张 RTX 3090 上跑到了 177.8 tokens/秒,是基准的 4.93 倍。这个速度意味着本地跑大模型几乎感觉不到延迟,成本也低——一张 3090 二手大概 5000 元。但正文被 Reddit 屏蔽了,没披露测试设置(量化精度、prompt 长度、batch size),所以这个 4.9...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
20:58
8d ago
彭博科技· rssEN20:58 · 06·04
Bengio警告:我们在造自己控制不了的AI系统
Yoshua Bengio在Bloomberg视频里说,现在的AI智能体(能自主行动的模型)并没有被完全控制住。视频本身被Bloomberg的机器人检测墙挡住了,正文没披露任何具体的治理框架、评估方法或测试条件,所以这点先别太激动——信息缺口很大,没法判断他指的是哪个系统、什么场景下的失控。
#Agent#Safety#Alignment#Yoshua Bengio
精选理由
HKR-H 和 HKR-R 通过:Bengio 的“失控”警告有标题吸引力,也切中智能体安全焦虑。HKR-K 不通过:正文没有给出任何机制、数字或可复现条件,信息不足以支撑知识性判断。
一句话点评
Bengio 在 Bloomberg 视频里说现在的 AI 智能体(能自主行动的模型)没被完全控制住。但视频被 Bloomberg 的机器人检测墙挡住了,正文没披露任何具体的治理框架、评估方法或测试条件,所以这点先别太激动——信息缺口很大,没法判断他指的是哪个系统、什么场景下的失控。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
20:50
8d ago
Product Hunt · AI· rssEN20:50 · 06·04
Agent Browser Shield:给AI浏览器代理装个“防钓鱼”滤镜,还能省token钱
一个免费的开源浏览器扩展,专门拦截网页里的提示注入攻击(比如隐藏指令让AI代理干坏事),同时去掉cookie横幅、页脚这些垃圾内容来省token。目前支持browser-use和Browserbase,但正文没披露检测原理、省token比例、定价和具体支持哪些浏览器。如果是真的,对跑生产环境的AI代理团队挺实用——OWASP把提示注入列为AI头号安全威...
#Agent#Safety#Tools#Agent Browser Shield
精选理由
一个小工具发布,只声称能拦截浏览器代理的 prompt injection。HKR-R 因安全相关性通过,HKR-H/K 不通过,因为没披露机制、数据或定价。
一句话点评
一个免费开源的浏览器扩展,专门拦截网页里的提示注入攻击(隐藏指令让AI代理干坏事),同时去掉cookie横幅、页脚这些垃圾内容来省token。目前支持browser-use和Browserbase,但正文没披露检测原理和省token比例。如果是真的,对跑生产环境的AI代理团队挺实用——OWASP把提示注入列为AI头号安全威胁。 短评:提示注入是AI代理的头号安全威胁,这个扩展免费开源,但检...
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K0·R1
20:11
8d ago
● P1Hacker News 首页· rssEN20:11 · 06·04
Anthropic 开源 AI 驱动的代码漏洞发现框架
Anthropic 在 GitHub 上放出了一个叫 defending-code-reference-harness 的开源项目,把威胁建模、代码扫描、漏洞分类和打补丁这些安全活儿打包成一套可定制的自动化流程。项目页面上说你可以把它当成一个“自主扫描引擎”来用,但正文没披露这套东西在真实漏洞挖掘上的准确率、误报率,也没给出跟现有扫描工具的对比数据。目...
#Code#Agent#Safety#Anthropic
精选理由
Anthropic 的招牌加上一个实打实的 GitHub 仓库,让 HKR 的 H 和 R 都站得住。但文章本质上是一封公开信和政策呼吁,不是已经落地的法律或产品,框架的实际效果、基准测试全都没给,所以 K 不成立。话题分量够上 featured,但信息缺口把它卡在 72–77 这个区间,74 分合理。
一句话点评
Anthropic 在 GitHub 开源了一套代码漏洞发现工具,但别急着叫它“AI 挖洞神器”——它更像一套给安全团队用的自动化扫描脚手架。
锐评
Anthropic 这次放出的不是一个成品模型,而是一套开源框架,把威胁建模、扫描、漏洞分类和修补这些环节串成了一条自动化流水线。你可以把它理解成“让 AI 按流程帮你找代码漏洞”的参考实现,核心是那套可定制的自主扫描引擎。 从 GitHub 页面看,项目刚公开不久,已经有 412 个星标和 48 个复刻,说明社区对这类工具需求不小。但正文没披露这套框架在真实项目上的检出率、误报率,也没给出和现有静态扫描工具的性能对比。它更像 Anthropic 在展示“AI 做安全可以这么搭”,而不是一个拿来就能用的成熟产品。 还缺几个关键信息:它默认对接的是 Claude 还是允许换模型?扫描一次典型中型项目的耗时和成本大概多少?这些没交代清楚之前,建议先把它当实验性脚手架看,别直接往生产环境里塞。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K0·R1
19:57
8d ago
r/LocalLLaMA· rssEN19:57 · 06·04
Qwen 3.6 35B 实测:KV 缓存不量化,效果比 27B 高量化还好
Reddit 用户用 RTX 3090 Ti 跑 Qwen 3.6 35B(IQ4NXL 量化),发现 KV 缓存保持不量化时,效果比 27B 模型(Q5 K XL 量化,KV 缓存 Q8/8)更好。测试场景是 agentic debugging(让模型进业务流程干活),配合 Rivet 子图。关键结论:KV 缓存精度对推理质量影响很大,不量化比高量化...
#Agent#Inference-opt#Memory#Qwen
精选理由
一条 Reddit 实测帖,说 Qwen 3.6 35B 在无量化 KV Cache 下比 27B 带量化 KV Cache 表现更好。亮点是验证了 KV Cache 量化对推理质量的影响,对本地跑大模型的人有实操参考。但来源单一,没有第三方复现,也没有披露具体测试次数或误差范围,所以重要性卡在 70 分。
一句话点评
Reddit 用户实测,Qwen 3.6 35B 量化到 IQ4NXL,只要 KV 缓存不量化,效果反而比 27B 高量化版本(Q5 K XL,KV 缓存 Q8/8)更好。测试场景是 agentic debugging(让模型进业务流程干活),配合 Rivet 子图。关键结论:KV 缓存精度对推理质量影响很大,不量化比高量化更管用。但注意,这是单用户单卡(RTX 3090 Ti)的单一场景测...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
19:49
8d ago
r/LocalLLaMA· rssEN19:49 · 06·04
Qwen3.6 27B 跑 agent 编码任务性能暴跌,长上下文下推理速度只剩 20 tokens/s
有用户在 RX 7900 XTX 上用 llama.cpp 跑 Qwen3.6 27B,开 9 万 token 上下文窗口,处理 1.2 万 token 的 prompt 时,推理速度掉到 20.55 tokens/s。这个速度对 agent 场景(让模型进业务流程干活,比如自动写代码、调工具)基本不可用——正常对话模型至少得 50+ tokens/s...
#Agent#Code#Inference-opt#Qwen
精选理由
HKR 三项都过:标题拿 agent 写代码性能崩了当钩子,正文给了 GPU、运行时、上下文长度和吞吐量这些具体数字。定 all 是因为这只是一个 Reddit 用户的单机测试,不是官方确认的模型级退化,信息缺口明显——正文没披露温度、采样参数、是否量化,也没说同一硬件跑其他模型做对比,所以先别太激动,等更多人复现再说。
一句话点评
Qwen3.6 27B 在 RX 7900 XTX 上跑 agent 编码,开 9 万 token 上下文,处理 1.2 万 token 的 prompt 时速度掉到 20.55 tokens/s,远低于 agent 场景需要的 50+ tokens/s。问题出在长上下文下推理效率崩了,不是模型本身能力不行。但这是单用户单卡测试,没提量化精度和 llama.cpp 版本,也没对比其他模型在同...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
19:39
8d ago
Hacker News 首页· rssEN19:39 · 06·04
高中生问:AI 都能写代码了,学编程还值得吗?
一位高中生在 Hacker News 上发帖,说自己本来想学计算机,但看到 Claude Code 和 Codex 这些 AI 编程工具能直接生成网站、做软件,甚至帮没编程基础的人赚钱,开始怀疑学编程还有没有用。帖子目前有 10 个点赞和 6 条评论,讨论热度不高。正文只提了工具名字,没交代模型版本、评测数据或可复现的测试条件,所以这些工具到底多靠谱、...
#Code#Agent#Hacker News#Claude Code
精选理由
HKR-H 和 HKR-R 通过,但 HKR-K 不通过:这就是个 HN 上的小 Ask 帖,10 分 6 条评论,没有新证据或技术主张,属于 all 层级,不上 featured。
一句话点评
高中生问AI时代学编程还有没有用,帖子才10赞6评论,热度很低。正文只提了Claude Code和Codex,没给模型版本、评测数据,这些工具到底多靠谱、能处理多复杂的项目,完全没交代。所以这个问题本身有意义,但讨论样本太小,结论得打折。 短评:老问题新包装,但讨论样本太小,结论得打折。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
19:36
8d ago
Hacker News 首页· rssEN19:36 · 06·04
Meta 智能眼镜配套应用内置完整人脸识别管线,但默认未激活
安全研究员逆向 Meta 智能眼镜的 Android 配套应用(版本 273.0.0.21)发现,应用里藏了一套完整的人脸识别系统:三个模型(人脸检测、对齐、特征提取,共约 100 MB)、一个本地 SQLite 数据库(用余弦相似度做向量搜索)、以及一个把未识别的人脸截图和特征向量存到磁盘的路径。研究员用测试图片手动触发管线后,成功跑通了识别流程——...
#Vision#Safety#Meta#Hacker News
精选理由
HKR-H 和 HKR-R 都成立,但 HKR-K 不通过:正文只确认了标题,补充的只有 HN 分数和评论数,没有产品细节或一手信源。所以分数压在 60–71 区间。
一句话点评
Meta 智能眼镜的 Android 配套应用里藏了一套完整的人脸识别管线:三个模型(共约 100 MB)、本地 SQLite 数据库(余弦相似度做向量搜索)、以及识别后弹通知的路径。研究员手动触发跑通了流程。但注意:普通用户界面不显示,Meta 也没推送身份数据到测试账号。所以不是“Meta 偷偷识别你”,而是“全套设备已就绪,开关在 Meta 手里”。正文没披露设备型号、上线地区、用户授...
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
19:33
8d ago
TechCrunch AI· rssEN19:33 · 06·04
Meta 学特斯拉,把数据中心搬进帐篷里
Meta 想用帐篷来建数据中心,目的是省钱。这个做法是从特斯拉那学来的。正文没披露帐篷数据中心的规模、选址、预算、用了什么硬件,以及运行环境是否稳定。
#Meta#Tesla#Product update
精选理由
HKR 里 H 和 R 强,K 弱但有:帐篷建数据中心是个新招,但缺规模、选址、预算和运行条件,所以分数压在 60–71 区间。
一句话点评
Meta 学特斯拉用帐篷建数据中心,想省电费。正文只提了“帐篷”这个点子,没披露规模、选址、预算、用了什么硬件,以及帐篷里散热和防尘能不能撑住。如果是真的,帐篷比传统机房便宜很多,但验证信息太少,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
18:52
8d ago
r/LocalLLaMA· rssEN18:52 · 06·04
llama.cpp 新 PR:对话中途动态压缩 KV 缓存,不用重载模型
Reddit 用户 wadeAlexC 给 llama.cpp 提了个 PR(#24134),加了一个 POST /requantize_kvcache 接口。它能在对话进行中,不卸载模型,直接对 KV 缓存重新量化——传 ctk 和 ctv 两个参数就行。好处是:长对话里缓存越积越大,动态压一下能省显存,而且不用中断推理。不过正文没披露压缩后的精度损...
#Inference-opt#Tools#llama.cpp#Qwen
精选理由
一个 Reddit 用户给 llama.cpp 提了个 PR,加了个新接口,能在聊天中途重新量化 KV 缓存,相当于给显存瘦身,让长对话更省资源。他还列了一堆愿望清单,比如让多模态投影层和 MTP 解码头按需加载,进一步省显存。这些改动对玩本地部署的人来说很实用,但正文没给出实测数据,效果到底怎么样还得等跑分。整体信息量够,但话题偏工程细节,所以分数给到 66。
一句话点评
llama.cpp 新 PR 加了个动态重量化 KV 缓存的接口,长对话显存快爆了可以中途压一压,不用重启模型。正文没披露压缩后的精度损失,也没说支持哪些量化格式。如果损失可控,对本地跑长上下文挺实用。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
18:48
8d ago
● P1FT · 科技· rssEN18:48 · 06·04
NSA被曝使用Anthropic的Mythos模型进行网络攻击
FT 这篇报道的标题说美国国家安全局在用 Anthropic 的 Mythos 模型发动网络攻击。不过点进去只看到 403 报错,正文完全没加载出来,RSS 片段也只提到 Anthropic 正跟五角大楼就 Claude 模型打官司,没披露具体部署范围。所以 Mythos 到底是什么、NSA 怎么用的、用在哪些攻击里,这些关键信息目前都看不到。
#Code#Safety#US National Security Agency#Anthropic
精选理由
单篇 FT 报道,HKR 的 H 和 R 都拉满,K 虽然提到了 Mythos 和五角大楼纠纷,但正文 403 没加载出来,部署细节和执行时间表全是空白,所以知识增量有限。82 分放在 featured 合理,再高就缺实锤了。
一句话点评
FT 报道 NSA 用 Anthropic 的 Mythos 模型搞网络攻击,但原文被付费墙挡死,具体怎么用、模型能力细节全看不到。
锐评
这条消息目前只有一个标题和付费墙,能说的很有限。FT 的标题直接指控 NSA 把 Anthropic 的 Mythos 模型用于网络攻击,但正文没披露任何操作细节——是拿模型生成钓鱼邮件、挖漏洞、写恶意代码,还是做攻击链里的情报分析,完全不清楚。Anthropic 之前对外讲的安全政策一直是禁止将模型用于造成人身伤害或大规模监控,如果这个报道属实,要么是 NSA 绕过了使用条款,要么是 Anthropic 和政府有未公开的合作框架。 现在能确认的只有两点:一是 FT 发了这篇报道,二是 Hacker News 把它顶上了首页。但 FT 原文需要订阅才能看,HN 上讨论的也多是基于标题的猜测。在有人扒出全文或 Anthropic 正式回应之前,这条消息的含金量要打很大折扣。我会先等一手原文细节和官方回应,再判断这到底是政策翻车还是标题党。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
18:38
8d ago
The Verge · AI· rssEN18:38 · 06·04
Kevin O'Leary同意把犹他州巨型数据中心砍掉一半面积
《创智赢家》明星Kevin O'Leary迫于居民和环保人士压力,同意将原计划4万英亩的犹他州数据中心Project Stratos砍掉约1.94万英亩,面积直接减半。此前州参议院议长曾要求他缩减75%到1万英亩,O'Leary没完全照做,但让步不小。项目位于水禽保护区附近,正文没披露最终用水方案,这点先别太激动——环保争议的核心是耗水,面积砍了但用水...
#Kevin O’Leary#J. Stuart Adams#The Verge#Policy
精选理由
HKR三项都过:名人效应+具体砍地数字让故事有传播点;信息缺口(供水方案未披露)是硬伤,但反而增加了讨论价值;项目缩水直接反映AI基建在土地、水、审批上的现实摩擦。不过这只是单个地方项目的调整,不是模型、产品或资本市场事件,所以分数压在60-71区间。
一句话点评
Kevin O'Leary(《创智赢家》明星)把犹他州数据中心从4万英亩砍到约2万英亩,面积减半,因为居民和环保人士抗议项目靠近水禽保护区。州参议院议长曾要求砍75%到1万英亩,他没照做但让步不小。正文没披露最终用水方案——环保争议核心是耗水,面积砍了但用水量没明说,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
17:48
8d ago
Hacker News 首页· rssEN17:48 · 06·04
Hitoku Draft:纯本地的 Mac 语音写作助手,读屏、离线、买断价 5 美元
Hitoku Draft 是一个开源的 Mac 本地语音助手,主打“读屏”能力——它能识别你当前屏幕上的文档、邮件、代码编辑器等任何文本输入框,你按快捷键说话,它就直接把文字填进去。语音识别和 AI 编辑全部在本地运行,不需要联网,也不上传数据。支持 Gemma 4 和 Qwen 3.5 等模型,语音后端可选 Parakeet 或 Qwen3-ASR。...
#Agent#Audio#Tools#Hitoku Draft
精选理由
HKR三项都过:本地桌面agent这个角度有点击欲,价格和后端细节也给了。但这是Show HN独立发布,没有采用量或跑分证据,所以影响力压在60–71区间。
一句话点评
一个 Mac 本地语音助手,能“读屏”——识别当前屏幕上的文档、邮件、代码编辑器,按快捷键说话就直接填文字。语音识别和 AI 编辑全在本地跑,不上传数据。支持 Gemma 4 和 Qwen 3.5,语音后端可选 Parakeet 或 Qwen3-ASR。 亮点是隐私和离线可用,对比云方案每月 20-30 美元,它一次性买断 5 美元(早期价),挺省钱。但注意:只支持 Apple Silic...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
17:25
8d ago
r/LocalLLaMA· rssEN17:25 · 06·04
Reddit 帖子说 iPhone 能跑本地大模型,但正文啥也没说
一篇 Reddit 帖子声称可以在 iPhone 上运行本地大模型,但正文只有 RSS 片段和一个 LM Studio 链接,没有披露模型大小、运行机制或设备要求。帖子本身被 Reddit 屏蔽,无法获取更多信息。目前无法验证这个说法的真实性,建议先观望。
#Inference-opt#Tools#Reddit#LM Studio
精选理由
HKR-H 靠 iPhone 跑本地模型这个反直觉钩子通过,但 HKR-K 和 HKR-R 都不满足:正文缺规格、机制、设备条件,也没有从业者能拿来讨论的成本或性能数字。没有硬排除规则触发,所以保留 all。
一句话点评
标题说能在 iPhone 上跑“最大”本地模型,但正文被 Reddit 屏蔽,只留了个 LM Studio 链接。模型多大、怎么跑、iPhone 哪代能跑,全没披露。目前就是个标题党,先别信。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R0
17:22
8d ago
r/LocalLLaMA· rssEN17:22 · 06·04
Qwen 3.6 27B 两种量化版对比:Q8-CC 比 UD-Q8_K_XL 的 top-p 一致率高了近1个百分点
有人在 Reddit 上对比了 Qwen 3.6 27B 的两个 Q8 量化版(GGUF 格式),用 wiki.test.raw 跑 200 个 chunk、上下文 2048。结果 30.47GB 的 Q8-CC 版 top-p 一致率是 98.358%,33.31GB 的 UD-Q8_K_XL 版是 97.426%,差了约 0.93 个百分点。简单说...
#Inference-opt#Benchmarking#Qwen#Unsloth
精选理由
一个30GB的量化文件在top-p上赢了33GB的版本,虽然差距不到1个百分点,但说明量化策略比单纯堆显存更关键。测试条件(wiki.test.raw、-c 2048、200 chunks)和精度(98.358%±0.033%)都给了,可以自己跑一遍验证。不过正文没披露具体用了什么量化方法,也没说两个文件是不是同一个基模型、同一套校准数据,这点先别太激动。对搞本地部署的人来说,这个对比直接关系到买多大显卡、选哪个量化版本,所以给到61分。
一句话点评
Qwen 3.6 27B 两个Q8量化版对比:30GB的CC版top-p一致率98.358%,比33GB的UD版高0.93个百分点。说明更小更准,但只测了文本续写一致性,没跑代码或任务benchmark,这点先别太激动。正文没披露推理速度或实际任务表现。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K1·R1
17:08
8d ago
AI HOT 精选· aihot-apiZH17:08 · 06·04
NotebookLM 出了个福尔摩斯笔记本,把笔记变成侦探游戏
Google 的 NotebookLM 发布了一个叫“福尔摩斯笔记本”的新功能,核心是把复习笔记变成互动侦探游戏——用户需要推理事实、找线索来破案。正文没披露上线时间、定价或背后的模型机制,目前更像一个教学或趣味化实验,不是严肃的生产力工具。
#Reasoning#Tools#NotebookLM#Product update
精选理由
HKR-H靠福尔摩斯游戏这个钩子通过,但K和R都没过。正文披露了产品形态,但没给上线范围、定价或模型机制,所以归为普通小产品更新。
一句话点评
Google NotebookLM 把复习笔记做成了福尔摩斯探案游戏,用户得推理线索破案。目前更像趣味教学实验,正文没披露上线时间、定价和模型机制,别当生产力工具期待。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R0
16:59
8d ago
r/LocalLLaMA· rssEN16:59 · 06·04
Nemotron 3 Ultra:5500亿参数,但每次只激活55亿,上下文窗口拉到100万
NVIDIA 的 Nemotron 3 Ultra 总参数量 5500 亿,但推理时只激活 55 亿(MoE 架构),上下文窗口直接给到 100 万 token。参数大但激活少,意味着推理成本可以压得比较低,百万级上下文对长文档分析或代码库理解很实用。不过帖子正文被 Reddit 屏蔽了,没披露具体架构细节、训练数据、许可证或跑分结果,所以实际效果和可...
#Reasoning#NVIDIA#Nemotron#Open source
精选理由
信息源只有 Reddit 标题级别。架构、许可证、评测结果、可复现的访问方式都没有披露,所以分数卡在 60–71 区间。
一句话点评
NVIDIA 的 Nemotron 3 Ultra 总参数量 5500 亿,推理时只激活 55 亿(MoE 架构),百万 token 上下文窗口。参数大但激活少,推理成本能压得比较低,百万级上下文对长文档分析或代码库理解很实用。不过帖子正文被 Reddit 屏蔽,没披露具体架构细节、训练数据、许可证或跑分结果,所以实际效果和可用性存疑。短评:MoE 压推理成本,百万上下文实用,但缺跑分和许可...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:58
8d ago
r/LocalLLaMA· rssEN16:58 · 06·04
编译加个 OpenBLAS,上下文窗口多塞 28%
Reddit 用户 Warrenio 发现,用 Vulkan + OpenBLAS 编译 llama.cpp 后,Qwen 3.6 27B 模型能塞约 112,896 token 的上下文,比只用 Vulkan 的 87,808 token 多了 28%。帖子贴了编译命令和 CMake 参数,但没解释这是预期行为、bug 还是测量误差。正文没披露硬件配...
#Inference-opt#llama.cpp#OpenBLAS#Qwen
精选理由
HKR 三项都达标,但来源是单个 Reddit 帖子,正文没说是预期行为、测量误差还是 bug。具体复现细节让它够格进 all,但不够 featured。
一句话点评
编译时加个 OpenBLAS 库,llama.cpp 跑 Qwen 3.6 27B 的上下文窗口从 87k 涨到 113k token,多了 28%。用户自己测的,没解释是预期行为还是 bug,也没说硬件配置。如果是真的,等于白捡 25k token 的上下文,但得先复现再说。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:45
8d ago
r/LocalLLaMA· rssEN16:45 · 06·04
4块RTX 3090被PCIe 2.0 x4坑了,修好后Mistral 128B推理速度翻倍
一位叫BlackBeardAI的用户发现,他的4x RTX 3090本地大模型机器一直跑在隐藏的PCIe 2.0 x4通道上,导致Mistral Medium 3.5 128B Q4_K GGUF模型在llama.cpp里只有约11 tok/s。修复后PCIe链路恢复Gen3 x8/x16,吞吐直接跳到24.7 tok/s,翻了一倍多。这个案例提醒:多...
#Inference-opt#Tools#BlackBeardAI#NVIDIA
精选理由
这是一篇 Reddit 硬件调优的一手实验,有明确的前后对比数字和操作细节,对本地跑大模型的用户有直接参考价值。三个维度都达标,但属于单点经验分享,不是系统性研究,所以分数卡在 60–71 区间的高位。
一句话点评
4块RTX 3090跑Mistral 128B模型,之前只有11 tok/s,修好PCIe通道后直接翻倍到24.7 tok/s。问题出在主板插槽被限速到PCIe 2.0 x4,带宽不够。这个案例提醒:多卡本地部署时,PCIe链路带宽可能是隐形瓶颈,尤其大模型需要频繁跨卡通信。正文没披露主板型号和具体插槽配置,但修复后性能翻倍的数据很直观。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
16:32
8d ago
TechCrunch AI· rssEN16:32 · 06·04
Meta 在 Facebook 上线 AI 创作助手,帮创作者问“什么时候发帖”
Meta 在 Facebook 推了一个 AI 创作助手,创作者不用再自己翻图表看数据,直接问“什么时候发帖好”或“评论区在聊什么”就能拿到答案。正文没披露这个助手用了什么模型、覆盖多少用户、要不要额外付费,也没说是不是只限部分创作者先用。
#Agent#Meta#Facebook#Product update
精选理由
这是 Meta 在 Facebook 上一个小型产品更新,给创作者加了个 AI 助手。HKR-K 靠一个具体功能点通过,但 HKR-H 和 HKR-R 都很弱,而且上线范围、模型机制和定价正文都没披露。
一句话点评
Meta 在 Facebook 推了个 AI 创作助手,创作者直接问“什么时候发帖好”或“评论区在聊什么”就能拿到答案,不用自己翻图表。正文没披露用了什么模型、覆盖多少用户、要不要额外付费,也没说是不是只限部分创作者先用。 短评:省了翻面板的功夫,但没说准不准、贵不贵,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R0
16:31
8d ago
TechCrunch AI· rssEN16:31 · 06·04
WWDC 2026 前瞻:Siri 大改版与苹果 AI 更新
苹果 WWDC 2026 即将到来,重点预计是 Siri 的全面翻新和 Apple Intelligence 的更新。不过正文只说了“临近”,没披露具体功能、时间线或上线条件,所以目前只能当预告看。
#Agent#Apple#Siri#Apple Intelligence
精选理由
HKR-H 通过,因为苹果/Siri 在 WWDC 上发布本身就是一个明确的事件锚点。HKR-K 和 HKR-R 不通过:正文没有给出任何新功能、时间线或发布条件,所以这只是一条低价值的预告,不值得从业者花时间深挖。
一句话点评
苹果 WWDC 2026 预告说 Siri 要大改、Apple Intelligence 要更新,但正文只提了“临近”,没给任何功能细节、时间线或上线条件。目前就是画饼,别太激动。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
16:15
8d ago
AI HOT 精选· aihot-apiZH16:15 · 06·04
Anthropic 称 Claude 已出现“递归自我改进”苗头,但没说怎么测的
Anthropic 发帖说内部数据显示 Claude 正在加速 AI 发展,甚至出现了“递归自我改进”的苗头——也就是 AI 自己造一个更强的后继者。他们承认这比预期来得快,但正文没披露数据来源、用了哪个 Claude 版本、实验条件能不能复现。结论先打个折:方向值得关注,但证据链还不完整。
#Agent#Reasoning#Anthropic#Claude
精选理由
Anthropic 官方声称 Claude 正在加速 AI 递归自我改进,但正文没披露数据口径、模型版本或复现条件,所以 HKR-H 和 HKR-R 成立,HKR-K 不成立。这条消息值得关注,但不够格上推荐位。
一句话点评
Anthropic 发帖说 Claude 出现了“递归自我改进”苗头——AI 自己造更强的后继者。他们承认比预期快,但正文没披露数据来源、用了哪个版本、实验能否复现。方向值得关注,但证据链不完整,先打个折。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
16:05
8d ago
r/LocalLLaMA· rssEN16:05 · 06·04
Unsloth 预告要支持苹果芯片,但正文一个字都没透露
Unsloth 在 Reddit 发了个预告帖,标题说要在苹果芯片上跑,但正文被 Reddit 屏蔽(403),没写支持哪些芯片、什么时候出、怎么实现。目前只有标题能看,具体细节为零。
#Fine-tuning#Unsloth#Apple#Reddit
精选理由
HKR-H/R 通过,因为 Unsloth 支持 Apple Silicon 对本地微调用户有意义;但 HKR-K 不通过:Reddit 正文被封锁,没披露任何功能、时间表或硬件适配范围。信息量太低,不值得推荐。
一句话点评
Unsloth 预告要在苹果芯片上跑微调,但正文被 Reddit 屏蔽,具体支持哪些芯片、何时上线、怎么实现一概没写。目前只有标题能看,信息量为零。建议等正式发布再关注,别急着激动。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H1·K0·R1
15:40
8d ago
FT · 科技· rssEN15:40 · 06·04
SpaceX启动首次公开募股
FT评论文章认为,SpaceX的IPO更多是马斯克造神话能力的体现,而非公司基本面支撑。文章指出,SpaceX如何支撑其高估值并不清晰。正文未披露IPO规模、具体估值数字或时间表。
#SpaceX#Elon Musk#Financial Times#Commentary
精选理由
HKR-H靠马斯克造神叙事这个钩子过关,但HKR-K和HKR-R都挂了:正文没给任何IPO具体条款,也没有AI行业角度,落在<40的噪音区间。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
15:18
8d ago
● P1Hacker News 首页· rssEN15:18 · 06·04
华为开源KVarN:vLLM KV缓存量化加速推理
华为在 GitHub 上开源了 KVarN,一个直接集成进 vLLM 的 KV 缓存量化后端。KV 缓存是长文本推理时的显存瓶颈,量化就是压缩它。KVarN 号称能把上下文长度拉到 3-5 倍,吞吐量超过 FP16(半精度),精度还能保持 FP16 水平,而且不需要校准数据,加一个启动参数就能用。如果这些数字属实,意味着跑长上下文 agent 或大文档...
#Inference-opt#Huawei#Open source#Product update
精选理由
硬排除的技术可及性失败:vLLM KV-cache 量化后端是底层推理工作,帖子没给位宽、吞吐、显存或可复现设置。HKR-H/K/R 全不通过。
一句话点评
华为开源了一个叫KVarN的vLLM插件,能把显存里存对话上下文的KV缓存压到1/3到1/5,而且速度不降反升,推理任务不掉链子。
锐评
这条消息值得关注,因为它解决了一个很实际的痛点:长对话或处理大文档时显存不够用。KVarN直接作为vLLM的原生后端工作,号称压缩KV缓存3到5倍,吞吐量比不压缩的FP16还高,精度也能持平。最方便的是它不需要校准步骤,加一个启动参数就能用,而且是Apache 2.0开源协议。 不过,先别太激动。目前信息主要来自项目README和社区帖子,没有看到独立的第三方基准测试。它说“推理任务不掉链子”,但具体在哪些模型、多长的上下文、什么类型的推理任务上测的,正文没披露。另外,它和TurboQuant的对比也只提了一嘴,缺少详细的消融实验数据。 如果你正在用vLLM跑生产,这个项目值得放进待测列表。但做决策前,最好等社区有人跑出更多模型和真实场景的对比数据,尤其是长上下文下的困惑度(PPL)和实际延迟表现。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H0·K0·R0
15:05
8d ago
TechCrunch AI· rssEN15:05 · 06·04
Hello Robot 发布第四代家用机器人 Stretch,但没提价格和发货时间
加州创业公司 Hello Robot 推出了第四代家用辅助机器人 Stretch。正文没披露定价、发货时间、硬件规格,也没说任务复现条件,所以目前只能知道它又更新了一代,但值不值得等、多少钱、什么时候能买到,全是未知数。
#Robotics#Hello Robot#Product update
精选理由
HKR-H 和 HKR-R 靠家庭机器人话题和具身智能市场神经过关,但 HKR-K 不通过,因为价格、出货、参数和任务证据全缺。这符合一篇普通产品更新,落在 60–71 分档。
一句话点评
Hello Robot 出了第四代家用机器人 Stretch,但正文没披露定价、发货时间和硬件规格,连任务复现条件都没提。目前只能知道它又更新了一代,值不值得等、多少钱、什么时候能买到,全是未知数。短评:第四代 Stretch 来了,但价格、发货、硬件全没提,先别激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
14:15
8d ago
AI HOT 精选· aihot-apiZH14:15 · 06·04
DeepSeek 连续四周登顶 OpenRouter Token 份额榜
OpenRouter 官方发帖称 DeepSeek 已连续四周在其平台 token 消耗量排行榜上排第一。帖子只给了排行榜链接,没披露具体份额、采样范围或统计窗口,所以这个“第一”到底领先多少、覆盖哪些模型调用,目前还不清楚。
#DeepSeek#OpenRouter#Benchmark
精选理由
连续4周第一是个强信号,但正文信息量太少——没给具体份额、没说明统计口径、没交代周期细节,只能当“需求热度参考”用,不能当决定性证据。对从业者来说,知道DeepSeek在开发者调用量上持续压过其他模型就够了,但别过度解读。
一句话点评
DeepSeek在OpenRouter上连续四周token消耗第一,说明开发者调用量确实大。但OpenRouter只给了排行榜链接,没披露具体份额、统计口径和采样范围,这个“第一”领先多少、覆盖哪些模型都不清楚。信息缺口明显,先别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
13:53
8d ago
r/LocalLLaMA· rssEN13:53 · 06·04
一份 LLM 工程实战指南:RAG、检索、重排序与评估
Reddit 用户 Funny_Working_7490 发布了一个名为 llm-system-patterns 的开源仓库,用简单 Python 示例覆盖了预过滤、混合检索、重排序、向量数据库、批处理、清理以及用 LLM 当裁判做评估。作者的核心观点是:embedding 质量或 RAG 本身很少是全部答案,围绕 LLM 的工程框架往往和模型本身一样...
#RAG#Embedding#Benchmarking#Funny_Working_7490
精选理由
实用的工程材料,但只是Reddit上的个人仓库,没有披露指标、对比或生产案例。HKR-K/R通过,HKR-H较弱,所以落在60-71的实用教程区间。
一句话点评
一个 Reddit 用户开源了 llm-system-patterns,用简单 Python 代码演示了预过滤、混合检索、重排序、向量数据库、批处理、清理和用 LLM 当裁判做评估。作者自己说 embedding 质量或 RAG 本身很少是全部答案,工程框架往往和模型一样重要。仓库刚发布,没有 star 数和 issue 反馈,实际效果和文档完整度未知。适合想快速上手 RAG 工程实践的开发...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R1
13:43
9d ago
r/LocalLLaMA· rssEN13:43 · 06·04
Qwen 3.6 27B 发布,距 Plus 版仅 20 天,网友猜 3.7 版 6 月 10 日就来
Reddit 用户发现 Qwen 3.6 27B 在 Plus 版发布 20 天后就上线了,于是猜测 3.7 版可能 6 月 10 日就到。发帖人觉得这些小模型很强,自己已经不用付费前沿模型了,担心公司会因此亏钱。正文没披露参数、跑分或官方发布计划,所以 3.7 的日期纯属网友推测,别太当真。
#Qwen#Product update#Commentary
精选理由
HKR-H/R通过,但K偏弱:整条内容基本靠Reddit标题撑,没有评测、访问方式或官方路线图。对LocalLLaMA读者有用,但属于常规产品更新,不到精选级别。
一句话点评
Qwen 3.6 27B 在 Plus 版发布 20 天后就上线了,网友据此猜 3.7 版 6 月 10 日到。发帖人觉得小模型够强,自己已停用付费前沿模型,担心公司亏钱。但正文没披露跑分或官方计划,3.7 的日期纯属推测,别太当真。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
13:03
9d ago
Ben's Bites· rssEN13:03 · 06·04
造工具,才能造更多东西
OpenAI 给 Codex 加了两个新功能:Plugins 和 Sites。Plugins 是预装好的技能包,比如给设计师接上 Figma,让模型直接干活;Sites 则让用户一键生成带数据库、文件存储和权限管理的网站或应用,目前只对企业开放。模型这边也发了一波新品:Google 的 Gemma 4 12B 能看图听音频,性能接近两个月前 26B 的...
#Agent#Multimodal#Code#Ben’s Bites
精选理由
这是一篇二次汇总,没有单一重磅发布。HKR-K/R 靠 Cursor 40% PR 数据和编码 agent 的工作流信号通过;HKR-H 偏弱,所以落在 60–71 的常规行业报道区间。
一句话点评
OpenAI 给 Codex 加了 Plugins 和 Sites:Plugins 是预装技能包,比如给设计师接 Figma;Sites 让企业用户一键生成带数据库和权限管理的网站。同时,Google 的 Gemma 4 12B 能看图听音频,性能接近两个月前的 26B 版本,但正文没披露具体评测集和硬件成本。Ideogram 4.0 用 JSON 提示控制图像布局,9.3B 参数,适合需要...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R1
12:59
9d ago
AI HOT 精选· aihot-apiZH12:59 · 06·04
NVIDIA 教你微调 Nemotron 3.5 语音模型,适配你的语言、领域或口音
NVIDIA 发了一篇博客,手把手教你怎么微调 Nemotron 3.5 ASR 语音识别模型,让它更懂你的语言、行业术语或特定口音。正文没披露用了多少训练数据、超参数怎么设、价格多少,也没给评估数字,所以效果到底多好得自己试。适合有定制语音识别需求的团队参考。
#Audio#Fine-tuning#NVIDIA#Hugging Face
精选理由
HKR 三项全挂:标题是常规教程,没有可复现的设置或指标,对从业者吸引力有限。按 0-HKR 规则,tier 排除,重要性低于 40。
一句话点评
NVIDIA 手把手教微调 Nemotron 3.5 ASR,让语音识别更懂你的语言、行业黑话或口音。但正文没披露训练数据量、超参数、价格和评估数字,效果得自己试。适合有定制需求的团队,但别指望开箱即用。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H0·K0·R0
12:57
9d ago
r/LocalLLaMA· rssEN12:57 · 06·04
Gemma 4 12B 调用工具时反复漏参数,用户怀疑跟 opencode 不兼容
有用户在 Reddit 上发帖说,用 Gemma 4 12B 的 8-bit 量化版做编码任务,发现它调用 grep 工具时老是漏掉 pattern 字段,导致调用失败。帖子没确认到底是 opencode 不兼容,还是模型本身工具调用能力差,也没给出可靠的测试框架。
#Agent#Code#Tools#Gemma
精选理由
HKR 三项都过,因为帖子提供了一个具体的本地 agent 失败案例,但只是一条 Reddit 用户反馈,没有兼容性结论、样本量或对照实验,所以归入低价值测试区间。
一句话点评
Gemma 4 12B 的 8-bit 量化版在 opencode 里调用 grep 工具时频繁漏掉 pattern 字段,导致调用失败。帖子没确认是 opencode 不兼容还是模型本身工具调用能力差,也没给出可靠测试框架。如果是模型问题,那 12B 做 agent 任务可能还不如 Qwen 2.5 32B 稳。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K1·R1
12:51
9d ago
AI HOT 精选· aihot-apiZH12:51 · 06·04
OpenAI 称 AI 开始自己加速自己,递归自我改进初现
OpenAI 发文说,当前系统已经出现递归自我改进(RSI)的早期迹象,简单讲就是 AI 开始帮人类更快地搞 AI 开发。他们预期这会加剧开发者之间和国家之间的竞争压力,现有机构可能管不住。但正文没披露具体是哪个模型、在什么测试条件下、加速了多少,也没有量化指标。气氛确实变了,但这点先别太激动,信息缺口还很大。
#Alignment#Safety#OpenAI#Safety/alignment
精选理由
H 和 R 的钩子都很强,但正文零细节,属于“来源单一且无数据支撑”的硬排除项,分数封顶 39,标记为 excluded。
一句话点评
OpenAI 说看到了 AI 自我加速改进的早期迹象,但没说是哪个模型、什么测试、加速了多少。气氛确实变了,但信息缺口太大,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
39
SCORE
H1·K0·R1
12:30
9d ago
The Verge · AI· rssEN12:30 · 06·04
平台该给用户一个“过滤AI垃圾”的开关
The Verge 发了一篇观点文,核心诉求很简单:YouTube、Instagram、TikTok 这些平台已经在给 AI 生成内容打标签了,但打了标签之后,用户还是得在信息流里硬着头皮刷到这些内容。作者认为,平台应该直接提供一个“过滤 AI 内容”的开关,让用户自己决定看不看。文章指出,平台之所以不敢给这个开关,是因为一旦给了,用户量、互动数据可能...
#Multimodal#The Verge#YouTube#Instagram
精选理由
这是一篇平台治理方向的评论,不是新产品、新政策或新数据发布,所以落在 60–71 的 all 档。H 和 R 都够,但 K 偏弱——正文没披露任何具体机制或效果数据,比如标注准确率、用户反馈量、是否可关闭等。
一句话点评
The Verge 骂平台是懦夫:你们都给 AI 内容打标签了,倒是给用户一个过滤开关啊。文章没说平台具体怕什么,但猜也猜得到——用户一过滤,AI 生成的互动数据就没了,推荐系统的“活跃度”会掉。观点很直接,但缺平台方的回应和实际测试数据。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
12:24
9d ago
Hugging Face 博客· rssEN12:24 · 06·04
EVA-Bench 数据 2.0:3 个领域、121 个工具、213 个场景
ServiceNow 发了 EVA-Bench 数据集的 2.0 版,覆盖 3 个领域(IT、HR、客户服务)、121 个工具和 213 个场景。规模不算大,但专门用来测企业级 agent 调用工具的能力。正文没披露数据集的具体构成、评测任务、许可证和发布日期,所以暂时没法判断它跟同类 benchmark 比到底好不好用。
#Benchmarking#Tools#ServiceNow#Hugging Face
精选理由
EVA-Bench Data 2.0 给出了具体的覆盖数字(3领域、121工具、213场景),对做智能体工具评测的人有参考价值,所以 K 和 R 都过。但正文没披露数据集构成、任务设计、许可证和基线结果,信息缺口明显,只能算中等信号。
一句话点评
ServiceNow 发了 EVA-Bench 2.0,专测企业 agent 调用工具的能力,覆盖 IT、HR、客服 3 个领域、121 个工具、213 个场景。规模不大,但胜在场景贴近真实业务。不过正文没披露数据集构成、评测任务、许可证和发布日期,暂时没法判断它跟同类 benchmark 比到底好不好用。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
12:20
9d ago
彭博科技· rssEN12:20 · 06·04
博通财报吓坏市场,纳斯达克100期货下跌,AI交易退潮
博通财报后的业绩指引让投资者抛售科技股,转向“旧经济”板块,纳斯达克100期货应声下跌。道琼斯指数反而创了新高,说明资金在从AI概念股往外撤。正文没披露具体的跌幅数字和博通的业绩数据,但市场情绪转向保守是明确的信号。
#Broadcom#Nasdaq#Dow Jones#Commentary
精选理由
H和R过关:科技转旧经济的轮动是个真实反转钩子,AI估值焦虑能传达到从业者。K不过关:正文没披露跌幅、盈利数字或指引,所以只能给到60多分的泛市场信号档位。
一句话点评
博通财报指引不及预期,直接带崩了纳斯达克100期货,资金从AI概念股撤出,转向道琼斯代表的旧经济板块。正文没披露博通具体业绩数字和跌幅,但市场情绪转向保守是明确的信号。这点先别太激动,单家公司指引引发的板块轮动,不代表AI叙事终结,更多是短期获利了结。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
12:10
9d ago
MIT 科技评论· rssEN12:10 · 06·04
AI 写的诉状让法院工作量翻倍,Google 花钱让用户省电给数据中心腾容量
科罗拉多州联邦治安法官说,2023 年以来无律师代理的诉讼文件数量翻了一倍多,法官认为这是 AI 写的。AI 让更多人能起诉,但没提高胜诉率。法官开始讨论聊天机器人当“律师”该有什么权利和义务,立法者也在想 AI 给错法律建议谁来赔。另一件事:Google 签了个协议,在美国最大电网里搞“虚拟电厂”——把电动车、智能恒温器等设备打包,用户少用电就给钱,...
#Tools#Safety#Robotics#MIT Technology Review
精选理由
两条线都是事实,但来自 MITTR 的摘要,不是单一重大事件。缺诉讼具体案例、虚拟电厂规模、商业条款,信息密度一般,所以给 67 分。
一句话点评
AI写诉状让无律师诉讼量翻倍,但胜诉率没涨——法官开始讨论聊天机器人当“律师”的权利义务,立法者在想AI给错建议谁来赔。另一条:Google签协议在美国最大电网搞“虚拟电厂”,把电动车、恒温器打包,用户少用电就给钱,腾出容量给数据中心。但正文没披露具体补贴金额和用户参与率,实际效果待验证。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
11:59
9d ago
r/LocalLLaMA· rssEN11:59 · 06·04
mistral.rs 给 Gemma 4 12B 加上了多模态和智能体支持
mistral.rs 现在可以直接跑 Gemma 4 12B 的多模态和智能体功能,还支持 MTP(多 token 预测)。官方给了一条 4-bit 量化后的运行命令,启动后会自动开一个兼容 OpenAI 和 Anthropic 接口的 HTTP 服务器,同时自带一个网页聊天界面,地址是 localhost:1234/ui。也就是说,你本地跑起来就能当...
#Agent#Multimodal#Code#mistral.rs
精选理由
HKR 三项都过,因为这是一个具体的本地推理更新,不是模型发布或跨源事件,所以分数压在 60–71 区间。正文没披露性能对比或实际延迟数据,这点先别太激动。
一句话点评
mistral.rs 现在能本地跑 Gemma 4 12B 的多模态和智能体功能,还支持多 token 预测(MTP,一次预测多个 token 加速推理)。官方给了 4-bit 量化命令,启动后自动开兼容 OpenAI/Anthropic 接口的 HTTP 服务器和网页聊天界面。对本地部署党友好,但正文被 Reddit 屏蔽,没披露显存占用和实际推理速度。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
11:17
9d ago
● P1新智元 · 公众号· rssZH11:17 · 06·04
分子之心发布MMDesign,AI设计纳米抗体靶点命中率超90%
分子之心推出了一个叫 MMDesign 的 AI 平台,专门用来从头设计生物大分子药物。他们在 12 个治疗靶点上做了测试,每个靶点只挑了 14 到 50 个分子去做湿实验验证,结果有 11 个靶点都测出了特异性结合,算下来靶点成功率超过了 90%。不过正文因为访问环境异常没加载出来,具体用了什么模型架构、训练数据规模、以及和哪些国际顶尖模型做了对比,...
#Multimodal#Benchmarking#MoleculeMind#Xu Jinbo
精选理由
我会先打个折:正文没披露这 12 个靶点具体是什么、难度如何,也没说湿实验的具体指标和对照组,所以 90% 这个数先别太激动。但亮点在于,每个靶点只筛了 14 到 50 个分子就进湿实验,如果数据属实,意味着前期筛选成本压得很低。对做 AI 制药的人来说,这比跑分更有参考价值。整体偏产品发布,但数字够具体,放在 featured 档合理。
一句话点评
分子之心发布MMDesign,声称AI设计纳米抗体靶点命中率超90%,但正文因验证问题无法读取,具体方法和验证数据暂缺。
锐评
这条消息目前只能看标题,正文被微信的验证页面挡住了,所以关键信息全是缺口。标题说靶点命中率超过90%,这个数字如果属实,意味着以前靠大量筛选碰运气的抗体发现流程,可能变成更可控的设计过程。但“超90%”是在什么数据集上测的、对比了哪些现有模型、是湿实验验证还是纯计算指标,这些都没法确认。另外,新闻源提到“超越国际顶尖模型”,也没说清楚是哪些模型、在什么任务上超的。我会先打个折:这类生物AI模型的效果高度依赖测试场景和评价标准,单看一个百分比容易高估。等能看到完整论文或技术报告,再看它实际解决了什么问题、验证规模多大,才能判断是不是真突破。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
11:13
9d ago
彭博科技· rssEN11:13 · 06·04
博通财报不及预期,新兴市场科技股大跌
博通(Broadcom)交出的业绩指引低于市场预期,直接拖累亚洲科技权重股,新兴市场股市创下近三周最大单日跌幅。正文没披露具体指数跌幅和博通指引数字,但信号很清楚:市场对AI算力投资的回报周期又开始紧张了。
#Broadcom#Commentary
精选理由
H和R两条都成立:博通miss确实让AI硬件股承压,也戳中市场对估值和周期的担忧。但K很弱——只给了“约三周最差单日”这个模糊框架,没有跌幅数字和博通指引的具体缺口,属于标准的AI交易情绪报道,信息密度不够。
一句话点评
博通业绩指引低于预期,亚洲科技股跟跌,新兴市场股市创近三周最大单日跌幅。市场又开始担心AI算力投资的回报周期。正文没披露具体跌幅和博通指引数字,信号比数字更值得关注:只要一家芯片巨头说“卖不动”,整个AI交易逻辑就跟着晃。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R1
09:32
9d ago
Hacker News 首页· rssEN09:32 · 06·04
花了几千美元做AI图片视频站,一个月零用户,问题出在哪?
一位叫 petebay 的开发者发帖求助:他做的 AI 图片和视频生成网站 Voloshow 上线快一个月,花了数千美元,至今一个用户都没有。评论区还没展开分析,但问题很典型——产品做出来了,没人知道,也没人用。正文没披露推广渠道、定价策略或竞品对比,所以目前只能判断:缺流量入口,缺用户信任,缺一个让人愿意点进去的理由。
#Multimodal#Vision#Hacker News#Voloshow
精选理由
HKR-H和HKR-R都靠“花了几千块、零用户”这个创始人自曝的钩子通过,但HKR-K信息太薄:没有获客渠道、费用明细或可复用的教训。这篇适合放在all层级,不上精选。
一句话点评
短评:花了几千美元做AI图/视频站,上线一个月零用户。问题不在模型,在没人知道这网站。 点评:开发者petebay花了几千美元做了AI图片和视频生成站Voloshow,上线快一个月,一个用户都没有。问题很典型:产品做出来了,但没流量入口、没用户信任、没让人点进去的理由。正文没披露推广渠道、定价策略或竞品对比,所以只能判断缺曝光。AI生成赛道已经非常拥挤,光有功能不够,得先解决“为什么选你”...
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
09:00
9d ago
FT · 科技· rssEN09:00 · 06·04
全球民调:美国人最反对建AI数据中心
一项覆盖15个大型经济体的全球民调显示,美国民众对AI数据中心基础设施扩建的支持率最低。正文未披露样本量、调查机构、调查日期及各国的具体支持率,所以无法判断这个“最低”的差距有多大、统计是否显著。
#Financial Times#Policy
精选理由
FT 民调给出一个尖锐对比:美国 AI 最热,民众对数据中心扩建却最抵触。15个经济体排名,美国垫底,这个反差本身就有新闻价值。但正文没披露样本量、调查机构和具体百分比,验证力度打折扣,所以分数压在70档。
一句话点评
FT转引的全球民调称美国人对AI数据中心扩建支持率最低,但正文没披露样本量、调查机构、具体支持率数字,所以这个“最低”的差距有多大、统计是否显著都无从判断。标题有冲击力,但信息缺口太大,建议先当线索标记,别直接引用。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
09:00
9d ago
● P1OpenAI 博客· rssEN09:00 · 06·04
ChatGPT 推出 Dreaming 记忆系统自动整理用户偏好
OpenAI 给 ChatGPT 的记忆功能做了一次大改,核心是一个叫“Dreaming(做梦)”的后台机制。它不再只靠你明确说“记住这个”,而是会自己翻聊天记录,把零散信息合成一份关于你的摘要,比如你的偏好、正在进行的项目。这次更新的目标是解决旧记忆容易过时、记错的问题。官方给了三个评判标准:能不能把之前聊过的上下文带到新对话里、能不能一直遵守你的偏...
#Memory#OpenAI#ChatGPT#Product update
精选理由
OpenAI 给 ChatGPT 加了记忆功能,叫“Dreaming”,听着像模型在睡觉时整理记忆。核心是让模型跨对话记住你的偏好,不用每次重说一遍。H 上,这个命名有传播力;K 上,跨对话偏好保留是实打实的新能力;R 上,隐私和开关控制是大家最关心的。正文没披露上线范围、用户能不能关、数据存多久,所以分数先打个折,定在 80。
一句话点评
ChatGPT 的记忆系统不再只靠你手动“记住这个”,而是会后台自动翻聊天记录、整理偏好,像帮你写了一份会自我更新的个人档案。
锐评
OpenAI 给 ChatGPT 换了一套叫 Dreaming 的记忆系统,核心变化是:以前你得明确说“记住我下周六过生日”,它才记;现在它会自动在后台翻你的聊天记录,把零散信息拼成一份关于你的动态档案,比如你的相机型号、饮食偏好、正在做的项目。官方说这能解决旧记忆“过时”和“记不全”的问题。 从评测看,Dreaming V3 在“延续上下文”“遵循偏好”“随时间更新”这三项上都比 2024 年的纯手动记忆和 2025 年的初版 Dreaming 强,但正文没给出具体提升数字,只放了对比示例。目前这个功能只对美国 Plus 和 Pro 用户开放,免费用户还要等几周,所以大规模下的稳定性和隐私感受还没法验证。 我会先打个折:自动整理听起来省心,但后台翻聊天记录意味着它对你的了解会更深,如果你对隐私敏感,最好去记忆摘要页看看它到底总结出了什么,该删的删,该纠正的纠正。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
08:26
9d ago
量子位 · 公众号· rssZH08:26 · 06·04
GitLab 也裁程序员了,营收涨 23% 但裁了 14% 的人
GitLab 在 Q1 营收同比增长 23% 达到 2.64 亿美元的情况下,裁掉了约 350 名全职员工(占总员工 14%),同时计划退出 22 个国家和地区。裁员主要为了把研发资源转向 AI agent 产品——也就是让模型进业务流程干活。正文没披露具体哪些岗位受影响,但营收涨还裁人,说明公司判断 AI 产品比人力更划算。
#Agent#Code#GitLab#Anthropic
精选理由
GitLab营收增长却裁程序员,加上退出22个市场,说明AI编码工具(如Anthropic/OpenAI的竞品)正在挤压传统开发平台的人力需求。事件本身不是模型或产品发布,但裁员数字和行业共振让它在60-71的“有趣”区间。正文没披露被裁岗位具体是哪些职能,这点先别太激动。
一句话点评
GitLab营收涨23%还裁14%的人,约350人,同时退出22个市场。公司明说要把研发资源转向AI agent产品——让模型进业务流程干活。正文没披露具体裁了哪些岗位,但营收涨还裁人,说明公司判断AI产品比人力更划算。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
06:43
9d ago
r/LocalLLaMA· rssEN06:43 · 06·04
MTP 对 Qwen3.6 MoE 没提速效果,实测 60 tok/s 不变
一位用户在 RTX 5060 Ti 上跑 unsloth/Qwen3.6-35B-A3B-GGUF,发现开启 MTP(多 token 预测,即让模型一次预测多个 token 来加速推理)后速度仍是约 60 tok/s,跟不开一样。这个速度对 35B 参数(实际激活 3B)的 MoE 模型来说算正常,但 MTP 没带来预期提升,说明当前硬件或实现可能没吃...
#Inference-opt#Reddit#Qwen#Unsloth
精选理由
一条 Reddit 用户实测,结论反直觉:MTP 开了跟没开一样,都是 60 tok/s。硬件、模型、速度数字都给了,但正文没披露具体测试设置(比如 prompt 长度、batch size、是否量化),也没说有没有复现。信息够用但偏单薄,所以重要性压在 64 分,不往上调。
一句话点评
一位用户在 RTX 5060 Ti 上实测 Qwen3.6-35B MoE(激活 3B),开不开启 MTP(多 token 预测)速度都是约 60 tok/s,没提升。这个速度对 35B 模型算正常,但 MTP 没生效说明当前硬件或实现可能没吃透。正文没披露具体配置和量化精度,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
05:46
9d ago
r/LocalLLaMA· rssEN05:46 · 06·04
Gemma 4 12B 量化版一次生成467行打砖块游戏,全程不掉速
Reddit用户用H-gemma-4-12B-heretic-Q8.gguf(8位量化版)一次提示就生成了一个完整的赛博朋克打砖块游戏,共467行代码。单次生成长达4分钟,消耗45k tokens,在Ryzen 9 9950X + RX 6800 16GB上速度稳定在18.44-18.93 tokens/s,上下文涨到2.3万token时速度几乎没降。...
#Code#Inference-opt#Gemma#Reddit
精选理由
一条Reddit帖子,用户用12B量化模型一次生成467行打砖块游戏代码,单次提示耗45k tokens,在RX 6800 16GB上跑出18.44-18.93 t/s。亮点是本地小模型一次出活,不是多轮迭代,也不是云端大模型。但这是单条用户分享,不是模型发布或系统评测,所以分数压在60-71区间。
一句话点评
Reddit 用户用 Gemma 4 12B 的 8 位量化版(H-gemma-4-12B-heretic-Q8.gguf),一次提示就生成了 467 行完整可玩的赛博朋克打砖块游戏。单次生成长达 4 分钟,消耗 45k tokens,在 Ryzen 9 9950X + RX 6800 16GB 上速度稳定在 18.44-18.93 tokens/s,上下文涨到 2.3 万 token 时速...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
04:39
9d ago
Product Hunt · AI· rssEN04:39 · 06·04
微软给 Windows 终端塞了个 AI 助手,能自动读报错帮你修
微软发布了一个叫 Intelligent Terminal 的实验性开源分支,给 Windows Terminal 加了原生 AI 代理。它会在终端底部多一个面板,自动读取你跑命令的输出,检测到报错可以直接让 AI 分析原因,不用再手动复制粘贴错误信息去问模型了。目前默认接的是 GitHub Copilot CLI,也支持其他 ACP 兼容的代理(有人...
#Agent#Tools#Microsoft#Product update
精选理由
H/K/R 都够,但正文太薄:只确认了 Windows Terminal 要原生集成 Agent 这一条。模型、权限边界、上线条件全没披露,所以只能放在小产品更新档位,别过度解读。
一句话点评
微软给 Windows Terminal 加了个原生 AI 面板,能自动检测报错并让 AI 分析,省去手动复制粘贴的步骤。目前默认接 GitHub Copilot CLI,也支持其他 ACP 兼容代理。开源实验性分支,免费。但正文没披露具体模型、权限边界和发布时间线,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R1
04:12
9d ago
r/LocalLLaMA· rssEN04:12 · 06·04
llama.cpp 设 `--parallel 1` 能跑 70k 上下文,但别急着信
Reddit 用户说在 llama.cpp 里设 `--parallel 1` 就能拿到 70k 的上下文窗口,跑 Pi 这类 agent 框架没明显变慢。但正文没透露硬件、模型和具体跑分,只提了简单编码测试。70k 上下文对 agent 场景挺大,但没数据支撑,效果得自己试。
#Agent#Code#Inference-opt#llama.cpp
精选理由
这是一条 LocalLLaMA 论坛的配置求助帖,唯一有价值的信息是 70k 上下文且没明显降速的 anecdote,但缺硬件、模型和可复现的基准测试,所以只够 HKR-R 通过,留在 all 层级。
一句话点评
Reddit 用户说在 llama.cpp 设 `--parallel 1` 就能拿到 70k 上下文窗口,跑 Pi 这类 agent 框架没明显变慢。70k 对 agent 场景挺大,但正文没透露硬件、模型和具体跑分,只提了简单编码测试。没数据支撑,效果得自己试。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R1
04:00
9d ago
FT · 科技· rssEN04:00 · 06·04
英国监管机构:AI网络安全风险已成银行业头号威胁
英国审慎监管局(PRA)高官Sam Woods公开表示,AI带来的网络安全风险已排在银行业威胁清单最前面。他特别担心银行IT系统的漏洞被AI利用。正文没披露具体攻击案例、受影响银行、技术故障模式或计划中的监管措施,所以目前只有定性表态,没有细节支撑。
#Safety#UK Prudential Regulation Authority#Sam Woods#Policy
精选理由
FT 来源加上英国 PRA 官员表态,H 和 R 成立;但 K 弱:只提供了一个风险排名和 IT 漏洞担忧,没有案例、机制或政策动作。
一句话点评
英国金融监管局高官公开说AI网络安全风险已排到银行业威胁第一,但全文只有定性表态,没给具体攻击案例、受影响银行或计划中的监管措施。目前只能当风向标看,别当行动依据。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
04:00
9d ago
FT · 科技· rssEN04:00 · 06·04
凯易和Palantir给私募股权公司做AI工具,帮它们找养老金等LP要钱
凯易律师事务所和Palantir合作,给私募股权公司造一个AI工具,专门帮它们从公共养老金这类投资人手里募资。正文没披露这个工具具体有什么功能、怎么收费、什么时候上线。
#Tools#Kirkland & Ellis#Palantir#Product update
精选理由
FT 的消息源让这条合作可信度不低。我会先打个折:目前只有合作意向,没披露任何产品细节,所以别急着激动。亮点在于 Palantir 的数据处理能力加上 Kirkland 在私募基金里的客户网络,如果真能做出帮 GP 向 LP 募资时自动整理材料、核对合规条款的工具,确实能省下大量律师工时。但正文没写功能范围,也没说清楚是内部用还是对外卖,这些缺口让这条消息只能停在“值得留意”的级别。
一句话点评
凯易和Palantir联手给私募股权公司造AI募资工具,帮它们从公共养老金这类LP手里要钱。正文没披露具体功能、收费和上线时间,目前只能当意向看。如果真能帮GP自动生成募资材料、分析LP偏好,确实省人力,但这类场景合规风险高,养老金对AI生成内容信任度存疑。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
04:00
9d ago
FT · 科技· rssEN04:00 · 06·04
阿根廷总统米莱:AI 不该被过早监管
阿根廷总统米莱在 FT 发文,主张让 AI 自由发展,不要过早设监管。正文被付费墙挡住,看不到具体政策、时间表或落地机制。目前只知道他的立场是“先发展再说”,但不知道他打算怎么干、有没有配套措施。
#Javier Milei#Argentina#Policy#Commentary
精选理由
HKR-H 和 HKR-R 通过:一国元首公开主张对 AI 少管,有新闻点和讨论价值。HKR-K 不通过:正文只披露了放松监管的立场,没有具体政策条款或时间表,所以分数落在 60–71 区间。
一句话点评
阿根廷总统米莱在FT发文主张AI零监管,但全文被付费墙挡住,看不到具体政策、时间表或落地机制。目前只知道他的立场是“先发展再说”,但不知道他打算怎么干、有没有配套措施。这点先别太激动,一篇立场声明不等于政策。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
04:00
9d ago
FT · 科技· rssEN04:00 · 06·04
Anthropic 的疯狂冲刺:伦理初心 vs 最强模型
FT 这篇报道的标题说 Anthropic 在拼命冲刺,但摘要里点出了一个核心矛盾:这家公司一直标榜 AI 安全与伦理,可它即将推出的新工具却是迄今为止最强大、也最让人不安的一个。正文被付费墙挡住了,所以看不到这个工具叫什么、多大参数、什么时候发、卖多少钱,也没披露任何市场数据。简单说就是:一家以“安全第一”出名的公司,可能要拿出一个连自己都觉得危险的东西。
#Safety#Anthropic#Financial Times#Commentary
精选理由
FT 的权威性和 Anthropic 这个角度让这条链接有 H 和 R 的价值,但 K 不成立,因为没给出任何新数字、新机制或产品细节。整体属于行业评论,不是值得单独推荐的硬信息。
一句话点评
FT 说 Anthropic 要推一个迄今最强也最让人不安的工具,但全文被付费墙挡住,没披露工具名称、参数、发布时间和定价。一家以安全立命的公司可能拿出连自己都觉得危险的东西,这个矛盾本身值得关注,但正文信息缺口太大,没法判断具体风险在哪。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
04:00
9d ago
FT · 科技· rssEN04:00 · 06·04
印度股市在AI赢家争夺战中输给亚洲对手
过去一周,台湾和韩国股市表现超过印度,因为这两个地区的芯片制造商股价大涨。正文没披露具体指数、涨幅和公司名称,所以没法细说谁涨了多少。简单说,全球资金在找AI受益股,目前更看好台韩的半导体产业链,而不是印度。
#Commentary
精选理由
HKR-H靠印度vs台湾/韩国的市场轮动钩子通过,但HKR-K和HKR-R偏弱:正文没披露具体指数、涨幅或公司名单,且对从业者的间接关联不够直接。
一句话点评
全球资金在找AI受益股,这周更看好台韩半导体产业链,而不是印度。正文被FT paywall挡住,没披露具体指数、涨幅和公司名,所以没法细说谁涨了多少。信息缺口:缺涨幅数据、缺资金流向规模、缺印度为什么被冷落的具体原因。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R0
03:24
9d ago
Latent Space· rssEN03:24 · 06·04
Reve 2 和 Ideogram 4 都强调布局能力,图像生成进入“指哪打哪”阶段
Latent Space 总结了 6 月 2-3 日的 AI 新闻,翻了 12 个 subreddit 和 544 个 Twitter 账号。核心看点:微软开源了 MAI-Thinking-1 的技术报告,AIME 2025 上拿了 97%,SWE-Bench Pro 上 53%,而且明确说没用第三方蒸馏和合成数据,全靠后训练硬学出来的。报告有 109...
#Multimodal#Reasoning#Agent#Latent Space
精选理由
这是一篇日报,把好几条新闻打包在一起,不是单一权威发布或一手实测。有具体数字和开放权重信号,所以放在 upper all 档。
一句话点评
微软开源了 MAI-Thinking-1 技术报告,109 页,AIME 2025 上 97%,SWE-Bench Pro 上 53%,盲测赢了 Sonnet 4.6。关键卖点:没用第三方蒸馏和合成数据,全靠后训练硬学出来的。这点先别太激动——报告没披露训练算力成本和推理效率,只说“从零爬山”,实际部署成本未知。另外,Ideogram 4.0 开源了,用 bounding box 教模型理解...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
03:13
9d ago
r/LocalLLaMA· rssEN03:13 · 06·04
Gemma 4 12B 首批微调模型上线,全是 GGUF 和去审查版
Reddit 用户贴了四个 Hugging Face 链接,都是 Gemma 4 12B 的微调版,主打 GGUF 量化格式和去审查(uncensored)变体。帖子没提训练数据来源、量化精度或跑分结果,所以这批模型的实际效果和安全性都还不清楚。如果你打算本地跑,可以先下载试试,但别指望有官方微调那样的稳定表现。
#Fine-tuning#Gemma#Hugging Face#Reddit
精选理由
HKR-H 和 HKR-R 通过,因为首批 Gemma 4 12B 微调版确实能吸引本地模型用户。HKR-K 不通过:帖子列了 4 个链接,但没给训练数据、量化规格或评测,属于低价值更新。
一句话点评
Gemma 4 12B 刚出,社区就出了四个微调版,主打 GGUF 量化(省显存)和去审查版。但帖子没提训练数据、量化精度和跑分,实际效果和安全性都不清楚。本地跑可以试试,别当主力用。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R1
02:47
9d ago
● P1彭博科技· rssEN02:47 · 06·04
台积电CEO魏哲家警告芯片产能未来数年无法满足AI需求
台积电 CEO 魏哲家公开说,公司芯片产能未来几年都满足不了 AI 带动的需求。他没说缺口多大、扩产计划具体到哪一年,也没给时间表。这话等于承认,就算台积电已经在疯狂建厂,AI 算力短缺也不会很快缓解。
#Inference-opt#TSMC#C.C. Wei#Commentary
精选理由
H 和 R 都站得住:台积电 CEO 是算力供给的最高权威信源,他放话“几年内供不应求”对行业有直接参考价值。K 偏弱,因为正文只给了定性判断,没披露缺口规模、扩产计划或时间节点,我会先打个折——知道方向但不知道幅度,做决策还缺数据。
一句话点评
台积电CEO亲口说芯片产能未来几年都追不上AI需求,这不是市场猜测,是供应商自己交底了。
锐评
魏哲家在台积电年度股东会上直接放话:尽管公司在疯狂扩产,但AI芯片的供给缺口在未来数年都无法填平。原话是“我们只能支持这么多”,等于承认了需求远超供给的现实。这比任何第三方预测都更有分量,因为台积电几乎包揽了全球最先进的AI芯片制造。 报道没给出具体的供需缺口数字,也没说明是先进封装(CoWoS)卡脖子,还是前段晶圆产能不足。这点很关键——如果是封装环节受限,那瓶颈相对短期可解;如果是整个先进制程产能都吃紧,意味着从训练到推理的算力成本短期内都降不下来。 对AI从业者来说,这条消息的直接含义是:算力租赁和自建集群的成本不会很快回落,做模型训练和部署的预算得按高位来估。但也要注意,魏哲家这番话是在股东会上讲的,有管理市场预期的成分,实际扩产进度可能比公开表态更积极。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K0·R1
00:57
9d ago
r/LocalLLaMA· rssEN00:57 · 06·04
Headroom:在喂给大模型之前先把工具输出、日志、文件压缩掉 60-95%,答案不变
一个叫 Headroom 的开源项目,能在工具输出、日志、文件、RAG 外挂资料库进入大模型之前先做压缩,号称砍掉 60-95% 的 token 但答案不变。它提供三种接入方式:作为 Python 库直接调用、作为代理服务器拦截请求、或者作为 MCP 服务器集成到 agent 工作流里。压缩比例很夸张,但正文没披露具体用了什么压缩算法、在什么任务上测的...
#RAG#Tools#Inference-opt#headroom
精选理由
HKR三项都过,但这是一个单一Reddit/GitHub项目,没有披露评测任务、基线或失败案例。把它当做一个有用的小型开源工具,别当重磅发布。
一句话点评
一个叫 Headroom 的开源项目,号称能把工具输出、日志、RAG 外挂资料库等塞进大模型前的内容压缩掉 60-95% 的 token,且答案不变。提供三种接入方式:Python 库、代理服务器、MCP 服务器(让模型进业务流程干活)。压缩比例很夸张,但正文没披露具体用了什么算法、在什么任务上测的,也没说压缩后延迟和成本到底降了多少。如果是真的,对长上下文场景很省钱,但这点先别太激动——等...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
00:56
9d ago
Hacker News 首页· rssEN00:56 · 06·04
花1500美元测了9个模型能不能黑掉我的App,GPT-5.5胜出
作者自己搭了一个故意留漏洞的读书App(后端API很安全,但Firebase数据库权限没锁),然后让9个主流大模型去黑它,每个模型跑10次,总共烧了1500美元。结果只有GPT-5.5(7/10)、DeepSeek V4 Pro(3/10)和两个Claude(各2/10)成功过,其余全部挂零。GPT-5.5几乎每次都能直接找到Firebase的突破口,...
#Agent#Code#Safety#Benchmark
精选理由
HKR-H和HKR-R都成立:1500美元这个具体数字加上“黑自己应用”的设定,点击欲望强,而且跟Agent安全焦虑直接挂钩。HKR-K不成立:模型、漏洞类型、攻击成功率、实验可复现性全都没披露,信息太薄,所以分数卡在60–71这个区间。
一句话点评
花1500美元让9个大模型黑自己的App,只有GPT-5.5(7/10)和DeepSeek V4 Pro(3/10)成功,其余全挂。漏洞是Firebase权限没锁——API很安全但数据库裸奔,这是真实世界常见错误。GPT-5.5几乎每次都能直接找到Firebase突破口,成本$6.62/次;DeepSeek V4 Pro成功率低但单次仅$0.19,性价比高。Claude被安全护栏中途打断,G...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
00:18
9d ago
Hacker News 首页· rssEN00:18 · 06·04
伯克利CS挂科率飙升,教授归因于AI滥用和数学能力下降
UC伯克利的计算机课挂科率大幅上升,教授们认为主因是学生过度依赖AI写作业,同时数学基础也在变差。正文没有给出具体的挂科率数字,所以这个“飙升”到底多严重还不清楚。但趋势本身值得关注——如果连伯克利CS学生都开始因为AI代劳而学不到东西,那其他学校可能更严重。
#UC Berkeley#Hacker News#Commentary
精选理由
H和R两条通过,但K不通过——缺挂科率、样本和方法。单来源校园报道可以讨论,但事实太薄,分数压在60–71区间。
一句话点评
UC伯克利CS课挂科率飙升,教授归因于学生过度依赖AI写作业、数学基础变差。正文没给具体挂科数字,所以“飙升”多严重还不清楚。但趋势本身值得关注——如果伯克利CS学生都因AI代劳学不到东西,其他学校可能更严重。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
00:00
9d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 06·04
OpenAI 报告:会用 AI 正从竞争优势变成生存门槛,窗口期只剩四五年
OpenAI 发了一份报告,核心观点是:AI 熟练度不再是加分项,而是未来几年参与经济运转的基础设施,就像修路、架电线一样。报告用了一百五十年的经济史来论证这个判断,从电动机进工厂到 Solow 悖论,核心教训是通用技术要产生生产力收益,靠的不是换工具,而是围绕工具重新设计工作流程。报告里几个关键数字:Codex 周活用户超 500 万,知识工作者采用...
#OpenAI#Commentary
精选理由
标题和摘要给出了一个高冲击力的判断(AI 从优势变门槛,窗口四五年),HKR 三项都成立。但全文只有标题级和摘要级信息,没有披露方法论、样本量、报告细节,无法验证这个时间窗口的可靠性。因此评分落在 60-71 的上沿,不升到 featured。
一句话点评
OpenAI 这份报告的核心判断是:AI 熟练度正从竞争优势变成生存门槛,时间窗口只有四到五年。报告用150年经济史(从电动机进工厂到Solow悖论)论证:通用技术要产生生产力收益,靠的不是换工具,而是围绕工具重新设计工作流程。关键数字:Codex周活超500万,知识工作者采用速度是开发者的三倍,50%用户每天并行跑多个任务。报告建议把AI熟练度当基础设施来建,让最接近问题的人(护士、老师)...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
00:00
9d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 06·04
AlphaEvolve 拆解:把 LLM 塞进遗传算法,让机器搜索第一次有了方向感
Google DeepMind 的 AlphaEvolve 不是 AGI,也不是模型在改自己的权重。它把遗传算法里最蠢的零件——随机变异——换成了 LLM。LLM 读高分代码、读反馈、读失败历史,生成有语义的 diff,进化框架负责打分和选优。这样拼的好处是:NAS 不再靠随机撞,LLM 不再单点爬山。候选池里同时跑五到十个方向,一条路走死还有别的。目...
#Agent#Reasoning#Google DeepMind#AlphaEvolve
精选理由
文章拆解了 AlphaEvolve 的机制,但只停留在原理层面,没有新实验、数据或一手复现。信息量够判断方向,但不够支撑更高评分。
一句话点评
AlphaEvolve 不是 AGI,也没改自己权重。它把遗传算法里最蠢的随机变异换成了 LLM,让模型读高分代码和失败历史生成有意义的 diff,进化框架负责打分选优。这样 NAS 不再靠瞎撞,LLM 也不再单点爬山。候选池同时跑五到十个方向,一条路走死还有别的。目前只公开 13 个成功案例,37+ 失败未披露,泛化能力要打折。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1

更多

频道

后台