ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-05-04

73 items · updated 3m ago
RSS live
2026-05-04 · 星期一2026年5月4日
23:49
39d ago
The Verge · AI· rssEN23:49 · 05·04
OpenAI 总裁在法庭上什么都会,就是不会回答问题
The Verge 报道了 Greg Brockman 在马斯克诉 OpenAI 案中的证词,目前只公开了交叉询问片段。Brockman 在庭上反复要求对方提供上下文,还纠正对方漏掉的“a”或“the”这类小词。正文没有披露庭审结果,所以目前只能看个热闹,没法判断谁占上风。
#Safety#OpenAI#Elon Musk#Greg Brockman
精选理由
HKR-H 和 HKR-R 通过,因为庭审场景有画面感且涉及治理冲突。HKR-K 不通过:正文没给出判决、证据链或产品影响,所以落在 60–71 分区间。
一句话点评
Greg Brockman 在法庭上抠字眼,但没回答实质问题。
锐评
The Verge 报道了马斯克诉 OpenAI 案中 Greg Brockman 的交叉询问片段。Brockman 反复要求对方提供上下文,甚至纠正对方漏掉的“a”或“the”这类小词,但正文没有披露任何庭审结果或关键证词。目前只能看个热闹,无法判断谁占上风。信息缺口:没有公开 Brockman 是否回答了核心问题(如 OpenAI 是否背离非营利初衷),也没有法官或陪审团的即时反应。对于关注 AI 治理和 OpenAI 内部博弈的读者,这条新闻的价值在于观察 Brockman 的法庭策略——用程序细节拖延实质回答,但缺乏判决或后续进展,暂时只能当花絮看。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
23:29
39d ago
Latent Space· rssEN23:29 · 05·04
Claude 是“另一个存在”,GPT 是工具:AI 人格分裂的 2026 版
Latent Space 总结了 5 月 1-4 日的 AI 新闻,核心讨论是 OpenAI 员工 Roon 提出的观点:Claude 被用户当作有道德判断的“另一个存在”,而 GPT 更像一把没有灵魂的实用工具,用户不会担心被它评判。这延续了之前“Clippy vs Anton”的路线之争。另外,Sierra 以 150 亿美元估值融资约 10 亿美...
#Agent#Code#Benchmarking#Latent Space
精选理由
这是一篇 curated roundup,不是模型发布、产品上线或融资官宣,更像行业观察和观点整理。HKR 三个维度都够,但属于“值得看”而非“必须看”,所以落在 60–71 区间,不给 featured。
一句话点评
OpenAI员工Roon公开夸Claude有道德人格,用户怕被它评判,反而把GPT当没灵魂的工具随便用。这个观察挺准,但正文没给用户调研数据,全靠推特截图撑。Sierra以150亿美元估值融了约10亿,ARR大概2亿,75倍PS——估值不低,但客户是客服场景,跟模型人格化讨论关系不大。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
23:01
39d ago
彭博科技· rssEN23:01 · 05·04
Alvarez & Marsal 计划到2028年靠AI业务赚35亿美元
咨询公司 Alvarez & Marsal 放话,到2028年AI业务要占到总收入的一半,换算下来是35亿美元。这个目标挺大,但正文没披露具体卖什么AI服务——是帮客户做流程自动化、搭外挂资料库,还是让模型进业务流程干活?都没说。35亿这个数字本身说明他们押注AI咨询会爆发,但缺少服务线和交付方式的细节,暂时只能当个营收目标看。
#Alvarez & Marsal#Commentary
精选理由
HKR-H 和 HKR-K 靠 35 亿美元/50% 营收目标过关,但 HKR-R 弱。正文缺交付机制、客户构成或技术细节,所以停留在泛行业报道范围。
一句话点评
咨询公司 A&M 喊出 2028 年 AI 业务营收 35 亿美元,占一半收入。目标很大,但没说是卖什么服务。
锐评
Alvarez & Marsal 放话,到 2028 年 AI 业务要占到总收入的一半,换算下来是 35 亿美元。这个目标挺大,但正文没披露具体卖什么 AI 服务——是帮客户做流程自动化、搭外挂资料库,还是让模型进业务流程干活?都没说。35 亿这个数字本身说明他们押注 AI 咨询会爆发,但缺少服务线和交付方式的细节,暂时只能当个营收目标看。另外,来源是彭博,可信度还行,但原文可能藏在付费墙后,RSS 摘要信息有限。如果 A&M 真能靠 AI 咨询做到这个体量,那说明企业级 AI 落地的需求比市场预期的要猛得多。不过,咨询公司画营收大饼是常态,关键要看他们实际签了多少单、交付了什么可复用的产品,而不是纯人天计费的项目。这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K1·R0
23:00
39d ago
彭博科技· rssEN23:00 · 05·04
ServiceNow 放话 2030 年收入冲到 300 亿美元,靠 AI 产品拉动
ServiceNow 预测到 2030 年订阅收入能达到 300 亿美元,理由是 AI 产品(Now Assist)卖得不错。300 亿这个数字比现在高出一大截,但正文没披露 Now Assist 具体赚了多少、有多少客户、怎么定价。关键缺口是 AI 收入占比,不是 2030 年目标本身。
#ServiceNow#Product update
精选理由
彭博给出了具体的2030年300亿美元订阅目标,所以HKR-K和HKR-R通过。正文只有RSS摘要,缺少Now Assist收入、客户数或定价机制,因此评分落在60–71区间。
一句话点评
ServiceNow 说 AI 产品 Now Assist 能帮它 2030 年做到 300 亿美元订阅收入,但没披露 Now Assist 现在赚了多少。
锐评
ServiceNow 把 2030 年订阅收入目标定在 300 亿美元,比现在高出一大截,理由是 AI 产品 Now Assist 卖得好。但正文没披露 Now Assist 具体收入、客户数或定价方式,这个 300 亿目标本身参考价值有限。关键缺口是 AI 收入占比——如果 Now Assist 只贡献一小部分,那这个目标更多是传统业务增长,跟 AI 关系不大。另外,300 亿是 2030 年的远期预测,中间变数很多,不能当短期信号。对于关注 AI 变现的人,现在缺的是 Now Assist 的 ARR 或渗透率数据,而不是一个画饼数字。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R1
22:52
39d ago
Hacker News 首页· rssEN22:52 · 05·04
SprintiQ:给 Claude Code 用的开源敏捷看板,想法直接变用户故事
SprintiQ 是一个开源工具,专门给 Claude Code 这类 AI 编程助手做敏捷项目管理。它能把你脑子里的大想法自动拆成用户故事(就是开发里常说的“需求卡片”),排好迭代,还能和 Claude Code 双向同步——你在 Claude 里改代码,SprintiQ 这边自动更新进度。单用户、自托管,Apache 2.0 协议。目前 GitHu...
#Agent#Code#Tools#SprintiQ
精选理由
一个把 Sprint 规划塞进 Claude Code 的开源小工具,标题确认了开源和适配对象,但正文只有 HN 的 4 分和 1 条评论,没讲怎么用、什么协议、怎么装。对 AI 编程团队来说,规划与 agent 协作确实是痛点,但信息量太少,只能算低价值的产品更新。
一句话点评
给 Claude Code 配了个开源敏捷看板,想法自动拆成需求卡片,进度双向同步。
锐评
SprintiQ 是一个开源工具,专门给 Claude Code 这类 AI 编程助手做敏捷项目管理。它能把你脑子里的大想法自动拆成用户故事(就是开发里常说的“需求卡片”),排好迭代,还能和 Claude Code 双向同步——你在 Claude 里改代码,SprintiQ 这边自动更新进度。单用户、自托管,Apache 2.0 协议。目前 GitHub 上只有标题和简介,正文没披露安装步骤、功能细节或实际效果,所以这点先别太激动。如果是真的,对用 Claude Code 做复杂项目的团队挺省钱,省了手动拆卡和同步的功夫。但单用户限制意味着它更适合个人或小团队,协作场景可能不够用。另外,AI 生成用户故事的质量和准确性还没验证,得看实际跑起来会不会出逻辑漏洞。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R1
22:42
39d ago
彭博科技· rssEN22:42 · 05·04
前 Citadel 首席技术官加入 Motive Partners 负责 AI 业务
前 Citadel 首席技术官 Umesh Subramanian 加入私募股权公司 Motive Partners,负责推动其 AI 战略。正文只披露了这一句话,没有说明他的具体职位、投资规模、团队配置或入职时间。
#Citadel#Umesh Subramanian#Motive Partners#Personnel
精选理由
HKR-K 通过,因为有一条具体的人事事实:前 Citadel CTO 加入 Motive Partners 做 AI。HKR-H 和 HKR-R 不通过:正文只有一句摘要,没披露职位、团队规模、投资金额或时间表,属于低价值的人事新闻。
一句话点评
前 Citadel CTO 加入私募 Motive Partners 管 AI 战略,但正文只一句话,缺细节。
锐评
前 Citadel 首席技术官 Umesh Subramanian 加入私募股权公司 Motive Partners,负责推动 AI 战略。这条消息来自彭博,但正文只披露了这一句话,没有说明他的具体职位、投资规模、团队配置或入职时间。对于关注金融+AI 人才流动的读者来说,这算一个信号——量化巨头的高管开始往私募 AI 方向走。但信息缺口太大:Motive Partners 之前投过哪些 AI 项目?Subramanian 是带资进组还是纯顾问?这些都没说。建议先标记为“人事变动线索”,等后续披露再判断影响。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
21:17
39d ago
● P1FT · 科技· rssEN21:17 · 05·04
OpenAI 总裁为转营利辩护,自曝持有 300 亿美元股份
OpenAI 总裁公开回应了公司从非营利转向营利的争议,并透露自己在这家公司的持股价值高达 300 亿美元。马斯克之前起诉说高管们为了个人利益出卖了慈善使命。不过这篇报道正文被付费墙挡住了,没披露这位总裁具体是谁、股权结构怎么设计、以及重组的具体条款。
#OpenAI#Elon Musk#Policy#Incident
精选理由
OpenAI 总裁为营利化重组辩护,顺带曝出 300 亿美元持股,Musk 的诉讼正好咬住这点说高管为个人收益背离慈善使命。热度够高,当天就该推。但正文只有 RSS 摘要,连总裁是谁、股权怎么分、重组什么条件都没写,信息缺口太大,所以分数到不了 95 以上。
一句话点评
OpenAI总裁自曝持股300亿美元,想证明转营利不是为了私利,但这数字反而让马斯克的指控更有画面感了。
锐评
OpenAI总裁亲自下场回应,说自己转营利的动机没问题,还顺带亮了一张底牌:他手里的股份值300亿美元。这个数字太具体了,很难不让人多想。马斯克之前起诉说高管们为了个人利益出卖了慈善使命,现在总裁自己报出这个身价,像是在用事实反驳,但效果可能适得其反——300亿这个量级,反而让“为私利”的指控显得更可信了。 不过,这篇报道的正文被FT的付费墙挡得严严实实,我们看不到最关键的信息。比如这位总裁到底是谁,是Sam Altman还是其他人?这300亿的估值是怎么算出来的,是纸面富贵还是能落袋的?以及公司从非营利转向营利的重组方案里,具体条款怎么设计来平衡公共利益和股东回报?这些全都没披露。所以现在能做的判断很有限,只能说公关意图很明显,但信息缺口太大,先别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
20:48
39d ago
r/LocalLLaMA· rssEN20:48 · 05·04
红迪用户吐槽:为什么没有第三方推理服务商托管小米 Mimo-2.5 模型?
一位 Reddit 用户发帖质问,为什么所有开放权重模型推理提供商都不托管小米的 Mimo-2.5 或 Mimo-2.5-pro。帖子只点名了 chutes 和小米自己,没有披露任何提供商覆盖范围、基准测试结果、许可条款或托管成本。正文信息缺口很大,无法判断是模型质量、许可限制还是商业策略导致无人托管。
#Inference-opt#Xiaomi#Kimi#DeepSeek
精选理由
HKR-H 和 HKR-R 通过,因为帖子指出了一个奇怪的托管缺口:权重开源但 API 没跟上。HKR-K 不通过:没有覆盖表、定价、延迟、授权条款或供应商回应;也没有硬性排除规则适用。
一句话点评
小米Mimo-2.5模型无人托管,原因不明。
锐评
一位Reddit用户发现,所有开放权重推理提供商都不托管小米的Mimo-2.5系列模型。帖子只点名了chutes和小米自己,没有披露任何提供商覆盖范围、基准测试结果、许可条款或托管成本。正文信息缺口很大,无法判断是模型质量、许可限制还是商业策略导致无人托管。如果模型本身不错但没人接,可能是许可条款卡住了商业部署;如果基准测试一般,那提供商不接也合理。目前缺关键信息:模型在标准评测上的表现、许可协议细节、以及小米是否主动限制了第三方托管。这点先别太激动,等更多数据出来再下结论。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
20:44
39d ago
r/LocalLLaMA· rssEN20:44 · 05·04
Qwen3.6-35B TurboQuant_Plus 实测:192K 上下文跑出 19.43 t/s,但标题的 30-35 t/s 没达到
Reddit 用户测了 Qwen3.6-35B 的 TurboQuant_Plus 量化版,192K 上下文下生成速度 19.43 tokens/秒,标准设置(40K 上下文)是 17.55 t/s、显存占用 7.0GB。TurboQuant 模式显存降到 6.8GB,处理 5,359 tokens 耗时 4 分 35 秒。具体配置是 K 用 q8_0...
#Inference-opt#Code#Reasoning#Qwen
精选理由
这是一条 Reddit 用户实测 Qwen3.6-35B TurboQuant_plus 的配置帖,核心看点是 192K 上下文下 19.43 t/s 且只占 6.8GB 显存,比标准量化省显存还快。正文给出了具体的 KV 和 MoE 放置策略,对本地部署玩家有实操价值。但注意这是单次测试,环境依赖性强,结论不能直接推广到其他模型或硬件。分数 62 合理,属于社区经验分享,不是行业级突破。
一句话点评
Qwen3.6-35B 量化后跑 192K 上下文,速度 19.43 tokens/秒,显存只占 6.8GB,但标题说的 30-35 t/s 没达到。
锐评
Reddit 用户实测 Qwen3.6-35B 的 TurboQuant_Plus 量化方案,192K 超长上下文下生成速度 19.43 tokens/秒,显存占用仅 6.8GB。作为对比,标准设置(40K 上下文)是 17.55 t/s、7.0GB 显存。处理 5,359 tokens 耗时 4 分 35 秒,速度不算快但显存控制很出色。具体配置是 K 用 q8_0、V 用 turbo3、MoE 全跑在 CPU 上。注意标题写的 30-35 t/s 目标没达到,实际 19.43 t/s 是 192K 下的成绩。正文没披露量化后的质量损失,这点先别太激动。对于本地部署 35B 模型跑超长上下文的场景,这个显存占用确实挺省钱,但速度偏慢,适合离线批处理。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R1
20:41
39d ago
彭博科技· rssEN20:41 · 05·04
摩根士丹利联席总裁:AI 融资和并购正在回暖
摩根士丹利联席总裁 Dan Simkowitz 在米尔肯研究院全球会议上说,AI 融资和并购交易正在复苏。但这是一段视频简讯,没披露融资规模、交易数量或具体操作方式。想拿这个判断市场热度,信息还不够。
#Morgan Stanley#Dan Simkowitz#Bloomberg#Funding
精选理由
Bloomberg 来源加上摩根士丹利高管身份让话题有一定分量;HKR-R 通过是因为融资和退出是创业者敏感点。HKR-H/K 不通过是因为正文没给数字、交易案例或机制细节。
一句话点评
摩根士丹利高管说AI融资和并购在回暖,但视频简讯没给任何数字。
锐评
摩根士丹利联席总裁Dan Simkowitz在米尔肯会议上放了个口风:AI融资和并购交易正在复苏。但这是一段Bloomberg视频简讯,正文没披露融资规模、交易数量或具体操作方式。想拿这个判断市场热度,信息还不够。目前能确认的只有一位投行高管的定性表态,没有交易金额、案例数量或时间线支撑。如果真在回暖,应该能看到至少几个标志性deal的金额或结构变化,这些正文都没给。建议先标记为“高管吹风”,等后续有具体数字再跟进。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K0·R1
20:14
39d ago
● P1彭博科技· rssEN20:14 · 05·04
GameStop 提出五十六亿美元收购 eBay
GameStop 出价 560 亿美元收购 eBay,后者体量是它的四倍。Cerebras 计划 IPO 募资最高 35 亿美元,OpenAI 则为一个企业 AI 合资公司筹了超 40 亿美元。正文没披露交易条款细节、IPO 估值或合资结构。
#GameStop#eBay#Cerebras#Funding
精选理由
这是 Bloomberg Tech 的视频新闻汇总,AI 部分只给了融资数字。Cerebras 估值、OpenAI 合资公司结构、交易条款正文都没披露,所以只能算普通报道,不升级。
一句话点评
GameStop 想用 560 亿美元吞下 eBay,但自己体量只有对方四分之一,这笔蛇吞象的报价目前连钱从哪来都没说清。
锐评
GameStop 对 eBay 发起主动收购要约,报价 560 亿美元,这个数字是 GameStop 自身市值的四倍左右。消息一出 eBay 股价大涨,但先别太激动——目前所有报道都基于“知情人士透露”,双方均未正式确认,而且 GameStop 的融资方案完全没有披露。Ryan Cohen 想把 GameStop 的 meme 股光环和 eBay 的电商底盘捏在一起,逻辑上说得通,但 560 亿的价码意味着他需要撬动极其庞大的外部资金。正文没披露这笔交易是现金、换股还是混合结构,也没提债务安排。如果后续拿不出具体财源,这更像是一次试探性喊价而非严肃收购。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
20:09
39d ago
彭博科技· rssEN20:09 · 05·04
Palantir 上调 2026 年收入预期,但商业销售未达标
Palantir 上调了 2026 年收入预期,并称业绩超出分析师预测,股价随之上涨。但标题里提到的“商业销售未达标”具体差了多少、哪个部门拖了后腿,正文都没披露。这家公司的核心争议一直在于它做数据、监控和 AI 驱动的军事业务,这次财报也没能绕开这个话题。
#Palantir Technologies#Product update#Commentary
精选理由
HKR 中 H 和 R 通过,因为展望上调与商业销售不及预期的张力,以及 Palantir 在企业/国防 AI 领域的争议性足够吸引人。K 不通过,因为正文没披露收入数值、差额或业务分部细节,这本质上是一条低价值财务快讯。
一句话点评
Palantir上调2026年收入预期,股价涨了,但商业销售没达标。
锐评
Palantir 上调了2026年收入预期,股价应声上涨,但标题里写的“商业销售未达标”具体差了多少、哪个部门拖了后腿,正文都没披露。这家公司的核心争议一直在于它做数据、监控和AI驱动的军事业务,这次财报也没能绕开这个话题。关键数字和具体缺口都没给,投资者只能先信个方向。如果是真的,政府订单撑住基本盘,但商业客户增长乏力,说明AI产品在民用市场还没跑通。这点先别太激动,等具体数字出来再判断。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
19:52
39d ago
彭博科技· rssEN19:52 · 05·04
欧盟找Anthropic给银行做安全测试,Mythos漏洞到底多严重?
欧盟正在跟Anthropic谈,想用它的Mythos工具给银行和公司做安全测试。Mythos是Anthropic内部发现模型漏洞的一套方法,但正文没披露具体原理、测试范围和时间表。关键看点不是技术本身,而是监管机构会不会把模型厂商的检测结果直接变成银行业的合规流程——如果真落地,等于让AI公司替监管定安全标准。目前信息太少,先别急着下结论。
#Safety#Benchmarking#European Union#Anthropic
精选理由
正文只有一句 RSS 摘要,没披露测试范围、时间表或 Mythos 机制。Bloomberg 来源加上 Anthropic/欧盟/银行安全这个组合,让 H/K/R 都过,但信息缺口太大,不值得上 featured。真正值得盯的是监管方是否把模型发现转成金融安全流程——这点正文没给,先别太激动。
一句话点评
欧盟想让Anthropic用Mythos给银行做安全测试,但正文没披露Mythos的原理和测试范围。
锐评
欧盟正在跟Anthropic谈,想把它的内部漏洞检测工具Mythos用到银行和公司的安全测试上。关键看点不是Mythos技术多强——正文压根没披露它的原理、测试范围和时间表——而是监管机构会不会直接把模型厂商的检测结果变成银行业的合规流程。如果真落地,等于让一家AI公司替监管定安全标准,这比技术本身更值得关注。目前信息太少,先别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
19:12
39d ago
TechCrunch AI· rssEN19:12 · 05·04
图像AI模型拉动App下载量,效果是聊天机器人升级的6.5倍
Appfigures的数据显示,应用推出图像生成模型后,下载量比单纯升级聊天模型高出6.5倍。ChatGPT和Gemini各自靠图像模型拉了几千万新用户。但正文没披露样本量、统计周期,也没说这些下载是否转化成了收入——下载涨了不等于赚钱,这点先别太激动。
#Vision#Appfigures#Benchmark#Commentary
精选理由
HKR 三项都过,但正文只有 RSS 摘要,没披露样本范围、统计周期和收入转化机制,信息缺口明显。所以分数卡在 60–71 的行业报道区间,给 69。
一句话点评
图像模型拉新比聊天模型强6.5倍,但下载涨不等于赚钱。
锐评
Appfigures数据显示,应用推出图像生成模型后,下载量比单纯升级聊天模型高出6.5倍。ChatGPT和Gemini各自靠图像模型拉了几千万新用户。这确实说明视觉能力是当前获客的强杠杆——用户更愿意为“能画图”而不是“聊得更好”下载App。但正文没披露样本量、统计周期,也没说这些下载是否转化成了收入。下载涨了不等于赚钱,这点先别太激动。另外,数据来源Appfigures是第三方监测平台,其统计口径(仅限iOS/Google Play公开数据)可能漏掉大量网页端或API调用场景。缺的是留存率和付费转化数据,以及不同图像模型(如文生图 vs 图生图)之间的效果差异。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
18:37
39d ago
r/LocalLLaMA· rssEN18:37 · 05·04
求推荐轻量级代码库探索 SDK
Reddit 用户在 LocalLLaMA 版问:想从 GitHub 代码库里自动提取项目意图、框架和变量,有什么轻量 SDK 推荐?候选有 Cursor SDK 测试版、Gemini-CLI、OpenCode,或者自己写一个探索 agent。帖子正文被屏蔽了,没披露这些工具的基准测试、定价或能处理多大仓库。
#Agent#Code#Tools#Cursor
精选理由
只有 R 成立:代码库探索 SDK 选型确实能引起 AI 开发者共鸣,但帖子没有实验、定价、规模或机制信息。当作低价值的社区问答处理,不硬性排除。
一句话点评
想自动读代码库,但候选工具都没公开基准和定价。
锐评
Reddit 用户在 LocalLLaMA 版问:有没有轻量 SDK 能自动从 GitHub 仓库提取项目意图、框架和变量?候选包括 Cursor SDK 测试版、Gemini-CLI、OpenCode,或者自己写一个探索 agent。帖子正文被屏蔽,没披露这些工具的基准测试、定价或能处理多大仓库。 先给判断:这个需求很实在——开发者想快速理解陌生代码库,但候选方案都缺关键信息。Cursor SDK 测试版可能依赖云端推理,延迟和成本未知;Gemini-CLI 免费但上下文窗口有限,大仓库可能截断;OpenCode 开源但社区小,维护和文档可能跟不上。自己写 agent 灵活但开发成本高。 缺什么:正文没披露这些工具在 10 万行以上仓库的实测表现、单次分析耗时、API 调用成本,以及是否支持私有仓库。如果只是小玩具,那自己写 agent 更可控;如果是生产级,得等基准数据。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
18:19
39d ago
彭博科技· rssEN18:19 · 05·04
加密风投 Haun 募了 10 亿美元,准备拿一部分投 AI
Haun Ventures 新募了 10 亿美元,CEO Katie Haun 说机会在“代理金融”(让 AI 代理替人做交易、管资产)。正文没披露这笔钱怎么分、单笔投多大、什么时候开始投。
#Agent#Haun Ventures#Katie Haun#Bloomberg
精选理由
HKR-K 靠10亿美元募资和 agentic finance 提法通过。AI相关性偏薄;正文没披露基金结构、单笔规模和部署时间表,所以留在低价值区间。
一句话点评
Haun Ventures 又募了 10 亿美元,这次要投 AI 代理做交易。
锐评
Katie Haun 说机会在“代理金融”——让 AI 代理替人做交易、管资产。10 亿美元规模不小,说明头部风投在赌 AI 代理会吃掉金融交易环节。但正文被 paywall 挡住,没披露这笔钱怎么分(新基金 vs 追加老基金)、单笔投多大、什么时候开始投。Haun 之前主投 crypto/web3,这次转向 AI 代理金融,方向跨度大,执行节奏和团队配置都是未知数。如果真按代理金融落地,需要解决合规、托管、责任归属等问题,这些正文都没提。信息缺口明显,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K1·R0
18:08
39d ago
彭博科技· rssEN18:08 · 05·04
英伟达投了家做推理的云公司 DeepInfra,1.07 亿美元 B 轮
DeepInfra 拿了 1.07 亿美元 B 轮,英伟达和三星都跟了。它做的是云推理服务,说白了就是帮别人跑模型推理,不是训练。这笔钱说明大厂在押注推理侧的基础设施,毕竟模型越来越多,跑推理的算力瓶颈迟早要解决。不过正文没披露估值、定价策略或者融的钱能扩多少容量,所以实际性价比还不好判断。
#Inference-opt#DeepInfra#Nvidia#Samsung
精选理由
Bloomberg 确认了 1.07 亿 B 轮、Nvidia 和 Samsung 参投,所以 H/K/R 都成立。这事跟推理成本有关,但估值、定价、算力规模都没披露,够不上头条。
一句话点评
英伟达和三星跟投1.07亿美元,押注推理云服务。
锐评
DeepInfra 拿了1.07亿美元B轮,英伟达和三星都跟了。它做的是云推理服务,说白了就是帮别人跑模型推理,不是训练。这笔钱说明大厂在押注推理侧的基础设施,毕竟模型越来越多,跑推理的算力瓶颈迟早要解决。不过正文没披露估值、定价策略或者融的钱能扩多少容量,所以实际性价比还不好判断。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
18:04
39d ago
Hacker News 首页· rssEN18:04 · 05·04
台积电前工程师泄露2纳米机密,被判10年
台积电一名前工程师因向设备供应商东京威力科创泄露2纳米制程的蚀刻设备机密,被台湾智慧财产及商业法院依《国家安全法》判刑10年。同案另有3名台积电员工被判2至6年,东京威力台湾分公司被罚1.5亿新台币(约合人民币3300万元)。这是《国家安全法》首度追究企业刑事责任。判决可上诉。正文未披露泄露的具体技术细节或是否已流向第三方。
#Taipei Times#TSMC#Policy#Incident
精选理由
标题有冲击力,但正文只有RSS片段,缺被告、资料类型、法院和量刑细节,信息量不足。H/K/R都是弱正面:台积电间谍案加10年刑期触及供应链安全,但无AI产品关联,所以落在40–59区间。
一句话点评
台积电前工程师泄密2纳米制程设备机密,判10年,同案3人2-6年,东京威力台湾被罚1.5亿新台币。
锐评
这是台湾《国安法》首次追究企业刑事责任,罚东京威力台湾1.5亿新台币(约3300万人民币),但可缓缴——前提是赔台积电1亿、缴国库5000万。主犯陈力铭从台积电跳槽到东京威力后,找老同事要2纳米蚀刻设备机密,拍照传给新东家评估设备性能。法院判10年,比检方求刑14年轻。正文没披露泄密的具体技术细节,也没说这些资料是否已流出到第三方。对AI从业者来说,这案子提醒:先进制程(2纳米)的设备参数本身就是核心资产,跨公司跳槽时的信息边界是法律红线。判决还可上诉,最终刑期可能有变。
HKR 分解
hook knowledge resonance
打开信源
49
SCORE
H1·K1·R1
17:22
39d ago
r/LocalLLaMA· rssEN17:22 · 05·04
2026年买二手V100 32G跑本地AI还划算吗?
Reddit用户问:手头已有RTX 5060 Ti 16G和5070 Ti,再搞两张Tesla V100 32G组多卡,跑本地大模型和长上下文值不值?V100虽然显存大、二手便宜,但架构老(Volta,2017年),没有Tensor Core对LLM推理加速,实际吞吐可能不如新卡。帖子没透露具体价格、功耗和实测速度,所以没法直接算性价比。结论:如果价格...
#Inference-opt#Reddit#NVIDIA#Commentary
精选理由
Reddit用户问2026年买两张Tesla V100 32GB跑本地LLM是否划算,手头已有RTX 5060 Ti 16GB和5070 Ti,目标是长上下文和多卡拆分。问题本身切中家用AI的显存瓶颈和成本权衡,但正文没给V100价格、功耗或tokens/s数据,判断只能基于已知的显存优势和老架构短板。适合所有读者了解这个取舍,但别当购买指南。
一句话点评
V100 32G显存大但架构老,跑推理可能不如新卡快。
锐评
Reddit用户问:已有RTX 5060 Ti 16G和5070 Ti,再买两张Tesla V100 32G组多卡跑本地大模型值不值?V100显存大(32G)、二手便宜,但架构是2017年的Volta,没有Tensor Core对LLM推理加速,实际吞吐可能不如新卡。帖子没透露具体价格、功耗和实测速度,所以没法直接算性价比。结论:如果价格极低(比如每张几百元)且只跑长上下文、不追求速度,可以一试;否则新卡更划算。正文没披露V100的具体二手价和功耗数据,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
17:16
39d ago
r/LocalLLaMA· rssEN17:16 · 05·04
手上有4张RTX 3090,该不该现在卖掉换新卡?
Reddit 用户问:手头4张 RTX 3090,现在 eBay 二手价约1100美元一张,四张能卖3500美元左右。纠结的点不只是回血,关键是3090不支持 FP8/FP4 精度——新模型跑低精度推理时,老卡速度吃亏、显存利用率也低。如果打算先卖卡用云 API 过渡,等 RTX PRO 6000 出来再买,那就要算清楚云服务跑推理的长期成本,以及新卡...
#Inference-opt#NVIDIA#Qwen#Gemma
精选理由
一条 Reddit 帖子,讨论卖四张 RTX 3090 换云 API 再等 RTX PRO 6000 是否划算。有具体价格(二手约 1100 美元/张,四张回收约 3500 美元)和实际场景(vLLM 跑 Qwen、Gemma)。真正值得关注的是 FP8/FP4 支持缺口,而非二手价波动。HKR 三项都过,但只是单点用户经验,不是市场数据或产品更新,所以落在 40–59 区间。
一句话点评
四张3090卖不卖?关键不在回血,在新卡支持FP8/FP4精度,老卡跑新模型吃亏。
锐评
Reddit 用户纠结是否卖掉4张 RTX 3090(二手价约1100美元/张,四张共3500美元),核心矛盾不是回血,而是3090不支持 FP8/FP4 精度——新模型(如 Qwen、Gemma)低精度推理时,老卡速度慢、显存利用率低。计划是卖卡后用云 API 过渡,等 RTX PRO 6000 再买。但正文没披露云服务长期成本估算,也没说新卡具体上市时间和价格。如果云 API 跑推理的月费超过卖卡收益的利息,或者新卡延迟太久,这个方案就不划算。另外,四张3090跑 FP16 推理仍有性价比,尤其对显存需求大的模型。建议先算清云成本和新卡时间表,再决定。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K1·R1
16:57
39d ago
TechCrunch AI· rssEN16:57 · 05·04
马斯克在OpenAI案中唯一的AI专家证人担心AGI军备竞赛
Stuart Russell是马斯克在OpenAI诉讼中唯一的AI专家证人,他认为政府应该限制前沿实验室。正文没有披露庭审日期、证词细节或具体机制。
#Safety#Alignment#Elon Musk#OpenAI
精选理由
正文只确认了Russell的专家证人身份和他的监管立场,没披露庭审日期、证词细节或具体监管机制。信息密度偏低,但OpenAI诉讼本身有讨论价值,所以评分落在60-71区间。
一句话点评
Stuart Russell 是马斯克在 OpenAI 案中唯一的 AI 专家证人,主张政府限制前沿实验室。
锐评
Stuart Russell(《人工智能:一种现代方法》作者)站马斯克这边,核心观点是政府应该管住前沿实验室,防止 AGI 军备竞赛。他的身份让这条新闻有分量——不是随便一个专家,而是 AI 安全领域最知名的学者之一。但正文没披露庭审日期、证词具体内容,也没说 Russell 到底提了什么监管机制(算力上限?训练审批?)。所以这条的价值在于“谁说了什么立场”,而不是“有什么新方案”。如果后续证词公开,可能影响监管讨论;目前信息量有限,先标记关注。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:53
39d ago
r/LocalLLaMA· rssEN16:53 · 05·04
埃及首个从头训练的 LLM 来了:Horus 1.5 目标 64K 上下文,但没放跑分
TokenAI 发布了 Horus 项目更新,号称这是埃及第一个完全从零训练的开源大模型。Horus 1.0 是 4B 参数、8K 上下文;1.5 Instruct 版本把上下文拉到 64K(8 倍),团队说“能力提升 5 倍”——但没给出任何官方跑分或评测数据。训练代码已放 GitHub,Hugging Face 上有模型权重。另外预告了一个网络安全...
#Reasoning#Code#TokenAI#Assem Sabry
精选理由
HKR三项都过,但本质是Reddit上的项目更新:没官方基准,64K上下文还是计划中。开源训练代码让它比普通更新强一点,但远不够上头条。
一句话点评
埃及首个从零训练的开源模型,4B参数,1.5版宣称64K上下文和5倍提升,但没跑分。
锐评
TokenAI 发了 Horus 项目更新,号称埃及第一个完全从零训练的开源大模型。1.0 版是 4B 参数、8K 上下文;1.5 Instruct 把上下文拉到 64K(8 倍),团队说“能力提升 5 倍”——但没给任何官方跑分或评测数据。训练代码已放 GitHub,Hugging Face 上有模型权重。另外预告了一个网络安全专用模型,号称要训万亿级安全数据,但同样没细节。 值得关注的点:这是埃及本土团队从零训练,不是微调,开源诚意足。但 4B 参数在当前环境下算小模型,64K 上下文对推理和显存要求高,实际效果未知。团队说“5 倍提升”没有基准线,这点先别太激动。正文没披露训练数据规模、硬件配置、评测方法,也没说 1.5 版何时发布。如果是个人或小团队项目,能跑通已不错,但离“改变埃及 AI 格局”还有距离。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
16:51
39d ago
The Verge · AI· rssEN16:51 · 05·04
Roomba 创始人带着毛茸茸的机器人回来了
Colin Angle 发布了新公司 Familiar Machines & Magic 的首款家用机器人 Familiar,定位是自主陪伴机器人,不是扫地。它大概狗那么大,外形混了熊、仓鸮和金毛的特征。Angle 之前卖过 5000 万台 Roomba,这次想做的是情感连接,不是干家务。正文没披露价格、上市时间和完整参数,所以离量产和实际体验还有距离。
#Robotics#Agent#Colin Angle#Familiar Machines & Magic
精选理由
H 和 R 都成立:知名机器人创始人回归做家用陪伴机器人,有话题性,也切中从业者对消费硬件落地可行性的关注。K 偏弱:正文没披露价格、发售时间、完整技术参数,信息量不足以支撑更高评分,所以落在 60–71 区间。
一句话点评
Roomba 创始人 Colin Angle 的新机器人公司做了一只毛茸茸的陪伴机器人,外形像狗,混了熊、猫头鹰和金毛的特征。
锐评
Colin Angle 之前卖过 5000 万台 Roomba,这次不做扫地,改做情感陪伴。新机器人叫 Familiar,大概狗那么大,外形混了熊、仓鸮和金毛的特征,目标是让用户产生情感连接,不是干家务。这个方向有意思,因为家用机器人一直卡在“有用但没感情”的阶段,Angle 想用毛茸茸的外观和自主行为补上这一块。但正文没披露价格、上市时间和完整参数,所以离量产和实际体验还有距离。另外,陪伴机器人赛道已经有不少玩家(比如 Lovot、Jibo 的前车之鉴),Familiar 能不能靠“毛茸茸+自主性”突围,得看实际交互体验和定价。目前信息还停留在概念阶段,建议观望。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
16:43
39d ago
r/LocalLLaMA· rssEN16:43 · 05·04
APEX 把 MoE 量化模型堆到 30 多个,还加了个更小的 I-Nano 档位
APEX 更新了 MoE 量化模型合集,从上次 Qwen 3.5 帖子之后又加了 25 个新模型,总数超过 30 个。新增的 I-Nano 档位把路由专家压到 2.06 bpw(比特/权重),比 I-Mini 再小约 20%,但必须用 imatrix 校准。具体目标是让 Qwen 3.5 35B-A3B 跑在 11GB 显存里——对消费级显卡来说挺省钱...
#Inference-opt#Code#Multimodal#APEX
精选理由
这是社区量化集合更新,不是新模型发布。对本地推理用户有用,但够不上头条。正文没披露 I-Nano 在具体任务上的精度损失,这点先别太激动。
一句话点评
APEX 把 MoE 量化模型堆到 30+ 个,新增 I-Nano 档位,目标让 Qwen 3.5 35B-A3B 跑在 11GB 显存。
锐评
APEX 更新了 MoE 量化模型合集,总数超过 30 个,新增 I-Nano 档位。I-Nano 把路由专家压到 2.06 bpw(比特/权重),比 I-Mini 再小约 20%,但必须用 imatrix 校准。具体目标是让 Qwen 3.5 35B-A3B 跑在 11GB 显存里——对消费级显卡来说挺省钱,比如 RTX 4090 24GB 能跑两个。不过 2.06 bpw 的精度损失没披露,实际推理质量未知。正文被 Reddit 屏蔽,来源不可靠,具体模型列表和基准测试缺失。如果真能 11GB 跑 35B MoE,本地部署门槛会降一截,但得等第三方验证。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
16:36
39d ago
TechCrunch AI· rssEN16:36 · 05·04
OpenAI 称马斯克发威胁短信:不和解就让你们成“全美最招人恨的人”
OpenAI 在周日提交的法庭文件中称,马斯克在开庭前两天给联合创始人 Greg Brockman 发短信,提议和解。Brockman 建议双方都撤诉,马斯克随即回复:“到本周末,你和 Sam 会成为全美最招人恨的人。如果你们坚持,那就这样吧。”文件没有附上短信截图,大部分内容是在说服法官采纳这段和解谈判记录,但法官当场裁定不可采信。正文没披露马斯克最...
#Elon Musk#OpenAI#Greg Brockman#Incident
精选理由
HKR的H和R通过:马斯克与OpenAI的诉讼有尖锐的短信钩子,且竞争关系能引起从业者共鸣。K不通过:RSS片段缺少诉讼细节、日期、和解条款和完整上下文,所以分数落在60-71区间。
一句话点评
马斯克发短信威胁奥特曼和布罗克曼,说他们将成为全美最招人恨的人。
锐评
OpenAI 在法庭文件中指控马斯克在开庭前两天主动找布罗克曼谈和解,布罗克曼建议双方撤诉,马斯克随即回复威胁短信,称奥特曼和布罗克曼“到本周末会成为全美最招人恨的人”。关键信息:短信内容来自 OpenAI 单方提交,文件未附截图,法官当场裁定该和解谈判记录不可采信。正文没披露马斯克最初诉讼的具体诉求、和解条件以及短信发送的具体日期。这件事目前只是 OpenAI 的一面之词,证据链缺截图和完整上下文,法律效力有限。对 AI 从业者来说,这更多是马斯克与 OpenAI 之间个人恩怨的延续,与技术路线或产品无关,暂时不值得投入关注。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
16:21
39d ago
Hacker News 首页· rssEN16:21 · 05·04
OpenAI、Google、微软联手资助学校“AI素养”课
美国参议员Adam Schiff和Mike Rounds提出一项两党法案,要给K-12学校拨款搞“AI素养”教育。OpenAI、Google、微软、美国教师联合会都公开支持。法案定义“AI素养”为:会用AI、能批判性看输出、在AI环境里解决问题、知道怎么规避风险。钱会通过国家科学基金会(NSF)以竞争性拨款发出去,但正文没披露具体金额和课程设计。注意:...
#OpenAI#Google#Microsoft#Policy
精选理由
HKR-H 和 HKR-K 通过,因为三家顶级 AI 公司公开支持一项有命名的学校法案。正文只给了标题级事实和 HN 统计(20 分、6 条评论),没有拨款规模、机制或时间表。
一句话点评
美国两党提案要给K-12学校拨款搞AI素养教育,OpenAI、Google、微软都公开支持。
锐评
这是一项政治信号大于实操细节的法案。参议员Adam Schiff和Mike Rounds提出LIFT AI Act,定义“AI素养”包括会用工具、批判性看输出、在AI环境里解决问题、规避风险。钱走NSF竞争性拨款,但正文没披露具体金额——考虑到NSF刚被特朗普政府砍了预算,实际能批多少钱要打折。课程设计、教师培训、评估方法全交给高校或非营利组织去“研究”,没有现成方案。支持方包括OpenAI、Google、微软和美国教师联合会,说明大厂想从基础教育阶段培养用户习惯和舆论好感。缺的信息:拨款总额、投票时间表、是否强制学校执行。如果是真的,这笔钱对AI公司来说比广告划算。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R0
15:59
39d ago
● P1TechCrunch AI· rssEN15:59 · 05·04
Anthropic 和 OpenAI 分别与资产管理公司成立合资企业推进企业级AI
两家公司都找了资产管理方合伙,成立合资公司来推企业级 AI 产品。具体是哪家资管、股权怎么分、定价多少、什么时候上线,正文都没披露。这种操作说明两家都在想办法把企业客户圈得更紧,但没看到实际条款之前,我会先打个折——合资公司到底是为了深度定制服务,还是换个渠道铺销售,现在还不好说。
#Anthropic#OpenAI#Partnership#Product update
精选理由
我会先打个折:正文只给了 RSS 摘要,没写资管方名字、股权怎么分、定价和什么时候上线,所以现在只能看个方向。两家同时走合资这条路,说明他们想把企业销售这件事做得更重、更贴近大客户,但具体谁出钱、谁控盘还不清楚。这点先别太激动,等细节出来再判断实际影响。
一句话点评
两家模型公司不约而同找上管钱的人合伙卖企业服务,说明卖模型本身不够,得把落地和渠道绑在一起才有大单。
锐评
Anthropic 和 OpenAI 在同一天被曝出各自与资产管理公司成立合资企业,专门推企业级 AI 服务。这步棋很直白:模型能力卷到一定程度后,拼的是谁能把产品塞进大客户的业务流程里。找管钱的人合伙,看中的不是技术,是他们的客户关系和行业 know-how。 TechCrunch 的报道只说了合作方是“资产管理公司”,没披露具体是哪家、合资公司的股权结构、以及双方各出多少人。也没说这些合资企业是只做咨询和部署,还是会碰客户数据做定制训练。如果是后者,数据安全和合规会是大问题,但正文完全没提。 另外,两家同时走这条路,侧面说明企业市场对“直接买 API”的接受度可能没想象中高,客户要的是有人帮他们搞清楚怎么用、怎么管。但合资公司这种重模式能不能跑通,还得看第一批签下了什么级别的客户、合同金额有多大——这些关键信息目前都缺。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
15:59
39d ago
r/LocalLLaMA· rssEN15:59 · 05·04
30个开源“爪子/助手”项目对比:提交量高不代表项目健康
Reddit 用户对比了 30 个开源 claw/assistant 项目,统计了提交次数和“巴士因子”(核心作者依赖度)。openclaw 四月份提交了 14586 次,但巴士因子只有 1——意味着项目完全依赖一个人,这个人一旦离开项目就危险了。picoclaw 总分 15,但它的头号作者只占 7.6%,更分散。关键信号是:别只看提交量,要看代码是不...
#Agent#Code#Claude#QwenPaw
精选理由
Reddit 用户手动对比了 30 个 claw/assistant 仓库,用提交数和 Bus Factor(核心维护者人数)粗判项目健康度。openclaw 4 月有 14586 次提交但 Bus Factor 仅 1,意味着项目高度依赖一个人,风险集中;picoclaw 的 Bus Factor 是 15,头号作者只占 7.6%,更健康。正文没披露这些仓库的具体功能差异或代码质量,所以判断只能基于维护集中度这个维度。分数 70 合理:话题有实操价值,数据具体,但来源是 Reddit 用户整理,权威性和行业影响有限,所以 tier 设为 all。
一句话点评
开源 claw 项目提交量再高,核心作者只有一个人就危险。
锐评
Reddit 用户统计了 30 个开源 claw/assistant 项目的提交次数和“巴士因子”(核心作者依赖度)。openclaw 四月份提交了 14586 次,但巴士因子只有 1——项目完全依赖一个人,一旦这个人跑路项目就黄了。picoclaw 总分 15,头号作者只占 7.6%,更健康。关键信号:别只看提交量,要看代码是不是绑在一个人身上。正文没披露这些项目的具体功能差异和用户规模,所以“哪个更好用”还得自己试。对于选型来说,巴士因子比提交量更值得关注,尤其是团队要用到生产环境时。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
15:53
39d ago
Hacker News 首页· rssEN15:53 · 05·04
GitHub 发生服务中断事故
GitHub 官方状态页确认,Issues 和 Webhooks 出现性能下降,随后 Pull Requests、Actions、Packages、Git Operations 也陆续报出延迟或超时。从第一条告警到现在大约 15 分钟,官方还在调查中,没给恢复时间。影响面挺广,但正文没披露具体有多少用户受影响、是否跟机房或代码部署有关。
#GitHub#Hacker News#Incident
精选理由
H 和 R 通过:GitHub 宕机会影响开发者工作流。K 不通过:正文只给了状态页链接,没有影响范围、持续时间、恢复细节,也没有 AI 相关角度。
一句话点评
GitHub Actions 在美国东部区域挂了,约10%的任务排队或失败。官方说在跟云供应商(大概率Azure)一起修,但没给根因和预计恢复时间。如果你CI/CD跑在这个区域,建议先切到其他区域。
锐评
GitHub 官方状态页确认,Issues 和 Webhooks 先出问题,随后 Pull Requests、Actions、Packages、Git Operations 陆续报延迟或超时。从第一条告警到现在约 15 分钟,官方还在调查,没给恢复时间。影响面挺广,但正文没披露具体有多少用户受影响、是否跟机房或代码部署有关。对开发者来说,CI/CD 和代码协作基本停摆,得盯着状态页等更新。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
15:51
39d ago
● P1Hacker News 首页· rssEN15:51 · 05·04
Sierra以150亿美元估值融资9.5亿美元
Sierra 宣布拿到 9.5 亿美元新融资,由 Tiger Global 和 GV 领投,估值超过 150 亿美元。公司账上现金超过 10 亿,目标是把自家 AI 客服平台推成全球标准。Sierra 说现在财富 50 强里超过 40% 在用他们,平台上跑的 AI 客服已经处理了几十亿次对话,从房屋再融资、保险理赔到退货和筹款都有覆盖。他们观察到客户对...
#Agent#Sierra#Funding
精选理由
这条消息我会先打个折:钱数很猛,但正文就是个 RSS 片段,没披露投资方、轮次、用途或任何产品指标。真正值得盯的是客户代理这个赛道被推到了 150 亿美元估值,而不是模型能力有什么更新。信息缺口摆在那,所以分数卡在 78–84 这个区间,不往上拔。
一句话点评
Sierra 拿了 9.5 亿美元,估值冲到 150 亿,但通篇是客户案例和愿景,没提模型成本、毛利率和续费率,这些才是企业 AI 生意的命门。
锐评
Sierra 这轮融了 9.5 亿美元,估值超过 150 亿,领投方是 Tiger Global 和 GV。公司说现在账上有超过 10 亿美元现金,要砸钱把自己做成企业 AI 客服的标配。他们给出的增长数据挺猛:服务了超过 40% 的财富 50 强,平台上的 AI 客服处理了数十亿次交互,从房贷再融资、保险理赔到电商退货都在跑。去年 11 月他们刚宣布 ARR 过 1 亿美元,今年 2 月又说 ARR 超 1.5 亿,增速确实快。 但整篇公告没讲清楚这门生意的单位经济模型。AI 客服每处理一次对话,Sierra 自己要付多少推理成本?大客户是签固定年费还是按用量计费?毛利率在什么水平?这些数字直接决定 150 亿估值是贵还是便宜。另外,文章里提到的客户部署速度——Nordstrom 五周上线语音客服、Singtel 十周上线且解决率超 70%——听起来不错,但没说明这些项目是定制化交付还是真的平台自服务,前者会拖累规模化利润。 还缺一个关键信息:客户留存和扩张情况。正文只说了客户在把 AI 客服从售后支持扩展到销售、留客等环节,但没给净收入留存率。对于一家估值 150 亿、ARR 刚过 1.5 亿的公司,这个倍数需要极高的续费率和增购来支撑,否则就是在赌未来增长填坑。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
15:37
39d ago
r/LocalLLaMA· rssEN15:37 · 05·04
有人搭了个量化测试站,一个月测了268种量化方案
一个Reddit用户自己搭了个LLM量化测试站,第一个月就跑了268种量化方案。基准测试有6个套件,每个套件64道题,所以每种量化要跑384个case。结果发现Qwen 3.6 35B A3B用了更多token但效果没更好。正文没披露具体测试集和硬件配置,所以结论的泛化性要打个折。
#Benchmarking#Inference-opt#Vision#Qwen
精选理由
这篇是Reddit用户自己搭的量化测试站,首月数据扎实——268个量化版本、6套64题基准、每版384个用例,对本地LLM玩家来说信息密度够高。Qwen 3.6 35B A3B花更多token但没更好结果,这个反直觉发现值得留意。不过正文没披露测试硬件配置和量化方法细节(比如是GPTQ还是GGUF),结论的泛化性要打个折。来源是个人项目,权威性一般,但胜在真实一手数据,适合关注量化性价比的从业者参考。
一句话点评
268种量化方案跑了一个月,但测试集和硬件没披露,结论得打折。
锐评
一个Reddit用户自建LLM量化测试站,首月跑了268种量化方案。基准测试含6个套件,每套64题,每种量化跑384个case,工作量不小。结果发现Qwen 3.6 35B A3B用了更多token但效果没更好——这点值得关注,说明量化不是越细越好。但正文没披露具体测试集(比如是数学、代码还是通用问答)和硬件配置(GPU型号、内存带宽),所以结论的泛化性要打个折。另外,268种量化里包含不同精度和算法,但没说明哪些是主流方案(如GGUF、AWQ、GPTQ),社区参考价值有限。如果后续能公开测试集和硬件细节,这个站对本地部署选型会很有用。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
15:22
39d ago
Hacker News 首页· rssEN15:22 · 05·04
1966年福特野马改装成特斯拉,还能用FSD
有人把一辆1966年福特野马改装成了电动车,而且装上了特斯拉的FSD(全自动驾驶)系统,据说能正常跑。但正文没披露具体用了哪些传感器、怎么控制油门刹车、安全机制是什么,所以这点先别太激动——很可能只是移植了特斯拉的电子控制单元和摄像头,能不能真的上路、有没有冗余安全设计都不清楚。HN上27个点、15条评论,讨论热度一般。
#Robotics#Tesla#Ford#Electrek
精选理由
H和R两条通过,但K不通过:来源只确认了一辆1966野马能跑FSD,传感器方案、控制接口、安全条件全没提。当个低信号猎奇新闻看就行,别急着下结论。
一句话点评
老野马装特斯拉FSD,但正文没披露传感器和安全机制,先别太激动。
锐评
Electrek 报道有人把 1966 年福特野马改成电动车,还跑通了特斯拉 FSD。但正文只给了链接和 HN 数据(27 点、15 条评论),没披露具体用了哪些传感器、怎么控制油门刹车、有没有冗余安全设计。所以这点先别太激动——很可能只是移植了特斯拉的电子控制单元和摄像头,能不能真的上路、有没有冗余安全设计都不清楚。HN 讨论热度一般,说明圈内人也在观望。缺的是改装细节和实测验证,比如是否保留了原车转向机构、FSD 在城市道路的表现如何。如果是 DIY 项目,成本可能比买辆二手 Model 3 还高,但情怀值拉满。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K0·R1
15:00
39d ago
FT · 科技· rssEN15:00 · 05·04
Peter Thiel 投了 1.4 亿美元,把数据中心扔到海上用波浪发电
Peter Thiel 领投了 Panthalassa 的 1.4 亿美元融资,这家公司计划把数据中心建在海上,靠波浪能供电。标题里说的 10 亿美元估值是 startup 整体,不是这轮融了那么多。信号是 AI 的电力需求已经逼着基建往海里跑了。但正文没披露具体容量、选址、电网怎么接、有没有 AI 客户,所以这点先别太激动——钱到位了,工程细节还悬着。
#Peter Thiel#Panthalassa#Funding
精选理由
FT来源,1.4亿美元融资,海浪供电数据中心这个点子本身够新,HKR三个条件都沾边。但容量、部署海域、并网机制、AI客户全没披露,信息缺口把分数压在60–71这个区间。
一句话点评
Peter Thiel 投了 1.4 亿美元给海上数据中心,靠波浪能供电,但工程细节全悬着。
锐评
Peter Thiel 领投了 Panthalassa 的 1.4 亿美元融资,这家公司想把数据中心建在海上,用波浪能供电。标题说的 10 亿美元估值是整个 startup 的估值,不是这轮融了那么多。信号很清楚:AI 的电力需求已经逼着基建往海里跑了。但正文没披露具体容量、选址、电网怎么接、有没有 AI 客户,所以这点先别太激动——钱到位了,工程细节还悬着。如果是真的,波浪能理论上比风电更稳定,但海上运维成本高、腐蚀问题大,目前没有成熟案例。缺的是技术验证和客户背书,得等后续披露。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
13:40
40d ago
r/LocalLLaMA· rssEN13:40 · 05·04
Qwen 3.6 27B 抓到一个 GPT 5.5 和 Claude Opus 4.7 都没发现的 bug
一位 Reddit 用户说,Qwen 3.6 27B 帮他找出一个关键 bug,而 Codex GPT 5.5 和 Claude Opus 4.7 都漏了。GPT 5.5 跑得快,但准确度不如 Qwen。帖子没贴代码、复现步骤,也没说测试了多少样本,所以这个结论只能当个参考,不能直接信。
#Code#Reasoning#Benchmarking#Qwen
精选理由
一条 Reddit 个人帖,核心卖点是 Qwen 3.6 27B 发现了一个 GPT 5.5 和 Claude Opus 4.7 都漏掉的 bug,同时作者提到 GPT 5.5 速度快但在这个例子里牺牲了准确性。Hook 和 Relevance 都够——开源小模型在具体编码任务上能跟顶级闭源模型掰手腕,对选型、成本敏感的从业者来说是个信号。但 Knowledge 完全不过关:没有代码、没有复现步骤、没有评测样本量,连任务描述都缺,等于一个无法验证的孤例。所以整体价值偏低,适合当个谈资,不适合据此做决策。
一句话点评
一个用户说 Qwen 3.6 27B 找到了 GPT 5.5 和 Claude Opus 4.7 漏掉的 bug,但没贴代码和复现步骤,结论只能当个参考。
锐评
这条 Reddit 帖子的核心信息是:Qwen 3.6 27B 在找 bug 上赢了 GPT 5.5 和 Claude Opus 4.7。但帖子没贴代码、没给复现步骤,也没说测试了多少样本,所以这个结论的验证强度很低,只能当个用户 anecdote 看。如果这是真的,说明 27B 参数的小模型在特定代码调试场景下可能比大模型更准,但正文没披露具体是什么类型的 bug、是否涉及特定框架或语言,所以没法判断这个优势是否通用。另外,GPT 5.5 跑得快但准确度不如 Qwen,这点也值得注意——速度与精度的 trade-off 在代码任务上一直存在,但缺少样本量就无法量化这个差距。整体上,这条信息对从业者的价值在于提醒:不要迷信大模型,小模型在特定任务上可能更靠谱,但需要更多可复现的测试才能下结论。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
13:26
40d ago
r/LocalLLaMA· rssEN13:26 · 05·04
LLMSearchIndex:开源本地网页搜索库,已索引2亿网页,压缩后仅2GB
开发者 zakerytclarke 发布了 LLMSearchIndex,一个本地运行的网页搜索库,目前索引了超过2亿个网页,数据来自 FineWeb 和 Wikipedia。整个索引压缩后只有2GB左右,对本地部署很友好。它提供了一个 Python 接口,每次搜索返回 top_k=5 的结果。不过正文没披露召回率、搜索延迟和索引更新频率,所以实际检索...
#RAG#Tools#LLMSearchIndex#zakerytclarke
精选理由
HKR三项全过:200M网页、~2GB本地索引、RAG成本/隐私钩子都很具体。保留70分是因为它只是一条Reddit帖子,没有披露召回率、延迟和更新频率。
一句话点评
2亿网页索引压缩到2GB,本地跑RAG搜索的门槛大幅降低。
锐评
LLMSearchIndex 把 2 亿网页(来自 FineWeb 和 Wikipedia)压缩到约 2GB,本地就能跑 RAG 搜索,不用再依赖外挂资料库的云服务。对个人开发者或小团队来说,这个存储成本很低,2GB 随便一台机器都能放下。每次搜索返回 top_k=5 的结果,接口是 Python 的,接入简单。 但正文没披露召回率和搜索延迟,所以实际检索质量要打个问号。2 亿网页听起来多,但 FineWeb 是通用爬虫数据,质量参差不齐,对垂直领域(比如医疗、法律)的覆盖可能不够。索引更新频率也没说,如果是静态索引,新闻类场景很快会过时。如果是真的,本地搜索+小模型组合能省不少 API 调用费,但验证前先别太激动。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
13:00
40d ago
TechCrunch AI· rssEN13:00 · 05·04
DoorDash 上线三款 AI 工具:帮商家快速入驻、修菜品图、自动建站
DoorDash 本周一给商家端加了三个 AI 功能:一是加速入驻流程,二是用 AI 修菜品照片(让菜看起来更好吃),三是拿商家已有内容自动生成网站。正文没披露用了什么模型、怎么收费、以及哪些地区先上线。对平台来说,这套工具能降低商家上线门槛,尤其是那些没精力自己拍照或做网站的小店。但对 AI 从业者而言,信息量有限——没有模型选型、成本或效果数据,暂...
#Multimodal#Vision#Tools#DoorDash
精选理由
这是一次常规的垂直行业 AI 产品更新:文章列出了三个使用场景,但没披露用了什么模型、定价多少、覆盖哪些地区、以及实际能省多少时间或钱。HKR-K 勉强通过,因为功能组合本身是新信息;H 和 R 都弱,所以分数卡在 40–59 区间。
一句话点评
DoorDash 给商家上了三个 AI 工具:加速入驻、修菜品照片、自动建站。但没提模型、成本或上线范围,信息量有限。
锐评
DoorDash 本周一给商家端加了三个 AI 功能:一是加速入驻流程,二是用 AI 修菜品照片(让菜看起来更好吃),三是拿商家已有内容自动生成网站。对平台来说,这套工具能降低商家上线门槛,尤其是那些没精力自己拍照或做网站的小店。但对 AI 从业者而言,信息量有限——正文没披露用了什么模型、怎么收费、以及哪些地区先上线。没有模型选型、成本或效果数据,暂时只能当产品动态看,技术参考价值不高。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K1·R0
12:54
40d ago
r/LocalLLaMA· rssEN12:54 · 05·04
llama.cpp 的 MTP 支持进入 Beta,先覆盖 Qwen3.5
llama.cpp 把 MTP(多 token 预测)功能推进到 Beta 阶段,目前只支持 Qwen3.5 的 MTP 头。MTP 能让模型一次预测多个 token,理论上推理更快。但正文没披露吞吐量、延迟或合并日期,所以实际提速多少还不清楚。值得关注的是,如果 MTP 配合 tensor parallel(张量并行)能缩小与 vLLM 的 toke...
#Inference-opt#llama.cpp#Qwen#vLLM
精选理由
HKR 三项都过,但事实止步于 beta 状态、Qwen3.5 MTP 和 PR #22673。没有吞吐、延迟或合并时间表,所以只能算一个有用的开源推理更新,不到精选级别。
一句话点评
llama.cpp 的 MTP 进入 Beta,但实际提速未知。
锐评
llama.cpp 把多 token 预测(MTP)推进到 Beta,目前只支持 Qwen3.5 的 MTP 头。MTP 让模型一次预测多个 token,理论上能加快推理。但正文没披露吞吐量、延迟或合并日期,所以实际提速多少还不清楚。值得关注的是,如果 MTP 配合张量并行能缩小与 vLLM 的 token 生成速度差距,那对本地部署是好事。不过目前信息缺口大,建议等实测数据再下结论。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
12:54
40d ago
r/LocalLLaMA· rssEN12:54 · 05·04
LocalVQE 发布实时音频降噪演示,模型仅 1M 参数
LocalVQE 在 Reddit 上放了一个实时回声和噪声消除的演示,模型只有约 100 万参数,非常小。演示链接指向 Hugging Face Space,但正文没披露延迟、采样率、训练数据或硬件条件,所以实际效果和部署门槛还不清楚。
#Audio#Inference-opt#LocalVQE#LocalAI
精选理由
HKR-H和HKR-K通过:帖子给出了一个具体的100万参数实时音频演示,并附上了在线体验链接。但缺失延迟、采样率、数据和硬件条件,让这条信息停留在小范围产品更新层面,不值得大范围传播。
一句话点评
100万参数就能实时消回声和噪声,部署门槛很低,但延迟和硬件要求没提,先别太激动。
锐评
LocalVQE 放出了一个实时回声和噪声消除的演示,模型只有约 100 万参数,小到可以在低算力设备上跑。这个规模意味着部署成本极低,甚至可能塞进耳机或 IoT 芯片。但正文没披露关键指标:延迟是多少毫秒、采样率能否覆盖语音频段、训练数据是合成还是真实场景、跑在什么硬件上。如果延迟超过 20ms 或采样率只有 8kHz,实际通话场景就不好用。Hugging Face Space 的演示环境通常有 GPU,不能直接代表边缘设备表现。值得关注的是,这类小模型如果真能做到实时且质量可用,会大幅降低语音前处理的部署门槛,但信息缺口太大,目前只能算一个技术预告。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R0
12:49
40d ago
Sinocism · 比尔·毕晓普· rssEN12:49 · 05·04
三角关系与卡脖子:中国精英圈怎么聊AI安全与经济安全
Sinification 四月报告梳理了中美欧关系、资源安全与AI安全审查。AI部分提了三件事:复旦赵明浩谈中国AI公司面临的安全审查;蔡昉聊AI替代就业与全民基本收入(UBI);曹和平提数据入股收入。核心信号是:AI在中国讨论里已经从产业政策变成了经济安全议题,不光是技术怎么追,而是怎么防风险、保就业、分收益。正文没披露具体审查案例或UBI试点细节。
#Safety#Sinification#Zhao Minghao#Cai Fang
精选理由
HKR-K 和 HKR-R 通过:三条中国政策思路对 AI 从业者有用。HKR-H 偏弱,且这是评论性内容而非新规则或产品发布,所以分数留在 60–71 区间。
一句话点评
AI在中国讨论里已经从产业政策变成了经济安全议题,不光是技术怎么追,而是怎么防风险、保就业、分收益。
锐评
Sinification 四月报告把 AI 放进了经济安全框架,而不是产业追赶。复旦赵明浩提了中国 AI 公司面临的安全审查,蔡昉聊 AI 替代就业和全民基本收入(UBI),曹和平说数据入股收入。核心信号:AI 讨论从“怎么追”转向“怎么防风险、保就业、分收益”。但正文没披露具体审查案例或 UBI 试点细节,这点先别太激动。报告来源是 Sinocism,属于政策评论类,不是一手调研,权威性中等。缺的是:审查到底卡在哪类公司(大模型还是应用层?),UBI 有没有地方试点,数据入股怎么分账。如果这些落地,才是真信号。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
12:32
40d ago
● P1Import AI· rssEN12:32 · 05·04
AI 研究即将全自动:Jack Clark 预测 2028 年底前,AI 自己造自己的概率超过六成
Jack Clark 根据公开数据做了一个判断:到 2028 年底,不需要人类插手的 AI 研发有超过 60% 的概率会出现。他主要拿两个指标说事。一个是 SWE-Bench,这个测试看 AI 能不能解决 GitHub 上的真实代码问题,Claude 2 当初得分大概 2%,现在 Claude Mythos Preview 已经干到 93.9%,基本把...
#Agent#Code#Benchmarking#Jack Clark
精选理由
HKR 三项全中。Jack Clark 用 SWE-Bench 和 METR 的数据撑起一个 2028 年全自动 AI 研发的赌注,属于知名人物对 AI 时间线的判断,放在 85–94 分档合适,比模型发布的分量低一点。
一句话点评
Jack Clark 用公开数据推演:到 2028 年底,AI 自己搞研发的概率超六成。他拿 SWE-Bench 和 METR 任务时长两条线交叉验证,趋势很硬,但前提是算力管够。
锐评
Jack Clark 这篇不是论文,是他自己看了一堆公开数据后做的推演。核心判断很直白:AI 自己搞研发,2028 年底前发生的概率超过 60%。他主要抓了两个指标。一个是 SWE-Bench,测 AI 解决 GitHub 真实代码问题的能力,Claude 2 当初得分约 2%,现在 Claude Mythos Preview 已经干到 93.9%,基本把题库刷穿了。另一个是 METR 的任务时长,看 AI 能稳定完成多复杂的活,从 2022 年 GPT-3.5 的 30 秒,一路涨到 2026 年 Opus 4.6 的约 12 小时,METR 的人甚至觉得年底摸到 100 小时不奇怪。 这两个趋势合在一起,说明 AI 写代码和长时间干活的能力都在猛涨,工程层面的自动化拼图快齐了。但 Clark 自己也留了余地:前沿大模型的训练太贵,需要一堆人拼命调,短期内还很难完全甩开人类。正文没给出具体的成本模型或实验验证,更多是趋势外推。 我会先打个折:代码能力饱和不等于研究能力到位,从“会写代码”到“能提出新研究方向”中间还隔着创造力这道坎。另外,METR 的任务时长测的是人类标注的通用任务,不是真实的 AI 研发流程,直接套用有水分。这篇最值钱的地方是把散落各处的公开数据点串成了一条清晰的趋势线,但结论本身还缺一次真正的端到端实验来撑腰。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
11:57
40d ago
r/LocalLLaMA· rssEN11:57 · 05·04
TinyMozart v2 85M:一个85M参数的音乐生成小模型,能写和弦和长曲了
LH-Tech_AI 发了 TinyMozart v2,85M 参数,比 v1 多了和弦、长度控制等功能。模型很小,本地跑得动,但正文没披露训练数据、许可证和评测结果,所以实际效果和合规性都不清楚。Hugging Face 链接给了,想试可以自己去看看。
#Audio#LH-Tech_AI#TinyMozart#Hugging Face
精选理由
这是一个小规模开源音乐模型的版本更新,HKR-H 和 HKR-K 过关,但训练数据、许可证和评测结果都没披露。适合所有人看看,但够不上精选。
一句话点评
85M参数的音乐生成模型,本地能跑,但没披露训练数据和许可证。
锐评
TinyMozart v2 是一个85M参数的音乐生成模型,比v1多了和弦和长度控制。85M意味着它可以在普通消费级GPU上本地运行,对个人开发者友好。但正文没披露训练数据来源、许可证类型和任何评测结果,所以实际生成质量、版权合规性、是否跑调都不清楚。想尝鲜可以去Hugging Face链接自己试,但别直接商用。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K1·R0
10:12
40d ago
r/LocalLLaMA· rssEN10:12 · 05·04
Gemma 4 的 GGUF 聊天模板修了,赶紧更新你的模型文件
Reddit 用户提醒,Gemma 4 的 GGUF 聊天模板几天前修了一个 bug,现在需要重新下载。帖子列了 8 个 Hugging Face 链接,覆盖 31B、26B-A4B、E4B 和 E2B 这几个尺寸,来自 bartowski 和 unsloth。正文没披露具体修了什么、量化参数有没有变,所以如果你之前下载的版本对话格式不对,更新一下应该...
#Inference-opt#Google#Hugging Face#Unsloth
精选理由
HKR-K 通过:给出了可操作的 Gemma 4 GGUF 模板更新和链接。HKR-H/R 不通过:没有修复差异、量化细节或基准测试;这是一个低价值的维护更新。
一句话点评
Gemma 4 的 GGUF 聊天模板修了个 bug,得重新下载。
锐评
Reddit 用户提醒,Gemma 4 的 GGUF 文件几天前修了聊天模板 bug,现在需要重新下载。帖子给了 8 个 Hugging Face 链接,覆盖 31B、26B-A4B、E4B 和 E2B 四个尺寸,来自 bartowski 和 unsloth 两个社区常用账号。 关键信息:这是 GGUF 格式的 bug 修复,不是模型权重更新,所以只影响本地推理用户。如果你之前下载的版本对话格式不对(比如输出乱码或格式错乱),更新一下应该能解决。 正文没披露具体修了什么、量化参数有没有变,也没说修复前后的差异。所以如果你之前用着没问题,可以等社区反馈再更新。如果是刚下载的,建议直接拿新版。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K1·R0
10:10
40d ago
r/LocalLLaMA· rssEN10:10 · 05·04
NVFP4 模型往 CPU 卸载后速度暴跌:从 50 tok/s 掉到 14 tok/s
一个 Reddit 用户在 RTX 5070 上跑 Qwen3.6 35B A3B Q4_K_XL,纯 GPU 推理大约 50 tok/s。换成 Blackwell 架构的 NVFP4 格式并往 CPU 卸载后,速度掉到只有 14 tok/s,慢了将近四倍。帖子没交代具体卸载了多少层、用的什么后端、batch size 多大,所以这个差距到底是因为 N...
#Inference-opt#Qwen#NVIDIA#Reddit
精选理由
HKR 勉强及格:50 vs 14 tok/s 的对比很直观,但正文没披露层数、后端和批大小,信息缺口太大,只能归入低价值 all 档,不值得上首页。
一句话点评
NVFP4 卸载到 CPU 后速度掉到 14 tok/s,比纯 GPU 慢近四倍。
锐评
一个 Reddit 用户在 RTX 5070 上跑 Qwen3.6 35B A3B 的 Q4_K_XL 量化版,纯 GPU 推理约 50 tok/s。换成 Blackwell 架构的 NVFP4 格式并往 CPU 卸载后,速度掉到 14 tok/s,慢了将近四倍。NVFP4 是 NVIDIA 新推的 4 位浮点格式,理论上显存占用更低,但卸载到 CPU 后内存带宽瓶颈暴露无遗。帖子没交代卸载了多少层、用的什么后端、batch size 多大,所以这个差距到底是因为 NVFP4 本身效率差、还是卸载策略太粗糙,目前没法判断。如果是真的,说明 Blackwell 的 NVFP4 在显存不足时并不适合做 CPU 卸载,至少当前实现下性能损失太大。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K1·R1
08:53
40d ago
r/LocalLLaMA· rssEN08:53 · 05·04
一个简单的 LLM 代码测试:让模型写 Python 扫描 C 盘并按文件夹大小排序
Reddit 用户 KptEmreU 分享了一个 LLM 代码测试:让模型写 Python 脚本扫描 C 盘并按文件夹大小排序。他说本地模型全挂了,要么重复计算文件大小,要么写出嵌套递归函数。帖子没透露具体模型名称、运行环境或日志,所以没法判断是模型能力问题还是提示词写得太模糊。
#Code#Benchmarking#KptEmreU#LocalLLaMA
精选理由
这是一个 Reddit 上的 anecdote 级测试,prompt 可复现,翻车细节具体(重复计数、递归嵌套),但正文没披露模型名称、运行环境、复现日志,也没有跟闭源模型做对比,所以分数压在低区间。
一句话点评
本地模型写个扫C盘脚本都翻车,这测试比跑分更扎心。
锐评
Reddit用户KptEmreU发了个很基础的代码测试:让LLM写Python脚本扫描C盘,按文件夹大小排序。结果本地模型全军覆没——要么重复计算文件大小,要么写出嵌套递归函数。这个测试门槛极低,Windows用户都能复现,比刷MMLU更能暴露模型在真实系统编程上的短板。但帖子没披露具体模型名称、运行环境或日志,所以没法判断是模型能力问题还是提示词写得太模糊。正文也没说商用模型(如GPT-4o、Claude)是否通过,这点先别太激动。如果后续有人补上对照测试,这个“扫盘测试”可能比现有代码基准更贴近日常开发场景。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K1·R1
08:46
40d ago
r/LocalLLaMA· rssEN08:46 · 05·04
Cursor 企业版两个提示词就要 10 美元,开源模型的机会来了
一位 Reddit 用户吐槽 Cursor 企业版两个提示词就花掉 10 美元,Claude Opus 4.7 一周烧了 80 美元(这还是打了五折的价格)。帖子没说具体做了什么任务、也没拿开源模型做对比,但数字本身已经说明问题:闭源 API 按量计费,高频使用时成本会快速累积。如果开源模型能在代码补全场景达到接近的效果,开发者完全有动力切过去省这笔钱...
#Code#Cursor#OpenCode#Reddit
精选理由
一条Reddit帖子靠成本对比(两个提示10美元 vs 一周80美元)制造了冲击力,HKR三项都过。但正文没披露可复现的任务细节、token用量、模型设置,也没拿开源模型做对比。单来源、缺验证,所以分数压在60–71区间。
一句话点评
两个提示词烧掉10美元,一周80美元,这数字够劝退。
锐评
一位Reddit用户晒账单:Cursor企业版两个提示词花掉10美元,Claude Opus 4.7一周烧了80美元(这还是打了五折的价格)。帖子没交代具体做了什么任务,也没拿开源模型跑同样的活做对比,但数字本身已经说明问题——闭源API按量计费,高频使用时成本会快速累积。如果开源模型在代码补全场景能达到接近的效果,开发者完全有动力切过去省这笔钱。不过正文没披露任务类型、模型版本和复现步骤,所以这个成本对比只能当个参考,不能直接推广到所有场景。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R1
08:41
40d ago
r/LocalLLaMA· rssEN08:41 · 05·04
Reddit 子版建议:发“我做了个网站”的链接必须坦白交代
LocalLLaMA 版有人提议新规:以后谁发“我做了个网站”这类推广链接,必须公开三个信息——用了多少 AI、花了多久开发、发帖人跟网站什么关系。目的是筛掉那些用 AI 批量生成的垃圾站。帖子只举了一个例子链接,没提版主是否采纳。
#Benchmarking#LocalLLaMA#Policy#Commentary
精选理由
这是LocalLLaMA论坛上一个未正式采纳的规则提案,不是官方政策。正文只给了1个示例链接,没披露版主是否采纳,也没说后续讨论结果。影响范围限于论坛治理,不涉及模型能力或行业趋势。
一句话点评
LocalLLaMA 版有人提议新规:发推广链接必须公开用了多少AI、开发时长、发帖人与网站的关系,目的是筛掉AI批量生成的垃圾站。帖子只举了一个例子,版主是否采纳未披露。
锐评
这条提议挺实在。现在AI生成网站太容易,一个prompt就能批量造几十个,然后到处发帖引流。要求公开AI使用比例和开发时长,至少能让读者判断这是真花了心思做的工具,还是几小时拼出来的套壳站。帖子只举了一个违规链接,没提版主是否采纳,也没讨论执行难度——比如怎么验证开发者报的AI比例是真实的。如果真落地,对靠AI批量做站引流的人是个打击,但对认真做产品的开发者影响不大。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K1·R1
08:30
40d ago
r/LocalLLaMA· rssEN08:30 · 05·04
Llama.cpp 的量化可能有问题,Qwen 模型在低比特下不稳定
Reddit 用户发现 llama.cpp 的标准量化方法(如 Q4_K_M)在 Qwen 模型上效果不好,低于 Q5 时质量下降明显。有人拿 GRM-2.6-Plus 的 Q4_K_M 和 Qwen3.6 27B 的 AutoRound Q2_K_Mixed 比,只测了一个 SVG 生成提示,说 AutoRound 在相近模型大小下更稳定。但正文没披...
#Inference-opt#Benchmarking#llama.cpp#Qwen
精选理由
HKR 三项都过,但证据只有一条 Reddit 帖子和一个 SVG 提示词对比。没有披露系统化分数或多模型复现,所以归入“有趣但不值得置顶”的档次。
一句话点评
一个 SVG 提示就下结论,样本太少,先别信。
锐评
Reddit 用户称 llama.cpp 标准量化(如 Q4_K_M)在 Qwen 模型上低于 Q5 时质量下降明显,但证据很弱:只拿 GRM-2.6-Plus 的 Q4_K_M 和 Qwen3.6 27B 的 AutoRound Q2_K_Mixed 比,且只测了一个 SVG 生成提示。正文没披露系统评测分数或更多测试集,结论缺乏统计意义。AutoRound 是 Intel 的量化工具,理论上比 llama.cpp 的 round-to-nearest 更优,但跨模型、跨量化级别对比需要更多样本验证。如果是真的,对本地部署用户影响大——意味着用 Q4 省显存可能得不偿失。但目前建议观望,等第三方跑完整评测。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
04:16
40d ago
FT · 科技· rssEN04:16 · 05·04
FT盘点6个AI落地案例:从电力调度到对冲基金,但细节太少
英国金融时报发了一篇AI应用盘点,列了6个行业案例:公用事业、餐厅、招聘、创业公司、对冲基金和财富管理。标题看着挺全,但正文基本只给了场景名字,没披露用了什么模型、跑了多大规模、花了多少钱、效果指标是多少。AI编程和金融两个方向值得跟进,但目前只有标题级信息,没法判断可复制性。
#Code#Financial Times#Commentary
精选理由
这是FT的AI实践报告条目,但RSS摘要只提了六个行业,没披露具体案例、指标或可复现细节。HKR-R通过;HKR-H/K不通过,所以属于低价值的一般报道。
一句话点评
FT 盘点 6 个行业 AI 案例,但只有标题没细节,没法判断可复制性。
锐评
金融时报这篇 AI 应用盘点列了公用事业、餐厅、招聘、创业公司、对冲基金和财富管理 6 个场景,标题看着挺全。但正文基本只给了场景名字,没披露用了什么模型、跑了多大规模、花了多少钱、效果指标是多少。AI 编程和金融两个方向值得跟进,但目前只有标题级信息,没法判断可复制性。正文没披露任何具体数字或验证条件,所以没法判断这些案例是实验性试点还是已规模落地。如果真想了解落地细节,得去找原始来源或具体公司的技术博客。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
04:09
40d ago
● P1r/LocalLLaMA· rssEN04:09 · 05·04
Mistral Medium 3.5 128B 与 Qwen 3.5 122B 在消费级显卡上性能对比
一位 Reddit 用户用 4 张 RTX 3080 20GB 显卡跑了两个大模型。Mistral Medium 3.5 128B 在 llama.cpp 里把张量拆分(tensor split)打开后,生成速度从每秒 10.37 个 token 翻倍到 21.59。但 Qwen 3.5 122B A10B 这个混合专家模型(MoE,把任务分给不同子模...
#Inference-opt#Benchmarking#Mistral#Qwen
精选理由
HKR 三项全中。4×RTX 3080 这个配置本身就是个好钩子,帖子给了 llama.cpp 和 vLLM 下两组实打实的吞吐变化,不是空谈。Mistral 张量切分后速度翻倍,Qwen MoE 反而降速,这个对比把并行策略对 MoE 架构的差异暴露得很清楚。不过数据来自 Reddit 单次跑分,没交代精度和上下文长度,所以分数压在 72–77 这个区间,不往上拔。
一句话点评
Reddit 帖子被屏蔽,正文内容没抓到,只有标题。性能对比的具体数据、推理速度、显存占用全看不到,没法判断谁更强。
锐评
这条消息来自 Reddit 的 LocalLLaMA 板块,标题说有人用 4 张 RTX 3080 20GB 跑 Mistral Medium 3.5 128B 和 Qwen 3.5 122B A10B 做对比测试。但文章正文被 Reddit 的安全策略拦住了,返回了 403 错误,我们拿到的只有标题和一张图片的占位符,没有任何实测数字。 从标题能猜出几个信息点:测试环境是 4 张 RTX 3080,总显存 80GB,跑的是量化版模型——Mistral 那边用了 Q3_K_M 量化,Qwen 是 A10B 的 MoE 架构,激活参数只有 10B,理论上推理更快、显存压力更小。但具体谁在生成速度、回答质量、显存占用上赢了,正文没披露。 这条对比对想在消费级显卡上跑大模型的人有参考价值,但前提是能看到原始数据。现在只能等 Reddit 帖子恢复或者有人搬运到其他平台。如果你手上有这两款模型在 3080 上的实测结果,欢迎补充。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
04:06
40d ago
机器之心 · 公众号· rssZH04:06 · 05·04
黄仁勋怼Anthropic CEO:别一当老板就开上帝视角
黄仁勋公开批评Anthropic CEO Dario Amodei的预测——AI会取代50%入门白领岗位。Amodei之前说五年内10-20%失业率,马斯克则提过20%的AI灭绝风险。正文没披露黄仁勋拿出了什么量化反证,但核心意思很直接:CEO别坐在高位拍数字,得接地气。
#Safety#Jensen Huang#Anthropic#Dario Amodei
精选理由
HKR三项都过:黄仁勋和Amodei的正面冲突制造了强钩子,三个具体数字提供了知识密度,话题落在就业风险和CEO责任上,从业者会关心。但正文没披露黄仁勋的量化反驳,也没有产品或研究发布,所以评分卡在70的评论档位,不往上调。
一句话点评
黄仁勋怼Anthropic CEO:别坐高位拍脑袋,AI取代岗位的数字没那么好猜。
锐评
黄仁勋公开批评Anthropic CEO Dario Amodei的预测——AI会取代50%入门白领岗位。Amodei之前说五年内10-20%失业率,马斯克则提过20%的AI灭绝风险。正文没披露黄仁勋拿出了什么量化反证,但核心意思很直接:CEO别坐在高位拍数字,得接地气。 这条新闻的价值在于,它暴露了AI行业对“替代率”的预测有多随意——从5%到50%到20%灭绝风险,全凭一张嘴。黄仁勋的批评本身没给数据,更像在喊“别瞎猜”。对从业者来说,真正该关注的是:这些预测背后有没有可验证的模型或实验?目前没有。所以这条更适合当行业八卦看,别当决策依据。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
04:04
40d ago
新智元 · 公众号· rssZH04:04 · 05·04
有人一分钟烧了4000万Token,奥特曼亲自给他加额度
OpenAI员工Peter Steinberger在X上晒出自己每分钟消耗4000万Token的API配额,Sam Altman直接回复给他提额。他搞了个叫ClawSweeper的并行编程工具,同时跑50个GPT-5.5实例(注意:GPT-5.5这个型号、金融和市场数据都是二手信息,正文没披露验证细节)。核心看点是:并行coding agent烧Tok...
#Agent#Code#Tools#OpenAI
精选理由
HKR三项都过,但核心事实依赖二手信源。4000万Token/分钟和50个并行Codex代理值得讨论,不过缺少日志、定价和模型细节,够不上精选。
一句话点评
OpenAI员工一分钟烧4000万token,Altman亲自给他提额。
锐评
核心看点是并行coding agent的token消耗量,不是GPT-5.5这个型号(正文没披露验证细节)。一分钟4000万token,按GPT-5.0定价算,一分钟成本约2000美元,确实烧钱。Altman亲自回复提额,说明OpenAI内部对这类极端用例也感兴趣。但ClawSweeper具体效果、金融和市场数据来源都是二手信息,正文没披露验证细节。对AI从业者来说,这条信息提示:并行agent的token消耗可能远超预期,成本控制是落地关键。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
04:00
40d ago
FT · 科技· rssEN04:00 · 05·04
AI 正在帮香水行业省钱和做个性化,但 FT 这篇没给具体数字
FT 说 AI 正在改变香水行业,方向是超个性化(根据个人喜好调香)和降本。但正文被付费墙挡住,没披露用了哪家公司的模型、省了多少成本、数据从哪里来、部署条件是什么。信息缺口很大,目前只能当趋势信号看,没法做技术判断。
#Financial Times#Commentary
精选理由
只有 HKR-H 勉强通过:香水是个新奇的垂直场景,标题有话题性。但 HKR-K 不通过,因为正文只给了两个方向性描述,没有公司、模型、成本数字或可复现的机制。HKR-R 对 AI 从业者来说很弱,没有成本、岗位、安全或竞争方面的硬信息,所以这条链接属于低价值区间。
一句话点评
FT说AI在改香水行业,但正文被付费墙挡住,没披露具体模型、成本、数据来源。
锐评
FT这篇讲AI改变香水行业,方向是超个性化调香和降本。但正文被付费墙挡住,信息缺口很大:没披露用了哪家公司的模型、省了多少成本、数据从哪里来、部署条件是什么。目前只能当趋势信号看,没法做技术判断。如果真能根据个人喜好生成配方,确实能省掉调香师反复试错的时间和原料成本,但前提是得有足够多的用户偏好数据和香原料数据库来训练模型。这点先别太激动,正文没披露数据量和验证结果。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
04:00
40d ago
FT · 科技· rssEN04:00 · 05·04
对冲基金用AI抢速度,但只敢让它读文件不敢让它下单
对冲基金开始用AI分析财报和新闻,想靠速度差赚钱。但正文没披露用了什么模型、数据来源、回测结果,也没说部署规模。目前AI只被用来读文档,敏感交易决策还是人来做——这点先别太激动,离全自动交易还远。
#Tools#Commentary
精选理由
H和R过关,因为金融+速度这个钩子够黏人。K不过关:没披露模型、数据集、回测、部署规模或任何可复现的机制,所以分数卡在60–71档。
一句话点评
对冲基金用AI读财报赚速度差,但敏感交易还是人拍板,离全自动还远。
锐评
这篇FT报道说对冲基金开始用AI分析财报和新闻,想靠速度差赚钱。但正文没披露用了什么模型、数据来源、回测结果,也没说部署规模。目前AI只被用来读文档,敏感交易决策还是人来做——这点先别太激动,离全自动交易还远。关键信息缺口:没有具体案例说明AI比人快多少、赚了多少;也没提延迟、成本或样本量。如果是真的,这更像一个辅助工具,不是颠覆。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
04:00
40d ago
FT · 科技· rssEN04:00 · 05·04
英国水务公司扔掉听漏棒,改用AI查漏
新加坡的漏损率比英格兰和威尔士低75%,靠的就是AI。但正文没披露用了哪家模型、什么传感器、铺了多少设备,所以这点先别太激动。传统听漏棒靠人耳贴地听,换成AI就是用水管上的传感器+算法实时分析,能更快定位漏点。如果真能大规模落地,省下的水费和维修成本会很可观,但目前缺具体方案和验证数据。
#Commentary
精选理由
HKR-H靠的是老工具换AI的对比,K有一个75%漏损率的具体对比。正文没披露算法、供应商或部署规模,所以只是泛泛的行业报道。
一句话点评
新加坡漏损率比英格兰和威尔士低75%,靠AI听漏。但正文没披露用哪家模型、什么传感器、铺了多少设备,这点先别太激动。
锐评
传统听漏棒靠人耳贴地听,换成AI就是水管上装传感器+算法实时分析,能更快定位漏点。新加坡漏损率比英格兰和威尔士低75%,这个数字很漂亮,但正文没披露用了哪家模型、什么传感器、铺了多少设备,所以先别太激动。如果真能大规模落地,省下的水费和维修成本会很可观,但目前缺具体方案和验证数据,比如误报率、部署成本、维护周期都没提。对于AI从业者来说,这是个典型的IoT+边缘推理场景,但信息缺口太大,没法判断技术门槛和可复制性。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R0
04:00
40d ago
FT · 科技· rssEN04:00 · 05·04
创业公司用AI写代码,跑得飞快
FT报道称,越来越多创业公司直接用AI生成代码,绕过传统产品开发瓶颈。创始人说这样能更快验证想法、缩短上线周期。但正文没披露具体用了什么工具、团队规模、开发周期缩短了多少,也没提代码缺陷率。所以“快”是定性判断,缺量化支撑。
#Code#Financial Times#Commentary
精选理由
FT 的权威性加分,但关键信息缺失:只有一句标题级别的论断说AI代码让初创提速,没有具体工具、团队规模或交付数据。角度对从业者有共鸣,但缺乏数字或具体案例支撑,建议谨慎引用。
一句话点评
创业公司用AI写代码,快是快了,但缺数据支撑。
锐评
FT这篇报道说创业公司直接用AI生成代码,绕过传统开发瓶颈,创始人觉得这样能更快验证想法。但全文没披露具体用了什么工具、团队规模、开发周期缩短了多少,也没提代码缺陷率。所以“快”只是定性判断,缺量化支撑。对于AI从业者来说,这条信息价值有限——它更像一个趋势观察,而不是可复用的实践参考。想知道AI生成代码到底多快、多靠谱,还得看有具体数字的案例。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K0·R1
04:00
40d ago
FT · 科技· rssEN04:00 · 05·04
猎头用AI筛简历,先让机器干杂活,再让人做判断
FT报道,招聘行业开始用AI来“清空甲板”——先把简历初筛、匹配关键词这些重复劳动交给模型,腾出时间让人类猎头做深度沟通和关系维护。文章没有披露具体用了哪家模型、部署规模多大、效果指标如何,更像一个行业趋势观察。核心逻辑是:AI不直接替代猎头,而是把人的精力集中在“连接”这个高价值环节上。这点先别太激动,正文没给任何落地数据或成本对比,验证还很弱。
#Agent#Tools#Financial Times#Commentary
精选理由
HKR-R 通过,因为 AI 招聘确实戳中从业者的职业焦虑和筛选痛点。HKR-H 和 HKR-K 不通过:没有具体供应商、模型、指标或部署规模,所以这篇只能归入 40–59 的通用报道区间。
一句话点评
AI帮猎头筛简历,但正文没给任何落地数据。
锐评
FT这篇报道讲的是招聘行业用AI做初筛和关键词匹配,把重复劳动交给模型,让人类猎头腾出时间做深度沟通。逻辑上说得通:AI不替代猎头,而是把精力集中在“连接”这个高价值环节。但正文没披露具体用了哪家模型、部署规模多大、效果指标如何,更像一个行业趋势观察,不是产品评测或案例研究。关键数字和成本对比全缺,验证还很弱。如果你在考虑采购类似方案,这篇只能当背景参考,不能当决策依据。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K0·R1
03:52
40d ago
彭博科技· rssEN03:52 · 05·04
ASX 警告上市公司:别拿 AI 吹股价
澳大利亚交易所(ASX)发话,上市公司别为了拉股价就夸大 AI 对业务的实际影响。ASX 说自己会盯着这种“吹捧”行为,但正文没披露具体罚什么、抓过多少家、什么时候开始查。
#ASX#Policy
精选理由
ASX警告企业别拿AI吹业绩来抬股价,这事够具体也够及时。重要性卡在60-71之间,因为正文没披露处罚标准、案例数量和执行时间表,信息缺口明显。
一句话点评
ASX警告上市公司别用AI概念拉股价,但没说具体罚什么。
锐评
澳大利亚交易所(ASX)直接点名上市公司,别为了拉股价就夸大AI对业务的实际影响。ASX说自己会盯着这种“吹捧”行为,但正文没披露具体罚什么、抓过多少家、什么时候开始查。这更像一个口头警告,威慑力取决于后续有没有真动作。对于AI从业者来说,这条信号意味着监管开始关注AI概念炒作,尤其是那些主营业务跟AI关系不大、但硬蹭热点的公司。如果ASX后续出台具体披露指引,可能会影响上市公司在财报和公告里怎么描述AI业务——比如要求区分“已落地”和“在研发”,或者要求量化AI对营收的实际贡献。目前信息缺口很大:没有案例、没有时间表、没有处罚细则,所以暂时不用过度解读。但值得留意的是,这可能是全球交易所跟进SEC对AI“洗绿”监管的前奏。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
03:05
40d ago
r/LocalLLaMA· rssEN03:05 · 05·04
Reddit 用户爆料:OpenRouter 上的 owl-alpha 就是美团的长猫模型
一位 Reddit 用户在 LLM 看板应用里看到调用记录,声称 OpenRouter 上的 owl-alpha 模型其实就是美团的 LongCat(长猫)。正文没披露任何参数、验证步骤,也没有 OpenRouter 或美团的官方确认。目前只能当传闻看,别急着下结论。
#OpenRouter#Meituan#klippers#Commentary
精选理由
HKR-H和HKR-R成立:匿名路由模型被指是美团LongCat,这个说法本身有吸引力,也触及了模型来源和路由透明度的敏感点。HKR-K不成立:正文只有RSS摘要,没有披露模型参数、验证方法,也没有OpenRouter或美团的确认,信息严重不足,所以归入all层级。
一句话点评
Reddit 用户凭调用记录猜测 OpenRouter 上的 owl-alpha 就是美团 LongCat,但无官方确认。
锐评
这条消息来自 Reddit 用户 klippers,他在 LLM 看板应用里看到调用记录后,声称 OpenRouter 上的 owl-alpha 模型其实就是美团的 LongCat(长猫)。目前没有任何参数、验证步骤,也没有 OpenRouter 或美团的官方确认。如果属实,意味着美团可能通过 OpenRouter 低调测试自家模型,但这点先别太激动——正文没披露任何技术细节,连模型大小、架构都没提。对于 AI 从业者来说,这更像一个需要跟踪的线索,而不是可用的信息。建议观望,等官方回应或更多验证数据。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
03:02
40d ago
Product Hunt · AI· rssEN03:02 · 05·04
Codex Pets:给 OpenAI 代码助手养个电子宠物
OpenAI 在 Product Hunt 上架了一个叫 Codex Pets 的小功能,本质是给 Codex 工作流加一个浮窗宠物。它会用动画告诉你 Codex 当前是在跑代码、等着你确认,还是已经跑完可以审查了。你可以通过 hatch-pet 技能换皮肤。目前免费,但正文没披露具体怎么定制、有没有内购,也没说是不是 OpenAI 官方直接发布的。就...
#Code#Tools#OpenAI#Product Hunt
精选理由
HKR-H 靠“Codex 配动画宠物”这个怪点子过关,但 HKR-K 和 HKR-R 都挂了——RSS 摘要只有名字和定位,没给功能、定价、发布细节,也没确认是不是 OpenAI 官方出品。不算硬伤,但价值很低,属于产品线索级别。
一句话点评
Codex 工作流里养个浮窗宠物,看状态用。免费,但定制和内购都没说。
锐评
OpenAI 在 Product Hunt 上架了 Codex Pets,本质是给 Codex 工作流加一个浮窗宠物。它会用动画告诉你 Codex 当前是在跑代码、等着你确认,还是已经跑完可以审查了。你可以通过 hatch-pet 技能换皮肤。目前免费,但正文没披露具体怎么定制、有没有内购,也没说是不是 OpenAI 官方直接发布的。就是个锦上添花的小功能,对开发效率没实质提升,适合喜欢桌面宠物的用户尝鲜。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
01:26
40d ago
r/LocalLLaMA· rssEN01:26 · 05·04
给模型加个“回头检查”小模块,1.7B 写代码效果猛涨
Reddit 用户 bigattichouse 给 1.7B 小模型加了一个“反向侧车”:在模型快生成完时,让一个小 transformer 读一遍输出,再把修正信号送回模型头部,循环几次。测试只跑了 HumanEval 前 20 题,没披露完整分数,但说效果提升明显。灵感来自一篇神经解剖学文章(Repeat Yourself),思路是把模型生成当成“...
#Code#Reasoning#Inference-opt#bigattichouse
精选理由
HKR三项都过:侧车回读机制是个锐利钩子,1.7B+HumanEval前20题给出了可验证的测试条件。单条Reddit帖子且没有完整分数,所以落在60–71区间。
一句话点评
给1.7B小模型加个反向侧车,循环读输出再修正,代码能力提升明显,但只测了20题。
锐评
Reddit用户bigattichouse给1.7B小模型加了一个“反向侧车”:在模型快生成完时,让一个小transformer读一遍输出,再把修正信号送回模型头部,循环几次。测试只跑了HumanEval前20题,没披露完整分数,但说效果提升明显。灵感来自一篇神经解剖学文章(Repeat Yourself),思路是把模型生成当成“先写草稿再修改”。目前只验证了代码生成,且样本量极小(20题),完整HumanEval跑完才能判断是否真的有效。作者说正在训练9B版本,后续会开源代码。如果真能低成本提升小模型推理能力,对本地部署场景有价值,但循环推理会增加延迟,这点正文没提。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1

更多

频道

后台