ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-20

95 items · updated 3m ago
RSS live
2026-04-20 · 星期一2026年4月20日
23:38
53d ago
r/LocalLLaMA· rssEN23:38 · 04·20
DiffusionLLM 的 Inception Mercury 2 号称 H100 上每秒 1.1 万 token
Reddit 帖子标题说 DiffusionLLM 的 Inception Mercury 2 在 NVIDIA H100 GPU 上跑到了每秒 11,000 token。但正文被 Reddit 屏蔽了(403),所以没披露 batch size、精度、并发数或基线对比。目前只是一个吞吐量数字,没法验证,也没法判断实际效果。
#Inference-opt#DiffusionLLM#NVIDIA#Commentary
精选理由
HKR-H 靠 11,000 tokens/s on H100 这个数字通过,够当好奇心钩子;HKR-R 也通过,因为推理速度直接对应部署成本。HKR-K 不通过:能看到的只有标题级声明,没有方法或实验设置,硬排除-零来源规则把分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
23:00
53d ago
彭博科技· rssEN23:00 · 04·20
Victory Giant在香港上市首日大幅上涨,融资26亿美元
胜利精密(Victory Giant)在港交所上市首日一度涨60%,募资26亿美元,是香港七个月来最大IPO。公司确认是英伟达供应商,但正文没披露具体做什么产品、估值多少、定价细节。涨这么多说明市场对英伟达供应链概念很买账,但具体业务含金量还得看后续披露。
#Victory Giant Technology Huizhou Co.#Nvidia#Hong Kong#Funding
精选理由
这是一条AI供应链的资本市场新闻,不是模型、产品或研究更新。HKR-K通过:26亿美元募资和60%盘中涨幅是新事实;但HKR-H/R弱,因为正文没披露估值、发行价和AI收入占比。
一句话点评
胜利巨人(Victory Giant)港股上市首日大涨,募资26亿美元,是今年港交所最大IPO。创始人接受彭博专访谈AI热潮。26亿美元说明市场对AI硬件/基础设施赛道仍有热情,但正文没披露具体业务毛利率、客户集中度等关键财务数据,估值是否合理得看后续财报。
锐评
胜利精密(Victory Giant)在港交所上市首日一度涨60%,募资26亿美元,是香港七个月来最大IPO。公司确认是英伟达供应商,但正文没披露具体产品、估值和定价细节。涨这么多说明市场对英伟达供应链概念很买账,但具体业务含金量还得看后续披露。另外,正文被Bloomberg paywall挡住,无法获取更多信息,所以目前只能基于摘要判断。如果胜利精密只是做普通结构件,那估值可能偏高;如果是核心部件供应商,那还有空间。建议等招股书或财报出来再细看。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H0·K0·R0
22:55
53d ago
X · @AnthropicAI· x-apiEN22:55 · 04·20
Anthropic 推出 STEM 研究员计划,招专家来干几个月项目
Anthropic 宣布启动 STEM 研究员计划,面向科学和工程领域的专家,邀请他们加入研究团队参与为期几个月的具体项目。目前只透露了项目时长和申请链接,没有说招多少人、给多少经费、具体做什么方向。想判断这个计划含金量高不高,得等后续披露选拔标准和项目规模。
#Anthropic#Product update#Personnel
精选理由
Anthropic 官方发的帖子,来源权威性没问题,但 K 不成立是因为除了“几个月”的合作周期,名额、钱、研究范围一概没给。R 成立是因为它踩中了研究者想进顶尖实验室的痛点;信息太少,只能放在低 all 档。
一句话点评
Anthropic 推出 STEM 奖学金项目,面向理工科学生。正文没披露资助金额、名额和申请条件,目前只有标题,信息缺口很大。
锐评
Anthropic 启动 STEM Fellows Program,公开信息只有合作期为“几个月”和申请入口,名额、资助金额、研究题目、知识产权归属,正文都没披露。我的判断很直接:这更像一层低承诺的人才漏斗,用项目协作先筛人,再决定要不要拉进长期研究体系。 我这么看,不是因为 fellowship 这个词本身,而是 Anthropic 过去一年的人才动作一直偏“研究能力贴身化”。他们一边做前沿模型,一边把安全、评测、工具使用、科学任务这几条线捆得很紧。现在再加一个面向 STEM 专家的短期项目,逻辑上很顺:先把领域科学家放进真实研究流,看他们能不能和模型研究员一起定义问题、做数据、搭评测、跑闭环。比起直接全职招聘,这种形式成本更低,筛选信号更密。 外部参照也有。OpenAI、Google DeepMind、微软研究院这些年都做过驻留、学者合作、创业者驻场一类项目,但大多会先讲清楚资助、周期、方向,至少会给出 cohort 轮廓。Anthropic 这条信息薄到只剩“来合作几个月”,我对它的宣传口径有点保留:如果目标真是推动科学发现,项目边界通常要先写清;如果边界故意留空,很多时候是在给内部团队留最大匹配空间,也是在借申请池看外部哪里的人最稀缺。 我还没查到申请页细则,所以这块我不下死结论。但只看这条帖子,我更关心三件事:一是 fellows 能不能碰到核心模型能力,还是只做外围应用;二是产出归属怎么定,论文、代码、专利有没有公开权;三是最后转正比例高不高。标题已经给出“科学与工程专家”“合作数月”,正文没给这些关键条件。没有这些,别急着把它读成 Anthropic 在做大规模科学平台,它现在更像一场定向搜人。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K0·R1
22:43
53d ago
● P1Hacker News 首页· rssEN22:43 · 04·20
就算号称“无审查”的模型,也不敢把话说明白
Morgin.ai 用 4,442 个句子测试了 6 个预训练模型,发现即便是去掉拒绝机制的“无审查”模型,碰到敏感词时概率也会被大幅压低,差距从几百倍到约 1.6 万倍不等。他们管这叫“退缩”:模型不会拒绝回答,但会把敏感词的概率压到几乎为零。比如同一句话填空,Pythia-12B 首选“驱逐出境”,概率 23.27%;而 Qwen3.5-9B 把同...
#Safety#Benchmarking#Morgin.ai#OpenAI
精选理由
这篇文章最值钱的地方是把“无审查”这个标签撕开给你看。它没讲拒答,而是讲预训练阶段词的概率分布就已经歪了——比如 qwen3.5-9b-base 把 deportation 排到第 506 位,概率只有 0.0014%。我会先打个折:这只是单篇研究博客,不是正式论文,样本和模型覆盖有限。但它的视角够刁,用 4,442 个上下文测出的 flinch 现象,比泛泛讨论“模型审查”实在得多。对从业者来说,提醒了一件事:别光盯着后训练的安全对齐,预训练数据的分布偏移才是更底层的坑。这点先别太激动,但值得跟。
一句话点评
所谓“无审查”模型,只是不拒绝回答,但会把敏感词的概率压到几乎为零,本质上还是被阉割过的。
锐评
这篇文章做了一个很直观的实验:把一句话喂给不同模型,看它们预测空白处会填什么词。在“这家人面临立即的____”这个句子里,用公开未过滤数据训练的 Pythia 模型,第一名预测是“驱逐出境”,概率 23.27%。而阿里的 Qwen 基础模型,第一名是“财务困难”,概率 69.19%,“驱逐出境”掉到了第 506 名,概率只有 0.0014%。差距超过 1.6 万倍,但模型并没有拒绝回答,只是悄悄把词换掉了。 作者把这种概率被压低的现象叫“退缩”(flinch),并做了一个包含 1117 个敏感词、4442 个语境的探针来量化它。结果发现,所有商业预训练模型都有明显的退缩,只是形状不同:Gemma-2 在侮辱性词汇上退缩最严重(93 分,满分 100 表示概率几乎被清零),而更新的 Gemma-4 整体退缩反而大幅降低,总分从 346.5 降到了 222.2。OpenAI 开源的 gpt-oss-20b 则介于中间,退缩得比较平均。 这个研究最大的价值是提供了一个可测量的指标,而不是空谈“审查”。但它的局限也很明显:只测了预训练基座模型,没碰任何经过指令微调或 RLHF 的版本。那些模型可能直接拒答,反而不会出现这种“悄悄改词”的退缩。另外,实验用的载体句子是固定的,模型在更开放的真实对话里表现如何,正文没披露。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
22:43
53d ago
Dwarkesh Patel 访谈· atomEN22:43 · 04·20
黄仁勋亲述:英伟达到底怎么分GPU
标题说黄仁勋解释了英伟达如何分配GPU,但正文是空的,没披露分配规则、客户优先级、配额数字或时间条件。所以目前只能知道这是个话题,具体怎么分——比如谁先拿、拿多少、按什么标准——一概没讲。
#Inference-opt#Nvidia#Jensen Huang#Commentary
精选理由
HKR-H 和 HKR-R 成立:黄仁勋谈 GPU 分配有明确钩子,且击中算力供给焦虑。HKR-K 不成立,因为正文为空,没有机制或数字,所以落在较低的兴趣区间。
一句话点评
标题说黄仁勋讲英伟达怎么分GPU,但正文是空的,等于没讲。
锐评
标题说黄仁勋解释了英伟达如何分配GPU,但正文是空的,没披露分配规则、客户优先级、配额数字或时间条件。所以目前只能知道这是个话题,具体怎么分——比如谁先拿、拿多少、按什么标准——一概没讲。来源是YouTube Shorts,信息密度极低,更像一个预告片。如果真想了解分配逻辑,得等完整访谈或官方文档。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
22:06
53d ago
彭博科技· rssEN22:06 · 04·20
美国司法部表态:AI 改变媒体格局,反垄断审查可能松一点
美国司法部一位高级官员说,反垄断执法者需要“谨慎的谦逊”,因为 AI 和流媒体正在重塑媒体行业。正文没披露具体涉及哪笔交易、审查标准怎么改、时间表或量化门槛。目前只能看出执法态度可能松动,但别急着押注哪家并购会过关。
#US Justice Department#Bloomberg#Policy#Commentary
精选理由
Bloomberg报道让这个政策信号有可信度,HKR-H靠'反垄断转向'这个钩子通过。HKR-K不通过是因为没有披露具体交易、审查标准、时间表或数字门槛;HKR-R弱是因为这是媒体并购,不是核心AI竞争、成本或开发者工作流。
一句话点评
美国司法部表态,因AI改变行业格局,对媒体并购的反垄断审查可能松绑。正文被墙,具体表态细节和适用范围未披露。如果真放宽,传统媒体和AI公司之间的收购会更容易,但消费者保护条款是否同步调整仍是未知数。
锐评
司法部官员把 AI 和流媒体写进媒体并购语境,只给出“谨慎谦逊”这一句。按监管话术理解,这已经是在移动执法重心,只是正文没披露具体并购案、审查标准、时间表,也没给市场份额门槛。 我对这条的判断偏明确:它不像一次随口表态,更像是在替“少拦、多放、先看动态竞争”做舆论铺垫。美国反垄断过去两年对科技和平台并不手软,FTC 起诉 Meta、DOJ 推进 Google 搜索与广告技术案,逻辑都偏结构主义,先看集中度,再看潜在排除。媒体这块现在突然强调 humility,口风差异很大。要么 DOJ 认为旧指标抓不住 AI 分发和流媒体替代关系,要么就是政治层面开始接受“传统媒体太弱,需要整合”这套说法。 我对“AI 改变行业,所以执法要更谦逊”这套叙事有点警觉。AI 会改写内容生产、推荐分发、广告定向,没错;但这不自动推出并购更无害。很多媒体并购伤害竞争,靠的不是内容库重叠,而是广告议价、版权采购、分发入口和数据捆绑。生成式 AI 只会让这几个环节更集中:谁有第一方内容、用户行为数据、广告主关系,谁就更容易把模型和分发绑在一起。这个方向下,执法反而该更细,不该更松。 文章里没有的上下文是,过去一年美国监管已经在接受一个新现实:相关市场定义越来越难做。TikTok、YouTube、Netflix、播客平台、新闻订阅、AI 搜索摘要,用户时间都在互相替代。我记得 2023 到 2025 年几起媒体和广告案里,市场边界争议都很重,但我没法在这条摘要里核实 DOJ 这次是否准备把“AI 摘要平台”也算进替代品集合。如果他们真这么算,大型媒体并购会更容易过,因为分母一下被做大了。 我不太买账的一点是,监管机构喜欢把“不确定”说成“克制”,企业会立刻把它翻译成“放宽”。这中间差一大截。没有具体案件、没有 HHI 阈值、没有补救条件,外界现在无法判断 DOJ 是只在媒体业修辞降温,还是准备把 AI 冲击当成更普遍的并购豁免理由。要是后面出现新闻出版、影视版权库、广告技术渠道的横向整合获批,这句 humility 就不是修辞了,它会变成执法方向。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R0
21:32
53d ago
Hacker News 首页· rssEN21:32 · 04·20
Jujutsu 的“大合并”工作流:把所有分支捏成一个本地节点,切换任务不用再切分支
Isaac Corbrey 介绍了一种 Jujutsu(一个比 Git 更现代的版本控制工具)的高级用法:megamerge。做法是用 `jj new x y z` 创建一个有 3 个以上父节点的“章鱼合并”节点,然后 `jj commit --message "megamerge"`。这个合并节点本身不推送,只作为本地工作基座。好处是:你永远在“所有...
#Code#Tools#Isaac Corbrey#Jujutsu
精选理由
HKR-K 通过,因为正文给出了可复现的 `jj new x y z` 工作流和 megamerge 保持本地的规则。HKR-H 和 HKR-R 不通过,因为这是 Jujutsu 版本控制实践笔记,不是 AI 模型、产品或研究更新;对 AI RADAR 来说低于 40 分,所以排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K1·R0
21:28
53d ago
● P1彭博科技· rssEN21:28 · 04·20
Apple 任命 John Ternus 为 CEO,Tim Cook 转任执行董事长
苹果宣布从 9 月 1 日起,硬件工程负责人 John Ternus 将出任新 CEO,Tim Cook 转任执行董事长。Ternus 在苹果干了 25 年,2021 年开始管硬件工程。这次算是把接班时间表定下来了,但正文没披露交接后组织架构会不会调整,也没提 Ternus 上任后的产品路线图。
#Apple#John Ternus#Tim Cook#Personnel
精选理由
苹果 CEO 交接定了具体日子,这是今天必须写的信号。Ternus 长期管硬件工程,他的上任可能让苹果的 AI 落地更偏向端侧和产品整合,但正文没提 AI 部门会不会跟着动,这点先别急着下判断。对关注大厂 AI 策略的人来说,权力交接本身比技术细节更值得盯。
一句话点评
苹果正式换帅,Tim Cook 2026年9月转任执行董事长,硬件负责人 John Ternus 接任 CEO。交接时间明确,但官方公告没提任何战略转向信号。
锐评
苹果这次 CEO 交接,时间点定在 2026 年 9 月 1 日,Cook 退而不休,转任执行董事长,接班的 Ternus 是硬件工程出身,管过 iPhone、Mac 等核心产品线。这个安排说明董事会想稳住硬件基本盘,而不是突然转向服务或 AI。 从公告看,苹果把这次交接包装得很平稳,强调 Cook 留下的公司“状态良好”。但公告没披露 Ternus 上任后的具体战略方向,也没提任何组织架构调整。这点先别太激动,平稳交接往往意味着短期不会有激进变化。 还缺什么:Ternus 对 AI、Vision Pro 等新业务的公开表态几乎没有,他能不能在硬件之外推动苹果下一个增长点,目前完全看不出来。另外,Cook 作为执行董事长会保留多大决策权,正文也没说清楚。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
21:01
53d ago
r/LocalLLaMA· rssEN21:01 · 04·20
MacBook Air M5 跑 21 个本地模型,测代码质量与速度
Reddit 用户发帖说在 MacBook Air M5 上测了 21 个本地大模型的代码质量和推理速度。正文被 Reddit 屏蔽(403),没披露模型名称、量化方式、上下文长度、每秒 token 数或评分方法。目前能确认的只有设备、模型数量和评测维度,复现条件不完整。
#Code#Benchmarking#Reddit#MacBook Air
精选理由
标题的钩子很具体——21个模型、MacBook Air M5、代码质量和速度,设备选型方向对本地LLM用户有吸引力。但正文完全不可访问,模型名单、量化、上下文、tokens/s、评分方法一概没有,信息缺口大到没法做任何有效判断。硬规则里缺源直接封顶,所以分数卡在38,tier excluded。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
20:58
53d ago
● P1Hacker News 首页· rssEN20:58 · 04·20
Tim Cook 卸任苹果CEO,John Ternus 接任
苹果官方确认,Tim Cook 不再担任 CEO,转任执行董事长。接任者是硬件工程高级副总裁 John Ternus,他也会进入董事会。原非执行董事长 Arthur Levinson 改任首席独立董事,同样从 9 月 1 日起生效。Cook 从 2011 年乔布斯去世前六周接手,把苹果带到 4 万亿美元市值。正文没披露 Cook 转任后的具体职责范围,...
#Apple#Tim Cook#John Ternus#Personnel
精选理由
这条先别太激动——目前能确认的只有人事变动的标题,正文没给出官方公告、生效时间和组织调整细节。我会先打个折:标题本身够重磅,苹果 CEO 交接十年难遇,对 AI 从业者来说,Ternus 的硬件背景会不会影响 Siri 和端侧模型优先级才是真正要盯的。但因为关键信息全是缺口,只能放在 featured 而不是 p1。
一句话点评
Tim Cook 卸任苹果 CEO,硬件工程负责人 John Ternus 接棒。消息来自 MacRumors 的爆料,苹果官方还没发正式公告,先当传闻看。
锐评
这条消息目前只有 MacRumors 一家在报,来源是 Hacker News 的转载,不是苹果官方通稿。John Ternus 是苹果硬件工程高级副总裁,管过 iPhone、Mac 等核心产品线,从履历看接任逻辑说得通,但正文没披露 Cook 卸任的具体原因,也没提交接时间表。Cook 在位 15 年,把苹果市值从三千多亿美元拉到三万亿,他退下来对供应链和投资者信心的短期冲击会很大。现在缺的是苹果董事会声明、Cook 本人表态,以及 Ternus 对产品路线图的初步说法——没有这些,只能算一条可信度待验证的人事传闻。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K0·R1
20:41
53d ago
● P1彭博科技· rssEN20:41 · 04·20
Amazon向Anthropic追加投资50亿美元
亚马逊对 Anthropic 追加 50 亿美元投资,协议还留了口子,未来可能再追加最多 200 亿。正文没披露估值、股权比例、打款节奏和云服务绑定条款,所以这笔钱到底换来了多少控制权、是不是锁死了 AWS 算力,目前还不清楚。
#Amazon#Anthropic#Funding#Partnership
精选理由
Bloomberg 同天报道亚马逊再投 Anthropic 50 亿美元,对模型圈和云生态有直接冲击。我会先打个折:正文只给了金额,没给估值和排他条款,这点先别太激动。真正要盯的是钱之外的条件——这决定了它更像一笔财务投资,还是更深层的模型与云绑定。
一句话点评
亚马逊又给Anthropic投了50亿美元,但Anthropic承诺未来十年在AWS上花掉1000亿,这钱转了一圈又回亚马逊口袋了。
锐评
这笔交易本质上是亚马逊用投资换云计算的长期订单。Anthropic拿了50亿美元现金,但承诺未来十年在AWS上花超过1000亿美元,用来训练和运行Claude。钱从亚马逊出去,又通过云服务费流回来,对亚马逊来说更像锁定一个大客户。 报道提到,Anthropic会用到亚马逊自研的Trainium芯片,从Trainium2一直排到还没发布的Trainium4。这说明Anthropic在算力上深度绑定亚马逊,不再只依赖英伟达。但正文没披露这1000亿的年度分摊节奏,也没说如果Anthropic中途想换云厂商要付多少违约金。 另外,TechCrunch提到风投给Anthropic开出了8000亿美元的估值,但Anthropic暂时没接。这点先别太激动,估值是风投单方面给的,不代表公司真实融资进展。还缺Anthropic自己的财务数据,比如收入、亏损和现金消耗速度,光看投资额看不出这笔钱能撑多久。
HKR 分解
hook knowledge resonance
打开信源
99
SCORE
H1·K1·R1
20:38
53d ago
● P1X · @AnthropicAI· x-apiEN20:38 · 04·20
Anthropic 与 Amazon 达成合作协议 获得 5 吉瓦计算资源
Anthropic 宣布加深与亚马逊的合作,为训练和部署 Claude 锁定了最高 5 吉瓦的算力。这批算力从这个季度开始陆续到位,到 2026 年底预计先上线近 1 吉瓦。5 吉瓦是个什么概念?大概相当于几个大型数据中心的满负荷运转,说明他们接下来要把模型规模或服务量再往上拉一个台阶。不过正文没披露合同金额、具体用什么芯片、数据中心建在哪,所以实际成...
#Inference-opt#Tools#Anthropic#Amazon
精选理由
标题里的 5 吉瓦别直接信,那是远期上限,真正有谱的是今年底先到 1 吉瓦。正文没提合同金额、用什么芯片、数据中心在哪,所以成本结构和实际性能都还是问号。我会先打个折看交付节奏,但能在这个时间点锁产能,对 Anthropic 的训练和部署确实是颗定心丸。
一句话点评
Anthropic 和 Amazon 签了个大单,但 FT 正文被付费墙挡了,具体条款看不到。
锐评
Anthropic 官方博客确认了和 Amazon 扩大合作,目标是拿到最多 5 吉瓦的计算资源来训练和部署 Claude。5 吉瓦什么概念?大概相当于几个大型核电站的发电量,说明他们接下来对算力的胃口非常大。 但 FT 标题里那个“1000 亿美元”的数字,Anthropic 自己的公告没提。HN 上的讨论提到 Amazon 先投了 50 亿,Anthropic 反过来承诺了 1000 亿的云消费——这个数字如果属实,更像是一份长期对赌协议,而不是一次性到账的投资。这点先别太激动,1000 亿是未来多年的总消费承诺,不是 Amazon 现在掏出来的现金。 目前缺的是:这 5 吉瓦具体什么时候到位、分几年交付、以及 Anthropic 拿什么条件换来的。这些细节都没披露。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
20:32
53d ago
● P1彭博科技· rssEN20:32 · 04·20
Google 发布新推理芯片产品,与 Nvidia 形成竞争
Bloomberg 这条视频提到 Google 准备推出一批专做推理的新 AI 芯片,正面挑战英伟达。不过正文被付费墙挡了,没披露具体发布时间、型号、性能参数、定价和客户。我会先打个折:目前能确认的信号是推理芯片的供给竞争在升温,但产品到底多能打、什么时候落地,都还是未知数。
#Inference-opt#Google#Nvidia#Cerebras
精选理由
HKR-H 和 HKR-R 通过,因为这条消息把 Google 和 Nvidia 在推理芯片上的直接竞争摆上了台面。HKR-K 弱:报道只确认了推理这个方向,芯片叫什么、跑分多少、卖多少钱、什么时候出、谁会买,这些关键信息正文都没披露,所以信息缺口很大。
一句话点评
Google 把自家第八代 AI 芯片拆成两款:一款专做训练,一款专做推理,性能和性价比数字挺好看,但别急着喊“干掉 Nvidia”,正文里 Google 自己还在云上卖 Nvidia 的卡。
锐评
Google 这次发布的 TPU 8t 和 8i,是把训练和推理分开做专用芯片。训练芯片叫 8t,推理芯片叫 8i,推理就是模型上线后回答用户问题那一步。官方给的数据是训练速度比上代快 3 倍,每块钱能买到的性能提升 80%,还能把超过 100 万颗 TPU 拼成一个集群来用。这些数字如果没注水,意味着跑大模型的时间和电费都能省不少。 不过这篇 TechCrunch 的报道没给第三方实测,所有性能数据都来自 Google 自己。而且文章后半段被截断了,我们看不到 Google 对 Nvidia 的具体态度和定价细节。已知的是 Google Cloud 同时还在卖 Nvidia 的 GPU,说明它短期内没打算跟 Nvidia 彻底翻脸,更像是给客户多一个选择。 对从业者来说,值得关注的是 Google 有没有公布这些新 TPU 的租用价格、软件生态兼容性怎么样,以及实际跑主流模型的吞吐量。这些信息目前都缺,所以“挑战 Nvidia”这个说法先打个折看。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K0·R1
20:30
53d ago
The Verge · AI· rssEN20:30 · 04·20
硅谷忘了普通人要什么
The Verge 发了一篇文化评论,说硅谷把大模型吹成了“书写级别的发现”,但普通人根本不在乎。文章只举了一个 ChatGPT 的例子,没有披露完整的论证、数据或批评对象,所以更像一篇观点随笔,不是调查报道。正文没披露具体哪些公司或产品被点名,也没给出用户调研数据来支撑“普通人不需要”这个判断。
#The Verge#ChatGPT#All-In Podcast#Commentary
精选理由
H和R过关:标题制造了尖锐冲突,主题也切中行业对用户需求错配的敏感神经。K不过关:摘要只展示了一个ChatGPT轶事,没有数据、样本或可验证的论断,所以这条只能给低带宽的all。
一句话点评
硅谷精英又陷入自嗨循环了。作者把NFT、元宇宙和AI放在一起骂,说这帮人做的产品根本不是给普通人用的,而是给投资人看的。观点不新但骂得挺准,适合当行业清醒剂。不过全文没给任何数据或用户调研支撑,纯属评论,别当事实看。
锐评
The Verge 用 1 段 ChatGPT 轶事批评硅谷夸大 LLM 体验,正文没给数据、对象名单,也没给更完整论证。就现有信息看,这不是一篇 AI 产业分析,更像一篇文化火力稿。我的态度是:它戳中了一个真问题,但现在证据太薄,打不到想打的那层结构。 我一直觉得,AI 圈过去两年最容易失真的一步,就是把“第一次被模型顺手接住意图”的体验,直接升级成“人类认知被重新发现”。这类话术你在播客、VC 场合、创始人访谈里听太多了。2023 年很多人把 ChatGPT 讲成搜索替代。2024 年又有人把 agent 讲成软件终局。到 2025 年,连“模型懂你自造词”都能被包装成语言哲学突破。这里有真实体验,也有明显的叙事通胀。The Verge 抓这个点,方向没错。 但我对这篇的力度有保留。标题说“硅谷忘了普通人要什么”,这个判断要成立,至少得回答两个问题:普通人具体要什么,谁在替他们发言。正文摘要里都没给。普通用户对 AI 的选择,其实没有评论区说得那么单一。很多人要的是省 10 分钟写邮件、做作业、改简历、查 Excel 公式,不是 AGI 神话,也不是反科技姿态。要批评硅谷自恋,我同意;要把整个需求面压成“normal people”一个桶,我不太买账。 还有个上下文,文章没提到,但做产品的人都知道:很多夸张表述不是从能力评测长出来的,是从分发竞争长出来的。ChatGPT 在 2023 年拿到破圈流量后,几乎所有 AI 产品都学会了一个动作:先卖震撼感,再补留存逻辑。Character.AI 讲陪伴,Perplexity 讲答案,Copilot 讲助手,Rabbit 这类硬件当年更是把 agent 讲到天上。问题不在“硅谷突然不懂普通人”,而在增长压力把每一代新交互都推向宗教化修辞。这个病,Web3、元宇宙时就犯过,现在只是换了 LLM 外壳。 我还有一点疑虑。摘要拿 All-In Podcast 当靶子,这个靶子其实不难打,因为它本来就偏表演型表达。可如果文章想说明的是更普遍的行业偏差,那最好要拉出更具体的样本:OpenAI、Anthropic、Meta、应用层创业公司,各自怎么描述用户价值,哪里偏了,偏了多少。现在只有一段“朋友惊叹 ChatGPT 理解自造词”的故事,更多像吐槽,不够构成稳的行业判断。 所以这条我会当成一篇情绪准确、证据不足的文化评论来看。它提醒从业者别把自己的新鲜感误认成大众需求,这点没问题。可要把它升级成对 AI 产品路线的批判,材料还远远不够。标题已经给出立场,正文未披露样本、数据和反例处理,我不会替作者补完。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R1
20:19
53d ago
Hacker News 首页· rssEN20:19 · 04·20
AI 反抗在蔓延:用户开始主动投毒喂给爬虫
一篇博客指出,越来越多的人正在主动破坏 AI 公司的数据采集。Reddit 上有个叫 r/PoisonFountain 的社区,目标是每天向爬虫投喂 1TB 的垃圾数据(比如看似正确但实际有细微错误的代码),让 AI 公司清洗成本变高。还有人故意在社交媒体上编造离谱信息(比如“Idris Elba 演过《人人都爱雷蒙德》里的妈妈”),专门骗爬虫抓取,逼...
#Commentary
精选理由
H和R能过,因为标题制造了从业者关心的冲突话题。K卡死:正文只暴露了标题、链接和HN热度(132分/77条评论),没披露任何具体案例、地区或数据,按硬排除规则6,分数上限被压在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
20:02
53d ago
r/LocalLLaMA· rssEN20:02 · 04·20
为什么开源工具都不把 llama.cpp 当一等公民?
Reddit 上有人吐槽:很多开源 AI 工具优先支持 Ollama 和 LM Studio,却把 llama.cpp 晾在一边。发帖人认为,只要工具能接 OpenAI 兼容的 API 端口或 URL,适配 llama.cpp 几乎零成本。正文没列出具体哪些工具不支持,也没给采用率数据。核心矛盾不是模型质量,而是集成优先级——开发者更愿意先做 Olla...
#Tools#Inference-opt#Ollama#LM Studio
精选理由
HKR-H 和 HKR-R 成立,因为抱怨本身对本地 LLM 开发者有共鸣。HKR-K 不成立:帖子没给出具体工具名单、采纳数据、维护者成本或一手测试,属于硬排除级零来源,因此分数上限卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
19:51
53d ago
Hacker News 首页· rssEN19:51 · 04·20
在 1982 年的电脑上跑 Transformer:25k 参数,1MHz 主频
一个叫 soulplayer-c64 的项目声称在 Commodore 64(1MHz 主频、64KB 内存)上跑了一个 25k 参数的 Transformer 模型。参数极少(25k,不到 GPT-2 的千分之一),硬件极老(1982 年家用电脑),听起来很酷。但正文只给了 GitHub 仓库页面,没披露模型架构、量化方式、推理速度、训练数据或具体任...
#gizmo64k#GitHub#Commodore 64#Open source
精选理由
HKR-H 靠复古硬件反差通过。HKR-K 和 HKR-R 都不过,因为仓库页几乎没暴露任何可评估的细节——架构、量化、速度、任务全无,所以这只是一个 neat 的开源趣闻,不值得上头条。
一句话点评
有人在Commodore 64上跑了个25k参数的Transformer,1MHz主频,35KB内存。模型极小,但能跑在1982年的古董机上,纯属硬核炫技。短评:极客玩具,别当真用。
锐评
gizmo64k 现在只公开了仓库标题,核心主张是 1MHz 的 Commodore 64 跑起了 2.5 万参数 Transformer。我的判断很直接:这条有趣,但信息量还远不够支撑大家在社媒上那种“LLM 回到边缘端”的兴奋。标题证明了作者想做什么,正文没证明它具体做成了什么。 缺口非常大。模型结构没披露,量化方式没披露,推理速度没披露,训练数据没披露,任务定义也没披露。25k 参数听着很小,但小不等于容易落地。C64 典型只有 64KB 内存,CPU 是大约 1MHz 的 6510。光是把权重塞进去,就要看是 8-bit、4-bit,还是更激进的二值化;attention 是全做,还是做了窗口、查表、低秩近似;KV cache 放哪,正文都没说。没有这些,标题里的“real transformer”更像架构标签,不像可复现结论。 我会把它放进一条熟悉的脉络里看:这两年大家一直在做“把现代模型塞进古董硬件”的实验,从微控制器上的 tinyML,到浏览器里的小型 Transformer,再到手机 NPU 上的 1B 级量化模型。它们有一个共同点:演示价值常常高于实用价值。去年我见过几次类似项目,能跑 token,不代表能在可接受延迟下完成任务;能完成任务,也不代表保住了 Transformer 关键机制。这个项目现在就卡在这里:它证明了“可以尝试”,还没证明“值得采用”。 我对叙事还有一点保留。黑客项目很喜欢用“真的在某某老机器上跑起来了”制造冲击力,但工程上最难的部分常常被折叠掉了:是不是离线预编译了常量,是否把算子特化到固定序列长度,是否把大部分工作搬到训练期,运行时只剩一个很窄的推理路径。这样做完全合理,我自己也不反对,但这会改变结论的含义。它更接近“为一台机器手工雕出来的最小 Transformer 演示”,不是“经典架构自然缩放到 1MHz 平台”。 说真的,这条我会继续看 repo 更新。能决定它分量的不是标题,而是四个可复现细节:每 token 延迟是多少,权重占了多少字节,激活和缓存怎么放,实际任务是什么。如果后面给出代码、权重格式和 demo 输出,我会把它当成很漂亮的 systems 作品;在那之前,它还不是 AI 能力新闻,更像计算美学新闻。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R0
19:37
53d ago
TechCrunch AI· rssEN19:37 · 04·20
AI 写东西有个标志性句式:“不只是……更是……”——Barron's 说这招已经泛滥到几乎能当检测器用了
Barron's 发现一个有趣的 AI 写作指纹:句式“不只是 X,更是 Y”在 2023 年只出现约 50 次,到 2025 年已超过 200 次,翻了四倍多。这个数据来自市场情报公司 AlphaSense 的企业新闻稿、财报和政府文件库。文章认为这个句式现在几乎成了 AI 生成文本的保证书,而不仅仅是一个线索。不过正文没披露样本总量、检测准确率或覆...
#Barron's#Commentary
精选理由
标题有钩子,但正文只抛了一个风格判断,没有样本、方法、准确率或可复现的例子,属于零来源评论,触发硬排除规则6。H和R通过,K不通过。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
18:55
53d ago
Hacker News 首页· rssEN18:55 · 04·20
Anduril、Palantir 和 SpaceX 正在改变美国打仗的方式
这篇《经济学人》文章标题说这三家科技公司正在改变美国打仗的方式,但正文只给了标题和 RSS 条目,没有披露具体产品、合同金额、部署规模或时间线。关键问题是每家公司改变了国防体系的哪个环节——Anduril 做自主武器和无人机,Palantir 做战场数据分析平台,SpaceX 提供卫星通信(星链)。不过正文没展开讲,信息缺口很大。
#Anduril#Palantir#SpaceX#Commentary
精选理由
HKR-H靠'三家公司联手改变美军作战'这个标题钩子过关。HKR-K和HKR-R都挂了,因为RSS只确认了公司名和一句论点,没有产品、合同、部署或时间细节,硬性排除-零来源规则把它压在40分以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
18:39
53d ago
Hacker News 首页· rssEN18:39 · 04·20
Kimi 开源了一个验证推理供应商准确性的工具
Kimi 发布了一个叫 Vendor Verifier 的开源工具,用来检查第三方推理服务跑自家模型时有没有“偷工减料”。起因是 K2 Thinking 发布后,社区反馈跑分异常,Kimi 排查发现很多问题出在推理参数没按要求设(比如 Temperature 强制 1.0、TopP 0.95),甚至有些供应商的 API 实现有 bug。工具选了 6 个...
#Inference-opt#Benchmarking#Tools#Kimi
精选理由
H 和 R 通过:校验推理服务商准确性是个新奇的钩子,也是真实的信任痛点。K 不通过:正文只披露了工具名,方法、误差定义、支持的服务商、复现条件全都没给,所以分数在 60 多分,tier 设为 all。
一句话点评
月之暗面开源了Kimi Vendor Verifier(KVV),一套用来验证第三方推理服务是否跑对了K2.6模型的测试工具。核心动机是:模型开源后,不同厂商的部署实现参差不齐,用户分不清是模型本身不行还是部署方没配好。KVV选了6个基准测试,覆盖参数强制、多模态、长输出、工具调用等场景,跑一轮约15小时(2台H20*8卡)。亮点是公开了官方API的分数作为对照,还要求先过Pre-fligh...
锐评
Kimi 只公布了一个工具名和一篇链接,正文未披露校验机制、支持哪些 provider、误差定义与接入方式。我的判断很直接:这条先别当产品力,看成一次叙事卡位更合适。现在各家都在讲“同权重跨推理服务商可替换”,但做过线上推理的人都知道,准确性从来不是一个单点数字,它至少受采样参数、系统提示、量化方式、KV cache 策略、工具调用超时这几层影响。你不先把条件钉死,所谓 verifier 很容易退化成一次性对拍脚本。 我想到的参照物有两个。一个是前几年很多团队做 LLM eval harness,最后都卡在“同一模型名不等于同一行为”这件事上;另一个是 Inference.net、Together、Fireworks、Groq 这类推理平台过去一年反复强调吞吐、延迟、单价,公开把“输出一致性”讲清楚的其实不多。原因不复杂:同样是兼容 OpenAI API,后端调度、连续批处理、量化配置一换,长链 agent 任务的结果就会漂。这个问题在代码生成和 tool use 场景更严重,单轮 benchmark 漂亮,线上成功率还是会掉。 所以我对这条的 pushback 也在这:Kimi 如果真想把 verifier 做成有说服力的工具,至少要公开三件事。第一,误差怎么定义,是 exact match、语义相似、函数调用成功率,还是长任务完成率。第二,复现条件怎么锁,temperature、top-p、seed、max tokens、system prompt 是否全量固定。第三,比较对象是不是同一基础模型的不同 provider,还是不同蒸馏版、量化版混在一起。标题给了“verify accuracy”,正文没给这三层,信息量还不够支撑判断。 我还没查到它是不是偏内部采购工具,还是会对外开放。如果只是 Kimi 自己拿来筛供应商,这很合理,Moonshot 这种规模做多云和多推理后端,本来就需要质量回归工具。如果它想进一步变成行业标准,那门槛高很多,因为行业现在缺的不是又一个 scoreboard,缺的是一套大家愿意接受的误差口径。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
18:24
53d ago
Hacker News 首页· rssEN18:24 · 04·20
GitHub Copilot 个人版套餐调整
GitHub 发了一篇博客说 Copilot 个人版套餐要改,但正文只抓到了页面框架和标题,没披露具体价格、额度、生效日期或升降级规则。目前能确认的只有“有调整”这件事,具体怎么调、对现有用户有什么影响,正文里都没写。
#Code#Tools#GitHub#GitHub Copilot
精选理由
HKR 排除:GitHub 发了 Copilot 个人套餐调整公告,但正文只有页面框架,价格、配额、生效时间、迁移规则一概没披露。没有强钩子,没有可用的新事实,信息太少不足以引发从业者讨论。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
18:18
53d ago
彭博科技· rssEN18:18 · 04·20
IPO市场回暖,Anthropic、OpenAI、SpaceX等大公司排队上市
Rainmaker Securities的Greg Martin在Bloomberg Tech上说,IPO市场开始有动静了,因为投资者都在盯着Anthropic、OpenAI和SpaceX这些大公司的上市计划。不过正文没披露回暖的具体幅度、时间点或估值数字,这更像是一个市场情绪和时机的判断,不是正式的上市公告。
#Rainmaker Securities#Anthropic#OpenAI#Commentary
精选理由
Bloomberg这条确实有个市场角度的钩子——IPO窗口可能在Anthropic和OpenAI上市前重新打开,所以H和R都成立。但K不成立,因为正文没给任何回温指标、估值范围或上市时间表,信息缺口太大,只能留在all层。
一句话点评
彭博报道称IPO市场在大规模上市前回暖,但正文被反爬墙拦截,实际内容为零。无法确认回暖的具体数据、行业分布或时间节点。这条消息目前只有标题有价值,具体判断需等能访问原文再说。
锐评
Bloomberg 这段视频点名 3 家公司带动 IPO 预期,但正文没给回温幅度、时间区间、估值口径。我的判断很直接:这条信息含量不在“谁要上市”,而在一级和二级市场已经开始拿 Anthropic、OpenAI、SpaceX 当流动性故事用了。 说真的,这种讨论本身就能推高情绪。Rainmaker Securities 做的是私募二级和流动性撮合,Greg Martin 站在这个位置谈“市场回温”,天然会放大窗口叙事。问题是,文章里没有成交数据,没有 IPO 定价区间,没有近 30 天新股表现,也没有说回温发生在 AI、国防科技,还是更广的成长股。标题给了方向,正文没给证据。没有这些数字,我不会把它读成“上市窗口已经打开”,只能读成“有人在提前为退出预热”。 外部背景其实很清楚。2024 到 2025 年,美国 IPO 市场确实反复试探过重启,但能稳定成交的,大多还是盈利路径更清晰、口径更传统的公司。AI 里估值最高的几家,反而最难上。原因不复杂:一级市场愿意按算力储备、收入年化、战略位置给高倍数;公开市场要看毛利结构、客户集中度、资本开支、以及股票解禁后的供给压力。Anthropic 和 OpenAI 这类公司,如果真往 IPO 走,招股书里最刺眼的未必是增长,而是推理成本、云依赖、以及和 Amazon、Microsoft 这类大股东兼渠道方的关系。我记得过去一年市场对“AI 高增长能否穿透到自由现金流”一直很敏感,这个问题到 2026 年也没消失。 我对把 OpenAI 和 Anthropic 放进“mega listings”篮子里还有个保留。它们当然足够大,也足够热,但“大”不等于“适合现在上市”。OpenAI 现在的治理结构、利润分配安排、以及和 Microsoft 的商业绑定,公开市场能不能顺利消化,文章一句没提。Anthropic 也类似,Amazon 持股、云合作、模型收入质量,这些都决定 IPO 叙事能不能站住。SpaceX 反而是另一个逻辑:它的品牌号召力最强,但 Musk 一向不喜欢把核心资产轻易放进公开市场约束里。把这三家并列讨论,很抓眼球;拿来判断实际挂牌概率,我觉得有点过。 还有一层别忽略:当市场开始反复讨论“谁会是下一家 mega IPO”,很多时候说明一级流动性已经紧了,老股东在找退出锚。这个信号不一定差,甚至常常是窗口要开的前兆;但它首先服务的是估值锚定,不是上市确认。你可以把它看成 sell-side 和 private markets 先把故事讲起来,等利率、二级科技股估值、以及最近几单 IPO 的破发率配合上,再决定谁真去敲钟。 所以这条我不会顺着标题走。它没有告诉我们 Anthropic、OpenAI、SpaceX 谁准备递表,也没有告诉我们 IPO 市场已经恢复到什么程度。它只告诉我们,市场很想要一个足够大的 AI 流动性事件。我自己的 pushback 是:想要,不等于能上;能上,也不等于上完还能撑住那个私募估值。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K0·R1
18:13
53d ago
r/LocalLLaMA· rssEN18:13 · 04·20
Qwen3.6与Gemma4本地推理性能对比讨论
Reddit 用户用 16GB 显存的显卡跑两个 MoE 模型,Qwen3.6 35B-A3B 表现比 Gemma 4 26B-A4B-it 好,速度差不多。配置是 Windows + LM Studio,模型用了量化版(Q4_K_S 和 IQ4_XS)。但帖子没给任何跑分、任务列表或 token 吞吐量,结论纯属个人感受,不是严谨评测。
#Inference-opt#Benchmarking#LM Studio#Unsloth
精选理由
HKR-H 和 HKR-R 成立:Qwen 对 Gemma 的 16GB 显存对决,话题性和实用性都够,值得讨论。HKR-K 不成立:帖子虽然给了量化版本和运行设置,但没披露任何基准任务、分数或 token 速度,结论只是个人体验,不是系统评测,所以只能放 low-band all,不值得上 featured。
一句话点评
Reddit 用户对比了 Qwen3.6 35b-a3b 和 Gemma4 26b-a4b-it 的本地推理性能,但正文被屏蔽,实际内容不可见。从标题看是个人主观对比,非官方评测,样本量小(仅 2 条讨论),结论需谨慎参考。缺具体测试任务、硬件配置和量化方式。
锐评
Reddit 用户用 16GB 显存显卡(Windows + LM Studio)跑两个 MoE 模型:Qwen3.6 35B-A3B(IQ4_XS 量化)和 Gemma 4 26B-A4B-it(Q4_K_S 量化),结论是 Qwen 表现更好,速度差不多。但帖子没给任何跑分、任务列表或 token 吞吐量,结论纯属个人感受,不是严谨评测。关键信息缺失:没说明具体测试了哪些任务(比如代码、推理、对话),也没披露生成速度(t/s)和显存占用。量化版本和设置虽然写明了,但不同量化精度对模型能力影响很大,IQ4_XS 和 Q4_K_S 的压缩比不同,直接比“表现”不公平。如果真想在 16GB 卡上选 MoE 模型,建议等有人跑标准 benchmark(如 MMLU、GSM8K)或至少给出同任务下的输出对比。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
17:17
53d ago
FT · 科技· rssEN17:17 · 04·20
美国“有线带”要造反:AI 抢的不是蓝领,是郊区白领的饭碗
FT 评论文章提出一个观点:美国下一波反 AI 浪潮不会来自锈带工人,而是来自郊区知识工作者——作者称之为“有线带”。正文只有一句话,说这股愤怒跟当年帮特朗普上台的情绪类似。文章没披露具体哪些行业会先被冲击、地理范围多大,也没提哪些 AI 政策是导火索。信息缺口明显,但论点本身值得留意:如果白领也开始觉得 AI 在抢自己饭碗,政治压力会比蓝领失业更大。
#Financial Times#Trump#Commentary#Policy
精选理由
标题的“wired belt”是个好钩子,但正文只有一句摘要,把这种情绪类比成当年推 Trump 上台的愤怒,没给任何数据、行业案例或政策机制。H 和 R 都成立,但 K 完全不过关——没有可验证的信息,触发硬排除规则(零来源),所以重要性压到 36 分,直接排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
16:37
53d ago
Hacker News 首页· rssEN16:37 · 04·20
量子计算机对128位对称密钥不是威胁
这篇文章的核心观点是:量子计算机不会威胁AES-128、SHA-256这类对称加密算法,密钥长度不需要因为量子计算而加长。很多人误以为量子计算会让对称密钥的安全性“减半”,所以需要256位密钥才能达到128位的安全级别——这是对Grover算法的误解。Grover算法虽然理论上能把暴力破解AES-128的复杂度降到2^64次操作,但实际中这个攻击必须串...
#Commentary
精选理由
标题抛了个反常识判断——量子计算机不威胁128位对称密钥,但正文没给论证路径、算法前提或纠错条件,信息缺口太大。HKR-H靠反常识标题勉强过线,但K和R都不过:K缺关键数据验证,R直接跑题到密码学领域。硬排除规则(技术可及性/离题)把分数压在40以下,最终34分合理。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
16:27
53d ago
r/LocalLLaMA· rssEN16:27 · 04·20
7900XTX 本地跑 Qwen 3.6,全自动搓了个安卓 App
Reddit 用户 Acu17y 说,只用一张 AMD 7900XTX 显卡本地跑 Qwen 3.6,模型就全自动写出了一个安卓应用,全程没联网。听起来很酷,但帖子正文被屏蔽了,看不到具体用了多大模型、什么工具链、显存占用多少、跑得快不快、成功率如何。所以这点先别太激动——本地全自动做 App 确实有潜力,但缺关键细节,比如是不是只跑通了一次 Hell...
#Agent#Code#Tools#Qwen
精选理由
HKR-H 和 HKR-R 通过:单卡本地自主编码演示确实有钩子,也切中了自建模型和成本控制的痛点。HKR-K 不通过:正文缺失模型规格、工具链、显存、速度和成功率等关键信息,只能算个人项目展示,不够格作为可引用的证据。
一句话点评
一位用户声称在单张 AMD 7900 XTX 显卡上跑通了 Qwen 3.6 的自主运行,但正文被 Reddit 屏蔽,实际内容为零。目前无法验证任何细节:模型大小、推理速度、是否真的“自主”(可能只是简单循环调用)。如果属实,说明消费级显卡跑本地智能体已有可行性,但成本、延迟、稳定性全未披露。建议等原帖恢复或看其他用户复现再下判断。
锐评
7900XTX 用 24GB 显存跑本地 Qwen 3.6 代理演示,这个事实成立;“自主做 Android 应用”这句,正文没给成功率。我的判断很直接:这条先别当成“单卡 AMD 已经把本地软件工程代理跑通了”,先当成一段能跑起来的个人编排演示。标题最容易让人误会的地方,就是把“自动化流程存在”偷换成“代理能力稳定可复现”。两者差得很远。 我一直觉得,本地 agent 圈子这半年最容易被视频误导。屏幕上连续调工具、写代码、开终端,看着像 autonomous;实际决定含金量的,是 4 个没披露的量:模型到底是多大,量化到什么位宽;上下文多长;每步调用了哪些外部工具;一轮任务跑完花了多少 token、多少分钟、多少次人工救火。这里一个都没有。连“qwen 3.6”具体是哪一档也没说。正文只有“全部本地、自动化、个人项目”。这离 benchmark 还很远。 回到硬件这块,7900XTX 本身并不离谱。它有 24GB VRAM,跑中等尺寸的代码模型量化版,配合 llama.cpp、vLLM 的 ROCm 路线,或者 SGLang/MLC 一类推理栈,我自己完全信能把 agent loop 跑起来。过去一年,LocalLLaMA 社区已经反复证明:单张消费卡能做工具调用、代码补全、网页操作,问题从来不是“能不能动”,而是“多久崩一次”。如果是 7B 到 14B 量级的 Qwen coder 系,4-bit 量化再加工具链,单卡很合理;如果是更大的混合专家模型,正文就该把分层卸载、KV cache、tokens/s 说清楚。现在都没有。 我对“autonomous”这个词有点警觉。很多 demo 的做法,是把任务拆成很窄的脚手架:固定仓库模板、固定 Android 构建链、固定 prompt、固定可调用命令,再让模型在这个笼子里选动作。这样当然有工程价值,我不否认;AutoGen、OpenHands、Aider 联工具,去年就有人这么玩。但它更像 workflow automation 加一点模型决策,不是大家脑补的通用软件工程代理。说实话,我不太买“看视频就等于能力突破”这套叙事。 还有个上下文,标题故意没说:AMD 本地推理这半年确实比 2024 年顺了不少。ROCm 兼容性、Windows 下的折腾程度、社区模型支持,都比一年前好。我没法从这条帖子证明 7900XTX 已经成了 agent 首选卡,但它至少说明一件事:消费级 AMD 卡在本地 agent 场景里,已经从“能跑算你厉害”走到“有人拿来做完整项目演示”。这对 Nvidia 不是威胁级新闻,对本地开发者倒是实际利好,尤其是显存/价格比这件事。 但判断能不能抬级别,还是看复现信息。标题已经给出“单张 7900XTX、本地、自动化 Android app”;正文没披露模型参数、量化方式、推理框架、tokens/s、任务完成率、失败样本。我还没查到原帖评论里有没有补这些。没这些,这条最多说明本地 agent demo 的门槛在下降,说明不了“单卡本地开发代理已经成熟”。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
15:36
53d ago
● P1Hacker News 首页· rssEN15:36 · 04·20
Kimi K2.6 发布,推进开源代码能力
Kimi 在 X 上宣布了 K2.6,定位是开源编程模型。但这条推文只提了名字和定位,没放权重、没给许可证、没贴跑分、也没说什么时候能拿到。所以目前只能当个预告看——到底开源到什么程度,正文没披露。
#Code#Kimi#Moonshot AI#Open source
精选理由
这看起来是月之暗面真实的新模型信号,但信息量太少。HKR-R 靠中国开源代码这个竞争角度过关;HKR-H/K 不通过,因为正文没给参数、许可、基准或上线细节,所以留在 all 层级,不上推荐位。
一句话点评
Kimi 发了新开源模型 K2.6,主攻长链条编程和让多个 AI 智能体协同干活,跑分和实测案例都挺猛,但技术细节和模型参数一概没提。
锐评
Kimi K2.6 这次把重点放在了“长链条编程”上,也就是让模型自己连续干十几个小时的工程活,中间不断调用工具、改代码、看性能图,最后把活干完。博客里举了两个例子:一个是用小众语言 Zig 在 Mac 上部署并优化另一个模型,吞吐量从每秒 15 个 token 拉到 193,比 LM Studio 还快 20%;另一个是重构一个 8 年老的开源金融交易引擎,把中等吞吐量提升了 185%。这些数字说明模型在长时间、多步骤任务里的稳定性和工具调用能力确实有提升,CodeBuddy 的测试也提到工具调用成功率到了 96.6%。 不过这篇博客更像产品发布,不是技术报告。模型多大、训练数据、架构改动、推理成本这些关键信息正文完全没披露。引用的跑分表里只有模型名字没有具体分数,内部基准 Kimi Code Bench 也没有公开细节,所以“最强开源代码模型”这个结论外人没法复现验证。另外,企业好评都来自合作测试方,样本量和测试条件未知,参考价值要打折。 想认真评估的话,还得等模型权重放出来之后看社区实测,尤其是长链条任务的翻车率和 API 调用成本。
HKR 分解
hook knowledge resonance
打开信源
93
SCORE
H0·K0·R1
15:35
53d ago
FT · 科技· rssEN15:35 · 04·20
Fermi股价暴跌:高管集体出走,数据中心概念股风险暴露
Fermi股价暴跌,原因是多名高管同时辞职。这家公司之前已经丢了一笔亚马逊1.5亿美元的投资。正文没披露具体跌幅、离职高管姓名、时间点以及后续融资计划。真正的信号是公司治理风险,而不是数据中心行业本身的问题。
#Fermi#Amazon#Trump#Personnel
精选理由
HKR-H 靠的是双重打击的钩子:股价暴跌加高管出走。HKR-K 来自一条硬事实——Amazon 撤回了1.5亿美元投资。但跌幅、高管姓名、离职时间和融资背景都缺失,限制了共鸣,所以留在 all 而非 featured。
一句话点评
数据中心初创公司 Fermi 高管集体离职,股价暴跌。正文被 FT 付费墙挡住,没披露具体离职人数、原因以及股价跌幅。对 AI 基础设施赛道来说,这类公司靠融资讲故事撑估值,高管跑路是危险信号,但缺细节没法判断是经营问题还是个人原因。
锐评
Fermi 已失去 Amazon 的 1.5 亿美元投资,又出现多名高管离职。只看标题和摘要,我对这家公司最大的判断不是“倒霉”,而是董事会、融资、项目执行三条线很可能同时出了问题。数据中心项目最怕的不是舆论,而是资本结构一旦松动,建设节奏会按季度失真,供应商信用也会一起掉。 这里麻烦在于,正文没有披露四个关键点:股价到底跌了多少,离职的是 CEO 级还是建设、融资、运营负责人,Amazon 撤资发生在何时,现有现金还能撑多久。少这四项,外部几乎没法判断它是短期人事震荡,还是项目已经进入再融资失败区间。标题只给了“高管离职 + 亚马逊 1.5 亿美元不投了”,这已经够说明市场不再把它当一张普通的算力概念票。 我一直觉得,AI 数据中心创业这条线过去一年有点被讲得太轻松了。电力接入、土地、变压器、EPC、GPU 采购、长期租约,任何一环掉链子,估值都能从“算力平台”瞬间打回“重资产开发商”。拿同行做参照,CoreWeave 之所以还能不断融资,不是因为故事更新,而是因为它能持续拿出客户合同、GPU 资产和债务安排去撑住信用。我没查到 Fermi 这边有没有同等级的合同覆盖,也没看到摘要提 capex 承诺、PPA、租约或已签客户,这就让我对“hopeful”这个标签有点怀疑:市场给它的,未必是成长股定价,已经开始像在给违约风险定价了。 还有一点我不太买账:很多人看到“前特朗普能源部长联合创办”会先联想到政策资源和能源落地能力,但高管集体离场这件事,恰好说明政治背书替代不了公司治理。数据中心不是拍地项目,后面是多年期建设和持续融资。只要管理层不稳,Amazon 这种级别的投资人撤掉 1.5 亿美元,外部债权人和供应商一定会重新算账。现在能下的结论只有一个:这不是情绪波动新闻,而是信用链条开始断裂的信号。更多判断要等正文披露离职名单、时间线和现金安排。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R0
15:30
53d ago
TechCrunch AI· rssEN15:30 · 04·20
AI核电公司Fermi CEO和CFO突然离职,股价跌22%
Fermi的CEO和CFO在同一天离职,股价当天跌了22%。公司把这包装成“Fermi 2.0”战略升级,但正文没披露离职的具体原因、继任者是谁,也没说时间线。这家公司由前美国能源部长Rick Perry联合创立,正在德州建一个用核反应堆给数据中心供电的AI园区(Project Matador),最近跟大客户闹了矛盾。CEO虽然退出董事会主席位置,但还...
#Fermi#Rick Perry#Personnel#Incident
精选理由
H和R过关:AI核电初创的CEO+CFO双双离职,标题明确是突然变动,钩子强,且电力是AI瓶颈,这事能戳中行业痛点。K不过关:正文没披露离职原因、继任安排、得州项目阻力的具体细节,所以只能算个60多分的人事事件。
一句话点评
Fermi 的 CEO 和 CFO 同时离职,股价跌了 22%。这家公司想用核电站给 AI 数据中心供电,但核心项目 Project Matador 跟大客户闹了矛盾。公司管这叫“Fermi 2.0”,但高管跑路、客户摩擦,更像是在灭火。正文没披露离职具体原因,也没说新 CEO 是谁,这点先别太激动。
锐评
Fermi 这条先看组织风险,不先看核电叙事。CEO 和 CFO 两个岗位同时离开,且标题给了“suddenly”,这在重资产项目里通常不是小波动。正文只披露两件事:Rick Perry 参与创立;得州 AI 园区项目遇到阻力。离职日期、继任安排、阻力类型,正文未披露。 我对“AI+核电园区”这类公司一直偏谨慎。原因很简单:它同时卡在三条长周期链路里。电力接入要批,核项目要批,数据中心客户签约也要批。少一条都跑不起来。过去一年大家把“AI 缺电”讲得很猛,Oklo、Nuclear startup x hyperscaler 这套故事也被一级市场反复追捧,但真正往前推时,输电、并网、许可、融资顺序,经常比模型需求本身更硬。我没看到 Fermi 这篇里有任何一项被讲清。 CFO 一起走,让问题更像融资或项目财务约束,不只是 CEO 个人变动。说真的,早期公司换 CEO 不稀奇,连 CFO 一起掉,味道就变了。尤其是这种要吃长期资本、政府关系和工程执行的公司,CFO 往往不是后台角色,而是项目能不能继续讲下去的人。对照过去一年几家能源算力项目,公开宣布合作很容易,走到土地、电力承诺和资本开支落地就开始分化。CoreWeave 至少还能拿 GPU 租赁合同去融资;核电园区没有投运前,故事要靠更重的信任支撑。 我还有个疑虑:标题说“突然”,正文却只有一句“项目遇阻”。这中间最关键的信息缺口,恰好是市场最该知道的部分。阻力是监管、社区、土地、电网、融资,还是客户退场?这些不是细节,是定性。如果只是地方审批拖延,那是慢;如果是资本结构或承购方出了问题,那就是另一回事。现在材料太薄,我不愿意替公司补叙事。现阶段我只会把这条记成一个负面信号:AI 基础设施开始往电力上游卷时,管理层稳定性本身就是资产负债表的一部分。Fermi 这块,标题已经亮红灯了。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
15:22
53d ago
Hacker News 首页· rssEN15:22 · 04·20
用 Nginx 日志看 AI 到底有没有真的抓你的站
作者用 Nginx 日志抓了 ChatGPT、Claude、Perplexity 和 Gemini 四个 AI 助手访问自己网站的真实请求。ChatGPT 和 Claude 都会主动抓取页面,ChatGPT 还会从多个 IP 同时发请求,Claude 每次抓页面前先看 robots.txt。Perplexity 有时直接抓,有时用自己的索引回答。Gem...
#OpenAI#Anthropic#Perplexity#Commentary
精选理由
标题抛出一个可操作的归因测试——给四个AI发提示,然后查Nginx日志看谁真的来抓了。这个思路对做内容的人有吸引力,H和R都成立。但RSS只给了标题和HN元数据,正文没披露请求次数、来源IP、User-Agent、抓取延迟,也没设对照组,K不通过。所以整体信息带宽低,保持原评分不变。
一句话点评
有人用 Nginx 日志实测了 ChatGPT、Claude、Perplexity 和 Gemini 是否会实时抓取页面。结果:ChatGPT 和 Claude 会,Perplexity 有时会,Gemini 完全没抓(靠索引回答)。关键发现:ChatGPT 抓取时用多个 IP 爆发,单 IP 限流会漏数;Claude 每次先查 robots.txt;Perplexity 可能不抓直接答。G...
锐评
标题给出的事实只有一条:作者向 ChatGPT、Claude、Perplexity、Gemini 发了提示,并去看 Nginx 日志。正文没披露请求次数、来源 IP、User-Agent、Referer、抓取延迟、缓存命中,也没说有没有对照组。只靠这点信息,结论上限很低,最多只能说“作者看到了某些访问变化”,还不能说这些变化由 4 家产品直接触发。 我对这类实验一直有点警觉,因为 AI 带来的站点访问分成两类:一类是模型或浏览工具自己抓页,一类是回答页把人类用户导回原站。两类在日志里的形态差很多。前者常常像 bot 流量,可能没有稳定 referer,还会被 CDN、预取、重试、共享出口 IP 搅乱。后者更接近普通推荐流量,但又会被聊天产品的内嵌浏览、跳转参数、iOS/Android WebView 抹掉线索。标题把 “AI traffic” 和 “referral traffic” 摆在一起,我反而觉得这里最容易混淆。没有方法细节,这个比较站不住。 回到行业背景,过去一年不少人都在追“LLM 到底给网站送不送流量”。OpenAI 的 ChatGPT Search、Perplexity 的答案页、Google AI Overviews 和 Gemini 相关入口,都会在不同场景里抓取网页或显示链接;Cloudflare 之前也一直在推 bot 可见性和 AI crawler 管理,就是因为站长侧根本分不清“被抓取”“被引用”“被点击回流”各占多少。我没查到这篇文有没有做 UA 白名单、ASN 归因、时间窗对齐、未提示页面做基线。如果这些都没做,那它更像一次有趣的日志观察,不是可复现实验。 我还想补一句 pushback:很多人会把“我问了模型,然后站点来了请求”直接讲成“模型会主动访问原站”。这个说法经常过头。Perplexity 和某些带 browsing 的产品,确实更可能触发即时抓取;纯回答链路也可能走索引、缓存、第三方摘要,不碰你的源站。ChatGPT、Claude、Gemini 各自什么时候实时取页,取多少页,正文目前都没披露。没有这些条件,谁更爱抓、谁更会导流,根本排不出名次。 所以这条我会先当成方法论提醒,不当成平台比较。要把它做实,至少得给出 4 组东西:提示词全文、每家产品的交互模式、日志样本和时间戳、一个未被提示的对照页面。少一组,讨论都会滑向叙事,不是证据。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
15:18
53d ago
r/LocalLLaMA· rssEN15:18 · 04·20
Kimi K2.6 在 Hugging Face 上发布了
Reddit 帖子说 Kimi K2.6 上线了 Hugging Face,但正文被 Reddit 屏蔽,只看到 403 页面。目前没有参数、上下文长度、许可证或跑分数据。建议直接盯 Hugging Face 仓库和模型卡,别信这个转帖。
#Kimi#Hugging Face#Reddit#Product update
精选理由
硬排除——零来源。正文是 Reddit 403 页,唯一能信的就是标题说 Kimi K2.6 上了 Hugging Face。HKR-H 勉强过关,但 HKR-K 和 HKR-R 都挂,因为参数、许可、上下文窗口、基准证据全缺。真正该盯的是 Hugging Face 仓库页和模型卡,不是这条二手转帖。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
15:05
53d ago
● P1r/LocalLLaMA· rssEN15:05 · 04·20
用免费 Colab T4 和 Mac 给苹果端侧 3B 模型训练 LoRA 适配器
作者搭了一套 QLoRA 流程来微调苹果那个跑在手机上的 3B 模型,把显存需求从大约 24GB 压到 1GB 内存加 5GB 显存,免费版 Colab T4 或者一台 24GB 内存的 Mac 就能跑。帖子说 A100 跑 LoRA、T4 跑 QLoRA、Mac 跑 QLoRA 训出来的适配器效果差不多,都能把准确率从 40% 左右拉到 75%,如果...
#Fine-tuning#Tools#Benchmarking#Apple
精选理由
一篇带名字的第一手实验,内存和准确率数字可复现,HKR 三项全中,比普通教程贴强。分数没上 85 是因为来源只是单篇 Reddit 帖子,权威性有限,跑分范围也窄。
一句话点评
Reddit 帖子被网络屏蔽,正文内容完全没拿到,没法判断这个 LoRA 训练方法到底靠不靠谱。
锐评
这条消息来自 Reddit 的 r/LocalLLaMA 板块,标题说能在免费 Colab T4 和 Mac 上给苹果的端侧 3B 模型训练 LoRA 适配器。但点进去直接撞了 403 错误,正文被 Reddit 的网络安全策略挡掉了,我们看不到任何技术细节、代码、训练参数或实际效果。标题本身挺吸引人——苹果的端侧模型通常跑在手机或笔记本上,如果能用免费算力做微调,对个人开发者会很友好。但没看到正文就没法确认:训练一次要多久、显存够不够、LoRA 的 rank 设多大、微调后模型在什么任务上表现如何。这些关键信息全是空白。建议等作者补发镜像链接或有人复现后再看,现在只能当一条未验证的线索。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
14:50
53d ago
r/LocalLLaMA· rssEN14:50 · 04·20
Gemma 4 26B-A4B 和 Qwen 3.6 量化模型基准测试
Reddit 上有人发了 Gemma 4 26B-A4B 的 GGUF 跑分,但点进去是 403 错误,正文一个字都看不到。所以任务类型、量化精度、硬件配置、token 速度这些关键信息全都没有。跑分帖如果不说清楚设备和上下文长度,数据就没法对比,等于白发。
#Benchmarking#Reddit#Benchmark
精选理由
抓取返回Reddit 403页面,唯一确认的事实是存在一个Gemma 4 26B-A4B GGUF基准测试帖子。HKR-K不通过是因为任务、硬件、量化、token速度和分数均未披露;HKR-H和HKR-R也不通过,因此HKR 0/3,排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
14:08
53d ago
Product Hunt · AI· rssEN14:08 · 04·20
CodeHealth MCP Server:给AI写的代码做“健康检查”,防止技术债
CodeScene 在 Product Hunt 上发布了 CodeHealth MCP Server,核心功能是让 AI 编程助手(比如 Cursor、Copilot)写完代码后,自动跑一遍“代码健康检查”,避免引入技术债。它用一套确定性规则(不是靠模型猜)来识别风险、建议重构,并且可以本地运行,数据不外传。正文没披露具体支持哪些 MCP 工具 AP...
#Code#Tools#CodeScene#Product Hunt
精选理由
HKR-R 通过,因为 AI 代码质量确实是工程痛点。HKR-H 和 HKR-K 不通过:Product Hunt 的简介只给了使用场景,没有机制、API 细节或可复现的条件。
一句话点评
AI写完代码后自动跑健康检查,避免引入技术债。
锐评
CodeScene 把代码健康检查做成了 MCP 服务器,让 Cursor、Copilot 这类 AI 编程助手写完代码后自动跑一遍静态分析,发现风险、建议重构。关键卖点是“确定性规则”——不是靠大模型猜,而是用硬编码规则做判断,结果可复现、可解释。支持本地部署,代码不外传,对合规敏感的项目友好。正文没披露具体支持哪些 MCP 工具 API、定价和部署细节,实际接入成本未知。如果规则库覆盖够广,能有效减少 AI 生成代码的“看起来对但实际有坑”问题,尤其适合遗留系统改造场景。但这类工具的价值取决于规则质量和项目适配度,初期建议先在小范围验证再推广。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R1
13:36
54d ago
Hacker News 首页· rssEN13:36 · 04·20
BBC:AI 聊天机器人可能让你变笨
BBC Future 发了一篇报道,标题很吓人:AI 聊天机器人可能让你变笨。文章引用了一项 MIT 尚未正式发表的研究:54 个学生写短文,用 ChatGPT 的那组大脑活跃度比不用的人低了 55%,而且写完记不住自己写了什么,感觉像不是自己写的。另一项宾夕法尼亚大学的研究管这叫“认知投降”——用户不怎么思考就接受 AI 给的答案,甚至放弃自己的直觉...
#BBC Future#Commentary
精选理由
BBC Future 这篇只有一个标题,正文没披露任何可验证的证据。标题本身是个评论性判断,不是可复现结论。别被标题带着走,真正该盯的是证据链。信息不够,无法支撑任何实质性判断,所以重要性低,排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
12:20
54d ago
r/LocalLLaMA· rssEN12:20 · 04·20
Kimi K2.6模型进行早期测试访问
一位 Reddit 用户发帖称自己获得了 Kimi K2.6 的早期访问权限。帖子只确认了模型名字和“内测中”这个状态,没有透露任何规格、能力变化、发布时间或提供方。这不是正式发布公告,信息缺口很大:正文没披露 K2.6 比 K2 强在哪、参数量、上下文长度、是否开源、甚至是不是同一个团队做的。如果你在关注 Kimi 的迭代节奏,这点先别太激动——目前...
#Kimi#Commentary#Product update
精选理由
硬排除——零信源:这只是一个 Reddit 用户的早期访问声称,没有截图、规格、跑分或发布时间。HKR-H 勉强靠泄密好奇心过关;HKR-K 和 HKR-R 都失败,因为帖子没提供任何可验证的事实或行业利害关系。
一句话点评
Kimi K2.6 开始小范围测试,Reddit 上已有用户发帖讨论。目前信息极少,正文被屏蔽,无法确认具体能力提升或发布时间。建议观望,等官方或实测出来再判断。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
12:12
54d ago
Hacker News 首页· rssEN12:12 · 04·20
特斯拉隐瞒数千起致命事故,只为继续测试自动驾驶
瑞士媒体RTS爆料,特斯拉隐瞒了数千起致命事故,目的是让自动驾驶测试不被叫停。报道没有说明这些事故涉及的是Autopilot还是FSD,也没给出时间跨度和具体证据。目前只有标题和链接,正文细节缺失,无法判断消息来源是否可靠。
#Robotics#Safety#Tesla#Incident
精选理由
标题指控很抓人,因为自动驾驶安全与披露规则直接关系到部署信任。但正文只有标题和链接,事故口径、证据来源、时间范围、涉及Autopilot还是FSD全没披露,硬信息缺口为零,所以评分上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
12:10
54d ago
r/LocalLLaMA· rssEN12:10 · 04·20
32GB显存跑本地模型,120 tok/s,但别急着下单
Reddit用户晒新配置:Ryzen 7 9700X + Radeon AI PRO R9700(32GB显存)+ 64GB DDR5,在Fedora上用LM Studio跑qwen3.6-35b-a3b,简单提示词下约120 tok/s。速度不错,但正文没披露batch size、上下文长度和功耗,所以这个数字参考价值有限。用户问32GB显存适合跑多...
#Inference-opt#Tools#AMD#LM Studio
精选理由
H 和 K 过关:32GB Radeon 本地跑出 120 tok/s 是个具体钩子,配置和模型也写清楚了。R 弱:这是个人装机帖,不是严谨测试,batch、上下文、功耗都没说,所以只能算本地推理的一个数据点,谈不上市场信号。
一句话点评
Reddit 用户晒新本地跑模型配置:Ryzen 9700X + Radeon R9700,声称推理速度达 120 tok/s。但原文被 Reddit 屏蔽,实际配置细节、模型大小、量化精度、是否纯 GPU 推理均未披露。120 tok/s 如果是 7B 模型用 4-bit 量化跑,对消费级显卡算正常偏快;如果是更大模型或更高精度,那才值得关注。目前信息缺口太大,建议等实测数据或更多用户验证。
锐评
这条先别急着抄配置。用户用 Radeon AI PRO R9700 32GB、Ryzen 7 9700X 和 LM Studio Vulkan 跑 qwen3.6-35b-a3b,自报约 120 tok/s;这能说明“能跑得很顺”,还说明不了“这套组合已经有稳定性能坐标”。正文没给 batch size、上下文长度、提示词长度、是否首 token 还是持续生成、功耗、温度,也没给 quant 版本。少了这些,120 tok/s 只能当社区样本,不能当采购依据。 我对这条有兴趣,原因不在那 120。点在 AMD 32GB 显存这档,终于开始碰到本地玩家最在意的甜区:7B、14B、32B 这一带可以挑模型,而不是被 16GB 卡死。我自己一直觉得,本地推理市场过去一年被 Nvidia 叙事带得太偏了,大家默认“能跑本地 LLM = CUDA”。但从 llama.cpp、koboldcpp、LM Studio 到 Ollama,实际采用门槛正在往 Vulkan、ROCm、Metal 这种更杂的后端摊开。AMD 这代卡如果真能在主流桌面工具里少折腾地跑起来,它吃到的不是数据中心预算,是一大批买不起 RTX 6000 级别卡、又不想碰二手矿卡的人。 模型怎么选,正文其实已经给了方向。32GB VRAM 想“舒服”,通常就别奔着满血 70B 去。按常见 GGUF 经验,Q4_K_M 这档经常是可用性和质量的平衡点,但具体还得看激活开销和上下文缓存占多少。只看权重体积,32B 级 dense 模型做 4bit 往往更现实;35B A3B 这种稀疏架构会更讨喜,因为活跃参数少,吞吐看起来会很好。问题也在这里:A3B 的 tok/s 漂亮,不等于所有模型都这么快。你拿同一台机去跑真正吃带宽的 dense 30B+,数字大概率会掉。我没看到帖子里给 prefilling 和 decoding 分开数据,这个缺口很关键。 拿外面对比一下更清楚。苹果 M3 Ultra 统一内存路线,优点是能塞超大模型,缺点常常是纯生成速度不便宜;Nvidia 24GB 到 32GB 这档,软件成熟度还是更稳,尤其在量化生态和兼容性上。AMD 这条路的胜负手不是单次截图跑到多少 tok/s,而是三件事:LM Studio、Ollama、vLLM 一类工具对 Vulkan/ROCm 的支持能不能少踩坑;社区常用量化格式在 AMD 上会不会经常掉性能;还有驱动更新会不会把一个能用的配置改回玄学。我跟你说,本地圈最烦的从来不是慢一点,是每次升级都要重修环境。 所以这帖我会把它看成“AMD 本地推理可用性抬头”的信号,不看成“R9700 已经打穿本地 LLM”。如果你真要按这套思路配机,先用同模型、同 quant、同上下文,把 TTFT、持续 tok/s、功耗和 8k/32k 上下文下的衰减都跑一遍。没有这些数字,标题里的 120 只适合发帖,不适合下单。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R0
11:42
54d ago
Hacker News 首页· rssEN11:42 · 04·20
给AI末日论者的帕斯卡赌注:我们已经被当成回形针了
Cory Doctorow 用帕斯卡赌注的逻辑反驳AI末日论:就算AI永远不会变聪明,大公司已经在用现有技术监控、压榨工人、操纵社会,我们早该担心这些现实危害,而不是幻想中的超级AI。他承认自己跟Bengio(图灵奖得主)在蒙特利尔同台时吵了一架——Bengio认为必须提前防范AI失控,Doctorow则认为这是转移注意力的营销话术。正文没披露Beng...
#Safety#Alignment#Commentary#Safety/alignment
精选理由
标题有钩子,但正文没披露任何实质内容——作者立场、风险模型、案例、数据全缺,信息量接近零。HKR-H和HKR-R靠标题框架和话题热度通过,HKR-K因零来源硬性排除,分数上限被压在40以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
10:36
54d ago
● P1r/LocalLLaMA· rssEN10:36 · 04·20
用一张 RTX 4090 跑 Gemma 4 26B,从 2400 份财报电话会里挖交易信号,一个有效,一个差点骗过我
一位 Reddit 用户用 800 份标注过的财报电话会记录微调了 Gemma 4 26B,然后在一张 RTX 4090 上花了约 14 小时,推理了 3 年内共 2400 份记录。在 600 份样本外数据上,一个信号显示:CFO 指引越含糊,公司股价在 5 天内相对板块平均跑输约 1.8%,信息系数(IC)为 0.04。另一个信号更强,与板块回报的相...
#Fine-tuning#Inference-opt#Benchmarking#Commentary
精选理由
这是一篇第一人称的实战记录,不是公关稿。作者把 Gemma 4 26B 塞进一张 4090,用 800 份人工标注的财报电话会微调,然后让模型在 2400 份近三年转录上提取交易信号,整批跑完 14 小时。结果里有一个信号站住了:CFO 把业绩指引从具体数字改成模糊表述后,股价 5 日内相对行业落后约 1.8%,IC 0.04,不算强但能用。另一个信号和行业回报相关性高达 0.85,作者直接判定为幽灵信号,提醒读者因子去重比标题里的赚钱故事重要得多。全文没有吹模型多强,反而在讲怎么排雷,信息密度和诚实度都够,适合 featured 位置。
一句话点评
有人拿 Gemma 4 26B 测了 2400 份财报电话会,挖交易信号,一个策略真赚了,另一个差点把人骗进去。
锐评
这条分享来自 Reddit 的 LocalLLaMA 板块,作者把 Gemma 4 26B 这个开源模型用在了真金白银的场景里:从 2400 份财报电话会议记录中提取交易信号。结果挺有意思,一个信号确实有效,另一个则差点让他踩坑。这说明小模型在特定金融文本任务上能跑出实用价值,但可靠性依然是个问题。 不过原文因为 Reddit 的反爬机制,正文内容被屏蔽了,我们看不到具体的实验设计、信号定义和回测数据。比如那个“差点骗过作者”的信号到底是怎么产生的,是模型幻觉、过拟合,还是数据泄露,这些关键细节都缺失。所以这条信息更像一个实战线索,而不是可复现的结论。 如果你也想拿小模型做类似的事,我会先打个折:2400 份样本量不算大,金融信号又容易过拟合,在没有看到完整方法和风险提示前,别急着跟单。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
10:22
54d ago
X · @op7418(歸藏)· x-apiZH10:22 · 04·20
OpenAI 新模型灰度测试,前端能力大幅提升
一位用户称 GPT Pro 新模型正在灰度,他仅凭一个 GitHub 页面、几张截图和两三行提示词,就得到了完整的桌面端产品设计。相比 Claude Design,他认为新模型输出更丰富、交互性更强,且无需额外说明。不过,灰度范围、具体模型名称、输出格式和可复现链接均未披露,目前仅为个人体验,非官方发布。
#Multimodal#Tools#OpenAI#Anthropic
精选理由
H 靠灰度传闻和 Claude Design 对比抓眼球;K 扣分是因为只有个人体验和截图,模型名、灰度范围、输出形式、复现链接正文都没给,信息缺口明显;R 踩中工作流替代和模型竞赛的痛点,但证据不足,只能给低置信度的全量推送。
一句话点评
标题说OpenAI这周要起飞,但正文完全没披露具体产品、发布节奏或任何数据支撑。目前只有一条来源的标题,信息缺口太大,没法判断是模型更新、新功能还是营销话术。建议等具体公告再评估。
锐评
这条现在只能按个人样例看。发帖者用 1 个 GitHub 页面、几张截图、两三行提示词,生成了桌面端产品设计;灰度范围、准确模型名、输出格式、复现链接,正文都没披露。没有这些条件,我不会把它当成一次可下结论的能力跃迁。 我对这类“前端能力突飞猛进”的说法一直比较谨慎。UI 生成很容易被单样例骗到:只要训练集里覆盖过常见 SaaS 布局、组件库和交互套路,模型在 Figma 风格稿、HTML/CSS/React 原型之间来回切,观感会比代码质量更先升级。去年到今年,Claude 这条线、Replit Agent、v0、Lovable 都把“几句需求出一个能点的界面”做得很顺,问题从来不是首屏像不像,而是状态管理、边界条件、设计系统一致性、组件复用、导出后能不能接进真实仓库。这条帖文没给 repo、没给运行链接、也没给多轮修改记录,所以“所有功能都在线”这句话,我不太买账。 有意思的地方在比较对象。作者点名 Claude Design,说明竞争已经不在“会不会画页面”,而在“默认补全多少产品判断”。谁能从一个 GitHub 页面和几张截图里,自动补齐信息架构、交互流、桌面端布局和缺失状态,谁就更像产品设计搭子,而不是代码补全器。OpenAI 这几年一直想把 ChatGPT 从问答界面推到工作流入口;如果这次灰度真存在,我看着更像把多模态理解、代码生成和工具调用压进一个设计任务里,而不是单独冒出一个“设计模型”。 但先别急着喊起飞。标题给了“GPT Pro 新模型正在灰度”,正文没披露 access 条件,也没说这是 ChatGPT Pro 专属、团队版灰度,还是某个内部实验开关。我还没查到官方发布、system card、定价或案例库。没有这些,现阶段更像一次高质量 demo,不是稳定产品信号。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
10:00
54d ago
● P1Hacker News 首页· rssEN10:00 · 04·20
NSA 在黑名单限制下继续使用 Anthropic Mythos 模型
Axios 爆料,美国国家安全局(NSA)正在使用 Anthropic 的模型 Mythos,但这款产品之前被列入某种黑名单。正文没披露黑名单的具体范围、禁令生效时间,也没说 NSA 到底部署了多少 Mythos。关键不是“用没用”,而是合规豁免的路径是什么——如果黑名单是真的,NSA 是怎么绕过去的。这点先别太激动,信息缺口很大。
#NSA#Anthropic#Axios#Policy
精选理由
HKR-H靠的是黑名单与使用之间的矛盾,HKR-R靠的是合规/采购的敏感话题。HKR-K不成立,因为路透/Axios只披露了标题方向,黑名单适用范围、生效时间、Mythos部署规模都缺失,信息量不足以支撑精选。
一句话点评
五角大楼把 Anthropic 拉黑了,但 NSA 照样在用他们的 Mythos 模型,内部矛盾比对外说的要深。
锐评
这事最值得玩味的地方在于:同一个政府部门内部,禁令和执行是两张皮。五角大楼因为 Anthropic 拒绝提供军事用途的保证而将其列入黑名单,但 NSA(美国国家安全局)作为国防部下属的情报机构,却仍在继续使用 Anthropic 的 Mythos 模型。这要么说明禁令本身留有灵活解释的空间,要么就是 NSA 觉得这个模型好用到了可以无视上级指令的地步。 目前消息来源是 Axios 的独家报道,再由路透社跟进,但两篇原文都因为微信环境的验证限制无法直接看到全文细节。我们不知道 NSA 具体在用 Mythos 做什么——是情报分析、代码辅助还是别的场景,也不清楚 Anthropic 对此是否知情或默许。 还缺两个关键信息:一是 NSA 使用的规模和层级,是试点还是已嵌入工作流;二是 Anthropic 的立场,他们一边公开强调安全原则,一边产品出现在被黑名单限制的机构里,这中间的合规漏洞到底出在哪一环。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
09:51
54d ago
r/LocalLLaMA· rssEN09:51 · 04·20
有人把Karpathy视频下105条高赞评论做了主题聚类,发现最大一类不是技术讨论
一位Reddit用户对Karpathy《Intro to LLMs》视频下获赞最多的105条YouTube评论做了主题聚类,发现其中某个非技术类别的规模超过了所有技术类别的总和。帖子正文已被版主删除,所以聚类方法、各类占比、采样时间、具体评论内容都没披露。信号在于观众反馈结构:最热评论可能集中在惊叹、感谢或入门感受上,而非技术细节。这点先别太激动——样...
#Andrej Karpathy#YouTube#Reddit#Commentary
精选理由
HKR-H 靠那个社交反转钩子过关:一个类别压过所有技术类。HKR-K 和 HKR-R 都弱,因为方法、占比、采样窗口都没披露,结论很难验证,也不太可能引发行业持续讨论。
一句话点评
原帖已被 r/LocalLLaMA 版主删除,正文完全不可见。从标题看,作者对 Karpathy 视频下 105 条高赞评论做了主题聚类,发现某个非技术类主题的规模超过所有技术类主题之和。这个发现本身有话题性——说明大众对 LLM 的关注点可能不在架构或训练上。但帖子已删,无法验证聚类方法、样本筛选标准或具体主题是什么,信息缺口太大,无法做进一步判断。
锐评
标题说,用户把 Karpathy《Intro to LLMs》的 105 条最高赞评论做了主题聚类,且有 1 个类别大过全部技术类总和。正文没给聚类方法、类别占比、采样时间、评论原文,我没法接受它当成严肃结论,只能把它当一个有方向感的观察。 我还是愿意给它一点分量。样本虽然只有 105 条,但它选的是“最高赞评论”,这本来就不是随机抽样,而是平台把最能代表群体情绪的内容推到上面。YouTube 这类长课视频下面,最高赞评论经常先奖励“你让我终于听懂了”“我第一次不害怕了”这种情绪回报,再奖励技术纠错。这个排序机制,跟论文社区或 Hacker News 很不一样。Karpathy 过去一年最强的内容能力,也一直不是新结论,而是把 transformer、tokenization、pretraining 这些老东西讲到新手愿意继续看下去。这个能力很稀缺,而且很难被 benchmark 量化。 但我对标题里的叙事有个保留:把“非技术反馈更大”直接解读成“公众不关心技术”,这就有点过。高赞评论反映的是身份认同和观看体验,不等于学习结果。很多人会给“终于听懂了”点赞,转头还是不会自己跑一遍 tiny model。我自己见过不少类似现象:课程口碑极高,作业完成率却很一般。文章如果没给评论文本和分类标准,连那个最大类别到底是“感谢”“敬佩”“被鼓舞”还是“非技术闲聊”都不知道,判断不能走太远。 我一直觉得,AI 教育内容现在分成两路。一路像 papers、repo、eval,竞争点是新东西和硬指标。一路像 Karpathy 的课,竞争点是认知压缩率:90 分钟里让多少人建立起一套可复述的 mental model。后者的影响经常比前者大。去年到今年,最出圈的入门材料很多都不是最前沿的,而是最会搭梯子的。如果这个 Reddit 帖子最后证明确实是“理解感”相关评论压过技术评论,我一点不意外;这说明受众买单的不是信息密度,而是解释质量。只是目前只有标题,这个结论还停在直觉层面。
HKR 分解
hook knowledge resonance
打开信源
53
SCORE
H1·K0·R0
09:45
54d ago
r/LocalLLaMA· rssEN09:45 · 04·20
Claude Code 泄露 20 天后,本地开发者真的用上了吗?
Reddit 上有人问,Claude Code 泄露 20 天后,本地开发者到底有没有从中得到实际好处。帖子只给了时间线,没有提供任何采用率、跑分或复刻项目的可靠性数据。它提到 Qwen 3.6 让消费级笔记本跑本地模型更实用了,还提到了并行工具调用和 diff 功能,但正文没披露任何验证过的收益。
#Agent#Code#Tools#Anthropic
精选理由
H和R都成立:帖子问的是Claude Code泄露后本地开发工作流有没有实质变化,戳中了本地coding-agent用户的神经。K不成立是因为正文零数据——没有采用率、fork数、跑分或任务完成情况,硬排除零来源规则把它压在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
09:34
54d ago
Product Hunt · AI· rssEN09:34 · 04·20
Stet:一个开源听写工具,主打“听起来像你,不像AI”
Stet 是一个刚上 Product Hunt 的开源听写工具,卖点是语音风格自然,不像常见的 AI 朗读腔。但正文只有一行描述,没交代用了什么模型、怎么处理声音特征、支持哪些语言、能不能本地部署、要不要付费。所以“像你”这个点目前只是宣传口号,没有技术细节支撑。如果你在找能保留个人说话节奏和语调的听写方案,可以关注,但先别太激动——信息缺口太大,连 ...
#Audio#Tools#Stet#Product Hunt
精选理由
只有HKR-H成立:钩子是声音风格而非转写精度。HKR-K和HKR-R不成立,因为Product Hunt页面只有一行简介,部署方式、模型、语言支持、定价都没说,所以只能放在低层级all。
一句话点评
Product Hunt 上架了一款叫 Stet 的语音转文字工具,但正文被 Cloudflare 拦截,实际内容为零。目前只知道产品名和平台,功能、定价、技术细节全无。建议等官方页面恢复或看其他媒体报道再判断,现在没法评价。
锐评
Stet 这次把卖点压在“像你”,信息其实很危险。正文只给 1 句简介,没披露模型、词错率、延迟、语言、部署方式,也没说“像你”指的是文风、口头禅,还是语音克隆。没有这些条件,产品判断基本做不动。 我对这类表述一直偏谨慎。听写工具的硬指标很简单:WER、端到端延迟、标点恢复、专有名词召回、离线可用性。你先讲“不像 AI”,等于默认核心转写能力还不够形成壁垒,只能先拿风格感受打入口。这个路数过去一年见过很多次:会议转录、邮件代写、语音助手都爱讲“更像真人”,最后留存还是掉在准确率和编辑成本上。用户每天真会碰的,是医学词、代码变量、双语夹杂,不是品牌文案里的“自然感”。 开源身份也别急着加分。开源只说明代码或部分组件可见,不等于本地可跑,不等于隐私友好,也不等于语音数据不出端。Whisper 把开源听写门槛拉低以后,市面上不少产品其实是在现成 ASR 上再包一层后处理和 UI。我还没查到 Stet 的仓库细节,所以不能断言它是不是这条路线,但如果它没有自己披露模型栈,那我默认它的差异化还没被证明。 还有一点我不太买 Product Hunt 这种场景下的叙事。Product Hunt 很适合推“第一印象产品”,不太适合验证语音系统。语音产品要跑长尾口音、噪声环境、麦克风质量,还要看连续 30 分钟使用后的纠错负担。标题能带来首波点击,带不来这些验证。眼下能说的只有一句:标题给了“open-source dictation”和“sounds like you”,正文没给任何复现条件。没有 benchmark,我不会把它当成语音听写的新基线,只会当成一个值得去翻仓库的薄样本。
HKR 分解
hook knowledge resonance
打开信源
51
SCORE
H1·K0·R0
07:10
54d ago
r/LocalLLaMA· rssEN07:10 · 04·20
一张截图生成等距房间,Qwen3.6-35B 做到了
Reddit 用户 k0setes 用 Qwen3.6-35B-A3B-UD-Q4_K_S 模型,仅凭一张截图就重建了一个等距视角的房间。他透露的修改只有两处:把家具边缘改圆、增加地毯纹理。帖子附了两张预览图。关键在于模型实现了“截图→场景”的端到端控制,但正文没披露完整 prompt、推理配置和运行耗时,所以实际可控性和成本还不清楚。
#Vision#Multimodal#Qwen#OpenAI
精选理由
这是 Reddit 上一个视觉上很扎实的 demo,所以 HKR-H 通过:一张截图就能生成等距房间。HKR-K 和 HKR-R 不通过,因为帖子只分享了两条额外提示,完整提示词、推理设置、耗时、稳定复现性以及任何工作流影响证据都缺失。
一句话点评
一条 Reddit 帖子标题说 Qwen3.6-35B 能根据截图生成等距房间,但正文被 Reddit 屏蔽,无法验证。如果属实,说明模型在空间理解或图像生成上有新能力,但来源不可靠,信息缺口大,先别太激动。
锐评
k0setes 用 1 张截图让 Qwen3.6-35B 还原了 1 个等距房间。已披露改动只有 2 处:家具边缘更圆,地毯纹理更强。这个结果有意思,不在“图好不好看”,而在模型有没有把单张参考图里的空间关系,稳定转成可编辑场景。要是这点成立,本地多模态模型就不只是做 caption 和修图了,已经开始碰轻量级 scene reconstruction。 我对这条的态度是先保守一点。正文没给完整提示词,没给采样参数,没给上下文长度,也没给耗时。连输出到底是 2D 重绘、结构化描述,还是某种 3D/伪 3D 场景,也没讲清。只看 2 张预览图,很容易把“风格接近”误判成“几何正确”。这两件事差很多。前者靠强先验就能做,后者得保住视角、尺度、遮挡和物体相对位置。 说真的,这条让我想到过去一年那批把图片转成房间布局、网页骨架、游戏关卡草图的实验。GPT-4o、Gemini 2.0 这一类闭源模型,早就展示过从单图抽 UI 结构和空间元素的能力,但本地模型一直卡在细节漂移和位置不稳。我还没核实 Qwen3.6-35B 这版在视觉定位上的官方评测,可如果它在量化到 Q4_K_S 之后,还能保住这种布局控制,那比“又能画一张图”更有信息量。 我还有个疑虑:Reddit 这类展示常常只放最好的一次。复现条件没给,就没法判断成功率。是 1 次出图就到这程度,还是试了 20 次挑 1 张?差别非常大。对从业者来说,能不能复用到室内设计预览、游戏关卡 blocking、机器人模拟数据制作,看的不是惊艳样张,而是 10 次里能成几次。现在这条还证明不了那么多,但它至少说明一件事:本地开源多模态模型已经开始逼近“拿一张图,先搭出空间骨架”这件事。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R0
06:54
54d ago
Product Hunt · AI· rssEN06:54 · 04·20
PageOn.AI 3.0:一个做幻灯片和海报的“视觉智能体”
PageOn.AI 发了3.0版本,自称是更聪明的视觉智能体,能帮你做幻灯片、海报和信息图。但正文就一句话,没提用了什么模型、怎么收费、响应快不快、什么时候能用。目前能确认的只有产品更新这个动作,其他都是空话。
#Agent#Multimodal#Tools#PageOn.AI
精选理由
这是一条很薄的产品更新:确认PageOn.AI 3.0面向幻灯片、海报和信息图,但没给价格、模型、延迟或用户测试。HKR三项全不满足,按0/3规则排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
06:36
54d ago
r/LocalLLaMA· rssEN06:36 · 04·20
本地代码助手硬件选择对比:GPU与MacBook Pro
一个 Reddit 用户在选本地跑代码助手的硬件:Nvidia 5090 约 3500 欧元,AMD R9700 32GB 约 1300 欧元,MacBook Pro M5 Max 128GB 约 7000 欧元。他现有机器是 Ryzen 9 9950X 加 96GB 内存,想在 IDE 里做跨 Rust、Python、Go、TypeScript 的代...
#Code#Agent#Tools#Nvidia
精选理由
这是一则本地编程的硬件选型求助,不是基准测试。帖子列出了 RTX 5090、R9700 32GB 和 M5 Max 128GB 的价格,但没有 token/s、VRAM 适配、IDE 编辑结果或推荐;HKR-R 通过,HKR-H/K 不通过。
一句话点评
Reddit 用户纠结微调/编程用 RTX PRO 5000(48GB)还是 MacBook Pro M5 Max(128GB 统一内存)。前者显存小但带宽高,后者内存大但带宽低,适合跑大模型但训练慢。正文被屏蔽,缺具体对比数据和用户预算。
锐评
这帖用 1344 GB/s 对 614 GB/s 比带宽,再拿 <32B 微调当场景,结论却还是不够落地。问题不在“哪台更强”,而在你的链路到底押 CUDA,还是押统一内存。 我先给判断:如果工作流核心真是 Unsloth 微调、vLLM 服务、Hugging Face 权重来回折腾,RTX PRO 5000 48GB 更像生产工具;如果你经常碰到 48GB VRAM 装不下、但又能接受更慢吞吐,M5 Max 128GB 才有它的位置。帖文里最关键的缺口,是没有任何实测:没 token/s,没 samples/s,没 LoRA/QLoRA 配置,没 batch size,没上下文长度,连价格和功耗都没有。只有带宽,远远不够决定 fine-tuning 体验。 说真的,本地圈子这两年已经把这个问题跑得很清楚了。Mac 的优势一直不是训练快,而是“能把更大的量化模型塞进一台安静机器里跑起来”。MLX 和 llama.cpp 在 Apple Silicon 上很顺,长上下文、离线推理、个人开发体验都不错。我自己没看到这帖给出 M5 Max 跑 llama.cpp 或 MLX 的任何实测,所以“614 GB/s 就怎样”只能停在猜测。反过来,CUDA 这边的优势也不只是带宽。Unsloth、Flash Attention、bitsandbytes、各类 fused kernels,再加上 PyTorch 主线支持,组合起来通常决定的是训练可复现性和踩坑成本。你今天能不能一条 Hugging Face 脚本改两行就开跑,这比纸面峰值更值钱。 我对“Mac 上会把训练时间翻倍”这句也有点怀疑。这个方向大体没错,但翻几倍取决于模型大小、量化方式、rank、序列长度、是否走 MLX、有没有专门 kernel。没 benchmark 就直接报倍数,跟每代新卡发布会喊十倍提速差不多,信息量很低。还有一个常被忽略的点:vLLM 在 NVIDIA 上通常比在 Apple 生态成熟得多,而很多 agentic coding 场景吃的不是单轮聊天速度,是并发、prefill、工具调用链稳定性。你一旦开始跑多 agent、开几个本地服务,48GB VRAM 未必宽裕,但软件兼容性大概率还是站在 RTX 这边。 我还想补一个文章外的上下文。过去一年,本地开发者对 Apple Silicon 的好评,很多来自“单机大内存”这件事,不是来自训练栈追平 CUDA。MLX 进步很快,这个我承认,但 Hugging Face 上新教程、新 kernel、新加速,首发基本还是 CUDA。你如果买的是“未来三年少折腾”的设备,这个分发惯性很难忽略。除非 Unsloth 真的把 MLX 支持做扎实,而且社区把复现配方补齐,不然 Mac 更像一台能跑更多模型的研究机,RTX 更像一台把现成工作流接上就干活的机器。 所以这条我不会按硬件选型来读,我会按生态锁定来读。标题已经给出两台机器和一个开发场景,正文没给出任何能定输赢的数据。没有同模型、同量化、同 batch、同上下文、同框架的 A/B 测试前,这个问题最多只能回答“你更想继承谁的软件债”。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
06:10
54d ago
r/LocalLLaMA· rssEN06:10 · 04·20
DeepSeek 3.2 在 llama.cpp 上吞掉了开头的 think 标签
有用户在 512GB 内存的机器上跑 DeepSeek V3.2 的 Unsloth GGUF 版本,发现 llama-server 把开头的 <think> 标签吃掉了,只剩推理文本和结尾标签。切换 --reasoning 参数也没用。问题大概率出在聊天模板或 GGUF 打包上,但原帖没交代 llama.cpp 版本和日志,没法进一步定位。
#Reasoning#Tools#DeepSeek#llama.cpp
精选理由
这是一条有用的 Reddit bug 报告,HKR 只占 K:给出了机器规格、启动参数和开关失效条件。角度太窄,依赖本地部署/模板适配上下文,因此适用硬排除-技术可及性不足。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K1·R0
04:36
54d ago
● P1量子位 · 公众号· rssZH04:36 · 04·20
苏度科技估值超20亿美元,发布具身模型Sudo R1:零真实机器人数据训练,首次抓取成功率约98%
苏度科技放出了他们的具身智能首秀Sudo R1,说是在完全没有用真实机器人数据训练的情况下,直接零样本测试了200多次,对100多种没见过的物体(包括透明、金属、软的和反光的东西)首次抓取成功率约98%,试两次基本能到100%。整个演示跑了60分钟。他们用的方法是在高保真模拟器里结合世界模型和强化学习来训练,相当于先在虚拟世界里把技能练好再搬到真机上。...
#Robotics#Vision#Benchmarking#Sudo
精选理由
这条我会先打个折,因为所有指标都是自报的,没第三方验证。但零真机数据、zero-shot 直接上真机抓出 98% 首次成功率,这个说法本身就够硬,而且给了 200 多次测试、100 多个没见过的物体、60 分钟连续跑,数字具体,不是空口号。它正好打在机器人行业最疼的地方:真实数据又贵又慢,仿真到真机迁移一直是个坑。正文没披露融资金额、基准怎么定义的、谁做的第三方验证,所以分数没给更高。
一句话点评
正文被微信环境异常页挡住,实际技术细节和验证方式都没披露,98%这个数字先别太激动。
锐评
这条消息目前只能看个标题,正文因为微信环境异常完全打不开,所以所有技术细节都无从核实。标题里说的“0真机数据、zero-shot、98%首次抓取成功率”听起来很猛——如果属实,意味着苏度科技用纯仿真训练出来的模型,直接部署到真实机械臂上,第一次抓东西就有98%的成功率,这在具身智能里是相当高的指标,通常真机迁移会掉不少点。但问题也在这儿:我们不知道这98%是在什么条件下测的,抓的是固定形状的积木还是乱七八糟的日常物品,测试了多少次,失败的那2%是什么情况。公司估值20亿美金、这是首次公开演示,这些背景让这条消息值得关注,但在看到完整实验设置和第三方复现之前,只能当个信号看,不能当结论用。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
04:06
54d ago
● P1机器之心 · 公众号· rssZH04:06 · 04·20
Anthropic 编程智能体负责人讲 vibe coding 的正确姿势:2 周变 1 天,但别让 AI 碰核心逻辑
Anthropic 研究员 Erik Schluntz 分享了他团队用 Claude 写代码的真实工作流。他们最近合并了一个 2.2 万行的生产环境改动,大部分代码由 Claude 生成,把原本两周的工作压缩到了一天。他的做法是先花 15-20 分钟让 AI 通读代码仓库、做规划,然后只让 AI 改叶子节点(也就是依赖最少、影响范围最小的模块),核心逻...
#Agent#Code#Tools#Anthropic
精选理由
这是一篇来自 Anthropic 内部的实战经验,不是泛泛而谈。有 22000 行生产合并、两周变一天的硬数字,也有可复用的流程规则,比如先让模型花 15 到 20 分钟探索代码库再动手、改动锁在叶子节点、核心路径必须人审。对正在纠结怎么把 coding agent 放进真实流水线的团队来说,参考价值很高。保持 featured 不升 p1,因为它本质是实践课,不是模型或产品重大发布。
一句话点评
Anthropic 编程智能体负责人出来讲 Vibe Coding,但原文被微信验证墙挡了,具体方法、案例和踩坑经验都没看到。
锐评
这条消息的标题很吸引人——Anthropic 内部负责编程智能体的人亲自下场讲怎么正确做 Vibe Coding,对从业者来说是个难得的一手信源。Vibe Coding 这个概念本身就容易让人误解成“随便说说让 AI 写代码”,如果能有官方视角厘清边界、给出可操作的工作流,价值会很大。但问题在于,原文链接指向微信公众号,页面直接触发了环境异常验证,正文内容完全不可见。我们看不到他到底讲了什么:是 prompt 技巧、任务拆解方法,还是对 Claude 编程能力的限制说明?有没有给出具体的成功率和失败模式?这些关键信息全部缺失。所以这条新闻目前只能当个“值得关注”的线索,没法做实质判断。建议等有可访问的全文或转载后再看,别急着根据标题下结论。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
04:06
54d ago
机器之心 · 公众号· rssZH04:06 · 04·20
北大南科大提出 QuatRoPE:用四元数给大模型装个 3D 空间脑
北大和南科大合作搞了个 QuatRoPE,目标是让大模型能理解三维物体之间的位置关系,比如“A 在 B 的左边还是上面”。论文中了 CVPR 2026。但原文页面被微信封了,看不到具体方法、用了什么数据集、效果提升了多少。核心思路应该是在 RoPE(旋转位置编码)基础上引入四元数,让模型能处理 3D 旋转和相对位置。如果真能低成本让 LLM 做 3D ...
#Reasoning#Vision#Peking University#Southern University of Science and Technology
精选理由
触发硬排除-技术可及性失败:这是一篇专门的三维表示/RoPE论文,且正文不可访问。HKR-H因新颖性通过,但HKR-K缺指标/机制,HKR-R缺产业神经,因此重要性上限为39。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
04:05
54d ago
r/LocalLLaMA· rssEN04:05 · 04·20
Claude 账号被无故封禁后,求替代方案:要能写长文推理,还要能当编程助手干活
一位 Reddit 用户称自己的 Claude Pro 和 Claude Code 账号在重度使用后被封,官方“零解释”。他想找替代品,要求两点:一是 Claude 那种长文推理和写作能力,二是 Claude Code 那种能进终端、读写本地文件、执行任务的编程助手模式,预算约 20 美元/月。帖子没交代封号时间、触发原因和申诉结果,但问题很实际——有...
#Agent#Code#Tools#Anthropic
精选理由
HKR-H和HKR-R通过:无解释封号是强钩子,且直击重度用户对供应商锁定的焦虑。HKR-K不通过:帖子只列了20美元预算和功能清单,没披露封禁触发条件、申诉结果或实测替代方案,信息密度低,适合全量推送但价值有限。
一句话点评
用户被 Claude 封号后求替代方案,但正文被 Reddit 屏蔽,只看到报错页面。信息缺口:不知道原帖里推荐了哪些模型或工具。如果真想找平替,可以关注 DeepSeek-Coder、Qwen2.5-Coder 或 Gemini 的代码能力,但 Claude Code 的深度 agent 工作流(让模型自动改代码、跑测试)目前开源方案还差一截。短评:封号原因不明,替代方案正文被墙,等于没信息。
锐评
这名 Reddit 用户把需求卡得很清楚:1 个账号要同时覆盖长文本写作、结构化规划、终端执行、本地仓库访问,预算约 20 美元/月。我的判断很直接:现在市场里接近 Claude 的不是单一替代,而是“两件半产品”拼装。前半是模型,后半是 agent 壳,剩下半件是权限与稳定性。标题在讲封号,正文却没给封禁时间、触发操作、申诉结果,也没说是否碰到自动化频率限制,所以没法把责任直接扣到 Anthropic 风控头上。我还没查到这位用户的完整使用轨迹,因果关系正文未披露。 但这条依然有信息量。因为它把 Claude Code 过去几个月吃到的那层用户价值说透了:很多人买的不是“更聪明的聊天”,而是一个默认能进 terminal、能读 repo、能连续做事的工作台。OpenAI 在 ChatGPT Plus 20 美元档也有 Codex 和更强工具链,我自己看到的反馈一直是模型能力接近,工作流手感差一截;GitHub Copilot、Cursor、Aider 这些也能补代码 agent,但写作、课程材料、Obsidian 知识库这类跨模态杂活,拼装感还是重。说真的,这不是谁 benchmark 高 2 分的问题,是 Claude 把“会写 + 会做”捏在一个入口里了。 我对“找一个平替”这个说法有点怀疑。20 美元/月这个预算,单独买 ChatGPT Plus 或 Cursor 其中一个还行;想把长文写作、截图分析、仓库操作、Obsidian、本地文件权限、图片生成全塞进去,稳定性还要高,现实里大多要上多工具组合,或者接受本地模型能力掉一档。比较靠谱的路线,通常是云端模型加本地 agent 壳:比如 OpenAI 或 Gemini 做主模型,Aider / OpenCode 一类接终端和 repo,再配 Obsidian 插件。但这套东西的痛点刚好也是这条帖子在抱怨的:不是能力不够,是账号、权限、封禁、插件维护、上下文一致性全会咬你一口。 所以我对这条的结论不是“Claude 有替代了”,而是“Claude Code 已经把一个新基线抬起来了”。谁先把 20 美元档的账号治理、申诉透明度、agent 权限边界做扎实,谁就会截走这批用户。模型分数反而排在后面。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
04:02
54d ago
● P1新智元 · 公众号· rssZH04:02 · 04·20
人大团队让AI跑了23小时、74轮实验,靠的不是堆Agent,而是把文件当总线用
人大高瓴人工智能学院放出了一个叫AiScientist的系统,在MLE-Bench Lite的一个侮辱性言论检测任务上连续跑了23小时、74轮实验,把验证集AUC从0.903拉到了0.982,中间刷新了18次最佳成绩。论文的核心观点是:长程记忆的关键不在多Agent协作,而在状态连续性。他们搞了个File-as-Bus机制,把分析、代码、日志、结果全持...
#Agent#Memory#Code#Renmin University of China
精选理由
人大这个 AiScientist 跑了 23 小时、74 轮实验,把检测侮辱性评论任务的 AUC 从 0.903 干到 0.982。论文的核心卖点不是 Agent 数量,而是 File-as-Bus——让模型把分析、代码、日志、实验记录持续写回工作区,靠状态连续性而不是多 agent 协作来推进长程任务。消融实验也印证了这点:去掉这个机制后,PaperBench 分数降 6.41 分,MLE-Bench Lite 的 Any Medal 直接掉 31.82 个百分点。我会先打个折:只在两个 benchmark 上验证过,泛化性还没谱,但思路本身对正...
一句话点评
正文被微信环境验证页挡住了,实际内容没抓到,下面只能基于标题做有限判断。
锐评
标题说人大搞了个 AiScientist,能在 23 小时内跑完 74 轮对话,还强调“Agent 不是关键”。如果属实,这更像在说长程记忆和持续对话能力本身比套 Agent 壳子更重要——模型能记住 74 轮上下文不崩,对做科研辅助、长文档分析这类场景确实有用。但“23 小时”这个数字得看是单任务耗时还是总训练/推理时长,以及 74 轮里有没有人工干预或重置。正文没披露实验设置、任务类型、模型规模和对比基线,光看标题没法判断是实打实的突破还是标题党。另外,微信页面触发环境验证,说明原文可能被反爬或限制访问,信息完整性存疑。如果后续能拿到论文或技术报告,重点要看记忆保持率、幻觉率随轮次的变化,以及这 74 轮到底在干什么——是闲聊还是真有科研产出。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
04:02
54d ago
新智元 · 公众号· rssZH04:02 · 04·20
马斯克说 Grok 5 就是 AGI,五月要连发两个万亿参数模型
马斯克在 X 上放话,说 Grok 5 已经达到 AGI,同时 xAI 计划五月先发一个 1 万亿参数的 Grok 4.4,月底再发 1.5 万亿的 Grok 4.5,后面还有 6 万亿的 Grok 5 和超大集群 Colossus 2。但整篇消息来源只有马斯克的推文和所谓的路线图,没有官方博客、技术报告或第三方跑分。参数规模确实大,但训练成本、推理延...
#Agent#Reasoning#Code#xAI
精选理由
HKR-H 和 HKR-R 成立:AGI 口号和 xAI 对 OpenAI 的竞争叙事足够抓人。HKR-K 不成立:正文没有提供任何可核验的官方公告、技术报告或基准测试,路线图和参数数字全靠马斯克一张嘴,所以这条只能算低带宽的 all 级内容。
一句话点评
正文被微信屏蔽,实际信息为零。标题说马斯克官宣Grok 5是AGI、五月连发两代万亿参数模型,但来源是自媒体,无原始发言或官方公告佐证。建议等可靠信源或马斯克本人X帖再判断,目前只能当传闻看。
锐评
这条的关键信息很简单:马斯克在 X 上宣称 Grok 5 是 AGI,文章再往前推了一条 5 月路线图,称 xAI 将在 5 月初发 1T 参数的 Grok 4.4、5 月底发 1.5T 的 Grok 4.5。问题也很简单:正文没有官方博客,没有 system card,没有 API 文档,没有第三方 benchmark,连 0.5T、1T、1.5T、6T 这些参数口径都没法核验。 我先说判断:这更像是融资叙事、招聘叙事和舆论占位,不像已经准备好接受同行审视的模型发布。AI 圈这两年被“参数量”带偏过很多次。GPT-4 之后,头部实验室公开谈参数规模的频率其实下降了,公开材料里更常见的是推理成本、延迟、SWE-bench、MMMU、长上下文稳定性、agent 成功率。原因不复杂,大模型到了这个阶段,参数数字单独拿出来,信息量已经没那么大。MoE 怎么算激活参数,训练 token 有多少,post-training 做了什么,推理时每 token 成本多少,这些才决定你能不能上线、能不能大规模卖。 文章里最让我警觉的,是它把几组完全不同可信度的信息揉在一起讲:马斯克在 X 上的口头表述、对路线图的二次解读、Colossus 2 的硬件传闻、还有“AGI”这种根本没有统一验收标准的标签。这里面只有第一项勉强算一手信号,后面三项都没有足够证据。55 万块 GB200/GB300、2GW 功率、同时训练 7 个模型,这种数字不是不能成立,但它一旦成立,供应链、供电、冷却、网络、封装、交付节奏都会在别处留下痕迹。正文没给,标题倒是先把 OpenAI 慌了写上了,这个说法我不太买账。 外部对比一下就更清楚。Anthropic、OpenAI、Google 现在做前沿模型发布,哪怕藏一些训练细节,通常也会给出最低限度的可验证材料:价格、上下文窗口、基准、系统卡、API 能力边界,至少让开发者知道怎么接、值不值得迁移。xAI 过去的发布风格一直更像“先放话,再补文档”,这套打法能抢流量,但很难直接转成开发者信任。去年 Grok 系列就反复出现“能力说得很满,披露不够完整”的问题,所以这次我不会因为 1T、1.5T、6T 这些数字就自动抬估值。 还有一个点,文章试图把“X 的实时数据”“特斯拉车队数据”“SpaceX 工程速度”拼成 xAI 的独家优势。我承认这套资产组合很少见,但离模型能力证明还差三步。第一,数据接入不等于可用于训练,版权、清洗、去重、对齐都要过关。第二,车队传感器数据对语言模型到底怎么转成可泛化能力,正文没披露。第三,工程速度不等于研究突破,122 天建成集群很强,可集群利用率、稳定训练天数、故障率、互联效率,文章一个都没给。 我自己也承认,有些事现在外面查不到。比如 Grok 4.3 Beta 的完整能力边界、Grok 4.4 和 4.5 是否真会在 5 月发、Grok 5 是否已经进入稳定训练后段,这些正文都没覆盖。我不会硬猜。要让我认真更新判断,至少得看到三样东西:一是官方发布页或 API 说明;二是可复现或至少可对照的基准,哪怕先给 SWE-bench、AIME、GPQA、Humanity’s Last Exam 这一类;三是成本和吞吐的基本口径。没有这些,“Grok 5 就是 AGI”更像马斯克把产品发布会提前开成了一条推文。 说真的,xAI 现在最需要的不是更大的数字,而是一次能经得住开发者复测的正式发布。要是 5 月真的连发两代模型,而且基准、价格、稳定性都站得住,那再谈 OpenAI 会不会紧张还来得及。眼下这篇稿子提供的,更多是情绪,不是证据。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R1
04:00
54d ago
FT · 科技· rssEN04:00 · 04·20
北方信托:AI 繁荣可能带来“大规模通缩”
北方信托资管部门负责人(管理 1.4 万亿美元资产)认为,如果 AI 能带来大幅生产力提升,就会引发大规模通缩。这是一个宏观市场判断,不是模型发布。正文没披露时间范围、具体行业、影响幅度或验证方法,所以先别太激动——这个判断目前还缺数据支撑。
#Northern Trust#Commentary
精选理由
HKR-H靠的是‘AI降通胀’这个反直觉判断,有话题性。但HKR-K和HKR-R都卡在信息太少:全文只披露了判断来源(Northern Trust资管负责人),没给任何方法、时间、行业或量化幅度,硬排除规则(零来源披露)直接把它压在40分以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
04:00
54d ago
FT · 科技· rssEN04:00 · 04·20
新兴市场回来了,但这次是韩国和台湾
FT 说这一波 AI 浪潮的最大受益者,目前是韩国和台湾。正文被付费墙挡住,没披露具体指标、行业、时间范围或对比基准。
#Financial Times#South Korea#Taiwan#Commentary
精选理由
《金融时报》这篇评论只抛了一个观点:韩国和台湾是当前AI浪潮的最大受益方。但正文没披露任何支撑数据——受益指标是什么?哪些行业?跟谁比?时间多长?全没提。标题有钩子,话题有相关性(芯片供应链利润集中),但知识缺口致命,所以硬排除规则6把分压在40以下,维持excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
04:00
54d ago
FT · 科技· rssEN04:00 · 04·20
乌克兰无人机靠互联网制导,500公里外打俄军目标
乌克兰无人机操作员能隔着500公里命中俄罗斯目标,关键不是飞机本身,而是用互联网传指令的制导链路。正文没披露具体用什么无人机、怎么抗干扰、部署了多少架,所以这点先别太激动。核心看点是:只要网络能通,远程打击的门槛就降得很低,不用靠卫星或昂贵的通信设备。
#Robotics#Tools#Ukraine#Russia
精选理由
HKR-H靠500公里远程打击的钩子通过。HKR-K和HKR-R不通过,因为正文没披露无人机型号、制导链路、抗干扰设计或部署规模,且与AI行业的相关性很弱,所以分数低于40,被排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
04:00
54d ago
FT · 科技· rssEN04:00 · 04·20
地缘政治冲击暴露欧洲银行过度依赖美国云厂商
一些欧洲银行担心,地缘政治冲击暴露了它们对少数几家美国超大规模云厂商的过度依赖。正文没有披露具体涉及多少家银行、哪些云厂商,以及银行有什么应对方案。
#Policy#Commentary
精选理由
这篇只够HKR-R:集中度风险加地缘政治,戳中了主权和业务连续性的神经。HKR-K不成立,因为正文没披露银行数量、云厂商名字或应对方案,而且角度偏评论,不是具体的AI事件。
一句话点评
FT这篇讲地缘政治冲击让企业意识到不能只依赖一家云厂商,比如AWS或Azure。正文被付费墙挡住,没披露具体案例或数据。逻辑上是对的——如果某云服务因制裁或断网停摆,业务就挂了。但多供应商策略会增加运维复杂度,成本也会涨。这点先别太激动,文章大概率是观点呼吁,缺实测或企业迁移数据。
锐评
欧洲银行担忧少数美国 hyperscaler,这个事实本身已经够硬。正文只给出“少数美国云商”这一点,没披露银行数量、厂商名单、合同期限、迁移方案,也没说明触发担忧的是制裁、出口管制,还是数据调取权限。我对这条的判断是:它表面写的是地缘政治,底层其实是金融业终于承认,云集中度不是单纯的采购问题,而是可用性、合规、法域控制权绑在一起的问题。 我一直觉得,欧洲金融机构过去几年对“多云”的表态有点虚。很多银行说自己是 multi-cloud,实际常见形态是开发在一家,核心数据在一家,身份、监控、灾备又绕回同一套美国控制面。账单看着分散,故障域和法域并没有分散。2024 年 Google Cloud 因 UniSuper 事故赔了澳洲养老基金,这类事件已经把“单厂商依赖”从技术风险拉回董事会层面。银行比互联网公司更麻烦,因为它们不只要 uptime,还要解释监管问询:极端条件下,谁有权关、谁能看、谁能优先拿资源。标题给了担忧,正文没给这些关键细节。 外部参照并不缺。DORA 在欧盟已经落地,核心就是把 ICT 第三方风险拉进金融监管主表。英国监管这两年也一直盯 cloud concentration risk。我印象里,英国央行和 FCA 之前点过 AWS、Microsoft、Google 在金融基础设施里的集中度问题,具体措辞我没逐字核过,但方向非常清楚。今天再叠加美国政治和出口管制的不确定性,银行开始把“供应商锁定”升级成“跨境依赖”,这很合理。 但我也不太买“多找几家云商就解决”的说法。银行核心系统迁一次,不是加个 Terraform provider 就完事。数据主权、KMS 控制权、身份联邦、审计链、主权云条款、退出演练,这些才是硬骨头。更现实的路线,往往不是把核心账务明天搬去第二家,而是先把最关键的控制面拿回来:密钥自持,日志留境,模型和数据分层,灾备做成可运行而不是 PPT。我还没看到正文披露任何一家银行做到这一步。 说真的,这条如果继续发酵,对 AI 从业者也有直接影响。现在大量金融 AI 项目默认吃美国云上的 GPU、托管模型和数据服务。只要董事会开始把云主权当成一级风险,生成式 AI 项目的采购节奏、模型部署位置、甚至供应商选择都会被重排。不是因为欧洲突然讨厌美国云,而是当基础设施同时承载交易、合规和 AI,集中度的容忍阈值会急剧下降。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K0·R1
04:00
54d ago
FT · 科技· rssEN04:00 · 04·20
银行想用AI既防风险又抢生意
FT报道说银行正在把AI从被动防御工具变成主动竞争手段,重点用在金融犯罪检测上。正文没披露具体用了什么模型、部署规模、预算或时间表,所以这点先别太激动。核心信号是银行不再只把AI当合规成本,而是想用它来拉开跟对手的差距。
#Safety#Tools#Commentary
精选理由
这是一篇行业趋势报道。可见信息只到银行想用AI做防御和竞争,没有点名具体银行、模型、预算、规模或时间表,所以HKR三项全不满足,归为excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
04:00
54d ago
AI 群聊日报· atomZH04:00 · 04·20
群聊日报:OpenAI iOS支付漏洞、MCP协议安全缺陷、Kimi K2.6开源
今天群里至少聊了7个AI话题,包括微软M365 Agents SDK、OpenAI iOS支付漏洞利用链、MCP设计缺陷、Kimi K2.6开源等。RSS片段点名了微软、OpenAI和Kimi,还提到Copilot停止新用户注册;正文没披露漏洞具体机制、MCP缺陷细节或Kimi K2.6模型规模。真正的信号是工程治理:护栏、可审计性和协议标准化正在被审视。
#Agent#Tools#Safety#Microsoft
精选理由
这是一份群聊日报,不是报道事件。它列了至少 7 个话题,但没给机制、参数细节或来源链接,所以按硬排除-陈旧重发处理,分数上限 40。
一句话点评
群聊日报里信息密度高,但每条都缺细节,适合当线索索引。
锐评
这篇日报汇总了7个AI话题,信息量不小,但每条都点到即止。最值得关注的是三个工程治理信号:OpenAI iOS支付漏洞(收据没跟账号绑定,黑产用一张收据批量解锁Plus,OpenAI最近才回溯清查)、MCP协议被曝设计缺陷(一行配置就能接管电脑,本质是科研协议被包装成工程标准推广)、以及Copilot停止新用户注册、微软限制员工用Claude。这些事放在一起看,说明护栏、审计和协议标准化正在被行业重新审视。Kimi K2.6开源了,但正文没披露模型规模或具体能力提升。GPT Pro速度翻4倍,网友猜是GPT-5.5上线,但没官方确认。微信支持Markdown渲染,对手机阅读体验是好事。a16z闭门会观点(人月神话失效、SaaS末日)偏宏观,缺乏具体数据支撑。整体来说,每条新闻都缺关键细节——漏洞机制、缺陷具体表现、模型参数——适合当线索索引,不适合直接引用。
HKR 分解
hook knowledge resonance
打开信源
33
SCORE
H0·K0·R0
01:37
54d ago
● P1纽约时报中文网· rssZH01:37 · 04·20
荣耀人形机器人“闪电”半马跑出50分26秒,比人类世界纪录快近7分钟
荣耀的人形机器人“闪电”在北京半马跑出50分26秒,比乌干达选手基普利莫保持的人类纪录(57分20秒)快了将近7分钟。它身高1.65米,腿长约0.9米,中途撞上护栏摔倒,靠人扶起来后继续跑完。去年最快的机器人成绩是2小时40分42秒,今年直接压缩到不到三分之一,进步幅度很大。俄勒冈州立大学的机器人教授费恩认为,这主要说明中国在机器人硬件工程和系统稳定性...
#Robotics#Benchmarking#Honor#Alan Fern
精选理由
这条消息的钩子很直接:一台人形机器人半马跑进50分26秒,比人类纪录快将近7分钟。我会先打个折——它中途撞护栏摔了,是在人帮忙扶起来之后才完赛的,所以不是完全自主跑完全程。但数字本身还是说明工程成熟度在往上走,去年同类最好成绩还要2小时40分,一年压缩到三分之一的时间,进步幅度值得盯。正文没披露控制方案和比赛规则细节,所以别急着往AI能力跃迁上解读,更多是机电、步态和系统集成的提升。对从业者来说,这条消息的参考价值在于一个可量化的性能标尺,而不是一篇公关稿。
一句话点评
一台手机厂造的人形机器人跑半马比人类世界纪录还快,但最后撞护栏摔了,还得人扶起来。硬件整合能力确实强,别急着把它当成AI突破。
锐评
荣耀造的“闪电”机器人用50分26秒跑完半马,比人类纪录快了近7分钟,这个数字主要说明中国在机器人硬件、尤其是关节液冷和动态平衡上的工程整合能力上来了。俄勒冈州立大学的教授也点明了,这更多是制造生态的体现,不是AI的飞跃。文章没提“闪电”的电池续航、环境感知算法细节,也没说摔倒后人工干预了多少。超过一半的参赛机器人还是遥控的,自主性这块水分不小。我会先打个折:能跑完确实厉害,但离“高水平应用”还差一个从赛场到产线的距离,盈利路径更模糊。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
01:28
54d ago
彭博科技· rssEN01:28 · 04·20
AI 的 token 经济革命催生中国科技新赢家
中国低成本 AI 模型正在吸引全球用户,并催生股市新赢家。但正文被 Bloomberg 的付费墙挡住了,没披露具体是哪几家公司、估值涨了多少、token 怎么定价。真正的信号是:模型成本下降是否已经传导到股市。
#Commentary
精选理由
彭博这条线有HKR-H和HKR-R:中国廉价AI模型传导到股市赢家,确实是个讨论钩子。HKR-K不成立,因为可见正文没给出任何公司名、token价格、用量或估值数据,所以这条只能放all,不能放featured。
一句话点评
彭博这篇标题说AI的token经济催生中国科技新赢家,但正文被paywall挡住,实际内容为零。标题本身信息量有限——token经济通常指推理算力按token计费带来的商业模式变化,但具体哪些公司受益、逻辑是什么,一概看不到。建议等能读到全文再判断,目前只能当个标题党处理。
锐评
中国低价模型正在吸引全球用户,这条链条目前只被标题和 1 句摘要确认;涉及哪些公司受益、股价涨了多少、token 单价降到什么水平,正文未披露。我对这类“模型便宜,所以股市会重估”的叙事一向留一手,因为一级产品数据和二级市场定价之间,通常隔着至少两层传导:先看调用量能不能持续,再看收入是不是留在模型厂自己手里,还是被云厂商、渠道商、应用层吃掉。 我先给判断:这条新闻如果成立,重点不在“中国模型出海”这句老话,而在价格战终于开始改写利润分布。过去一年大家已经看得很清楚,开源和低价闭源把模型能力差距压得越来越窄,很多客户采购时先问每百万 token 多少钱,再问 benchmark 漂不漂亮。这个趋势不是今天才出现。DeepSeek 年初那波出圈,市场已经见过一次“低成本 + 可用性能”带来的情绪外溢;阿里通义、字节豆包、月之暗面那几家,也都把低价当过获客工具。问题是,便宜本身不自动生成利润。价格打到足够低,受益者常常不是模型提供方,而是把便宜算力重新包装成 SaaS、广告库存、云套餐的那层公司。 我自己比较在意的,是 Bloomberg 这里把“全球用户”和“中国股市赢家”直接连起来,中间却没有桥。全球用户是注册用户、月活、开发者数,还是 API 消费额?完全没说。股市赢家是模型公司、IDC、云计算、芯片分销,还是做 agent 外包的壳?也没说。这个缺口很大。A 股和港股这两年对 AI 的定价,经常先炒基础设施,再炒应用,再回头修正。2023 年英伟达带飞的是算力链;2024 年市场开始挑有真实推理收入的云厂;到 2025 年,不少“AI 概念股”已经被问到一个很直接的问题:你的 token 增长,能不能换成经营性现金流。我没看到这篇稿子给出答案。 还有一个地方我有点怀疑:标题把“cheap models”写成新赢家的起点,听着顺,但低价很多时候只是防御动作,不一定是进攻优势。你把每百万 token 价格砍下去,短期当然能抢量;可只要切换成本不高,用户也会跟着最低价走。过去 API 市场已经反复证明,除非模型在推理质量、上下文稳定性、工具调用、延迟控制里有一项明显领先,不然低价带来的黏性很薄。我还没查到这篇文里提到的到底是哪几家中国公司,但如果受益标的是“流量入口”或“云资源转售”,我会比“纯模型公司”更信一点,因为前者更容易把低价流量转成交叉销售。 外部参照也很清楚。美国这边从 OpenAI、Anthropic 到 Google,这一年都在把模型能力和价格分层做细,目的就是把不同客户锁在不同档位。中国厂商如果靠更低单价拿到海外开发者,确实能撬开入口;但能不能拿到资本市场溢价,要看两件事:一是海外调用有没有持续 2 到 3 个季度,二是毛利率有没有因为价格战被压穿。没有这两个数,所谓“新赢家”更像二级市场先行脑补。 说真的,这条我不会按“革命”来读。我更愿意把它看成一个检验题:低成本模型到底是在创造新增需求,还是只是在行业里搬运存量订单。标题给了方向,正文没有给证据。现阶段能确认的只有一件事:中国模型的价格竞争力已经强到足以被国际媒体拿来讲资本市场故事;至于谁真赚到钱,材料还不够。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K0·R1
00:56
54d ago
Hacker News 首页· rssEN00:56 · 04·20
Claude Token Counter 更新:支持跨模型对比,Opus 4.7 实际更贵
Simon Willison 更新了他的 Claude Token Counter 工具,现在可以选不同模型对比 token 数。核心发现:Opus 4.7 换了分词器,同样一段文本比 4.6 多消耗 1.46 倍 token,图片更是高达 3 倍。虽然官方说涨价幅度在 1.0–1.35 倍之间,但实测系统提示词达到了 1.46 倍。由于定价没变(输入...
#Tools#Simon Willison#Anthropic#Claude
精选理由
正文只确认 Claude Token Counter 新增了比较入口,没披露支持哪些模型、对比维度和计数机制,信息缺口太大,HKR-K 不通过。标题钩子太小,对从业者没有成本、工作流或竞争层面的触动,HKR-H/R 都弱;0/3 归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
00:37
54d ago
r/LocalLLaMA· rssEN00:37 · 04·20
WSJ 发评论:要跟中国竞争,美国得拥抱开源 AI
《华尔街日报》发了一篇观点文章,主张美国应该靠开源 AI 来跟中国竞争。但正文目前只能看到标题和 Reddit 上的转载链接,原文被墙了,打不开。所以这篇文章到底是谁写的、引了什么数据、提了什么具体政策或时间表,一概不知。别被标题带节奏——这只是一篇评论,不是模型发布,也不是政策落地。信息缺口很明显:没有披露作者、论据、指标、实施路径。
#The Wall Street Journal#Commentary#Open source#Policy
精选理由
目前能确认的只有《华尔街日报》发了一篇观点文,标题拿开源和中国竞争说事。但正文没披露作者、论据、数据或执行路径,连开源对象和时间范围都没有。标题有钩子,但信息为零,按硬性缺源规则排除,分数低于 40。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
00:07
54d ago
● P1Hacker News 首页· rssEN00:07 · 04·20
开发者将TRELLIS.2图像转3D模型移植到苹果芯片运行
开发者 shivampkumar 把微软那个 40 亿参数的 TRELLIS.2 模型移植到了苹果芯片上,靠 PyTorch 的 MPS 后端驱动,一张图就能生成 3D 模型。他把原本依赖 Nvidia 硬件的 flash_attn、nvdiffrast 和自定义稀疏卷积算子全换成了纯 PyTorch 实现,包括稀疏 3D 卷积、SDPA 注意力机制和...
#Vision#Multimodal#Tools#Microsoft
精选理由
这不是微软官方模型发布,而是一个可复现的本地移植,对实际干活的人有参考价值。我会先打个折:3.5 分钟生成一个网格不算快,但考虑到不用联网、不用 Nvidia,这个结果挺实在。正文把替换掉的组件和替代方案都列清楚了,信息量够,所以放在 featured 而不是 p1。
一句话点评
TRELLIS.2 的 3D 生成终于能在 Mac 上跑了,不用 N 卡。但项目刚起步,Star 才 33,稳定性别抱太高期待。
锐评
这条消息对用 Mac 的 3D 创作者是个好消息。TRELLIS.2 原本依赖 NVIDIA GPU,现在被开发者移植到苹果芯片上,意味着你手里的 MacBook 也能直接从一张图生成 3D 模型了。项目目前还很早期,GitHub 上只有 2 个 fork、33 个 star,社区验证几乎为零。 正文没披露生成一个模型要多久、显存占用多少,也没和原版跑在 N 卡上的效果做对比。这些数据直接决定它能不能干活——如果生成一张图要十分钟或者细节丢得厉害,实用性就得打折扣。另外,项目只说了“能跑”,没提是否支持 M1/M2/M3 全系芯片,也没给最低系统要求。 想试试的话可以 clone 下来跑跑看,但暂时别把它当生产工具。等有人放出实测速度和效果对比,再判断值不值得切过去。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
00:00
54d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·20
Harness Engineering 到底是什么——一个没人能定义却火了三个月的概念
这篇文章解释了 Harness Engineering 为什么能火三个月:不是靠炒作,而是因为大量团队在部署 agent 时同时撞上了五面墙——错误组合爆炸、自然语言产出没法度量、agent 会感知 context 限制并走捷径、输出不可复现导致传统测试失效、治理框架管不住概率性行为。每面墙的根源都一样:传统软件可靠性保障链条的每个环节都假设系统是确定...
#Agent#Tools#Commentary
精选理由
这篇文章本质上是一篇概念澄清帖,不是技术方案或产品发布。它把agent落地中团队组织跟不上能力迭代的失配现象命名为'harness engineering',但只给了名字和一个粗略的时间判断(3个月),没有给出任何可操作的原则、案例或指标。HKR-H靠标题的认知反差成立;HKR-K因为正文信息密度极低,没有披露任何实质内容而失败;HKR-R靠点中agent落地流程痛点的真实感成立。综合来看,概念有价值但内容空洞,按规则打零分合理。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
00:00
54d ago
OpenAI 博客· rssEN00:00 · 04·20
凯悦酒店集团全球员工用上ChatGPT Enterprise,OpenAI公布合作细节
凯悦酒店集团已向全球员工部署ChatGPT Enterprise,覆盖财务、营销、运营等部门,并接入GPT-5.4和Codex。目的是减少手动工作,提升宾客体验。OpenAI称这是企业AI从试点走向规模化的一步,但正文没有披露部署员工数、上线时间、成本或可量化的效率提升。凯悦此前已在ChatGPT内上线了Hyatt App。
#Code#Tools#OpenAI#Hyatt
精选理由
这是一篇客户案例:Hyatt 给全球员工上了 ChatGPT Enterprise,并点名用了 GPT-5.4 和 Codex。HKR-R 存在,但 HKR-K 很弱,且触发了硬排除规则(纯营销/案例研究),所以重要性低于 40。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R1

更多

频道

后台