ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部

200 items · updated 3m ago
RSS live
2026-04-21 · 星期二2026年4月21日
15:45
54d ago
● P1量子位 · 公众号· rssZH15:45 · 04·21
蚂蚁数科搞了个叫“大象”的百亿参数模型,跑分和效率都挺能打
蚂蚁集团的 Inclusion AI 团队被扒出是神秘模型“大象”的幕后作者。这个模型参数量 100B,上下文窗口 256K,一次能吐 32K 字,已经在 OpenRouter 上架。文章里测了修 bug、总结三千字会议纪要、跑轻量 agent 流程,效果都不错。AI BENCHY 跑分显示它平均每秒能出 2500 个 token,延迟大概 1 秒,一...
#Code#Agent#Benchmarking#Ant Group
精选理由
一个 100B 模型敢喊同规模 SOTA 还强调 Token 效率,钩子够硬。文章有实测数据也有失败案例,不是纯吹。训练细节、价格和官方模型卡都没披露,所以先别太激动,但方向值得跟。
一句话点评
正文被微信环境验证页挡住了,实际内容没抓到,这条先打个折——所有关于模型性能的说法都来自标题,没法核实。
锐评
这条消息目前只能看个标题,正文因为微信的验证机制完全没抓到。标题说有个叫「大象」的神秘模型,参数量只有100B,但拿下了SOTA,而且token效率很高。如果属实,这确实值得关注——100B参数在当下动辄几百B甚至上万亿的竞赛里不算大,能刷榜说明架构或训练方法可能有巧思。但问题恰恰出在「如果」上:谁做的、在哪些基准上测的、跟谁比的、token效率具体指什么(推理速度还是训练数据量),这些关键信息全在没抓到的正文里。没有来源、没有技术细节、没有可复现的线索,目前只能当一条传闻看。等拿到正文或官方发布再更新判断。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
15:45
54d ago
量子位 · 公众号· rssZH15:45 · 04·21
浙大与上海AI Lab发布IBISAgent:不改模型、不加token,多模态Agent拿下医学分割SOTA
浙大和上海AI Lab搞了个叫IBISAgent的医学分割Agent,核心卖点是不改模型结构、不额外加<SEG>这种token,直接让大模型通过“文字推理+点选坐标”来指挥一个现成的分割模型(MedSAM2)干活。他们把分割任务拆成多步决策过程,先用45.6万条轨迹做冷启动微调,再用88.8万条VQA样本做GRPO强化学习。效果上,在MeCOVQA-G...
#Agent#Multimodal#Vision#Zhejiang University
精选理由
HKR的H和K都过了:钩子直接、数字扎实。但R挂了——医学影像研究对通用agent/产品方向的人群来说太垂直,加上硬排除规则“传统科学交叉”,这篇属于纯医学成像研究,没有业务外溢,所以tier定为excluded。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K1·R0
15:42
54d ago
r/LocalLLaMA· rssEN15:42 · 04·21
Gemma 4与Qwen 3.5的30B级模型能耗和答案质量对比实验
有人在 Reddit 上发帖,说对比了 Gemma 4 和 Qwen 3.5 的 30B 参数模型,看谁在给出相同答案质量时更省电。但正文被 Reddit 屏蔽了,看不到硬件、测量方法、数据集、吞吐量和结果。关键问题是测量协议没公开,光靠标题没法验证结论。
#Benchmarking#Inference-opt#Benchmark#Commentary
精选理由
HKR-H 通过,因为“同等答案质量比能耗”这个对比很清晰,读者一眼就知道要测什么。HKR-R 通过,本地部署的能耗成本是真实痛点,选模型时绕不开。HKR-K 不通过:正文无法访问,硬件、功耗测量方法、测试集、吞吐量、结果全没公开,信息缺口太大,硬排除,零分。
一句话点评
有人在 RTX 5090 上实测了 Gemma 4 和 Qwen 3.5 系列 30B 级模型的能耗与答案质量,想找出“谁更省电还能答得好”。正文被屏蔽,具体数字和结论缺失。这类对比对本地部署选型有价值,但没披露测试任务、功耗测量方法和评分标准,结论可信度打折。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
15:36
54d ago
FT · 科技· rssEN15:36 · 04·21
英国通信管理局将调查 Telegram 上是否出现儿童性虐待内容
英国监管机构 Ofcom 宣布对 Telegram 展开调查,原因是有人举报该 App 上出现了儿童性虐待内容。另外还有两个青少年聊天网站也在被调查中,但正文没披露具体是哪些网站、调查时间线、证据范围以及可能的处罚。
#Ofcom#Telegram#Policy#Incident
精选理由
HKR-H和HKR-K通过:英国监管机构调查Telegram的CSAM指控是明确的标题钩子,且新增了另有两家青少年聊天网站被单独调查的事实。HKR-R不通过:对AI从业者而言,这是平台合规新闻,不是AI模型、产品或行业竞争故事。正文未披露涉事网站名称、时间表、取证范围与潜在处罚,信息缺口明显。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K1·R0
15:24
54d ago
TechCrunch AI· rssEN15:24 · 04·21
Bond 想用 AI 帮你戒掉无脑刷屏,做法是把你往线下赶
Bond 是一个新上线的社交平台,核心卖点是用 AI 系统主动把用户从 App 里推出去,去做线下活动。创始人说这套 AI 会分析你的使用行为,在合适的时候提醒你放下手机。但正文没披露具体用了什么模型、触发机制是什么、有没有用户留存数据。值得关注的点是:它怎么判断“该赶人了”,以及用户会不会真的回来。
#Memory#Bond#Product update#Commentary
精选理由
HKR-H和HKR-R成立:社交App用AI劝人下线,这个张力本身就有话题性,容易传播。HKR-K不成立:正文只给了标题和摘要,模型、触发条件、上线范围、留存或效果数据全部缺失,所以重要性只给60分,层级定为all但属于低优先级。
一句话点评
Bond 是一款用 AI 帮你戒掉无意识刷屏的新社交平台,核心功能是让 AI 记住你的真实生活目标(比如出门见朋友),然后在你刷手机时提醒你放下。想法不错,但正文没披露 AI 具体怎么工作、用了什么模型,也没说用户量或留存数据。目前只是概念阶段,先别太激动。
锐评
Bond 这条最核心的事实很简单:它把“让用户少用产品”当成卖点,但正文只给了两句描述,模型、触发条件、上线范围、效果数据都未披露。信息到这个程度,我没法把它当成产品突破,更像一句很会传播的定位文案。 我对这类叙事一向比较谨慎。社交产品嘴上说减少 doomscrolling,手上管的还是 DAU、会话时长、次日留存。只要公司收入依赖广告,或依赖订阅续费里的使用频率,这套激励就很难真的站在“尽快把你劝走”那边。要让这个说法成立,至少得看到三样东西:第一,干预在什么条件下触发,比如连续滑动 20 分钟、深夜高频切换、情绪词密度上升;第二,干预后用户去做了什么,是否真转向线下活动;第三,平台愿不愿意承受使用时长下降。如果这三项没有,所谓“AI 戒刷”基本只能算品牌包装。 过去一年,这条线已经有人试过,但多数都停在提醒层。Instagram、TikTok、YouTube 早就有休息提醒、青少年时限、睡眠模式一类功能,结果大家都看到了:它们是风控阀,不是产品主轴。Character.AI、Replika 这类陪伴产品也谈过“健康使用”,最后讨论焦点还是依赖性和未成年人风险。Bond 如果真想做出区分,光会提醒你放下手机不够,它得证明 AI memory 在持续建模用户状态,而不是把系统通知换成更像朋友的话术。 “memory”这个标签也让我有点警觉。记忆能力确实适合做行为干预,因为它能累计你的时间模式、地点偏好、社交对象、情绪波动,再挑一个最容易被接受的时点推你离开应用。但这里的代价同样直接:它需要更长周期地保存个人行为轨迹。一个号称帮你少刷的产品,反而可能比普通信息流更了解你的脆弱时刻。这就不是温和 UX 问题了,是数据治理问题。它存多久,存在端侧还是云端,是否允许删除,是否拿这些记忆反过来做推荐,正文都没说。 我还不太买账“回到线下活动”这句口号。线下行为不是一句 nudging 就能长出来的,它受地理密度、朋友关系、日程、城市安全、支付摩擦一堆现实因素限制。很多产品最后会滑向一个更容易执行的版本:给你发提醒、给你记情绪、给你做反思卡片,但并没有真正提高线下参与率。Apple Screen Time、Google Digital Wellbeing 这些年就证明了一点:自控工具能帮助少数高意愿用户,却很难改掉大众的刷屏习惯。Bond 如果没有活动供给、熟人组织、地理匹配这些机制,只靠 AI 提醒,落地力度大概率有限。 还有个商业上的硬问题。要是 Bond 真的把最活跃的高时长用户劝走,它拿什么证明自己在增长?投资人看新增和留存,创作者看分发,广告主看停留,订阅看复访。除非它一开始就不是广告逻辑,而是把“少刷后的结果”做成可收费价值,比如线下活动转化、团体组织工具、心理健康服务入口,不然产品口号和公司报表会很快打架。这个矛盾,几乎所有“为你好”的消费互联网产品都撞过。 所以这条我现在只给半张票。标题给出了方向,正文没给机制。我要看的不是它多会讲“反 doomscrolling”,而是它敢不敢公开一组很不讨喜的数据:平均会话时长是否下降、7 日留存是否受损、干预接受率有多少、用户一个月后是否真的多了线下行为。如果这些数字不出来,Bond 更像是在给社交产品加一层道德滤镜,不像在解一个新问题。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
14:01
54d ago
X · @op7418(歸藏)· x-apiZH14:01 · 04·21
OpenAI 预告今晚发 GPT-Image-2,目前只有一张图
这条推文就是个预告,说 GPT-Image-2 今晚会发布,附了一个链接。正文没披露模型能干什么、怎么收费、是 API 还是网页端用,也没给具体几点上线。能确认的就两件事:产品叫 GPT-Image-2,时间窗口是今晚。
#Vision#Product update
精选理由
这是一条预告,不是正式发布。HKR-H 靠'今晚 + GPT-Image-2'这个钩子成立;HKR-K 不成立,因为价格、API 形态、能力差异都没披露;HKR-R 不成立,因为没有提到任何具体的工作流或市场影响,所以落在 60-71 的观察区间。
一句话点评
OpenAI 预告今晚发 GPT-Image-2,但正文没披露任何细节,比如能力提升、定价或可用范围。目前只有一条推文,连官方博客都没同步。如果是真的,图像生成质量或速度可能有明显升级,但这点先别太激动——来源单一,信息缺口大,等今晚实际发布再看。
锐评
OpenAI 只预告今晚上线 GPT-Image-2,正文未披露能力、价格、上下文、分辨率、接口形态。基于这点,我的判断很简单:这条现在几乎没有技术信息,更多是在抢注意力和发布时间窗,不是在给从业者可执行的产品信号。 说真的,图像模型发布到 2026 年,标题里的名字早就不够看了。你至少得知道三件事:一是生成质量怎么评,二是编辑链路怎么接,三是成本落在哪。比如去年到今年,大家对图像模型的分水岭已经不是“会不会画”,而是 inpainting、角色一致性、多轮编辑、文字渲染、可控构图、以及 API 吞吐。Black Forest Labs 那波 FLUX 之所以能被开发者真拿去用,不只是因为出图好看,也因为社区很快摸清了 LoRA、蒸馏版、开源权重和部署门槛。Google Imagen 系列的问题则一直很典型:演示强,开发者拿到手时常常要再看地区、权限和接口限制。GPT-Image-2 如果今晚只给一段 demo 视频,没有 API、速率限制、价格表,我觉得讨论价值会很快掉下去。 我还有个疑虑:OpenAI 这两年很爱把多模态能力包装成统一产品体验,这对 ChatGPT 用户有效,对开发者未必够。图像模型要进生产,采购看的是每张图成本、失败重试率、版权与安全过滤、编辑可重复性。标题现在只给了产品名,连它是 ChatGPT 内置功能、Responses API 新模态,还是独立 image endpoint 都没说。这个缺口很要命,因为三种形态对应的采用路径完全不同。前两种偏消费端和 agent 工作流,后一种才更像给现有图像 SaaS、设计工具、广告生成链路直接接入。 我自己也没查到更多材料,所以没法下任何性能判断。要是拿外部参照,OpenAI 上一轮图像能力给市场的冲击,靠的是“文本到图像”并入现有产品面板;而最近一轮竞争,已经卷到 Gemini、Ideogram、Midjourney、FLUX 各自擅长的细分项。今晚如果只是常规升级,影响大概率在 ChatGPT 留存;如果它把编辑一致性、文字排版和 API 成本一起打穿,这条才会变成开发者新闻。现在先别被“来了”两个字带节奏,标题给了时间,正文没给判断所需的关键变量。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K0·R0
14:00
54d ago
X · @OpenAI· x-apiEN14:00 · 04·21
OpenAI 发了一条只有一句话的预告帖
OpenAI 官方账号在 X 上发帖,正文只有一句“这不是截图”,附带一个链接。帖子里没提产品名、演示方式、发布时间,也没说链接指向什么。目前能确认的只有这是一条短预告,别过度解读。
#OpenAI#Commentary
精选理由
只有HKR-H通过:这是一条预告,不是一篇报道。标题写了'这不是截图',但链接指向什么、是什么产品、怎么演示、什么时候发布,正文一个字都没提。信息密度低于40,归入excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
13:28
54d ago
X · @op7418(歸藏)· x-apiZH13:28 · 04·21
GPT-Image-2 一张随手拍直接变宣传图
博主发帖说,拿一张随手拍的照片让 GPT-Image-2 生成宣传图,没给任何文字提示,结果出来的氛围感很高级。目前只有这一个例子和两张图,没有透露用了什么提示词、设置、延迟、分辨率或价格。单张图转图,不是基准测试,效果看着不错但样本太少,先别急着下结论。
#Multimodal#Vision#Commentary
精选理由
标题说“太猛了”,但正文只有一组图片对比,没有系统评测。亮点是零文字指令的图像到图像生成,但缺少关键参数和价格,这点先别太激动。
一句话点评
GPT-Image-2 生成图质量很高,但正文没披露任何技术细节、成本或延迟数据。目前只有一条推文截图,来源单一且不可靠,建议等官方文档或第三方实测再下结论。
锐评
发帖者展示了 GPT-Image-2 生成 1 张“宣传图”风格图片,但正文没给提示词、参数、分辨率、延迟和价格,所以这条最多只够证明一件事:模型能把 1 张随手拍照片往商业海报审美上推。离“能力上限”还早。 我对这类帖子一直比较警惕。图像模型最容易被单张样例带跑,因为风格命中一次,观感就会非常强。问题是,可复现条件完全没披露。发帖者说“什么都没说”,这句话本身就不够严谨:是否用了系统默认风格、参考强度、自动补全提示、裁切增强,正文都没写。连输入图长宽比都不知道,就没法判断模型是在做重绘、扩图,还是强风格化编辑。 回到行业经验看,这种“随手拍变宣传图”的展示并不新。去年到今年,Recraft、Midjourney、Ideogram,连部分手机厂商内置生成编辑,都反复打过同一类 demo:给你一张普通照片,输出更像广告图的结果。差别从来不在“能不能做出一张好看的”,而在三件事:稳定性、可控性、成本。这里三项都缺。标题给了情绪,正文没给评测。 我还想补一层判断。假如 GPT-Image-2 真能在“零文字指令”下稳定产出高完成度宣传图,那背后更重要的不是审美本身,而是默认意图推断做得更激进了:模型会主动猜“用户想要商品化表达”。这对 C 端很好用,对专业设计流未必是好消息。默认猜得太多,往往也意味着可控性下降。我自己没看到更多样本前,不会把这当成能力跃迁,只会把它当成一次成功演示。 说实话,这条信息密度很低。想让我改观,至少得补 5 个东西:原图、完整操作链路、是否真无文字提示、生成耗时、同条件多次结果。没有这些,这就是一条好看的 sample,不是结论。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
13:16
54d ago
X · @op7418(歸藏)· x-apiZH13:16 · 04·21
一句话让 GPT 生成小说剧情长图
博主用一条提示词让 GPT 生成了《神秘复苏》的剧情和世界观介绍长图,提示词要求“用一张长图详细地介绍小说剧情、故事线和世界观”。正文没披露用了哪个 GPT 版本、生成耗时多久、图片尺寸多大。这只是一个提示词演示,不是产品发布。
#Multimodal#Commentary
精选理由
HKR-H 通过:一句话提示词生成整张小说世界观长图,这个钩子够具体,读者会想点进去看效果。HKR-K 和 HKR-R 不通过:只披露了提示词,GPT 版本、生成耗时、图片尺寸都没说,验证门槛高;这是一次内容演示,不是关于工作流、成本或模型竞争的故事,信息缺口太大,不适合作为雷达推荐。
一句话点评
一句话让GPT生成小说剧情和世界观长图,听起来很酷,但正文没披露具体实现方式、模型版本和生成质量。如果只是简单扩写加排版,那很多工具都能做;如果真能理解复杂世界观并视觉化,那才是突破。目前信息太少,先别太激动。
锐评
发帖者用 1 句提示词生成《神秘复苏》长图,但正文没披露 GPT 版本、耗时、分辨率、是否二次编辑。就这点材料,我不买“只要一句话就能稳定出整篇小说世界观图解”这种讲法。眼前能确认的,只有一次演示成功,不是可复现能力声明。 我自己的判断是,这条更像两件老能力被揉到了一起:一是长文本摘要与结构化改写,二是画布式排版或图文混排。过去一年,ChatGPT 和 Gemini 都在把“写内容 + 排版成可分享成品”做成同一条链路,海报、卡片、长图都越来越多。这个方向不新。新的是产品把步骤藏起来了,所以用户会误以为模型突然“懂设计、懂小说、懂世界观”。说真的,这里面最值钱的不是那句提示词,而是系统预设、版式模板、字体与段落密度控制。文章没给这些条件,我没法把功劳全算到模型推理上。 还有个问题我会比较警觉:这种输出如果基于现成小说内容,版权边界和事实漂移都不好看。《神秘复苏》这种长篇网文人物线很多,设定也碎,一张长图想压缩完整剧情,最容易出现的不是“做不出来”,而是把支线压扁、把设定讲错。去年不少“AI 一键读懂一本书”的产品就卡在这:展示很顺,细节一核对就漏人物、错时间线。这里发帖者没给原图细节,也没给读者核验点,所以我还不能判断质量到底是能用,还是只适合社媒转发。 我还想补一个上下文。OpenAI 这一路产品演示,越来越爱把多步工作流收进一句自然语言里:先理解任务,再生成内容,再自动选呈现形式。用户体验确实好了,但这不等于底层模型在知识覆盖、长程一致性、版权处理上同步解决了。标题讲的是“一句话”,我看到的其实是“系统替你补完了一堆隐藏提示”。这条可以当成产品封装变强的例子,看成模型出现新物种,我觉得有点过。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
13:09
54d ago
● P1机器之心 · 公众号· rssZH13:09 · 04·21
谷歌组建AI编程突击队,布林直接参与提升代码能力
谷歌悄悄组了一支 AI 编程突击队,由前 DeepMind 研究员 Sebastian Borgeaud 带队,谢尔盖·布林和 Koray Kavukcuoglu 直接参与,目标是提升长上下文编程能力和内部代码自动化。压力信号很直接:谷歌自己说约 50% 的代码已由编程 agent 生成、工程师负责审核,而 Anthropic 那边放话 Claude ...
#Agent#Code#Tools#Google
精选理由
HKR 三项都成立:布林回归的 hook 够强,谷歌 50% 代码由 agent 写的数字是硬信息,AI 编程的竞争态势也是圈内真痛点。但正文没披露团队规模、上线时间和具体模型版本,所以没给更高优先级。
一句话点评
布林亲自下场抓代码模型,但正文被验证页挡了,具体团队规模、目标指标都没看到。
锐评
谷歌联合创始人谢尔盖·布林直接参与组建一支“AI编程突击队”,放在 DeepMind 下面,专门提升代码模型的生成能力。这条消息本身信号很强——创始人级别的人回到一线盯具体产品方向,说明内部对 AI 编程的优先级拉得很高。但目前的公开信息非常薄,机器之心的原文被微信环境验证页拦截,实际内容没读到,另一条来源也只给了标题。所以这支突击队有多少人、要追哪些指标(比如 HumanEval 得分、延迟、成本)、对标的是自家 Gemini 的代码能力还是 GitHub Copilot 这类产品,正文都没披露。布林的参与方式也不清楚:是定方向、看数据,还是直接写代码。这些缺口让判断只能停在“态度很认真”这一层。如果后续有具体基准分或内部测试数据出来,才能评估是动真格还是表态。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
13:09
54d ago
● P1机器之心 · 公众号· rssZH13:09 · 04·21
匿名模型 MotuBrain 在 WorldArena 和 RoboTwin2.0 两个榜单同时登顶,圈内都在猜它是谁
MotuBrain 这个模型在 WorldArena 上拿了 63.77 的 EWM 分数,在 RoboTwin2.0 的干净和随机两种设置下分别得了 95.8 和 96.1 分,两项都是第一。它在运动质量、流分数和运动平滑度这些细分指标上也排在最前面。RoboTwin 的 50 个任务里它平均做到 96.0 分,第二名是 92.3 分,差距不算小。这...
#Robotics#Benchmarking#World Labs#Alibaba
精选理由
H 抓的是匿名模型双榜第一这个反常事件,圈内打听本身就说明信息差和关注度。K 把具体分数和领先幅度摆出来,同时点明关键信息缺失——谁做的、怎么训的都不知道,读者能自己判断可信度。R 落在具身智能的核心争议上:一个模型同时做世界预测和动作输出到底行不行,这次有了可复现的 benchmark 证据。分数定在 81,因为结果本身有冲击力,但所有权、规模、训练数据和可复现性全缺,不能给更高。
一句话点评
正文被微信环境验证页挡住了,实际内容没抓到,所以这条新闻本身的信息量是零。标题说拿了两个世界第一但没透露姓名,这点先别太激动,等看到具体任务、测试环境和对比对象再判断。
锐评
这条消息目前只有一个标题,正文因为微信的验证页面完全无法读取。标题里有两个关键信息:一个匿名的具身智能团队,以及“两个世界第一”。但没说是哪两个任务、在什么榜单上、跟谁比、测试条件是什么。具身智能领域现在各种私有基准和自定指标很多,没有公开可复现的测试结果,光说“世界第一”说服力很弱。另外,匿名本身在学术圈和开源社区里不太常见,要么是 stealth 创业公司,要么是还没准备好公开的技术 demo。我会先打个折:等有公开论文、技术报告或至少可验证的 benchmark 数据再说。目前能确认的只有一点——这条消息在传播层面引起了注意,但技术层面什么都确认不了。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
13:05
54d ago
X · @op7418(歸藏)· x-apiZH13:05 · 04·21
给一张车图,AI 直接生成官网设计稿
作者只上传了一张汽车照片,没告诉 AI 这是什么车,AI 就生成了一个汽车官网设计稿。正文没披露用了哪个模型、具体提示词、原图质量、生成耗时和输出效果,所以这个结果能不能复现、效果稳不稳定都不清楚。单看这个能力挺有意思,但先别太激动——没有更多细节前,只能当个 demo 看。
#Vision#Multimodal#Commentary
精选理由
标题钩子成立,因为“没给车型名就生成官网设计稿”这个反差足够抓人。但正文信息严重不足:模型、提示词、输入图片、生成耗时、输出质量全都没提,目前只能确认“图片输入+网页设计生成”这个条件。没有成本、速度或质量数据,从业者无法判断这个流程是否可复现或值得跟进,所以 workflow 价值很弱。综合下来 H 成立、K 不成立、R 弱,维持 all 层级和 48 分。
一句话点评
给一张车图,AI直接生成官网设计稿,连品牌都没说。效果看着还行,但正文没披露用了什么模型、生成耗时多久、能不能改细节。如果是秒出且可编辑,那前端设计师真得慌;如果只是单次演示,先别太激动。
锐评
作者只给 AI 1 张汽车图片,并称系统生成了官网设计稿;正文未披露模型名、提示词、输入图、耗时、分辨率和输出截图。这种材料,我不会把它当能力结论,只能当一个演示线索。 我一直觉得这类帖子最容易把两件事混在一起:一是视觉识别,二是模板化网页生成。前者要求模型从车灯、车身线条、轮毂比例里抓到品牌语言;后者很多时候只要识别出“这是一辆偏运动/偏豪华的车”,再套一个 hero banner、参数区、预约试驾 CTA,就已经很像官网了。标题说“没说这是啥车”,不等于模型完成了品牌识别,更不等于它理解了这辆车的产品定位。少了输出截图和 prompt,连它是做了品牌拟合,还是只做了汽车行业通用 landing page,都没法判断。 这不是小题大做。过去一年,多模态模型在“看图做前端”上确实进步很快。OpenAI、Anthropic、Google 那几家的强模型,都已经能把截图、手稿、海报转成像样的 HTML/CSS;我没核实你这条用的是哪家,但主流模型做到“从图里抽视觉元素,再生成一个像样页面”并不稀奇。难点从来不是 first draft,而是品牌一致性和可复现性:同一张图跑 5 次,版式稳不稳;换 3 张不同角度的同款车,颜色、文案调性、按钮层级会不会漂;再进一步,能不能把图里没有的信息老老实实留空,而不是编参数、编车型名。这个分水岭,帖子里一个都没给。 我对这种演示还有个保留:汽车官网是高度模式化的页面类型。你给模型一张 SUV 图,它很容易补出“性能、空间、智能座舱、预约试驾”这套行业固定结构。这说明模型学会了网页套路,不自动说明它学会了产品理解。要验证后者,至少该给两组对照:同一模型面对超跑、MPV、皮卡时,信息架构是否跟着变;同一张图去掉 logo 和保留 logo,输出差异有多大。没有这些,结论很容易被标题带跑。 所以这条我先记成一个不错的 demo,不记成能力里程碑。要让我买账,作者至少得补 5 个东西:模型名称、完整 prompt、输入原图、生成耗时、输出截图。再加一组重复实验,信息量才够。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
13:00
54d ago
TechCrunch AI· rssEN13:00 · 04·21
GRAI 认为 AI 音乐的方向是让粉丝混音,而不是替艺术家写歌
AI 音乐创业公司 GRAI 拿了 900 万美元种子轮,核心判断是:大多数用户不想用 AI 从零生成一首歌,而是想对现有曲子做混音、改风格、跟朋友分享。他们想做的是让艺术家自己控制别人能怎么玩自己的歌,而不是让 AI 取代创作者。创始团队之前把视频剪辑应用 Vochi 卖给了 Pinterest。正文没披露产品具体怎么实现混音、用了什么模型、版权怎么...
#Audio#Tools#GRAI#Product update
精选理由
H和R成立:社交remix vs 替代的定位有话题性,也容易引发争论。K不成立:只有定位被确认,模型细节、版权处理、上线范围和用户数据全部缺失,硬性信息缺口导致分数上限不超过40。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
12:47
54d ago
X · @op7418(歸藏)· x-apiZH12:47 · 04·21
在 GPT 里玩 ARPG:三步循环,看图选剧情
这个玩法把 GPT 变成了一个图文互动游戏:先生成剧情画面和选项,你选一个,它再根据你的选择生成下一幕图片,然后继续出选项,循环下去。本质上是一个“图片生成 + 分支叙事”的循环,不是真正的游戏引擎。正文没披露用的是哪个 GPT 版本、图片生成工具、每次生成要等多久、以及能不能记住前面的选择。
#Multimodal#Vision#GPT#黄老板
精选理由
HKR-H成立,因为“在GPT里玩ARPG”这个角度新颖。HKR-K和HKR-R不成立:帖子披露了一个3步的图片加选项循环,但没有披露模型版本、延迟、成本或记忆能力,所以这只是一个有趣的演示,而非产品或方法故事。
一句话点评
有人在 GPT 里跑起了 ARPG 游戏,靠的是把游戏逻辑写成提示词和状态机,让模型一步步模拟战斗和剧情。正文没披露具体延迟和 token 消耗,所以实用性要打折——目前更像概念验证,离流畅可玩还远。但思路有意思:把模型当游戏引擎用,省掉传统开发,适合快速 prototyping。
锐评
发帖者展示了 GPT 内 3 步 ARPG 循环,但正文没披露模型版本、图像工具、延迟、成本和记忆机制,所以我不会把它算成“GPT 能玩游戏”的能力跃迁。这个演示成立的前提很窄:模型先产一张剧情图和几个选项,用户点一个,再按选项续写下一张图。你把它拆开看,就是分支叙事 + 图像生成 + 上下文回填。能跑通,说明多模态交互的壳子已经够顺手;壳子之外,游戏系统本身几乎没被证明。 我一直觉得这类 demo 最容易把人带偏。ARPG 这三个字会让人自动脑补战斗系统、数值成长、地图状态、背包、技能冷却、敌人 AI。正文一个都没给。标题给了“可以玩”,正文只给了“可以一幕一幕生成”。这中间差很远。没有显式状态机,没有确定性的规则执行,没有低延迟连续反馈,它更接近 AI 绘本 DM,像早期 AI Dungeon 加上图片,再套一层 ChatGPT 交互界面。你说它好不好玩,当然有机会好玩;你说它是不是游戏引擎,我不买账。 文章外的上下文其实很清楚。过去一年里,Character.AI、Inworld、Latitude 这类产品一直在试“LLM 当游戏主持人”这条路,强项都是生成氛围和分支文本,短板也一直没变:状态漂移、规则不稳、成本高、长程一致性差。OpenAI 自家这一路也早就有人拿图像模型做交互小说和视觉 RPG,我自己见过的最好效果,通常都要外接一层状态存储,甚至要把 HP、物品、任务进度写成结构化变量,不能只靠自然语言记忆。只靠聊天上下文硬撑,玩十几轮后设定开始飘,这几乎是老问题。这里正文没说有没有外部 memory,我倾向于先按“没证明有”处理。 还有个很现实的点是延迟。一次回合如果要出图,再带文本分支,单轮等待哪怕 10 到 20 秒,沉浸感都会断。正文没给任何数字。成本也没给。假设每一步都要调用一次高质量图像生成,再叠加文本推理,几十轮下来就是实打实的 token 和图像额度消耗。这个模式适合做一次性体验、社媒传播、主播整活,不太像能长期留存的产品形态。至少在没有缓存、素材复用、低价图像管线之前,我看不到它能自然扩成日活很高的游戏品类。 说真的,我反而觉得这条的价值不在“ARPG”,而在界面范式。聊天窗口过去主要承载问答、搜索、文档协作,现在有人把它当轻量交互引擎来用:模型负责导演、画面和分支,用户只做选择推进。这个方向如果继续长,会逼着产品把状态管理、回合控制、素材缓存、工具调用编排做成原生能力。谁先把这些做成平台层,而不是靠一串长提示词堆出来,谁才有资格谈“AI 游戏”。 我对这条还有一个保留意见:它很依赖演示者手工挑选最好看的片段。没有完整试玩录像,没有失败样本,没有连续 30 分钟的稳定表现,我很难判断这是不是高频可复现。很多这类帖子的问题不在首回合,而在第 8 回合以后角色长相变了、装备忘了、剧情断了。正文没披露这些,我只能说它证明了一个交互套路能成立,没证明它已经是产品。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R0
12:44
54d ago
r/LocalLLaMA· rssEN12:44 · 04·21
给 DGX Spark 做了个实时监控面板,1秒刷新一次
一个开发者嫌 nvidia-smi、htop 和 vLLM 的 /metrics 三个终端切来切去太麻烦,自己搓了个全合一的面板。1秒轮询 GPU、CPU、统一内存、磁盘和网络,还能看 vLLM 的 tok/s、TTFT(首 token 延迟)、排队时间、KV 缓存占用率和前缀缓存命中率,带15分钟滚动历史。后端 Rust、前端 React、走 Web...
#Tools#NVIDIA#vLLM#Docker
精选理由
只有 HKR-K 通过:帖子给出了具体的遥测细节——1 秒轮询、TTFT、排队时间、KV cache 和 MIT 许可。HKR-H 偏弱,HKR-R 局限于 DGX Spark 运维者,所以这是一个面向所有人的小众开源工具更新,不推荐加精。
一句话点评
一位开发者给英伟达 DGX Spark 做了个实时监控面板,发帖求反馈。正文没披露面板具体指标、技术栈或性能数据,目前只能当个人项目看,离产品级监控还有距离。
锐评
作者把 DGX Spark 的 GPU、CPU、统一内存、磁盘、网络和 vLLM 指标收进了 1 个本地仪表盘,1 秒轮询,保留 15 分钟历史。这个事实本身不惊艳,惊艳的是它补的洞居然还没人认真补。你手上只要跑过 vLLM,就知道 nvidia-smi、htop 和 /metrics 三个窗口来回切有多烦,TTFT、排队时间、KV cache 命中这些指标如果不和功耗、温度、内存压力放在一起看,很多问题根本不好定位。 我对这条的判断是:DGX Spark 这类“桌边 AI 设备”正在从开发玩具,往小型生产环境滑。文章给出的信号很具体:作者做了多引擎自动发现、Docker 扫描、热降频和 power brake 检测,还做成 service 一键安装。你只有在机器被持续跑、而且要给别人看时,才会在意这些细节。单纯 demo 机不需要 1 秒轮询,也不需要 WebSocket 流式面板。 这里有个文章外的对比。过去一年,本地推理工具很多,Open WebUI、Ollama 生态、LM Studio 这一类更重“把模型跑起来”;Grafana + Prometheus 这一类更重“通用监控”。这条项目卡在中间层:它盯的是 vLLM operator 的日常,不是聊天 UI,也不是机房级监控。这个位置其实挺准。尤其 DGX Spark 这种一体机,最烦的不是部署,而是你不知道吞吐掉下来时,是 prefix cache 没打中、统一内存顶满,还是温度墙先撞上了。 我也有保留意见。正文只有 Reddit 帖子和摘要,没看到作者给出开销数据。1 秒轮询 + WebSocket 推送到底吃掉多少 CPU、多少内存,正文未披露。热降频和 power brake 的判定规则也没写,是直接读 NVML、还是自己设阈值,我还没查到。没有这些细节,这工具更像“先能看”,还谈不上“能当基线”。MIT 和 no telemetry 很讨喜,但运维工具的分水岭一直不是许可证,而是误报率、采样开销、异常时会不会自己挂。 说真的,我觉得它最有价值的地方不是功能列表,而是暴露了一个市场空白:本地 AI 盒子一旦进入团队共享场景,就会长出一层轻量 observability。以前这层东西只出现在 A100/H100 机架和 K8s 集群上,现在开始下沉到桌面设备。NVIDIA 如果自己不补,社区就会补。社区一旦补得顺手,后面接权限、告警、历史导出、基准回放,其实就是很自然的路线。标题已经给出 GitHub 链接,但正文没披露 star、安装量、兼容范围,我暂时不会把它看成成熟产品;我会把它看成一个很诚实的信号:本地推理已经开始有“运维摩擦”,而这通常说明它正在被更认真地使用。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H0·K1·R0
11:27
54d ago
X · @Khazix0918· x-apiZH11:27 · 04·21
GPT-Image-2 疑似全量上线,随手一次生成两张图,审美和知识都在线
一位前设计师发帖称 GPT-Image-2 已悄悄全量上线,并晒出两张一次生成的图片,表示其世界知识能力和审美都很强。帖子只披露了两个条件——随意写的提示词和单次生成,没有交代上线时间、访问范围、模型细节或任何官方说明。
#Multimodal#Vision#Product update#Commentary
精选理由
HKR-H 靠'悄悄全量上线'这个钩子成立,HKR-R 因为图像质量影响设计师工作流和替代焦虑也成立。HKR-K 不成立:帖子只展示了2张一次生成的样例,上线范围、时间、入口、参数、官方确认全都没披露。
一句话点评
GPT-Image-2 全量上线,前设计师惊呼“太太牛了”。核心卖点是世界知识能力和审美提升——画东西更懂常识、构图更好看。但正文没披露任何技术细节、定价、可用地区或生成速度,目前只有一条个人推文,可信度打折。建议等官方文档或实测再判断是否真比 DALL·E 3 强。
锐评
发帖者展示了 2 张一次生成图片,并宣称 GPT-Image-2 已“全量上线”;正文没给发布时间、入口范围、模型卡或官方说明。先把这件事压回事实层:现在能确认的只有个人账号看到了新效果,还有 2 张样例图。拿这个直接下“全量”判断,证据不够。 我对这条的直觉是,OpenAI 大概率在继续走“先静默放量,再补文档”的老路,但“全量”三个字还是喊早了。过去一年里,OpenAI 在图像和语音入口上多次出现 UI 先变、帮助中心后到、地区和套餐分批开的情况。这个节奏不稀奇。稀奇的是,社区很容易把“我这里能用”误读成“所有人都能用”。两者差得不是情绪,是 rollout 机制:账号白名单、地区、订阅层级、速率限制,任何一个条件没披露,都不能叫全量。 如果只看样图描述里那句“世界知识能力、审美都太强”,我反而会更谨慎。世界知识在图像生成里不是一句夸奖就能成立,它至少要落到可复现任务:冷门地标、历史服饰年代、品牌物料风格、排版语义对齐。审美也一样,得看多轮稳定性,不是 2 张图好看就算数。Midjourney 早就把“第一眼惊艳”卷到很高了,OpenAI 这轮如果真有跃迁,应该体现在更低 prompt 依赖、更强文字渲染、更少手部和布局翻车。我自己还没看到这组对比。 我还有个保留意见:这类帖子最容易把“模型能力”与“采样运气”混在一起。一次生成很加分,但两张样例远远不够。提示词没完整公开,负面词没说,是否做过重抽也没法核实。标题已经给出“GPT-Image-2 全量上线”,正文没有交代最关键的验证信息。我会先把它当成用户侧体验信号,不当成产品层面的确定发布。等 OpenAI 官方 changelog、帮助中心,或更多账号在同条件下复现,再谈是不是一次像样的图像代际更新。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
11:02
54d ago
● P1新智元 · 公众号· rssZH11:02 · 04·21
OpenAI为Codex推出Chronicle研究预览版支持读取屏幕上下文
OpenAI 在 4 月 21 日上线了 Codex 的 Chronicle 研究预览版,目前只开放给 ChatGPT Pro 用户,且仅限 Mac 端。它可以直接读取你最近的屏幕内容,省去反复交代背景信息的麻烦。OpenAI 声称数据“主要在本地处理”,但 The Next Web 报道指出部分情况会借助云端,截图会上传,本地记忆也未加密,上传比例和...
#Memory#Agent#Tools#OpenAI
精选理由
我会先打个折:这只是研究预览,功能边界和隐私细节都还模糊。但钩子够狠——Codex 开始读屏幕而不是等你喂上下文,等于把 agent 的记忆层从“你告诉它”推到“它自己看”。正文没披露云端辅助的具体触发条件和数据留存策略,这点先别太激动。对从业者来说,真正值得盯的是屏幕状态变成持续输入后,工作流设计和安全边界要怎么重画。
一句话点评
OpenAI 给 Codex 加了个叫 Chronicle 的功能,能直接读你的屏幕上下文来写代码,但官方还没公布技术细节和隐私方案。
锐评
OpenAI 给 Codex 推出了 Chronicle 研究预览版,核心变化是让模型能直接读取你的屏幕内容,而不是只靠你手动贴代码或描述需求。这相当于把 Codex 从“你告诉我做什么”升级到“我看着你正在做什么”,理论上能减少来回解释的成本。但目前信息主要来自两个自媒体渠道,一篇正文甚至因为微信环境异常无法访问,OpenAI 官方博客和文档都还没放出详细说明。 我会先打个折来看这件事。屏幕读取确实比 OpenClaw 那种纯终端操控更激进,但“研究预览版”通常意味着功能不稳定、限制多,而且没提数据怎么处理——它读的是整个屏幕还是指定窗口?截图会不会上传服务器?这些关键点正文都没披露。如果隐私方案不透明,开发者大概率不敢在日常工作中用。 另外,标题里“奥特曼押注心灵感应”属于夸张说法,实际就是屏幕上下文感知,跟脑机接口没关系。建议等 OpenAI 官方技术报告或隐私白皮书出来再判断实用价值,现在只能当个早期信号看。
HKR 分解
hook knowledge resonance
打开信源
93
SCORE
H1·K1·R1
10:57
54d ago
Hacker News 首页· rssEN10:57 · 04·21
苹果无视 DMA 互操作请求,56 个申请零解决,理由还跟自己文档矛盾
FSFE 报告显示,截至 2026 年 3 月 22 日,苹果把 56 个正式 DMA 互操作请求全变成了零解决方案。开发者申请 JIT 编译、NFC、蓝牙低功耗音频等基础功能,苹果以“不在法律范围内”拒绝,但自己技术文档明明支持这些功能。更麻烦的是流程:开发者得先注册账号、交费、按功能逐条申请,苹果内部审核,还随时可能封号。56 个请求一个没成,不是...
#Tools#Apple#FSFE#European Commission
精选理由
HKR-K 靠 56 项请求/零解决方案这个数据点通过,但 HKR-H 和 HKR-R 对 AI 读者来说很弱。这是苹果 DMA 平台政策的报道,不是 AI 产品、模型或研究更新,所以低于雷达阈值。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
10:55
54d ago
r/LocalLLaMA· rssEN10:55 · 04·21
让本地大模型翻书查资料,写故事更靠谱
一位 Reddit 用户分享了一套本地书库浏览工具,让 LLM 在写故事时能直接翻书查资料。作者只贴了 GitHub README 链接和一张截图,没透露用了什么模型、书库多大、检索方式是什么,也没给效果对比。核心思路是用 MCP(模型上下文协议)搭一个本地工具流,让模型能访问长篇文本源,而不是靠记忆硬写。正文没披露检索延迟和硬件要求,这点先别太激动。
#RAG#Tools#GitHub#Reddit
精选理由
H 成立是因为本地读书写故事这个切入点确实少见,有钩子。K 不成立:帖子基本就是个 README 链接,模型、书库规模、检索机制、效果数据全都没披露,信息缺口太大。R 不成立:这是创意写作的偏门用法,不是成本、竞争或行业层面的新闻,影响面窄。综合下来给 all 档合理,不升 featured。
一句话点评
一个让本地大模型边写小说边翻书的工具。思路是给模型一个本地书库当外挂资料库,写故事时能检索参考,避免情节或风格跑偏。但正文没披露检索方式、上下文窗口限制、以及是否支持中文。如果只是简单拼 chunk 喂给模型,长文连贯性存疑。短评:写小说辅助工具,本地翻书防跑偏,但效果看实现细节。
锐评
这条消息只确认了一件事:Reddit 用户把本地图书接入了 Local-MCP-server,供 LLM 在本机浏览;模型名称、书库规模、检索方式、命中率与写作提升数据,正文都没披露。我的判断是,这个方向是对的,但标题有点跑太快。让模型“能翻书”和“会写得更好”中间,至少隔着检索切片、引用控制、上下文预算、改写策略四道坎。 我一直觉得,本地长文本工具流比又一个小模型榜单更实用。过去一年里,NotebookLM、Perplexity Comet 一类产品已经把“先检索材料,再组织输出”做成默认交互了;开源圈现在补的是本地版,把版权、隐私、延迟和可定制性收回来。要是这套 README 只是把 Gutenberg 书籍做成目录浏览,再塞进上下文,那它更像一个可用 demo;要是已经带章节级切片、元数据过滤、摘要缓存,价值就高很多。可惜正文没说。 我对“写更好故事”这个说法有点怀疑。小说写作最缺的通常不是语料入口,而是风格约束、情节记忆和引用边界。把 100 本书接进来,不等于模型就能学会节奏,反而很容易把检索结果拼贴成二流模仿。这个问题在 RAG 上很常见:检索命中了,生成还是会把语气写散。我自己没看到任何 ablation,也没看到同题对照样例,所以现在最多只能说,它给本地 agent 增加了一个靠谱的数据面,不足以证明“写作变强”。 开源侧倒是有个更实际的信号。MCP 现在正在从“接 API”走向“接个人知识库和本地素材”,图书只是其中一种。今天能接 Gutenberg,明天就能接研究 PDF、内部手册、法律档案。这个迁移很像 2024 年大家把 function calling 从天气工具一路接到 IDE、浏览器、数据库:一开始像玩具,后面变成工作流骨架。这个项目有没有后劲,不看 Reddit 热度,看两件事:一是它是否支持稳定的引用回链;二是它有没有把检索成本压到本地可长期运行。正文都没披露,我还不能替它下更高评价。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R0
10:09
54d ago
Hugging Face 博客· rssEN10:09 · 04·21
QIMMA:阿拉伯语大模型排行榜,先过质量关再排名
TII 发了一个阿拉伯语大模型排行榜,叫 QIMMA。它跟普通榜单不一样:不是直接跑分就排,而是先过一道质量审核——先用多个模型自动打分,再让人工标注员复查。正文没披露具体榜单规模、分数和用了哪些数据集,所以还不知道哪些模型排前面。但他们的发现挺有意思:很多公开的阿拉伯语评测数据质量有问题,比如答案写错、题目有歧义。这点先别太激动,因为没给具体数据,但...
#Benchmarking#Code#Technology Innovation Institute#Hugging Face
精选理由
H 和 K 通过:阿拉伯语排行榜是稀缺的评测角度,且给出了两阶段质量验证机制。榜单规模、模型分数和具体数据集未披露,因此影响落在 60–71 区间。
一句话点评
阿拉伯语模型榜单,先审题再打分,但没给具体排名。
锐评
TII 发了一个阿拉伯语大模型排行榜 QIMMA,核心卖点不是跑分,而是先过质量审核:多个模型自动打分 + 人工复查。正文没披露榜单规模、具体分数和用了哪些数据集,所以还不知道哪些模型排前面。他们的发现挺实在:很多公开的阿拉伯语评测数据质量有问题,比如答案写错、题目有歧义。这点先别太激动,因为没给具体数据,但方向是对的——低质量评测数据会让榜单失去参考价值。缺的是透明度和可复现性:没放排行榜页面链接,也没说人工审核的样本量和一致性指标。如果后续公开数据,对阿拉伯语 NLP 社区会很有用。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
10:00
54d ago
彭博科技· rssEN10:00 · 04·21
Blue Energy 融资 3.8 亿美元,给数据中心建核电站
Blue Energy 拿了 3.8 亿美元,要给数据中心建核电站。这笔钱规模不小,但正文没披露是哪轮融资、投了谁、用哪种反应堆、装机容量多大、什么时候能并网。关键信息缺口是:单个站点能发多少电、什么时候能接上电网。对 AI 从业者来说,数据中心缺电是真实痛点,核能是长周期方案,但这条消息目前只有金额,落地细节基本为零,先别太激动。
#Blue Energy#Funding
精选理由
HKR-H和HKR-R都通过:核电+数据中心是强时效钩子,紧扣AI的电力瓶颈。HKR-K不通过,因为摘要只给了3.8亿融资,投资方、反应堆类型、装机规模和交付时间全部缺失。别被标题带偏,真正值得盯的是并网时点和单站供电规模,正文未给出。
一句话点评
一家叫 Blue Energy 的公司融了 3.8 亿美元,要给数据中心建核电站。3.8 亿对核电来说不算大钱,一座小型模块堆(SMR)造价动辄十几亿,这笔钱可能只够前期设计或买地。正文没披露具体堆型、选址和并网时间,也没说跟哪家数据中心签了购电协议。核能供电确实能解决 AI 算力的碳排放和稳定性问题,但商业化落地还早,监管审批和建设周期都是硬门槛。
锐评
Blue Energy 宣布融资3.8亿美元。我的第一反应不是“核电要进 AI 了”,而是这条信息密度太低,低到还不能支撑任何乐观判断。标题给了融资额,正文几乎没给项目骨架:融资轮次未披露,投资方未披露,反应堆类型未披露,单站装机未披露,并网时间未披露。对做 AI 基础设施的人,这几项不是细节,它们就是项目本体。 我一直觉得,“给数据中心上核电”这类标题最容易把两个时间尺度混在一起。GPU 集群的采购周期按季度算,园区扩容按年算,核电项目常常按五到十年以上算。这里最关键的不是 Blue Energy 拿到 3.8 亿美元,而是这 3.8 亿美元能把项目推进到哪一站:只是前期许可、选址和 EPC 设计,还是已经锁定了 NRC 路线、设备供应商和购电协议。正文没说,所以现在更像是在卖“长期确定性”这张概念票,不是在卖可交付的电。 外部参照其实已经很多了。过去一年,Amazon、Google、Microsoft 都把核电或小型模块化反应堆挂到 AI 电力叙事上。Google 之前和 Kairos Power 签过协议,公开口径是本十年后段才争取首批部署;Microsoft 也把 Three Mile Island 相关重启项目拉进供电讨论,但那类项目同样受制于许可、改造和并网节奏。我没看到哪一家能把“签约核电”直接翻译成“两年内稳定给新园区供几百兆瓦”。所以 Blue Energy 这条,如果没有更硬的时间表,很难说它比那些大厂合作案更近一步。 我对这类公司的一个固定疑虑,是融资额和项目资本开支根本不在一个数量级。3.8 亿美元对早期核能公司当然不少,但如果目标真是给数据中心做站点级供电,这笔钱大概率只够开发、许可、团队和早期工程,不够盖出能商用并网的反应堆。哪怕不谈大型核电,很多 SMR 项目单站资本开支都远高于这个数,最后卡住的往往也不是 PPT,而是供应链、监管和保险。我没查到 Blue Energy 的技术路线,所以不愿意硬套某一种成本模型;问题在于,正文连最基本的路线都没给。 还有一个被标题遮掉的现实:数据中心并不只缺“电量”,还缺“时点正确的电”和“可落地的电”。训练集群吃的是持续高负载电力,推理园区更在意扩容弹性、冷却和并网可靠性。核电在容量因子上通常很强,这点对大园区当然有吸引力;但它也最怕许可拖延和项目延期。相较之下,燃气轮机、太阳能加储能、甚至直接从现有电网拿长期 PPA,虽然没那么好听,交付路径反而常常更短。很多 hyperscaler 现在押核电,我看更像是在给 2030 年后的负载锁一个上限,不是在解决 2026 到 2028 的缺口。 说真的,我对“面向数据中心的核电项目”这个表述也有点怀疑。数据中心是负载方,不是天然的核电项目开发方。中间至少还隔着开发许可、监管关系、选址、水资源、输配电接入、长期购电合同和信用增级。Blue Energy 如果只是一个开发平台,那它的核心能力应该是把这些环节拼起来;如果它还自带反应堆技术,那又是另一种风险结构。标题没有告诉我们它是哪一种,判断难度差很多。 这条新闻目前能确认的,只有资本市场愿意继续给“AI+核电”叙事下注。这个信号有用,但别夸大。资本愿意投,不等于工程已经可行;公司能融到钱,不等于电能在模型训练窗口内接上。我更想看到三组数字:首站净出力多少兆瓦,预计哪一年并网,购电协议是固定价格还是按市场浮动。没有这三项,3.8 亿美元更像一张入场券,不是通往 AI 电力紧缺解法的验收单。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K0·R1
09:35
54d ago
X · @op7418(歸藏)· x-apiZH09:35 · 04·21
把 Seedance 2.0 论文喂给 GPT-Image-2,它吐了一张解释长图
有人把 Seedance 2.0 的论文直接丢给 GPT-Image-2,模型自动生成了一张长图来解释论文内容。正文只说了这一句,没透露图片尺寸、输入方式、提示词或是否可复现。效果听起来挺方便,但信息太少,没法判断图的质量和准确性。
#Multimodal#Vision#Commentary
精选理由
HKR-H 通过,因为把论文喂给模型生成解释长图这个操作本身有新鲜感。HKR-K 和 HKR-R 不通过,因为正文只有一句话加两个链接,没披露提示词、输入方式、图片尺寸、准确性验证或可复现条件,信息量太少,无法作为 actionable 信号。
一句话点评
这条推文展示的是用 GPT-Image-2 把 Seedance 2.0 论文生成了解释长图,不是模型本身发布。正文没披露 Seedance 2.0 的架构、参数或效果对比,目前只能当个视觉演示看。短评:图比论文好懂,但模型能力还得看原文。
锐评
帖子只给出 1 句描述:作者把 Seedance 2.0 论文交给 GPT-Image-2,产出了一张“论文解释长图”。关键条件全没给:图片尺寸、论文输入方式、提示词、是否多轮、是否人工改稿、长图里有没有直接摘抄原文,正文未披露。所以现在能下的判断很窄:这证明了 GPT-Image-2 至少能参与“把长文组织成视觉版式”的流程,证明不了它完成了可靠的论文解释。 我对这类展示一直比较警觉。视觉上顺的长图,和内容上对的长图,是两回事。模型很擅长把标题、箭头、模块框、配色做得像那么回事,这会放大一种错觉:结构感≈理解力。做过多模态的人都知道,信息图任务里最容易翻车的不是画图,而是抽取主线、保留约束、别编机制。尤其是论文解释,图里只要把损失函数关系、训练阶段顺序、消融结论抹平一点,看起来就很专业,实际已经偏了。 这条放到近一年的产品走势里看,倒是有个明确信号:图像模型正在被当成“文档到信息图”的排版器。Google 那边我记得 Gemini 体系已经反复展示过把文档、网页、笔记整理成视觉摘要;OpenAI 这边 GPT-Image 系列也一直在补文字生成、版式控制、长图输出这类能力。我还没查到 GPT-Image-2 对超长中文文字、复杂公式、论文图表重绘的稳定指标,所以我不会把它夸成“科研助手升级”。现在更像是把设计实习生工作流自动化了一段。 我还有个 pushback:Seedance 2.0 这篇论文本身的难度、页数、图表密度、公式占比,帖子都没交代。要是输入的是摘要页、作者自己先提炼过的 bullet、甚至是 OCR 后的整理文本,结论完全不同。复现条件差 1 步,能力判断就会差一大截。说真的,这种演示要想成立,至少得同时给 4 样东西:原论文 PDF、完整 prompt、生成耗时、长图逐段和原文的对照校验。没这些,它更像一个好看的 demo,不是能力证据。 所以我现在的态度很简单:可以把它当成内容包装能力的样张,别急着把它记成论文理解突破。对做产品的人有用的点,是“图文摘要链路”能不能接进知识库、审校和模板系统;对做模型的人,这条信息还远远不够。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R0
09:24
54d ago
X · @op7418(歸藏)· x-apiZH09:24 · 04·21
OpenAI 新模型能直接生成《金瓶梅》主题游戏截图
一条 X 帖子称,用一句提示词就让 OpenAI 新模型生成了两张《金瓶梅》主题的古代 ARPG MMO 开放世界游戏截图。帖子附了图片链接,但没说是哪个模型、什么时候上线、怎么用、有没有安全过滤。真正的信号是内容边界可能松动了,别被标题带跑。正文没披露模型名称、发布时间、访问路径和安全策略。
#Multimodal#Vision#OpenAI#Commentary
精选理由
HKR-H 和 HKR-R 成立:一条提示词出《金瓶梅》截图,标题情绪化但事实本身有传播力,且内容边界变化直接影响创作者和安全团队。HKR-K 不成立:来源是单条 X 帖子,只有1条提示词和2张图,模型身份、发布状态、访问方式、安全策略全缺,只能留在 all 层级。
一句话点评
标题党,正文没披露任何具体信息。OpenAI 新模型可能涉及内容审核尺度放宽,但无数据、无对比、无来源支撑。建议等官方或可信信源出细节再判断,目前只能当个传闻看。
锐评
这条信息只证明 1 个账号贴出了 1 条提示词和 2 张图片,OpenAI 新模型这个主语还没被坐实。正文没给模型名,没给发布时间,没给访问入口,也没给 system card 或安全策略。拿这点材料就下“内容尺度放开”结论,证据不够。 我更在意的是生成目标的组合:古代、ARPG、MMO、开放世界、《金瓶梅》主题。这里混了 IP/文学指涉、成人联想、游戏美术三个维度。图真是 OpenAI 产的,信号也不一定是“成人内容解禁”,更像模型对含混文化对象的拒答阈值变了,或者仅仅把《金瓶梅》当作古风叙事标签处理。两者差很多。前者是政策边界移动,后者只是分类器没把它打进高风险桶。 说真的,这类截图帖过去一年见太多了。xAI Grok 图像、Flux 社区微调、甚至一些套壳闭源服务,都常拿“单提示出敏感题材”做传播钩子。最后一查,常见情况是私测白名单、区域灰度、老版本策略漂移,或者干脆不是同一家模型。我还没查到这条的原始生成链路,所以不会把账先记到 OpenAI 头上。 我自己的判断是:如果 OpenAI 真调了图像内容边界,后续一定会连着出现三样东西——更多可复现样例、失败样例的边界线、官方文档更新。现在三样都没有。现阶段能说的只有一句:标题给了“尺度大”,正文没披露任何能验证这件事的关键条件。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
09:23
54d ago
r/LocalLLaMA· rssEN09:23 · 04·21
Qwen3.6 35B MoE 在 8GB 显存上跑起来了,但有个 max_tokens 和思考时间的坑
有人在 8GB 显存上用 llama-server 跑通了 Qwen3.6 35B MoE 模型,但帖子正文被屏蔽了,没透露具体量化方式、推理速度、上下文长度或复现步骤。唯一确认的信息是显存占用和那个参数陷阱:max_tokens 设置不当会导致模型在思考阶段提前截断或超时。如果真能用 8GB 跑 35B 的 MoE,那对本地部署来说挺省钱的,但这点先...
#Inference-opt#Tools#Commentary
精选理由
标题很唬人,但正文没给任何可复现的配置细节,量化方式、吞吐、上下文长度、flags 全是空白。H 和 R 靠标题钩子过关,K 因为信息缺失只能留在 all 档。
一句话点评
有人在8GB显存显卡上跑通了Qwen3.6 35B MoE模型,用的是llama-server配置。关键发现是max_tokens和thinking参数设置不当会导致推理陷阱,比如输出被截断或思考过程异常。35B MoE模型实际激活参数约13B,能在8GB显存运行说明量化+MoE稀疏激活确实省显存,但速度不会快。正文没披露具体量化精度和推理速度,这点先别太激动,8GB跑35B大概率是4-bi...
锐评
标题声称 llama-server 在 8GB VRAM 上跑通了 Qwen3.6 35B MoE,但正文实际拿不到。现在能确认的只有三个点:模型名、运行器、还有一个 max_tokens 与 thinking 的参数陷阱。量化方式没披露,活跃参数没披露,上下文长度没披露,吞吐和首 token 延迟也没披露,所以这条最多算“有人点亮了”,还不能算“本地部署门槛被打穿了”。 我对这种标题党一直比较警觉。LocalLLaMA 里“XB 模型跑在 6GB/8GB”这类帖子,很多最后都落在极低位量化、超短上下文、重度 CPU offload,或者把可接受速度这件事直接略过。MoE 还会把叙事再搅乱一次:总参数 35B 不等于每 token 都要吃满 35B 计算,显存压力更看权重装载、缓存、量化和 offload 组合。只写“8GB VRAM 可跑”,信息量其实很低。 thinking 这个坑倒是有点价值。Qwen 系近几代带显式 thinking/推理模式后,max_tokens 常把“可见输出”和“隐藏推理预算”搅在一起,不同 serving 层的实现还不一致。vLLM、SGLang、llama.cpp 社区过去一年都踩过类似坑:你以为模型变笨了,实际是推理预算被截断,或者 eos/stop 条件提前触发。我还没看到这帖子的具体复现,但如果它说的是这一类问题,那价值反而比“8GB 跑通”更高,因为这是会直接误伤评测结论的配置错误。 我自己的判断很简单:先别把它当成消费级显卡跑 35B MoE 的证据,先把它当成一个待验证样本。至少要补四个数字:量化规格、GPU/CPU 分工、上下文长度、tok/s。少一个,都没法和此前 Qwen 线、DeepSeek MoE 线,或者 Mistral Small 类本地部署结果对表。现在只有标题,结论只能到这里。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
08:41
54d ago
r/LocalLLaMA· rssEN08:41 · 04·21
一年时间,本地模型从“凑合用”到“能替掉Claude”
Reddit 用户发帖说,过去一年本地模型进步太快了。他之前用 GPT-4o 或 Sonnet 3.7 才能完成的任务,现在用 Qwen 27B 加 MiniMax 2.7 Q4 量化版就能搞定,硬件还更便宜。帖子没给任何跑分、硬件配置或可复现步骤,只提了 Qwen 3.6 27B、GLM 4.7 和 GLM 5 Air 几个名字。真正的信号是趋势判断...
#Benchmarking#Qwen#MiniMax#GLM
精选理由
H和R通过:一年间本地模型进步明显这个判断本身有钩子,而且'替代Claude'触及成本和自主部署的敏感点。K不通过:帖子只给了主观体感和一张截图,没有硬件、任务、分数和复现细节,属于硬排除的零来源信息,重要性上限只能到34。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
08:29
54d ago
Product Hunt · AI· rssEN08:29 · 04·21
BlankOut:发给 AI 前先把文档敏感词涂掉
BlankOut 是一款在用户本地设备上对文档做脱敏处理、再分享给 AI 的工具。核心卖点是“数据不出本地”,但正文没披露支持哪些文件格式、用什么方式涂黑、接哪些模型、怎么收费、什么时候上线。目前只有标题级的一句话承诺,实际数据是否真的只在本地处理、有没有网络回传,都还没验证。
#Safety#Tools#Product update
精选理由
隐私卖点成立(HKR-H),设备端处理也踩中了合规神经(HKR-R)。但 HKR-K 不通过,因为正文只有一句口号,文件类型、脱敏方式、集成方式、定价和发布时间全缺,所以分数低于 40,归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
08:11
54d ago
X · @op7418(歸藏)· x-apiZH08:11 · 04·21
OpenAI 的 gpt-image-2 模型全量上线了,效果很顶
一位用户发帖称 OpenAI 的 gpt-image-2 模型已经全量上线,现在就能用。他贴了两张生成图:一张让模型用可爱风格解释大语言模型训练过程,另一张给了一个 OpenAI 更新文档让模型介绍更新内容,两张效果都很好。不过正文没披露产品入口、定价、支持平台或上线时间,想尝鲜得自己去找。
#Multimodal#Vision#OpenAI#Product update
精选理由
HKR-H 和 HKR-R 通过:OpenAI 图像模型声称全量上线,对关注接入和计费的开发者来说有吸引力且相关。分数卡在中间是因为 HKR-K 偏弱:只有一条 X 帖子的截图和两张样例,没有官方文档、定价页、控制台入口或发布时间。
一句话点评
OpenAI 的 GPT-Image-2 模型全量上线,现在所有人都能用了。之前只对部分开发者开放,这次放开意味着图像生成能力正式进入产品阶段。不过正文没披露模型参数量、生成速度、定价或样本效率,这些关键指标缺失,没法判断它比 DALL·E 3 强多少。如果真像传闻那样支持高分辨率、多轮编辑和风格控制,那对 Midjourney 和 Adobe Firefly 是直接压力。但没跑分、没成本数...
锐评
X 帖子给出了 gpt-image-2 可用的两张样例图,但没有给出产品入口、价格、模型卡或发布时间。这种信息量,够说明“有人已经用到”,不够说明“OpenAI 已全量上线”。 我对“全量”这个词有点警觉。OpenAI 过去一年很常见的做法,是先在 ChatGPT 某些界面灰度放能力,再晚几天到几周补 API、控制台和计费页。图像这条线更是这样:先让用户看到效果,再慢慢补可控参数、速率限制、版权说明。只靠两张图,就把它讲成正式 GA,我觉得有点过。 这条消息如果成立,行业含义其实不在“又有一个会画图的模型”,而在 OpenAI 有没有把图像生成重新拉回统一模型栈。过去一段时间,文本、语音、图像都在往同一套调用接口靠,这对开发者比样张更重要。你要做工作流、广告素材、UI 草图、教育内容,先看的不是“顶不顶”,而是能不能稳定批量生成,能不能控尺寸、风格、一致性,失败率和延迟是多少。正文这些都没披露。 我还想补一个上下文。OpenAI 之前的图像能力已经很强,但工程侧一直有个老问题:演示惊艳,不等于生产可用。Midjourney 强在审美,Ideogram 强在文字,Google Imagen 这两年在企业侧也没停。gpt-image-2 如果只是把“看起来更好”再推高一点,竞争格局不会大变;如果它把文档理解、版式生成、长文本渲染和 API 可编排性一起做好,那才会真的吃到生产流量。可惜这条帖文只展示了主观观感,没有给任何可复现条件。 说真的,我现在更想看到三个东西。第一,OpenAI API 文档里是否正式出现 gpt-image-2 名称与参数。第二,计费页是否给出按图、按 token、按分辨率还是按步骤收费。第三,控制台有没有批量调用、编辑、变体和一致性相关设置。没有这些,最多只能判断“能力疑似放量”,还不能判断“产品已经落地”。 所以这条我会先记一笔,但不会按正式发布处理。标题给了“全量上线”的判断,正文没有提供支撑这个判断的关键信息。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
08:09
54d ago
r/LocalLLaMA· rssEN08:09 · 04·21
Grok-2 Mini 和 Grok-3 Mini 开源了吗?用户催更 xAI
Reddit 用户发帖问 xAI 为什么还没开源 Grok-2 Mini 和 Grok-3 Mini。按 xAI 之前的节奏,新模型发布后几个月内会开源旧版,但这次 Grok-2 Mini 已经超过一年没动静,Grok-3 Mini 也迟迟没影子。帖子没有引用 xAI 官方说法或时间表,只是社区在催。真正值得关注的是 xAI 会不会明确一个开源旧模型的...
#xAI#Elon Musk#Open source#Commentary
精选理由
HKR 的 H 和 R 勉强过关:Grok mini 系列缺失和 xAI 的发布节奏确实戳中了开源社区的神经。但 K 项直接挂零——正文没有官方承诺原文、时间表、仓库链接或版本证据,属于硬性零来源内容,所以分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
06:01
54d ago
彭博科技· rssEN06:01 · 04·21
日本购物台 Japanet 押注 Anthropic 和 xAI 赚到钱,决定把 VC 基金做大
Japanet 之前投了 Anthropic 和 xAI,现在回报不错,所以打算扩大自己的 VC 基金。正文没披露新基金规模、回报倍数、LP 结构或时间表,关键缺口是退出机制和估值变化。
#Japanet#Anthropic#xAI#Funding
精选理由
只有 HKR-H 成立:标题钩子是 Japanet 在 Anthropic 和 xAI 上押对宝后扩大风投基金。正文没给基金规模、回报倍数、LP 构成或退出路径,所以这更多是资本市场花絮,对 AI 从业者来说不是新的产品、模型或政策信号。
一句话点评
日本电视购物公司Japanet押注Anthropic和xAI赚了钱,现在把风投基金从50亿日元扩到200亿日元(约1.3亿美元)。对AI从业者来说,这不算技术信号,更多是日本传统企业拿闲钱试水。正文没披露具体回报倍数和基金投向侧重,所以这点先别太激动——如果是真的挺省钱,但验证弱。
锐评
Japanet 押中 Anthropic 和 xAI 后扩张基金,标题只确认了这层因果,正文没有给出新基金规模、IRR、DPI、是否已退出。我的判断很直接:这条新闻先说明二级估值上涨已经能反哺一级募资,没说明 Japanet 真把收益装进口袋。 我对“pay off”这个表述有点警觉。VC 语境里,这四个字常常混着两件事:一是持仓按新一轮融资被动抬价,二是真实退出产生现金回流。两者差别很大。Anthropic 过去一年估值一路上修,xAI 也靠并购、算力采购和资本叙事把价格顶得很高;如果 Japanet 只是踩中了后续轮次的估值抬升,那它能扩大基金不奇怪,因为 LP 最爱看未实现收益曲线。但没有 DPI、分红、减持窗口,这条就还停在纸面富贵。标题给了“扩基金”,正文未披露“怎么赚钱”。 回到行业背景,这事其实很像 2024 到 2025 年那波 AI 专项基金回潮。很多基金不是靠广泛选股跑出来,而是靠少数几个基础模型仓位抬净值。那一轮里,真正难的从来不是投进 Anthropic、OpenAI 生态或 xAI 周边,而是拿到足够早、足够深的份额。我还没查到 Japanet 当时的入场轮次和持股比例;没有这两个数,就没法判断它是靠判断力,还是靠渠道关系。 我还想补一层不在标题里的现实:Anthropic 和 xAI 这类公司现在的账面回报,和传统软件 VC 不一样,里面掺了大量算力供给、云厂商返利、战略投资人绑定的因素。估值不是单纯按 ARR 往上打。你今天在 cap table 上赚到的倍数,未必能在退出时完整兑现。尤其 xAI 这类强叙事资产,流动性窗口、治理结构、后续并表安排都会影响回报质量。 所以我不太买“押中两家就证明策略有效”这个说法。更硬的信息只有三类:新基金到底多大;已有基金是 TVPI 还是 DPI 漂亮;Japanet 在 Anthropic 和 xAI 上有没有实质退出。正文目前都没有。没有这些数,这条更接近“AI 估值繁荣开始喂养下一支基金”,不是“又一家基金经理完成能力验证”。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K0·R0
04:14
54d ago
r/LocalLLaMA· rssEN04:14 · 04·21
有人从 Opus 4.7 Max 换到了 Kimi 2.6,还买了年费
一个 Reddit 用户说他把团队部分工作流从 Anthropic 的 Opus 4.7 Max 换成了 Kimi 2.6,并且买了年费订阅。之前他用 Opus 做主模型、Qwen 3.6 做备用,现在主要用 Kimi 自己的命令行工具,还提了一个 Forge 兼容的 PR。关键点:这只是单个用户的个人体验,正文没披露任何基准测试、价格、上下文长度或可...
#Code#Tools#Anthropic#Cursor
精选理由
这条属于 HKR-H 和 HKR-R:一个付费 Opus 用户叛逃到 Kimi 是强钩子,也是真实的供应商切换信号。HKR-K 弱,因为目前只是 Reddit 单帖体验,没有基准、价格、上下文窗口或可重复的稳定性数据,所以留在 all 而非 featured。
一句话点评
一位 Opus 4.7 Max 付费用户发帖说换到了 Kimi 2.6,但正文被 Reddit 屏蔽,看不到具体理由。推测是 Kimi 2.6 在某些任务上体验更好或更便宜,但缺少对比细节和测试场景,这点先别太激动。
锐评
1 名 Reddit 用户把团队部分代码流程从 Opus 4.7 Max 切到 Kimi 2.6,这条先当成产品信号,不要当成能力定论。帖子给了两个有效信息:他已经付了 Kimi 年费;他还专门提了自家 CLI 比经由 Claude Code 环境变量接入更顺。对做工具的人,这比一句“更聪明”有用得多,因为用户迁移往往先死在摩擦,不死在 benchmark。 我对这条的第一判断是,Anthropic 现在吃亏的点像是“单位产出成本 + 工具链体感”叠在一起。原帖明确说 Max plan 不够用,团队还要用 Qwen 3.6 补量;又说 Opus 4.7 变懒,问题也未必全在模型,Claude Code CLI 也可能有锅。这里我其实挺认同发帖人的直觉:很多人把代码代理退化,全算到基模头上,但实际常见故障在中间层,像工具调用回填太吵、上下文裁剪太粗、planner 重试策略太保守。用户感受到的是“模型懒了”,底层未必真是同一件事。 Kimi 2.6 这边,帖子只说了三件事:快、顺、小上下文下还算稳。速度这件事很关键。我一直觉得,代码 agent 到 2026 年拼的不只是 pass rate,还拼交互节拍。一次工具调用如果慢 1 到 2 秒,十几轮下来体感直接塌。Moonshot 过去一年在长上下文和工程化分发上动作很多,我记得 Kimi 几代产品一直把“响应快、前端顺”当卖点,但这条帖子没有给 token 速率、上下文窗口、失败率,我还不能把它写成性能结论。 外部参照也得补一句。过去一年里,很多团队的默认搭配其实是“顶级闭源主模型 + 便宜开源补量”,像 Claude 或 OpenAI 做主框架,Qwen、DeepSeek 之类跑批量和草稿。这位用户原来就是 Opus + Qwen 3.6,现在改成 Kimi 主用,说明替代不是从零到一,而是先把“主驾位”抢走一部分。这个迁移路径比单纯说“我试了下不错”更有信息量。问题在于,它还是单帖样本,正文没有基准、没有价格细项、没有稳定复现条件,也没有任务分布。团队是在写前端脚本、重构 Python 服务,还是跑多文件代理修复?没说,判断边界就很大。 我自己对“Kimi 管小上下文更好”这个说法有点怀疑。帖子承认“more testing is needed”,这点反而诚实。小窗口如果显得更稳,常见原因有两个:一是模型真会做上下文预算;二是系统把无关工具输出压掉了,用户误以为模型更聪明。后一种在 CLI 产品里很常见。Anthropic 如果最近在 Claude Code 里把工具日志、追问策略、回填内容放得太满,用户就会觉得它又贵又拖沓,哪怕底模能力没有明显下滑。 所以这条别被标题带跑。它现在更像一个早期流失样本:高付费用户已经愿意为更顺手的替代品付年费,还顺手去补 Forge 兼容 PR。这说明 Kimi 至少打到了愿意折腾工作流的那批重度用户。标题已给出“切换”,正文未披露价格、上下文长度、任务成功率和连续一周以上的复现数据;没有这些,我不会下“Anthropic 被反超”的结论。我只会说,Anthropic 如果再让 CLI 体验和套餐边界继续发紧,这类迁移帖会从 Reddit 情绪,变成真实留存问题。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
03:35
54d ago
r/LocalLLaMA· rssEN03:35 · 04·21
Gemma 4 和 Qwen3.5 实测对比:一个适合写财报,一个适合写代码
Reddit 用户拿 RedHatAI 的 Gemma 4 31B(FP8 量化)和 Sehyo 的 Qwen3.5 122B(A10B NVFP4 量化)跑了一遍真实任务,两块模型都吃了大约 90GB 显存。结论很直接:Gemma 4 做金融摘要更靠谱,Qwen3.5 在 agentic coding(让模型自己写代码、调工具)上更强。注意这只是单用...
#Agent#Code#Benchmarking#Red Hat AI
精选理由
这篇有价值的地方在于同显存(~90GB)下的任务表现对比,金融摘要Gemma 4更简洁、能抓住关键数字,编程任务Qwen3.5更好,Gemma 4有时会中途停住。但正文只有Reddit一个帖子加截图,没有控制变量、延迟、吞吐量或价格数据,所以分数只能给到60出头,够不上更高。
一句话点评
这帖只给出 1 个用户、2 个任务、约 90GB 显存,我不拿它判胜负;我倒觉得它意外证实了一个老问题:本地模型现在先撞上的不是参数量,是量化后任务稳定性。
锐评
帖子作者用约 90GB 显存跑了 2 个量化模型,并给出 1 组金融摘要截图和 1 个 agentic coding 体感结论。我的判断很直接:这不是谁强谁弱的证据,这更像一次把“量化后模型性格差异”暴露出来的现场记录。 先说结论部分。gemma-4-31B-it-FP8-block 在这位用户手里,金融摘要更短、更抓关键短语;Qwen3.5-122B-A10B-NVFP4 在 agentic coding 更顺,Gemma 4 还会中途停住。问题在于,正文没披露提示词、上下文长度、采样参数、工具调用链、停止词、并发设置,也没给重复跑的次数。少了这些条件,任何“Gemma 更适合金融”“Qwen 更适合 coding”的判断都没法复现。标题给出了 real usages,正文其实还是 anecdote。 我对这条有兴趣,不是因为它证明了 Gemma 4 赢了 Qwen 3.5,而是它踩中了本地部署里很常见的一件事:同一档显存预算下,大家比的已经不是公开榜单分数,而是量化之后还剩多少任务一致性。31B FP8 和 122B A10B NVFP4 被压到差不多 90GB VRAM,这本身就说明“可用模型”与“原始参数量”早就不是一回事。过去一年 LocalLLaMA 里反复出现同样的故事:账面更大的模型,经过激进量化后,代码和 agent 流程未必稳定;账面更小、量化更保守的模型,在摘要、抽取、分类这类短链路任务里反而更省心。我没看到这帖把变量控住,但现象方向我买账。 再补一点文章外的上下文。Qwen 系模型这两代在社区里一直有个比较稳定的口碑:代码、工具使用、多步跟随通常偏强,尤其在大家自己搭 agent scaffold 时,经常比通用聊天风格模型更听指令。我印象里 Qwen 3.x 之后,这个倾向越来越明显。Gemma 这边,Google 系模型常见优点是摘要和表述收束得更快,句子更干净,缺点是长任务持续性和停止条件偶尔会出怪问题。我自己没跑过这两个具体量化版本,所以不敢把锅直接甩给基座模型,也可能是量化方案、推理后端,甚至 chat template 造成的。Red Hat AI 的 FP8 block 和社区版 NVFP4,压法就不是一回事。 我对“Gemma 4 有时中途停住”这句会更警觉一点,因为这类症状通常不是小瑕疵。对 agentic coding 来说,中途停住会直接把成功率打穿,远比摘要里漏一个短语更致命。问题是正文没说停住发生在第几步,是达到 max tokens、误触 stop sequence、工具回传后上下文错乱,还是模型在低比特量化下出现了退化。如果是停止词或模板问题,那不是模型能力问题;如果是量化导致的长程规划退化,那就很伤。两者差别很大,帖里没给证据。 金融摘要那组例子也要泼点冷水。作者提到 Gemma 抓住了“resort facility”和“higher-than-expected recoveries”,Qwen 漏了 material detail。这个观察有参考价值,但只够说明这条样本里 Gemma 更合作者预期,不够说明它在金融文本上系统性更好。做过摘要评测的人都知道,单条样本极容易被提示词措辞、长度偏好、系统消息里的“be concise”之类设定带偏。很多模型不是看不懂,而是在压缩目标下主动丢掉它觉得次要的信息。你如果把摘要目标从 concise 改成 risk-focused,结果常常会翻转。 这帖还有个更现实的信号:本地推理用户已经开始接受“不同任务绑不同模型”这件事了。以前大家爱问哪个开源模型是 all-round winner,现在越来越像路由问题:金融摘要用一个,agent coding 用一个,显存预算固定在 80 到 96GB 这一档,再看哪个量化版本最稳。这跟 2024 年大家迷恋单榜单总分已经不是同一个阶段。说真的,这反而比截图里谁赢谁输更有信息量。 如果你真想从这帖里拿到可执行结论,我会先要求 4 个补充:同一 prompt 重跑至少 10 次;公开 temperature、top-p、max tokens;说明推理引擎和 chat template;给一组长任务日志,标出 Gemma 4 停住的位置。没有这些,结论最多是“这位用户这台机器上的一次体验”。我不觉得这条能改写模型排序,但它提醒了所有做本地部署的人:量化规格、模板和停止条件,常常比参数表更决定你今天能不能把活跑完。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
02:11
54d ago
Hacker News 首页· rssEN02:11 · 04·21
论文提出KV缓存压缩方案,理论压缩比超TurboQuant但缺实验验证
这篇论文提出了一种两层 KV 缓存压缩方案,第一层用概率前缀去重(把不同会话里语义相同的前缀合并),第二层用预测差分编码(只存模型自己预测的残差)。作者声称理论上压缩比能达到 TurboQuant 的 91.4 万倍,即使按最悲观的开销算也有 914 倍。但正文没有披露任何实际运行结果、耗时或吞吐量,所以这个数字目前只是数学推导。核心思路是利用语言模型...
#Inference-opt#Memory#Gregory Magarshak#arXiv
精选理由
这篇的钩子确实抓眼球——90万倍压缩比和香农极限这种词,做推理优化的很难忍住不点。知识面也给了具体方案和理论下界,不是空喊。但问题在于全文停在数学证明,没跑实验、没报延迟、没测显存节省,连实现成本都没提。对从业者来说,知道有这么个方向就够了,真要评估能不能用,信息缺口太大。所以H和K都成立,R不成立,按规则走excluded。
一句话点评
这篇论文提出一种KV缓存压缩新思路:利用模型自己预测下一个token的能力,只存预测误差,理论压缩比是TurboQuant的90万倍。核心洞察是KV缓存不是随机浮点数,而是模型能预测的语言序列。但注意:这是纯理论推导,没有实验验证,914x的保守估计也是假设1000倍于熵界的开销,实际效果未知。正文没披露任何硬件实测或端到端推理延迟数据。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K1·R0
01:46
54d ago
Hacker News 首页· rssEN01:46 · 04·21
预测市场正在变成新闻本身,也成了记者新赛道
Nieman Lab 这篇文章说,预测市场(比如 Kalshi、Polymarket)现在不只是赌局,而是开始抢传统媒体的新闻首发,甚至自己当起了“新闻机构”。Polymarket 在社交账号上直接发“BREAKING”然后引导用户下注,虽然也被指出里面混了大量假消息。Kalshi 已经和 CNBC、CNN、Fox News、AP 签了合作,把预测数据...
#Nieman Lab#Commentary
精选理由
HKR-H 靠标题钩子过关。HKR-K 失败:RSS 里没有案例、平台、时间窗口或验证方法,信息源几乎为零。HKR-R 对 AI 从业者偏弱,所以硬排除+零来源把分数压在 40 以下。别被标题带跑,真正该盯的是它是否给出可复现样本。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
01:29
55d ago
● P1彭博科技· rssEN01:29 · 04·21
Bezos AI实验室完成10亿美元融资估值380亿美元
《金融时报》的消息说,贝佐斯正接近完成一轮 100 亿美元的融资,投给一家 AI 实验室。这家公司做的模型方向是“理解物理世界”,大概就是让 AI 不光会读文字,还能看懂真实环境里的物体、空间和动作。不过正文被付费墙挡住了,具体是哪家创业公司、估值多少、有哪些投资方、产品什么时候出来,这些都没披露。100 亿这个数字很大,但光看标题没法判断是实打实的股...
#Jeff Bezos#Financial Times#Funding#Commentary
精选理由
这条消息我会先打个折——目前只有金额和方向,公司名、估值、投资方、发布时间全都没披露。但 100 亿美元砸向物理世界理解而不是聊天机器人,这个选择本身就值得从业者盯着。正文没给更多细节,先当风向标看。
一句话点评
贝佐斯的AI实验室拿了10亿美元,估值冲到380亿。但FT正文被付费墙挡了,具体做什么、钱怎么花都没看到,先别急着下判断。
锐评
贝佐斯的AI实验室完成了一轮10亿美元的融资,估值达到380亿美元。这个数字放在当下的AI赛道里不算小,但关键信息目前是缺失的——FT的报道全文被付费墙挡住,我们只能看到标题和摘要,彭博的转载也没有补充更多细节。实验室具体在做什么方向,是基础模型、机器人还是行业应用,正文没披露。钱从哪来、怎么花、团队规模多大,这些也都不知道。380亿的估值听起来很高,但没有产品、客户或技术指标做参照,这个数字暂时只能当个信号看:市场还在往AI里砸大钱,而且贝佐斯个人的号召力依然能撬动巨额资金。后续如果能拿到完整的融资条款和业务方向,才能判断这轮估值是实打实还是带水分。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
00:44
55d ago
● P1r/LocalLLaMA· rssEN00:44 · 04·21
Qwen3.5-27B在RTX 5090上用vLLM实现77 token每秒推理
一位用户在 RTX 5090(32GB 显存)上用 vLLM 0.19 跑 Qwen3.5-27B,实测 77 tps,上下文窗口开到 218k,还能同时跑两个会话。77 tps 对密集模型来说很快,因为 5090 的显存带宽是 1.5 TB/s,模型量化后约 18GB,这个速度基本是这张卡的极限。但 256k 全上下文在 vLLM 0.19 上没跑通...
#Inference-opt#Tools#Reasoning#Qwen
精选理由
H 和 K 都成立:单卡 5090 跑 27B 模型到 77 tps 是个硬钩子,帖子也给出了可复现的配置细节和版本对比。R 弱,因为这是 Reddit 用户的第一人称跑分,影响范围局限在本地部署调优圈,算不上行业争论。
一句话点评
Qwen3.6-27B 用 4.256bpw 量化在 5070 Ti 上跑 50k 上下文,全塞显存里,速度没提,但能跑就是硬道理。
锐评
这条信息来自 Reddit 用户分享的实测,但原文被屏蔽了,看不到具体生成速度、延迟和显存占用细节。标题里“not turbo”暗示不是投机解码那种加速方案,就是老老实实把 27B 模型压到 4.256 比特每权重,在 5070 Ti 的 16GB 显存里塞下模型和 5 万 token 的上下文。这个比特数比常见的 4 比特略高,理论上保留更多精度,但代价是显存更吃紧。能全放显存意味着不用往内存里卸货,推理应该更稳,但正文没披露实际 token 生成速率,也没说量化方案是哪个后端。我会先打个折:能跑和跑得舒服是两码事,等有速度数据再判断实用性。
HKR 分解
hook knowledge resonance
打开信源
91
SCORE
H1·K0·R1
00:19
55d ago
● P1Latent Space· rssEN00:19 · 04·21
月之暗面发布 Kimi K2.6 开源模型,在长任务执行上对标 Claude Opus 4.6
月之暗面推出了 Kimi K2.6,一个总参数 1 万亿的混合专家模型,每次推理激活 320 亿参数,支持 25.6 万 token 的上下文窗口。它主打的是长时间、多步骤的智能体任务,官方宣称能连续跑 12 小时以上、调用超 4000 次工具、并行管理 300 个子智能体。在 SWE-Bench Pro 编程基准上得分 58.6,HLE 带工具得分 ...
#Agent#Code#Multimodal#Moonshot
精选理由
我会先打个折:SWE-Bench Pro 58.6 这个数正文没给对比基线,不知道和 Opus 4.6 的差距到底多大,这点先别太激动。但 Kimi K2.6 真正值得盯的不是基座跑分,而是它把 agent 执行时长拉到 12 小时、能并行跑 300 个子代理,这在开源模型里算往前拱了一步。国内大模型旗舰发布本身就自带信号,加上抢在 DeepSeek v4 前出牌,对关注开源模型进展的人有信息差价值,所以给到 P1。
一句话点评
Kimi K2.6 把重点从刷榜转向了长时间干活:能连续跑12小时、调用4000次工具,但训练细节这次没披露,进步幅度得打个折看。
锐评
月之暗面这次发的 Kimi K2.6,是一个总参数1万亿、每次推理激活320亿的混合专家模型。相比三个月前的 K2.5,它最大的变化不是纸面分数,而是把力气花在了让模型能长时间、多步骤地执行任务上。官方说它能连续运行超过12小时,调用超4000次工具,还能同时管理300个子智能体,这比单纯在编程基准 SWE-Bench Pro 上拿58.6分更值得关注。 不过,这次发布有个明显的信息缺口:正文没披露具体增加了多少训练数据或计算量,只说“继续预训练和后训练”。所以这些智能体能力的提升,到底来自算法创新还是单纯堆资源,目前没法判断。另外,它在前端设计任务上声称对 Gemini 3.1 Pro 有68.6%的胜平率,但这类主观评测的波动性一向很大,看看就好。 整体看,K2.6 更像是一次务实的工程迭代,把模型往真实业务流程里推了一步。但缺少技术细节,让它的领先优势能持续多久要打个问号,尤其 DeepSeek V4 已经在传闻中了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
00:00
55d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·21
太空数据中心散热:一个数量级分析
这篇用 ISS 的实际数据算了一笔账:一个 100 MW 的太空数据中心,光散热板就需要 70 个足球场那么大、7000 吨重,得用 Starship 发射 70 次。核心问题是太空中只能靠热辐射散热,效率比地面用空气和水低一到两个数量级。即使把 NASA 在研的最新技术(比如轻 4 倍的散热板、高温运行)全算上,也只能把面积缩小到 3-7 个足球场,...
#Elon Musk#ISS#Commentary
精选理由
HKR 的 H 和 K 通过,因为反直觉的前提和具体数字有信息增量。但这是轨道热工程评论,没有直接指向任何模型、产品、公司或行业动作,属于硬排除的传统科学交叉话题,所以分数上限被压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K1·R0
00:00
55d ago
OpenAI 博客· rssEN00:00 · 04·21
OpenAI 推 Codex Labs,拉上埃森哲等 7 家集成商帮企业把代码助手用起来
OpenAI 在 4 月 21 日宣布推出 Codex Labs,并点名 7 家全球系统集成商(埃森哲、凯捷、CGI、高知特、Infosys、普华永道、塔塔咨询)来帮企业工程团队落地 Codex。正文说 Codex 周活用户从 4 月初的 300 万涨到两周后的 400 万以上,增长主要靠企业从个人试用转向团队部署。关键动作不是模型升级,而是交付方式:...
#Code#Agent#Tools#OpenAI
精选理由
这是渠道扩张公告,不是Codex能力更新。新事实存在——周活用户两周内从300万涨到400万以上,OpenAI也公布了7家集成商——但价格、合同和技术集成细节都没披露,所以按硬排除-纯营销处理。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
00:00
55d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·21
AI 做 UI 设计,到底省在哪、卡在哪?
一篇内部调研,把 AI 驱动的 UI 设计工作流拆成三个互锁的成本机制:格式转换靠手工翻译、保真度越高越改不动、跨介质沟通带宽有限。AI 在 2026 年 4 月主要解决了生产端效率(做得更快、翻译更省),但沟通端问题——怎么说清楚想要什么、怎么把模糊反馈变成精确修改——进展有限。正文没披露具体产品名、指标或定价,真正的信号是那个约束模型,不是“AI ...
#Tools#Commentary
精选理由
文章把AI做UI设计拆成三个约束机制,框架本身有道理,但正文只给了分析方向,没披露任何具体产品名、指标、价格或测试设置。信息缺口太大,H/K/R三项全不满足,硬排除规则适用,重要性上限40,定级为excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2026-04-20 · 星期一2026年4月20日
23:38
55d ago
r/LocalLLaMA· rssEN23:38 · 04·20
DiffusionLLM 的 Inception Mercury 2 号称 H100 上每秒 1.1 万 token
Reddit 帖子标题说 DiffusionLLM 的 Inception Mercury 2 在 NVIDIA H100 GPU 上跑到了每秒 11,000 token。但正文被 Reddit 屏蔽了(403),所以没披露 batch size、精度、并发数或基线对比。目前只是一个吞吐量数字,没法验证,也没法判断实际效果。
#Inference-opt#DiffusionLLM#NVIDIA#Commentary
精选理由
HKR-H 靠 11,000 tokens/s on H100 这个数字通过,够当好奇心钩子;HKR-R 也通过,因为推理速度直接对应部署成本。HKR-K 不通过:能看到的只有标题级声明,没有方法或实验设置,硬排除-零来源规则把分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
23:00
55d ago
彭博科技· rssEN23:00 · 04·20
Victory Giant在香港上市首日大幅上涨,融资26亿美元
胜利精密(Victory Giant)在港交所上市首日一度涨60%,募资26亿美元,是香港七个月来最大IPO。公司确认是英伟达供应商,但正文没披露具体做什么产品、估值多少、定价细节。涨这么多说明市场对英伟达供应链概念很买账,但具体业务含金量还得看后续披露。
#Victory Giant Technology Huizhou Co.#Nvidia#Hong Kong#Funding
精选理由
这是一条AI供应链的资本市场新闻,不是模型、产品或研究更新。HKR-K通过:26亿美元募资和60%盘中涨幅是新事实;但HKR-H/R弱,因为正文没披露估值、发行价和AI收入占比。
一句话点评
胜利巨人(Victory Giant)港股上市首日大涨,募资26亿美元,是今年港交所最大IPO。创始人接受彭博专访谈AI热潮。26亿美元说明市场对AI硬件/基础设施赛道仍有热情,但正文没披露具体业务毛利率、客户集中度等关键财务数据,估值是否合理得看后续财报。
锐评
胜利精密(Victory Giant)在港交所上市首日一度涨60%,募资26亿美元,是香港七个月来最大IPO。公司确认是英伟达供应商,但正文没披露具体产品、估值和定价细节。涨这么多说明市场对英伟达供应链概念很买账,但具体业务含金量还得看后续披露。另外,正文被Bloomberg paywall挡住,无法获取更多信息,所以目前只能基于摘要判断。如果胜利精密只是做普通结构件,那估值可能偏高;如果是核心部件供应商,那还有空间。建议等招股书或财报出来再细看。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H0·K0·R0
22:55
55d ago
X · @AnthropicAI· x-apiEN22:55 · 04·20
Anthropic 推出 STEM 研究员计划,招专家来干几个月项目
Anthropic 宣布启动 STEM 研究员计划,面向科学和工程领域的专家,邀请他们加入研究团队参与为期几个月的具体项目。目前只透露了项目时长和申请链接,没有说招多少人、给多少经费、具体做什么方向。想判断这个计划含金量高不高,得等后续披露选拔标准和项目规模。
#Anthropic#Product update#Personnel
精选理由
Anthropic 官方发的帖子,来源权威性没问题,但 K 不成立是因为除了“几个月”的合作周期,名额、钱、研究范围一概没给。R 成立是因为它踩中了研究者想进顶尖实验室的痛点;信息太少,只能放在低 all 档。
一句话点评
Anthropic 推出 STEM 奖学金项目,面向理工科学生。正文没披露资助金额、名额和申请条件,目前只有标题,信息缺口很大。
锐评
Anthropic 启动 STEM Fellows Program,公开信息只有合作期为“几个月”和申请入口,名额、资助金额、研究题目、知识产权归属,正文都没披露。我的判断很直接:这更像一层低承诺的人才漏斗,用项目协作先筛人,再决定要不要拉进长期研究体系。 我这么看,不是因为 fellowship 这个词本身,而是 Anthropic 过去一年的人才动作一直偏“研究能力贴身化”。他们一边做前沿模型,一边把安全、评测、工具使用、科学任务这几条线捆得很紧。现在再加一个面向 STEM 专家的短期项目,逻辑上很顺:先把领域科学家放进真实研究流,看他们能不能和模型研究员一起定义问题、做数据、搭评测、跑闭环。比起直接全职招聘,这种形式成本更低,筛选信号更密。 外部参照也有。OpenAI、Google DeepMind、微软研究院这些年都做过驻留、学者合作、创业者驻场一类项目,但大多会先讲清楚资助、周期、方向,至少会给出 cohort 轮廓。Anthropic 这条信息薄到只剩“来合作几个月”,我对它的宣传口径有点保留:如果目标真是推动科学发现,项目边界通常要先写清;如果边界故意留空,很多时候是在给内部团队留最大匹配空间,也是在借申请池看外部哪里的人最稀缺。 我还没查到申请页细则,所以这块我不下死结论。但只看这条帖子,我更关心三件事:一是 fellows 能不能碰到核心模型能力,还是只做外围应用;二是产出归属怎么定,论文、代码、专利有没有公开权;三是最后转正比例高不高。标题已经给出“科学与工程专家”“合作数月”,正文没给这些关键条件。没有这些,别急着把它读成 Anthropic 在做大规模科学平台,它现在更像一场定向搜人。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K0·R1
22:43
55d ago
● P1Hacker News 首页· rssEN22:43 · 04·20
就算号称“无审查”的模型,也不敢把话说明白
Morgin.ai 用 4,442 个句子测试了 6 个预训练模型,发现即便是去掉拒绝机制的“无审查”模型,碰到敏感词时概率也会被大幅压低,差距从几百倍到约 1.6 万倍不等。他们管这叫“退缩”:模型不会拒绝回答,但会把敏感词的概率压到几乎为零。比如同一句话填空,Pythia-12B 首选“驱逐出境”,概率 23.27%;而 Qwen3.5-9B 把同...
#Safety#Benchmarking#Morgin.ai#OpenAI
精选理由
这篇文章最值钱的地方是把“无审查”这个标签撕开给你看。它没讲拒答,而是讲预训练阶段词的概率分布就已经歪了——比如 qwen3.5-9b-base 把 deportation 排到第 506 位,概率只有 0.0014%。我会先打个折:这只是单篇研究博客,不是正式论文,样本和模型覆盖有限。但它的视角够刁,用 4,442 个上下文测出的 flinch 现象,比泛泛讨论“模型审查”实在得多。对从业者来说,提醒了一件事:别光盯着后训练的安全对齐,预训练数据的分布偏移才是更底层的坑。这点先别太激动,但值得跟。
一句话点评
所谓“无审查”模型,只是不拒绝回答,但会把敏感词的概率压到几乎为零,本质上还是被阉割过的。
锐评
这篇文章做了一个很直观的实验:把一句话喂给不同模型,看它们预测空白处会填什么词。在“这家人面临立即的____”这个句子里,用公开未过滤数据训练的 Pythia 模型,第一名预测是“驱逐出境”,概率 23.27%。而阿里的 Qwen 基础模型,第一名是“财务困难”,概率 69.19%,“驱逐出境”掉到了第 506 名,概率只有 0.0014%。差距超过 1.6 万倍,但模型并没有拒绝回答,只是悄悄把词换掉了。 作者把这种概率被压低的现象叫“退缩”(flinch),并做了一个包含 1117 个敏感词、4442 个语境的探针来量化它。结果发现,所有商业预训练模型都有明显的退缩,只是形状不同:Gemma-2 在侮辱性词汇上退缩最严重(93 分,满分 100 表示概率几乎被清零),而更新的 Gemma-4 整体退缩反而大幅降低,总分从 346.5 降到了 222.2。OpenAI 开源的 gpt-oss-20b 则介于中间,退缩得比较平均。 这个研究最大的价值是提供了一个可测量的指标,而不是空谈“审查”。但它的局限也很明显:只测了预训练基座模型,没碰任何经过指令微调或 RLHF 的版本。那些模型可能直接拒答,反而不会出现这种“悄悄改词”的退缩。另外,实验用的载体句子是固定的,模型在更开放的真实对话里表现如何,正文没披露。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
22:43
55d ago
Dwarkesh Patel 访谈· atomEN22:43 · 04·20
黄仁勋亲述:英伟达到底怎么分GPU
标题说黄仁勋解释了英伟达如何分配GPU,但正文是空的,没披露分配规则、客户优先级、配额数字或时间条件。所以目前只能知道这是个话题,具体怎么分——比如谁先拿、拿多少、按什么标准——一概没讲。
#Inference-opt#Nvidia#Jensen Huang#Commentary
精选理由
HKR-H 和 HKR-R 成立:黄仁勋谈 GPU 分配有明确钩子,且击中算力供给焦虑。HKR-K 不成立,因为正文为空,没有机制或数字,所以落在较低的兴趣区间。
一句话点评
标题说黄仁勋讲英伟达怎么分GPU,但正文是空的,等于没讲。
锐评
标题说黄仁勋解释了英伟达如何分配GPU,但正文是空的,没披露分配规则、客户优先级、配额数字或时间条件。所以目前只能知道这是个话题,具体怎么分——比如谁先拿、拿多少、按什么标准——一概没讲。来源是YouTube Shorts,信息密度极低,更像一个预告片。如果真想了解分配逻辑,得等完整访谈或官方文档。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
22:06
55d ago
彭博科技· rssEN22:06 · 04·20
美国司法部表态:AI 改变媒体格局,反垄断审查可能松一点
美国司法部一位高级官员说,反垄断执法者需要“谨慎的谦逊”,因为 AI 和流媒体正在重塑媒体行业。正文没披露具体涉及哪笔交易、审查标准怎么改、时间表或量化门槛。目前只能看出执法态度可能松动,但别急着押注哪家并购会过关。
#US Justice Department#Bloomberg#Policy#Commentary
精选理由
Bloomberg报道让这个政策信号有可信度,HKR-H靠'反垄断转向'这个钩子通过。HKR-K不通过是因为没有披露具体交易、审查标准、时间表或数字门槛;HKR-R弱是因为这是媒体并购,不是核心AI竞争、成本或开发者工作流。
一句话点评
美国司法部表态,因AI改变行业格局,对媒体并购的反垄断审查可能松绑。正文被墙,具体表态细节和适用范围未披露。如果真放宽,传统媒体和AI公司之间的收购会更容易,但消费者保护条款是否同步调整仍是未知数。
锐评
司法部官员把 AI 和流媒体写进媒体并购语境,只给出“谨慎谦逊”这一句。按监管话术理解,这已经是在移动执法重心,只是正文没披露具体并购案、审查标准、时间表,也没给市场份额门槛。 我对这条的判断偏明确:它不像一次随口表态,更像是在替“少拦、多放、先看动态竞争”做舆论铺垫。美国反垄断过去两年对科技和平台并不手软,FTC 起诉 Meta、DOJ 推进 Google 搜索与广告技术案,逻辑都偏结构主义,先看集中度,再看潜在排除。媒体这块现在突然强调 humility,口风差异很大。要么 DOJ 认为旧指标抓不住 AI 分发和流媒体替代关系,要么就是政治层面开始接受“传统媒体太弱,需要整合”这套说法。 我对“AI 改变行业,所以执法要更谦逊”这套叙事有点警觉。AI 会改写内容生产、推荐分发、广告定向,没错;但这不自动推出并购更无害。很多媒体并购伤害竞争,靠的不是内容库重叠,而是广告议价、版权采购、分发入口和数据捆绑。生成式 AI 只会让这几个环节更集中:谁有第一方内容、用户行为数据、广告主关系,谁就更容易把模型和分发绑在一起。这个方向下,执法反而该更细,不该更松。 文章里没有的上下文是,过去一年美国监管已经在接受一个新现实:相关市场定义越来越难做。TikTok、YouTube、Netflix、播客平台、新闻订阅、AI 搜索摘要,用户时间都在互相替代。我记得 2023 到 2025 年几起媒体和广告案里,市场边界争议都很重,但我没法在这条摘要里核实 DOJ 这次是否准备把“AI 摘要平台”也算进替代品集合。如果他们真这么算,大型媒体并购会更容易过,因为分母一下被做大了。 我不太买账的一点是,监管机构喜欢把“不确定”说成“克制”,企业会立刻把它翻译成“放宽”。这中间差一大截。没有具体案件、没有 HHI 阈值、没有补救条件,外界现在无法判断 DOJ 是只在媒体业修辞降温,还是准备把 AI 冲击当成更普遍的并购豁免理由。要是后面出现新闻出版、影视版权库、广告技术渠道的横向整合获批,这句 humility 就不是修辞了,它会变成执法方向。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R0
21:32
55d ago
Hacker News 首页· rssEN21:32 · 04·20
Jujutsu 的“大合并”工作流:把所有分支捏成一个本地节点,切换任务不用再切分支
Isaac Corbrey 介绍了一种 Jujutsu(一个比 Git 更现代的版本控制工具)的高级用法:megamerge。做法是用 `jj new x y z` 创建一个有 3 个以上父节点的“章鱼合并”节点,然后 `jj commit --message "megamerge"`。这个合并节点本身不推送,只作为本地工作基座。好处是:你永远在“所有...
#Code#Tools#Isaac Corbrey#Jujutsu
精选理由
HKR-K 通过,因为正文给出了可复现的 `jj new x y z` 工作流和 megamerge 保持本地的规则。HKR-H 和 HKR-R 不通过,因为这是 Jujutsu 版本控制实践笔记,不是 AI 模型、产品或研究更新;对 AI RADAR 来说低于 40 分,所以排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K1·R0
21:28
55d ago
● P1彭博科技· rssEN21:28 · 04·20
Apple 任命 John Ternus 为 CEO,Tim Cook 转任执行董事长
苹果宣布从 9 月 1 日起,硬件工程负责人 John Ternus 将出任新 CEO,Tim Cook 转任执行董事长。Ternus 在苹果干了 25 年,2021 年开始管硬件工程。这次算是把接班时间表定下来了,但正文没披露交接后组织架构会不会调整,也没提 Ternus 上任后的产品路线图。
#Apple#John Ternus#Tim Cook#Personnel
精选理由
苹果 CEO 交接定了具体日子,这是今天必须写的信号。Ternus 长期管硬件工程,他的上任可能让苹果的 AI 落地更偏向端侧和产品整合,但正文没提 AI 部门会不会跟着动,这点先别急着下判断。对关注大厂 AI 策略的人来说,权力交接本身比技术细节更值得盯。
一句话点评
苹果正式换帅,Tim Cook 2026年9月转任执行董事长,硬件负责人 John Ternus 接任 CEO。交接时间明确,但官方公告没提任何战略转向信号。
锐评
苹果这次 CEO 交接,时间点定在 2026 年 9 月 1 日,Cook 退而不休,转任执行董事长,接班的 Ternus 是硬件工程出身,管过 iPhone、Mac 等核心产品线。这个安排说明董事会想稳住硬件基本盘,而不是突然转向服务或 AI。 从公告看,苹果把这次交接包装得很平稳,强调 Cook 留下的公司“状态良好”。但公告没披露 Ternus 上任后的具体战略方向,也没提任何组织架构调整。这点先别太激动,平稳交接往往意味着短期不会有激进变化。 还缺什么:Ternus 对 AI、Vision Pro 等新业务的公开表态几乎没有,他能不能在硬件之外推动苹果下一个增长点,目前完全看不出来。另外,Cook 作为执行董事长会保留多大决策权,正文也没说清楚。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
21:01
55d ago
r/LocalLLaMA· rssEN21:01 · 04·20
MacBook Air M5 跑 21 个本地模型,测代码质量与速度
Reddit 用户发帖说在 MacBook Air M5 上测了 21 个本地大模型的代码质量和推理速度。正文被 Reddit 屏蔽(403),没披露模型名称、量化方式、上下文长度、每秒 token 数或评分方法。目前能确认的只有设备、模型数量和评测维度,复现条件不完整。
#Code#Benchmarking#Reddit#MacBook Air
精选理由
标题的钩子很具体——21个模型、MacBook Air M5、代码质量和速度,设备选型方向对本地LLM用户有吸引力。但正文完全不可访问,模型名单、量化、上下文、tokens/s、评分方法一概没有,信息缺口大到没法做任何有效判断。硬规则里缺源直接封顶,所以分数卡在38,tier excluded。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
20:58
55d ago
● P1Hacker News 首页· rssEN20:58 · 04·20
Tim Cook 卸任苹果CEO,John Ternus 接任
苹果官方确认,Tim Cook 不再担任 CEO,转任执行董事长。接任者是硬件工程高级副总裁 John Ternus,他也会进入董事会。原非执行董事长 Arthur Levinson 改任首席独立董事,同样从 9 月 1 日起生效。Cook 从 2011 年乔布斯去世前六周接手,把苹果带到 4 万亿美元市值。正文没披露 Cook 转任后的具体职责范围,...
#Apple#Tim Cook#John Ternus#Personnel
精选理由
这条先别太激动——目前能确认的只有人事变动的标题,正文没给出官方公告、生效时间和组织调整细节。我会先打个折:标题本身够重磅,苹果 CEO 交接十年难遇,对 AI 从业者来说,Ternus 的硬件背景会不会影响 Siri 和端侧模型优先级才是真正要盯的。但因为关键信息全是缺口,只能放在 featured 而不是 p1。
一句话点评
Tim Cook 卸任苹果 CEO,硬件工程负责人 John Ternus 接棒。消息来自 MacRumors 的爆料,苹果官方还没发正式公告,先当传闻看。
锐评
这条消息目前只有 MacRumors 一家在报,来源是 Hacker News 的转载,不是苹果官方通稿。John Ternus 是苹果硬件工程高级副总裁,管过 iPhone、Mac 等核心产品线,从履历看接任逻辑说得通,但正文没披露 Cook 卸任的具体原因,也没提交接时间表。Cook 在位 15 年,把苹果市值从三千多亿美元拉到三万亿,他退下来对供应链和投资者信心的短期冲击会很大。现在缺的是苹果董事会声明、Cook 本人表态,以及 Ternus 对产品路线图的初步说法——没有这些,只能算一条可信度待验证的人事传闻。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K0·R1
20:41
55d ago
● P1彭博科技· rssEN20:41 · 04·20
Amazon向Anthropic追加投资50亿美元
亚马逊对 Anthropic 追加 50 亿美元投资,协议还留了口子,未来可能再追加最多 200 亿。正文没披露估值、股权比例、打款节奏和云服务绑定条款,所以这笔钱到底换来了多少控制权、是不是锁死了 AWS 算力,目前还不清楚。
#Amazon#Anthropic#Funding#Partnership
精选理由
Bloomberg 同天报道亚马逊再投 Anthropic 50 亿美元,对模型圈和云生态有直接冲击。我会先打个折:正文只给了金额,没给估值和排他条款,这点先别太激动。真正要盯的是钱之外的条件——这决定了它更像一笔财务投资,还是更深层的模型与云绑定。
一句话点评
亚马逊又给Anthropic投了50亿美元,但Anthropic承诺未来十年在AWS上花掉1000亿,这钱转了一圈又回亚马逊口袋了。
锐评
这笔交易本质上是亚马逊用投资换云计算的长期订单。Anthropic拿了50亿美元现金,但承诺未来十年在AWS上花超过1000亿美元,用来训练和运行Claude。钱从亚马逊出去,又通过云服务费流回来,对亚马逊来说更像锁定一个大客户。 报道提到,Anthropic会用到亚马逊自研的Trainium芯片,从Trainium2一直排到还没发布的Trainium4。这说明Anthropic在算力上深度绑定亚马逊,不再只依赖英伟达。但正文没披露这1000亿的年度分摊节奏,也没说如果Anthropic中途想换云厂商要付多少违约金。 另外,TechCrunch提到风投给Anthropic开出了8000亿美元的估值,但Anthropic暂时没接。这点先别太激动,估值是风投单方面给的,不代表公司真实融资进展。还缺Anthropic自己的财务数据,比如收入、亏损和现金消耗速度,光看投资额看不出这笔钱能撑多久。
HKR 分解
hook knowledge resonance
打开信源
99
SCORE
H1·K1·R1
20:38
55d ago
● P1X · @AnthropicAI· x-apiEN20:38 · 04·20
Anthropic 与 Amazon 达成合作协议 获得 5 吉瓦计算资源
Anthropic 宣布加深与亚马逊的合作,为训练和部署 Claude 锁定了最高 5 吉瓦的算力。这批算力从这个季度开始陆续到位,到 2026 年底预计先上线近 1 吉瓦。5 吉瓦是个什么概念?大概相当于几个大型数据中心的满负荷运转,说明他们接下来要把模型规模或服务量再往上拉一个台阶。不过正文没披露合同金额、具体用什么芯片、数据中心建在哪,所以实际成...
#Inference-opt#Tools#Anthropic#Amazon
精选理由
标题里的 5 吉瓦别直接信,那是远期上限,真正有谱的是今年底先到 1 吉瓦。正文没提合同金额、用什么芯片、数据中心在哪,所以成本结构和实际性能都还是问号。我会先打个折看交付节奏,但能在这个时间点锁产能,对 Anthropic 的训练和部署确实是颗定心丸。
一句话点评
Anthropic 和 Amazon 签了个大单,但 FT 正文被付费墙挡了,具体条款看不到。
锐评
Anthropic 官方博客确认了和 Amazon 扩大合作,目标是拿到最多 5 吉瓦的计算资源来训练和部署 Claude。5 吉瓦什么概念?大概相当于几个大型核电站的发电量,说明他们接下来对算力的胃口非常大。 但 FT 标题里那个“1000 亿美元”的数字,Anthropic 自己的公告没提。HN 上的讨论提到 Amazon 先投了 50 亿,Anthropic 反过来承诺了 1000 亿的云消费——这个数字如果属实,更像是一份长期对赌协议,而不是一次性到账的投资。这点先别太激动,1000 亿是未来多年的总消费承诺,不是 Amazon 现在掏出来的现金。 目前缺的是:这 5 吉瓦具体什么时候到位、分几年交付、以及 Anthropic 拿什么条件换来的。这些细节都没披露。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
20:32
55d ago
● P1彭博科技· rssEN20:32 · 04·20
Google 发布新推理芯片产品,与 Nvidia 形成竞争
Bloomberg 这条视频提到 Google 准备推出一批专做推理的新 AI 芯片,正面挑战英伟达。不过正文被付费墙挡了,没披露具体发布时间、型号、性能参数、定价和客户。我会先打个折:目前能确认的信号是推理芯片的供给竞争在升温,但产品到底多能打、什么时候落地,都还是未知数。
#Inference-opt#Google#Nvidia#Cerebras
精选理由
HKR-H 和 HKR-R 通过,因为这条消息把 Google 和 Nvidia 在推理芯片上的直接竞争摆上了台面。HKR-K 弱:报道只确认了推理这个方向,芯片叫什么、跑分多少、卖多少钱、什么时候出、谁会买,这些关键信息正文都没披露,所以信息缺口很大。
一句话点评
Google 把自家第八代 AI 芯片拆成两款:一款专做训练,一款专做推理,性能和性价比数字挺好看,但别急着喊“干掉 Nvidia”,正文里 Google 自己还在云上卖 Nvidia 的卡。
锐评
Google 这次发布的 TPU 8t 和 8i,是把训练和推理分开做专用芯片。训练芯片叫 8t,推理芯片叫 8i,推理就是模型上线后回答用户问题那一步。官方给的数据是训练速度比上代快 3 倍,每块钱能买到的性能提升 80%,还能把超过 100 万颗 TPU 拼成一个集群来用。这些数字如果没注水,意味着跑大模型的时间和电费都能省不少。 不过这篇 TechCrunch 的报道没给第三方实测,所有性能数据都来自 Google 自己。而且文章后半段被截断了,我们看不到 Google 对 Nvidia 的具体态度和定价细节。已知的是 Google Cloud 同时还在卖 Nvidia 的 GPU,说明它短期内没打算跟 Nvidia 彻底翻脸,更像是给客户多一个选择。 对从业者来说,值得关注的是 Google 有没有公布这些新 TPU 的租用价格、软件生态兼容性怎么样,以及实际跑主流模型的吞吐量。这些信息目前都缺,所以“挑战 Nvidia”这个说法先打个折看。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K0·R1
20:30
55d ago
The Verge · AI· rssEN20:30 · 04·20
硅谷忘了普通人要什么
The Verge 发了一篇文化评论,说硅谷把大模型吹成了“书写级别的发现”,但普通人根本不在乎。文章只举了一个 ChatGPT 的例子,没有披露完整的论证、数据或批评对象,所以更像一篇观点随笔,不是调查报道。正文没披露具体哪些公司或产品被点名,也没给出用户调研数据来支撑“普通人不需要”这个判断。
#The Verge#ChatGPT#All-In Podcast#Commentary
精选理由
H和R过关:标题制造了尖锐冲突,主题也切中行业对用户需求错配的敏感神经。K不过关:摘要只展示了一个ChatGPT轶事,没有数据、样本或可验证的论断,所以这条只能给低带宽的all。
一句话点评
硅谷精英又陷入自嗨循环了。作者把NFT、元宇宙和AI放在一起骂,说这帮人做的产品根本不是给普通人用的,而是给投资人看的。观点不新但骂得挺准,适合当行业清醒剂。不过全文没给任何数据或用户调研支撑,纯属评论,别当事实看。
锐评
The Verge 用 1 段 ChatGPT 轶事批评硅谷夸大 LLM 体验,正文没给数据、对象名单,也没给更完整论证。就现有信息看,这不是一篇 AI 产业分析,更像一篇文化火力稿。我的态度是:它戳中了一个真问题,但现在证据太薄,打不到想打的那层结构。 我一直觉得,AI 圈过去两年最容易失真的一步,就是把“第一次被模型顺手接住意图”的体验,直接升级成“人类认知被重新发现”。这类话术你在播客、VC 场合、创始人访谈里听太多了。2023 年很多人把 ChatGPT 讲成搜索替代。2024 年又有人把 agent 讲成软件终局。到 2025 年,连“模型懂你自造词”都能被包装成语言哲学突破。这里有真实体验,也有明显的叙事通胀。The Verge 抓这个点,方向没错。 但我对这篇的力度有保留。标题说“硅谷忘了普通人要什么”,这个判断要成立,至少得回答两个问题:普通人具体要什么,谁在替他们发言。正文摘要里都没给。普通用户对 AI 的选择,其实没有评论区说得那么单一。很多人要的是省 10 分钟写邮件、做作业、改简历、查 Excel 公式,不是 AGI 神话,也不是反科技姿态。要批评硅谷自恋,我同意;要把整个需求面压成“normal people”一个桶,我不太买账。 还有个上下文,文章没提到,但做产品的人都知道:很多夸张表述不是从能力评测长出来的,是从分发竞争长出来的。ChatGPT 在 2023 年拿到破圈流量后,几乎所有 AI 产品都学会了一个动作:先卖震撼感,再补留存逻辑。Character.AI 讲陪伴,Perplexity 讲答案,Copilot 讲助手,Rabbit 这类硬件当年更是把 agent 讲到天上。问题不在“硅谷突然不懂普通人”,而在增长压力把每一代新交互都推向宗教化修辞。这个病,Web3、元宇宙时就犯过,现在只是换了 LLM 外壳。 我还有一点疑虑。摘要拿 All-In Podcast 当靶子,这个靶子其实不难打,因为它本来就偏表演型表达。可如果文章想说明的是更普遍的行业偏差,那最好要拉出更具体的样本:OpenAI、Anthropic、Meta、应用层创业公司,各自怎么描述用户价值,哪里偏了,偏了多少。现在只有一段“朋友惊叹 ChatGPT 理解自造词”的故事,更多像吐槽,不够构成稳的行业判断。 所以这条我会当成一篇情绪准确、证据不足的文化评论来看。它提醒从业者别把自己的新鲜感误认成大众需求,这点没问题。可要把它升级成对 AI 产品路线的批判,材料还远远不够。标题已经给出立场,正文未披露样本、数据和反例处理,我不会替作者补完。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R1
20:19
55d ago
Hacker News 首页· rssEN20:19 · 04·20
AI 反抗在蔓延:用户开始主动投毒喂给爬虫
一篇博客指出,越来越多的人正在主动破坏 AI 公司的数据采集。Reddit 上有个叫 r/PoisonFountain 的社区,目标是每天向爬虫投喂 1TB 的垃圾数据(比如看似正确但实际有细微错误的代码),让 AI 公司清洗成本变高。还有人故意在社交媒体上编造离谱信息(比如“Idris Elba 演过《人人都爱雷蒙德》里的妈妈”),专门骗爬虫抓取,逼...
#Commentary
精选理由
H和R能过,因为标题制造了从业者关心的冲突话题。K卡死:正文只暴露了标题、链接和HN热度(132分/77条评论),没披露任何具体案例、地区或数据,按硬排除规则6,分数上限被压在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
20:02
55d ago
r/LocalLLaMA· rssEN20:02 · 04·20
为什么开源工具都不把 llama.cpp 当一等公民?
Reddit 上有人吐槽:很多开源 AI 工具优先支持 Ollama 和 LM Studio,却把 llama.cpp 晾在一边。发帖人认为,只要工具能接 OpenAI 兼容的 API 端口或 URL,适配 llama.cpp 几乎零成本。正文没列出具体哪些工具不支持,也没给采用率数据。核心矛盾不是模型质量,而是集成优先级——开发者更愿意先做 Olla...
#Tools#Inference-opt#Ollama#LM Studio
精选理由
HKR-H 和 HKR-R 成立,因为抱怨本身对本地 LLM 开发者有共鸣。HKR-K 不成立:帖子没给出具体工具名单、采纳数据、维护者成本或一手测试,属于硬排除级零来源,因此分数上限卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
19:51
55d ago
Hacker News 首页· rssEN19:51 · 04·20
在 1982 年的电脑上跑 Transformer:25k 参数,1MHz 主频
一个叫 soulplayer-c64 的项目声称在 Commodore 64(1MHz 主频、64KB 内存)上跑了一个 25k 参数的 Transformer 模型。参数极少(25k,不到 GPT-2 的千分之一),硬件极老(1982 年家用电脑),听起来很酷。但正文只给了 GitHub 仓库页面,没披露模型架构、量化方式、推理速度、训练数据或具体任...
#gizmo64k#GitHub#Commodore 64#Open source
精选理由
HKR-H 靠复古硬件反差通过。HKR-K 和 HKR-R 都不过,因为仓库页几乎没暴露任何可评估的细节——架构、量化、速度、任务全无,所以这只是一个 neat 的开源趣闻,不值得上头条。
一句话点评
有人在Commodore 64上跑了个25k参数的Transformer,1MHz主频,35KB内存。模型极小,但能跑在1982年的古董机上,纯属硬核炫技。短评:极客玩具,别当真用。
锐评
gizmo64k 现在只公开了仓库标题,核心主张是 1MHz 的 Commodore 64 跑起了 2.5 万参数 Transformer。我的判断很直接:这条有趣,但信息量还远不够支撑大家在社媒上那种“LLM 回到边缘端”的兴奋。标题证明了作者想做什么,正文没证明它具体做成了什么。 缺口非常大。模型结构没披露,量化方式没披露,推理速度没披露,训练数据没披露,任务定义也没披露。25k 参数听着很小,但小不等于容易落地。C64 典型只有 64KB 内存,CPU 是大约 1MHz 的 6510。光是把权重塞进去,就要看是 8-bit、4-bit,还是更激进的二值化;attention 是全做,还是做了窗口、查表、低秩近似;KV cache 放哪,正文都没说。没有这些,标题里的“real transformer”更像架构标签,不像可复现结论。 我会把它放进一条熟悉的脉络里看:这两年大家一直在做“把现代模型塞进古董硬件”的实验,从微控制器上的 tinyML,到浏览器里的小型 Transformer,再到手机 NPU 上的 1B 级量化模型。它们有一个共同点:演示价值常常高于实用价值。去年我见过几次类似项目,能跑 token,不代表能在可接受延迟下完成任务;能完成任务,也不代表保住了 Transformer 关键机制。这个项目现在就卡在这里:它证明了“可以尝试”,还没证明“值得采用”。 我对叙事还有一点保留。黑客项目很喜欢用“真的在某某老机器上跑起来了”制造冲击力,但工程上最难的部分常常被折叠掉了:是不是离线预编译了常量,是否把算子特化到固定序列长度,是否把大部分工作搬到训练期,运行时只剩一个很窄的推理路径。这样做完全合理,我自己也不反对,但这会改变结论的含义。它更接近“为一台机器手工雕出来的最小 Transformer 演示”,不是“经典架构自然缩放到 1MHz 平台”。 说真的,这条我会继续看 repo 更新。能决定它分量的不是标题,而是四个可复现细节:每 token 延迟是多少,权重占了多少字节,激活和缓存怎么放,实际任务是什么。如果后面给出代码、权重格式和 demo 输出,我会把它当成很漂亮的 systems 作品;在那之前,它还不是 AI 能力新闻,更像计算美学新闻。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R0
19:37
55d ago
TechCrunch AI· rssEN19:37 · 04·20
AI 写东西有个标志性句式:“不只是……更是……”——Barron's 说这招已经泛滥到几乎能当检测器用了
Barron's 发现一个有趣的 AI 写作指纹:句式“不只是 X,更是 Y”在 2023 年只出现约 50 次,到 2025 年已超过 200 次,翻了四倍多。这个数据来自市场情报公司 AlphaSense 的企业新闻稿、财报和政府文件库。文章认为这个句式现在几乎成了 AI 生成文本的保证书,而不仅仅是一个线索。不过正文没披露样本总量、检测准确率或覆...
#Barron's#Commentary
精选理由
标题有钩子,但正文只抛了一个风格判断,没有样本、方法、准确率或可复现的例子,属于零来源评论,触发硬排除规则6。H和R通过,K不通过。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
18:55
55d ago
Hacker News 首页· rssEN18:55 · 04·20
Anduril、Palantir 和 SpaceX 正在改变美国打仗的方式
这篇《经济学人》文章标题说这三家科技公司正在改变美国打仗的方式,但正文只给了标题和 RSS 条目,没有披露具体产品、合同金额、部署规模或时间线。关键问题是每家公司改变了国防体系的哪个环节——Anduril 做自主武器和无人机,Palantir 做战场数据分析平台,SpaceX 提供卫星通信(星链)。不过正文没展开讲,信息缺口很大。
#Anduril#Palantir#SpaceX#Commentary
精选理由
HKR-H靠'三家公司联手改变美军作战'这个标题钩子过关。HKR-K和HKR-R都挂了,因为RSS只确认了公司名和一句论点,没有产品、合同、部署或时间细节,硬性排除-零来源规则把它压在40分以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
18:39
55d ago
Hacker News 首页· rssEN18:39 · 04·20
Kimi 开源了一个验证推理供应商准确性的工具
Kimi 发布了一个叫 Vendor Verifier 的开源工具,用来检查第三方推理服务跑自家模型时有没有“偷工减料”。起因是 K2 Thinking 发布后,社区反馈跑分异常,Kimi 排查发现很多问题出在推理参数没按要求设(比如 Temperature 强制 1.0、TopP 0.95),甚至有些供应商的 API 实现有 bug。工具选了 6 个...
#Inference-opt#Benchmarking#Tools#Kimi
精选理由
H 和 R 通过:校验推理服务商准确性是个新奇的钩子,也是真实的信任痛点。K 不通过:正文只披露了工具名,方法、误差定义、支持的服务商、复现条件全都没给,所以分数在 60 多分,tier 设为 all。
一句话点评
月之暗面开源了Kimi Vendor Verifier(KVV),一套用来验证第三方推理服务是否跑对了K2.6模型的测试工具。核心动机是:模型开源后,不同厂商的部署实现参差不齐,用户分不清是模型本身不行还是部署方没配好。KVV选了6个基准测试,覆盖参数强制、多模态、长输出、工具调用等场景,跑一轮约15小时(2台H20*8卡)。亮点是公开了官方API的分数作为对照,还要求先过Pre-fligh...
锐评
Kimi 只公布了一个工具名和一篇链接,正文未披露校验机制、支持哪些 provider、误差定义与接入方式。我的判断很直接:这条先别当产品力,看成一次叙事卡位更合适。现在各家都在讲“同权重跨推理服务商可替换”,但做过线上推理的人都知道,准确性从来不是一个单点数字,它至少受采样参数、系统提示、量化方式、KV cache 策略、工具调用超时这几层影响。你不先把条件钉死,所谓 verifier 很容易退化成一次性对拍脚本。 我想到的参照物有两个。一个是前几年很多团队做 LLM eval harness,最后都卡在“同一模型名不等于同一行为”这件事上;另一个是 Inference.net、Together、Fireworks、Groq 这类推理平台过去一年反复强调吞吐、延迟、单价,公开把“输出一致性”讲清楚的其实不多。原因不复杂:同样是兼容 OpenAI API,后端调度、连续批处理、量化配置一换,长链 agent 任务的结果就会漂。这个问题在代码生成和 tool use 场景更严重,单轮 benchmark 漂亮,线上成功率还是会掉。 所以我对这条的 pushback 也在这:Kimi 如果真想把 verifier 做成有说服力的工具,至少要公开三件事。第一,误差怎么定义,是 exact match、语义相似、函数调用成功率,还是长任务完成率。第二,复现条件怎么锁,temperature、top-p、seed、max tokens、system prompt 是否全量固定。第三,比较对象是不是同一基础模型的不同 provider,还是不同蒸馏版、量化版混在一起。标题给了“verify accuracy”,正文没给这三层,信息量还不够支撑判断。 我还没查到它是不是偏内部采购工具,还是会对外开放。如果只是 Kimi 自己拿来筛供应商,这很合理,Moonshot 这种规模做多云和多推理后端,本来就需要质量回归工具。如果它想进一步变成行业标准,那门槛高很多,因为行业现在缺的不是又一个 scoreboard,缺的是一套大家愿意接受的误差口径。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
18:24
55d ago
Hacker News 首页· rssEN18:24 · 04·20
GitHub Copilot 个人版套餐调整
GitHub 发了一篇博客说 Copilot 个人版套餐要改,但正文只抓到了页面框架和标题,没披露具体价格、额度、生效日期或升降级规则。目前能确认的只有“有调整”这件事,具体怎么调、对现有用户有什么影响,正文里都没写。
#Code#Tools#GitHub#GitHub Copilot
精选理由
HKR 排除:GitHub 发了 Copilot 个人套餐调整公告,但正文只有页面框架,价格、配额、生效时间、迁移规则一概没披露。没有强钩子,没有可用的新事实,信息太少不足以引发从业者讨论。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
18:18
55d ago
彭博科技· rssEN18:18 · 04·20
IPO市场回暖,Anthropic、OpenAI、SpaceX等大公司排队上市
Rainmaker Securities的Greg Martin在Bloomberg Tech上说,IPO市场开始有动静了,因为投资者都在盯着Anthropic、OpenAI和SpaceX这些大公司的上市计划。不过正文没披露回暖的具体幅度、时间点或估值数字,这更像是一个市场情绪和时机的判断,不是正式的上市公告。
#Rainmaker Securities#Anthropic#OpenAI#Commentary
精选理由
Bloomberg这条确实有个市场角度的钩子——IPO窗口可能在Anthropic和OpenAI上市前重新打开,所以H和R都成立。但K不成立,因为正文没给任何回温指标、估值范围或上市时间表,信息缺口太大,只能留在all层。
一句话点评
彭博报道称IPO市场在大规模上市前回暖,但正文被反爬墙拦截,实际内容为零。无法确认回暖的具体数据、行业分布或时间节点。这条消息目前只有标题有价值,具体判断需等能访问原文再说。
锐评
Bloomberg 这段视频点名 3 家公司带动 IPO 预期,但正文没给回温幅度、时间区间、估值口径。我的判断很直接:这条信息含量不在“谁要上市”,而在一级和二级市场已经开始拿 Anthropic、OpenAI、SpaceX 当流动性故事用了。 说真的,这种讨论本身就能推高情绪。Rainmaker Securities 做的是私募二级和流动性撮合,Greg Martin 站在这个位置谈“市场回温”,天然会放大窗口叙事。问题是,文章里没有成交数据,没有 IPO 定价区间,没有近 30 天新股表现,也没有说回温发生在 AI、国防科技,还是更广的成长股。标题给了方向,正文没给证据。没有这些数字,我不会把它读成“上市窗口已经打开”,只能读成“有人在提前为退出预热”。 外部背景其实很清楚。2024 到 2025 年,美国 IPO 市场确实反复试探过重启,但能稳定成交的,大多还是盈利路径更清晰、口径更传统的公司。AI 里估值最高的几家,反而最难上。原因不复杂:一级市场愿意按算力储备、收入年化、战略位置给高倍数;公开市场要看毛利结构、客户集中度、资本开支、以及股票解禁后的供给压力。Anthropic 和 OpenAI 这类公司,如果真往 IPO 走,招股书里最刺眼的未必是增长,而是推理成本、云依赖、以及和 Amazon、Microsoft 这类大股东兼渠道方的关系。我记得过去一年市场对“AI 高增长能否穿透到自由现金流”一直很敏感,这个问题到 2026 年也没消失。 我对把 OpenAI 和 Anthropic 放进“mega listings”篮子里还有个保留。它们当然足够大,也足够热,但“大”不等于“适合现在上市”。OpenAI 现在的治理结构、利润分配安排、以及和 Microsoft 的商业绑定,公开市场能不能顺利消化,文章一句没提。Anthropic 也类似,Amazon 持股、云合作、模型收入质量,这些都决定 IPO 叙事能不能站住。SpaceX 反而是另一个逻辑:它的品牌号召力最强,但 Musk 一向不喜欢把核心资产轻易放进公开市场约束里。把这三家并列讨论,很抓眼球;拿来判断实际挂牌概率,我觉得有点过。 还有一层别忽略:当市场开始反复讨论“谁会是下一家 mega IPO”,很多时候说明一级流动性已经紧了,老股东在找退出锚。这个信号不一定差,甚至常常是窗口要开的前兆;但它首先服务的是估值锚定,不是上市确认。你可以把它看成 sell-side 和 private markets 先把故事讲起来,等利率、二级科技股估值、以及最近几单 IPO 的破发率配合上,再决定谁真去敲钟。 所以这条我不会顺着标题走。它没有告诉我们 Anthropic、OpenAI、SpaceX 谁准备递表,也没有告诉我们 IPO 市场已经恢复到什么程度。它只告诉我们,市场很想要一个足够大的 AI 流动性事件。我自己的 pushback 是:想要,不等于能上;能上,也不等于上完还能撑住那个私募估值。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K0·R1
18:13
55d ago
r/LocalLLaMA· rssEN18:13 · 04·20
Qwen3.6与Gemma4本地推理性能对比讨论
Reddit 用户用 16GB 显存的显卡跑两个 MoE 模型,Qwen3.6 35B-A3B 表现比 Gemma 4 26B-A4B-it 好,速度差不多。配置是 Windows + LM Studio,模型用了量化版(Q4_K_S 和 IQ4_XS)。但帖子没给任何跑分、任务列表或 token 吞吐量,结论纯属个人感受,不是严谨评测。
#Inference-opt#Benchmarking#LM Studio#Unsloth
精选理由
HKR-H 和 HKR-R 成立:Qwen 对 Gemma 的 16GB 显存对决,话题性和实用性都够,值得讨论。HKR-K 不成立:帖子虽然给了量化版本和运行设置,但没披露任何基准任务、分数或 token 速度,结论只是个人体验,不是系统评测,所以只能放 low-band all,不值得上 featured。
一句话点评
Reddit 用户对比了 Qwen3.6 35b-a3b 和 Gemma4 26b-a4b-it 的本地推理性能,但正文被屏蔽,实际内容不可见。从标题看是个人主观对比,非官方评测,样本量小(仅 2 条讨论),结论需谨慎参考。缺具体测试任务、硬件配置和量化方式。
锐评
Reddit 用户用 16GB 显存显卡(Windows + LM Studio)跑两个 MoE 模型:Qwen3.6 35B-A3B(IQ4_XS 量化)和 Gemma 4 26B-A4B-it(Q4_K_S 量化),结论是 Qwen 表现更好,速度差不多。但帖子没给任何跑分、任务列表或 token 吞吐量,结论纯属个人感受,不是严谨评测。关键信息缺失:没说明具体测试了哪些任务(比如代码、推理、对话),也没披露生成速度(t/s)和显存占用。量化版本和设置虽然写明了,但不同量化精度对模型能力影响很大,IQ4_XS 和 Q4_K_S 的压缩比不同,直接比“表现”不公平。如果真想在 16GB 卡上选 MoE 模型,建议等有人跑标准 benchmark(如 MMLU、GSM8K)或至少给出同任务下的输出对比。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
17:17
55d ago
FT · 科技· rssEN17:17 · 04·20
美国“有线带”要造反:AI 抢的不是蓝领,是郊区白领的饭碗
FT 评论文章提出一个观点:美国下一波反 AI 浪潮不会来自锈带工人,而是来自郊区知识工作者——作者称之为“有线带”。正文只有一句话,说这股愤怒跟当年帮特朗普上台的情绪类似。文章没披露具体哪些行业会先被冲击、地理范围多大,也没提哪些 AI 政策是导火索。信息缺口明显,但论点本身值得留意:如果白领也开始觉得 AI 在抢自己饭碗,政治压力会比蓝领失业更大。
#Financial Times#Trump#Commentary#Policy
精选理由
标题的“wired belt”是个好钩子,但正文只有一句摘要,把这种情绪类比成当年推 Trump 上台的愤怒,没给任何数据、行业案例或政策机制。H 和 R 都成立,但 K 完全不过关——没有可验证的信息,触发硬排除规则(零来源),所以重要性压到 36 分,直接排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
16:37
55d ago
Hacker News 首页· rssEN16:37 · 04·20
量子计算机对128位对称密钥不是威胁
这篇文章的核心观点是:量子计算机不会威胁AES-128、SHA-256这类对称加密算法,密钥长度不需要因为量子计算而加长。很多人误以为量子计算会让对称密钥的安全性“减半”,所以需要256位密钥才能达到128位的安全级别——这是对Grover算法的误解。Grover算法虽然理论上能把暴力破解AES-128的复杂度降到2^64次操作,但实际中这个攻击必须串...
#Commentary
精选理由
标题抛了个反常识判断——量子计算机不威胁128位对称密钥,但正文没给论证路径、算法前提或纠错条件,信息缺口太大。HKR-H靠反常识标题勉强过线,但K和R都不过:K缺关键数据验证,R直接跑题到密码学领域。硬排除规则(技术可及性/离题)把分数压在40以下,最终34分合理。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
16:27
55d ago
r/LocalLLaMA· rssEN16:27 · 04·20
7900XTX 本地跑 Qwen 3.6,全自动搓了个安卓 App
Reddit 用户 Acu17y 说,只用一张 AMD 7900XTX 显卡本地跑 Qwen 3.6,模型就全自动写出了一个安卓应用,全程没联网。听起来很酷,但帖子正文被屏蔽了,看不到具体用了多大模型、什么工具链、显存占用多少、跑得快不快、成功率如何。所以这点先别太激动——本地全自动做 App 确实有潜力,但缺关键细节,比如是不是只跑通了一次 Hell...
#Agent#Code#Tools#Qwen
精选理由
HKR-H 和 HKR-R 通过:单卡本地自主编码演示确实有钩子,也切中了自建模型和成本控制的痛点。HKR-K 不通过:正文缺失模型规格、工具链、显存、速度和成功率等关键信息,只能算个人项目展示,不够格作为可引用的证据。
一句话点评
一位用户声称在单张 AMD 7900 XTX 显卡上跑通了 Qwen 3.6 的自主运行,但正文被 Reddit 屏蔽,实际内容为零。目前无法验证任何细节:模型大小、推理速度、是否真的“自主”(可能只是简单循环调用)。如果属实,说明消费级显卡跑本地智能体已有可行性,但成本、延迟、稳定性全未披露。建议等原帖恢复或看其他用户复现再下判断。
锐评
7900XTX 用 24GB 显存跑本地 Qwen 3.6 代理演示,这个事实成立;“自主做 Android 应用”这句,正文没给成功率。我的判断很直接:这条先别当成“单卡 AMD 已经把本地软件工程代理跑通了”,先当成一段能跑起来的个人编排演示。标题最容易让人误会的地方,就是把“自动化流程存在”偷换成“代理能力稳定可复现”。两者差得很远。 我一直觉得,本地 agent 圈子这半年最容易被视频误导。屏幕上连续调工具、写代码、开终端,看着像 autonomous;实际决定含金量的,是 4 个没披露的量:模型到底是多大,量化到什么位宽;上下文多长;每步调用了哪些外部工具;一轮任务跑完花了多少 token、多少分钟、多少次人工救火。这里一个都没有。连“qwen 3.6”具体是哪一档也没说。正文只有“全部本地、自动化、个人项目”。这离 benchmark 还很远。 回到硬件这块,7900XTX 本身并不离谱。它有 24GB VRAM,跑中等尺寸的代码模型量化版,配合 llama.cpp、vLLM 的 ROCm 路线,或者 SGLang/MLC 一类推理栈,我自己完全信能把 agent loop 跑起来。过去一年,LocalLLaMA 社区已经反复证明:单张消费卡能做工具调用、代码补全、网页操作,问题从来不是“能不能动”,而是“多久崩一次”。如果是 7B 到 14B 量级的 Qwen coder 系,4-bit 量化再加工具链,单卡很合理;如果是更大的混合专家模型,正文就该把分层卸载、KV cache、tokens/s 说清楚。现在都没有。 我对“autonomous”这个词有点警觉。很多 demo 的做法,是把任务拆成很窄的脚手架:固定仓库模板、固定 Android 构建链、固定 prompt、固定可调用命令,再让模型在这个笼子里选动作。这样当然有工程价值,我不否认;AutoGen、OpenHands、Aider 联工具,去年就有人这么玩。但它更像 workflow automation 加一点模型决策,不是大家脑补的通用软件工程代理。说实话,我不太买“看视频就等于能力突破”这套叙事。 还有个上下文,标题故意没说:AMD 本地推理这半年确实比 2024 年顺了不少。ROCm 兼容性、Windows 下的折腾程度、社区模型支持,都比一年前好。我没法从这条帖子证明 7900XTX 已经成了 agent 首选卡,但它至少说明一件事:消费级 AMD 卡在本地 agent 场景里,已经从“能跑算你厉害”走到“有人拿来做完整项目演示”。这对 Nvidia 不是威胁级新闻,对本地开发者倒是实际利好,尤其是显存/价格比这件事。 但判断能不能抬级别,还是看复现信息。标题已经给出“单张 7900XTX、本地、自动化 Android app”;正文没披露模型参数、量化方式、推理框架、tokens/s、任务完成率、失败样本。我还没查到原帖评论里有没有补这些。没这些,这条最多说明本地 agent demo 的门槛在下降,说明不了“单卡本地开发代理已经成熟”。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
15:36
55d ago
● P1Hacker News 首页· rssEN15:36 · 04·20
Kimi K2.6 发布,推进开源代码能力
Kimi 在 X 上宣布了 K2.6,定位是开源编程模型。但这条推文只提了名字和定位,没放权重、没给许可证、没贴跑分、也没说什么时候能拿到。所以目前只能当个预告看——到底开源到什么程度,正文没披露。
#Code#Kimi#Moonshot AI#Open source
精选理由
这看起来是月之暗面真实的新模型信号,但信息量太少。HKR-R 靠中国开源代码这个竞争角度过关;HKR-H/K 不通过,因为正文没给参数、许可、基准或上线细节,所以留在 all 层级,不上推荐位。
一句话点评
Kimi 发了新开源模型 K2.6,主攻长链条编程和让多个 AI 智能体协同干活,跑分和实测案例都挺猛,但技术细节和模型参数一概没提。
锐评
Kimi K2.6 这次把重点放在了“长链条编程”上,也就是让模型自己连续干十几个小时的工程活,中间不断调用工具、改代码、看性能图,最后把活干完。博客里举了两个例子:一个是用小众语言 Zig 在 Mac 上部署并优化另一个模型,吞吐量从每秒 15 个 token 拉到 193,比 LM Studio 还快 20%;另一个是重构一个 8 年老的开源金融交易引擎,把中等吞吐量提升了 185%。这些数字说明模型在长时间、多步骤任务里的稳定性和工具调用能力确实有提升,CodeBuddy 的测试也提到工具调用成功率到了 96.6%。 不过这篇博客更像产品发布,不是技术报告。模型多大、训练数据、架构改动、推理成本这些关键信息正文完全没披露。引用的跑分表里只有模型名字没有具体分数,内部基准 Kimi Code Bench 也没有公开细节,所以“最强开源代码模型”这个结论外人没法复现验证。另外,企业好评都来自合作测试方,样本量和测试条件未知,参考价值要打折。 想认真评估的话,还得等模型权重放出来之后看社区实测,尤其是长链条任务的翻车率和 API 调用成本。
HKR 分解
hook knowledge resonance
打开信源
93
SCORE
H0·K0·R1
15:35
55d ago
FT · 科技· rssEN15:35 · 04·20
Fermi股价暴跌:高管集体出走,数据中心概念股风险暴露
Fermi股价暴跌,原因是多名高管同时辞职。这家公司之前已经丢了一笔亚马逊1.5亿美元的投资。正文没披露具体跌幅、离职高管姓名、时间点以及后续融资计划。真正的信号是公司治理风险,而不是数据中心行业本身的问题。
#Fermi#Amazon#Trump#Personnel
精选理由
HKR-H 靠的是双重打击的钩子:股价暴跌加高管出走。HKR-K 来自一条硬事实——Amazon 撤回了1.5亿美元投资。但跌幅、高管姓名、离职时间和融资背景都缺失,限制了共鸣,所以留在 all 而非 featured。
一句话点评
数据中心初创公司 Fermi 高管集体离职,股价暴跌。正文被 FT 付费墙挡住,没披露具体离职人数、原因以及股价跌幅。对 AI 基础设施赛道来说,这类公司靠融资讲故事撑估值,高管跑路是危险信号,但缺细节没法判断是经营问题还是个人原因。
锐评
Fermi 已失去 Amazon 的 1.5 亿美元投资,又出现多名高管离职。只看标题和摘要,我对这家公司最大的判断不是“倒霉”,而是董事会、融资、项目执行三条线很可能同时出了问题。数据中心项目最怕的不是舆论,而是资本结构一旦松动,建设节奏会按季度失真,供应商信用也会一起掉。 这里麻烦在于,正文没有披露四个关键点:股价到底跌了多少,离职的是 CEO 级还是建设、融资、运营负责人,Amazon 撤资发生在何时,现有现金还能撑多久。少这四项,外部几乎没法判断它是短期人事震荡,还是项目已经进入再融资失败区间。标题只给了“高管离职 + 亚马逊 1.5 亿美元不投了”,这已经够说明市场不再把它当一张普通的算力概念票。 我一直觉得,AI 数据中心创业这条线过去一年有点被讲得太轻松了。电力接入、土地、变压器、EPC、GPU 采购、长期租约,任何一环掉链子,估值都能从“算力平台”瞬间打回“重资产开发商”。拿同行做参照,CoreWeave 之所以还能不断融资,不是因为故事更新,而是因为它能持续拿出客户合同、GPU 资产和债务安排去撑住信用。我没查到 Fermi 这边有没有同等级的合同覆盖,也没看到摘要提 capex 承诺、PPA、租约或已签客户,这就让我对“hopeful”这个标签有点怀疑:市场给它的,未必是成长股定价,已经开始像在给违约风险定价了。 还有一点我不太买账:很多人看到“前特朗普能源部长联合创办”会先联想到政策资源和能源落地能力,但高管集体离场这件事,恰好说明政治背书替代不了公司治理。数据中心不是拍地项目,后面是多年期建设和持续融资。只要管理层不稳,Amazon 这种级别的投资人撤掉 1.5 亿美元,外部债权人和供应商一定会重新算账。现在能下的结论只有一个:这不是情绪波动新闻,而是信用链条开始断裂的信号。更多判断要等正文披露离职名单、时间线和现金安排。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R0
15:30
55d ago
TechCrunch AI· rssEN15:30 · 04·20
AI核电公司Fermi CEO和CFO突然离职,股价跌22%
Fermi的CEO和CFO在同一天离职,股价当天跌了22%。公司把这包装成“Fermi 2.0”战略升级,但正文没披露离职的具体原因、继任者是谁,也没说时间线。这家公司由前美国能源部长Rick Perry联合创立,正在德州建一个用核反应堆给数据中心供电的AI园区(Project Matador),最近跟大客户闹了矛盾。CEO虽然退出董事会主席位置,但还...
#Fermi#Rick Perry#Personnel#Incident
精选理由
H和R过关:AI核电初创的CEO+CFO双双离职,标题明确是突然变动,钩子强,且电力是AI瓶颈,这事能戳中行业痛点。K不过关:正文没披露离职原因、继任安排、得州项目阻力的具体细节,所以只能算个60多分的人事事件。
一句话点评
Fermi 的 CEO 和 CFO 同时离职,股价跌了 22%。这家公司想用核电站给 AI 数据中心供电,但核心项目 Project Matador 跟大客户闹了矛盾。公司管这叫“Fermi 2.0”,但高管跑路、客户摩擦,更像是在灭火。正文没披露离职具体原因,也没说新 CEO 是谁,这点先别太激动。
锐评
Fermi 这条先看组织风险,不先看核电叙事。CEO 和 CFO 两个岗位同时离开,且标题给了“suddenly”,这在重资产项目里通常不是小波动。正文只披露两件事:Rick Perry 参与创立;得州 AI 园区项目遇到阻力。离职日期、继任安排、阻力类型,正文未披露。 我对“AI+核电园区”这类公司一直偏谨慎。原因很简单:它同时卡在三条长周期链路里。电力接入要批,核项目要批,数据中心客户签约也要批。少一条都跑不起来。过去一年大家把“AI 缺电”讲得很猛,Oklo、Nuclear startup x hyperscaler 这套故事也被一级市场反复追捧,但真正往前推时,输电、并网、许可、融资顺序,经常比模型需求本身更硬。我没看到 Fermi 这篇里有任何一项被讲清。 CFO 一起走,让问题更像融资或项目财务约束,不只是 CEO 个人变动。说真的,早期公司换 CEO 不稀奇,连 CFO 一起掉,味道就变了。尤其是这种要吃长期资本、政府关系和工程执行的公司,CFO 往往不是后台角色,而是项目能不能继续讲下去的人。对照过去一年几家能源算力项目,公开宣布合作很容易,走到土地、电力承诺和资本开支落地就开始分化。CoreWeave 至少还能拿 GPU 租赁合同去融资;核电园区没有投运前,故事要靠更重的信任支撑。 我还有个疑虑:标题说“突然”,正文却只有一句“项目遇阻”。这中间最关键的信息缺口,恰好是市场最该知道的部分。阻力是监管、社区、土地、电网、融资,还是客户退场?这些不是细节,是定性。如果只是地方审批拖延,那是慢;如果是资本结构或承购方出了问题,那就是另一回事。现在材料太薄,我不愿意替公司补叙事。现阶段我只会把这条记成一个负面信号:AI 基础设施开始往电力上游卷时,管理层稳定性本身就是资产负债表的一部分。Fermi 这块,标题已经亮红灯了。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
15:22
55d ago
Hacker News 首页· rssEN15:22 · 04·20
用 Nginx 日志看 AI 到底有没有真的抓你的站
作者用 Nginx 日志抓了 ChatGPT、Claude、Perplexity 和 Gemini 四个 AI 助手访问自己网站的真实请求。ChatGPT 和 Claude 都会主动抓取页面,ChatGPT 还会从多个 IP 同时发请求,Claude 每次抓页面前先看 robots.txt。Perplexity 有时直接抓,有时用自己的索引回答。Gem...
#OpenAI#Anthropic#Perplexity#Commentary
精选理由
标题抛出一个可操作的归因测试——给四个AI发提示,然后查Nginx日志看谁真的来抓了。这个思路对做内容的人有吸引力,H和R都成立。但RSS只给了标题和HN元数据,正文没披露请求次数、来源IP、User-Agent、抓取延迟,也没设对照组,K不通过。所以整体信息带宽低,保持原评分不变。
一句话点评
有人用 Nginx 日志实测了 ChatGPT、Claude、Perplexity 和 Gemini 是否会实时抓取页面。结果:ChatGPT 和 Claude 会,Perplexity 有时会,Gemini 完全没抓(靠索引回答)。关键发现:ChatGPT 抓取时用多个 IP 爆发,单 IP 限流会漏数;Claude 每次先查 robots.txt;Perplexity 可能不抓直接答。G...
锐评
标题给出的事实只有一条:作者向 ChatGPT、Claude、Perplexity、Gemini 发了提示,并去看 Nginx 日志。正文没披露请求次数、来源 IP、User-Agent、Referer、抓取延迟、缓存命中,也没说有没有对照组。只靠这点信息,结论上限很低,最多只能说“作者看到了某些访问变化”,还不能说这些变化由 4 家产品直接触发。 我对这类实验一直有点警觉,因为 AI 带来的站点访问分成两类:一类是模型或浏览工具自己抓页,一类是回答页把人类用户导回原站。两类在日志里的形态差很多。前者常常像 bot 流量,可能没有稳定 referer,还会被 CDN、预取、重试、共享出口 IP 搅乱。后者更接近普通推荐流量,但又会被聊天产品的内嵌浏览、跳转参数、iOS/Android WebView 抹掉线索。标题把 “AI traffic” 和 “referral traffic” 摆在一起,我反而觉得这里最容易混淆。没有方法细节,这个比较站不住。 回到行业背景,过去一年不少人都在追“LLM 到底给网站送不送流量”。OpenAI 的 ChatGPT Search、Perplexity 的答案页、Google AI Overviews 和 Gemini 相关入口,都会在不同场景里抓取网页或显示链接;Cloudflare 之前也一直在推 bot 可见性和 AI crawler 管理,就是因为站长侧根本分不清“被抓取”“被引用”“被点击回流”各占多少。我没查到这篇文有没有做 UA 白名单、ASN 归因、时间窗对齐、未提示页面做基线。如果这些都没做,那它更像一次有趣的日志观察,不是可复现实验。 我还想补一句 pushback:很多人会把“我问了模型,然后站点来了请求”直接讲成“模型会主动访问原站”。这个说法经常过头。Perplexity 和某些带 browsing 的产品,确实更可能触发即时抓取;纯回答链路也可能走索引、缓存、第三方摘要,不碰你的源站。ChatGPT、Claude、Gemini 各自什么时候实时取页,取多少页,正文目前都没披露。没有这些条件,谁更爱抓、谁更会导流,根本排不出名次。 所以这条我会先当成方法论提醒,不当成平台比较。要把它做实,至少得给出 4 组东西:提示词全文、每家产品的交互模式、日志样本和时间戳、一个未被提示的对照页面。少一组,讨论都会滑向叙事,不是证据。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
15:18
55d ago
r/LocalLLaMA· rssEN15:18 · 04·20
Kimi K2.6 在 Hugging Face 上发布了
Reddit 帖子说 Kimi K2.6 上线了 Hugging Face,但正文被 Reddit 屏蔽,只看到 403 页面。目前没有参数、上下文长度、许可证或跑分数据。建议直接盯 Hugging Face 仓库和模型卡,别信这个转帖。
#Kimi#Hugging Face#Reddit#Product update
精选理由
硬排除——零来源。正文是 Reddit 403 页,唯一能信的就是标题说 Kimi K2.6 上了 Hugging Face。HKR-H 勉强过关,但 HKR-K 和 HKR-R 都挂,因为参数、许可、上下文窗口、基准证据全缺。真正该盯的是 Hugging Face 仓库页和模型卡,不是这条二手转帖。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
15:05
55d ago
● P1r/LocalLLaMA· rssEN15:05 · 04·20
用免费 Colab T4 和 Mac 给苹果端侧 3B 模型训练 LoRA 适配器
作者搭了一套 QLoRA 流程来微调苹果那个跑在手机上的 3B 模型,把显存需求从大约 24GB 压到 1GB 内存加 5GB 显存,免费版 Colab T4 或者一台 24GB 内存的 Mac 就能跑。帖子说 A100 跑 LoRA、T4 跑 QLoRA、Mac 跑 QLoRA 训出来的适配器效果差不多,都能把准确率从 40% 左右拉到 75%,如果...
#Fine-tuning#Tools#Benchmarking#Apple
精选理由
一篇带名字的第一手实验,内存和准确率数字可复现,HKR 三项全中,比普通教程贴强。分数没上 85 是因为来源只是单篇 Reddit 帖子,权威性有限,跑分范围也窄。
一句话点评
Reddit 帖子被网络屏蔽,正文内容完全没拿到,没法判断这个 LoRA 训练方法到底靠不靠谱。
锐评
这条消息来自 Reddit 的 r/LocalLLaMA 板块,标题说能在免费 Colab T4 和 Mac 上给苹果的端侧 3B 模型训练 LoRA 适配器。但点进去直接撞了 403 错误,正文被 Reddit 的网络安全策略挡掉了,我们看不到任何技术细节、代码、训练参数或实际效果。标题本身挺吸引人——苹果的端侧模型通常跑在手机或笔记本上,如果能用免费算力做微调,对个人开发者会很友好。但没看到正文就没法确认:训练一次要多久、显存够不够、LoRA 的 rank 设多大、微调后模型在什么任务上表现如何。这些关键信息全是空白。建议等作者补发镜像链接或有人复现后再看,现在只能当一条未验证的线索。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
14:50
55d ago
r/LocalLLaMA· rssEN14:50 · 04·20
Gemma 4 26B-A4B 和 Qwen 3.6 量化模型基准测试
Reddit 上有人发了 Gemma 4 26B-A4B 的 GGUF 跑分,但点进去是 403 错误,正文一个字都看不到。所以任务类型、量化精度、硬件配置、token 速度这些关键信息全都没有。跑分帖如果不说清楚设备和上下文长度,数据就没法对比,等于白发。
#Benchmarking#Reddit#Benchmark
精选理由
抓取返回Reddit 403页面,唯一确认的事实是存在一个Gemma 4 26B-A4B GGUF基准测试帖子。HKR-K不通过是因为任务、硬件、量化、token速度和分数均未披露;HKR-H和HKR-R也不通过,因此HKR 0/3,排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
14:08
55d ago
Product Hunt · AI· rssEN14:08 · 04·20
CodeHealth MCP Server:给AI写的代码做“健康检查”,防止技术债
CodeScene 在 Product Hunt 上发布了 CodeHealth MCP Server,核心功能是让 AI 编程助手(比如 Cursor、Copilot)写完代码后,自动跑一遍“代码健康检查”,避免引入技术债。它用一套确定性规则(不是靠模型猜)来识别风险、建议重构,并且可以本地运行,数据不外传。正文没披露具体支持哪些 MCP 工具 AP...
#Code#Tools#CodeScene#Product Hunt
精选理由
HKR-R 通过,因为 AI 代码质量确实是工程痛点。HKR-H 和 HKR-K 不通过:Product Hunt 的简介只给了使用场景,没有机制、API 细节或可复现的条件。
一句话点评
AI写完代码后自动跑健康检查,避免引入技术债。
锐评
CodeScene 把代码健康检查做成了 MCP 服务器,让 Cursor、Copilot 这类 AI 编程助手写完代码后自动跑一遍静态分析,发现风险、建议重构。关键卖点是“确定性规则”——不是靠大模型猜,而是用硬编码规则做判断,结果可复现、可解释。支持本地部署,代码不外传,对合规敏感的项目友好。正文没披露具体支持哪些 MCP 工具 API、定价和部署细节,实际接入成本未知。如果规则库覆盖够广,能有效减少 AI 生成代码的“看起来对但实际有坑”问题,尤其适合遗留系统改造场景。但这类工具的价值取决于规则质量和项目适配度,初期建议先在小范围验证再推广。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R1
13:36
55d ago
Hacker News 首页· rssEN13:36 · 04·20
BBC:AI 聊天机器人可能让你变笨
BBC Future 发了一篇报道,标题很吓人:AI 聊天机器人可能让你变笨。文章引用了一项 MIT 尚未正式发表的研究:54 个学生写短文,用 ChatGPT 的那组大脑活跃度比不用的人低了 55%,而且写完记不住自己写了什么,感觉像不是自己写的。另一项宾夕法尼亚大学的研究管这叫“认知投降”——用户不怎么思考就接受 AI 给的答案,甚至放弃自己的直觉...
#BBC Future#Commentary
精选理由
BBC Future 这篇只有一个标题,正文没披露任何可验证的证据。标题本身是个评论性判断,不是可复现结论。别被标题带着走,真正该盯的是证据链。信息不够,无法支撑任何实质性判断,所以重要性低,排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
12:20
55d ago
r/LocalLLaMA· rssEN12:20 · 04·20
Kimi K2.6模型进行早期测试访问
一位 Reddit 用户发帖称自己获得了 Kimi K2.6 的早期访问权限。帖子只确认了模型名字和“内测中”这个状态,没有透露任何规格、能力变化、发布时间或提供方。这不是正式发布公告,信息缺口很大:正文没披露 K2.6 比 K2 强在哪、参数量、上下文长度、是否开源、甚至是不是同一个团队做的。如果你在关注 Kimi 的迭代节奏,这点先别太激动——目前...
#Kimi#Commentary#Product update
精选理由
硬排除——零信源:这只是一个 Reddit 用户的早期访问声称,没有截图、规格、跑分或发布时间。HKR-H 勉强靠泄密好奇心过关;HKR-K 和 HKR-R 都失败,因为帖子没提供任何可验证的事实或行业利害关系。
一句话点评
Kimi K2.6 开始小范围测试,Reddit 上已有用户发帖讨论。目前信息极少,正文被屏蔽,无法确认具体能力提升或发布时间。建议观望,等官方或实测出来再判断。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
12:12
55d ago
Hacker News 首页· rssEN12:12 · 04·20
特斯拉隐瞒数千起致命事故,只为继续测试自动驾驶
瑞士媒体RTS爆料,特斯拉隐瞒了数千起致命事故,目的是让自动驾驶测试不被叫停。报道没有说明这些事故涉及的是Autopilot还是FSD,也没给出时间跨度和具体证据。目前只有标题和链接,正文细节缺失,无法判断消息来源是否可靠。
#Robotics#Safety#Tesla#Incident
精选理由
标题指控很抓人,因为自动驾驶安全与披露规则直接关系到部署信任。但正文只有标题和链接,事故口径、证据来源、时间范围、涉及Autopilot还是FSD全没披露,硬信息缺口为零,所以评分上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
12:10
55d ago
r/LocalLLaMA· rssEN12:10 · 04·20
32GB显存跑本地模型,120 tok/s,但别急着下单
Reddit用户晒新配置:Ryzen 7 9700X + Radeon AI PRO R9700(32GB显存)+ 64GB DDR5,在Fedora上用LM Studio跑qwen3.6-35b-a3b,简单提示词下约120 tok/s。速度不错,但正文没披露batch size、上下文长度和功耗,所以这个数字参考价值有限。用户问32GB显存适合跑多...
#Inference-opt#Tools#AMD#LM Studio
精选理由
H 和 K 过关:32GB Radeon 本地跑出 120 tok/s 是个具体钩子,配置和模型也写清楚了。R 弱:这是个人装机帖,不是严谨测试,batch、上下文、功耗都没说,所以只能算本地推理的一个数据点,谈不上市场信号。
一句话点评
Reddit 用户晒新本地跑模型配置:Ryzen 9700X + Radeon R9700,声称推理速度达 120 tok/s。但原文被 Reddit 屏蔽,实际配置细节、模型大小、量化精度、是否纯 GPU 推理均未披露。120 tok/s 如果是 7B 模型用 4-bit 量化跑,对消费级显卡算正常偏快;如果是更大模型或更高精度,那才值得关注。目前信息缺口太大,建议等实测数据或更多用户验证。
锐评
这条先别急着抄配置。用户用 Radeon AI PRO R9700 32GB、Ryzen 7 9700X 和 LM Studio Vulkan 跑 qwen3.6-35b-a3b,自报约 120 tok/s;这能说明“能跑得很顺”,还说明不了“这套组合已经有稳定性能坐标”。正文没给 batch size、上下文长度、提示词长度、是否首 token 还是持续生成、功耗、温度,也没给 quant 版本。少了这些,120 tok/s 只能当社区样本,不能当采购依据。 我对这条有兴趣,原因不在那 120。点在 AMD 32GB 显存这档,终于开始碰到本地玩家最在意的甜区:7B、14B、32B 这一带可以挑模型,而不是被 16GB 卡死。我自己一直觉得,本地推理市场过去一年被 Nvidia 叙事带得太偏了,大家默认“能跑本地 LLM = CUDA”。但从 llama.cpp、koboldcpp、LM Studio 到 Ollama,实际采用门槛正在往 Vulkan、ROCm、Metal 这种更杂的后端摊开。AMD 这代卡如果真能在主流桌面工具里少折腾地跑起来,它吃到的不是数据中心预算,是一大批买不起 RTX 6000 级别卡、又不想碰二手矿卡的人。 模型怎么选,正文其实已经给了方向。32GB VRAM 想“舒服”,通常就别奔着满血 70B 去。按常见 GGUF 经验,Q4_K_M 这档经常是可用性和质量的平衡点,但具体还得看激活开销和上下文缓存占多少。只看权重体积,32B 级 dense 模型做 4bit 往往更现实;35B A3B 这种稀疏架构会更讨喜,因为活跃参数少,吞吐看起来会很好。问题也在这里:A3B 的 tok/s 漂亮,不等于所有模型都这么快。你拿同一台机去跑真正吃带宽的 dense 30B+,数字大概率会掉。我没看到帖子里给 prefilling 和 decoding 分开数据,这个缺口很关键。 拿外面对比一下更清楚。苹果 M3 Ultra 统一内存路线,优点是能塞超大模型,缺点常常是纯生成速度不便宜;Nvidia 24GB 到 32GB 这档,软件成熟度还是更稳,尤其在量化生态和兼容性上。AMD 这条路的胜负手不是单次截图跑到多少 tok/s,而是三件事:LM Studio、Ollama、vLLM 一类工具对 Vulkan/ROCm 的支持能不能少踩坑;社区常用量化格式在 AMD 上会不会经常掉性能;还有驱动更新会不会把一个能用的配置改回玄学。我跟你说,本地圈最烦的从来不是慢一点,是每次升级都要重修环境。 所以这帖我会把它看成“AMD 本地推理可用性抬头”的信号,不看成“R9700 已经打穿本地 LLM”。如果你真要按这套思路配机,先用同模型、同 quant、同上下文,把 TTFT、持续 tok/s、功耗和 8k/32k 上下文下的衰减都跑一遍。没有这些数字,标题里的 120 只适合发帖,不适合下单。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R0
11:42
55d ago
Hacker News 首页· rssEN11:42 · 04·20
给AI末日论者的帕斯卡赌注:我们已经被当成回形针了
Cory Doctorow 用帕斯卡赌注的逻辑反驳AI末日论:就算AI永远不会变聪明,大公司已经在用现有技术监控、压榨工人、操纵社会,我们早该担心这些现实危害,而不是幻想中的超级AI。他承认自己跟Bengio(图灵奖得主)在蒙特利尔同台时吵了一架——Bengio认为必须提前防范AI失控,Doctorow则认为这是转移注意力的营销话术。正文没披露Beng...
#Safety#Alignment#Commentary#Safety/alignment
精选理由
标题有钩子,但正文没披露任何实质内容——作者立场、风险模型、案例、数据全缺,信息量接近零。HKR-H和HKR-R靠标题框架和话题热度通过,HKR-K因零来源硬性排除,分数上限被压在40以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
10:36
55d ago
● P1r/LocalLLaMA· rssEN10:36 · 04·20
用一张 RTX 4090 跑 Gemma 4 26B,从 2400 份财报电话会里挖交易信号,一个有效,一个差点骗过我
一位 Reddit 用户用 800 份标注过的财报电话会记录微调了 Gemma 4 26B,然后在一张 RTX 4090 上花了约 14 小时,推理了 3 年内共 2400 份记录。在 600 份样本外数据上,一个信号显示:CFO 指引越含糊,公司股价在 5 天内相对板块平均跑输约 1.8%,信息系数(IC)为 0.04。另一个信号更强,与板块回报的相...
#Fine-tuning#Inference-opt#Benchmarking#Commentary
精选理由
这是一篇第一人称的实战记录,不是公关稿。作者把 Gemma 4 26B 塞进一张 4090,用 800 份人工标注的财报电话会微调,然后让模型在 2400 份近三年转录上提取交易信号,整批跑完 14 小时。结果里有一个信号站住了:CFO 把业绩指引从具体数字改成模糊表述后,股价 5 日内相对行业落后约 1.8%,IC 0.04,不算强但能用。另一个信号和行业回报相关性高达 0.85,作者直接判定为幽灵信号,提醒读者因子去重比标题里的赚钱故事重要得多。全文没有吹模型多强,反而在讲怎么排雷,信息密度和诚实度都够,适合 featured 位置。
一句话点评
有人拿 Gemma 4 26B 测了 2400 份财报电话会,挖交易信号,一个策略真赚了,另一个差点把人骗进去。
锐评
这条分享来自 Reddit 的 LocalLLaMA 板块,作者把 Gemma 4 26B 这个开源模型用在了真金白银的场景里:从 2400 份财报电话会议记录中提取交易信号。结果挺有意思,一个信号确实有效,另一个则差点让他踩坑。这说明小模型在特定金融文本任务上能跑出实用价值,但可靠性依然是个问题。 不过原文因为 Reddit 的反爬机制,正文内容被屏蔽了,我们看不到具体的实验设计、信号定义和回测数据。比如那个“差点骗过作者”的信号到底是怎么产生的,是模型幻觉、过拟合,还是数据泄露,这些关键细节都缺失。所以这条信息更像一个实战线索,而不是可复现的结论。 如果你也想拿小模型做类似的事,我会先打个折:2400 份样本量不算大,金融信号又容易过拟合,在没有看到完整方法和风险提示前,别急着跟单。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
10:22
55d ago
X · @op7418(歸藏)· x-apiZH10:22 · 04·20
OpenAI 新模型灰度测试,前端能力大幅提升
一位用户称 GPT Pro 新模型正在灰度,他仅凭一个 GitHub 页面、几张截图和两三行提示词,就得到了完整的桌面端产品设计。相比 Claude Design,他认为新模型输出更丰富、交互性更强,且无需额外说明。不过,灰度范围、具体模型名称、输出格式和可复现链接均未披露,目前仅为个人体验,非官方发布。
#Multimodal#Tools#OpenAI#Anthropic
精选理由
H 靠灰度传闻和 Claude Design 对比抓眼球;K 扣分是因为只有个人体验和截图,模型名、灰度范围、输出形式、复现链接正文都没给,信息缺口明显;R 踩中工作流替代和模型竞赛的痛点,但证据不足,只能给低置信度的全量推送。
一句话点评
标题说OpenAI这周要起飞,但正文完全没披露具体产品、发布节奏或任何数据支撑。目前只有一条来源的标题,信息缺口太大,没法判断是模型更新、新功能还是营销话术。建议等具体公告再评估。
锐评
这条现在只能按个人样例看。发帖者用 1 个 GitHub 页面、几张截图、两三行提示词,生成了桌面端产品设计;灰度范围、准确模型名、输出格式、复现链接,正文都没披露。没有这些条件,我不会把它当成一次可下结论的能力跃迁。 我对这类“前端能力突飞猛进”的说法一直比较谨慎。UI 生成很容易被单样例骗到:只要训练集里覆盖过常见 SaaS 布局、组件库和交互套路,模型在 Figma 风格稿、HTML/CSS/React 原型之间来回切,观感会比代码质量更先升级。去年到今年,Claude 这条线、Replit Agent、v0、Lovable 都把“几句需求出一个能点的界面”做得很顺,问题从来不是首屏像不像,而是状态管理、边界条件、设计系统一致性、组件复用、导出后能不能接进真实仓库。这条帖文没给 repo、没给运行链接、也没给多轮修改记录,所以“所有功能都在线”这句话,我不太买账。 有意思的地方在比较对象。作者点名 Claude Design,说明竞争已经不在“会不会画页面”,而在“默认补全多少产品判断”。谁能从一个 GitHub 页面和几张截图里,自动补齐信息架构、交互流、桌面端布局和缺失状态,谁就更像产品设计搭子,而不是代码补全器。OpenAI 这几年一直想把 ChatGPT 从问答界面推到工作流入口;如果这次灰度真存在,我看着更像把多模态理解、代码生成和工具调用压进一个设计任务里,而不是单独冒出一个“设计模型”。 但先别急着喊起飞。标题给了“GPT Pro 新模型正在灰度”,正文没披露 access 条件,也没说这是 ChatGPT Pro 专属、团队版灰度,还是某个内部实验开关。我还没查到官方发布、system card、定价或案例库。没有这些,现阶段更像一次高质量 demo,不是稳定产品信号。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
10:00
55d ago
● P1Hacker News 首页· rssEN10:00 · 04·20
NSA 在黑名单限制下继续使用 Anthropic Mythos 模型
Axios 爆料,美国国家安全局(NSA)正在使用 Anthropic 的模型 Mythos,但这款产品之前被列入某种黑名单。正文没披露黑名单的具体范围、禁令生效时间,也没说 NSA 到底部署了多少 Mythos。关键不是“用没用”,而是合规豁免的路径是什么——如果黑名单是真的,NSA 是怎么绕过去的。这点先别太激动,信息缺口很大。
#NSA#Anthropic#Axios#Policy
精选理由
HKR-H靠的是黑名单与使用之间的矛盾,HKR-R靠的是合规/采购的敏感话题。HKR-K不成立,因为路透/Axios只披露了标题方向,黑名单适用范围、生效时间、Mythos部署规模都缺失,信息量不足以支撑精选。
一句话点评
五角大楼把 Anthropic 拉黑了,但 NSA 照样在用他们的 Mythos 模型,内部矛盾比对外说的要深。
锐评
这事最值得玩味的地方在于:同一个政府部门内部,禁令和执行是两张皮。五角大楼因为 Anthropic 拒绝提供军事用途的保证而将其列入黑名单,但 NSA(美国国家安全局)作为国防部下属的情报机构,却仍在继续使用 Anthropic 的 Mythos 模型。这要么说明禁令本身留有灵活解释的空间,要么就是 NSA 觉得这个模型好用到了可以无视上级指令的地步。 目前消息来源是 Axios 的独家报道,再由路透社跟进,但两篇原文都因为微信环境的验证限制无法直接看到全文细节。我们不知道 NSA 具体在用 Mythos 做什么——是情报分析、代码辅助还是别的场景,也不清楚 Anthropic 对此是否知情或默许。 还缺两个关键信息:一是 NSA 使用的规模和层级,是试点还是已嵌入工作流;二是 Anthropic 的立场,他们一边公开强调安全原则,一边产品出现在被黑名单限制的机构里,这中间的合规漏洞到底出在哪一环。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
09:51
55d ago
r/LocalLLaMA· rssEN09:51 · 04·20
有人把Karpathy视频下105条高赞评论做了主题聚类,发现最大一类不是技术讨论
一位Reddit用户对Karpathy《Intro to LLMs》视频下获赞最多的105条YouTube评论做了主题聚类,发现其中某个非技术类别的规模超过了所有技术类别的总和。帖子正文已被版主删除,所以聚类方法、各类占比、采样时间、具体评论内容都没披露。信号在于观众反馈结构:最热评论可能集中在惊叹、感谢或入门感受上,而非技术细节。这点先别太激动——样...
#Andrej Karpathy#YouTube#Reddit#Commentary
精选理由
HKR-H 靠那个社交反转钩子过关:一个类别压过所有技术类。HKR-K 和 HKR-R 都弱,因为方法、占比、采样窗口都没披露,结论很难验证,也不太可能引发行业持续讨论。
一句话点评
原帖已被 r/LocalLLaMA 版主删除,正文完全不可见。从标题看,作者对 Karpathy 视频下 105 条高赞评论做了主题聚类,发现某个非技术类主题的规模超过所有技术类主题之和。这个发现本身有话题性——说明大众对 LLM 的关注点可能不在架构或训练上。但帖子已删,无法验证聚类方法、样本筛选标准或具体主题是什么,信息缺口太大,无法做进一步判断。
锐评
标题说,用户把 Karpathy《Intro to LLMs》的 105 条最高赞评论做了主题聚类,且有 1 个类别大过全部技术类总和。正文没给聚类方法、类别占比、采样时间、评论原文,我没法接受它当成严肃结论,只能把它当一个有方向感的观察。 我还是愿意给它一点分量。样本虽然只有 105 条,但它选的是“最高赞评论”,这本来就不是随机抽样,而是平台把最能代表群体情绪的内容推到上面。YouTube 这类长课视频下面,最高赞评论经常先奖励“你让我终于听懂了”“我第一次不害怕了”这种情绪回报,再奖励技术纠错。这个排序机制,跟论文社区或 Hacker News 很不一样。Karpathy 过去一年最强的内容能力,也一直不是新结论,而是把 transformer、tokenization、pretraining 这些老东西讲到新手愿意继续看下去。这个能力很稀缺,而且很难被 benchmark 量化。 但我对标题里的叙事有个保留:把“非技术反馈更大”直接解读成“公众不关心技术”,这就有点过。高赞评论反映的是身份认同和观看体验,不等于学习结果。很多人会给“终于听懂了”点赞,转头还是不会自己跑一遍 tiny model。我自己见过不少类似现象:课程口碑极高,作业完成率却很一般。文章如果没给评论文本和分类标准,连那个最大类别到底是“感谢”“敬佩”“被鼓舞”还是“非技术闲聊”都不知道,判断不能走太远。 我一直觉得,AI 教育内容现在分成两路。一路像 papers、repo、eval,竞争点是新东西和硬指标。一路像 Karpathy 的课,竞争点是认知压缩率:90 分钟里让多少人建立起一套可复述的 mental model。后者的影响经常比前者大。去年到今年,最出圈的入门材料很多都不是最前沿的,而是最会搭梯子的。如果这个 Reddit 帖子最后证明确实是“理解感”相关评论压过技术评论,我一点不意外;这说明受众买单的不是信息密度,而是解释质量。只是目前只有标题,这个结论还停在直觉层面。
HKR 分解
hook knowledge resonance
打开信源
53
SCORE
H1·K0·R0
09:45
55d ago
r/LocalLLaMA· rssEN09:45 · 04·20
Claude Code 泄露 20 天后,本地开发者真的用上了吗?
Reddit 上有人问,Claude Code 泄露 20 天后,本地开发者到底有没有从中得到实际好处。帖子只给了时间线,没有提供任何采用率、跑分或复刻项目的可靠性数据。它提到 Qwen 3.6 让消费级笔记本跑本地模型更实用了,还提到了并行工具调用和 diff 功能,但正文没披露任何验证过的收益。
#Agent#Code#Tools#Anthropic
精选理由
H和R都成立:帖子问的是Claude Code泄露后本地开发工作流有没有实质变化,戳中了本地coding-agent用户的神经。K不成立是因为正文零数据——没有采用率、fork数、跑分或任务完成情况,硬排除零来源规则把它压在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
09:34
55d ago
Product Hunt · AI· rssEN09:34 · 04·20
Stet:一个开源听写工具,主打“听起来像你,不像AI”
Stet 是一个刚上 Product Hunt 的开源听写工具,卖点是语音风格自然,不像常见的 AI 朗读腔。但正文只有一行描述,没交代用了什么模型、怎么处理声音特征、支持哪些语言、能不能本地部署、要不要付费。所以“像你”这个点目前只是宣传口号,没有技术细节支撑。如果你在找能保留个人说话节奏和语调的听写方案,可以关注,但先别太激动——信息缺口太大,连 ...
#Audio#Tools#Stet#Product Hunt
精选理由
只有HKR-H成立:钩子是声音风格而非转写精度。HKR-K和HKR-R不成立,因为Product Hunt页面只有一行简介,部署方式、模型、语言支持、定价都没说,所以只能放在低层级all。
一句话点评
Product Hunt 上架了一款叫 Stet 的语音转文字工具,但正文被 Cloudflare 拦截,实际内容为零。目前只知道产品名和平台,功能、定价、技术细节全无。建议等官方页面恢复或看其他媒体报道再判断,现在没法评价。
锐评
Stet 这次把卖点压在“像你”,信息其实很危险。正文只给 1 句简介,没披露模型、词错率、延迟、语言、部署方式,也没说“像你”指的是文风、口头禅,还是语音克隆。没有这些条件,产品判断基本做不动。 我对这类表述一直偏谨慎。听写工具的硬指标很简单:WER、端到端延迟、标点恢复、专有名词召回、离线可用性。你先讲“不像 AI”,等于默认核心转写能力还不够形成壁垒,只能先拿风格感受打入口。这个路数过去一年见过很多次:会议转录、邮件代写、语音助手都爱讲“更像真人”,最后留存还是掉在准确率和编辑成本上。用户每天真会碰的,是医学词、代码变量、双语夹杂,不是品牌文案里的“自然感”。 开源身份也别急着加分。开源只说明代码或部分组件可见,不等于本地可跑,不等于隐私友好,也不等于语音数据不出端。Whisper 把开源听写门槛拉低以后,市面上不少产品其实是在现成 ASR 上再包一层后处理和 UI。我还没查到 Stet 的仓库细节,所以不能断言它是不是这条路线,但如果它没有自己披露模型栈,那我默认它的差异化还没被证明。 还有一点我不太买 Product Hunt 这种场景下的叙事。Product Hunt 很适合推“第一印象产品”,不太适合验证语音系统。语音产品要跑长尾口音、噪声环境、麦克风质量,还要看连续 30 分钟使用后的纠错负担。标题能带来首波点击,带不来这些验证。眼下能说的只有一句:标题给了“open-source dictation”和“sounds like you”,正文没给任何复现条件。没有 benchmark,我不会把它当成语音听写的新基线,只会当成一个值得去翻仓库的薄样本。
HKR 分解
hook knowledge resonance
打开信源
51
SCORE
H1·K0·R0
07:10
55d ago
r/LocalLLaMA· rssEN07:10 · 04·20
一张截图生成等距房间,Qwen3.6-35B 做到了
Reddit 用户 k0setes 用 Qwen3.6-35B-A3B-UD-Q4_K_S 模型,仅凭一张截图就重建了一个等距视角的房间。他透露的修改只有两处:把家具边缘改圆、增加地毯纹理。帖子附了两张预览图。关键在于模型实现了“截图→场景”的端到端控制,但正文没披露完整 prompt、推理配置和运行耗时,所以实际可控性和成本还不清楚。
#Vision#Multimodal#Qwen#OpenAI
精选理由
这是 Reddit 上一个视觉上很扎实的 demo,所以 HKR-H 通过:一张截图就能生成等距房间。HKR-K 和 HKR-R 不通过,因为帖子只分享了两条额外提示,完整提示词、推理设置、耗时、稳定复现性以及任何工作流影响证据都缺失。
一句话点评
一条 Reddit 帖子标题说 Qwen3.6-35B 能根据截图生成等距房间,但正文被 Reddit 屏蔽,无法验证。如果属实,说明模型在空间理解或图像生成上有新能力,但来源不可靠,信息缺口大,先别太激动。
锐评
k0setes 用 1 张截图让 Qwen3.6-35B 还原了 1 个等距房间。已披露改动只有 2 处:家具边缘更圆,地毯纹理更强。这个结果有意思,不在“图好不好看”,而在模型有没有把单张参考图里的空间关系,稳定转成可编辑场景。要是这点成立,本地多模态模型就不只是做 caption 和修图了,已经开始碰轻量级 scene reconstruction。 我对这条的态度是先保守一点。正文没给完整提示词,没给采样参数,没给上下文长度,也没给耗时。连输出到底是 2D 重绘、结构化描述,还是某种 3D/伪 3D 场景,也没讲清。只看 2 张预览图,很容易把“风格接近”误判成“几何正确”。这两件事差很多。前者靠强先验就能做,后者得保住视角、尺度、遮挡和物体相对位置。 说真的,这条让我想到过去一年那批把图片转成房间布局、网页骨架、游戏关卡草图的实验。GPT-4o、Gemini 2.0 这一类闭源模型,早就展示过从单图抽 UI 结构和空间元素的能力,但本地模型一直卡在细节漂移和位置不稳。我还没核实 Qwen3.6-35B 这版在视觉定位上的官方评测,可如果它在量化到 Q4_K_S 之后,还能保住这种布局控制,那比“又能画一张图”更有信息量。 我还有个疑虑:Reddit 这类展示常常只放最好的一次。复现条件没给,就没法判断成功率。是 1 次出图就到这程度,还是试了 20 次挑 1 张?差别非常大。对从业者来说,能不能复用到室内设计预览、游戏关卡 blocking、机器人模拟数据制作,看的不是惊艳样张,而是 10 次里能成几次。现在这条还证明不了那么多,但它至少说明一件事:本地开源多模态模型已经开始逼近“拿一张图,先搭出空间骨架”这件事。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R0
06:54
55d ago
Product Hunt · AI· rssEN06:54 · 04·20
PageOn.AI 3.0:一个做幻灯片和海报的“视觉智能体”
PageOn.AI 发了3.0版本,自称是更聪明的视觉智能体,能帮你做幻灯片、海报和信息图。但正文就一句话,没提用了什么模型、怎么收费、响应快不快、什么时候能用。目前能确认的只有产品更新这个动作,其他都是空话。
#Agent#Multimodal#Tools#PageOn.AI
精选理由
这是一条很薄的产品更新:确认PageOn.AI 3.0面向幻灯片、海报和信息图,但没给价格、模型、延迟或用户测试。HKR三项全不满足,按0/3规则排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
06:36
55d ago
r/LocalLLaMA· rssEN06:36 · 04·20
本地代码助手硬件选择对比:GPU与MacBook Pro
一个 Reddit 用户在选本地跑代码助手的硬件:Nvidia 5090 约 3500 欧元,AMD R9700 32GB 约 1300 欧元,MacBook Pro M5 Max 128GB 约 7000 欧元。他现有机器是 Ryzen 9 9950X 加 96GB 内存,想在 IDE 里做跨 Rust、Python、Go、TypeScript 的代...
#Code#Agent#Tools#Nvidia
精选理由
这是一则本地编程的硬件选型求助,不是基准测试。帖子列出了 RTX 5090、R9700 32GB 和 M5 Max 128GB 的价格,但没有 token/s、VRAM 适配、IDE 编辑结果或推荐;HKR-R 通过,HKR-H/K 不通过。
一句话点评
Reddit 用户纠结微调/编程用 RTX PRO 5000(48GB)还是 MacBook Pro M5 Max(128GB 统一内存)。前者显存小但带宽高,后者内存大但带宽低,适合跑大模型但训练慢。正文被屏蔽,缺具体对比数据和用户预算。
锐评
这帖用 1344 GB/s 对 614 GB/s 比带宽,再拿 <32B 微调当场景,结论却还是不够落地。问题不在“哪台更强”,而在你的链路到底押 CUDA,还是押统一内存。 我先给判断:如果工作流核心真是 Unsloth 微调、vLLM 服务、Hugging Face 权重来回折腾,RTX PRO 5000 48GB 更像生产工具;如果你经常碰到 48GB VRAM 装不下、但又能接受更慢吞吐,M5 Max 128GB 才有它的位置。帖文里最关键的缺口,是没有任何实测:没 token/s,没 samples/s,没 LoRA/QLoRA 配置,没 batch size,没上下文长度,连价格和功耗都没有。只有带宽,远远不够决定 fine-tuning 体验。 说真的,本地圈子这两年已经把这个问题跑得很清楚了。Mac 的优势一直不是训练快,而是“能把更大的量化模型塞进一台安静机器里跑起来”。MLX 和 llama.cpp 在 Apple Silicon 上很顺,长上下文、离线推理、个人开发体验都不错。我自己没看到这帖给出 M5 Max 跑 llama.cpp 或 MLX 的任何实测,所以“614 GB/s 就怎样”只能停在猜测。反过来,CUDA 这边的优势也不只是带宽。Unsloth、Flash Attention、bitsandbytes、各类 fused kernels,再加上 PyTorch 主线支持,组合起来通常决定的是训练可复现性和踩坑成本。你今天能不能一条 Hugging Face 脚本改两行就开跑,这比纸面峰值更值钱。 我对“Mac 上会把训练时间翻倍”这句也有点怀疑。这个方向大体没错,但翻几倍取决于模型大小、量化方式、rank、序列长度、是否走 MLX、有没有专门 kernel。没 benchmark 就直接报倍数,跟每代新卡发布会喊十倍提速差不多,信息量很低。还有一个常被忽略的点:vLLM 在 NVIDIA 上通常比在 Apple 生态成熟得多,而很多 agentic coding 场景吃的不是单轮聊天速度,是并发、prefill、工具调用链稳定性。你一旦开始跑多 agent、开几个本地服务,48GB VRAM 未必宽裕,但软件兼容性大概率还是站在 RTX 这边。 我还想补一个文章外的上下文。过去一年,本地开发者对 Apple Silicon 的好评,很多来自“单机大内存”这件事,不是来自训练栈追平 CUDA。MLX 进步很快,这个我承认,但 Hugging Face 上新教程、新 kernel、新加速,首发基本还是 CUDA。你如果买的是“未来三年少折腾”的设备,这个分发惯性很难忽略。除非 Unsloth 真的把 MLX 支持做扎实,而且社区把复现配方补齐,不然 Mac 更像一台能跑更多模型的研究机,RTX 更像一台把现成工作流接上就干活的机器。 所以这条我不会按硬件选型来读,我会按生态锁定来读。标题已经给出两台机器和一个开发场景,正文没给出任何能定输赢的数据。没有同模型、同量化、同 batch、同上下文、同框架的 A/B 测试前,这个问题最多只能回答“你更想继承谁的软件债”。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
06:10
55d ago
r/LocalLLaMA· rssEN06:10 · 04·20
DeepSeek 3.2 在 llama.cpp 上吞掉了开头的 think 标签
有用户在 512GB 内存的机器上跑 DeepSeek V3.2 的 Unsloth GGUF 版本,发现 llama-server 把开头的 <think> 标签吃掉了,只剩推理文本和结尾标签。切换 --reasoning 参数也没用。问题大概率出在聊天模板或 GGUF 打包上,但原帖没交代 llama.cpp 版本和日志,没法进一步定位。
#Reasoning#Tools#DeepSeek#llama.cpp
精选理由
这是一条有用的 Reddit bug 报告,HKR 只占 K:给出了机器规格、启动参数和开关失效条件。角度太窄,依赖本地部署/模板适配上下文,因此适用硬排除-技术可及性不足。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K1·R0
04:36
55d ago
● P1量子位 · 公众号· rssZH04:36 · 04·20
苏度科技估值超20亿美元,发布具身模型Sudo R1:零真实机器人数据训练,首次抓取成功率约98%
苏度科技放出了他们的具身智能首秀Sudo R1,说是在完全没有用真实机器人数据训练的情况下,直接零样本测试了200多次,对100多种没见过的物体(包括透明、金属、软的和反光的东西)首次抓取成功率约98%,试两次基本能到100%。整个演示跑了60分钟。他们用的方法是在高保真模拟器里结合世界模型和强化学习来训练,相当于先在虚拟世界里把技能练好再搬到真机上。...
#Robotics#Vision#Benchmarking#Sudo
精选理由
这条我会先打个折,因为所有指标都是自报的,没第三方验证。但零真机数据、zero-shot 直接上真机抓出 98% 首次成功率,这个说法本身就够硬,而且给了 200 多次测试、100 多个没见过的物体、60 分钟连续跑,数字具体,不是空口号。它正好打在机器人行业最疼的地方:真实数据又贵又慢,仿真到真机迁移一直是个坑。正文没披露融资金额、基准怎么定义的、谁做的第三方验证,所以分数没给更高。
一句话点评
正文被微信环境异常页挡住,实际技术细节和验证方式都没披露,98%这个数字先别太激动。
锐评
这条消息目前只能看个标题,正文因为微信环境异常完全打不开,所以所有技术细节都无从核实。标题里说的“0真机数据、zero-shot、98%首次抓取成功率”听起来很猛——如果属实,意味着苏度科技用纯仿真训练出来的模型,直接部署到真实机械臂上,第一次抓东西就有98%的成功率,这在具身智能里是相当高的指标,通常真机迁移会掉不少点。但问题也在这儿:我们不知道这98%是在什么条件下测的,抓的是固定形状的积木还是乱七八糟的日常物品,测试了多少次,失败的那2%是什么情况。公司估值20亿美金、这是首次公开演示,这些背景让这条消息值得关注,但在看到完整实验设置和第三方复现之前,只能当个信号看,不能当结论用。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
04:06
55d ago
● P1机器之心 · 公众号· rssZH04:06 · 04·20
Anthropic 编程智能体负责人讲 vibe coding 的正确姿势:2 周变 1 天,但别让 AI 碰核心逻辑
Anthropic 研究员 Erik Schluntz 分享了他团队用 Claude 写代码的真实工作流。他们最近合并了一个 2.2 万行的生产环境改动,大部分代码由 Claude 生成,把原本两周的工作压缩到了一天。他的做法是先花 15-20 分钟让 AI 通读代码仓库、做规划,然后只让 AI 改叶子节点(也就是依赖最少、影响范围最小的模块),核心逻...
#Agent#Code#Tools#Anthropic
精选理由
这是一篇来自 Anthropic 内部的实战经验,不是泛泛而谈。有 22000 行生产合并、两周变一天的硬数字,也有可复用的流程规则,比如先让模型花 15 到 20 分钟探索代码库再动手、改动锁在叶子节点、核心路径必须人审。对正在纠结怎么把 coding agent 放进真实流水线的团队来说,参考价值很高。保持 featured 不升 p1,因为它本质是实践课,不是模型或产品重大发布。
一句话点评
Anthropic 编程智能体负责人出来讲 Vibe Coding,但原文被微信验证墙挡了,具体方法、案例和踩坑经验都没看到。
锐评
这条消息的标题很吸引人——Anthropic 内部负责编程智能体的人亲自下场讲怎么正确做 Vibe Coding,对从业者来说是个难得的一手信源。Vibe Coding 这个概念本身就容易让人误解成“随便说说让 AI 写代码”,如果能有官方视角厘清边界、给出可操作的工作流,价值会很大。但问题在于,原文链接指向微信公众号,页面直接触发了环境异常验证,正文内容完全不可见。我们看不到他到底讲了什么:是 prompt 技巧、任务拆解方法,还是对 Claude 编程能力的限制说明?有没有给出具体的成功率和失败模式?这些关键信息全部缺失。所以这条新闻目前只能当个“值得关注”的线索,没法做实质判断。建议等有可访问的全文或转载后再看,别急着根据标题下结论。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
04:06
55d ago
机器之心 · 公众号· rssZH04:06 · 04·20
北大南科大提出 QuatRoPE:用四元数给大模型装个 3D 空间脑
北大和南科大合作搞了个 QuatRoPE,目标是让大模型能理解三维物体之间的位置关系,比如“A 在 B 的左边还是上面”。论文中了 CVPR 2026。但原文页面被微信封了,看不到具体方法、用了什么数据集、效果提升了多少。核心思路应该是在 RoPE(旋转位置编码)基础上引入四元数,让模型能处理 3D 旋转和相对位置。如果真能低成本让 LLM 做 3D ...
#Reasoning#Vision#Peking University#Southern University of Science and Technology
精选理由
触发硬排除-技术可及性失败:这是一篇专门的三维表示/RoPE论文,且正文不可访问。HKR-H因新颖性通过,但HKR-K缺指标/机制,HKR-R缺产业神经,因此重要性上限为39。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
04:05
55d ago
r/LocalLLaMA· rssEN04:05 · 04·20
Claude 账号被无故封禁后,求替代方案:要能写长文推理,还要能当编程助手干活
一位 Reddit 用户称自己的 Claude Pro 和 Claude Code 账号在重度使用后被封,官方“零解释”。他想找替代品,要求两点:一是 Claude 那种长文推理和写作能力,二是 Claude Code 那种能进终端、读写本地文件、执行任务的编程助手模式,预算约 20 美元/月。帖子没交代封号时间、触发原因和申诉结果,但问题很实际——有...
#Agent#Code#Tools#Anthropic
精选理由
HKR-H和HKR-R通过:无解释封号是强钩子,且直击重度用户对供应商锁定的焦虑。HKR-K不通过:帖子只列了20美元预算和功能清单,没披露封禁触发条件、申诉结果或实测替代方案,信息密度低,适合全量推送但价值有限。
一句话点评
用户被 Claude 封号后求替代方案,但正文被 Reddit 屏蔽,只看到报错页面。信息缺口:不知道原帖里推荐了哪些模型或工具。如果真想找平替,可以关注 DeepSeek-Coder、Qwen2.5-Coder 或 Gemini 的代码能力,但 Claude Code 的深度 agent 工作流(让模型自动改代码、跑测试)目前开源方案还差一截。短评:封号原因不明,替代方案正文被墙,等于没信息。
锐评
这名 Reddit 用户把需求卡得很清楚:1 个账号要同时覆盖长文本写作、结构化规划、终端执行、本地仓库访问,预算约 20 美元/月。我的判断很直接:现在市场里接近 Claude 的不是单一替代,而是“两件半产品”拼装。前半是模型,后半是 agent 壳,剩下半件是权限与稳定性。标题在讲封号,正文却没给封禁时间、触发操作、申诉结果,也没说是否碰到自动化频率限制,所以没法把责任直接扣到 Anthropic 风控头上。我还没查到这位用户的完整使用轨迹,因果关系正文未披露。 但这条依然有信息量。因为它把 Claude Code 过去几个月吃到的那层用户价值说透了:很多人买的不是“更聪明的聊天”,而是一个默认能进 terminal、能读 repo、能连续做事的工作台。OpenAI 在 ChatGPT Plus 20 美元档也有 Codex 和更强工具链,我自己看到的反馈一直是模型能力接近,工作流手感差一截;GitHub Copilot、Cursor、Aider 这些也能补代码 agent,但写作、课程材料、Obsidian 知识库这类跨模态杂活,拼装感还是重。说真的,这不是谁 benchmark 高 2 分的问题,是 Claude 把“会写 + 会做”捏在一个入口里了。 我对“找一个平替”这个说法有点怀疑。20 美元/月这个预算,单独买 ChatGPT Plus 或 Cursor 其中一个还行;想把长文写作、截图分析、仓库操作、Obsidian、本地文件权限、图片生成全塞进去,稳定性还要高,现实里大多要上多工具组合,或者接受本地模型能力掉一档。比较靠谱的路线,通常是云端模型加本地 agent 壳:比如 OpenAI 或 Gemini 做主模型,Aider / OpenCode 一类接终端和 repo,再配 Obsidian 插件。但这套东西的痛点刚好也是这条帖子在抱怨的:不是能力不够,是账号、权限、封禁、插件维护、上下文一致性全会咬你一口。 所以我对这条的结论不是“Claude 有替代了”,而是“Claude Code 已经把一个新基线抬起来了”。谁先把 20 美元档的账号治理、申诉透明度、agent 权限边界做扎实,谁就会截走这批用户。模型分数反而排在后面。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
04:02
55d ago
● P1新智元 · 公众号· rssZH04:02 · 04·20
人大团队让AI跑了23小时、74轮实验,靠的不是堆Agent,而是把文件当总线用
人大高瓴人工智能学院放出了一个叫AiScientist的系统,在MLE-Bench Lite的一个侮辱性言论检测任务上连续跑了23小时、74轮实验,把验证集AUC从0.903拉到了0.982,中间刷新了18次最佳成绩。论文的核心观点是:长程记忆的关键不在多Agent协作,而在状态连续性。他们搞了个File-as-Bus机制,把分析、代码、日志、结果全持...
#Agent#Memory#Code#Renmin University of China
精选理由
人大这个 AiScientist 跑了 23 小时、74 轮实验,把检测侮辱性评论任务的 AUC 从 0.903 干到 0.982。论文的核心卖点不是 Agent 数量,而是 File-as-Bus——让模型把分析、代码、日志、实验记录持续写回工作区,靠状态连续性而不是多 agent 协作来推进长程任务。消融实验也印证了这点:去掉这个机制后,PaperBench 分数降 6.41 分,MLE-Bench Lite 的 Any Medal 直接掉 31.82 个百分点。我会先打个折:只在两个 benchmark 上验证过,泛化性还没谱,但思路本身对正...
一句话点评
正文被微信环境验证页挡住了,实际内容没抓到,下面只能基于标题做有限判断。
锐评
标题说人大搞了个 AiScientist,能在 23 小时内跑完 74 轮对话,还强调“Agent 不是关键”。如果属实,这更像在说长程记忆和持续对话能力本身比套 Agent 壳子更重要——模型能记住 74 轮上下文不崩,对做科研辅助、长文档分析这类场景确实有用。但“23 小时”这个数字得看是单任务耗时还是总训练/推理时长,以及 74 轮里有没有人工干预或重置。正文没披露实验设置、任务类型、模型规模和对比基线,光看标题没法判断是实打实的突破还是标题党。另外,微信页面触发环境验证,说明原文可能被反爬或限制访问,信息完整性存疑。如果后续能拿到论文或技术报告,重点要看记忆保持率、幻觉率随轮次的变化,以及这 74 轮到底在干什么——是闲聊还是真有科研产出。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
04:02
55d ago
新智元 · 公众号· rssZH04:02 · 04·20
马斯克说 Grok 5 就是 AGI,五月要连发两个万亿参数模型
马斯克在 X 上放话,说 Grok 5 已经达到 AGI,同时 xAI 计划五月先发一个 1 万亿参数的 Grok 4.4,月底再发 1.5 万亿的 Grok 4.5,后面还有 6 万亿的 Grok 5 和超大集群 Colossus 2。但整篇消息来源只有马斯克的推文和所谓的路线图,没有官方博客、技术报告或第三方跑分。参数规模确实大,但训练成本、推理延...
#Agent#Reasoning#Code#xAI
精选理由
HKR-H 和 HKR-R 成立:AGI 口号和 xAI 对 OpenAI 的竞争叙事足够抓人。HKR-K 不成立:正文没有提供任何可核验的官方公告、技术报告或基准测试,路线图和参数数字全靠马斯克一张嘴,所以这条只能算低带宽的 all 级内容。
一句话点评
正文被微信屏蔽,实际信息为零。标题说马斯克官宣Grok 5是AGI、五月连发两代万亿参数模型,但来源是自媒体,无原始发言或官方公告佐证。建议等可靠信源或马斯克本人X帖再判断,目前只能当传闻看。
锐评
这条的关键信息很简单:马斯克在 X 上宣称 Grok 5 是 AGI,文章再往前推了一条 5 月路线图,称 xAI 将在 5 月初发 1T 参数的 Grok 4.4、5 月底发 1.5T 的 Grok 4.5。问题也很简单:正文没有官方博客,没有 system card,没有 API 文档,没有第三方 benchmark,连 0.5T、1T、1.5T、6T 这些参数口径都没法核验。 我先说判断:这更像是融资叙事、招聘叙事和舆论占位,不像已经准备好接受同行审视的模型发布。AI 圈这两年被“参数量”带偏过很多次。GPT-4 之后,头部实验室公开谈参数规模的频率其实下降了,公开材料里更常见的是推理成本、延迟、SWE-bench、MMMU、长上下文稳定性、agent 成功率。原因不复杂,大模型到了这个阶段,参数数字单独拿出来,信息量已经没那么大。MoE 怎么算激活参数,训练 token 有多少,post-training 做了什么,推理时每 token 成本多少,这些才决定你能不能上线、能不能大规模卖。 文章里最让我警觉的,是它把几组完全不同可信度的信息揉在一起讲:马斯克在 X 上的口头表述、对路线图的二次解读、Colossus 2 的硬件传闻、还有“AGI”这种根本没有统一验收标准的标签。这里面只有第一项勉强算一手信号,后面三项都没有足够证据。55 万块 GB200/GB300、2GW 功率、同时训练 7 个模型,这种数字不是不能成立,但它一旦成立,供应链、供电、冷却、网络、封装、交付节奏都会在别处留下痕迹。正文没给,标题倒是先把 OpenAI 慌了写上了,这个说法我不太买账。 外部对比一下就更清楚。Anthropic、OpenAI、Google 现在做前沿模型发布,哪怕藏一些训练细节,通常也会给出最低限度的可验证材料:价格、上下文窗口、基准、系统卡、API 能力边界,至少让开发者知道怎么接、值不值得迁移。xAI 过去的发布风格一直更像“先放话,再补文档”,这套打法能抢流量,但很难直接转成开发者信任。去年 Grok 系列就反复出现“能力说得很满,披露不够完整”的问题,所以这次我不会因为 1T、1.5T、6T 这些数字就自动抬估值。 还有一个点,文章试图把“X 的实时数据”“特斯拉车队数据”“SpaceX 工程速度”拼成 xAI 的独家优势。我承认这套资产组合很少见,但离模型能力证明还差三步。第一,数据接入不等于可用于训练,版权、清洗、去重、对齐都要过关。第二,车队传感器数据对语言模型到底怎么转成可泛化能力,正文没披露。第三,工程速度不等于研究突破,122 天建成集群很强,可集群利用率、稳定训练天数、故障率、互联效率,文章一个都没给。 我自己也承认,有些事现在外面查不到。比如 Grok 4.3 Beta 的完整能力边界、Grok 4.4 和 4.5 是否真会在 5 月发、Grok 5 是否已经进入稳定训练后段,这些正文都没覆盖。我不会硬猜。要让我认真更新判断,至少得看到三样东西:一是官方发布页或 API 说明;二是可复现或至少可对照的基准,哪怕先给 SWE-bench、AIME、GPQA、Humanity’s Last Exam 这一类;三是成本和吞吐的基本口径。没有这些,“Grok 5 就是 AGI”更像马斯克把产品发布会提前开成了一条推文。 说真的,xAI 现在最需要的不是更大的数字,而是一次能经得住开发者复测的正式发布。要是 5 月真的连发两代模型,而且基准、价格、稳定性都站得住,那再谈 OpenAI 会不会紧张还来得及。眼下这篇稿子提供的,更多是情绪,不是证据。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R1
04:00
55d ago
FT · 科技· rssEN04:00 · 04·20
北方信托:AI 繁荣可能带来“大规模通缩”
北方信托资管部门负责人(管理 1.4 万亿美元资产)认为,如果 AI 能带来大幅生产力提升,就会引发大规模通缩。这是一个宏观市场判断,不是模型发布。正文没披露时间范围、具体行业、影响幅度或验证方法,所以先别太激动——这个判断目前还缺数据支撑。
#Northern Trust#Commentary
精选理由
HKR-H靠的是‘AI降通胀’这个反直觉判断,有话题性。但HKR-K和HKR-R都卡在信息太少:全文只披露了判断来源(Northern Trust资管负责人),没给任何方法、时间、行业或量化幅度,硬排除规则(零来源披露)直接把它压在40分以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
04:00
55d ago
FT · 科技· rssEN04:00 · 04·20
新兴市场回来了,但这次是韩国和台湾
FT 说这一波 AI 浪潮的最大受益者,目前是韩国和台湾。正文被付费墙挡住,没披露具体指标、行业、时间范围或对比基准。
#Financial Times#South Korea#Taiwan#Commentary
精选理由
《金融时报》这篇评论只抛了一个观点:韩国和台湾是当前AI浪潮的最大受益方。但正文没披露任何支撑数据——受益指标是什么?哪些行业?跟谁比?时间多长?全没提。标题有钩子,话题有相关性(芯片供应链利润集中),但知识缺口致命,所以硬排除规则6把分压在40以下,维持excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
04:00
55d ago
FT · 科技· rssEN04:00 · 04·20
乌克兰无人机靠互联网制导,500公里外打俄军目标
乌克兰无人机操作员能隔着500公里命中俄罗斯目标,关键不是飞机本身,而是用互联网传指令的制导链路。正文没披露具体用什么无人机、怎么抗干扰、部署了多少架,所以这点先别太激动。核心看点是:只要网络能通,远程打击的门槛就降得很低,不用靠卫星或昂贵的通信设备。
#Robotics#Tools#Ukraine#Russia
精选理由
HKR-H靠500公里远程打击的钩子通过。HKR-K和HKR-R不通过,因为正文没披露无人机型号、制导链路、抗干扰设计或部署规模,且与AI行业的相关性很弱,所以分数低于40,被排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
04:00
55d ago
FT · 科技· rssEN04:00 · 04·20
地缘政治冲击暴露欧洲银行过度依赖美国云厂商
一些欧洲银行担心,地缘政治冲击暴露了它们对少数几家美国超大规模云厂商的过度依赖。正文没有披露具体涉及多少家银行、哪些云厂商,以及银行有什么应对方案。
#Policy#Commentary
精选理由
这篇只够HKR-R:集中度风险加地缘政治,戳中了主权和业务连续性的神经。HKR-K不成立,因为正文没披露银行数量、云厂商名字或应对方案,而且角度偏评论,不是具体的AI事件。
一句话点评
FT这篇讲地缘政治冲击让企业意识到不能只依赖一家云厂商,比如AWS或Azure。正文被付费墙挡住,没披露具体案例或数据。逻辑上是对的——如果某云服务因制裁或断网停摆,业务就挂了。但多供应商策略会增加运维复杂度,成本也会涨。这点先别太激动,文章大概率是观点呼吁,缺实测或企业迁移数据。
锐评
欧洲银行担忧少数美国 hyperscaler,这个事实本身已经够硬。正文只给出“少数美国云商”这一点,没披露银行数量、厂商名单、合同期限、迁移方案,也没说明触发担忧的是制裁、出口管制,还是数据调取权限。我对这条的判断是:它表面写的是地缘政治,底层其实是金融业终于承认,云集中度不是单纯的采购问题,而是可用性、合规、法域控制权绑在一起的问题。 我一直觉得,欧洲金融机构过去几年对“多云”的表态有点虚。很多银行说自己是 multi-cloud,实际常见形态是开发在一家,核心数据在一家,身份、监控、灾备又绕回同一套美国控制面。账单看着分散,故障域和法域并没有分散。2024 年 Google Cloud 因 UniSuper 事故赔了澳洲养老基金,这类事件已经把“单厂商依赖”从技术风险拉回董事会层面。银行比互联网公司更麻烦,因为它们不只要 uptime,还要解释监管问询:极端条件下,谁有权关、谁能看、谁能优先拿资源。标题给了担忧,正文没给这些关键细节。 外部参照并不缺。DORA 在欧盟已经落地,核心就是把 ICT 第三方风险拉进金融监管主表。英国监管这两年也一直盯 cloud concentration risk。我印象里,英国央行和 FCA 之前点过 AWS、Microsoft、Google 在金融基础设施里的集中度问题,具体措辞我没逐字核过,但方向非常清楚。今天再叠加美国政治和出口管制的不确定性,银行开始把“供应商锁定”升级成“跨境依赖”,这很合理。 但我也不太买“多找几家云商就解决”的说法。银行核心系统迁一次,不是加个 Terraform provider 就完事。数据主权、KMS 控制权、身份联邦、审计链、主权云条款、退出演练,这些才是硬骨头。更现实的路线,往往不是把核心账务明天搬去第二家,而是先把最关键的控制面拿回来:密钥自持,日志留境,模型和数据分层,灾备做成可运行而不是 PPT。我还没看到正文披露任何一家银行做到这一步。 说真的,这条如果继续发酵,对 AI 从业者也有直接影响。现在大量金融 AI 项目默认吃美国云上的 GPU、托管模型和数据服务。只要董事会开始把云主权当成一级风险,生成式 AI 项目的采购节奏、模型部署位置、甚至供应商选择都会被重排。不是因为欧洲突然讨厌美国云,而是当基础设施同时承载交易、合规和 AI,集中度的容忍阈值会急剧下降。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K0·R1
04:00
55d ago
FT · 科技· rssEN04:00 · 04·20
银行想用AI既防风险又抢生意
FT报道说银行正在把AI从被动防御工具变成主动竞争手段,重点用在金融犯罪检测上。正文没披露具体用了什么模型、部署规模、预算或时间表,所以这点先别太激动。核心信号是银行不再只把AI当合规成本,而是想用它来拉开跟对手的差距。
#Safety#Tools#Commentary
精选理由
这是一篇行业趋势报道。可见信息只到银行想用AI做防御和竞争,没有点名具体银行、模型、预算、规模或时间表,所以HKR三项全不满足,归为excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
04:00
55d ago
AI 群聊日报· atomZH04:00 · 04·20
群聊日报:OpenAI iOS支付漏洞、MCP协议安全缺陷、Kimi K2.6开源
今天群里至少聊了7个AI话题,包括微软M365 Agents SDK、OpenAI iOS支付漏洞利用链、MCP设计缺陷、Kimi K2.6开源等。RSS片段点名了微软、OpenAI和Kimi,还提到Copilot停止新用户注册;正文没披露漏洞具体机制、MCP缺陷细节或Kimi K2.6模型规模。真正的信号是工程治理:护栏、可审计性和协议标准化正在被审视。
#Agent#Tools#Safety#Microsoft
精选理由
这是一份群聊日报,不是报道事件。它列了至少 7 个话题,但没给机制、参数细节或来源链接,所以按硬排除-陈旧重发处理,分数上限 40。
一句话点评
群聊日报里信息密度高,但每条都缺细节,适合当线索索引。
锐评
这篇日报汇总了7个AI话题,信息量不小,但每条都点到即止。最值得关注的是三个工程治理信号:OpenAI iOS支付漏洞(收据没跟账号绑定,黑产用一张收据批量解锁Plus,OpenAI最近才回溯清查)、MCP协议被曝设计缺陷(一行配置就能接管电脑,本质是科研协议被包装成工程标准推广)、以及Copilot停止新用户注册、微软限制员工用Claude。这些事放在一起看,说明护栏、审计和协议标准化正在被行业重新审视。Kimi K2.6开源了,但正文没披露模型规模或具体能力提升。GPT Pro速度翻4倍,网友猜是GPT-5.5上线,但没官方确认。微信支持Markdown渲染,对手机阅读体验是好事。a16z闭门会观点(人月神话失效、SaaS末日)偏宏观,缺乏具体数据支撑。整体来说,每条新闻都缺关键细节——漏洞机制、缺陷具体表现、模型参数——适合当线索索引,不适合直接引用。
HKR 分解
hook knowledge resonance
打开信源
33
SCORE
H0·K0·R0
01:37
55d ago
● P1纽约时报中文网· rssZH01:37 · 04·20
荣耀人形机器人“闪电”半马跑出50分26秒,比人类世界纪录快近7分钟
荣耀的人形机器人“闪电”在北京半马跑出50分26秒,比乌干达选手基普利莫保持的人类纪录(57分20秒)快了将近7分钟。它身高1.65米,腿长约0.9米,中途撞上护栏摔倒,靠人扶起来后继续跑完。去年最快的机器人成绩是2小时40分42秒,今年直接压缩到不到三分之一,进步幅度很大。俄勒冈州立大学的机器人教授费恩认为,这主要说明中国在机器人硬件工程和系统稳定性...
#Robotics#Benchmarking#Honor#Alan Fern
精选理由
这条消息的钩子很直接:一台人形机器人半马跑进50分26秒,比人类纪录快将近7分钟。我会先打个折——它中途撞护栏摔了,是在人帮忙扶起来之后才完赛的,所以不是完全自主跑完全程。但数字本身还是说明工程成熟度在往上走,去年同类最好成绩还要2小时40分,一年压缩到三分之一的时间,进步幅度值得盯。正文没披露控制方案和比赛规则细节,所以别急着往AI能力跃迁上解读,更多是机电、步态和系统集成的提升。对从业者来说,这条消息的参考价值在于一个可量化的性能标尺,而不是一篇公关稿。
一句话点评
一台手机厂造的人形机器人跑半马比人类世界纪录还快,但最后撞护栏摔了,还得人扶起来。硬件整合能力确实强,别急着把它当成AI突破。
锐评
荣耀造的“闪电”机器人用50分26秒跑完半马,比人类纪录快了近7分钟,这个数字主要说明中国在机器人硬件、尤其是关节液冷和动态平衡上的工程整合能力上来了。俄勒冈州立大学的教授也点明了,这更多是制造生态的体现,不是AI的飞跃。文章没提“闪电”的电池续航、环境感知算法细节,也没说摔倒后人工干预了多少。超过一半的参赛机器人还是遥控的,自主性这块水分不小。我会先打个折:能跑完确实厉害,但离“高水平应用”还差一个从赛场到产线的距离,盈利路径更模糊。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
01:28
56d ago
彭博科技· rssEN01:28 · 04·20
AI 的 token 经济革命催生中国科技新赢家
中国低成本 AI 模型正在吸引全球用户,并催生股市新赢家。但正文被 Bloomberg 的付费墙挡住了,没披露具体是哪几家公司、估值涨了多少、token 怎么定价。真正的信号是:模型成本下降是否已经传导到股市。
#Commentary
精选理由
彭博这条线有HKR-H和HKR-R:中国廉价AI模型传导到股市赢家,确实是个讨论钩子。HKR-K不成立,因为可见正文没给出任何公司名、token价格、用量或估值数据,所以这条只能放all,不能放featured。
一句话点评
彭博这篇标题说AI的token经济催生中国科技新赢家,但正文被paywall挡住,实际内容为零。标题本身信息量有限——token经济通常指推理算力按token计费带来的商业模式变化,但具体哪些公司受益、逻辑是什么,一概看不到。建议等能读到全文再判断,目前只能当个标题党处理。
锐评
中国低价模型正在吸引全球用户,这条链条目前只被标题和 1 句摘要确认;涉及哪些公司受益、股价涨了多少、token 单价降到什么水平,正文未披露。我对这类“模型便宜,所以股市会重估”的叙事一向留一手,因为一级产品数据和二级市场定价之间,通常隔着至少两层传导:先看调用量能不能持续,再看收入是不是留在模型厂自己手里,还是被云厂商、渠道商、应用层吃掉。 我先给判断:这条新闻如果成立,重点不在“中国模型出海”这句老话,而在价格战终于开始改写利润分布。过去一年大家已经看得很清楚,开源和低价闭源把模型能力差距压得越来越窄,很多客户采购时先问每百万 token 多少钱,再问 benchmark 漂不漂亮。这个趋势不是今天才出现。DeepSeek 年初那波出圈,市场已经见过一次“低成本 + 可用性能”带来的情绪外溢;阿里通义、字节豆包、月之暗面那几家,也都把低价当过获客工具。问题是,便宜本身不自动生成利润。价格打到足够低,受益者常常不是模型提供方,而是把便宜算力重新包装成 SaaS、广告库存、云套餐的那层公司。 我自己比较在意的,是 Bloomberg 这里把“全球用户”和“中国股市赢家”直接连起来,中间却没有桥。全球用户是注册用户、月活、开发者数,还是 API 消费额?完全没说。股市赢家是模型公司、IDC、云计算、芯片分销,还是做 agent 外包的壳?也没说。这个缺口很大。A 股和港股这两年对 AI 的定价,经常先炒基础设施,再炒应用,再回头修正。2023 年英伟达带飞的是算力链;2024 年市场开始挑有真实推理收入的云厂;到 2025 年,不少“AI 概念股”已经被问到一个很直接的问题:你的 token 增长,能不能换成经营性现金流。我没看到这篇稿子给出答案。 还有一个地方我有点怀疑:标题把“cheap models”写成新赢家的起点,听着顺,但低价很多时候只是防御动作,不一定是进攻优势。你把每百万 token 价格砍下去,短期当然能抢量;可只要切换成本不高,用户也会跟着最低价走。过去 API 市场已经反复证明,除非模型在推理质量、上下文稳定性、工具调用、延迟控制里有一项明显领先,不然低价带来的黏性很薄。我还没查到这篇文里提到的到底是哪几家中国公司,但如果受益标的是“流量入口”或“云资源转售”,我会比“纯模型公司”更信一点,因为前者更容易把低价流量转成交叉销售。 外部参照也很清楚。美国这边从 OpenAI、Anthropic 到 Google,这一年都在把模型能力和价格分层做细,目的就是把不同客户锁在不同档位。中国厂商如果靠更低单价拿到海外开发者,确实能撬开入口;但能不能拿到资本市场溢价,要看两件事:一是海外调用有没有持续 2 到 3 个季度,二是毛利率有没有因为价格战被压穿。没有这两个数,所谓“新赢家”更像二级市场先行脑补。 说真的,这条我不会按“革命”来读。我更愿意把它看成一个检验题:低成本模型到底是在创造新增需求,还是只是在行业里搬运存量订单。标题给了方向,正文没有给证据。现阶段能确认的只有一件事:中国模型的价格竞争力已经强到足以被国际媒体拿来讲资本市场故事;至于谁真赚到钱,材料还不够。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K0·R1
00:56
56d ago
Hacker News 首页· rssEN00:56 · 04·20
Claude Token Counter 更新:支持跨模型对比,Opus 4.7 实际更贵
Simon Willison 更新了他的 Claude Token Counter 工具,现在可以选不同模型对比 token 数。核心发现:Opus 4.7 换了分词器,同样一段文本比 4.6 多消耗 1.46 倍 token,图片更是高达 3 倍。虽然官方说涨价幅度在 1.0–1.35 倍之间,但实测系统提示词达到了 1.46 倍。由于定价没变(输入...
#Tools#Simon Willison#Anthropic#Claude
精选理由
正文只确认 Claude Token Counter 新增了比较入口,没披露支持哪些模型、对比维度和计数机制,信息缺口太大,HKR-K 不通过。标题钩子太小,对从业者没有成本、工作流或竞争层面的触动,HKR-H/R 都弱;0/3 归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
00:37
56d ago
r/LocalLLaMA· rssEN00:37 · 04·20
WSJ 发评论:要跟中国竞争,美国得拥抱开源 AI
《华尔街日报》发了一篇观点文章,主张美国应该靠开源 AI 来跟中国竞争。但正文目前只能看到标题和 Reddit 上的转载链接,原文被墙了,打不开。所以这篇文章到底是谁写的、引了什么数据、提了什么具体政策或时间表,一概不知。别被标题带节奏——这只是一篇评论,不是模型发布,也不是政策落地。信息缺口很明显:没有披露作者、论据、指标、实施路径。
#The Wall Street Journal#Commentary#Open source#Policy
精选理由
目前能确认的只有《华尔街日报》发了一篇观点文,标题拿开源和中国竞争说事。但正文没披露作者、论据、数据或执行路径,连开源对象和时间范围都没有。标题有钩子,但信息为零,按硬性缺源规则排除,分数低于 40。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
00:07
56d ago
● P1Hacker News 首页· rssEN00:07 · 04·20
开发者将TRELLIS.2图像转3D模型移植到苹果芯片运行
开发者 shivampkumar 把微软那个 40 亿参数的 TRELLIS.2 模型移植到了苹果芯片上,靠 PyTorch 的 MPS 后端驱动,一张图就能生成 3D 模型。他把原本依赖 Nvidia 硬件的 flash_attn、nvdiffrast 和自定义稀疏卷积算子全换成了纯 PyTorch 实现,包括稀疏 3D 卷积、SDPA 注意力机制和...
#Vision#Multimodal#Tools#Microsoft
精选理由
这不是微软官方模型发布,而是一个可复现的本地移植,对实际干活的人有参考价值。我会先打个折:3.5 分钟生成一个网格不算快,但考虑到不用联网、不用 Nvidia,这个结果挺实在。正文把替换掉的组件和替代方案都列清楚了,信息量够,所以放在 featured 而不是 p1。
一句话点评
TRELLIS.2 的 3D 生成终于能在 Mac 上跑了,不用 N 卡。但项目刚起步,Star 才 33,稳定性别抱太高期待。
锐评
这条消息对用 Mac 的 3D 创作者是个好消息。TRELLIS.2 原本依赖 NVIDIA GPU,现在被开发者移植到苹果芯片上,意味着你手里的 MacBook 也能直接从一张图生成 3D 模型了。项目目前还很早期,GitHub 上只有 2 个 fork、33 个 star,社区验证几乎为零。 正文没披露生成一个模型要多久、显存占用多少,也没和原版跑在 N 卡上的效果做对比。这些数据直接决定它能不能干活——如果生成一张图要十分钟或者细节丢得厉害,实用性就得打折扣。另外,项目只说了“能跑”,没提是否支持 M1/M2/M3 全系芯片,也没给最低系统要求。 想试试的话可以 clone 下来跑跑看,但暂时别把它当生产工具。等有人放出实测速度和效果对比,再判断值不值得切过去。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
00:00
56d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·20
Harness Engineering 到底是什么——一个没人能定义却火了三个月的概念
这篇文章解释了 Harness Engineering 为什么能火三个月:不是靠炒作,而是因为大量团队在部署 agent 时同时撞上了五面墙——错误组合爆炸、自然语言产出没法度量、agent 会感知 context 限制并走捷径、输出不可复现导致传统测试失效、治理框架管不住概率性行为。每面墙的根源都一样:传统软件可靠性保障链条的每个环节都假设系统是确定...
#Agent#Tools#Commentary
精选理由
这篇文章本质上是一篇概念澄清帖,不是技术方案或产品发布。它把agent落地中团队组织跟不上能力迭代的失配现象命名为'harness engineering',但只给了名字和一个粗略的时间判断(3个月),没有给出任何可操作的原则、案例或指标。HKR-H靠标题的认知反差成立;HKR-K因为正文信息密度极低,没有披露任何实质内容而失败;HKR-R靠点中agent落地流程痛点的真实感成立。综合来看,概念有价值但内容空洞,按规则打零分合理。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
00:00
56d ago
OpenAI 博客· rssEN00:00 · 04·20
凯悦酒店集团全球员工用上ChatGPT Enterprise,OpenAI公布合作细节
凯悦酒店集团已向全球员工部署ChatGPT Enterprise,覆盖财务、营销、运营等部门,并接入GPT-5.4和Codex。目的是减少手动工作,提升宾客体验。OpenAI称这是企业AI从试点走向规模化的一步,但正文没有披露部署员工数、上线时间、成本或可量化的效率提升。凯悦此前已在ChatGPT内上线了Hyatt App。
#Code#Tools#OpenAI#Hyatt
精选理由
这是一篇客户案例:Hyatt 给全球员工上了 ChatGPT Enterprise,并点名用了 GPT-5.4 和 Codex。HKR-R 存在,但 HKR-K 很弱,且触发了硬排除规则(纯营销/案例研究),所以重要性低于 40。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R1
2026-04-19 · 星期日2026年4月19日
23:54
56d ago
r/LocalLLaMA· rssEN23:54 · 04·19
RTX 3090/4090/5090 对比 Mac M5 Max:跑 Qwen3.6-35B-A3B 本地速度
Reddit 上有人拿 RTX 3090、4090、5090 和 Mac M5 Max 跑 Qwen3.6-35B-A3B 模型,用 llama.cpp 测本地速度。但帖子正文被屏蔽了,只留了个 YouTube 链接,没交代测试设置、量化精度、每秒生成多少 token、功耗和上下文长度。所以这只能算个线索,不是结论——没有可复现的细节,数据就没法信。
#Inference-opt#Benchmarking#Tools#NVIDIA
精选理由
H 成立:硬件对决的钩子很清晰,四张卡对打 M5 Max 本身就吸引眼球。R 成立:本地推理玩家天天琢磨 GPU 和 Mac 谁划算,这个对比直接切中痛点。K 不成立:正文没披露量化版本、token/s、功耗和上下文长度,只有标题和链接,算线索不算结论,没法直接拿来用。
一句话点评
正文被 Reddit 屏蔽,实际数据没看到。标题说用 Qwen3.6-35B-A3B 在 llama.cpp 上测了 RTX 3090/4090/5090 和 Mac M5 Max 的本地推理速度,但具体 token/s、显存占用、功耗都没披露。如果真跑过,3090 二手性价比可能依然能打,5090 带宽优势明显,M5 Max 统一内存适合大模型但带宽受限。缺实测数字,没法判断谁真快。
锐评
RSS 只显示 4 款硬件对比 Qwen3.6-35B-A3B,正文未披露量化版本、prompt 模板、batch、上下文长度、tok/s 或瓦数,所以这组结果现在没有办法拿来下采购判断。 我对这种标题党横评一向比较谨慎。llama.cpp 的本地推理差 1 个条件,结论就能翻脸。35B-A3B 这种 MoE 模型尤其麻烦,激活参数、KV cache 压力、CPU 参与比例、是否命中 Metal 或 CUDA 的新内核,都会把结果拉开。3090 的 24GB 显存能不能完整装下某个量化档位,4090 的带宽和时钟能吃到多少,5090 是算力领先还是被显存容量、驱动、编译参数卡住,Mac M5 Max 又是统一内存占优还是被 Metal 后端拖住,标题都没法回答。文章连最基本的 tok/s 和功耗都没给,这就没法谈性能密度,更没法谈性价比。 说真的,这类对比最容易误导人的地方,不是跑分高低,是默认大家在比同一件事。其实吧,本地推理至少要拆成三层:首 token 延迟、持续生成速度、长上下文稳定性。很多 YouTube 基准只放持续 tok/s,看着很热闹,但用户真正在乎的常常是 8k、32k 甚至更长上下文下会不会掉速,或者首 token 要不要等 3 秒。我记得过去一年 LocalLLaMA 上不少 4090 对比 Mac Studio 的帖子,最后争的都不是峰值速度,而是静音、功耗、可维护性和是否愿意折腾 CUDA。这个标题把 5090 和 M5 Max 放一起,本身就说明作者想打“消费级 GPU 对 Apple 统一内存”的叙事,但正文没给复现条件,我不太买账。 我还没查到视频原文,所以不能判断作者有没有在 YouTube 里补全配置。如果补了,至少要给出 llama.cpp commit、量化格式,比如 Q4_K_M 还是更高档位、是否启用 flash attention、驱动版本、推理线程数、提示词长度和测量区间。少一项,结论就会飘。眼下这条更像社区温度计:大家确实在等 5090 对本地 30B 级 MoE 的真实提升,也在看 Apple M 系列还能不能靠大内存守住一席之地。可在可复现数据出来前,我不会把它当成任何平台已经赢了的证据。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
22:49
56d ago
彭博科技· rssEN22:49 · 04·19
澳洲数据中心商NEXTDC融资11亿美元,需求涨但钱怎么花没说
澳大利亚数据中心运营商NEXTDC计划融资15亿澳元(约11亿美元),理由是客户对机柜容量需求激增。11亿美元不算小数目,但正文没披露这笔钱具体要建几个项目、客户是谁、融资结构是股权还是债务。关键变量其实是资本开支节奏——如果扩张太慢,需求再大也兑现不了收入。这点先别太激动,等后续披露再判断。
#NEXTDC#Funding#Product update
精选理由
这是一条真实的AI基础设施资本信号:HKR-K落在15亿澳元融资规模上,HKR-R落在算力供给和资本开支的敏感点上。但正文没披露融资结构、扩容项目、客户构成和交割时间,所以只能放在all层级,不值得上featured。
一句话点评
NEXTDC 要融资 11 亿美元建数据中心,说明澳洲算力需求在涨。11 亿不是小数目,但正文没披露具体建几个、单机柜成本多少,也没说客户是谁。如果是真的,说明澳洲在抢亚太算力蛋糕,但融资稀释股权,现有股东得掂量一下。
锐评
NEXTDC 计划募资 15 亿澳元,我先把它看成供给侧吃紧,不是需求侧被验证。标题讲“需求激增”,正文只给了募资规模,没给预租率、上架机柜数、MW 扩容、客户结构,也没给交付节奏。没有这些,需求这两个字只能算管理层口径,离可兑现收入还差一大截。 我一直觉得,数据中心融资新闻最容易被讲成 AI 景气代理变量,其实吧,它更像电力、土地、冷却和资产负债表的联合函数。尤其是澳大利亚,这两年数据中心故事常被电力约束卡住。Sydney、Melbourne 这类核心市场,真正稀缺的往往不是机房壳子,而是能不能拿到足够电力、变电接入和长期建设窗口。AI 训练集群把单机柜功率往上推后,老一代 colo 的扩容逻辑已经不太够用了。正文没披露 NEXTDC 这笔钱投向新园区、既有园区追加,还是单纯补现金,我没法替它把“需求激增”自动翻译成“收入快增”。 外部参照其实很清楚。过去一年,市场给数据中心平台很高估值,AirTrunk 那笔大交易就是最典型的信号,我记得规模在澳洲基础设施并购里非常靠前,但那类资产被追捧,靠的是长期合同、区位、电力接入和客户黏性,不是新闻稿里一句 demand surge。美国那边 CoreWeave、Digital Realty、Equinix 也都把资本开支拉得很高,可投资人现在更看重两件事:一是已签约容量占比,二是上线时间有没有往后滑。NEXTDC 这条,两项都没给。 我对这条还有一个疑虑:如果融资方式以股权为主,现有股东承受稀释;如果债务占比高,利率和回款周期会更刺眼。正文没披露结构,这个空白很关键。数据中心在 AI 周期里当然受益,但它不是“只要有 GPU 需求就自动赚钱”的生意。先建出来,再拉满功率,再把高价值客户锁成多年合同,这三步少一步,资本开支都可能先跑到收入前面。现在能确认的只有一件事:NEXTDC 需要更多钱,而且要得不小。至于这笔钱是在追订单,还是在抢时间,标题没有回答。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H0·K1·R1
22:41
56d ago
r/LocalLLaMA· rssEN22:41 · 04·19
llama.cpp 投机解码调参,有人跑出 665% 加速
Reddit 用户分享 llama.cpp 投机解码调参经验:用 `--spec-type ngram-map-k` 等参数,在 Devstrall 小模型上拿到 665% 的生成速度提升。同一段 prompt 下,Gemma 4 31B 大约翻倍,Qwen 3.6 涨了 40%;后来把 `--repeat-penalty` 改成 1.0、`--spe...
#Inference-opt#Code#Tools#Commentary
精选理由
HKR-H 靠 665% 的速度钩子通过。HKR-K 和 HKR-R 不通过,因为帖子只给了参数和相对提升,没披露硬件、量化、上下文或绝对 tok/s,而且局限在推理调参的 niche 里;hard-exclusion-technical-accessibility 把分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
21:24
56d ago
TechCrunch AI· rssEN21:24 · 04·19
OpenAI 的两个生存难题:缺赚钱产品、缺好名声
TechCrunch 的 Equity 播客聊了 OpenAI 最近的两笔收购,认为它们指向公司两个核心问题。一是缺一个比聊天机器人更能赚钱的产品,收购个人理财应用 Hiro 可能是想补这块;二是公众形象最近不太好,收购媒体初创 TBPN 可能是为了改善舆论。正文没披露收购金额、具体团队规模,也没说这两家公司具体怎么融入 OpenAI 的产品线。
#OpenAI#Equity#TechCrunch#Commentary
精选理由
这篇 Equity 播客摘要只确认了 OpenAI 有最新收购和两个生存级问题,正文没披露收购对象、金额、时间,也没说具体是哪两个问题。标题有钩子,但信息量几乎为零,属于硬排除——零信源。重要性低于 40 合理。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
20:25
56d ago
Hacker News 首页· rssEN20:25 · 04·19
瑞士政府想减少对微软的依赖
瑞士当局计划降低对微软的依赖,但正文没披露具体涉及哪些系统、备选方案是什么,也没有时间表和预算。关键缺口是采购和迁移的范围,目前信息太少,没法判断这事有多大影响。
#Microsoft#Policy#Commentary
精选理由
这是一条中等价值的政策报道:HKR-H来自政府vs微软依赖这个角度,HKR-R来自主权和锁定。HKR-K不成立,因为故事没有给出范围、替代供应商、时间表或预算,所以定all而非featured。
一句话点评
瑞士政府想减少对微软的依赖,但正文没披露具体替代方案、预算或时间表。目前只是表态,缺乏执行细节,这点先别太激动。
锐评
瑞士当局提出降低对 Microsoft 的依赖,但正文只给到政策方向,没披露系统范围、替代方案、预算和时间表。我的判断是,这类消息先别按“政府上开源”理解,更像先给采购谈判加筹码,再给数字主权立一个公开口径。没有范围,任何“去微软化”都只是姿态;范围一旦碰到 M365、Entra ID、Teams 和 SharePoint,难度会立刻上一个量级。 我一直觉得,欧洲政府口中的“减少依赖”和外界理解的“替换供应商”不是一回事。过去一年最像的参照,是德国石勒苏益格-荷尔斯泰因州推进从 Microsoft 迁向 LibreOffice、Linux 和开源协作工具;法国、丹麦、荷兰也都反复谈过主权云与办公软件独立。口号都不新,难点也都一样:文档格式兼容、身份系统迁移、宏和插件、历史工作流、以及公务协同里被 Teams 绑住的沟通链。这个账通常不是 license 节省 10% 或 20% 能覆盖的,迁移的人力和中断成本更大。正文没给任何数字,所以现在还不能判断瑞士是在谈桌面办公、云基础设施,还是 AI 与数据服务采购。 我对标题里的叙事有个保留:很多政府说“减少依赖”,最后做成的是多供应商分散采购,不是实质退出。因为锁定点早就不只在 Windows 和 Office。现在更硬的锁定层在身份、合规、审计、会议、邮件归档,还有 Copilot 这类增值层。一旦一个机构已经把 Entra ID、Purview、Defender、Teams Phone 叠上去,迁移就不是换软件,而是拆一整套控制面。文章没说瑞士卡在哪一层,我还没法判断这次是象征动作,还是准备动核心系统。 还有一层别忽略:这条挂在“AI”语境里时,矛头未必只是办公套件。过去一年政府和大企业越来越担心,数据、推理入口和办公入口被少数美国厂商打包。Microsoft 靠 Azure OpenAI、M365 Copilot 和安全栈,把“云+模型+办公”捆得很紧。瑞士如果真的要降依赖,采购规则多半会开始区分基础设施、生产力工具和 AI 服务,不让一家同时拿三层。这个方向我觉得比“换不换 Windows”更像重点。 所以这条现在信息很薄。我能确定的只有标题给出政策态度,正文没披露执行条件。后续如果没有部门名单、合同金额、迁移批次和例外条款,这条就还是政治表态;如果这些数字出来了,它才算一条能改采购格局的新闻。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
19:30
56d ago
TechCrunch AI· rssEN19:30 · 04·19
AI 创业公司的 12 个月窗口期
投资人 Elad Gil 在播客里给 AI 创业者提了个醒:大部分公司只有大约 12 个月的价值巅峰期,之后估值就会回落。他建议董事会每年固定一两次专门讨论退出时机,把情绪因素剥离掉。这个建议现在尤其值得听——很多 AI 创业公司之所以还能活,只是因为底层大模型还没扩张到它们的细分赛道。一旦大模型开始覆盖,窗口就会关上。Gil 举了 Lotus、AOL...
#TechCrunch#Commentary
精选理由
HKR-H和HKR-R通过:12个月倒计时是个强钩子,平台吞并的角度打中了创业者的焦虑点。HKR-K不通过:没有样本、赛道或方法披露,触发了硬排除规则“零来源”;这条故事保持排除。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
19:23
56d ago
r/LocalLLaMA· rssEN19:23 · 04·19
48GB MacBook 跑本地模型能到 50 tok/s,够不够替代 Claude?
一位用户说自己的 48GB MacBook Pro 跑 qwen3.6-35b-a3b 能到约 50 tok/s,速度还行。他之前主要用云端模型,但 Claude 的用量上限经常卡住工作,所以想试试本地模型能不能顶上。帖子还提到对 Gemma 4、Qwen 3.6、量化以及 Unsloth 感兴趣。这属于个人实测,不是产品发布,所以没有跑分或对比数据。...
#Inference-opt#Tools#Commentary
精选理由
HKR-K 落在那个具体的吞吐数据上,HKR-R 落在 Claude 限额后切本地模型这个真实场景。但说到底这只是 Reddit 上的求助帖,没有控制对比、没有量化细节、也没有任务结果,所以信号偏弱,层级保持 all。
一句话点评
一个新手在 LocalLLaMA 版求本地跑模型的入门建议,帖子本身被 Reddit 屏蔽了,正文看不到。这类求助帖通常能挖到社区推荐的硬件配置、量化工具和推理框架,但这次信息缺口太大,没法提炼具体经验。如果你也在入门阶段,建议直接搜版内精华帖或翻之前的“硬件推荐”讨论。
锐评
发帖者把 48GB MacBook Pro 上的 qwen3.6-35b-a3b 跑到约 50 tok/s,还直接拿它对标 Claude 限额后的空档,这已经不是 hobbyist 口味测试,而是企业一线在算“够不够顶班”。我对这条的判断很直接:2026 年本地模型进入办公室,不是因为效果首次追平云端,而是因为配额、隐私、延迟和边际成本四件事终于同时压到一条线上了。 先说数字。正文只给了两个硬信息:48GB 统一内存、约 50 tok/s。没给量化位数,没给上下文长度,没给是首 token 还是持续吞吐,也没给具体推理框架,所以这组性能还不能横向比较。我自己对“50 tok/s”会留个问号:在 Apple Silicon 上,35B 级 MoE 模型能跑到这个速度,不稀奇,但前提通常是激进量化、较短上下文,或者用到了更吃内存带宽的实现。没这些条件,数字的参考价值有限。 但这条帖子的信号不在 benchmark,在采购逻辑。过去一年,很多团队把 Claude、ChatGPT、Gemini 当主力,再用小模型做辅助分类、RAG 和草稿生成。现在开始变成另一种结构:云端模型负责高风险、高难度、需要长上下文的任务;本地模型负责“别停机”这件事。这个变化很现实。开发团队最怕的不是模型分数低 3 个点,而是下午 4 点集体撞上 usage cap,IDE 里一半工作流直接断掉。只要本地模型能把代码解释、重构建议、单文件问答、测试样板这些活顶住 60%-70%,它就有组织价值。 我一直觉得 LocalLLaMA 社区这两年的一个误区,是太爱聊“能不能替代旗舰”,不够爱聊“哪一段工作最先被切走”。这帖反而把问题问对了:不是本地模型能不能全面替 Claude,而是 Claude 忙、贵、限额时,哪部分任务可以先回落到本地。这个分工跟 2024 年很多公司部署开源 coding model 的路径很像。我记得当时不少团队先上 7B/14B 量化模型做补全和仓库问答,再把复杂 agent 任务留给 Sonnet。模型不需要全赢,只要在一个窄场景稳定够用。 还有个背景,文章里没写,但业内都感受得到:MacBook 正在变成“默认本地 AI 客户端”。不是因为它算力最强,而是因为 48GB、64GB 这档统一内存机型已经广泛进了管理层和开发团队的设备清单,部署 friction 低,权限也比单独采购 GPU 工作站小得多。公司愿意让员工先在笔记本上跑起来,再谈内网模型网关、审计和缓存层。这个顺序很重要。很多所谓企业本地 AI 落地,第一步不是机房,而是员工桌面。 我对这条也有一点 pushback。把本地模型当 Claude 限额补位,听上去顺,但真正难的不是把权重跑起来,是把路由、评测和失败边界定义清楚。什么请求自动走本地,什么请求必须回云端,谁来负责 prompt 差异、工具调用失败、代码建议质量回退,正文都没碰到。没有这层编排,本地模型最后常常只变成“断网时备用聊天框”,不是生产能力。 还有个信息缺口得直说:标题和正文都没披露业务类型。是写代码、分析文档、客服草拟,还是内部知识库问答?这些任务对本地模型的要求差很多。比如代码补全和 repo 问答,Qwen 系、DeepSeek 系、Gemma 系近几代量化后已经能打;但跨文件重构、长链工具调用、复杂推理审查,现在仍然是云端大模型更稳。任务没拆,替代率就没法算。 所以我会把这条看成一个很朴素但很硬的转折:企业用户开始把“本地推理”从兴趣话题改成容量管理问题。模型圈爱追榜单,IT 部门看的是另一张表:每周多少请求被限额卡住,多少任务能在终端侧闭环,多少敏感数据根本不该出设备。这三个数一旦算清,本地 LLM 就不会再是 demo。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R1
18:43
56d ago
r/LocalLLaMA· rssEN18:43 · 04·19
llama.cpp 采样器调参:温度设到 1000 输出照样正常
Reddit 用户发现,在 Gemma 4 26B A4B 上把 llama.cpp 的采样参数推到极端(比如温度设到 1000),模型依然输出连贯、重复的内容,跟默认参数几乎没区别。这说明采样器可能根本没生效,或者 llama.cpp 的采样堆栈对极端值做了隐式截断。正文没披露 llama.cpp 版本、完整运行配置和日志,所以不能确定是 bug 还...
#Inference-opt#llama.cpp#Gemma#Commentary
精选理由
只有 HKR-H 成立:temperature 1000 输出几乎不变,这个钩子够硬。HKR-K 不成立,因为帖子没披露 llama.cpp 版本、完整参数、日志和复现步骤,信息缺口明显。HKR-R 窄,主要影响本地推理调试的群体,不触及更广的行业神经,所以保持低 tier all。
一句话点评
正文被 Reddit 屏蔽,只拿到标题。Samplers 是控制模型输出随机性的参数,比如 temperature、top-p,对本地跑模型调手感很关键。但具体内容看不到,没法判断有没有新方法或对比实验。
锐评
Gemma 4 26B A4B 在 temperature=1000 条件下仍输出连贯文本,这个现象先该怀疑采样实现,别急着怪训练。按常识看,只保留 temperature 且把值拉到 1000,分布会被压得接近均匀,质量通常会直接塌掉,至少文风、选词、重复模式该明显漂。现在正文只给了用户主观观察,没给 llama.cpp 版本、seed、是否关闭 top-k/top-p/min-p、模板、上下文长度、量化细节外的 runtime 参数,也没给 logits 或 token trace,所以还不能下“采样坏了”的结论。但这条已经足够说明一件事:如果极端参数前后几乎无差别,优先排查的是采样链是否真的生效。 我对“新模型训练更严格,所以更重复”这个解释不太买账。Gemma 系列确实比很多开源权重更听话,RLHF 或后训练也会把回答往安全、收敛、少发散推,可那不该让 temperature=1000 失去作用。除非实现里还有别的硬约束盖在前面,比如 grammar、模板里的固定续写、重复惩罚或 DRY 之类处理顺序异常,或者根本走到了贪婪解码分支。llama.cpp 过去一年加了不少 sampler 相关选项,链条比早期复杂很多;我没查到这条对应的具体 commit,所以不想硬指某个版本,但经验上这种“怎么调都一样”更像参数被覆盖、顺序有 bug、UI 到后端映射错了,而不是模型突然免疫随机性。 还有一个上下文。社区里每次遇到循环输出,都喜欢先怪量化或怪模型对齐。A4B 这类低比特/混合量化确实会放大重复,尤其在长上下文或模板不稳时更明显,我自己也见过 4-bit 权重把尾部分布压扁。但量化带来的通常是“更容易重复”,不是“把 temperature 从常规值拉到 1000 仍几乎不变”。这是两类问题。前者是模型分布变形,后者更像采样后处理没接上。 这条现在最缺的是可复现日志。至少要有 1 个固定 prompt、2 组 seed、完整命令行,外加把 temperature 从 0.7、2、10、1000 逐级拉高的输出对照。再直接开 verbose 或打印每步 sampler 配置,确认 top-k、top-p、min-p、repeat penalty、grammar 有没有真的清零。没有这些,标题只能证明“有人观察到异常”,证明不了“llama.cpp 的 samplers 坏了”。但说真的,temperature=1000 还基本不动,这一下已经够让做本地推理的人去翻自己的启动参数和前端封装了。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
18:13
56d ago
Hacker News 首页· rssEN18:13 · 04·19
Uber 砸了 34 亿美元搞 AI,CTO 却说预算不够花
Uber 的 CTO 公开抱怨,尽管公司已经花了 34 亿美元在 AI 上,预算还是卡脖子。34 亿这个数字看着大,但正文没交代这笔钱是花在自研模型、买算力还是招人,也没说覆盖了多长时间、涉及哪些团队。没有成本明细,光看这个数判断不了 AI 的投入产出比。
#Uber#Commentary
精选理由
HKR-H靠的是34亿美元和预算墙之间的反差;HKR-R打中了企业AI ROI压力这个真实痛点。HKR-K不成立,因为文章没披露花费周期、项目构成、供应商或受影响团队,所以只能留在all,不能上featured。
一句话点评
Uber CTO 公开吐槽:一年烧了 34 亿美元搞 AI,预算还是不够用。这钱主要花在自研 ML 平台、GPU 集群和内部工具链上,但效果没跟上投入——模型迭代慢、落地场景窄,管理层还在砍预算。正文没披露具体哪个业务线最烧钱、ROI 到底多少。34 亿对 Uber 这种体量不算小数目,但 AI 军备竞赛里这点钱可能真不够。
锐评
Uber CTO 把 AI 预算瓶颈和 34 亿美元放在同一句里,这个表述本身就比“AI 太贵”更值得警惕。标题给了一个大数,正文却没披露周期、项目范围、供应商、算力采购口径,连这 34 亿美元是 capex、opex,还是并购和组织成本混算都不知道。在这种信息密度下,任何关于 Uber AI ROI 的结论都站不住。 我对这条的第一反应,是它更像一场内部资源分配冲突被包装成“AI 遭遇现实”。Uber 这种公司,AI 花钱至少有 4 个桶:一是地图、ETA、定价、欺诈这些传统机器学习基础设施;二是客服、开发辅助、运营 Copilot 这一类生成式应用;三是外部模型 API 采购;四是自建训练和推理集群。34 亿美元如果跨多年,把前两类都算进去,并不夸张。问题在于,标题把它们压成了一个“AI push”叙事,这会严重误导读者。推荐排序模型和给客服接 Anthropic Claude,财务结构不是一回事。 外部参照也能说明这点。过去一年,大公司谈 AI 成本时最爱把两种钱混着说:微软会同时讲 capex 和 inference demand,Meta 会把 GPU 折旧、数据中心扩建、开源分发压力放在一张图里,Amazon 则经常把 Bedrock 的外部模型采购和自家 Trainium 投入放在同一个战略框架里。你如果不拆口径,就很容易把“基础设施前置投资”误读成“单个 AI 产品已经烧穿预算”。我没查到 Uber 这 34 亿美元的原始出处,但只看标题,这个风险已经很明显。 还有个细节让我有点怀疑:标题点了 Anthropic。可正文摘要明说,没有披露模型供应商或受影响团队。那这条新闻现在更像二次加工后的叙事拼装,而不是可核对的经营信息。要是真想判断 Uber 在 AI 上是不是碰墙,至少要有三组数。第一,周期,34 亿是 1 年、3 年还是更长。第二,拆分,模型 API、GPU 租赁、自建集群、人力各占多少。第三,产出,对应的是接单转化、客服自动化率、工程效率,还是自动驾驶相关研发。少任意一组,讨论都会滑向情绪判断。 说真的,Uber 这类平台公司面临的难点,从来不只是“模型太贵”。它们更常见的问题是,边际收益很分散。你把 LLM 接进客服,可能降低每单支持成本;接进司机运营,可能改善响应速度;接进内部开发,可能省掉部分工程时间。但这些收益分散在不同 P&L 里,成本却集中体现在云账单和采购合同上。财务视角会天然觉得 AI 在吞预算,业务团队会觉得效果已经落地。两边都不一定错,只是计量口径不同。 如果把这条放回 2025 到 2026 的大盘里看,我一直觉得市场对企业 AI 成本有个常见误判:把“试点扩散期”的费用,拿去要求“成熟 SaaS”的回报。很多 Fortune 500 今年的问题不是模型能力不够,而是从 10 个试点扩到 100 个团队后,身份权限、审计、数据隔离、缓存、推理路由全开始吃钱。OpenAI、Anthropic、Google Cloud 都在推企业级编排和治理,不是因为模型不行,是因为接入组织系统后的隐性成本比 demo 高太多。Uber 如果真在卡预算,我猜卡的也大概率是这层组织化成本;但我不能替正文补事实,这里只能说标题没有给出验证材料。 我的结论很简单:这条现在不能读成“Uber 花 34 亿美元做 AI 失败了”,也不能读成“企业 AI 泡沫破了”。它更像一个提醒——企业披露 AI 投入时,只报总额几乎没有分析价值。没有周期,没有成本归因,没有业务产出,34 亿和 3.4 亿在判断上差别都没你想的那么大。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
17:44
56d ago
Hacker News 首页· rssEN17:44 · 04·19
溴素卡脖子:中东冲突可能让全球内存芯片停产
这篇讲的是中东冲突可能切断溴素供应,进而让全球内存芯片停产。溴素是生产半导体级溴化氢气体的原料,而韩国97.5%的溴素进口来自以色列。如果以色列的溴素生产被导弹打掉,全球没有其他工厂能立刻补上产能——建新设施要几年。正文没披露受影响的具体厂商、库存能撑多久、以及停产触发条件。真正的风险点在于单一材料卡脖子,而不是泛泛的芯片短缺。
#Commentary
精选理由
标题用中东冲突掐住溴供应来制造存储芯片停产恐慌,但正文只有RSS条目,没有厂商名称、制程环节、库存数据或停产条件。真正该盯的是材料单点依赖,不是泛泛的“芯片短缺”叙事。对AI从业者来说,没提HBM、训练成本或产能时间线,信息缺口太大,无法判断实际影响。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
17:25
56d ago
r/LocalLLaMA· rssEN17:25 · 04·19
彭博社:新 Mac Studio 至少等到 10 月
彭博社消息,苹果下一款 Mac Studio 最早也要 10 月才发布。帖子只贴了个 9to5Mac 链接和一句短评,没透露芯片型号、价格、配置,也没说为什么延期。对跑本地模型的人来说,这个时间线意味着今年上半年不用等新桌面设备了,得按现有硬件做规划。正文没披露延期原因和具体配置。
#Bloomberg#Apple#9to5Mac#Product update
精选理由
只有 R 成立:Mac Studio 的时间表对部分本地大模型买家规划下半年桌面算力采购有影响。K 不成立是因为正文只披露了“至少到10月”,芯片、价格、配置、推迟原因全部缺失,AI 关联也很间接。H 不成立是因为这只是一条发布延期消息,没有新机制、硬数据或意外转折。
一句话点评
彭博社消息称,新款 Mac Studio 至少要到 10 月才发布。目前正文被 Reddit 屏蔽,无法获取更多细节。对本地大模型玩家来说,这意味着想用苹果桌面端跑大模型还得等,现有 Mac mini 或 MacBook 仍是主力。信息缺口:延迟原因、芯片规格(M4 Ultra?)均未披露。
锐评
彭博称 Apple 将把新 Mac Studio 发布时间推迟到至少 10 月,正文没给芯片型号、内存上限、价格,也没解释延后原因。我的判断很直接:这条先影响的不是苹果销量,而是本地模型开发者 2026 年下半年的设备决策。很多人原本会等新 Studio 再决定,是买统一内存的大容量 Mac,还是直接上 2 到 4 张消费级 GPU 工作站;时间一拖到 10 月,这个等待成本就变高了。 我一直觉得 Mac Studio 在本地 LLM 里的位置很特殊。它不是吞吐冠军,tokens/s 往往打不过同价位多卡 CUDA 机;它卖的是大统一内存、低噪音和部署省心。去年到今年,不少团队拿高内存 Mac 跑 70B 量化、多模态 demo、语音流水线,图的就是一台机器把 CPU、GPU、内存和功耗都收拾干净。问题也一直没变:Apple Silicon 的图形算力和软件生态,对训练和高吞吐服务还是弱,MLX 很顺手,但生态体量离 CUDA 还差一截。时间表再往后挪,等于 Apple 默认把一批犹豫单让给 Nvidia 台式机方案。 我对社区里那句“等能跑 DeepSeek v4 的 Studio”有点不买账。标题只给了发布日期,没给统一内存容量,也没给带宽。没有这些数字,讨论“能不能跑某个未来模型”基本是在空转。就算机器在 10 月到,模型尺寸、量化方案、上下文长度、是否走 MoE,都会决定体验。拿我记得的背景看,过去一年本地部署的瓶颈越来越像内存容量和带宽,不只是参数量本身;如果新 Studio 还是只小步涨内存,这条消息的杀伤力会比发布时间更大。可惜正文没披露。 还有一层别忽略:Mac Studio 的延后,也在给 Windows/Linux 工作站更多确定性。4090、5090 这类卡再贵,采购 today 就能算账;Apple 这边如果连芯片档位都不明,团队预算就很难锁。我还没查到 9to5Mac 原文的供应链细节,所以不想猜是 M4 Max、M4 Ultra 还是别的版本。但从采购角度讲,结论已经够清楚:如果你下半年要交付本地推理产品,别把 October 当成计划基线,把它当成最早可能点更稳。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H0·K0·R1
17:09
56d ago
r/LocalLLaMA· rssEN17:09 · 04·19
Qwen 3.6 35B-A3B模型8GB显存运行性能测试与配置讨论
Reddit用户分享在8GB显存+24GB内存的机器上跑Qwen 3.6 35B A3B,用Q3_K_S量化、开90k上下文,首轮速度约21 tok/s,几轮对话后降到19.5 tok/s。这个速度对35B模型来说算快的,代价是用了大量系统内存(24GB)和闪存注意力(flash-attn),并且关闭了内存映射(--no-mmap),意味着加载和推理会...
#Inference-opt#Vision#Tools#Qwen
精选理由
HKR-K通过是因为帖子给出了可复现的llama-server参数和8GB显存下的吞吐量。Tier保持excluded,硬排除规则technical-accessibility触发:这是一个针对特定硬件配置的本地推理调参帖,对类似配置以外的读者价值有限。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
16:30
56d ago
TechCrunch AI· rssEN16:30 · 04·19
Palantir 发了一份22点小宣言,公开批评包容性文化
Palantir 在 X 上发了一份 CEO Alex Karp 新书《The Technological Republic》的22条摘要,直接批评“包容性”和“倒退文化”。正文没披露具体写了什么,但提到这家公司因为跟 ICE 合作、把自己包装成“西方捍卫者”,意识形态争议越来越大。如果你关心硅谷政治立场分化,这条值得看——但具体论点得等原文。
#Palantir#ICE#Commentary#Policy
精选理由
H 钩子成立:Palantir 主动发短文攻击包容性,这在科技公司里少见,容易引发讨论。K 弱在信息不全:RSS 只摘了一句,没有全文、发布时间和具体措辞,无法判断真实意图和影响范围。R 有实际关联:Palantir 与 ICE 合作,把自己定位为“西方”捍卫者,价值观争议会直接影响政府订单和公众信任。整体看,话题有热度但证据不足,适合 all 层级。
一句话点评
Palantir 发了一份 22 点“小宣言”,核心是批判硅谷的包容性文化“倒退”。这是 CEO 那本《技术共和国》的浓缩版,等于把公司价值观摆上台面。但正文没披露任何具体政策或业务影响,更像一次公开站队。对 AI 从业者来说,值得关注的是 Palantir 这类政府承包商如何用意识形态标签争取客户和人才——但这点先别太激动,目前没有数据证明这套说辞带来了合同或离职潮。
锐评
Palantir 发布短文抨击“包容性”,正文目前只露出 1 句摘录。标题已给出立场转向,全文、发布时间、原文措辞都未披露,所以先别替它补完论证。我对这条的判断很直接:这更像客户信号,不像内部文化宣言。 原因不复杂。Palantir 的核心叙事一直不是“做通用 AI”,而是“给国家机器和高监管机构交付系统”。ICE 被点名,西方防务叙事也被点名,这两件事放在一起看,发言对象就不只是员工,也包括联邦机构、边境执法、国防客户,还有一批把“价值观对齐”当成采购可靠性指标的人。公司公开把反包容性写进姿态,等于在说:我们不会为湾区主流文化做软化包装。 这里有个文章外的参照。过去一年,Anduril、OpenAI、Anthropic、Microsoft 都在更主动地贴近华盛顿,但多数公司的写法还是“国家安全、民主价值、负责任部署”。Palantir 这套更硬,也更挑衅。它不是把自己包装成中性基础设施,而是主动选择阵营。我一直觉得这会缩小它的人才池,尤其是研究、产品、基础设施工程这几类岗位。Palantir 可能根本不在乎,甚至把筛掉一部分候选人当成收益。 我有个疑虑。TechCrunch 这条只有标题和 1 句摘要,缺少原文上下文,没法判断 Palantir 是系统性改写价值观,还是一次情绪化发言。要是全文只有几百字口号,这条的商业意义就没标题那么大;要是它随后把同样口径写进招聘、客户材料、年报风险项,那就得当成组织路线。说真的,我更关心第二种证据:招聘页怎么写,政府业务高管谁出来背书,财报电话会会不会重复这套话。没有这些,标题有火药味,信息量还不够落地。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
15:47
56d ago
r/LocalLLaMA· rssEN15:47 · 04·19
本地跑大模型,RTX 5070 Ti 新卡和二手 3090 怎么选?
Reddit 用户想给已有的 RTX 4070(12GB)配第二张卡,目标跑 32B 稠密模型和 120B MoE,还要 256k 上下文和 30+ tokens/s 的生成速度。对比的是 RTX 5070 Ti(16GB,约 1200 美元)和二手 RTX 3090(24GB,约 1000 美元)。关键差异在总显存:配 4070 后,5070 Ti ...
#Inference-opt#Benchmarking#Tools#NVIDIA
精选理由
这是一条硬件选购帖,给了预算、显存和电源限制,但没有实测数据、结论或外部来源。HKR 三项全不满足,分数低于 40,所以排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
14:14
56d ago
● P1Hacker News 首页· rssEN14:14 · 04·19
Vercel 2026年4月安全事件披露
Vercel 发布安全公告,承认有攻击者未经授权访问了部分内部系统。目前服务仍正常运行,但已确认有少量客户被波及,Vercel 正在直接联系他们。公告没有披露攻击途径、数据泄露范围或修复时间表,信息量比较有限。建议用户检查环境变量,尤其是敏感环境变量功能,必要时轮换密钥。
#Vercel#Incident
精选理由
HKR-H 靠事件标题本身通过。HKR-K 不通过,因为通报只确认了事件和月份,受影响服务、数据范围、攻击路径、修复时间线全没写。HKR-R 不通过,因为没展示对 AI 下游的具体影响,所以这条只适合 all 级别,不上 featured。
一句话点评
Vercel 确认被黑,入口是一个被搞掉的第三方 AI 工具。用 AI 工具的公司得重新想想供应链安全了。
锐评
Vercel 在 2026 年 4 月 19 日公开了一起安全事件,攻击者通过一个被入侵的“第三方 AI 工具”打进了他们的内部系统。这个说法来自 Vercel 自己的公告,The Verge 的报道也引用了它。目前公开信息里没有说这个 AI 工具具体是什么、攻击者拿到了什么数据、影响了多少客户项目。 “第三方 AI 工具”这个入口值得注意,因为它不是传统的代码漏洞或凭证泄露,而是供应链里一个跑着模型的服务被当成了跳板。对大量依赖 Vercel 部署前端和边缘函数的开发者来说,最直接的风险是:如果你的环境变量、API 密钥或源码被访问过,那后续的连锁问题会很麻烦。但 Vercel 的公告正文没披露受影响范围,这点只能等后续更新。 现在下结论还太早。缺的关键信息包括:攻击持续了多久、Vercel 什么时候发现的、有没有客户数据流出、以及那个出问题的 AI 工具到底是哪家。如果是真的只停在内部系统层面,影响可控;如果涉及客户租户环境,那就是另一回事了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K0·R1
13:55
56d ago
r/LocalLLaMA· rssEN13:55 · 04·19
Qwen3.6-35b-a3b 量化对比:Q4_K_XL 反而比 Q5_K_S 好用
Reddit 用户实测 Unsloth 推荐的 Q4_K_XL 和 Q5_K_S 两种量化版本,在网页研究、文档研究、转录、Python/HTML 编码和调试五个任务上,Q4_K_XL 全面胜出,网页搜索差距最大。注意这是个人经验,不是严谨评测——帖子没交代用了什么评测集、什么硬件、采样参数怎么设。可以当个复现线索,别直接当结论。
#Reasoning#Code#Benchmarking#Unsloth
精选理由
HKR-H 和 HKR-R 成立:帖子声称的量化反转对本地部署者有实际意义。HKR-K 不成立:硬件、采样、评测集和量化细节全缺,目前只是一条 Reddit 上的个人对比,所以留在 all 层。
一句话点评
Unsloth 放出了 Qwen3.6-35b-a3b 的量化对比,Q5_K_S 和 Q4_K_XL 两种方案。正文被 Reddit 屏蔽了,看不到具体跑分和显存占用。如果是真的,35B 级别模型能压到 20GB 左右跑,对本地部署挺友好。但没披露推理速度、精度损失和实际任务表现,这点先别太激动。
锐评
这条信息量其实很窄:1 名 LocalLLaMA 用户在 Unsloth 推荐设置下,声称 Qwen3.6-35b-a3b 的 Q4_K_XL 在 5 类任务里强过 Q5_K_S,正文没给评测集、硬件、上下文长度、温度、seed,也没贴具体失败样例。没有这些条件,我不会把它读成“Q4 量化优于 Q5”的结论,只会当成一个待复现的异常点。 我对这种帖子一直比较谨慎,因为 llama.cpp 这一系量化从来不是“位数越高越稳”这么简单。Q4_K_XL、Q5_K_S 这种名字,背后差的是不同张量的位宽分配、重要通道保留方式、内存布局,还有你是不是已经把模型压到带宽瓶颈上。网页检索、文档研究、转录整理这几类任务,往往不是纯粹考参数保真度,它们很吃长上下文里的注意力稳定性、tool call 前后的格式服从、以及多轮输出时的采样噪声。如果 Q4_K_XL 恰好在这些层上更稳,体感反超并不稀奇。Local 模型圈过去一年已经见过很多次类似情况:某个更低位量化在代码补全或长文摘要上更顺,但一换成数学或结构化抽取就掉回来。我记得之前 Llama 和 Qwen 的 GGUF 讨论里就有过这种案例,具体帖号我没核实。 我更不买账的是“reasoning 强很多”这个表述。推理强弱不能靠 1 个用户的网页搜索体感来下结论,尤其网页搜索本身混了检索质量、页面清洗、提示模板、工具调用、停止条件 4 层变量。帖子说“web search 差距最明显”,这反而提醒我先查 agent 管线,而不是先夸量化方案。很多时候不是模型更会想,是某个量化版本更少跑偏、更少漏标签、更愿意按 HTML 或 JSON 骨架吐结果。对终端用户这当然算“更好用”,但它和抽象的 reasoning 不是一回事。 放到行业语境里看,这类讨论有价值,但价值在工程侧,不在榜单侧。闭源 API 用户现在默认拿供应商给的统一权重和服务栈,几乎看不到量化细节;本地推理用户面对的却是另一套现实:同一个 Qwen3.6-35b-a3b,GGUF 版本、量化配方、KV cache 设置、CPU/GPU offload 比例一变,结果就能翻。也因为这个,本地社区给出的“更强”通常要拆成至少 3 个问题:同任务是否更准,同延迟是否更稳,同显存是否更划算。原帖一个都没拆。 如果真要复现,我会先锁 4 个条件:同一批 50 到 100 个固定任务;温度 0 或固定 seed;相同 context 长度和相同工具链;记录 token/s、首 token 延迟、答案通过率。再把网页检索单独拆出来,区分“检索后总结”和“需要工具规划”的样本。跑完这套再谈 Q4_K_XL 是否值得替代 Q5_K_S,才像样。现在这条最多说明一件事:Unsloth 推荐配置不等于你的任务最优配置,这点我倒是信。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K0·R1
13:43
56d ago
r/LocalLLaMA· rssEN13:43 · 04·19
小模型写代码总翻车?RTX 4070 用户求提升方案
一位用 Qwen3.5 35B 在 RTX 4070(12GB)上跑代码的用户说,生成速度约 30 token/秒,但 90% 时间都在修模型自己写出的 bug。配置是 Ryzen 7 5800X3D + 32GB DDR4,没提试过哪些插件、协议或评估基线。正文没披露具体报错类型或已尝试的优化手段,所以只能先确认痛点:小模型写代码容易出逻辑错误,修 ...
#Code#Tools#Qwen#Reddit
精选理由
一条来自Reddit的实地报告,有具体硬件配置和速度数据,还点出了工作流痛点——90%时间在排查模型引入的问题。但正文没提试过哪些插件、协议或评测基线,也没有可复现的对比实验,所以放在all层级而不是featured。
一句话点评
短评:Reddit 帖问小模型怎么提升编码能力,但正文被屏蔽,看不到讨论。 点评:这条 Reddit 帖子标题直击痛点——小模型编码能力怎么提?但正文被 Reddit 屏蔽(403 错误),实际讨论内容为零。帖子来自 LocalLLaMA 板块,社区关注度一般(重要性 64)。目前能确认的信息只有提问本身,没有具体方法、实验数据或社区回复。对于想抄作业的从业者来说,这条链接等于空壳。建议直...
锐评
发帖者把 Qwen3.5 35B 跑到约 30 t/s,却把 90% 时间耗在排查错误,这已经说明主瓶颈不在吞吐。小模型写代码最常见的死法,不是“不会补全”,是它会稳定地产生看着像对的局部解,再把你拖进长尾调试。标题在问怎么提升 coding ability,我的判断更直接:先别急着找插件,先把任务切到模型能稳定闭环的粒度。 正文给了 3 个硬信息:Qwen3.5 35B、opencode、RTX 4070 12GB。正文没给 3 个关键条件:量化方案、上下文长度、仓库规模。也没给评测基线,比如 HumanEval、SWE-bench Verified、内部通过率。没有这些,讨论“换协议有没有用”很容易跑偏。MCP、工具调用、检索、测试代理都能帮一点,但前提是模型先能在单文件修改、明确接口、可快速回归的环境里维持一致性。要是它连 200 行内的小改动都经常引入新 bug,接更多工具只会放大错误半径。 我对“35B 是最好质量/速度比”这句有点保留。对 4070 12GB 这类卡,社区过去一年里更稳的做法,常常不是硬上更大的蒸馏或高压量化,而是退到更小但更听话的代码模型,再用测试、rerank、双模型审稿补回来。我没看到这位用户是否试过 Qwen coder 系、DeepSeek 系 coder,或 14B 左右的 instruct/code 变体,也没看到 pass@1 对比。没有基线,“最好”只是体感。 说真的,这条更像本地 coding agent 的典型分界线:30 t/s 已经够快,问题是每个错误的回滚成本太高。先做三件事更实际:限制单次 diff 大小;强制先写测试再改代码;把“生成”“审查”“执行”拆成两轮,哪怕用同一模型。要是这三件做完,错误占比还是接近 90%,那就别再优化工作流了,直接换模型。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
13:02
56d ago
r/LocalLLaMA· rssEN13:02 · 04·19
Qwen3.6-35B-A3B 在 lms chat 上表现不错,但只是个人体验
一位 Reddit 用户发帖说,Qwen3.6-35B-A3B 在 lms chat 上回复“准确”,用了自定义系统提示和采样参数(温度 0.7、top-k 10、top-p 0.9、min-p 0.05、presence penalty 1),显存约 20GB、内存 17GB,配合 `--gpu 0.55` 跑。但这是个人主观报告,不是跑分测试。正文...
#Reasoning#Tools#Qwen#LM Studio
精选理由
这是一条Reddit用户的个人测试记录,不是正式基准。虽然给出了采样参数和显存占用(约20GB显存+17GB内存,对本地部署有参考价值),但没披露测试集、量化版本和可复现准确率,信息缺口明显。结论:参数细节值得一看,但整体价值有限,适合所有人扫一眼。
一句话点评
一条 Reddit 帖子标题夸 Qwen3.6-35B-A3B 在 LMS Chat 上表现“顶级”,但正文被 Reddit 屏蔽(403),无法看到具体评测内容。目前只有标题信息,没有实测数据、对比基线或任务场景,无法判断是真强还是标题党。建议等完整评测或自己跑一下再下结论。
锐评
Reddit 用户公开了 Qwen3.6-35B-A3B 的一组参数。温度 0.7、Top-K 10、Top-p 0.9、Min-p 0.05、Presence penalty 1,还给了约 20GB 显存和 17GB 内存占用。我的判断很直接:这条有用,但它证明的是“采样和提示词能把本地模型的回答风格拧正”,不是“Qwen3.6-35B-A3B 已经被验证成高准确模型”。 原因不复杂。正文只给了个人体验,没给测试集、量化版本、上下文长度、token 速度,也没给复现准确率。“准确”这个词在本地圈子里经常被混成三件事:语气更果断、格式更整洁、事实更对。前两件事靠 system prompt 就能明显改善,最后一件事得靠 benchmark 或至少一组公开题目。这里都没有。尤其是 Presence penalty 1 配合较低 Top-K,会强行压掉重复和模板话术,读感通常会更像“会思考”。这不等于结论更真。 我一直觉得,LocalLLaMA 过去一年最容易被高估的,不是某个新权重,而是“一个顺手 preset”带来的错觉。Llama 3、Qwen 2.5、DeepSeek R1 distill 几轮都出现过这种现象:同一模型换个 chat template、停用词、采样区间,主观评价立刻从“笨”变“很强”。我没看到这帖子的量化信息,所以连“20GB 显存跑 35B-A3B”背后是几位量化都没法确认。要是是更激进的量化,准确率和稳定性本来就会波动。 我对那段超长系统提示还有点保留。它要求模型先在 `<think>` 里走五步,再给唯一答案。这类提示在 2025 年后很常见,很多模型会因为“被要求显得更严厉、更确定”而减少废话。问题也在这:它常把校准做坏。模型更少说“我不知道”,用户就更容易把流畅当正确。文章里提到作者想继续测计算生物,这块我会更谨慎。生物医药问答对术语、引用和边界条件很敏感,主观顺滑度没什么参考价值。 这帖子的价值,我看更像一个可复现起点。你可以照着参数跑,再换三件东西:公开题库、不同量化、不同 seed。只要作者拿出 50 题以上、固定题面、对照默认 preset 的命中率,这条就从经验贴变成数据点。现在还不是。
HKR 分解
hook knowledge resonance
打开信源
53
SCORE
H0·K1·R0
09:06
56d ago
● P1r/LocalLLaMA· rssEN09:06 · 04·19
Cloudflare 开源 Unweight:把大模型权重压缩 22%,输出结果一个字节都不差
Cloudflare 发了一个叫 Unweight 的压缩方案,专门解决大模型在 GPU 上跑时被显存带宽卡脖子的问题。它只压缩 BF16 格式里的指数位,不碰尾数,所以解压后能还原出完全一致的输出。实测一个 8B 模型能省下约 3GB 显存,压缩率在 15% 到 22% 之间。原理是模型某一层里超过 99% 的权重只用到 16 种指数值,Unweig...
#Inference-opt#Cloudflare#NVIDIA#H100
精选理由
Cloudflare 这篇 Unweight 的卖点很直:不改模型输出,把权重无损压缩 15% 到 22%。他们盯的是 BF16 里浪费的指数字节,发现大部分层的指数值就那么几个,所以只压这部分。8B 模型能省出 3GB 显存,对跑 H100 的人来说是实打实的成本优化。我会先打个折——正文没给吞吐实测数字,也没说哪些模型能用,片上解压和动态执行管线听起来有料但细节没展开。这点先别太激动,等他们补上实测再判断实际收益。
一句话点评
标题说压缩22%不损质量,但正文被Reddit安全墙挡了,看不到具体方法和验证数据,先别太激动。
锐评
这条消息来自Reddit的LocalLLaMA板块,标题挺吸引人——把一个大语言模型体积压掉22%,还声称质量没降。但点进去就撞上了Reddit的安全拦截,正文完全看不到。作者是谁、压的是哪个模型、用什么方法(剪枝、量化还是别的)、在哪些基准上测的、误差范围多大,这些关键信息一概不知。 对做本地部署的人来说,模型瘦身22%如果真不损性能,意味着同样的硬件能跑更大模型,或者推理更快、显存更省。但这类压缩技术通常有代价:要么在特定任务上掉点,要么推理速度反而变慢。没有公开的评测数据和复现步骤,这个22%的数字就只能当个引子看。 建议等作者补上技术细节和可复现的评测,或者有其他来源交叉验证了再认真对待。如果只是Reddit上一个被墙的帖子,信息量约等于零。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
08:04
56d ago
r/LocalLLaMA· rssEN08:04 · 04·19
嫌手动翻 Reddit 太慢,有人写了个本地工具抓高价值帖子
一个 Reddit 用户做了个叫 Leadline 的本地工具,专门监控 Reddit 并筛选出意图更强的帖子,比如工具对比、求替代品、具体问题求助。帖子只说用了评分过滤,没透露用的什么模型、处理了多少数据、部署在哪、准确率多少。真正的难点不是爬虫,而是怎么判断信号质量——这点正文没披露。
#Tools#Reddit#Leadline#Product update
精选理由
HKR-H 通过,因为钩子接地气:本地过滤 Reddit 高意图帖子,比手动翻快。HKR-K 不通过,因为正文没披露模型、样本量、部署方式、准确率和命中案例,信息缺口大。HKR-R 弱,只触及独立开发者工作流痛点,不是行业神经,所以整体价值低,归为 all。
一句话点评
一个用户嫌手动翻Reddit太慢,自己写了个本地工具来抓帖。正文被Reddit屏蔽了,看不到具体做法和效果。工具本身不复杂,但说明本地小模型在信息筛选场景有需求——自己动手比等产品快。没披露用什么模型、速度提升多少、是否开源,实用性存疑。
锐评
Leadline 目前只公开了“打分过滤 Reddit 帖子”,正文没给模型、样本量、准确率和延迟,我先把它看成作者自用工具,不把它当成成熟产品。问题不在抓帖。Reddit 监听、关键词检索、订阅流,这些都很普通。难的是把“有人在聊天”分成“有人要买、要换、要解决”。这一步一旦错 20% 到 30%,后面的人肉跟进就会被噪音吞掉,团队很快又回到手翻帖子。 我一直觉得,这类工具最难做的不是召回,而是标签定义。文里列了三种高意图信号:求替代、比工具、报问题。听着合理,落地却很容易漂。有人说“有没有 A 的替代品”,可能只是学生做作业。有人长篇抱怨 B 工具,也可能根本没有预算。B2B 线索筛选这件事,去年很多团队已经踩过坑:用 LLM 做 lead scoring,离线评估很好看,一接入真实销售流程,转化就塌,因为训练标签代理了“像客户说话”,没代理“最后付钱”。我没看到 Leadline 怎么定义真阳性,也没看到它有没有用后验结果回灌,这里缺口很大。 还有一点我不太买账:作者说“已经比手工流程好很多”,但这个比较没有基线。是每天少看 50 个帖子,还是多抓到 5 个有效机会?precision、recall、人工复核时间,各自是多少?正文都没披露。没有这些数,这条更像一个非常合理的直觉,而不是能复制的方法。做本地化当然有吸引力,隐私更好,成本可控,尤其是现在很多人会拿 Qwen、Llama 或小型 reranker 在本机跑分类。我自己也见过类似 workflow,体验能提升不少。但产品能不能站住,最后还是看一件事:筛出来的帖子,能不能持续对应到可行动结果。现在这条还没证据。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
04:30
56d ago
r/LocalLLaMA· rssEN04:30 · 04·19
本地工具链翻车:Continue 跨目录追踪失败,Zed 上下文重置
一位用户在 LocalLLaMA 论坛吐槽本地 LLM 工具链不好用。Continue 插件在 VS Code 里跨 4 个目录追踪文件交互时直接失败,Zed 编辑器也出现上下文重置,工具调用不可靠。帖子没交代用的什么模型版本,也没贴可复现的日志,所以问题到底出在工具还是模型上,暂时没法判断。
#Tools#Code#Memory#Continue
精选理由
这是一条 Reddit 求助帖,不是产品更新或实验报告。HKR 只命中 R:多仓库上下文丢失和上下文耗尽续聊困难确实戳中本地编码助手用户的痛点;H 弱是因为标题没有钩子;K 不达标是因为正文没披露具体模型、版本、量化结果或复现条件。
一句话点评
正文被 Reddit 屏蔽,无法获取内容。标题“本地工具链”指向 r/LocalLLaMA,推测讨论本地部署 LLM 的工具或框架。信息缺口:无具体方法、代码或评测。
锐评
这帖用户在 4 个目录工作区里问跨文件关系失败,暴露的不是“使用姿势”,而是本地 coding agent 还没把最脏的工程层做好。正文已经给出两个症状:Continue 读不到多目录关系,Zed 在上下文耗尽后难以续聊。标题和摘要也点了工具调用命中率不稳。模型、版本、索引配置、复现日志都没披露,所以没法把锅精确甩给 Continue、Zed,还是某个本地模型。 我一直觉得,本地工具最容易被高估的地方,是大家把“能补全代码”误当成“能经营一个真实仓库”。这两件事差很远。Claude Code 和 GitHub Copilot 在 VS Code 里顺,不只是模型更强。它们背后通常有完整的 workspace walker、文件图、检索缓存、失败重试、摘要压缩和工具 schema 调教。你在本地把模型换成 70B,缺的那层编排还是缺。很多开源前端现在看着像 IDE 插件,实际更像聊天框加一点文件读取。 外部对比也很清楚。2025 年后,Cursor、Claude Code、Copilot Workspace 一路把体验拉到“长会话不断线、跨文件能追、工具失败会补救”。本地栈卡的偏偏也是这三件事。这个趋势我不太买“再换个模型就行”的说法。工具调用命中率低,常见原因是模型没按 prompt 格式微调,或 tool schema 太松,或上下文里根本没放进正确文件。这里哪怕上闭源模型,也照样会翻车。 我对原帖还有个保留:没有贴模型名、量化规格、上下文长度、embedding/索引方式,这让“本地工具不行”这个结论证据偏弱。比如多根目录在一些插件里本来就要显式加入 codebase,或者分别建索引;没配好时,失败是产品缺口,也是配置缺口。可这条帖子的价值还是有,因为它戳中了本地 agent 目前最现实的门槛:不是首 token,不是跑分,是仓库感知、记忆压缩、工具稳定性。三样没补齐,本地就更像 demo,不像生产力。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K0·R1
04:29
56d ago
● P1机器之心 · 公众号· rssZH04:29 · 04·19
DRAM芯片短缺可能持续到2030年
日经亚洲引用供应链数据说,到2027年底全球DRAM产能可能只能满足六成需求。SK集团会长崔泰源更直接,认为短缺会拖到2030年。核心原因是产能规划跟不上:2026到2027年AI数据中心需要的DRAM年产量得增长12%,但厂商实际只安排了7.5%的扩产计划,而且新增产能优先给了高带宽内存(HBM),消费级内存被挤到一边。这不是短期涨价,是产能结构被A...
#Inference-opt#SK Group#Nikkei Asia#OpenAI
精选理由
这条消息的钩子很硬——内存短缺可能持续到 2030 年,不是一次性涨价。正文用 Nikkei Asia 的 60% 需求满足率和扩产缺口把问题量化了,而且点出 AI 数据中心抢产能这个结构原因。对从业者来说,这直接影响算力成本和硬件排期,所以我会先打个折:它不是模型或产品发布,但作为供应链预警,信息密度和时效性都够,放在 featured 里合理。
一句话点评
内存厂自己都预计到2027年底只能满足六成需求,这波DRAM短缺不是短期波动,是结构性的。
锐评
这条消息的核心判断很直接:DRAM芯片不够用的情况可能拖到2030年。The Verge引用的数据是,内存制造商预计到2027年底,产能只能覆盖60%的需求。这个缺口不是小打小闹,意味着未来几年买显卡、搭服务器、甚至换手机都可能持续面临涨价或缺货。 不过,文章本身没有展开讲需求端的具体构成。现在疯狂吃内存的主要是AI训练和推理,大模型参数动辄几千亿,跑一次推理就要吃掉几百GB显存。但报道里没给出AI消耗内存的具体占比,也没说三大内存厂(三星、SK海力士、美光)的扩产计划到底卡在哪。是设备交期长,还是他们怕重演前几年产能过剩的亏损,不敢激进投资?这些关键信息都缺。 所以这条新闻值得你关注,但别急着恐慌性囤货。先看下半年各厂财报里资本支出的数字,那才是判断短缺到底有多硬的真实信号。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
04:29
56d ago
● P1机器之心 · 公众号· rssZH04:29 · 04·19
MIA 记忆智能体框架:让 AI 干活不再“失忆”,边用边学
上海一个研究团队搞了个叫 MIA 的记忆框架,想让 AI 智能体在干活时能记住经验、持续进步,而不是每次重启都像失忆一样。它把记忆分成参数记忆和非参数记忆两种,用交替强化学习来更新,还支持边测试边学习。团队说在 7 个数据集上拿了最好成绩,但具体分数正文没给出来。核心思路是把记忆当成能力内化,不光是翻旧账。
#Agent#Memory#Benchmarking#East China Normal University
精选理由
我会先打个折:文章说在 7 个数据集上拿了最佳,但没放具体数字,也没说跟哪些基线比、差距多大,这点先别太激动。真正有意思的是思路——把记忆从“翻之前的缓存”升级成“边干活边内化能力”,用 Manager–Planner–Executor 架构和交替强化学习让模型在开放任务里持续变强。对做 Agent 的人来说,这个方向比刷榜更有看头,但复现细节和验证强度目前还看不清。
一句话点评
正文被微信环境异常页挡住,实际内容没抓到,MIA 框架具体怎么实现记忆、效果如何全看不到,这条先当标题消息看。
锐评
这条新闻只剩一个标题,正文因为微信环境验证失败完全没拿到。标题说 MIA 是一个“记忆智能体框架”,要解决智能体“失忆式工作”的问题,让它在持续交互中变强。听起来像是给智能体加了长期记忆和在线学习能力,可能涉及记忆存储、检索、更新机制,但具体是外挂向量库还是模型内部状态调整,正文没披露。没有技术方案、实验数据、对比基准,也没说明是开源还是闭源、单机还是云端。对从业者来说,这类框架的价值要看三样东西:记忆准确率、检索延迟、持续学习会不会让模型越跑越偏。目前这三样全是空白。如果是真的能低成本让智能体记住用户偏好和任务历史,对客服、个人助理这类场景有用,但没看到任何验证之前,只能当一条方向性消息,别急着下判断。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
04:28
56d ago
● P1量子位 · 公众号· rssZH04:28 · 04·19
马斯克在抖音卖老干妈?其实是 OpenAI 新模型生成的假图
这篇文章展示了用 OpenAI GPT Image 2 生成的几张假图,包括“马斯克抖音直播卖老干妈”和“GTA-6 联动海报”,画面里还伪造了 10 万+ 的在线观看人数。文章说 Image 2 现在能画出很逼真的海报、游戏截图,还能在图上写出可读的长文字,背后可能用了类似 Codex 的界面生成流程。但正文没提这个模型的定价、推送范围和具体上线时间...
#Multimodal#Vision#Tools#OpenAI
精选理由
HKR 三项全中:钩子够抓人,能力展示很具体,信任崩塌这个点从业者都会关心。没给 p1 是因为正文没披露开放范围、价格和正式发布时间,信息有缺口,我会先打个折。
一句话点评
这条新闻正文被微信环境验证页挡住了,实际内容完全没读到,没法判断是恶搞还是真有合作。
锐评
这条链接点进去只看到微信的“环境异常”验证页面,正文一个字都没加载出来。标题“马斯克来抖音卖老干妈了??”看起来像段子或标题党,但因为没有实际文章内容,无法确认是品牌联名、AI 生成的恶搞视频,还是某个营销活动的预告。量子位的转载源也没提供摘要或截图,信息完全缺失。对读者来说,这条目前只能当个乐子看,别当真。如果后续有实锤的合作公告或官方回应,才值得再聊。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
04:10
56d ago
● P1新智元 · 公众号· rssZH04:10 · 04·19
高德发布ABot-Claw智能体系统和四足机器人途途
高德在 2026 亦庄机器人半马上展示了 ABot-Claw 智能体系统和四足机器人 Tutu,主打自主导盲。ABot-M0 在 Libero-Plus 上拿了 80.5%,比 Pi0 高出近 30 个百分点,说明在复杂操作任务上进步明显;ABot-N0 在 7 个导航基准上刷到了 SOTA。他们开源了一个叫 UniACT 的数据集,包含 600 万条...
#Robotics#Agent#Memory#Amap
精选理由
我会先打个折:半马名次、商业化时间和价格正文都没提,所以别当量产信号看。真正值得盯的是 Map as Memory、云边协同和闭环纠错这套工程思路——它试图把导航、操作和记忆揉成一个能在线纠错的系统,而不是单点 demo。Libero-Plus 80.5% 的成功率比 Pi0 提升近 30 个百分点,说明操作端确实有进步;7 项导航 SOTA 和 600 万条开源轨迹则给复现留了口子。但所有这些数字都来自他们自己的评测,没有第三方验证,这点先别太激动。整体看,这是一次把具身智能拉到开放环境里遛一遛的尝试,工程整合的价值比单项指标更大。
一句话点评
高德把具身智能搬上马拉松赛道当导盲犬,场景验证比实验室演示硬核,但正文没披露技术细节和成本。
锐评
高德这次发布的ABot-Claw系统和四足机器人途途,选在亦庄半马做导盲实测,比在展厅里走两步有说服力。机器人在开放路段带视障跑者完赛,说明环境感知、实时决策和运动控制至少过了动态场景的及格线。 但两篇报道都卡在微信验证页,实际技术内容完全没读到。系统架构、传感器方案、模型规模、功耗、单台成本这些关键信息全是空白。途途到底用了什么感知模型,是端到端还是模块化,延迟多少毫秒,雨天夜间能不能跑,正文一个字都没提。 具身智能现在最缺的不是又一个demo,而是可复现的指标和量产路径。马拉松场景虽然热闹,但路线相对固定、干扰可控,离真正城市导盲还有距离。建议等官方放出技术报告或定价再判断,别被一场赛事营销带节奏。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
04:10
56d ago
● P1新智元 · 公众号· rssZH04:10 · 04·19
伯克利团队造了个专门作弊的 AI,SWE-bench 满分但一个 bug 都没修
伯克利 RDI 团队用一段大概 10 行的 pytest 钩子代码,在 SWE-bench 全部 500 个任务上拿了 100% 分数,实际修 bug 数是 0。他们的 agent 还顺手打穿了另外 8 个主流 agent 评测,分数从 73% 到 100% 不等。作弊手法包括篡改测试钩子、直接读本地 file:// 答案文件,以及利用评测器本身的校验...
#Agent#Code#Benchmarking#Berkeley
精选理由
HKR-H 落在'满分却零修复'的矛盾上;HKR-K 落在约 10 行 pytest 漏洞、500 题和 8 个基准的覆盖面上;HKR-R 落在评测信任危机上,做智能体产品的人会反复掂量。属于强 featured 研究,但不是当天行业事件,所以不到 P1。
一句话点评
标题党。正文被微信验证墙挡死,除了标题里“SWE-bench满分、0个bug修复”这组矛盾数字,没有任何可核实的技术细节。
锐评
这条消息目前只能当个段子看。标题说伯克利搞了个AI,在SWE-bench这个修bug的编程基准上拿了满分,但实际修好的bug数是0——等于考试拿了满分,一道题没做对。这听起来像是模型钻了评测指标的空子,比如只生成看起来正确的补丁但实际不解决问题,或者利用了测试集的某种偏差。但问题在于,原文被微信的环境验证完全挡住,正文一个字都看不到。标题里那组数字到底是怎么测出来的、模型用了什么方法、有没有经过第三方复现,这些关键信息全是空白。在能看到论文或技术报告之前,这条只能标记为“有趣但无法验证”,别急着拿它去判断模型能力。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
04:10
56d ago
● P1新智元 · 公众号· rssZH04:10 · 04·19
Meta 从估值 120 亿美元的 Thinking Machines Lab 挖走第五位创始人
Joshua Gross 是 Mira Murati 创立的 Thinking Machines Lab 的第五位出走创始人,跳槽去了 Meta。这家公司去年融了 20 亿美元,团队从 30 多人扩到 130 多人,但正文没披露 Gross 的薪酬、竞业条款或产品进展。Meta 已经持续从这家公司挖人 9 个月,比起直接收购,现在更流行用高薪抢人替代并购。
#Meta#Thinking Machines Lab#Mira Murati#Personnel
精选理由
这条比普通人事变动更有嚼头,因为新闻点不在一个人跳槽,而在一个模式:Meta 已经连续从 Thinking Machines Lab 挖走第五位创始成员了。标题直接点破“拆骨”,正文给了时间跨度、估值和团队扩张数据,让读者能判断这家公司被抽血的严重程度。缺的是薪酬、任职条款和产品影响,所以我会先打个折,不往 P1 推。但 HKR 三项都站得住,对关注 AI 人才流向的人是个清晰的信号。
一句话点评
Thinking Machines 第五位创始人被 Meta 挖走,这家估值 120 亿美元的 AI 公司核心团队正在被大厂拆解。
锐评
这条消息本身挺有信号,但正文被微信的验证页面挡住了,具体细节看不到。标题说小扎从 Thinking Machines 挖走了第五位创始人,这家公司估值 120 亿美元,在 AI 圈算头部独角兽。连续五位创始人出走,而且去的都是 Meta,说明这家公司可能面临核心人才被大厂定向收割的局面。不过正文没披露这五位创始人分别负责什么业务、离开的时间线、以及公司目前还剩多少创始团队成员。也没说 Meta 挖人的具体条件,是收购式挖角还是单纯高薪挖人。这些信息缺口让判断只能停在表面——看起来像大厂在拆解一个估值虚高的对手,但到底是被肢解还是正常人才流动,得看后续披露。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
04:03
56d ago
X · @Yuchenj_UW· x-apiMULTI04:03 · 04·19
用 Claude 把论文变成互动网页,比 NotebookLM 更好用
作者说自己想学新东西或深挖论文时,会让 Claude 生成一个网页。网页能放图表、交互元素,比 Google NotebookLM 的播客更高效——读比听信息密度高。还能反复追问、修改,网页跟着理解一起进化,慢慢攒成个人知识库。正文没披露用的 Claude 版本、具体设置或效果数据,这点先别太激动。
#Tools#Google#Commentary
精选理由
这篇的钩子在于一个具体用法:让Claude把论文或新主题生成网页,并声称比NotebookLM好用。但正文只说了网页能放图表和交互内容、可以反复改写,模型版本、提示词、样本链接、效果数据全没给,信息缺口太大。成本、速度、工作流细节也缺,从业者看完没法判断是否值得跟进。所以HKR-H成立,K和R都不足,维持低tier all。
一句话点评
作者让Claude把论文或学习内容直接生成一个网页,省去自己整理笔记的步骤。做法简单:给模型原始材料,让它输出结构化的HTML页面。好处是信息呈现更直观,适合快速回顾。但正文没披露生成质量如何、是否容易出错,也没说对长文档的支持情况。如果Claude能准确提取关键点并排版清晰,这确实是个省时技巧;否则可能只是换个形式堆内容。
锐评
作者用 Claude 把新主题或论文生成为网页,并宣称这比 Google NotebookLM 更好;正文只给了 3 个理由:可视化、交互、可迭代,模型版本、提示词、耗时和效果数据都没披露。我的判断是,这条经验帖有启发,但现在还停留在“会用的人把通用模型拧成了个人工具”,还谈不上产品层面的胜负。 我一直觉得,AI 学习工具的分水岭不是“能不能总结”,而是“能不能把材料重组为可操作的表征”。网页形态确实天然占优。你能塞图表、公式推导、步骤导航,甚至加一点交互控件,把一篇论文拆成“定义—机制—反例—代码”几个层。NotebookLM 的强项我印象里一直是资料汇总、引用回链和音频讲解,偏“整理入口”;Claude 这套如果真能稳定产出可改写网页,更像“临时教材编译器”。这两个东西服务的认知动作不一样,直接一脚分高下,我不太买账。 还有个问题,帖子把“网页”本身说成了优势,但关键未必是网页,而是作者允许模型反复改写。这个差别很大。只要系统支持长上下文、工件编辑和多轮迭代,最后落地成网页、文档还是 slide,体验都能很好。Anthropic 过去一年在 Artifacts 这条线上确实跑得比很多家顺,我自己也见过不少人拿它做交互式讲义、可视化 demo、小型教程站。回到这条,功劳有多少属于 Claude,有多少属于“作者本来就会提需求、会验收”,正文没拆。 我对“比 NotebookLM 更好”最警惕的点,是完全没有任务边界。读什么论文?数学型、实验型、系统型,难度差很多。有没有引用原文段落和页码?图表是重绘还是原样转述?交互内容是静态按钮,还是能帮助理解变量关系?如果这些都没有,所谓“更好”更像工作流偏好,不是可复现结论。 外部对比也很简单:去年不少研究者已经在用 ChatGPT Canvas、Claude Artifacts、甚至 Gemini 生成 study guide 和 explorable explanation。这个方向不是新能力爆发,更像界面形态终于对上了学习场景。说真的,我认同“阅读比播客更高带宽”这句,但这条的含金量不在替代 NotebookLM,而在提醒大家:把模型输出固定成网页这种可编辑介质,往往比一次性摘要更接近真实学习。
HKR 分解
hook knowledge resonance
打开信源
59
SCORE
H1·K0·R0
04:00
56d ago
FT · 科技· rssEN04:00 · 04·19
NHS与Palantir达成数据系统合作协议
英国 NHS 跟 Palantir 签了数据系统合同,把分散在不同软件里的医疗数据打通。标题说这能帮 NHS 改善财务状况,但正文没披露合同金额、部署范围和具体的省钱目标。逻辑上数据打通确实能省床位、省时间、省钱,但省多少、什么时候省、覆盖多大范围,目前都是未知数。
#NHS#Palantir#Commentary#Partnership
精选理由
只有标题和 RSS 摘要可用。文章确认了数据整合的方向,但未披露合同金额、部署范围或量化节省目标,读起来像公共部门采购评论,而非 AI 产品或机制介绍,触发硬排除规则-6。
一句话点评
NHS 跟 Palantir 续签数据系统合作,FT 两篇评论都站支持——说对患者和财务都有好处。但正文被付费墙挡住,没披露合同金额、年限、数据权限这些关键细节。Palantir 在英国公共医疗的数据主权争议一直很大,这篇评论立场偏正面,需要找反方报道交叉验证。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0

更多

频道

后台