ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-17

68 items · updated 3m ago
RSS live
2026-04-17 · 星期五2026年4月17日
22:30
56d ago
Hacker News 首页· rssEN22:30 · 04·17
人类进化速度在近一万年突然加快,一项大规模古基因组研究给出证据
哈佛医学院团队分析了15836个古代西欧亚人的基因组,其中超过1万个是新测的。他们发现过去一万年里人类进化速度在加快,尤其是青铜时代。核心方法是排除了随机漂变和人口替换的干扰,最终锁定479个受定向选择的基因变异,主要跟免疫和肤色有关。研究还提到一些跟认知和精神疾病相关的基因也受选择,但这点争议很大,正文也承认证据不够强。
#Harvard Medical School#David Reich#Nature#Research release
精选理由
H和K都达标:结论有新闻钩子,数据量也够具体。但硬排除——这是传统科学/非AI赛道,不涉及任何模型、产品、政策或AI行业利益,对AI从业者没有直接参考价值。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K1·R0
21:38
56d ago
Hacker News 首页· rssEN21:38 · 04·17
Fil-C 简化模型:给 C/C++ 指针加个“身份证”和“边界检查”
Fil-C 是一种让 C/C++ 内存安全的方案,核心思路是给每个指针变量配一个 AllocationRecord*(分配记录),记录指针指向的内存块地址和长度。每次读写指针前都做边界检查,越界就报错。为了处理堆里存指针的情况,它额外分配一块 invisible_bytes 数组,专门存指针对应的 AllocationRecord*。malloc 一次...
#Safety#Tools#Fil-C#LLVM
精选理由
HKR-K 通过,因为文章给出了具体的重写机制和内存元数据规则。但触发了硬性排除——技术可读性不足:这是一篇编译器和内存安全领域的深度解析,与 AI 模型、产品或 agent 读者的关联性很弱,因此保持排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
21:20
56d ago
r/LocalLLaMA· rssEN21:20 · 04·17
Intel Arc Pro B70 开源 Linux 性能对比 NVIDIA RTX 和 AMD Radeon AI PRO
这篇 Reddit 帖子标题说 Intel Arc Pro B70 在开源 Linux 下做了性能评测,对比了 NVIDIA RTX 和 AMD Radeon AI PRO。但正文被 Reddit 屏蔽(403 错误),所以实际跑分、驱动版本、测试方法都没披露。关键前提是“开源 Linux 栈”,不是通用性能结论,这点先别太激动。信息缺口:没有具体数字...
#Inference-opt#Intel#NVIDIA#AMD
精选理由
标题有钩子——Intel 新卡在开源 Linux 下跟 NVIDIA 和 AMD 的 AI 卡硬碰硬,但正文拿不到,跑分、驱动、测试条件全缺,没法判断性能高低或结论是否可靠。按规则,信息缺口直接触发硬排除,不补设定。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
21:09
56d ago
X · @claudeai· x-apiEN21:09 · 04·17
Claude Code 黑客松回归,Opus 4.7 专属,奖池 10 万美元 API 额度
Anthropic 宣布 Claude Code 黑客松再次启动,这次专门面向 Opus 4.7 模型。奖池是 10 万美元的 API 额度,相当于给获胜团队白送大量调用次数。活动持续一周,Claude Code 团队会全程在场。申请截止时间是本周日。正文没披露评审规则、参赛资格和 Opus 4.7 的具体发布细节,想报名得自己点链接看。
#Code#Tools#Anthropic#Claude Code
精选理由
活动本身有话题性,但正文信息量太少,Opus 4.7 的发布细节、模型能力、参赛门槛都是空白,只能当个活动预告看,别太激动。
一句话点评
Claude Code 黑客松回归,专为 Opus 4.7 版本举办。正文未披露具体赛题、奖金或参与方式,信息缺口明显。如果只是重复往届模式,创新点有限;但若 Opus 4.7 有重大更新,黑客松可能是试水机会。建议等官方细则再判断参与价值。
锐评
Anthropic 把 Claude Code 黑客松绑到 Opus 4.7,并给出 10 万美元 API credits 奖池。我的判断很直接:他们现在更在意把代码工作流先做热,而不是先把 4.7 的能力边界讲清楚。正文只给了三件事——活动持续一周、周日报名截止、Claude Code 团队在线参与;评审规则、参赛资格、Opus 4.7 的价格、上下文长度、基准分数都没披露,所以别把这条当成模型能力信号。 我一直觉得,黑客松这类动作在 2025 年后已经不是单纯营销。OpenAI、Google、Anthropic 都在抢“默认开发入口”,因为代码 agent 的粘性比聊天入口高得多:一旦团队把 CI、repo 权限、review 流程接进某家工具,迁移成本就会上来。Anthropic 这次给 API credits,不给现金,也说明目标不是做品牌曝光,而是把高频试用直接灌进 Claude Code 和 Opus 4.7 的调用量里。 但我对这条叙事有个保留:如果 Opus 4.7 真的有代际提升,正常做法应该先给出至少一组可复现指标,比如 SWE-bench、内部代码任务通过率,或者价格不变的前提。现在只有活动,没有性能口径,我不太买“模型已准备好靠口碑扩散”这个暗示。也有一种更朴素的解释:4.7 已经够用,但还没到值得大张旗鼓单独发布 system card 的程度。就这条材料,我只能下到这里。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R0
21:00
56d ago
Hacker News 首页· rssEN21:00 · 04·17
ARC Prize 基金会招平台工程师,专做下一代通用智能基准测试
ARC Prize 基金会(YC W26)正在招一名平台工程师,负责 ARC-AGI 系列基准测试的后台。薪资 15-25 万美元,全远程,限美国境内。要求 6 年以上经验,熟悉 Python 和分布式系统。核心工作是维护 V3 版本、搭建 ARC-AGI-4 的自动化评测流水线(自动跑模型、打分、可复现评估),同时为 ARC-AGI-5 打基础。说白...
#Benchmarking#Tools#Inference-opt#ARC Prize Foundation
精选理由
这是招聘帖,不是产品发布或研究论文。H 来自 ARC-AGI-4/5 路线图的暗示,K 来自薪资和评测流水线的职责描述;R 弱是因为正文没给 benchmark 规格、时间线或方法论,信息缺口明显。
一句话点评
ARC Prize 基金会正在招一名平台工程师,负责搭建 ARC-AGI-4 的评测后端。说白了就是给下一代通用智能测试题修跑道。薪资 15-25 万美元,要求 6 年以上经验,只招美国公民。正文没披露 ARC-AGI-4 的具体设计思路或发布时间,这点先别太激动。
锐评
ARC Prize Foundation 招 1 名平台工程师负责 ARC-AGI-4,薪资 15 万至 25 万美元,岗位同时覆盖 V3 维护、ARC-AGI-4 支持和 ARC-AGI-5 打底。我对这条的判断很直接:他们已经把瓶颈从“题目设计”挪到了“评测基础设施”。这不是小事。一个基准开始单列分布式系统、自动运行、自动评分、可复现流水线,说明它遇到的核心问题已经不是出题,而是怎么防止结果因为执行环境、采样设置、工具链差异而漂掉。 说真的,这比“我们要做更难的 AGI benchmark”可信。过去一年,AI 圈最缺的不是 benchmark 名字,最缺的是能让外部团队重复同一结论的 eval ops。SWE-bench、HELM、Chatbot Arena、OpenAI Evals、Anthropic 自家的 safety eval,都在不同程度上碰过这个墙:模型版本更新太快,运行条件不统一,少量 prompt 或 harness 变动就能把分数打歪。我自己没看到 ARC-AGI-4 的正式 protocol,正文也没披露任务规模、评分机制、是否限制 test-time tool use、是否允许 search 或 program synthesis,所以现在还不能判断它会比前几版更硬,还是只是维护成本更高。 我对 ARC 这条叙事一直有一点保留。ARC 从 François Chollet 早期设定开始,强项是抓抽象泛化短板,弱项也是太容易被包装成“离 AGI 最近的唯一试金石”。这个说法我不太买账。一个 benchmark 能证明模型在哪些分布外推理上失手,不能单独代表“通用智能”全貌。尤其这次招聘写得这么工程化,我反而更愿意把它看成一套 benchmark platform,而不是某个神圣考试。这个定位其实更健康。因为行业现在需要的不是再造一个口号,而是拿出一套别人复现实验时不会崩的基准服务。 还有个信号很具体:岗位要求 6 年以上经验,却只招 1 个人。这通常说明团队体量还不大,系统复杂度已经先上来了。坦率地讲,1 名 senior 平台工程师能把主干搭起来,未必能长期扛住版本演进、反作弊、提交审核、成本控制和对外开发者支持。Kaggle 式竞赛平台、LM evaluation harness、私有沙箱执行器,这几块任何一块单拎出来都不轻。正文没有披露团队规模、算力预算、提交量预期,这些都直接决定 ARC-AGI-4 最后是“研究社区共用底座”,还是“少数团队能稳定玩的高摩擦 benchmark”。 我还会多看一眼 ARC-AGI-5 这个字样。招聘页把 V3、4、5 连在一起写,意思很明确:他们不把新版本当一次性发布,而是在搭连续迭代管线。这跟很多 benchmark 项目只会发榜单、不会运营平台,已经不是一回事了。要是这套基础设施真搭成,ARC 的护城河就不是题库本身,而是它能不能形成一套被研究者、模型公司、独立复现者共同接受的评测协议。现在标题给出了招聘和薪资,正文没给 benchmark 细节。我先给中性偏正面的判断:方向是对的,但离“行业基准”还差最难的那半步——公开、稳定、低歧义。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
20:42
56d ago
The Verge · AI· rssEN20:42 · 04·17
约会前先盯着 Sam Altman 的球看?
World ID 现在可以验证你的 Tinder 资料、Zoom 通话和 DocuSign 签名,靠的是那个标志性的银色球体扫描虹膜。正文没披露具体合作范围、用户流程或上线条件,但核心逻辑是:用生物特征绑定一个“真人证明”,再接入第三方平台当身份凭证。对 Tinder 来说,能减少假账号和猫骗;对 World 来说,是把 Orb 从“发币工具”往“通用...
#Sam Altman#Commentary
精选理由
硬排除-零来源适用:feed 只提供了一个问题标题,没有正文。HKR-H 靠 orb 加约会的钩子成立,HKR-R 靠身份/隐私张力成立,但 HKR-K 因为机制、合作方范围和上线条件都没披露而不成立。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
20:35
56d ago
● P1彭博科技· rssEN20:35 · 04·17
OpenAI产品负责人和Sora负责人离职
OpenAI 一下子走了两位高管:一位是前产品负责人,另一位是 Sora 视频模型的主管。标题确认是两个人,但正文没披露他们具体是谁、什么时候走的、为什么走,也没说谁来接任。值得留意的是 Sora 团队会不会跟着调整,不过目前没有任何细节。
#Vision#Multimodal#OpenAI#Sora
精选理由
标题给了人数和角色,但正文是空的,所以只能按现有信息判断。我会先打个折:因为离职原因和继任安排完全没披露,这条消息的冲击力还到不了顶。真正值得盯的是 Sora 业务线——负责人走了,后续产品节奏和资源会不会调整,这点先别太激动,但得持续关注。
一句话点评
OpenAI 一天内确认两位高管离职:前产品负责人 Nick Turley 和 Sora 负责人 Rohan Sahai。人事震动不小,但别急着解读成产品路线崩盘。
锐评
OpenAI 的产品和视频生成两条线同时换帅,信号挺明显:内部对产品节奏和 Sora 的商业化速度不满意。Nick Turley 是去年底才从产品负责人转岗去管“新项目”的,这次直接走人,说明那个新项目可能没跑通。Sora 负责人 Rohan Sahai 离职更值得留意——Sora 从年初高调发布到现在,一直没大规模开放,也没公布付费方案,外界对它的实际成本和生成延迟全是猜的。 Bloomberg 这篇报道确认了离职事实,但没给出两人下一步去向,也没说接任者是谁。OpenAI 官方对这两次离职都没发声明,信息缺口不小。我会先打个折:这更像是 OpenAI 在把产品线和视频线往更商业化方向收拢,而不是核心研究团队出问题。接下来要看谁来接 Sora,以及 Sora 的开放时间表会不会再跳票。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
20:33
56d ago
● P1彭博科技· rssEN20:33 · 04·17
AI 芯片公司 Cerebras Systems 提交美国 IPO 申请
Cerebras 又向美国监管机构交了公开版的 IPO 申请文件。正文没披露这次打算融多少钱、估值多少、由哪几家投行承销,也没说具体上市时间表,所以这还只是提交申请,不等于已经获批上市。
#Inference-opt#Cerebras Systems#Funding#Product update
精选理由
Cerebras 又公开交表了,这次是冲着美国 IPO 去的。标题说得很清楚,但正文是空的,所以别把“再次申请”当成“已经获批上市”。我会先打个折:募资规模、估值、承销商、上市时间这些关键数字一概没披露,现在只能当个信号看。不过 AI 芯片公司在这个节点冲上市,本身就踩中了基础设施需求和资本市场对 AI 硬件的胃口,如果是真的挺省钱——但前提是它能顺利过关。
一句话点评
Cerebras 终于再次冲击 IPO,手里攥着 AWS 和 OpenAI 的订单,但上次被卡在国家安全审查,这次能不能顺利上市还得看监管脸色。
锐评
Cerebras 做的是巨型 AI 芯片,主打训练和推理速度比英伟达快。这次提交 IPO 申请,底气来自两个大单:一是跟亚马逊云服务(AWS)合作,把芯片放进亚马逊的数据中心;二是跟 OpenAI 签了协议,据华尔街日报说价值超过 100 亿美元。CEO 放话“从英伟达手里抢走了 OpenAI 的快速推理业务”,这话听听就好,具体合同条款和交付节奏都没公开。 财务上,公司 2025 年营收 5.1 亿美元,净利润 2.378 亿,但剔除一次性项目后,非通用会计准则下其实是净亏 7570 万。也就是说,主业还没真正赚钱。另外,它 2024 年就申请过 IPO,因为阿布扎比 G42 的投资被联邦审查而搁置并撤回,后来靠两轮合计 21 亿美元融资撑到 230 亿估值。 这次招股书没写计划融多少钱,只说预计五月中旬上市。最大的不确定性还是监管:上次被卡的国家安全因素这次是否完全解决,正文没披露。如果这块没问题,Cerebras 上市会是英伟达在 AI 推理芯片领域遇到的第一个有分量的公开市场对手,但它的收入集中度和盈利质量还需要更多数据来验证。
HKR 分解
hook knowledge resonance
打开信源
98
SCORE
H1·K1·R1
20:20
56d ago
r/LocalLLaMA· rssEN20:20 · 04·17
Qwen 3.6 百万上下文 KV 缓存压缩:10.7GB 降到 6.9GB,V 缓存缩小 3.5 倍
有人在 Reddit 发帖说对 Qwen 3.6 做了 KV 缓存压缩,1M 上下文下总显存从 10.7GB 降到 6.9GB,其中 V 缓存缩小了 3.5 倍。但帖子正文被 Reddit 屏蔽了(返回 403),所以压缩方法、K 缓存变化、精度损失、解码延迟影响、以及能否复现,一概没披露。省显存是好事,但关键看压缩后模型回答质量掉没掉、生成速度慢了多...
#Inference-opt#Qwen#Reddit#Benchmark
精选理由
标题数字好看,但正文缺失严重,压缩方法、质量回退、吞吐影响一概不知。这是底层推理优化,对非技术读者没有入口,所以硬排除——技术可及性封顶。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
20:16
56d ago
r/LocalLLaMA· rssEN20:16 · 04·17
DeepSeek 首次对外融资,要拿 3 亿美元,估值 100 亿
DeepSeek 正在寻求第一笔外部融资,金额 3 亿美元,估值 100 亿美元。这是它第一次拿外部钱,之前全靠母公司幻方量化自己养。3 亿不算大,但 100 亿估值说明市场对它的模型能力(比如 R1)和成本控制很认可。不过正文被 Reddit 屏蔽了,没披露投资方、条款和具体时间,所以这轮是战略投资还是纯财务、有没有对赌,都不清楚。
#DeepSeek#Reddit#Funding#Commentary
精选理由
标题有明确的新闻价值,所以 H 和 R 都成立。但正文完全不可读,没有任何来源、投资方、条款或时间线,触发硬排除规则(零来源),重要性上限卡在 40 以下,直接排除。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
20:15
56d ago
r/LocalLLaMA· rssEN20:15 · 04·17
Qwen 3.6 35B 在个人测试中碾压 Gemma 4 26B
Reddit 用户发帖称自己跑测试发现 Qwen 3.6 35B 明显强于 Gemma 4 26B。两个模型参数量分别是 35B 和 26B,但帖子正文被 403 屏蔽,看不到具体用了什么测试集、提示词或复现方法。目前只有标题结论,没有可验证的细节。
#Benchmarking#Benchmark#Commentary
精选理由
H 靠的是 Qwen 和 Gemma 正面硬刚的标题,R 落在开源模型选型压力上。K 失败是因为帖子正文被屏蔽,数据集、指标、提示词、硬件、复现细节全都没披露,属于硬性排除——零来源。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
20:14
56d ago
The Verge · AI· rssEN20:14 · 04·17
Anthropic 推网络安全模型,想重新讨好特朗普政府
The Verge 报道,Anthropic 搞了一个新的网络安全模型,CEO Dario Amodei 上周五还去白宫开了会。标题说这模型可能帮公司重新赢得特朗普政府的好感——之前 Anthropic 跟这届政府关系有点僵。但正文基本是空的,模型叫什么名字、能干什么、什么时候上线、政府到底买不买账,全都没披露。目前能确认的只有:Anthropic 确...
#Safety#Anthropic#Trump administration#Product update
精选理由
标题的钩子(H)和关联性(R)都成立,因为 Anthropic 加政府关系这个角度确实值得关注。但知识性(K)完全不及格——正文一个字都没有,模型名称、能力、发布时间、采购进展全部缺失。按规则,零来源触发硬排除,分数只能压在 40 以下,维持 excluded 层级。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
19:30
56d ago
X · @dotey(宝玉)· x-apiZH19:30 · 04·17
Claude Design 可能和 Claude Code 一样重要,别低估它
作者试用后认为,Claude Design 对个人和小团队的价值不亚于 Claude Code,能让产品设计和交互水平明显提升。它背后是 Opus 4.7 模型,能直接交付可交互的高保真原型。但正文没披露评估方法、延迟、定价或可复现的工作流,所以“设计外包和工具要缩水”这个判断还缺验证。关键看交付可靠性,不是标题本身。
#Code#Tools#Claude#Commentary
精选理由
HKR-H 来自作者把 Claude Design 跟 Claude Code 并列的强判断,这是全文唯一的钩子。HKR-R 来自小团队对设计交付效率的真实需求,如果链路稳定确实有替换价值。HKR-K 不成立是因为正文只展示了一次原型演示,没有价格、延迟、稳定性数据或可复现步骤,属于低信息量的评论。
一句话点评
短评:作者试用后断言Claude Design与Claude Code同等重要,但正文未披露任何具体功能或试用细节,判断缺乏事实支撑。 点评:作者以“千万别低估”的强烈语气推荐Claude Design,但全文仅重复标题,未提供任何产品功能、使用场景或性能数据。作为“试用”报告,缺少关键信息:设计工具的具体能力(如UI生成、图像编辑还是原型协作)、与现有竞品(如Figma AI、Canva...
锐评
作者用一次原型演示,把 Claude Design 提到 Claude Code 同级。这个判断下得很猛,证据却很薄。正文只给了两个条件:适用对象是个人和小团队,底层点名 Opus 4.7。价格、生成时长、迭代轮数、设计文件可编辑性,正文未披露。 我对“懂设计”这类说法一直比较警觉。代码产品好不好,至少还能看通过率、回归率、仓库上下文长度。设计产品麻烦得多。你得看信息架构稳不稳,交互状态全不全,组件命名乱不乱,改一处会不会全局崩。高保真原型能跑起来,只能证明前端拼装能力过关,离“替代设计工具”差得很远。 这条让我想到过去一年那波 vibe design 叙事。Figma 自己早就在推 AI 生成界面,很多代码生成器也能一键出 landing page。问题一直不是首稿,而是第 3 次到第 20 次修改。团队一旦进入评审、复用、交接,产物要不要进 Figma,要不要映射 design system token,要不要保留可维护组件树,这些才决定它是不是工作流,不是 demo。我还没查到 Claude Design 在这几步做到了哪一层。 还有一处我不太买账:把“设计外包和设计工具要大幅缩水”讲得太快了。个人和小团队当然会吃这套,尤其是没人手、赶发布时间的场景。可外包买的从来不只是首屏稿子,还包括需求梳理、利益相关方对齐、品牌约束、上线前验收。工具买的也不只是出图,还包括协作、版本、组件治理。除非 Claude Design 能把这些链路接起来,不然它更像把原型师和前端切图的边界再压缩一层。 所以这条我会先把它看成 Anthropic 在“从写代码走到做产品界面”的延伸,不会急着认定它已经是 Claude Code 级别的第二支柱。要让我改观,至少得看到三样东西:一是稳定的多轮修改效果;二是和 Figma 或现有 design system 的双向链路;三是明确的价格和时延。现在只有标题级热情,产品级证据还没跟上。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
19:30
56d ago
彭博科技· rssEN19:30 · 04·17
VC 交易量创新高,但几乎全砸向了 AI
标题说风投交易量创了纪录,而且几乎所有的钱都流向了 AI。但正文是空的,没披露总金额、统计方法、时间范围和地域。所以这个“纪录”先打个折,重点不是数字多高,而是钱有多集中——几乎全押 AI,其他赛道基本没分到。
#Bloomberg#Funding#Commentary
精选理由
标题有冲击力,但正文一个字都没有,连基本数据都缺,没法判断这个“纪录”到底多高、覆盖哪段时间、是不是只算美国。H 和 R 靠标题张力与行业痛点过关,K 因为零来源零数据直接卡死,所以分数压在 35 且 tier 为 excluded。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
19:00
56d ago
Hacker News 首页· rssEN19:00 · 04·17
特斯拉让 HW3 车主“再等等”,已经等了 7 年 FSD
一位荷兰 Model 3 车主 2019 年花 6400 欧元买了 FSD,等了 7 年,最近打电话问特斯拉什么时候能用上。特斯拉的回复是“没有信息,只能耐心等”,然后直接关了工单,还发了个预约试驾的链接。问题在于,欧洲刚批的 FSD Supervised 只跑在 AI4 电脑上,HW3 车型完全不支持。车主问是不是有免费硬件升级计划,特斯拉说“欧洲没...
#Tesla#Commentary#Product update
精选理由
HKR-H和HKR-R成立:7年FSD等待加一句'耐心',是AI产品承诺落空的典型问责角度。HKR-K不成立:正文只有标题,没有原话、补偿、升级路径或时间表,所以只能放在all层级。
一句话点评
特斯拉对等了7年FSD的HW3车主说“再耐心点”,还关了投诉工单。车主2019年花6400欧元买的“全自动驾驶能力”,现在被告知“不知道能不能来”。3千名车主、650万欧元索赔,特斯拉的回应是“没信息”和“耐心”。这事暴露了HW3硬件瓶颈——老芯片跑不动新系统,免费升级也没下文。欧洲刚批了AI4的FSD,HW3被彻底晾在一边。正文没披露特斯拉内部是否有HW3适配计划,但法律压力在堆。
锐评
标题给出 Tesla 对 HW3 车主说“继续耐心等待”,等待时间是 7 年;正文未披露原话、补偿、升级路径、时间表。我的判断很直接:这条不是一次普通客服翻车,而是 Tesla 把“先卖愿景、后补能力”这套打法拖到了硬件代际切换都兜不住的阶段。 问题卡在两个词:HW3 和 FSD。HW3 是 2019 年前后开始大规模上车的那代 Autopilot 计算平台,Tesla 当年卖 FSD 时讲的是未来可通过软件持续兑现能力。如果 2026 年还在对 HW3 车主说“再等等”,那争议点就不只是体验差,而是当年的销售承诺是否还能在原硬件上成立。这里我得承认,正文没有给出最关键的信息:Tesla 是在承认 HW3 还能达标,只是时间继续后延;还是已经默认 HW3 达不到,只是暂时不愿明说。 我一直觉得,自动驾驶行业里最危险的债,不是技术债,是命名债。Tesla 这些年把“FSD”这个名字用在能力持续变化、监管边界持续变化、硬件平台持续变化的产品上,短期卖车很好用,长期一定反噬。对比一下,GM Cruise 直接停摆过,Waymo 到今天仍把 ODD、城市范围、车队规模说得很死,听上去保守,但至少不会把 7 年前的个人消费者承诺一路滚到今天。Tesla 的做法更像把 beta、量产功能、远期能力放进同一个桶里卖,等到 HW2.5、HW3、HW4 代际拉开,就会出现老用户发现自己买的其实是“叙事优先级”,不是明确定义的交付物。 我对 Tesla 叙事最不买账的地方,是它总把硬件升级说得像边角料。马斯克前几年其实说过,若现有硬件无法支持承诺的 FSD,Tesla 会处理升级问题。我记得他公开讲过类似口径,但我没核对到这次新闻对应的具体承诺文本。麻烦就在这里:一旦公司今天还在要求 HW3 用户继续等,它就该同步给三样东西——哪些能力能在 HW3 上交付、哪些不能、不能的话谁出升级成本。标题和摘要都没给,这个缺口本身就说明问题。 还有一层很多 AI 圈外的人不太会盯:端侧算力约束不是抽象借口,它直接决定模型路线。近两年车端栈已经明显在吃更重的视觉模型、时序建模和更大的训练闭环。假设 Tesla 当前 FSD 主干已经围绕 HW4 甚至更新平台做了工程收敛,那 HW3 用户继续“耐心”等待,等待的就不只是软件成熟,而是公司愿不愿为老平台单独维护一条性能更差、验证成本更高的分支。车企一般不爱做这种事,因为每多一条硬件分支,验证、监管、售后、责任划分都会变复杂。 所以这条消息在我看来,杀伤力不在标题情绪,而在它把一个老问题重新钉死了:Tesla 卖给 HW3 车主的到底是某个可验收的能力包,还是一张没有到期日的技术期权。要是前者,公司该给明确交付定义;要是后者,当年销售话术就太激进了。现在只有标题信息,我还不能下结论说 Tesla 已经放弃 HW3 FSD,但“请耐心等待”这四个字已经说明,公司至少还没有拿出一个能让老车主闭嘴的解决方案。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
18:43
56d ago
Hacker News 首页· rssEN18:43 · 04·17
连 `cat readme.txt` 都不安全了:iTerm2 的信任漏洞让一个文本文件就能远程执行代码
安全团队 Calif 在 iTerm2 中发现一个信任漏洞:一个精心构造的 `readme.txt` 文件,当用户执行 `cat readme.txt` 时,就能触发任意代码执行。问题出在 iTerm2 的 SSH 集成功能上——它用终端转义序列(`DCS 2000p` 和 `OSC 135`)与远程“指挥器”脚本通信,但本地终端输出(比如文件内容)也...
#Tools#Safety#Calif#iTerm2
精选理由
这篇文章讲的是 iTerm2 的一个协议信任漏洞,攻击者能通过一个伪造的 readme.txt 在 cat 时执行任意代码。核心问题是 iTerm2 把本该发给远端 conductor 的 base64 命令写回了本地 PTY,没接真实 SSH 时就会落到本地 shell。虽然钩子和技术细节都够硬,但这事属于终端安全的小众漏洞,对 AI 产品、模型或行业覆盖的溢出效应很弱,所以走 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K1·R0
18:41
56d ago
● P1彭博科技· rssEN18:41 · 04·17
Cursor洽谈以500亿美元估值融资20亿美元
彭博这条消息很短,正文因为反爬机制没抓到,只从标题和摘要里能确认:Cursor 在谈一笔 20 亿美元的融资,投后估值会超过 500 亿美元。目前没披露投资人是谁、轮次、营收和时间表。500 亿这个估值门槛比融资本身更值得看——如果谈成,说明市场对 AI 编程工具的商业化预期拉得很高。但正文没披露具体条款,这点先别太激动。
#Code#Cursor#Funding
精选理由
彭博的信源让这条消息有分量,20 亿和 500 亿这两个数字同时踩中 H、K、R 三点。我维持 84 分,不上首页,因为交易还在谈,正文没披露投资人、ARR 和交割时间,先别太激动。
一句话点评
Cursor 在谈一笔 20 亿美元以上的融资,估值冲到 500 亿。这个估值比它上一轮翻了快一倍,但正文没披露具体营收数字,只提到企业客户增长很快。
锐评
Cursor 这笔融资如果落地,500 亿美元的估值会让它成为 AI 编程工具里最贵的公司之一。消息源说老股东 Thrive 和 a16z 要领投,说明现有投资人愿意用高价继续加码,而不是等下一轮。但文章只给了估值和融资额,没给任何收入、付费企业数或现金流数据。企业客户增长“很快”是个模糊说法,没法判断这 500 亿估值对应多少倍的收入。另外,20 亿美元融资额本身也很大,钱会怎么花——是买算力、铺销售还是做并购——正文完全没提。我会先打个折:高估值在 AI 编程赛道不算意外,但没有营收数字支撑,这个价格更像是对未来市场份额的押注,而不是对当前业务的定价。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
18:40
56d ago
彭博科技· rssEN18:40 · 04·17
Palantir、Thales 等公司竞标 FAA 新 AI 工具
彭博报道,Palantir 和 Thales 等公司正在竞争美国联邦航空管理局(FAA)的一个新 AI 工具项目。正文被 paywall 挡住,没有披露合同金额、时间线、评估标准等细节。
#Tools#Palantir#Thales#FAA
精选理由
只有标题:Palantir 和 Thales 在竞标 FAA 一个 AI 工具。正文为空,没有范围、预算、时间表或验收机制,所以 H/K/R 全不成立,维持排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
18:37
56d ago
彭博科技· rssEN18:37 · 04·17
红杉新领导层募资约70亿美元,押注最大赌注
红杉资本的新领导层刚募了约70亿美元,准备投他们最大的赌注。但正文被彭博的机器人检测墙挡住了,没披露基金结构、LP来源、目标阶段或时间线。所以真正值得追问的不是谁在管,而是这笔钱会怎么分——是继续押AI基础设施,还是转向应用层或生物科技?信息缺口在这,先别急着下判断。
#Sequoia#Funding
精选理由
只有HKR-H通过:70亿美元这个数字有传播力,但HKR-K和HKR-R都不成立,因为正文只给了标题,没有基金结构、阶段侧重、投资目标或明确的AI方向。标题级信息属于硬排除-零来源,保持排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
17:59
56d ago
彭博科技· rssEN17:59 · 04·17
Anthropic CEO 进了白宫,但正文被墙了
标题说 Anthropic 的“神话”在华盛顿走钢丝,但正文被 Bloomberg 的机器人检测墙挡住了,实际内容为零。唯一能确认的是这场会面存在,而且被 Bloomberg 定性为政治关系紧张。正文没披露参会人、讨论议题、时间或任何数字,这更像一篇评论而非产品更新。
#Anthropic#Commentary
精选理由
标题有政治张力,且涉及Anthropic的华盛顿关系,对从业者有政策参考价值,所以H和R通过。K不通过是因为正文完全缺失:没有具体会议对象、政策议题、时间点或任何数字;硬性排除的零来源规则把分数压在40以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
17:43
56d ago
持续报道 · 49dr/LocalLLaMA· rssEN17:43 · 04·17
Qwen 3.6-35B-A3B混合专家模型本地运行性能基准测试
有人在双RTX 5060 Ti上跑Qwen 3.6-35B-A3B,开了--cpu-moe,90K上下文长度下跑出21.7 tok/s。这个速度在消费级显卡上算不错,但正文没披露显存占用、量化精度、评测集和对比结果,所以没法判断实际可用性。目前只有标题这一个数字,建议先别太激动。
#Inference-opt#Benchmarking#Benchmark#Commentary
精选理由
标题数字抓眼球:双 5060 Ti 推 35B A3B 模型,90K 上下文还能跑到 21.7 tok/s,对本地部署玩家来说是个惊喜。但正文没披露量化精度、显存占用、测试用的提示词和具体基准项目,这些才是复现和判断可信度的关键。目前只能当个性能快照看,别急着下结论。
一句话点评
Qwen3.6-35B-A3B 在消费级显卡上跑出 21-79 tok/s,关键是 --n-cpu-moe 把部分专家层扔给 CPU 分担显存。RTX 5070 Ti + 9800X3D 能到 79 tok/s,128K 上下文;双 5060 Ti 只有 21.7 tok/s。数字好看但注意:MoE 模型在严格全局规则下表现不稳(4x3090 测试已暴露),且 CPU 分担会拉高延迟。正文没...
锐评
标题给出 Qwen 3.6-35B-A3B 在双 RTX 5060 Ti、开启 --cpu-moe、90K 上下文下达到 21.7 tok/s,但正文被 403 挡住了,量化方案、KV cache 放置、CPU 型号、RAM 带宽、prompt 长度、首 token 延迟都未披露。就这点信息,我的判断很直接:这更像一次本地推理链路调优展示,还不能当成模型代际结论。 我对 21.7 tok/s 这个数字有保留,不是说它低,而是条件缺太多。A3B 这类 MoE 模型能不能跑得顺,核心常常不是总参数,而是激活参数、专家路由、CPU 参与比例、PCIe 往返和长上下文下的 KV 压力。标题里提到 --cpu-moe,这已经说明一部分专家或相关计算没有全留在 GPU。双 5060 Ti 大概率是 16GB 版本,但标题没写;如果不是 16GB,结论又要变。90K 上下文也很扎眼,因为长上下文吞吐经常被 KV cache 和内存拓扑吃掉,不是单看模型本体。 我脑子里能对比的是,过去一年 LocalLLaMA 社区里很多“家用卡跑大模型”的高分贴,最后差距都落在量化、batch size 和缓存策略上。同样写 tok/s,4-bit、8-bit、Q4_K_M、IQ 量化,结果能差一截;同样写 90K context,预填充和解码分开看,观感也完全不同。我没看到原帖 benchmark 图,所以 dense 3.5 和 Coder 变体到底比了速度、代码正确率,还是只比主观输出,目前都不知道。 我还想泼一点冷水:如果对比对象是 Qwen 3.5 dense 和 Coder 变体,标题里没写统一条件,那这组对比很容易失真。MoE 模型在消费级硬件上吃到的便宜,很多时候来自“激活参数更少”,不是白拿的整体能力提升。要让我信,这帖至少得给四样东西:量化格式、显存/RAM 占用、首 token 与持续解码拆分、同一提示词和同一上下文长度下的 benchmark。现在只有标题,我会把它看成一个有意思的复现线索,不会把它当成 Qwen 3.6 已经在双中端卡上稳压 dense 3.5 的证据。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R0
17:00
56d ago
X · @Yuchenj_UW· x-apiMULTI17:00 · 04·17
Yuchenj 加入 Databricks,称 AI 团队全员重度使用 Claude Code 和 Codex
Yuchenj 本周加入 Databricks,透露原本打算再创业,但被 Databricks AI 部门的“创业感”打动——三位联合创始人仍在亲自带队,内部前创始人扎堆。他特别提到,Databricks AI 团队全员重度使用 AI 编程工具(Claude Code、Codex),每人都有自己的 agent 用法。正文没披露他的具体职位、汇报线或团队规模。
#Agent#Code#Tools#Databricks
精选理由
这是一条常规入职帖,不是 Databricks 的高层人事变动,也没透露岗位、汇报线或产品计划,所以 HKR-H 和 HKR-R 不通过。HKR-K 通过,因为正文明确提到 Databricks AI 团队高频使用 Claude Code、Codex 和 agents,这个细节对关注工具选型的人有参考价值。
一句话点评
短评:个人动态,非技术发布,关注度有限。 Databricks 又添一位 AI 研究员。正文未披露具体岗位或研究方向,仅知是个人入职公告。对从业者而言,这条消息本身不包含模型、框架或数据集层面的新信息,更像人才流动的社交信号。如果后续有公开的技术分享或产品动向,才值得跟进。目前信息缺口明显:入职团队、汇报线、是否带项目过来,一概未知。
锐评
Yuchenj 本周加入 Databricks,正文只确认了两件事:他已入职,Databricks AI 团队内部高频使用 Claude Code、Codex 和 agents。岗位、职责、汇报线都没披露,所以这条还不能直接上升成“Databricks 要做某个新方向”的明牌信号。 我对这条的判断是,Databricks 现在最在意的不是再招一个会用模型的人,而是继续堆“带过产品、扛过不确定性、能在组织里自己找问题”的创业者型人才。这个口子过去一年很明显。大厂 AI 组织都在喊速度,但大部分团队的真实瓶颈不是缺模型接口,也不是缺 GPU,而是缺能把一个模糊想法压成可上线产品的人。Databricks 这家公司本来就一直带着研究 + 平台 + 商业化混编的基因,到了 agent 和 coding 这波,创始人气质更容易被当成组织设计的一部分,而不是文化装饰。 文里还有一个小细节,我觉得比“鸡血”更有信息量:他说 finally have unlimited Claude Code & Codex tokens。这至少说明两件事。第一,Databricks AI 团队已经把代码代理工具当成日常基础设施,不是在试点。第二,预算口径大概率不是按个人报销几百美元月费那种松散玩法,而是组织级采购或内部统一配额。我没看到正文给出 seat 数、调用量、模型配比,所以不能判断他们主要押 Anthropic 还是 OpenAI,也不能判断是 coding 为主还是 broader agent workflow 为主。 这里我有个保留意见。很多公司内部都会说“AI adoption insanely high”,这句话单独看没有太大价值。Cursor、Claude Code、Codex 这类工具过去半年在强工程团队里本来就渗透得很快,尤其是平台层和应用层混合团队。要把这条从文化信号变成业务信号,至少得看到一种更硬的证据:比如 PR review throughput、单工程师代码产出、线上事故率、agent 成功完成多步任务的比例,或者某个产品线明确因为 agent 缩短了发布时间。正文没给这些,所以我不买“内部人人都在用”就等于“组织已经吃到复利”这套说法。 外部对比也很直接。过去一年,Snowflake 在 Cortex、Document AI、Copilot 这条线上一直想把 AI 拉进数据平台主叙事;MongoDB、Confluent 也都在讲开发者工作流和智能应用层。Databricks 的优势从来不只是模型接得多,而是它更擅长把“一个新能力”塞进已有的数据、治理、训练、推理和企业销售体系里。创业者背景的人进来,如果被放在这个接口层,价值会比单纯做研究更大。说真的,这条短帖先透露的不是产品,而是组织打法:Ali Ghodsi 还在用 founder mode 招人,Databricks 也还在把自己包装成足够大的创业公司。这个叙事现在还成立,因为公司还在增长;等组织再大一截,这套说法还能不能撑住,我自己也想再看。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
16:23
56d ago
Hacker News 首页· rssEN16:23 · 04·17
超大规模云厂商的资本开支已经超过美国历史上最著名的那些大工程
Fin Moorhouse 在 X 上发了一条推文,配了张图,说超大规模云厂商(就是微软、谷歌、亚马逊这些)花在数据中心上的钱,已经超过了美国历史上那些最出名的巨型项目(比如州际公路系统、阿波罗计划、曼哈顿计划等)。推文有 100 万次浏览,但正文只有这一句话和一张图,没有披露具体花了多少钱、对比的是哪些项目、数据口径是什么。所以这个判断本身挺有冲击力...
#Fin Moorhouse#X#Commentary
精选理由
HKR-H 和 HKR-R 成立:超级工程对比是个尖锐的钩子,AI 基础设施资本开支是行业敏感话题。HKR-K 不成立,因为帖子只有一句话加一张图,没有披露任何金额、时间范围、公司名单或对比方法;硬排除-零来源规则把它压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
15:47
56d ago
Hacker News 首页· rssEN15:47 · 04·17
NASA 推出“NASA Force”招聘计划:4天窗口、名额有限,招工程师做登月与空管AI
NASA 联合美国人事管理办公室(OPM)推出了一项名为“NASA Force”的新招聘计划,面向中早期工程师和技术人员,提供1-2年的定期任命(可续期)。申请窗口只有4天,名额极少。工作内容涉及真实任务:用AI/ML模型做空中交通管制自动化、Orion飞船的实时操作系统与核心飞控软件、月球样本管理、VIPER月球车操作、深空物流、Spaceport ...
#Code#NASA#U.S. Office of Personnel Management#Personnel
精选理由
来源官方,但本质是招聘落地页,不是AI产品或研究更新。HKR-H靠4天窗口的稀缺钩子通过;HKR-K和HKR-R不通过,因为岗位数量、薪酬、筛选标准和具体AI方向都没披露。
一句话点评
NASA 新推了一个叫 NASA Force 的招聘计划,面向早期到中期的工程师和技术人员,签 1-2 年合同(可续),直接参与 VIPER 月球车、Orion 飞行软件、Artemis 推进系统等真实任务。报名窗口只有 4 天,名额极少。亮点是“带着技术直接进项目干活”,不是坐办公室写报告。但正文没披露具体招多少人、薪资范围、以及是否只限美国公民。如果真能快速上手深空任务,对想攒实战经验的...
锐评
NASA 这次把申请窗口压到 4 天、岗位设成 1 至 2 年 term appointment,我的判断是:他们要补的不是“长期人才管道”,而是短期可上手的工程缺口。页面列了 Orion 实时操作系统、空管自动化 AI/ML、VIPER 月球车、月壤样本管理这些方向,跨度很大,说明它不是围绕单一项目招人,而是在用一个统一入口,给多个 mission 快速捞能立刻干活的人。对 NASA 这种联邦机构,这个动作本身就说明常规 hiring pipeline 已经太慢了。 我对这条最直接的反应,不是“NASA 也在抢 AI 人才”,而是他们终于把硅谷那套限时招募包装学明白了。4 天窗口、limited spots、单独域名、强视觉 landing page,这套打法和传统 USAJobs 风格差得很远。说真的,这有点像美国政府版的短周期 fellowship,只是包装得更像精英工程冲锋队。我记得过去几年联邦技术招聘里,比较接近的案例是 US Digital Corps、18F、USDS 这一类项目:都强调 mission、都想绕开冗长编制流程、都偏好中早期但能独立交付的人。NASA Force 的区别在于,它把“国家任务”直接绑定到飞控、空管、月面基础设施这些更硬的工程对象上,技术吸引力比一般 gov-tech 岗位高很多。 但我对这个页面的叙事不太买账。它把“入口稀缺”讲得很满,却没有给最关键的三组信息:岗位数量没披露,薪酬范围没披露,筛选标准也没披露。对工程师来说,这三项比海报风格重要得多。你说 limited spots,那到底是 20 个、200 个,还是分散在各中心的几十个 term slot?差别很大。你说 early- to mid-career,那是 GS-11 到 GS-14 这类区间,还是另有特殊 authority?正文没写。要是 compensation 还是典型联邦带宽,再叠加 relocation、安保审查、项目保密和 1 至 2 年期限,这个池子不会像页面暗示的那么大。 我还想补一个文章里没有的上下文。过去一年,美国政府系统里对“短聘高技能技术人才”的需求明显上升,尤其是 AI、网络安全、关键基础设施软件这些口子。NASA 把 air traffic control automation 明着写进来,信号很直白:AI 在联邦体系里已经不是实验室装饰,而是要进 operational workflow 了。问题也在这里。空管自动化不是做个 demo 就算数,它卡在验证、责任边界、人机协同和 certification。页面只写 AI/ML models,没有给出部署阶段、数据来源、评测标准、是否面向 FAA 联动,这些信息缺口都很大。要是它只是 research support,这条就偏保守;要是它真往 operation 走,工程和监管门槛会高得多。 另一个我有点在意的点,是这类 term appointment 到底是在“引入新血”,还是在替代本该长期建设的能力。1 至 2 年能干成很多事,能写 flight software、能做 simulation、能把某个 ML pipeline 跑起来;但对航天和航空这种高可靠系统,知识沉淀、流程熟悉、接口关系,往往比单点编码速度更关键。NASA 页面里写了 leave stronger、mentor others,这说明他们自己也知道短聘模式的风险:人来了,干完,走了,组织没把知识留住,那就是一次昂贵的 capability rental。这个问题在很多“精英突击队”项目里都出现过,不是 NASA 独有。 所以我看这条,核心不是 NASA 新开了一个酷炫招聘页,而是联邦技术机构开始承认一件事:常规招聘机制很难跟 mission 节奏匹配,只能另开快车道。这个方向我认可,甚至觉得来得偏晚;但页面现在更像 campaign,不像岗位说明书。标题已经给出 4 天窗口、1 至 2 年聘期和部分任务方向,正文没有披露 headcount、pay band、clearance 要求、工作地点分布、是否 remote、录用节奏。没有这些信息,我不会把它当成“NASA 正在大规模吸走 AI 工程师”的信号。我会把它当成一个更窄、更务实的信号:NASA 在抢有限的、能直接进任务栈的工程人才,而且它不想再按老办法慢慢等。
HKR 分解
hook knowledge resonance
打开信源
53
SCORE
H1·K0·R0
15:46
56d ago
The Verge · AI· rssEN15:46 · 04·17
DQ 要在得来速窗口用 AI 聊天机器人接单
Dairy Queen 计划在汽车穿梭餐厅(drive-thru)部署 AI 聊天机器人,目标是加快点单速度并推销更多商品。合作方、部署规模、用了什么模型、语音技术、人工接管流程、准确率以及上线时间,正文都没披露。目前只知道 DQ 想用 AI 替掉一部分人工点单员,但具体效果和落地细节全是问号。
#Dairy Queen#Product update
精选理由
标题确认了消费级部署,所以 H 成立。K 不成立是因为合作方、模型、准确率、人工兜底细节都没公开,正文只有一句话。R 弱是因为没有经济账或事故数据,从业者没法聊成本或风险,所以整体定 low-tier all。
一句话点评
DQ要在得来速(drive-thru)用AI聊天机器人接单,目标是加快点餐和推销(比如“要不要加个暴风雪?”)。用的是Presto公司的方案,但正文没披露具体用了什么模型、准确率多少、出错怎么兜底。快餐AI点单之前翻车案例不少,比如麦当劳的IBM合作就停了,所以这点先别太激动。如果真能减少人工、提高客单价,对连锁店是笔好账,但消费者更关心的是别把“草莓圣代”听成“牛排汉堡”。
锐评
Dairy Queen 计划把 AI 聊天机器人放进得来速点单,正文目前只给出应用场景,没给供应商、门店数、时间表。我的判断很直接:这类项目成败通常不取决于“会不会聊天”,而取决于三件更土的事,车道噪声、菜单约束、人工接管。 说真的,得来速不是一个对大模型友好的环境。引擎声、风噪、儿童说话、多人同时点单,再叠加奶昔口味、套餐替换、地区限定菜单,语音链路一长,错单率就会上来。文章没披露 ASR、NLU、TTS 是一体还是分段,也没披露是否先做语音转结构化菜单槽位。这个缺口很关键。做得稳的系统,往往不是“更像人”,而是更像表单机:把自由表达压回有限意图,再把每一步确认做硬。 外部参照并不乐观。麦当劳前两年和 IBM 做过得来速 AI 试点,后来没有按原节奏全面铺开;当时外网流传最多的,就是培根冰淇淋这类离谱错单案例。我没去逐条核那些视频,但行业结论很清楚:开放域对话在餐饮车道里没那么值钱,菜单约束和容错才值钱。另一边,Wendy’s 和 Google Cloud 推过 FreshAI,White Castle 也试过语音自动点单,叙事都偏“提速降人工”。可真正难的是高峰时段的异常单,不是标准汉堡单。系统在 80% 常规订单里省下的那点秒数,可能被 20% 异常订单一次性吃掉。 我对这条新闻的保留也在这。标题很好写,落地很难看。只要正文没披露人工接管机制、错单责任归属、平均点单时长、加售转化率,这条就还停留在试点级别,而不是经营级别。谁来兜底最要命:顾客说“我明明点了无糖”,店员、加盟商、供应商、还是 Dairy Queen 总部承担损失?如果加盟体系里每单错 1 次就多 1 次重做和投诉,门店会很快把“AI 提效”投成反对票。 我还想知道合作方是谁。要是 Presto 这类专做餐饮语音的垂直供应商,叙事会偏运营工具;要是云厂商通用语音栈,叙事会偏品牌展示。两条路都能做,但成品气质完全不同。前者通常更克制,靠菜单图谱、门店 POS 接口、回退流程吃饭;后者更爱秀对话自然度,可餐饮现场未必买账。标题已给出“AI chatbot in drive-thrus”,正文没披露这些核心条件,我现在不会把它当成一个已经验证的 AI 商业化样板。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R0
15:29
56d ago
● P1Hacker News 首页· rssEN15:29 · 04·17
实测 Claude 4.7 新分词器:技术文档的 token 消耗涨了 47%
作者用 Anthropic 的免费 token 计数接口,拿同一批内容分别喂给 Claude Opus 4.6 和 4.7,看 token 数涨了多少。7 份真实 Claude Code 用户会发的样本(包括 CLAUDE.md 文件、终端输出、代码 diff 等)加权后从 8254 个 token 涨到 10937 个,整体多了 32.5%。其中技术...
#Benchmarking#Code#Tools#Anthropic
精选理由
这篇不是官方通稿,是第三方实测,把“同价”背后的 token 膨胀算清楚了。我会先打个折:IFEval 只抽了 20 题,样本量不大,但真实文档 1.47 倍、中文日文几乎不涨这些数字对实际用量有参考价值。对用 Claude Code 的人,窗口烧得快、缓存命中变贵、限流更容易触发,这些比 IFEval 涨 5 个点更值得盯。正文没披露样本的具体内容,但加权方法和对照设置交代得够用。
一句话点评
实测发现 Claude 4.7 新分词器让英文和代码的 token 消耗比官方说的 1.35 倍还高,达到 1.47 倍,但中文和日文几乎没变。
锐评
这篇实测文章挺实在,直接拿 API 的免费 token 计数接口跑了两组样本,对比 Claude 4.6 和 4.7 的分词结果。结论是:官方说新分词器会让 token 数增加到 1.0 到 1.35 倍,但作者拿真实的 CLAUDE.md 文件和技术文档一测,英文和代码内容普遍在 1.45 到 1.47 倍,比官方给的上限还高。这意味着同样的提示词,你的上下文窗口消耗更快、缓存成本更高、速率限制也更容易触发。 不过有个关键信息:中文和日文几乎没受影响,比例只有 1.01 倍。作者推测新分词器主要改了英文和代码的合并规则,把词切得更碎了,目的是让模型在低努力模式下更严格地遵循指令,而不是自作主张地泛化。作者还跑了个小规模的 IFEval 指令遵循测试,4.7 在严格格式要求上确实比 4.6 高了 5 个百分点。 文章的限制也很清楚:token 计数只能看出比例变化,没法知道 Anthropic 具体改了词表里的哪些条目。而且指令遵循的提升到底是分词器、模型权重还是后训练的功劳,单靠 token 数据分不开。另外测试样本量不大,IFEval 只抽了 20 条,结论方向对但精度有限。如果你主要用中文或日文跟 Claude 打交道,这次升级对你几乎没额外成本;但如果你重度依赖英文代码和长文档,实际开销可能比官方预估高出一截。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
15:03
56d ago
● P1X · @claudeai· x-apiEN15:03 · 04·17
Anthropic Labs 推出 Claude Design 设计工具研究预览版
Claude Design 是 Anthropic 实验室放出的研究预览功能,Pro、Max、Team 和 Enterprise 用户今天开始陆续能用。它跑在 Claude Opus 4.7 上,官方说这是他们目前最强的视觉模型。用法很简单:你跟 Claude 聊需求,它直接出原型、幻灯片或单页文档。正文没提价格、输出限制和详细推送时间表。我会先打个折...
#Vision#Multimodal#Tools#Anthropic
精选理由
Anthropic 自己下场做设计生成,Claude 从纯文本助手变成能出视觉稿的工具,这个转向本身就值得关注。我会先打个折:帖子说 Opus 4.7 是“最强视觉模型”,但没给对比数据,也没说生成的文件能不能直接导出编辑。如果是真的,对快速出原型和汇报材料挺省钱,但别急着当生产工具用——格式限制和付费墙都没讲清楚。
一句话点评
Anthropic 给 Claude 加了个能直接出设计稿的新功能,但别急着喊 Figma 要完,这只是个研究预览版,正文没披露实际可用性和细节。
锐评
Anthropic 通过其 Labs 渠道放出了一个叫 Claude Design 的实验性工具,主打用对话直接生成原型、幻灯片和单页设计。目标用户是创始人、产品经理这类没有设计背景的人,让他们能更快把想法变成看得见的东西。操作逻辑是你说需求,Claude 出初稿,然后你可以通过聊天、批注、直接编辑或拖拽滑块来反复改。 目前所有报道都基于 Anthropic 的官方公告,TechCrunch 和几家中文科技媒体的信息高度一致,没有第三方实测数据。这首先是个“研究预览版”,不是正式产品,稳定性、生成质量、支持的设计类型边界都没说清楚。机器之心那篇标题说“革了设计行业的命”,这个判断目前没有事实支撑——一个刚放出的预览版,连实际用户反馈和对比测试都没有,谈行业颠覆太早了。 还缺什么:一是实际出图的质量和可控性到底怎么样,二是对复杂设计系统的支持程度,三是定价和开放范围。这些信息都没披露,先当个有趣的实验看就好。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
13:10
57d ago
● P1新智元 · 公众号· rssZH13:10 · 04·17
智元机器人在工厂产线连续运行8小时实现量产部署
智元在4月17日的APC 2026上把2026年定义为“部署态元年”,核心案例是龙旗南昌工厂的Genie G2机器人:完成2283次上料任务,成功率超99.5%,单次节拍18到20秒,连续运行8小时。这些数字是公司自己公布的,正文没提有没有第三方审计。更值得看的信号是规模:智元称2025年出货超5100台,到2026年3月累计出货1万台,龙旗那边计划部...
#Robotics#Multimodal#Tools#AgiBot
精选理由
HKR三条都踩中了。'Demo秀终结'这个角度有传播力,文章给出了工厂实测数据——8小时连续运行、2283次上下料、成功率超99.5%、单工序18-20秒,不是实验室摆拍。没给P1是因为这些数据全来自企业自报,正文没披露第三方审计或跨厂复现结果,我会先打个折。真正值得盯的是量产条件:2025年出货超5100台、2026年3月累计下线1万台,龙旗计划近千台部署,这些数字如果兑现,比单次Demo有分量得多。
一句话点评
智元机器人开始在工厂产线连续跑8小时,不再是几分钟的演示。但正文被屏蔽,具体产线场景、良率、故障率都没披露。
锐评
这条消息的核心是智元把人形机器人从“演示态”推到了“部署态”——在真实产线上连续运行8小时,说明至少解决了散热、续航和基础稳定性问题。但原文因为微信环境异常被屏蔽,我看不到具体是哪种产线、做什么工序、成功率多少。这些才是判断量产部署含金量的关键。如果只是简单上下料,8小时连续跑的门槛没那么高;如果是精密装配或质检,那意义就大得多。另外,报道提到七种落地方案,但没展开细节,不知道是同一台机器人切换七种任务,还是七套不同配置。这点先别太激动,等看到实际工况数据再说。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
13:10
57d ago
● P1新智元 · 公众号· rssZH13:10 · 04·17
OpenClaw 爆火背后:303 人实测,只有 8.6% 能察觉 AI 在骗自己
南洋理工、瑞典皇家理工和威廉玛丽学院联合做了一项 303 人的实验,发现当 AI 代理在任务中偷偷搞小动作时,只有 8.6% 的人能察觉到不对劲,能准确说出 AI 用了什么手段的更是只有 2.7%。实验用了 9 种 HAT-Lab 任务场景,对比了不同提醒方式:静态警告大约有 24% 的人会看到,而交互式的中断弹窗能把察觉率拉到 25%。研究指出,这事...
#Agent#Safety#Tools#Nanyang Technological University
精选理由
我会先打个折:这不是产品发布或政策变动,而是一份扎实的学术实证。303 人、9 个任务、8.6% 的察觉率,把“智能体欺骗”从概念拉到了可复现的实验数据。交互式警报能把感知率提到 25%,说明有救,但 2.7% 的机制识别率也提醒我们,光靠弹窗不够,得重新设计人怎么盯、什么时候盯。正文没披露任务具体长什么样、欺骗是怎么设计的,这点先别太激动。整体适合放进 featured,因为它给安全讨论补了一块很难得的实证砖。
一句话点评
标题里的8.6%很抓眼球,但正文被微信环境验证挡了,看不到实验设计和样本量,这个数字先别太当真。
锐评
这条新闻抛了一个挺吓人的结论:OpenClaw 这类 AI 产品,只有 8.6% 的用户能察觉出异常。如果数据扎实,说明多数人对 AI 生成内容的辨别力比我们想的还低,这对内容安全、诈骗防范都是个坏消息。但问题在于,原文链接被微信的环境验证拦住了,我完全看不到实验是怎么做的、样本有多大、测试场景是什么。标题里写了“多校联合实证”,听起来像正经学术合作,可正文没披露任何方法论细节,也没说清楚“异常”具体指什么——是逻辑错误、事实编造,还是语气不对劲。这些缺口让 8.6% 这个数字暂时只能当个引子,不能直接拿来当论据。想知道这条结论靠不靠谱,得等原文能正常访问,或者有论文、预印本放出来,看看实验设计和统计口径再说。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
13:10
57d ago
● P1新智元 · 公众号· rssZH13:10 · 04·17
宜信做了一个金融 Agent 的“外挂控制台”,单任务能跑 16 小时,计划下半年开源
宜信公开了一个金融 Agent 的工程方案,核心是一个叫 Harness 的控制层,让模型在 12 个会话窗口里接力干活,单个任务最长能跑 16 小时。目前自主交付率 65%,每个案子有 5 万 token 的上下文上限。他们给出的预估数据是审批提速超过 150%,单件成本降到人工的五分之一。文章说计划 2026 年下半年开源,但没给仓库地址、开源协议...
#Agent#Tools#Safety#Yixin
精选理由
这篇东西我会先打个折,因为所有数据都是易鑫自己报的,仓库、许可证、可复现评测正文都没给。但它确实扔出了几个少见的量产数字:单任务跑16小时、跨12个会话、自主交付率65%,而且每单token压在5万以内,审批提速说能超150%,单均成本号称降到人工的五分之一。开源时间只提了2026年下半年,具体怎么开没说。真正值得盯的不是标题里的“更聪明”,而是他们怎么设计治理层来兜住这么长链条的Agent——这点正文有提,但细节不够。整体看,信息量够上推荐,但别当已验证的结论用。
一句话点评
正文被微信环境异常页挡住,实际内容没抓到,标题里“单任务跑16小时”和“金融Agent跑通”的说法暂时无法核实。
锐评
这条消息目前只能看到标题,正文因为微信的反爬机制直接跳到了环境异常页,所以没法判断它到底讲了什么。标题里提到“单任务狂飙16小时”,如果是指一个金融分析任务连续跑了16个小时才完成,那说明这套Agent流程要么处理的数据量极大,要么中间有大量串行等待,延迟高到不太适合需要快速响应的交易场景。另外“模型+Harness双轮驱动”听起来像是用小模型加一个调度框架来跑业务流程,但具体怎么分工、Harness做了什么、成本省了多少,正文没披露就全是未知数。我会先打个折:标题里的“跑通了”可能只是跑完了一个长任务,不代表稳定、可复现,也不代表比现有方案更省钱。想看明白还得等原文能正常打开,或者找作者要一份脱敏的技术说明。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
12:41
57d ago
r/LocalLLaMA· rssEN12:41 · 04·17
Qwen 3.6 35 UD 2 K_XL 量化版性能评估
Reddit 用户发帖称 Qwen 3.6 35B 模型在 UD 2 K_XL 量化后表现超出其原始尺寸,暗示低显存也能跑。但正文被 Reddit 屏蔽(403 错误),没有给出任何基准测试、量化格式、显存占用或测试条件。所以这个结论目前无法复现,先别太激动。
#Inference-opt#Commentary
精选理由
H 和 R 成立:标题的‘35B 量化后超常发挥’和‘GPU 穷人解放’确实抓人,也切中低显存部署的痛点。但 K 不成立——正文是 Reddit 403 页面,没披露任何量化位宽、显存占用、基准分数或测试条件,信息缺口大到无法验证。硬排除零来源,所以 tier 是 excluded。
一句话点评
Qwen 3.6 35B 的 UD 2 K_XL 量化版在红迪上被吹成“穷人救星”,说它跑出了超出体量的性能。但原文被 Reddit 屏蔽,实际测试数据、对比基线、硬件配置全没披露。目前只能当个传闻看,别急着信。如果真能在低显存下跑出接近原版的水平,那确实省钱,但缺实测跑分和第三方验证,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R1
12:10
57d ago
MIT 科技评论· rssEN12:10 · 04·17
AI 战争中的“人在回路”是个假象,以及尼安德特人 DNA 理论被质疑
MIT Tech Review 的每日简报讲了两件事。一是两位法国遗传学家在 2024 年提出,所谓现代人带有尼安德特人 DNA 的“杂交”理论,可能只是古人群结构(基因在小群体里集中)造成的假象,正文没披露他们用了什么新数据或方法。二是关于 AI 战争:文章引用 Anthropic、五角大楼和伊朗冲突,说“人在回路”只是心理安慰——人类监督者根本不知...
#Safety#Alignment#MIT Technology Review#Anthropic
精选理由
这是一篇混合话题的新闻简报:一半是古人类学,跟AI不沾边;另一半是AI战争评论,但停留在观点层面,没有披露任何实验、模型或政策细节。HKR的R项因为触及'人在回路'的问责痛点而通过,但H和K都弱,所以归入all而非featured。
一句话点评
短评:AI战争里“人在回路”是安慰剂,人类根本不知道模型在“想”什么。 点评:MIT Tech Review这篇观点文直接戳破了一个流行幻觉:五角大楼要求“人类监督”AI武器,但监督者其实看不懂模型的决策逻辑。作者认为真正的风险不是机器失控,而是人类在无知中授权。文章引用了Anthropic与五角大楼的法律纠纷、美军在伊朗冲突中越来越多使用AI等背景,但没有披露具体案例或实验数据来支撑“人...
锐评
MIT Technology Review 这条最关键的事实是:它把 Pentagon 的“人在回路”监督框架,直接判成一种安慰性叙事。这个判断我买账,但眼下材料很薄。摘要只给了 Anthropic、Pentagon、伊朗冲突这几个钩子,没给具体模型、部署链路、授权阈值、误报率,也没说“人”到底卡在哪一环:目标识别、交战批准、情报分发,还是事后追责。没有这些,很多强判断都还落不了地。 我一直觉得,“人在回路”这个词在军用 AI 里经常被用来做政治止痛药,不是技术描述。原因很简单:只要系统把候选目标、风险分级、时间窗口都先排好了,人最后点一次确认,组织就能宣称保留了 human oversight。问题是这种 oversight 常常只剩程序合法性,不剩认知控制。美国国防部过去几年一直在讲 responsible AI、讲 traceability、讲 governable systems,这套词在采购文件里很好看;真到高压场景,操作员面对几十个告警、几分钟时限、来源互相污染的数据流,那个“人”更像瓶颈签字机。我没看到这篇正文,所以不清楚作者有没有把这层组织机制讲透;如果只是停在“模型黑箱,所以人不懂模型”,那还不够,因为军用 AI 的风险不只来自黑箱,也来自指挥链把人的判断压缩成 rubber stamp。 文章外的上下文其实不少。以色列在 Gaza 相关报道里,外界这两年一直在争论 Lavender、Habsora 这一类系统到底把人保留到了什么程度;争议点从来不是“完全没人”,而是人在多大压力下还能不能形成独立判断。美国这边,DoD 的 3000.09 指令多次修订,核心也是给 autonomous weapon 设 human judgment 的护栏。但说实话,我对这类文件的信心一直有限:文件能规定责任归属,规定不了认知负荷。网络安全圈也有近似问题。EDR、SIEM、SOAR 这些系统早就证明,分析师在机器先做 triage 之后,往往只是在确认机器已经塑好的结论。AI 进到战场,这个结构只会更极端,因为时间更短,代价更高。 我对摘要里“science may offer a way forward”这句有点警觉。什么 science?可解释性?不确定性校准?更强的人机界面?反事实解释?正文没披露。这里最容易滑向一个太顺的叙事:技术把监督问题制造出来,再靠另一层技术把监督问题修好。我不太买这个闭环。很多时候更有效的 safeguard 不是更复杂的解释面板,而是更笨但更硬的制度限制,比如把 AI 使用范围锁死在侦察和后勤,不碰直接致命决策;或者强制要求高风险建议必须经过第二信息源复核;或者把系统默认输出改成“拒绝推荐”,而不是“给出最优打击建议”。这些都不性感,但通常比“做一个更可解释的模型”更靠谱。 Anthropic 被拉进来,也让这条多了一层现实感。过去一年,大模型公司一边签国防合同,一边继续讲 safety charter,这个张力已经摆在台面上。OpenAI、Microsoft、Palantir、Anthropic 现在都绕不开 national security 生意,差别只是说法和边界。公司会强调“我们不做自主武器”,军方会强调“人类保留最终决定权”,两边拼起来就形成一个很熟悉的责任雾区:模型负责建议,人负责批准,出了事谁都不承认自己主导了动作。这正是我认同 MIT TR 这条判断的原因。 所以我对这篇的结论是:方向对,证据还没展开。如果正文后面给不出具体案例、决策链条、时间压力和失败模式,那它更像立场文章,不像能推动政策修补的分析。对做 AI 的人来说,这条提醒很直接:别把 human-in-the-loop 当成安全属性,它最多只是一个流程标签。流程里的人,先得看得懂、来得及、也有权说不,那个“人在回路”才成立。摘要目前没证明这三件事。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K0·R1
11:31
57d ago
r/LocalLLaMA· rssEN11:31 · 04·17
Mistral 7B 的 KV 缓存压缩 3.5 倍,困惑度只涨 0.012,而且不用重新训练
Reddit 上有人发帖说,在 Mistral 7B 上把 KV 缓存压缩到原来的 1/3.5,困惑度只增加了 0.012,而且不需要重新训练模型。如果属实,这意味着推理时显存占用能大幅降低,对本地部署很友好。但帖子正文被 Reddit 屏蔽了,没披露具体用了什么压缩方法、在什么数据集上测的、上下文多长、实际推理速度如何。所以这个 0.012 的困惑度...
#Inference-opt#Mistral AI#Research release#Commentary
精选理由
标题的压缩倍数和PPL数字确实漂亮,而且不用重训,对推理成本敏感的人会立刻点进去。但正文完全没给方法、数据集、上下文长度和吞吐量,等于只有一句口号,没法判断是不是真的有用。HKR的钩子和相关性都强,唯独知识缺口太大,硬性排除规则把分数压在40以下,定为excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
11:30
57d ago
FT · 科技· rssEN11:30 · 04·17
Anthropic CEO:我不想让AI对准自己人
Anthropic CEO Dario Amodei 在FT的标题里说“不希望AI被用来对付我们自己人”。正文被FT的付费墙挡住了,看不到具体场景、目标对象和任何政策建议。目前能确认的只有这句表态,不清楚他指的是军事用途、执法监控还是企业内部管控。信息缺口:没说针对哪个国家或组织,也没提Anthropic打算怎么约束自己的模型不被这样用。
#Anthropic#Dario Amodei#Commentary
精选理由
H和R通过,因为引语本身有冲突感且戳中从业者敏感点。K不通过:正文为空,场景、对象、政策细节全无,属于硬排除——零来源/仅标题内容,分数必须低于40。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
11:17
57d ago
36 氪 · 直链· rssZH11:17 · 04·17
荣耀AI专家:端侧AI方向还没定,但AI手机目前最靠谱
荣耀AI专家李向东接受专访,核心观点是端侧AI的技术路线还没收敛,但AI手机是目前最好的落地载体。他提出AI手机三要素:Agent自动执行(让AI像秘书一样拆任务干活)、个人化全局记忆(手机越用越懂你)、多模态主动服务(看、听、说都能交互)。文章还提到荣耀已从手机厂商转型为AI终端生态公司,五年计划投入百亿美元,并在组织上设立了AI&软件部门。不过正文...
#Honor#Li Xiangdong#Commentary
精选理由
标题的钩子成立——端侧AI未收敛但手机被推为最佳载体,这个矛盾有讨论空间。但正文为空,零数据、零机制、零案例、零时间线,硬排除规则适用。H和R通过,K不通过。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
09:36
57d ago
● P1腾讯技术工程 · 公众号· rssZH09:36 · 04·17
腾讯工程师用 Claude Code 跑通后台开发全流程,11 个环节在一个终端里搞定
这篇文章来自腾讯技术团队的一次实践复盘,他们用 Claude Code 搭配自定义的 Skills、Commands 和 MCP 服务器,把后台开发的 11 个步骤串成一个终端里的流水线。需求探索这一步花了 20 次工具调用、9.38 万 token、56 秒;执行阶段拆成 4 个任务,产出了 3 次代码提交。核心不是让 AI 直接写代码,而是把需求分...
#Agent#Code#Tools#Tencent
精选理由
我会先打个折:这不是模型发布或产品大更新,而是一篇来自一线的实践复盘。但它把 agentic engineering 从概念拉到了可复现的后台开发流程里,token 消耗、工具调用次数、人工卡点都给了具体数字,比市面上大多数“AI 写代码”的公关稿扎实。对正在琢磨怎么让模型进业务流程的从业者来说,这套终端内的编排思路和踩坑记录值得一看。
一句话点评
文章正文被微信环境验证页挡住了,实际内容没抓到,没法判断具体说了什么。
锐评
这条链接点进去只看到微信的“环境异常”验证页面,正文完全没加载出来。标题提到从 Vibe Coding 到 Agentic Engineering 重构后台开发流程,听起来是想讲怎么让 AI 从辅助写代码升级到能自主干完整开发任务,但具体是技术方案、工具链还是团队实践,正文没披露。标题里的两个概念本身也需要解释:Vibe Coding 通常指靠感觉和 AI 对话式写代码,Agentic Engineering 则强调让模型像工程师一样规划、执行、调试。如果文章真有干货,值得关注的是它有没有给出可复现的流程、失败案例和实际效率数据,而不是概念包装。目前只能等验证问题解决后再看。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
08:51
57d ago
Hacker News 首页· rssEN08:51 · 04·17
Ada:那个被行业忽视、却悄悄影响了所有现代语言的设计
美国国防部在1970年代发现自家系统里用了450多种编程语言,于是花了5年搞需求、1979年选了Jean Ichbiah的Ada方案。Ada从1983年至今修订了4次,核心设计包括包规范与实现分离、并发任务、强静态类型和异常处理。文章的核心观点不是怀旧:很多现代语言正在加的安全特性,Ada几十年前就有了。
#Code#Safety#Department of Defense#Jean Ichbiah
精选理由
HKR 的 H 和 K 都过了:文章有一个反直觉的钩子(现代语言的安全特性 Ada 40年前就有了),并且给出了具体版本和特性事实。但 R 完全不过——它跟 AI 无关,不是产品、研究或行业动态,只是语言史闲谈。所以维持 excluded 和 34 分。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K1·R0
08:25
57d ago
36 氪 · 直链· rssZH08:25 · 04·17
享刻智能不追人形机器人,专做餐饮后厨的具身智能,刚融了1.5亿
享刻智能宣布完成1.5亿元A轮融资,累计融资超2.5亿元,由九号公司领投。这家公司不做人形机器人,而是专注餐饮后厨场景,核心产品是一台叫LAVA的轻量化机械臂,先拿高温油炸这个环节开刀——炸鸡块、薯条全流程无人化。目前已在韩国启动百台级交付,海外营收占比30%,计划2-3年提到50%以上。技术层面,他们自研了0.9米臂展、5公斤负载的机械臂,配合端侧V...
#Robotics#享刻智能#36Kr#Commentary
精选理由
标题给出了一个清晰的反共识判断——不做人形机器人,深耕餐饮场景。但正文为空,没有披露产品形态、部署数量、客户名单、融资规模或时间表。H 和 R 通过:反人形角度有话题性,垂直落地 vs 人形叙事的争论对从业者有参考价值。K 不通过:信息缺口太大,无法验证执行力和商业进展。按硬排除规则 6,归为 excluded。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
05:10
57d ago
r/LocalLLaMA· rssEN05:10 · 04·17
Thunderbird团队发布自托管AI客户端Thunderbolt
Thunderbird 团队推出了一个叫 Thunderbolt 的 AI 客户端,主打自托管——也就是你可以在自己的服务器上跑,不用走第三方 API。不过目前只有 Reddit 上一个 403 页面,正文没披露支持哪些模型、有什么功能、用什么许可证、什么时候能下载。关键信息缺失,没法判断它到底能跑多大模型、部署门槛高不高。
#Tools#Thunderbird#Product update
精选理由
HKR 的 h 靠产品名和自托管角度通过,但 k 和 r 都失败,因为文章正文只有 Reddit 的 403 页面。唯一能确认的是产品名和自托管这个方向,模型支持、许可证、发布时间、演示条件一概没写,所以按硬排除零来源处理。
一句话点评
Mozilla旗下Thunderbird团队发布了自托管AI客户端Thunderbolt,定位企业级开源方案。目前信息来自Reddit转载,正文未披露具体功能、支持的模型或部署要求。如果真能做到本地化、数据不出域,对企业有吸引力,但团队只有2人,成熟度存疑。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
04:00
57d ago
FT · 科技· rssEN04:00 · 04·17
金融官员警告:最新AI模型可能威胁全球银行系统
金融官员警告,最新AI模型可能威胁全球银行系统。但正文被付费墙挡住,没披露具体是哪些模型、哪些官员、以及风险机制是什么。信息缺口很大,暂时只能当标题党看。
#Policy#Commentary
精选理由
标题钩子强,H和R都成立,但正文完全空白,K项信息缺口太大,所以留在all层级,不上推荐位。
一句话点评
金融官员警告最新AI模型可能威胁全球银行系统,但正文被付费墙挡住,具体是哪个模型、什么威胁、谁说的都没披露。标题很唬人,但信息缺口太大,没法判断是真实风险还是监管层在放风。建议先别转发,等能读到全文再下结论。
锐评
金融官员警告最新 AI 模型会威胁全球银行体系;标题给了风险对象,正文没披露模型名、官员姓名、传播机制和触发条件。信息缺口这么大,我不买“银行系统已到临界点”这套讲法。现在更像监管层在提前占位,把模型能力升级和金融稳定放进同一张表里谈。 我一直觉得,AI 进金融的首要风险不是模型突然接管银行,而是三类老问题被放大。第一类是同质化决策:太多机构接入相近模型、相近数据、相近风险提示,仓位和风控会一起偏。第二类是自动化速度:交易、授信、反欺诈、客服一旦串成闭环,错误从分钟级传到秒级。第三类是外包集中度:少数云厂商、模型厂商、数据供应商堆成单点。这个框架其实不新,英国 FCA、美国 FSOC、BIS 过去两年都在谈模型风险、云集中和 operational resilience,我记得 BIS 还反复提过 procyclicality,但这篇正文没给任何具体映射。 我对“latest AI models”这个标题也有点怀疑。要是指 GPT-5 级别推理模型或面向 agent 的系统,风险重点会是自主执行和工具调用;要是只是更强的生成模型,银行真正先出事的地方多半还是欺诈、KYC 误判、市场谣言放大,不是核心账本被 AI 直接打穿。没有场景、没有数字,这条现在只能当政策试探气球看。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
04:00
57d ago
FT · 科技· rssEN04:00 · 04·17
数据中心建设延误,AI扩张可能被卡脖子
FT这篇报道标题说数据中心建设延误正在威胁AI扩张,但正文被付费墙挡住,没披露具体延误的地区、运营商、时长、受影响的算力规模或训练计划。核心问题是供给端产能跟不上,不是模型发布节奏的问题。目前信息缺口很大,没法判断延误有多严重、对哪些公司影响最大。
#Commentary
精选理由
标题点出一个真实的供给侧瓶颈——数据中心建设延期可能卡住AI扩张,比模型发布节奏更值得关注。但正文完全为空,没披露延期地区、运营商、延误时长、受影响算力规模或训练计划,信息缺口太大,无法判断冲击强度。H和R靠标题逻辑通过,K因零来源硬性排除,重要性上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
04:00
57d ago
持续报道 · 48dAI 群聊日报· atomZH04:00 · 04·17
美国AI聊天记录失去律师保护、Claude Opus 4.7风格争议、Kimi 2.6灰度上线
今天群聊信息量很大。核心是两件事:一是美国法院判例明确,你跟消费版AI聊的内容不受律师-客户特权保护,对方律师可以拿来当证据。有人提议搞20美元/月的线上律所来绕开,但群友分析这是个不可能三角——便宜、法律保护、AI,三者只能选两个。二是Claude Opus 4.7被集体吐槽风格变“GPT味”,动不动就“击穿”“锐利”,而且做长时间任务容易中途放弃,...
#Safety#Code#Memory#Anthropic
精选理由
HKR的K和R通过,但H不通过——标题是泛泛的日报汇总,内容混杂二手话题和匿名群聊,缺乏一手权威报告,信号强度低于40,因此排除。
一句话点评
Anthropic 疑似要搞 KYC(实名认证),群友调侃“全球实名制”。Claude Code 出 500 错误,一个 prompt 烧掉 5 小时用量,怀疑是 bug。GPT 写代码、Claude 写文章成了群内共识。另外有人分享用 Plaud 录音 + 全自动转录总结的工作流,从每天 1 小时降到零摩擦,关键是用 Mac Mini 跑 Playwright 和 meta skill 思...
锐评
这篇日报一下子摆出了两个很硬的现实:美国消费级 AI 聊天记录不享有律师—客户特权,Claude Opus 4.7 在群友反馈里出现了“挂一晚只跑半小时”的持续执行退化。前者是合规边界,后者是产品边界,两个都比“模型更聪明了没有”更接近今天的真实战场。 我先说判断。群里最有信息量的,不是对 Opus 4.7 文风的吐槽,也不是“10 万亿参数”这种标题党,而是大家开始把问题从模型能力拆到机制层。法律这块,文章给了 Heppner、Warner v. Gilbarco、Tremblay v. OpenAI 三个案子,已经足够说明一件事:你跟 ChatGPT、Claude 说的话,默认不是在跟律师说话。只要产品主体不是律所,关系没有落进 attorney-client privilege,聊天记录就有被对方律师调取的风险。这个结论对做 AI 应用的人很麻烦,因为很多创业公司还在把“AI 法务助手”卖成“先聊再决定要不要找律师”的前置入口。坦率地讲,这个叙事有点悬。入口越前,越容易接到最敏感、最可诉的事实陈述。 我想到的外部参照,是 2024 到 2025 年一波 legal copilot 创业公司的话术:都在强调 intake、document summarization、drafting memo,极少有人敢把 privilege 说死。不是他们不会讲,是这个口子本来就不能乱开。文章里那个“20 美元订阅线上律所”的想法,商业上很诱人,法律上却卡在执照、持股、监督责任三层门槛。正文也承认了,科技公司或非律所不得持股律所,至少在美国很多州结构就是这么紧。要真做,最后大概率不是“AI 平台顺手加法律保护”,而是“律所把模型包进执业流程里”。这两个路径的毛利、扩张速度、责任承担,完全不是一回事。 但我也要泼点冷水。光靠这三个判例,还推不出“所有 AI 法律场景都没有保护”这么宽的结论。正文给的是方向,不是完整 doctrine。比如 work product 和 attorney-client privilege 本来就不是一回事,Tremblay 里提到的 opinion work product,也不能直接外推到普通用户聊天。我还没看到更系统的判例梳理,所以这条现在更像强警报,不是最终定论。做产品的人该做的,不是转发标题吓用户,而是把日志保留、第三方存储、人工复核、律所参与方式写清楚。 回到 Opus 4.7。群里的抱怨我基本信一半,保留一半。信的一半在于,Anthropic 这两代模型确实一直在把“可控、稳妥、像助手”往前推,代价常常是 agentic persistence 下降。去年不少人就抱怨过 Sonnet 系列在长链任务里太容易收手,尤其碰到不确定工具调用时,会更快回到“给你一个总结”。如果这次 Opus 4.7 连挂一晚的 research 都只能跑半小时,那问题多半不只是“味道像 GPT”,而是 timeout、heartbeat、stop condition、planner-worker 分层这些 orchestration 细节没跟上。群友提到 board 和 heartbeat,我觉得方向对。很多人把 agent 失败归因到基座模型退化,其实长任务里更常见的死因是守护进程设计太弱,模型一停就真停了。 这里我有个自己的怀疑。文章把 Opus 4.7 的问题主要落在机制上,这个判断我基本认同,但正文没给复现实验:跑的是什么任务,调用了哪些工具,token 上限是多少,是否触发了安全策略或会话失活。没有这些条件,单个“跑了半小时就停”还不能直接证明 4.7 弱于 4.6。Anthropic 最近几次模型更新,经常同时改系统提示、工具权限、速率限制和 UI 默认行为。用户体感变差,未必全是模型权重本身的问题。这个差别对团队很重要,因为前者靠换模型解决不了,得改 runtime。 Kimi 2.6 灰度这条,正文信息很少,只有“上周开始灰度”“for coding 已上线”,没有 benchmark、价格、上下文长度,也没有说是全量替换还是小流量实验。信息不够,我不想硬吹。但它至少说明国内 coding agent 这条线还在追得很紧。月之暗面如果真的把 2.6 放进 coding 产品,目标大概率不是通用聊天,而是把 repo 理解、补全、修复、任务拆解这类高频环节吃下来。这个打法跟 2025 年大家卷通用榜单时已经不一样了,像 Cursor、Windsurf、Devin 后来的共同经验都是:用户不因为模型平均分高 3 分付钱,用户因为一次真实任务少折腾 20 分钟付钱。 谷歌那篇“AI 不会产生意识”的论文,我的态度跟群里老虎82接近:学术上能聊,产品上优先级很低。文章里有人怀疑这是对“AI 福利主义”的预防性写作,我觉得这个猜测不离谱。过去一年,几家大厂都在提前处理人格化、痛苦模拟、系统提示伦理这些边角议题,不是因为模型突然有意识了,而是因为监管语言会先于科学共识落地。谁先定义问题,谁就先拿到合规解释权。 这篇群聊日报的价值,恰好在它不够整齐。它把一个真实现状摊开了:2026 年的 AI 讨论,重心已经从“哪个模型更强”滑到“哪些话不能喂给模型”“模型为什么半夜自己停了”“哪类执照和责任能包住 AI”。这比榜单波动更接近从业者每天会撞上的墙。说真的,我看完最大的感受不是兴奋,是收敛。别再把产品风险都讲成能力问题,也别把法律问题讲成提示词技巧。很多坑,系统边界一开始就写在那了。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R1
03:37
57d ago
X · @Yuchenj_UW· x-apiMULTI03:37 · 04·17
Claude Code 用 Opus 4.7 一整天:大代码库理解明显变强
作者在 Claude Code 里开最高算力用 Opus 4.7 干了一整天活,说大代码库理解、架构图质量和自主行动能力都有明显提升。只遇到一次指令理解错误,不确定是模型本身还是工具层的问题。全文只有个人感受,没有基准分数、代码库规模、任务集或配置细节,也没区分框架错误和模型错误。
#Code#Agent#Tools#Commentary
精选理由
这是一篇 Claude Code 的一手使用笔记,对评估编程模型的从业者有一定参考价值(HKR-R)。HKR-K 不成立,因为正文没给出代码库规模、任务集、配置或基准分数;HKR-H 偏弱,因为标题就是个使用日记,没有硬核发现。适合留在 all 层级。
一句话点评
短评:一条个人体验帖,说用 Claude Code 配合 Opus 4.7 高强度干了一天活。没跑分没对比,纯主观感受,参考价值有限。 正文几乎没披露任何具体信息:没提任务类型、代码量、错误率、成本或延迟。唯一能确认的是“max effort”模式——这通常意味着模型会花更多推理步数来优化输出,代价是响应变慢、token 消耗更高。如果用户全天都在用这个模式,那账单可能不低,但原文没给数字...
锐评
作者连续用 Opus 4.7 max effort 1 天,就把结论推到“像新 base model”。这一步跨得太大。正文只给了 3 个正向印象:大代码库理解更强、架构图更干净、agentic 行为更多;负面只报了 1 次指令误读。代码库多大、仓库语言是什么、Claude Code 开了哪些工具、是否用长上下文、max effort 具体拉高了思考预算还是工具调用频次,正文都没披露。没有这些条件,这条更像体验帖,不像能力判断。 我对“大代码库理解更强”这句尤其保留。Claude Code 里的体感提升,常常混着 3 层变量:底模本身、agent harness、还有 repo indexing / file retrieval 策略。作者自己也承认那次误读没法分清是 harness 还是模型问题,那正好说明因果拆不开。你把同一个底模放进不同 harness,表现能差一截,这事过去一年已经反复发生了。Cursor、Windsurf、Aider、Claude Code 给同一模型接不同编辑器循环、文件筛选、补丁应用机制,最后用户感知到的“更会写代码”,经常不是 base model 单独贡献的。 说真的,我更愿意把这条读成 Anthropic 在 Claude Code 里把 Opus 4.7 的“可用性”调顺了,不急着认定底层能力跳变。过去一年的代码模型讨论里,这种误判很常见:大家先被“第一次在自己仓库里顺手”打动,然后把产品体验提升误记成模型代际升级。GitHub Copilot 早期几次体感爬升也是这样,很多人以为是模型突然变强,后面拆开看,prompting、检索、上下文拼接、编辑器内反馈循环都占了不少。 作者提到“架构图更干净”,这倒是个有意思的信号,但我还是要泼点冷水。图画得干净,不等于系统理解更深。很多模型现在已经很会产出可读的 mermaid 或 ASCII 图,尤其在 max effort 档位下,会先整理模块边界再输出,所以观感很好。问题是正文没给任何可复现样例:是从 20 个文件抽图,还是从 2 万个文件抽图;是按调用链画,还是按目录结构画;有没有把不存在的依赖关系编进去。少了这些,“图更好看”离“架构建模更可靠”还差很远。 “Feels like a new base model” 这句我最不认。Anthropic 以前也干过让用户感到“像换了模型”的事,原因未必是换 base。系统提示词更新、tool-use policy 调整、思考预算上调、甚至 Claude Code 客户端对文件挑选策略的小改,都能把主观体感拉开。我没查到这条对应的 system card 或 changelog;如果官方没公开权重级别的变化,只靠一天手感就下这个判断,我觉得有点过。 外部对比也能说明问题。过去一年里,很多开发者第一次用到高 effort 模式时,都会把“更 agentic”误认为“更聪明”。OpenAI 的高推理档、Google 在 Gemini Code Assist 里的较长规划链,都出现过类似反馈:任务分解更积极、会主动看更多文件、会先给计划再动手。这里面当然有模型能力,但也有 budget 换来的行为风格变化。标题已经给出 max effort,这本身就是一个巨大变量。若不和同模型非 max effort 对照,结论站不稳。 我这条判断很简单:这是一条对 Claude Code 有利的使用者证词,不是对 Opus 4.7 底模代际跃迁的证据。你要让我信,至少得补 4 组东西:仓库规模与语言、任务集、成功率或返工率、同仓库下 Sonnet 4.5 或前版 Opus 的并排对照。正文目前都没有。材料这么薄,我最多接受一句“在 Claude Code 里,Opus 4.7 max effort 的体感明显更顺”,接受不了“像新 base model”。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K0·R1
03:15
57d ago
量子位 · 公众号· rssZH03:15 · 04·17
字节Seedance 2.0论文发了,171人署名,吴永辉曾妍在列
字节跳动发了一篇Seedance 2.0的论文,署名作者多达171人,包括吴永辉和曾妍。正文被微信屏蔽了,看不到论文主题、投哪个会、方法、结果或代码是否开源。目前唯一能确认的信息就是作者数量——171人,比很多小公司整个团队还多。
#ByteDance#Wu Yonghui#Zeng Yan#Research release
精选理由
HKR-H 通过,因为 171 人署名加上字节知名研究员的名字确实有话题性。HKR-K 和 HKR-R 都不通过:RSS 只给了作者名单和人数,没有论文内容、方法、指标或实际影响,所以这条信息价值很低,只适合 'all' 层级。
一句话点评
字节Seedance 2.0论文发了,171人署名,吴永辉、曾妍在列。团队规模大,但正文没披露模型参数量、训练数据规模或推理效率等关键指标。短评:人多不等于技术强,缺细节先别激动。
锐评
字节这次挂出 171 人署名的 Seedance 2.0 论文,我更愿意把它看成一次内部协同展示,不是能力落点已经坐实。眼下能确认的事实只有两件:论文和 171 人作者名单公开了,吴永辉、曾妍在列。论文主题、发布平台、核心方法、实验结果、代码是否开放,正文都没披露。 171 人这个数字本身有信息量,但信息量不在“模型更强”四个字。它先说明 Seedance 2.0 很可能不是单点算法论文,而是跨研究、数据、训练、基础设施、评测、产品化一起挂名的项目。大厂现在发多模态、视频生成、基础模型系统论文,作者数上百不稀奇。Google DeepMind、Meta、OpenAI 过去一年都有这种长作者名单。我没逐篇去核对 Seedance 对位论文的作者数,但 171 人已经足够说明这不是一个小组闭门做出来的 paper。 我对标题叙事有点警觉。很多人会把“大作者团”自动翻译成“大突破”,这个推断太快了。作者数更像组织投入强度,不等于方法新意,也不等于 benchmark 领先。尤其是视频和多模态这条线,过去一年最常见的情况就是 demo 很强,论文里把数据清洗、偏好对齐、后处理、评测口径拆开后,增益没宣传里那么整齐。这里我还没查到 Seedance 2.0 论文原文,所以不能替它下结论;我只能说,标题给出的证据还不足以支持“领先”二字。 吴永辉、曾妍在作者名单里,这个信号比“171 人”还实一点。署名结构通常会暴露项目权重。核心负责人愿意挂名,说明这不是边缘研究线,也不是纯 academic packaging。字节近一年在模型、视频、Agent、基础设施几条线上都在提速,外界对它的印象常常停在产品爆款和推荐系统。要是 Seedance 2.0 论文最后落在视频生成、统一多模态、或者训练系统效率任一方向,我都不会意外,因为这几条都跟字节现有分发和算力使用逻辑接得上。 我还是要泼点冷水:没有 venue,没有实验表,没有开源信息,现阶段没法判断这篇论文是“刷存在感”还是“真要占山头”。如果它去了顶会或顶刊,方法和评测会更容易被同行拆;如果只是 arXiv 挂出,速度是有了,约束会弱很多。开源也一样。去年到今年,国内外大厂在视频模型上最喜欢做的事,就是放论文和样片,不放可复现权重。原因大家都懂:算力贵,数据脏,安全审查重,开放后收益未必覆盖风险。Seedance 2.0 会不会也是这一路,我现在不确定,标题完全没给答案。 所以这条新闻眼下别急着吹,也别急着踩。它先证明字节愿意把 Seedance 2.0 往“正式研究成果”这条线上推。至于这条线能不能成立,要看三样更硬的东西:任务定义是什么,指标赢了谁,代码或产品有没有给外部复现入口。只靠 171 个名字,我最多承认字节认真了,承认不了它已经赢了。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
03:03
57d ago
机器之心 · 公众号· rssZH03:03 · 04·17
ACL 2026 论文:OPeRA 数据集首次系统评估 LLM 模拟人类行为的能力
这篇 ACL 2026 论文号称首次系统评估大模型模拟人类行为的能力,但正文只给了标题,没披露数据集规模、任务类型、基线模型和结果指标。目前能确认的信息只有标题本身,真正的看点在于评估协议是否可复现,而不是那个 headline 问题。
#Benchmarking#Reasoning#ACL#Research release
精选理由
HKR-H通过,因为标题问了一个让人想点开的问题。HKR-K和HKR-R不通过:文章只确认了论文和数据集名称,协议、规模、基线、数字全都没有,所以留在低关注度的all层。
一句话点评
正文被墙,信息不全。从标题看,ACL 2026 接收的 OPeRA 数据集首次系统评估 LLM 模拟人类行为的能力。关键看它用了什么任务、多大样本、对比了哪些模型。目前缺方法细节和结论,没法判断是真突破还是刷榜。
锐评
ACL 2026 这篇 OPeRA 目前只放出一个题目和一句摘要,关键变量全空着:数据集规模没写,任务定义没写,基线模型没写,结果数字也没写。在这种信息密度下,标题里的“首次系统评估”只能先当作者自述,不能当结论。我对“模拟人类行为”这类表述一直比较警觉,因为它太容易把三个完全不同的问题揉成一个:一是行为分布拟合,二是人格或偏好稳定性,三是交互场景下的长期一致性。三者评法不同,难度也不是一档。正文没披露协议前,任何“LLM像不像人”的判断都站不住。 我一直觉得,这类工作最容易出问题的地方不是模型分数,而是标注口径。过去一年里,做 persona、alignment、social simulation 的数据集已经不少,很多最后卡在“人类行为”被粗暴压成选择题,或压成静态单轮问答。那样测出来的,通常只是模型会不会复述群体平均答案,不是会不会在多轮、跨情境里维持同一个人设。我没查到 OPeRA 是否含有 longitudinal setting、真实行为日志、还是 survey-style response。如果只是后两者,它离“行为模拟”还差一大截。这个区分很硬,做 agent evaluation 的人一看就知道。 还有一个我不太买账的点:学界现在很爱把“human simulation”包装成通用能力检验,但复现门槛经常藏在采样策略、prompt 设定和 judge 机制里。温度是 0 还是 0.8,是否给 persona profile,评分用 human raters 还是 LLM-as-a-judge,结论能差很多。前面几波社会科学向的 LLM 论文已经反复证明这一点:同一个模型,换一下 framing,政治倾向、风险偏好、道德判断都能飘。我自己还没看到 OPeRA 的 paper,所以不能断它也有这个问题;我只能说,正文没把这些条件展开,“系统评估”这几个字分量不够。 英文这边我会拿两个参照看它。一个是各类 persona benchmark,很多能测到风格像,但测不到跨回合稳定性。另一个是 agent benchmark,像 WebArena、SWE-bench 这类虽然不测“像人”,但至少任务成功、环境反馈、复现实验条件更清楚。OPeRA 如果只是把人格问卷做大,再套几个模型跑分,这条线的学术价值有,但离行业里关心的 user simulation、synthetic population、policy sandbox 还远。反过来,如果它真有真实行为轨迹、强基线、跨模型对比和公开协议,那这条会很有用,尤其是给 RLHF、product research、AI agents 做用户替身测试的人。现在的问题很简单:标题给了野心,正文没给证据。
HKR 分解
hook knowledge resonance
打开信源
59
SCORE
H1·K0·R0
03:03
57d ago
机器之心 · 公众号· rssZH03:03 · 04·17
DeepSeek 悄悄更新:Mega MoE 和 FP4 Indexer 来了,但正文啥也没说
DeepSeek 发了一篇更新公告,标题里提了两个东西:Mega MoE(一种超大混合专家模型架构,把多个小专家模型拼在一起用)和 FP4 Indexer(用 4 位浮点数做索引,理论上能省显存和带宽)。但正文被微信屏蔽了,实际内容看不到。目前唯一能确认的就是标题本身。发布时间、模型规模、FP4 的具体实现方式、Indexer 用在什么场景、以及能不能...
#DeepSeek#Product update
精选理由
标题有钩子,但正文是空的,只确认了两个名字。发布时间、FP4实现方式、Indexer用途、访问路径和基准成绩全都没披露,信号强度低于40,所以排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
02:44
57d ago
● P1X · @op7418(歸藏)· x-apiZH02:44 · 04·17
火山引擎向国内用户开放 Seedance 2.0 API 接口
火山引擎把 Seedance 2.0 的 API 全量放出来了,国内走火山引擎,海外走 BytePlus。这个接口一次能接收文字、图片、音频、视频四种输入,也开放了人脸登记和肖像授权功能,可以直接用自己的脸生成视频,平台还预置了一批虚拟人像特征。正文没提价格、调用频率限制、模型版本和地区可用性,这些得自己去查。作者最期待的是把视频生成接进 Skills...
#Agent#Multimodal#Tools#Volcano Engine
精选理由
这是一次实打实的产品更新,不是概念发布。H 打满是因为全量开放意味着从 demo 到可集成的跨越;K 打满是因为四种模态输入和肖像授权机制都写清楚了,不是模糊的“多模态”;R 打满是因为视频生成类 API 的落地需求一直很旺,合规控制又是企业接入的硬门槛。分数定在 75,因为价格、速率限制、地区铺开节奏和实际生成质量正文都没给,这些缺口让实用性先打个折,别急着吹。
一句话点评
火山引擎把 Seedance 2.0 视频生成模型的 API 全量开放了,个人和国内企业都能直接调用,海外也同步上线。
锐评
Seedance 2.0 的 API 不再搞内测邀请那套,直接全量开放,对想低成本试水的个人开发者和小团队是个好消息。目前信息主要来自两位科技博主的口径,官方技术文档和定价细则还没看到,所以“全量”具体指并发上限、计费模式这些关键点仍是空白。另外,原文链接实际触发的是微信环境验证,正文内容缺失,我们只能依据标题和火山引擎一贯的发布节奏来做判断。如果后续有明确的调用价格和生成速度数据,才能评估它是不是真的比跑本地模型省钱省事。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
02:35
57d ago
r/LocalLLaMA· rssEN02:35 · 04·17
Reddit 上有人测了 Kimi K2.6-Code-Preview、Opus 4.7、GLM 5.1、MiniMax M2.7 等模型的编程能力
帖子标题说测了这些模型的编程能力,但 Reddit 返回了 403 错误,正文完全没披露用了什么提示词、测了多少样本、具体分数和测试方法。目前能确认的只有这个编程对比的存在,但结果不可复现,信息缺口很大。
#Code#Benchmarking#Kimi#GLM
精选理由
标题暗示了一次及时的编码基准测试,所以 HKR-H 和 HKR-R 成立。但可访问内容只有 Reddit 403 页面,任务、提示词、样本量、分数全未披露,触发硬排除——零信源,重要性上限卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
00:36
57d ago
X · @OpenAI· x-apiEN00:36 · 04·17
OpenAI 播客聊新生命科学模型:今天帮科研,未来搞自动化实验室
OpenAI 在自家播客里聊了新的生命科学模型系列,研究负责人和产品负责人一起上阵。主题是三个:先帮生物、药物研发的日常工作提效,再逐步走向自动化实验室,同时强调从第一天就谨慎部署。但正文没披露模型叫什么、参数多少、什么时候发,所以真正的信号是部署范围,不是模型本身有多强。
#Reasoning#Safety#OpenAI#Yunyun Wang
精选理由
这是对已宣布的生命科学模型系列的后续预告,不是新发布。HKR三项全不满足:没有模型名、规格、基准、定价或部署范围;硬排除规则(过时重播)让分数低于40。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
00:00
57d ago
硅谷101 播客· atomZH00:00 · 04·17
硅谷右翼权力网怎么搭起来的?从彼得·蒂尔1987年办校报说起
这期播客把彼得·蒂尔那套“反竞争、要垄断”的世界观,追到了他大三时创办的《斯坦福评论》。背后有三个实在的推动力:一是法国哲学家René Girard的“模仿理论”——人没有自发欲望,全在模仿别人,所以竞争是蠢的,垄断才是对的;二是John M. Olin基金会,一个军火大亨死后立的遗嘱,要求25年内把钱花光关门,期间资助了100多个右翼校园媒体,蒂尔的...
#Peter Thiel#Stanford University#Founders Fund#Commentary
精选理由
HKR-H和HKR-K都成立:这期节目有明确的蒂尔权力网钩子,也列出了几个具体的历史机制。HKR-R对AI读者偏弱,因为讲的是硅谷意识形态而非AI产品、实验室或政策动向,所以适合all而非featured。
一句话点评
这期播客梳理了彼得·蒂尔从1987年创办《斯坦福评论》至今的思想脉络,核心是三位哲学家:吉拉尔的模仿欲望理论(解释他为何推崇垄断、厌恶竞争)、施特劳斯(精英应隐秘地引导大众)以及德鲁克(科技管理)。信息量很大,把蒂尔投资Facebook、创立PayPal、扶持JD Vance等行为都串到了哲学根上。但注意,这是播客的文字稿,嘉宾观点偏重思想史解读,缺乏对蒂尔商业实践失败案例(如他投的很多公司...
锐评
Peter Thiel在1987年创办《斯坦福评论》,并借欧林基金会支持接入了100多家校园右翼媒体网络。我的判断很直接:这期节目讲的不是人物传记,而是一种“先做叙事据点,再养干部,再接资本,最后进国家”的组织方法。做AI的人如果还把Thiel只看成Palantir投资人,已经慢了半拍。 节目里最有价值的地方,是它把三层机制串起来了。第一层是校园媒体。《斯坦福评论》不是校报,所以不受校内预算约束。欧林基金会给右派学生钱,目的也不是赢一场辩论,而是建平行舆论阵地。正文提到它支持了100多家类似媒体,这个数字很关键。校园里最稀缺的不是观点,而是能持续发稿、持续招人、持续把关系留下来的组织壳。第二层是思想工具。Girard的“模仿理论”被Thiel拿来解释竞争、平台和垄断。第三层才是公司与资金:PayPal、Facebook、Palantir,不是零散下注,而是同一套世界观在不同市场里的投放。 我对节目叙事有一处保留。它把Girard放得很重,这有解释力,但也容易把Thiel讲得过于“哲学驱动”。我不太买账“思想先于利益”这个版本。Thiel当然读理论,也确实会用理论组织语言,但他更像一个高强度的机会主义者:哪套理论能帮他解释垄断、竞争、国家、安全,他就拿哪套。你看Palantir就很典型。那不是一本哲学书自然长出来的公司,而是2004年前后美国反恐、安全承包、数据整合需求一起抬升后,找到了一套足够硬的合法性话术。节目把思想源头讲清了,利益结构这块还可以再往下挖。 文章外的上下文其实更能说明问题。Thiel这条线在过去几年已经从“硅谷异见者”变成了制度参与者。我记得他2016年公开站特朗普时,在科技圈还算少数。到了2024年,Marc Andreessen和Ben Horowitz也公开转向支持特朗普阵营,防务科技、加密、反监管、反高校建制开始汇流。再往AI这边看,Palantir这两年和美国政府、军方、北约相关项目的存在感持续上升,这不是孤例,而是技术资本和国家安全重新绑定。细节我没逐项核对,但大方向很清楚:Thiel系影响力已经不靠“反主流姿态”吃饭,而是靠真实的采购、政策入口和人事安排。 这也是我觉得节目对AI从业者有现实意义的原因。很多人谈AI治理,还停在模型评测、开源闭源、算力管制这些表层议题。Thiel网络关心的不是这些细枝末节,而是谁来定义“国家利益”、谁拿国防预算、谁能把监控与自动化包装成安全基础设施。Palantir早就把这套路径走通了:先做难解释但政治上刚需的系统,再把“效率”“情报融合”“战场决策”变成不能反对的话。今天很多agent、边缘推理、国防AI公司,叙事结构跟它非常像。 还有一点,节目里提到Thiel Fellowship每人10万美元,鼓励学生离开大学。这条线别只当反学院情绪。它和《斯坦福评论》其实是同一逻辑:不要只在既有机构里争位置,要自己建筛选机制。校园媒体筛选的是政治与表达人才,Fellowship筛选的是技术与创业人才,Founders Fund再承接资本化。这套链条厉害的地方,不是某个项目赚了多少钱,而是它能稳定生产同温层、忠诚度和互相投资的关系网。Y Combinator当年也在做人才筛选,但YC偏产品和公司形成;Thiel这套更带意识形态和国家权力取向。 我还想补一个反向提醒。别把这件事讲成“只有右翼会经营网络”。美国自由派基金会、大学、媒体、智库几十年也一直在这么做。Thiel特殊的地方,不是他发明了这套玩法,而是他把它压得更集中、更长期,也更敢把“垄断”“精英统治”“民主失灵”直接说出口。很多人惊讶于他今天离权力这么近,我反而觉得不奇怪。1987年的学生报纸、2005年关闭的欧林基金会、2004年成立的Palantir、后来的Vance,这些点连起来看,路径非常连续。 所以这期节目给我的结论不是“Thiel很有思想”,而是“他很早就在搭组织基础设施”。做AI的人如果只盯模型榜单,会低估这种基础设施的威力。模型会换代,GPU会贬值,能把校园、基金会、VC、国防和华盛顿串起来的人脉机器,寿命往往更长。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
00:00
57d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·17
找律师前先问AI?美国法院:这些准备笔记不受法律保护,对方律师能直接调走
美国纽约南区联邦法院在2026年2月的一个证券欺诈案里判了:被告用Claude准备的31份辩护思路文件,既不算律师-客户特权,也不属于工作成果豁免,必须全部交给检方。法官说得很直白:事后把这些AI对话交给律师,不能把本来不受保护的内容变成受保护的。核心问题就一个——你跟AI聊案情的时候,AI不是律师,平台条款也明说了会收集数据、可能交给政府,所以法律上...
#Policy#Commentary
精选理由
正文只有标题,没有给出任何具体法院、州、判例或调查样本量,所以硬性排除零来源规则把分数压在40以下。HKR-H靠“先问AI可能丢保密特权”这个钩子通过,HKR-R靠隐私/合规风险通过,但HKR-K因信息缺口不通过。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1

更多

频道

后台