ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-09

16 items · updated 3m ago
RSS live
2026-04-09 · 星期四2026年4月9日
19:31
64d ago
● P1X · @dotey(宝玉)· x-apiZH19:31 · 04·09
Anthropic 推出顾问工具 API 让廉价模型执行任务向高端模型咨询
Anthropic 推出了“顾问工具”API,让 Sonnet 或 Haiku 作为执行者跑任务,遇到难决策时把上下文递给 Opus 出主意,Opus 不碰工具、不直接输出,只当幕后军师。这跟常见的“大模型拆任务、小模型执行”反过来了,好处是大部分 token 烧在便宜模型上。Sonnet 配 Opus 在多语言 SWE-bench 上比单干高 2.7...
#Agent#Tools#Inference-opt#Anthropic
精选理由
Anthropic 这次 API 更新挺实在,不是画饼。核心就是让 Sonnet 或 Haiku 当执行者跑任务,卡壳时再问 Opus,而且是在同一次 API 请求里完成模型切换,Token 分开算钱。给的数字也清楚:Sonnet+Opus 在多语言 SWE-bench 上比单用 Sonnet 高了 2.7 个百分点,单任务成本还降了 11.9%;Haiku+Opus 在 BrowseComp 上从 19.7% 跳到 41.2%,成本只要 Sonnet 的 15%。我会先打个折,毕竟还在 beta,但这条路子对控制推理成本确实有用,值得关注。
一句话点评
Anthropic 让便宜模型干活、贵模型当顾问,思路直接,但正文没给成本和延迟数据,省钱效果先打问号。
锐评
Anthropic 这个“顾问工具”API,说白了就是给便宜模型配了一个“场外求助”按钮。平时让 Haiku 这类低成本模型自己跑任务,一旦它觉得搞不定,就自动去问 Claude Opus 这种高端模型,拿到建议再继续干活。这思路不新鲜,但直接做成 API 功能,省去了开发者自己搭路由管道的麻烦。 目前公开信息只有标题和一句话描述,正文没披露具体怎么判断“遇到难题”、切换模型的延迟会增加多少、以及实际能省多少算力成本。x-op7418 提到 Anthropic 算力成本压力大,这个功能更像是内部降本需求的外化。如果切换逻辑不够准,频繁请顾问反而可能更贵更慢。 还缺一组关键数据:在典型任务上,这种混合模式相比纯高端模型能降多少成本,同时准确率会掉多少。没有这些,就只能当个有意思的架构思路看。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
18:28
64d ago
● P1X · @claudeai· x-apiEN18:28 · 04·09
Claude 平台上线“顾问策略”:用 Opus 当军师,Sonnet 或 Haiku 当执行者
Claude 平台把 Opus 模型设为“顾问”,让更便宜的 Sonnet 或 Haiku 去执行具体任务。官方说法是,这样能让 agent 的智能水平接近 Opus,但成本低很多。正文没给出具体价格对比、跑分数据或上线时间,所以实际省多少、效果打多少折,还得等实测再看。
#Agent#Reasoning#Anthropic#Claude
精选理由
Anthropic 给 Claude Platform 加了个 advisor 模式,让 Opus 出主意、Sonnet 或 Haiku 干活,说这样能让 agent 接近 Opus 的水平还更省钱。我会先打个折——正文没给价格、没给基准分数、也没说什么时候上线,所以省多少、强多少现在全是问号。但思路本身对做 agent 的人很有用,值得放出来让大家盯着后续。
一句话点评
Anthropic 要把顾问策略搬上 Claude 平台,但正文没披露具体怎么落地、对开发者意味着什么。
锐评
这条消息本身信息量很薄,只有标题,没有正文细节。从字面看,Anthropic 打算把“顾问策略”做成 Claude 平台的一个功能或产品形态。所谓顾问策略,大致可以理解为让模型像咨询顾问一样,先理解问题背景、拆解需求,再给出建议,而不是直接扔一个答案。这种交互方式对需要多轮推理、上下文敏感的任务会有帮助,比如商业分析、法律合规审查。 但关键信息全缺:是开放给所有 API 用户,还是只面向企业客户?是新的系统提示词模板,还是底层模型行为调整?定价、延迟、可用区域一概没提。如果是真的把顾问式交互做成可配置的选项,对开发者来说能省掉不少提示词工程的功夫;如果只是营销说法,实际还是靠用户自己调 prompt,那就没什么新东西。这点先别太激动,等具体文档出来再看。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
17:36
64d ago
● P1X · @OpenAI· x-apiEN17:36 · 04·09
OpenAI 推出100美元ChatGPT Pro新档位支持Codex用量增长
OpenAI 新设了一个每月 100 美元的 Pro 订阅档,Codex 用量是 Plus 档的 5 倍,适合长时间、高强度的编程任务。这个档位保留了原 Pro 的全部功能,包括专属 Pro 模型以及 Instant 和 Thinking 模型不限次使用。到 5 月 31 日前有个限时活动,Codex 用量临时提到 Plus 的 10 倍。正文没解释为...
#Code#Tools#OpenAI#Product update
精选理由
OpenAI 给 Pro 加了个每月 100 美元的新档位,核心是把 Codex 用量提到 Plus 的 5 倍,其他 Pro 功能不变。5 月底前有个临时福利,Codex 额度再翻倍到 10 倍,但我会先打个折,这只是限时促销。真正值得盯的是,他们开始把代码代理这种重度用法单独拿出来计费,说明以后高强度用 AI 写代码可能要多掏钱。正文没提新模型或技术突破,所以重要性主要落在定价信号上,对团队预算和工具选型有直接参考价值。
一句话点评
OpenAI 新加了个 100 美元/月的 Pro 档位,主要给 Codex 用量大的人用,但官方没细说具体额度。
锐评
OpenAI 在原来 200 美元 Pro 和 Plus 之间塞进了一个 100 美元的新档位,官方说法是 Codex 用量涨太快,需要中间选项。这相当于给重度编程用户一个不上不下的选择:比 Plus 能扛更多调用,又不用直接跳到 200 美元那档。但官方公告正文是空的,只靠标题和第三方消息拼出轮廓,具体每分钟 token 上限、上下文窗口、能不能用最新模型,这些全没写。200 美元档位还在,官方还特意感谢了老用户,说明不是降价替代,而是分层。对团队来说,如果 Codex 是日常刚需,这个档位可能刚好卡在预算和用量之间,但没看到数字之前,别急着算性价比。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:12
64d ago
X · @Yuchenj_UW· x-apiMULTI17:12 · 04·09
一个员工每天烧掉2000美元的Claude额度
一位创业公司创始人透露,员工每人每天用Claude花掉约2000美元,折合每人每年73万美元。如果换成贵5倍的Claude Mythos,每人每年成本将飙到365万美元。创始人还表示“拿我的钱来”。不过这条帖子没交代团队规模、具体工作负载,也没说Mythos到底贵在哪,所以这个数字更像是段子式的估算,别直接当预算参考。
#Agent#Tools#Anthropic#Yuchenj
精选理由
H和R通过,因为每人每天2000美元的Claude消耗是个尖锐的钩子,也切中了单位经济模型的真实神经。K不通过:帖子只给了口头估算和一个5倍外推,没有团队规模、任务构成、账单或Mythos的具体信息。
一句话点评
正文没披露具体对话内容,标题只说跟一位创始人聊了。信息缺口太大,没法判断聊了什么、有没有干货。建议等完整报道再读。
锐评
帖文把 Claude 单人日耗写到 2000 美元。这个数字已经足够刺眼,但我不买它顺手推出的那句“未来公司给 agent 花的钱会超过给人花的钱”。原因很简单:这里给出的只有口头账,没有任务结构、没有团队规模、没有输出质量,也没有说明这 2000 美元里有多少是长上下文反复重跑、有多少是工具调用、有多少是工程失控。 先把硬数摆平。2000 美元/天乘 365 天,年化约 73 万美元/人,这个算术没问题。问题在口径。多数创业团队不会按 365 天满负荷烧推理费,很多内部核算会按工作日、按活跃 seat、按高峰日去讲。按 250 个工作日算,单人年化是 50 万美元,不是 73 万。还是贵,但含义完全不同:前者像长期固定成本,后者更像一支高强度团队在冲刺期的变量成本。标题只给了前一种叙事,正文没披露第二种口径。 我一直觉得,讨论 agent 成本时,把“每人每天烧多少钱”直接等同于“每个员工值不值这个钱”,很容易把团队管理问题伪装成模型价值问题。一个员工如果在 IDE、终端、浏览器、回放日志、跑测试之间挂着十几个 agent,token 消耗当然会上去。但 token 上去,不等于产出按比例上去。去年到今年,Cursor、Devin、Claude Code 这一波最常见的落地瓶颈,不是模型不会写,而是 review、回滚、环境漂移、工具权限、重复调用失控。我没看到这条里任何一个控制变量,所以“Take my money”更像 founder 在买速度幻觉,不像在买稳定的人效。 拿行业里更可核的口径对一下,这个数也显得很极端。我记得 Anthropic 和 OpenAI 过去一年主流编码模型的公开价格,大致都还是落在每百万 token 几美元到几十美元的区间;就算加上工具调用、长上下文、失败重试,要把单人单日稳定打到 2000 美元,通常意味着两种情况:一是上下文管理很差,反复把大仓库、大日志、大文档整段喂进去;二是 agent workflow 已经从“辅助”变成“批量自主试错”,大量 token 烧在错误路径上。两种都不天然指向护城河,很多时候反而指向工程没收敛。 帖文里那句“Claude Mythos 贵 5 倍”我更保留。标题给了 5 倍估算,正文没披露 Mythos 的正式定价、适用任务、吞吐、成功率,也没说这 5 倍是 input/output token 价格、整套 seat 价格,还是某种内部试用感受。没有这些条件,把 73 万美元直接乘到 365 万美元,只能算情绪放大,不算分析。说实话我对这种算法有点警觉:只要成功率、调用轮数、上下文压缩率有一个改掉,最后总账会差出整倍数。 还有一个被故意省掉的问题:公司到底在拿这些 token 替代什么。如果一个顶级工程师年总成本 40 万到 70 万美元,agent 账单冲到 50 万美元以上,管理层至少该回答三件事:交付周期缩短了多少,线上事故率有没有下降,团队能不能少招人。没有替代项,只有消费额,这种数字本身没有经营含义。云计算刚起来时也有类似故事,很多团队先把 AWS 账单烧飞,再回头补 FinOps;今天 agent 成本也在重复这条路,只是单位从实例小时变成 token 和工具调用。 所以我对这条的判断是:它不是在证明“未来 agent 比人贵”,它是在提醒大家,2026 年很多所谓 agent-native 公司还没建立像样的 AI 成本纪律。谁先把缓存、上下文裁剪、模型路由、失败重试、工具权限这几件事做好,谁就能把同样的任务成本打掉一半以上。我自己没看到这家公司数据,不能断言它低效到什么程度;但在正文只给一句口头转述的条件下,把高额账单当成趋势证据,我不买账。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
15:53
64d ago
X · @dotey(宝玉)· x-apiZH15:53 · 04·09
Claude Code 加个环境变量就能关掉 1M 上下文
在 ~/.claude/settings.json 里加一行 CLAUDE_CODE_DISABLE_1M_CONTEXT=1,就能关掉 Claude Code 的 1M 上下文窗口。很多人觉得上下文太长会“降智”,但原文说这只是猜测,没有证据。这个开关是可复现的配置,但性能影响没验证。
#Tools#Code#Product update#Commentary
精选理由
价值在于可复现的开关,所以 HKR-K 通过;同时它踩中了 Claude Code 用户对长上下文取舍的讨论,所以 HKR-R 也通过。分数留在 60 多分,因为帖子没有给出任何基准测试、失败案例或官方文档,而且明确承认“1M 上下文会降智”只是用户猜测,没有证据。
一句话点评
Claude Code 默认开了 1M 上下文窗口,但如果你觉得太费钱或没必要,可以在配置文件里手动关掉。正文没披露关闭后能省多少 token 成本,也没说是否影响代码补全质量。如果是长项目,1M 窗口可能有用;短对话场景关了反而省开销。
锐评
Claude Code 提供了一个可复现开关:用户把 `CLAUDE_CODE_DISABLE_1M_CONTEXT=1` 写进 `~/.claude/settings.json`,就能关掉 1M context。先把事实钉住:帖子只给了变量名、取值 `1`、配置路径这 3 个信息;“1M 上下文会降智”这句,正文自己也承认没有证据。 所以这条我不想顺着社媒情绪走。长上下文一旦出问题,原因常常不是“窗口越大越笨”这么粗。更常见的是检索命中率、提示词结构、工具调用顺序、缓存策略,或者中间摘要把关键信息压扁了。很多 coding agent 的体验波动,最后查出来是上下文装载机制的问题,不是基座模型在 1M token 条件下突然退化。我自己也没跑过 Claude Code 这个开关的 A/B,但如果 Anthropic 留了显式禁用项,通常说明他们内部已经见过兼容性、延迟、成本,或质量稳定性上的 trade-off,不会只是随手埋个彩蛋。 这里有个文章外的上下文。过去一年几家模型公司都在拿超长上下文做产品卖点,可一到真实工作流,团队最后还是会回到“有效上下文”而不是“标称上限”。Gemini 很早就把百万级窗口放上台面,OpenAI 和 Anthropic 也都不断抬数字,但工程侧一直有同一个老问题:你给模型塞进 500k 以上内容,不等于模型就稳定利用了 500k 信息。注意力分配、检索路径、系统提示优先级,都能把大窗口变成大噪音。这个经验在代码场景更明显,因为 repo、终端输出、工具结果会抢同一段预算。 我对这条叙事的 pushback 在这:一个可关闭的 1M 开关,不等于 Anthropic 默认方案有问题,更不等于“长上下文没用”。它更像给重度用户的逃生门,方便你定位问题源头。真想验证,很简单:拿同一个仓库、同一个任务、同一套工具权限,分别跑开关前后,对比完成率、首个可运行 patch 时间、token 消耗和工具调用次数。帖子没给任何 benchmark,也没给版本号,所以现在最多只能说:这个开关有操作价值,那个“降智”判断还站不住。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H0·K1·R1
12:25
65d ago
MIT 科技评论· rssEN12:25 · 04·09
MIT 科技评论今日速览:AI 不会撞墙、人造草坪争议与海水淡化数字
微软 AI 负责人 Mustafa Suleyman 发文反驳“AI 算力即将撞墙”的说法,认为三大进步在推动指数增长:更快的计算单元、高带宽内存、以及把分散 GPU 连成巨型超算的技术。正文没披露具体芯片型号、成本或时间表,但核心观点是把规模扩展看作系统架构问题,不只是堆单卡。另外,美国人造草坪安装量从 2001 年的 700 万平方米涨到 2024...
#Inference-opt#Mustafa Suleyman#Microsoft AI#Google DeepMind
精选理由
这篇是汇总,不是一手产品或研究发布。HKR-K 和 HKR-R 靠具体的基础设施杠杆和扩展瓶颈讨论过关。HKR-H 偏弱,正文没披露具体芯片、成本或时间表,也没有可验证的数据,所以分数在 60 多分,定级 all。
一句话点评
这篇是MIT Tech Review的每日汇总,核心看点是Mustafa Suleyman(微软AI CEO)写的专栏,他反驳“AI算力增长见顶”论,认为三大技术(更快计算单元、高带宽内存、GPU集群互联)会继续推动指数增长。注意这是观点文,不是实证研究,且Suleyman有利益立场。另外Meta发了新模型Muse Spark(首个来自其“超级智能实验室”的模型),但正文没披露具体参数和性能...
锐评
Suleyman用3个硬件抓手支撑“AI短期不会撞墙”,我不太买账。标题给了 faster compute、HBM、GPU interconnect 这3项,正文没给具体芯片、成本曲线、功耗条件,也没给训练或推理哪一侧先受益;在这种信息量下,把“墙不会来”讲得这么满,证据是不够的。 我同意他抓到了一半问题。过去一年,扩展瓶颈确实早就不是单卡 TFLOPS 了,而是系统工程:HBM 容量和带宽、机柜级互连、拓扑、封装、供电、散热、集群调度一起决定有效算力。Nvidia 这两代从 H100 到 Blackwell,再到 NVL72 这种整柜设计,卖点就已经不是一颗 GPU 有多强,而是 72 卡放在一起以后,训练吞吐和推理时延能不能稳定。Meta、xAI、OpenAI、Microsoft 这波大集群也都在证明同一件事:把 10 万卡接成“像一台机器”,难度远高于多买几万卡。 问题在于,这只能说明扩展还能继续,不等于回报还能指数走。HBM 和互连改善,解决的是系统利用率;它们没有自动解决数据质量、后训练成本、评测污染、真实产品留存这些更麻烦的约束。训练端过去还能靠更大集群吃到可见增益,到了 2025 年后,行业讨论已经明显从“再堆 pretraining”转向 inference-time compute、test-time search、agent scaffolding、工具调用。这个转向本身就在说明,单纯靠预训练扩展拿增益,边际已经没前两年那么陡。Suleyman这段话把硬件供给讲成能力进步的主因,我看着像把必要条件说成了充分条件。 还有一层我会更警觉:他说这话的身份是 Microsoft AI CEO。微软现在同时押数据中心 capex、模型分发和 Copilot 收入,叙事上天然需要“墙还很远”。这不代表他说错,但利益相关很强。尤其这篇只是 RSS 摘要,连“更快 basic calculators”具体指哪条路线都没展开,是 Blackwell 级 GPU,还是更长期的 ASIC、光互连、近存计算,正文都没披露。没有这些,读者无法判断他说的是未来 12 个月,还是 3 到 5 年。 我自己的判断很简单:短期内,算力扩展不会突然停;经济有效的扩展,已经比“卡更多”苛刻得多。谁能把 HBM、网络、功耗、编排、推理缓存、agent 工作流一起做顺,谁就继续往前;做不顺的团队,账单会先撞墙。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R1
10:25
65d ago
Product Hunt · AI· rssEN10:25 · 04·09
Rosentic:在合并前抓住互相搞破坏的编码智能体
Rosentic 会在每次 PR 合并前,拿它跟所有其他未合并的 PR 一起做交叉检查。多个编码智能体并行干活时,经常互相改坏对方的代码,单看一个 PR 根本发现不了。Rosentic 声称用确定性分析(同一份代码每次扫结果一样)来抓这种冲突。安装很快:一个 YAML 文件,不用注册,60 秒搞定,跑在你自己的基础设施上。正文没披露具体检测机制、支持哪...
#Agent#Code#Rosentic#Product update
精选理由
HKR-H 和 HKR-R 靠编码 agent 互相破坏这个钩子过关,但 HKR-K 不通过:正文没给检测机制、支持的代码平台、价格或可复现的测试条件。
一句话点评
多智能体并行写代码互相改坏的问题,Rosentic 在合并前做交叉检查。
锐评
Rosentic 解决的是多编码智能体并行开发时的经典问题:Agent A 改了函数签名,Agent B 还在调旧接口,单看各自 PR 完全正常,合到一起就炸。它声称用确定性分析(同一份代码每次扫结果一样)来抓这种跨 PR 冲突,不是概率模型,这点先别太激动——确定性分析意味着规则匹配,不是 AI 推理,误报率可能低但覆盖也有限。安装确实轻:一个 YAML 文件,不用注册,60 秒跑在自己基础设施上,对团队友好。但正文没披露具体检测机制(是静态分析还是运行时追踪?)、支持哪些语言和框架、定价模式,以及“大多数扫描结果干净”这个说法缺乏基准数据——干净的标准是什么?如果只是没改到同一行,那价值有限。对于已经在用多 Agent 编码流水线的团队值得一试,但别指望它能替代人工 Code Review。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
04:06
65d ago
● P1量子位 · 公众号· rssZH04:06 · 04·09
腾讯推出MoT架构,2B参数的具身模型在22项评测里拿了16项第一
腾讯混元与Robotics X联合发布了HY-Embodied-0.5,核心是一个叫MoT-2B的模型。它总参数量4B,实际干活时只激活2B,在22项具身智能评测中拿了16项第一。训练数据量不小:用了超过1亿条具身数据、600B以上的预训练token、3000多万条中期训练样本,还引入了视觉隐空间token、双向注意力、RFT、强化学习和在线蒸馏。这模...
#Agent#Multimodal#Robotics#Tencent
精选理由
我会先打个折:这还是一次模型发布,不是那种当天就改变行业格局的大事,所以分数没拉到 85 以上。但它的钩子够强——腾讯说 MoT 比 MoE 更适合具身,而且一个激活参数只有 2B 的模型在 22 项评测里赢了 16 项,数字和训练细节也给得实在。对做端侧机器人的从业者来说,这套专门为具身重做的架构和训练链路比通用模型微调有意思得多,所以 H、K、R 都站得住。
一句话点评
腾讯给具身智能模型换了种“思维”架构,2B小模型在22项测试里拿了16个第一,但原文被屏蔽,具体怎么测的、跟谁比的都看不到。
锐评
这条消息说的是腾讯搞了个叫MoT(Mixture of Tokens)的新架构,用在2B参数的具身智能模型上,22项评测里16项拿了最佳。MoT可以理解成把“混合专家”的思路从整段文本细化到单个token级别,让模型在处理每个词时都能动态挑最合适的“专家”模块,理论上更省计算、反应更快。对具身智能这种要在机器人上实时跑的场景,小模型能打是个实在的优势。 但问题在于原文被微信屏蔽了,我们看不到具体评测基准、对比对象和实验设置。22项评测是哪些任务?16项最佳是跟多大尺寸的模型比?这些关键信息全缺。另外腾讯自己也没放出模型权重或技术报告,目前只能当一条“宣称很强”的消息看。如果后续有论文或开源,才值得认真评估这个MoT到底是不是真比MoE好用。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
03:59
65d ago
机器之心 · 公众号· rssZH03:59 · 04·09
读代码前先跑5个Git命令?方法火了,网友吵起来了
一篇帖子建议在读别人代码前先执行5个Git命令,引发开发者争论。正文被微信屏蔽,没披露具体是哪5个命令、适用什么仓库、以及争议焦点。如果你好奇,只能去原帖看,这里信息不够。
#Code#Tools#Commentary
精选理由
H和R都成立:标题的钩子明确,争议话题也切中工程师真实场景。但K完全失败——正文一个字都没有,既没披露具体命令,也没交代适用条件和争论焦点。按硬规则,标题级评论且无正文证据,重要性压不到40以上,直接归入excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
03:32
65d ago
X · @dotey(宝玉)· x-apiZH03:32 · 04·09
用一条指令把手绘风格PPT做出来
baoyu-skills 提供了一个叫 baoyu-slide-deck 的命令,输入“/baoyu-slide-deck 用手绘风格画 <PDF或素材路径>”就能生成幻灯片。正文只给了1个命令示例和2种输入类型,没提用了什么模型、怎么渲染、输出什么格式、要不要钱。想试的话得自己跑一下才知道效果和成本。
#Tools#Multimodal#Commentary
精选理由
钩子成立:一条命令生成手绘幻灯片,入口可复现。但正文信息量极低,只给了命令格式和输入类型,模型、渲染质量、输出格式、价格全部未披露,知识缺口明显。也没有成本对比或团队落地场景,从业者看完没法判断是否值得接入,所以整体属于低带宽的泛关注级。
一句话点评
短评:一个用 baoyu-skills 生成 Slides 的演示,但正文没给任何效果或成本数据,先别激动。 点评:这条消息来自 x-dotey,标题说可以用 baoyu-skills 的 baoyu-slide-deck 生成 Slides,但正文是空的,只有标题和来源。目前能确认的是:这个工具存在,且有人(可能是作者)在推荐它。但关键信息全缺——生成速度多快、质量如何、需要多少样本、是...
锐评
baoyu-skills 这条帖文给出 1 条 `/baoyu-slide-deck` 命令,支持 PDF 路径或素材路径 2 类输入。就这点信息,我的判断很直接:它展示的是一个很顺手的调用入口,不是一个已经能拿来比较的 slides 生成器。 问题不在“能不能生成 Slides”,而在“生成链路到底落在哪一层”。正文没披露模型、版式引擎、渲染方式、输出格式、价格,也没说是一次性出整套 deck,还是先抽提结构再逐页生成。少了这些,做 AI 工具的人其实没法判断护城河。若它底层只是把 PDF 解析、提纲抽取、模板套版、插图风格化串成一个命令,那价值在产品封装和工作流速度;若它能稳定处理跨页叙事、图表重绘、母版约束、中文字体兼容,那才接近一条独立能力线。现在文章没给证据。 我一直觉得 slides 生成是个很容易被演示视频高估的方向。过去一年里,Gamma、Tome 更早期那套叙事,加上 Canva 的 Magic Design,再到不少 agent 工作流,都证明了一件事:首屏效果通常不难,难的是第 20 页还不散,改 3 次需求后版面不崩,导出到 PPT/Google Slides 还能继续编辑。我没看到这条帖文回答这些硬问题。只给“手绘风格”四个字,我反而会警觉,因为风格往往是最容易 demo 化、也最容易掩盖结构问题的部分。 还有一个我不太买账的地方:输入写成“PDF 文件路径或者素材路径”,听起来像是面向已经在命令行或本地工作流里的人,不像通用办公产品。这个定位未必差,甚至可能更对开发者胃口。可一旦面向这批用户,大家会立刻追问可复现性:支持多大 PDF、是否保留原页层级、图像抽取用什么 OCR 或 parser、失败重试怎么做、输出是 HTML、PPTX 还是图片集。标题已经给出入口,正文没披露边界,我现在只能把它看成一个值得试手的 skill,而不是一条足够硬的产品信号。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R0
00:33
65d ago
少数派 · 直链· rssZH00:33 · 04·09
智谱发布 GLM-5.1,号称能连续干活 8 小时不歇
智谱发了旗舰模型 GLM-5.1,主打“长程任务”——模型可以自己规划、执行、优化、交付,连续干 8 小时不用人管。代码能力在 SWE-Bench Pro 等三项测试里综合排全球第三,国产和开源里第一,甚至超过了 GPT-5.4 和 Claude Opus 4.6。目前已经开源,也能走 API 调用。不过正文没披露模型参数量、训练成本、推理速度这些关键...
#Zhipu AI#Sony#DeepSeek#Product update
精选理由
这是一条新闻汇总,不是 GLM-5.1 的独立报道。HKR 三项都不满足:文章只给了发布名称,没有规格、价格、基准和可用性,读者无法判断竞争影响;分数低于 40,层级为 excluded。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K0·R0
00:00
65d ago
Hugging Face 博客· rssEN00:00 · 04·09
Waypoint-1.5:普通显卡也能跑的实时生成世界,画质更高了
Hugging Face 发了 Waypoint-1.5,一个实时视频世界模型,主打在普通消费级显卡上跑出更高画质的交互式生成世界。正文说相比 1.0 版本,训练数据量大了近 100 倍,画面连贯性和运动一致性明显提升。模型分两个档次:720p 版本适合 RTX 3090 到 5090 这类桌面卡,能跑到 60 帧;360p 版本则针对游戏本和即将支持...
#Multimodal#Tools#Hugging Face#Product update
精选理由
标题有吸引力,但正文完全没内容。HKR-H靠'日常GPU+交互世界'这个角度通过;HKR-K因为显存、帧率、方法、代码全缺而失败;HKR-R没有具体成本或性能数字,验证很弱。
一句话点评
Overworld 发布了 Waypoint-1.5,一个能在普通显卡上实时生成 3D 世界的模型。亮点是 RTX 3090 到 5090 上能跑 720p/60fps,还出了个 360p 版给笔记本和苹果芯片用。训练数据比上一代多了近 100 倍,画面连贯性有提升。但正文没披露具体参数量、推理延迟和显存占用,也没说 360p 版在 Mac 上具体什么时候能跑。这点先别太激动,能跑和跑得流畅...
锐评
Hugging Face 这次只公开了 Waypoint-1.5 的名称和“日常 GPU 上更高保真交互世界”这句定位,正文未披露模型机制、显存需求、帧率、分辨率、时长上限,也没有代码链接。我的判断很直接:这条现在几乎没法当成能力发布看,只能当成一个方向预告。对做 world model、interactive simulation、embodied agent 的人来说,缺的不是修饰词,缺的是最基本的复现条件。 我对“everyday GPU”这个表述一直比较警觉。8GB 算日常,12GB 算日常,24GB 在很多独立开发者那里也能算日常,但这三档硬件能跑的东西完全不是一回事。要是 Waypoint-1.5 只能在 RTX 4090 或 3090 上低帧率跑 demo,这个标题就有点过。正文连 VRAM 都没给,读者没法判断它是在讲实时交互、低分辨率 rollout,还是离线生成几秒钟可玩的片段。少了这些条件,“higher-fidelity”基本没有信息量,因为 fidelity 至少该落到分辨率、物理一致性、长期时序稳定性、可操作对象数里的一个。 我拿过去一年同类叙事对一下,问题会更明显。去年到今年,凡是认真发世界模型或交互环境的团队,至少会给出一组硬指标:比如多少秒视频、多少 Hz 控制、单卡还是多卡、训练数据规模、有没有可交互 benchmark。我记得 Genie 2、Cosmos、还有几条游戏/机器人方向的 world model 公开材料里,都会把“实时性”和“可控性”拆开讲;有的画面更好,但交互一长就崩;有的能闭环,但视觉质量普通。Waypoint-1.5 现在把“更高保真”和“日常 GPU”放在一个标题里,野心不小,可正文没给任何约束条件,这就很难判断它到底解决了哪一层问题。 还有一个我不太买账的点:Hugging Face 这个名字天然会让人联想到开放、可跑、可 fork。可这篇条目连最基础的 repo、model card、demo 链接都没有。标题先把预期拉上去,证据完全空着,这种发法对开发者不太友好。你可以说这是 RSS 抓取不完整;如果是这样,当前能见到的信息依然不足,结论也只能保守。 说真的,这条后续只要补三样东西,判断就会立刻清楚很多:第一,明确“日常 GPU”对应哪一档显卡和显存;第二,给交互帧率或 step latency;第三,给最小可复现入口,比如 demo 或 checkpoint。没有这三项,我不会把 Waypoint-1.5 计入世界模型竞争格局,只会把它放进“先占标题,再补细节”的那一类。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R0
00:00
65d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·09
Agent 管线里最贵的模型可能放错了位置:Opus 做规划不如 8B 小模型
AgentOpt 论文(微软研究院,2026年4月)用实验数据打脸一个常见直觉:关键环节用最强模型。在 HotpotQA 的 planner-solver 管线中,Claude Opus 放在 planner 位置准确率仅 31.71%,排名倒数;而把 Ministral 8B(参数量小一个数量级)放 planner、Opus 放 solver,准确率...
#Agent#Tools#Commentary
精选理由
标题钩子成立,但正文只有 RSS 片段,零数据、零机制、零案例,触发硬排除规则(零来源内容),评分上限 40 且直接排除。别被“最贵”带偏,真正该盯的是每个节点的模型放置条件,但文章没给任何可验证信息。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1

更多

频道

后台