ax@ax-radar:~/curated $ grep -l 'curated=true' sources/
44 srcsignal 72%cycle 04:32

AX 严选 · 2026-04-24

2 · updated 3m ago
2026-04-24 · 星期五2026年4月24日
00:00
3d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·24
GPT-5.5、Claude Opus 4.7、DeepSeek V4:什么任务该选哪个模型
该文比较 4 家 frontier 模型在任务派发中的适配差异,点名 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek V4。正文只披露会整理 2 个真实踩坑场景,以及强项、短板、接入路径、定价断档;具体价格、评测指标、决策矩阵内容未披露。别被标题骗了,这更像选型评论,不是正式基准报告。
#OpenAI#Anthropic#DeepSeek#Commentary
精选理由
题目抓住了从业者最常见的选型问题,也点到 4 家 frontier 模型和 2 个真实踩坑场景,H、R 成立。正文没给价格、指标和决策矩阵,K 不成立;它更像经验评论,不是可复核的基准报告,所以留在 all。
编辑点评
这篇只给出 4 个模型和 2 个踩坑场景,没给价格、指标、矩阵;我不把它当选型依据,只当一线使用者的经验帖。
深度解读
文章只披露 4 家模型、2 个踩坑场景和“会给决策矩阵”,但价格、评测口径、具体样例都没放出来。信息量到不了基准测试,最多算一篇有经验感的选型评论。我对这种标题党一直比较警觉,因为“什么任务该选哪个模型”这句话默认了任务边界稳定、提示工程稳定、工具链稳定,现实里这三件事经常同时在变。 我一直觉得,任务派发这件事里最容易被写虚的不是模型能力,而是路由条件。比如代码修复、长文审校、联网检索、工具调用,这四类任务的优劣排序会被上下文长度、系统提示、重试次数、函数调用约束直接改写。正文没披露评测条件,这里就没法判断 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek V4 的结论能不能复现。连“踩坑场景”都没给原始输入输出,我没法把它当证据。 外部参照其实不少。过去一年里,很多团队内部路由最后都没做成“最强模型打天下”,而是做成“高价模型兜底,便宜模型吃大盘”。这个经验在 OpenAI、Anthropic、DeepSeek 混用的栈里很常见:先用中价模型分类、抽取、改写,再把高不确定任务抛给最贵那档。原因很简单,线上成本不是 abstract benchmark,是真实 token 账单、重试率、超时率、限流和地区可用性。我没查到这篇有没有覆盖这些维度;摘要只说“接入路径、定价断档”,这还不够。 我还有个 pushback。标题把 DeepSeek V4 和另外三家并列,叙事上很顺,但企业接入难度未必同级。API 稳定性、海外可用性、合规采购、日志保留、私有化选项,这些经常比 benchmark 分差更早决定路由结果。2025 年很多团队选 Claude 或 OpenAI,不是因为每项任务都最强,而是 because governance 和工具生态省事。Gemini 这边也类似,很多人最后买的是和 Google Cloud、Workspace 绑定的交付,不只是模型本身。 所以这篇如果后续补全文,我最想看三样:一是每个结论对应的任务定义和输入样本;二是价格口径,至少给出输入输出单价、缓存、工具调用是否另计;三是失败案例怎么失败,是幻觉、拒答、工具崩、格式错,还是延迟失控。没有这三样,所谓“任务该选哪个模型”还是经验帖,不是可执行的 dispatch policy。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
00:00
3d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·24
从 Claude Code 产品负责人 Cat Wu 的访谈看 Product Manager 在 AI 时代的职业路径
Cat Wu 的 Claude Code 访谈被用来讨论 Product Manager 的职责转移,条件是工程执行成本下降后,PM 重心转向目标定义、学习回路设计和反馈提速。RSS 摘要只给出这套判断,正文未披露访谈中的具体案例、数据或 Claude Code 的产品指标。真正值得盯的是成本结构变化后的组织分工,这不是 PM 被替代,而是 PM 的产出函数被改写。
#Code#Tools#Claude Code#Cat Wu
精选理由
HKR-R 命中:它讨论 agent coding 降低执行成本后,PM 还剩什么职责。HKR-H/K 偏弱:RSS 只给出职责迁移判断,未披露案例、数据或 Claude Code 指标,所以只能给低位 all。
编辑点评
这篇只给出1个判断:工程执行变便宜后,PM 不会消失,但中位数岗位会先失血。
深度解读
RSS 摘要只给出 1 个条件:工程执行成本下降后,PM 重心转向目标定义、学习回路设计和反馈提速。我的判断是,这个方向没错,但这篇把问题讲得太顺了。正文没披露 Claude Code 的留存、采纳率、实验周期,也没给 Cat Wu 访谈里的具体案例,所以你现在还不能把它当成一条被产品指标验证过的组织定律。 我一直觉得,AI 对 PM 的冲击从来不是“写 PRD 省了多少时间”,而是团队里谁掌握了最短反馈回路。代码生成把原型成本压低后,最先被挤压的是靠文档搬运、需求转述、排期协调吃饭的 PM。这个判断在过去一年已经有很多旁证。Cursor、Replit、Vercel v0、GitHub Copilot 这一波工具,把“做出一个能跑的东西”从周级压到天级,部分团队甚至到小时级。原来 PM 靠 spec 锁定需求,再交给工程排队;现在设计师、研究员、创始人自己就能把半成品拉出来。中间那层只做转译的人,价值会很快变薄。 但我对“PM 转向目标定义就行了”也不太买账。目标定义不是职位说明书改一行字就能拿到的能力,它要求 PM 直接碰分发、留存、转化、失败样本和用户访谈。很多公司嘴上说要 outcome-driven,考核还在看 roadmap 准时率和跨团队协同数。这种组织里,工程再便宜,PM 也只会从“写需求的人”变成“催模型的人”。Claude Code 自己就是个例子:代码 agent 的价值不在 demo,而在它能不能稳定进入开发者日常循环。没有活跃、复用、成功率这些数,职业路线讨论很容易飘。 还有一个上下文,这篇没碰到。过去两年最吃香的 PM,很多都不是传统“通用型 PM”,而是贴着模型能力边界工作的人:懂 eval、会拆 workflow、能看失败日志、能跟研究和工程一起改回路。这更像“产品 + 运营 + 分析”的混合岗。我没看到正文给出 Cat Wu 对这些能力的拆解,所以我会把这篇先当成方向性提醒,不当成职业地图。说真的,PM 没被 AI 直接替代,先被替代的是不接数据、不会下场做实验、也不拥有反馈回路的那一类 PM。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K0·R1

更多

频道

后台