ax radar — AI intelligence

21:00

67d ago

OpenAI 博客· rssEN21:00 · 02·18

OpenAI 面向印度推出 OpenAI for India

OpenAI 发布“OpenAI for India”计划，但目前只有标题信息，正文为空。标题已给出面向印度市场这一条件；发布时间、产品范围、合作方与价格均未披露。真正该盯的是后续落地细节，不是这句区域化命名。

#OpenAI#India#Product update

精选理由

OpenAI 这篇帖子只给出“OpenAI for India”标题，正文为空；产品范围、合作方、价格和落地时间都未披露。HKR 三轴都不足，信息密度低，按 0/3 处理为 excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

16:15

68d ago

FEATUREDHugging Face 博客· rssEN16:15 · 02·18

IBM 与 UC Berkeley 用 IT-Bench 和 MAST 诊断企业 Agent 失败原因

IBM 与 UC Berkeley 用 IT-Bench 和 MAST 诊断企业 Agent 失败原因；标题明确点名 2 个框架和 1 类对象。该条目只有标题，正文为空；评测设置、失败类型、样本规模、指标定义均未披露。真正值得盯的是，它指向企业 Agent 的失效诊断，而不只是再发一个通用榜单。

#Agent#Benchmarking#IBM#UC Berkeley

精选理由

HKR-H 和 HKR-R 成立：标题抓住“企业 Agent 为何失败”这个实际痛点，也容易引发从业者讨论。HKR-K 不成立，因为正文为空，失败类型、样本规模、指标定义和复现条件都未披露，所以只能放在 all。

编辑点评

IBM 和伯克利只放出 2 个框架名，正文没给样本和指标；我先不买账，但“诊断失败”这条路比再刷一张 Agent 榜单靠谱。

深度解读

IBM 和 UC Berkeley 这次把标题落在 2 个框架和 1 类对象上，正文却没披露样本规模、任务设置、指标口径。按这个信息量，我没法判断 IT-Bench 和 MAST 是严肃评测，还是把常见 agent trace 做了一次学术包装。我对这条的初步判断是：方向对，证据远远不够。企业 Agent 现在最缺的不是“谁平均分更高”，而是失败怎么拆。一次失败到底是检索错、工具调用错、权限边界错、长链状态漂移，还是审批流把模型困死，很多榜单根本不碰。要是 IT-Bench 和 MAST 真把失败分层，并且能复现到具体步骤，这会比再来一个通用成功率分数有用得多。这里有个文章外的背景。过去一年大家已经看过太多 agent benchmark：GAIA 更偏通用任务完成，SWE-bench 盯代码修复，OSWorld盯桌面操作，我记得还有几套 workflow 类评测开始强调 tool use 和 long-horizon consistency。它们有价值，但企业场景老是卡在另一个面上：系统异构、权限碎片、日志脏、审批链长。实验室里 60% 的成功率，进到 ServiceNow、SAP、Salesforce 这种环境，经常直接塌掉。IBM 如果真在做 enterprise failure taxonomy，这比“我们又赢了几个点”要实在。但我对这类叙事一直有个保留。很多“诊断框架”最后只是把失败重新命名，不是定位因果。比如把一次工单处理失败标成 planning error，听着很清楚，实际触发点可能是 CRM 字段映射错，模型只是最后背锅。标题现在只给了 IT-Bench 和 MAST 两个名字，没给标注协议、inter-rater 一致性、是否区分模型错和系统错，也没说有没有真实企业流程数据。没有这些，诊断二字就容易虚。我还想看两个硬信息。第一，基线是谁：是 GPT-5.4 mini、Claude Sonnet 4.5、还是开源 agent stack？第二，失败标签能不能指导改进：改 prompt、改 tool schema、加状态检查后，错误率到底降了多少。只要没有这一步，框架就更像研究展示，不像工程工具。现在只能说，标题选题比常规 benchmark 聪明，正文证据还没跟上。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

全部 · 2026-02-18

更多

频道

后台