FEATURED新智元 · 公众号· rssZH07:00 · 05·30
Claude AI 流利度评分标准曝光:优秀用户得 7.5 分
Anthropic 在 Claude 灰度测试 AI Fluency 评分卡,按 11 项可观测行为分析 Chat、Cowork、Claude Code 历史对话,满分 11 分。研究样本含 9,830 段匿名多轮对话,迭代行为出现在 85.7% 高质量对话中。
#Benchmarking#Tools#Safety#Anthropic
精选理由
Anthropic 灰度测试 Claude AI Fluency 评分卡,信息量集中在评分机制与样本数字;不是模型发布,放在 78–84 档。HKR 三项都成立,未触发硬排除,给 featured 而非 p1。
一句话点评
Anthropic 把“会用 Claude”产品化成 11 分评分卡,聪明但危险:它在训练用户,也在定义谁算合格用户。
锐评
Anthropic 这张 AI Fluency 评分卡,最锋利的地方不是给人打 7.5 分,而是把“好用户”做成产品指标。它用 Chat、Cowork、Claude Code 历史对话,对 11 项可观测行为打分;底层研究扫了 9,830 段匿名多轮对话,高质量对话里 85.7% 出现迭代行为。
我买“迭代是核心技能”这个判断,但不买它天然中立。评分卡会把用户往 Anthropic 偏好的工作流里训:多轮修正、补上下文、质疑推理、评估结果。对 Claude 留存和企业培训都很香,对用户则是另一层行为规训。更尴尬的是 Artifact 样本里,产物越像完成品,事实核查和推理质疑越少。漂亮 UI 正在麻痹审稿人。
HKR 分解
hook ✓knowledge ✓resonance ✓