arXiv · cs.CL· atomEN10:25 · 04·16
探索基于技能的行为画像标注:Schema 引导执行下的人类可操作性与 LLM 可行性测试
论文用 3,134 条中文隐喻性色词衍生词语料和 14 项 BP schema,测试行为画像标注能否按“技能”而非整任务被人类与 LLM 执行。300 条验证集的两轮人工标注显示,14 项技能里 5 项可直接操作、4 项经重标注可恢复、5 项结构性欠定义;GPT-5.4 在保留技能上的 accuracy 为 0.678、κ 为 0.665、weighted F1 为 0.695。真正值得盯的是误差结构:人类与 GPT 的技能难度相关系数达 0.881,但实例级仅 0.016、词项级为 -0.142,说明二者共享分类框架,不共享具体执行。
#Benchmarking#Alignment#Tools#GPT-5.4
精选理由
论文有一条有料结论:人类与 GPT 在技能难度上的相关系数是 0.881,但实例级几乎不对齐。分数压到 37,因为它是很窄的计算语言学标注研究,缺少 agent、产品或安全外溢,触发技术可达性不足。
HKR 分解
hook —knowledge ✓resonance —