FEATUREDAI HOT 精选· aihot-apiZH18:54 · 05·10
《科学》研究:OpenAI 一年前的 o1 模型急诊诊断正确率 67%,超过医生的 50-55%
我会先打个折:这项研究用的是 OpenAI 一年前发布的 o1 模型,按现在标准已经算旧版了。测试数据来自真实急诊室,信息混乱、不完整,模型给出的正确或接近正确的诊断率达到 67%,而参与对比的医生是 50-55%。差距在早期分诊阶段最明显,那时能拿到的信息最少。研究还提到 o1 在处理结构化病例时临床推理几乎不出错。不过正文没披露样本量有多大、医生是...
#Reasoning#Benchmarking#OpenAI#Science
精选理由
我会先打个折:这只是一项诊断研究,没覆盖住院数据和影像诊断,别急着说 AI 能独立看急诊。但《科学》背书加上 o1 在真实急诊病例上比医生高出十几个百分点,确实值得从业者看一眼。它说明在特定文本诊断任务上,旧模型已经能摸到甚至超过人类平均水平,后续怎么落地、怎么担责才是真难题。
一句话点评
67% vs 医生50-55%,但用的是旧版o1,且正文没披露样本量和医生资历,先别太激动。
锐评
这项研究拿一年前的o1模型在真实急诊数据上跑,诊断正确或接近正确的比例达到67%,比参与对比的医生高出12-17个百分点。差距在早期分诊阶段最明显——那时候能拿到的信息最少,模型反而更稳。研究还提到o1在处理结构化病例时临床推理几乎不出错,这点挺有意思,说明模型在信息规整后表现更可靠。
但正文没披露样本量有多大、参与医生是什么年资、来自哪家医院。急诊室环境千差万别,如果对比的医生样本偏弱,67%这个数字就要打折。另外研究只测了急诊初诊环节,没碰长期住院数据和影像诊断,这两块恰恰是临床最吃经验的地方。
还缺一个关键验证:诊断对了不代表病人预后变好。下一步得看AI系统真的嵌入急诊流程后,能不能缩短分诊时间、减少误诊导致的延误,而不是只在论文里赢过人类。
HKR 分解
hook ✓knowledge ✓resonance ✓