00:12
40d ago
EvidenceRL:用强化学习提升语言模型的证据一致性
论文提出 EvidenceRL,用 GRPO 同时优化答案与证据的一致性,在心脏诊断与法律推理两域提升可溯源性。心脏诊断上,Llama-3.2-3B 的 F1@3 从 37.0 升到 54.5,G_max@3 从 47.6 升到 78.2,幻觉下降近 5 倍。法律推理上,Llama-3.1-8B 的 Faithfulness 从 32.8% 升到 67.6%;代码已在 GitHub 开源。
86
SCORE
H1·K1·R1