17:59
29d ago
FEATUREDarXiv · cs.CL· atomEN17:59 · 03·30
从 Agent 轨迹中学习检索
论文提出 LRAT,用多步 Agent 轨迹训练检索器,目标是修正面向人类点击日志的训练假设与 Agent 搜索用法之间的错配。正文给出三类监督信号:浏览动作、未浏览即拒绝、浏览后推理痕迹;实验称在域内与域外 deep research 基准上提升证据召回、任务成功率和执行效率,但摘要未披露具体增幅。
#Agent#RAG#Benchmarking#Research release
精选理由
HKR 三项都成立:标题抓住“用 Agent 轨迹训练检索器”这个反常识点,摘要也给出浏览、未浏览拒绝、浏览后推理痕迹 3 类监督信号。分数停在 featured 档,因为正文摘要未披露具体增幅,现阶段更像需要看全文与复现的研究发布。
编辑点评
LRAT拿Agent轨迹训练检索器,这个方向我买账;RAG这两年常掉链子,问题常不在生成端。
深度解读
这篇论文把检索训练目标从人类点击,挪到了Agent轨迹。这个判断是对的。多步Agent不会像人类那样点开前三条,然后凭停留时长给反馈。它会改写查询、跳过结果、读完再推理。用点击率和dwell time训出来的ranker,放进deep research loop里,经常先天失配。
摘要给了三类监督信号。浏览动作是一类。未浏览即拒绝是一类。浏览后的推理痕迹是一类。这个设计我觉得比“只拿最终答案对不对做奖励”更靠谱,因为它把信用分配往前推了一步。Agent任务里最难的常不是最后一跳生成,而是前面哪篇文档值得进上下文。LRAT等于在补这块老债。
我想到的直接对照,是过去一年那批Agent benchmark。很多系统在HotpotQA式多跳问答上还能看,在更开放的deep research任务上就掉得很快。原因常被讲成“长程推理不够强”。我一直觉得这里有一半锅该算给检索。查询改写一旦偏掉,后面再强的Claude、GPT或Qwen都只是在烂证据上做漂亮总结。检索器如果仍按人类网页搜索分布训练,它看到Agent那种密集、试探式、带中间计划的query,排序就会变形。
这篇的好处,在于它承认负样本不只来自“没点开”。未浏览即拒绝,本身就是强信号。很多传统IR训练把这种样本丢掉,怕误伤。Agent场景里反而没那么暧昧:模型自己生成query,自己看snippet,再决定不进页,这个动作比人类随手一扫更可解释。浏览后推理痕迹也有意思。文档是否有用,不只看点没点,还看它有没有进入后续思考链。这个思路和去年不少tool-use work很接近:别只学最终成功轨迹,要学中间哪些工具输出真的改变了决策。
我还是有两个保留。第一,摘要没给增幅。证据召回、任务成功率、执行效率都说提升,但提升多少,在哪些agent上稳定,正文摘要都没披露。没有这些数字,我没法判断这是一篇“方向正确”的 paper,还是一篇会改变生产RAG训练配方的 paper。第二,轨迹监督很容易吃到教师模型偏见。若这些轨迹主要由强模型生成,retriever学到的可能不是客观文档效用,而是某一类agent的搜索习惯。换个planner,换个query style,收益会不会掉,摘要也没说。
说真的,这条比很多“再加一个reranker”更有信息量。它在改训练数据定义。过去检索系统默认服务人。现在越来越多检索其实服务Claude Research、OpenAI Deep Research 这类Agent。服务对象变了,监督信号也该变。这个逻辑很顺。
但我还没看到最关键的一步:成本账。采集多步轨迹、抽取推理痕迹、做加权优化,训练和标注流水线会比点击日志贵很多。若收益只有几个点,工业界未必愿意换。若跨域也稳,而且能减少搜索步数,那就不只是学术增量了。标题已经给出方向,摘要也给出机制;可正文片段没披露具体benchmark、基线名字和提升幅度,我先给高关注,暂不下重注。
HKR 分解
hook ✓knowledge ✓resonance ✓
82
SCORE
H1·K1·R1