23:07
35d ago
● P1arXiv · cs.CL· atomEN23:07 · 03·22
KG-Hopper:用强化学习让紧凑开源 LLM 进行知识图谱推理
KG-Hopper 用强化学习把 7B 开源 LLM 训练成单轮多跳知识图谱推理器,并在 8 个基准上超过部分 70B 多步系统。摘要称它把路径遍历、决策与回溯压进统一思考阶段,避免分步流水线误差级联;具体分数与训练配置正文未披露。真正值得盯的是,它用 7B 追到 GPT-3.5-Turbo 和 GPT-4o-mini 这一档,而且代码已开源。
#Reasoning#Tools#Benchmarking#OpenAI
精选理由
这篇论文称 7B 开源 LLM 经 RL 可做单轮多跳 KG 推理,并在 8 个基准上超过部分 70B 多步系统,代码也已开源,HKR 三项都过。分数不给更高,因为当前提供的正文信息没有具体分数、训练配方和复现实验细节。
编辑点评
KG-Hopper 把 7B 模型推到 8 个 KG 基准前排,这条我买一半:方向对,证据还不够硬。
深度解读
KG-Hopper 用 7B 开源模型覆盖 8 个知识图谱推理基准,并声称压过部分 70B 多步系统。我的判断很直接:这条有研究味,也有工程味,但眼下更像一个“把 agent pipeline 收回模型内”的方法论信号,还不是一次已经坐实的能力跃迁。
摘要给出的核心机制是把路径遍历、节点决策、回溯压进单轮推理,用强化学习训练统一的“thinking”阶段,减少分步流水线的误差级联。这个思路我其实认同。KBQA 这类任务里,老路线一直有个老毛病:retriever 先漏一跳,planner 再走歪一跳,最后 reader 再自信作答,三段都不算大错,串起来就彻底废了。把跨步依赖放进同一次推理里,至少在机制上更接近 ReAct 之后很多人想做但一直没压实的方向——不是多调几个模块,而是让模型自己学会什么时候扩展、什么时候回退。
但我对这条结果有两个保留。第一,正文片段没披露具体分数、训练配置、RL reward 设计、基座模型名字、推理 token 开销,也没说“部分 70B”到底是哪几家。没有这些信息,7B 打 70B 这句话只能先听一半。AI 论文这两年很常见的操作,就是拿一个高度结构化任务、一个偏有利的评测口径,再配一个昂贵但笨重的 baseline,最后得出“小模型逆袭”。结论未必假,泛化范围往往被写大了。第二,KG 基准的污染和模板化风险一直存在。我没看到这里怎么处理图谱覆盖、问题去重、路径分布偏置;如果训练集和 benchmark 的关系没讲清,这个“接近 GPT-4o-mini”就不好下重注。
放到更大的脉络里看,这条和过去一年两股风是接上的。一股是用 RL 把工具使用、搜索、规划收进小模型内部,而不是继续堆外部 orchestrator;另一股是让开源 7B/8B 在垂直任务里追平老一代闭源通用模型。去年到今年,很多团队已经证明 7B 在代码、数学、检索增强任务里能打到很高的性价比。我自己一直觉得,知识图谱推理比开放域长思维更适合这条路,因为状态空间受约束、奖励也更容易定义。换句话讲,这类任务不是“模型突然懂世界了”,而是“任务足够结构化,小模型终于能被训到位”。
我还没查代码实现细节,所以不敢替它背书。要让我认真看高一档,我需要三组信息:8 个基准的逐项分数;相同 token/调用预算下和 ReAct、GraphRAG、tool-augmented 7B baseline 的正面对比;还有失败样例,尤其是回溯触发失败和长路径漂移。代码开源是加分项,因为这类工作一复现就知道水分在哪。说真的,如果复现实验成立,它影响的不是“7B 能不能赢 70B”这种标题,而是 KBQA 这条线以后没必要再迷信多模块流水线了。
HKR 分解
hook ✓knowledge ✓resonance ✓
86
SCORE
H1·K1·R1