20:26
13d ago
● P1arXiv · cs.CL· atomEN20:26 · 04·14
英语并非全部:系统研究多语言在 LLM 后训练中的作用
该研究基于220次监督微调实验,测试最多8B参数模型在数学推理与API调用任务中的多语言后训练效果。结果显示,扩大训练语言覆盖面对各模型规模普遍有利,低资源语言收益最大,高资源语言趋于平台而非退化;只加入1种非英语语言,也能提升英语表现与跨语言泛化。真正该盯的是结论方向很硬:英语单语后训练基本是次优方案。
#Fine-tuning#Reasoning#Benchmarking#Research release
精选理由
标题有反常识钩子,HKR-H 成立;正文也给出 220 次 SFT、8B 规模、数学推理与 API 调用任务、加入 1 种非英语语言也能提升英语表现等具体结论,HKR-K 很强。HKR-R 来自它对后训练语言配比和跨语产品策略的直接影响;研究分量高,但还不是行业级大事件,所以定为 featured。
编辑点评
这篇论文把很多团队默认的英语单语 SFT 习惯直接打穿了:220 次实验已经够说明,后训练里的多语言不是“兼容项”,而是更便宜的泛化增益。
深度解读
这篇论文用 220 次监督微调实验检验了最多 8B 模型的后训练语言覆盖,结论很直接:英语单语 SFT 大概率不是局部最优。我的判断比摘要再往前走一步:这不是“给多语用户补福利”的论文,这更像是在提醒大家,英语中心的后训练配方本身就在浪费模型的抽象能力。
我一直觉得,预训练阶段大家嘴上都说 multilingual,到了后训练却又缩回英语,是一套很奇怪的工程习惯。原因不难猜:英语数据更干净,评测更成熟,标注和 reward 流程也更便宜。问题是,SFT 不是只在教答案格式,它也在重新塑形模型的任务接口。你只用英语去塑形,模型最后学到的就不只是英语输出偏好,还会把推理路径、工具调用模式、错误恢复方式都绑到英语分布上。摘要里那句“只加入 1 种非英语语言,也能提升英语表现”很关键,它说明多语言信号带来的不是简单的数据增广,而是表示空间被重新拉直了一点。
这跟过去一年一些现象其实对得上。Qwen、Aya、Gemma 这几条线,只要团队认真做多语对齐,跨语言稳定性通常都比英语优先、最后再补翻译的方案好。我没法拿这篇论文去直接对标 closed model,因为正文没给更大模型和 RL 阶段的数据,但经验上看,很多产品里出现的“英文会做,西语就乱调 API;英文能走完数学链条,阿语就提前塌掉”,问题往往不在 base model,而在 post-training 把行为先验收窄了。这篇文章至少给了一个系统化证据:收窄语言覆盖,本身就在损失泛化。
我觉得作者选数学推理和 API calling 也挺聪明。这两个任务都不是纯表面流畅度竞赛。数学更接近中间推理结构是否稳,API calling 更接近 schema 对齐、参数约束、执行格式。多语言覆盖在这两类任务上都成立,含金量比只测聊天偏好高不少。尤其 API calling 这点,很多团队现在还默认“工具使用语言无关,英语 instruction 就够了”。这篇结果在打这个假设:语言表面不同,任务接口学习也会被影响。
但我还是有两个保留。第一,正文摘要只说用了 parallel translated multilingual data mixtures。这个设定很干净,适合做控制变量;真到生产里,数据不会这么理想。翻译腔、术语漂移、文化特定表达、代码混写,都会让多语后训练的收益打折。换句话说,这篇论文更像是在证明“多语言覆盖有理论和实验上的上限收益”,不是在保证“你把真实世界多语脏数据灌进去就一定赢”。第二,模型只到 8B。这个规模足够说明趋势,但不自动外推到 70B 以上,更不自动外推到带强化学习和在线反馈的 agent 系统。大模型有更强的共享表示,也有更强的英语吸附效应;两边谁更强,我在没看正文前不想替作者下结论。
还有一点我比较在意:摘要说高资源语言是平台而不是退化,这很重要。过去很多团队不做多语 SFT,一个常见借口是“加太多语言会稀释英语能力”。这篇 paper 至少在它的设定里没支持这个恐惧。说真的,这个借口很多时候更像评测设计偷懒。你只盯英文 benchmark,当然会把任何分布扩展都看成噪音;你把跨语言 transfer 和实际工具成功率一起看,结论就会变。
如果这条结论站得住,后面会改的是配方,不只是 KPI。SFT 数据配比、拒答模板、工具调用示例、甚至 preference data 的采样语言,都要重新算。现在不少团队把多语当作 deployment 层的适配问题,我看这篇是在说:错了,多语首先是训练时的表示学习问题。标题已经给出了很硬的方向,正文没披露的是具体语言集合、增益幅度、统计显著性和是否开源数据配方。没有这些,离“行业默认改 recipe”还差一步。但英语单语后训练是安全默认值,这个说法我现在是不太买账了。
HKR 分解
hook ✓knowledge ✓resonance ✓
86
SCORE
H1·K1·R1