22:18
33d ago
FEATUREDarXiv · cs.CL· atomEN22:18 · 03·24
IslamicMMLU:评测 LLM 伊斯兰知识能力的基准
IslamicMMLU 发布 10,013 道选择题基准,评测 LLM 在 Quran、Hadith、Fiqh 三个方向的伊斯兰知识能力。作者先测 26 个模型,三轨平均准确率在 39.8% 到 93.8% 之间,Gemini 3 Flash 最高;Fiqh 轨还加入 madhab 偏向检测。真正值得盯的是,阿拉伯语专用模型整体仍落后前沿模型,且代码与排行榜已公开。
#Benchmarking#Alignment#Research release#Benchmark
精选理由
这篇论文有明确新信息:10013题、26个模型、39.8%到93.8%准确率,还把Fiqh的madhab偏向纳入评测,HKR-K成立。题材偏窄,缺少产品发布或行业后果,HKR-H与HKR-R不足,所以留在all,不进featured。
编辑点评
IslamicMMLU 用 10013 题测了 26 个模型,Gemini 3 Flash 均分 93.8%。这条有用,但别把高分当成宗教推理过关证书。
深度解读
IslamicMMLU 用 10013 题测了 26 个模型,Gemini 3 Flash 三轨均分 93.8%。我先给判断:这套基准是个缺口补丁,不是能力封顶线。它把伊斯兰知识评测从零散问答,拉到可复现实验,这点很实用;它也很容易被误读成“模型已经懂教法了”,这我不买账。
先说它为什么重要。现在很多通用基准,像 MMLU、MMLU-Pro、Humanity’s Last Exam,宗教知识要么覆盖很薄,要么把问题压成通识 trivia。IslamicMMLU 至少把 Quran、Hadith、Fiqh 拆开了,还给了 2013、4000、4000 题的规模。Quran 轨分差从 32.4% 到 99.3%,这个跨度本身就说明,宗教知识不是“多语言能力”的顺手副产物。模型在阿拉伯语、检索、引文记忆、法学判断上,短板并不一致。
我更在意的是 Fiqh 轨里的 madhab 偏向检测。这个设计比总分更有信息量。很多团队做“文化适配”,最后只是在 prompt 上贴本地术语。教法问题不是这样。相同事实,四大法学派就能给出不同结论。你如果只看单一正确答案,测出来的往往是标注者立场,不是模型稳健性。文章摘要说这里发现了不同模型存在学派偏向,但正文没给偏向幅度、标注协议、裁决来源,也没说是单标签还是可接受多答案。这个缺口不小。没有这些细节,排行榜能看,宗教安全性结论还不能下。
阿拉伯语专用模型整体落后前沿模型,这个结果我并不意外。过去一年很多区域语言评测都重复过同一件事:规模、训练配比、后训练质量,常常比“是否本地语模型”更决定上限。我印象里,阿拉伯语任务上也多次出现过通用旗舰模型压过垂直本地模型的情况,哪怕后者词表更友好、语料更纯。我没逐项核过本文用的是哪些 Arabic-specific 模型,但如果它们还是老一代开源底座微调,这个差距很正常,不代表阿拉伯语路线没价值,只说明“小模型加本地语料”还顶不住前沿闭源系统的综合能力。
我对这套 benchmark 的保留意见有两个。第一,它是选择题。选择题擅长测识别,不擅长测展开论证,也不擅长测“知道自己不该答”的边界感。宗教场景里,风险常常不在答错定义题,而在把有争议的教法问题答成确定句。第二,公开代码和排行榜是好事,也带来熟悉的问题:针对 benchmark 调参会很快出现。我还没查论文全文,不确定作者有没有做污染排查、去重、或时间切分。要是没有,这个 93.8% 里就会混进记忆红利。
所以这条的价值,不在“谁第一”,而在它逼着模型团队把宗教知识当成严肃评测面来做。下一步如果要更硬,至少要补三样:开放式作答评分、引文依据检查、以及多学派可接受答案标注。没有这三层,榜单更像知识竞赛;有了这三层,它才开始接近真实部署前的风险测试。
HKR 分解
hook —knowledge ✓resonance —
73
SCORE
H0·K1·R0