FEATUREDr/LocalLLaMA· rssEN11:01 · 05·19
Sapient 发布 HRM-Text 1B:40B token 预训练,成本约 1000 美元,数学和阅读理解分数超过 Llama3.2 3B
Sapient Intelligence 开源了一个 10 亿参数的小模型 HRM-Text 1B,用 16 张 GPU 跑了 1.9 天,喂了 400 亿个 token,总花费大概 1000 美元。他们自己测的榜单显示,这个 1B 模型在 MATH 数学题上拿了 56.2 分,在 DROP 阅读理解上拿了 82.2 分,两项都压过了 Meta 的 L...
#Reasoning#Benchmarking#Sapient Intelligence#Llama
精选理由
我会先打个折:独立评测还没做完,MATH 56.2 和 DROP 82.2 都是自报分数,别急着全信。但 1000 美元预训练一个 1B 模型这件事本身就有信息量——它说明小团队也能用很少的算力做出能打的模型,对预算有限的开发者是个实在信号。正文没披露数据配比和消融实验,所以没法判断这 40B tokens 的质量到底多高。分数先按 78 给,等第三方跑完基准再考虑往上调。
一句话点评
一个1B模型用1000美元训练就敢说数学和阅读压过Llama3.2 3B,但成绩全是自测,没第三方验证,先打七折看。
锐评
Sapient Intelligence 开源了 HRM-Text 1B,一个10亿参数的小模型。他们用16张GPU跑了1.9天,喂了400亿个token,总花费大概1000美元。这个成本确实低,说明小模型从头训的门槛在往下走。
他们自己测的榜单显示,这个1B模型在MATH数学题上拿了56.2分,在DROP阅读理解上拿了82.2分,两项都压过了Meta的Llama3.2 3B。但这里有个关键问题:成绩全是自报的,正文没提任何独立评测或第三方复现结果。没有Open LLM Leaderboard这类公开榜单的分数,也没说跟同期的Qwen2.5 1.5B比怎么样。
另外,正文没披露训练数据的具体构成,不知道这400亿token里有多少是数学和推理相关的语料。如果数据针对性很强,那在MATH和DROP上表现好就不意外,但泛化能力要打个问号。想用的人最好等社区跑一遍标准评测再看。
HKR 分解
hook ✓knowledge ✓resonance ✓