FEATUREDr/LocalLLaMA· rssEN00:48 · 05·10
NVIDIA AI 发布 Star Elastic:一个检查点含 30B、23B、12B 推理模型
NVIDIA AI 发布 Star Elastic,一个检查点可零样本切出 30B、23B、12B 推理模型,并提供 BF16、FP8、NVFP4 三种版本;23B 负责思考、30B 负责答案时,AIME-2025 等基准准确率提高 16%、延迟降低 1.9 倍。
#Reasoning#Inference-opt#Benchmarking#NVIDIA
精选理由
HKR 三项齐,Star Elastic 有明确机制和可讨论数字,适合 AI 从业者评估推理部署价值;影响面仍偏开源推理圈,低于一线模型大版本发布。
一句话点评
NVIDIA 把尺寸选择塞进同一 checkpoint,骚点不在 30B,而是 23B 思考、30B 回答还能报 16% 准确率增益。
锐评
Star Elastic 像是在替推理服务商省一套模型路由,而不是单纯发 Nemotron 变体。一个 checkpoint 零样本切出 30B、23B、12B,还给 BF16、FP8、NVFP4;若 23B 负责思考、30B 负责最终答案,摘要称 AIME-2025、GPQA、LiveCodeBench v5、MMLU-Pro 准确率涨 16%,延迟降 1.9 倍。
我对这个数字先打折。正文只有 Reddit 403,没看到论文、评测脚本、batch size、硬件和路由规则。NVIDIA 过去一年一直把 Nemotron 往“可部署推理栈”推,这次更像给 Blackwell / TensorRT-LLM 找模型级卖点。若 slicing 真能免重训稳定工作,MoE 和多模型级联会被它抢一块成本叙事。
HKR 分解
hook ✓knowledge ✓resonance ✓