r/LocalLLaMA· rssEN04:04 · 05·29
StepFun 3.7 Flash 在 M5 Max 上跑出 33.92 t/s,但 128GB 内存几乎吃满
Beamsters 用发布当天的 llama.cpp 分支在 M5 Max(128GB 内存)上测了 StepFun 3.7 Flash,量化到 Q4_K_S 后显存峰值约 120GB,几乎占满。短上下文(16k 以内)体感流畅,跑 65,536 条 prompt、每条生成 128 token 时速度是 33.92 t/s。这个速度在本地大模型里算不错...
#Inference-opt#Benchmarking#StepFun#llama.cpp
精选理由
一条社区跑分,数据扎实但影响面窄。M5 Max 128GB 不是大众配置,33.92 t/s 对长上下文来说还行,但 120GB 内存峰值说明普通用户别想。正文没披露量化后质量损失,这点先别太激动。
一句话点评
StepFun 3.7 Flash 在 M5 Max 上跑出 33.92 t/s,量化后显存吃掉 120GB(128GB 几乎占满),短上下文流畅。但这是单次测试,来源是 Reddit 用户,正文被屏蔽,没披露功耗、温度或长上下文表现。速度不错,但硬件门槛高,别急着当通用结论。
HKR 分解
hook ✓knowledge ✓resonance ✓