FEATUREDr/LocalLLaMA· rssEN14:57 · 05·05
Heretic 1.3 发布:可复现模型、集成基准与更低峰值 VRAM
Heretic 1.3 发布,新增可复现运行、集成基准、峰值 VRAM 优化和更广模型支持,项目称已有 20,000 个 GitHub star、超 1,300 万次模型下载。可复现目录会记录 PyTorch、GPU、驱动和加速库信息;基准系统基于 lm-evaluation-harness,支持 MMLU、EQ-Bench、GSM8K、HellaSwag。正文称已支持 Qwen3.5、Gemma 4,但未披露 VRAM 降幅数值。
#Benchmarking#Inference-opt#Safety#Heretic
精选理由
20k stars、1300万下载让它不是普通小版本;HKR-K/R 强在复现目录和本地部署成本。标题仍像发布清单,VRAM 降幅未披露,分数压在 featured 门槛。
一句话点评
Heretic 1.3 的卖点不是“又支持几个模型”,而是把本地推理最脏的复现债搬到台面上;VRAM 降幅没数,先别替它吹。
锐评
Heretic 1.3 押对了本地模型工具链的痛点:不是跑不起来,而是跑完没人能复现。它的 reproduce 目录记录 PyTorch、GPU、驱动、加速库,benchmark 接 lm-evaluation-harness,覆盖 MMLU、EQ-Bench、GSM8K、HellaSwag;这比“支持 Qwen3.5 / Gemma 4”更像给团队使用的基础设施。
20,000 GitHub star 和 1,300 万次模型下载说明分发不小,但 Reddit 正文 403,VRAM 降幅没有数字。这个缺口很关键:本地推理圈最容易把一次 allocator 调整讲成性能跃迁。llama.cpp、vLLM 已经把速度叙事打得很卷,Heretic 如果要站住,复现记录比“省显存”更可信。
HKR 分解
hook —knowledge ✓resonance ✓