FEATUREDr/LocalLLaMA· rssEN18:11 · 05·02
作者用 C++17 从零实现 0.83M 参数 Transformer
Reddit 用户 Suspicious_Gap1121 发布 Quadtrix.cpp,用 C++17 从零实现 0.83M 参数 GPT 式模型。配置为 4 层、4 头、200 维,128 字符上下文;31.4M 字符语料上单 CPU 核训练 76.2 分钟,验证损失 1.6371 nats。真正值得盯的是手写反传:LayerNorm、attention、Q/K/V、dropout 和 AdamW 都不用 PyTorch、BLAS 或自动微分库。
#Code#Fine-tuning#Inference-opt#Suspicious_Gap1121
精选理由
这是小体量个人开源项目,不是模型或产品发布;但 HKR 三项都成立,且有可复现参数、训练条件和手写反传机制。按优质技术教程/实验给 featured 下沿。
一句话点评
0.83M 参数、单核 76 分钟训完,Quadtrix.cpp 的价值不是性能,是把 Transformer 训练栈从框架黑箱里硬拆出来。
锐评
Quadtrix.cpp 最有用的地方,是把小 Transformer 的训练链路压回可读代码,而不是再造一个可用模型。0.83M 参数、4 层 4 头、200 维、128 字符上下文,在 31.4M 字符上单 CPU 核训 76.2 分钟,val loss 到 1.6371 nats;这个规模离 TinyStories、nanoGPT 的实用边界都很远。
但手写 LayerNorm、attention、Q/K/V、dropout、AdamW 反传,不靠 PyTorch、BLAS、autograd,这件事对教学和调试很硬。正文只有 Reddit 403,代码质量、数值稳定性、可复现脚本都没看到。别把它吹成轻量训练框架,它更像一把能拆开看的手术刀。
HKR 分解
hook ✓knowledge ✓resonance ✓