FEATUREDr/LocalLLaMA· rssEN20:23 · 05·27
103B token Usenet 语料库覆盖 1980–2013 年人类帖子
OwnerByDane 发布 103.1B token Usenet 语料库,覆盖 1980–2013 年、408M 帖子和 18,347 个新闻组,样本可免费下载,完整语料需授权。
#Fine-tuning#OwnerByDane#Gemma#Hugging Face
精选理由
HKR 三项都成立:数据规模和“零 AI 污染”有钩子,正文给出具体规模与访问条件,也贴近模型训练语料焦虑。扣分点是来源为 Reddit 个人发布,完整语料需授权,缺少第三方验证或基准结果。
一句话点评
103.1B token 的 Usenet 语料很香,但 Reddit 正文 403;先别喊“人类纯净金矿”,授权、去重、PII 三件事没露面。
锐评
103.1B token Usenet 语料的价值,不在“复古”,在它卡住了 1980–2013 这个无模型污染窗口。408M 帖子、18,347 个新闻组,规模足够做 tokenizer 诊断、长尾话题微调,也能给合成数据泛滥后的基线找锚点。
但我对“human-only, zero AI contamination”这句先打折。标题已给出时间范围,正文因 Reddit 403 未披露清洗、去重、版权授权和 PII 处理。The Pile 当年吃过版权和质量混杂的亏,RedPajama 也证明“大而开”不等于可训练。5K-post-per-hierarchy 样本免费只是试吃,完整语料要授权,关键价码和使用边界没给。
HKR 分解
hook ✓knowledge ✓resonance ✓