全部

▸ 83 items · updated 3m ago

按日期浏览5369 项 · 60 天

2026年4月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1768 1853 1962 2095 2198 22108 2393 2472 2535 2629 2773 28109 29102 3094

2026年5月

一二三四五六日

176 260 362 473 5107 693 7132 890 970 1057 1199 12121 13135 14145 15128 1663 1764 18104 19167 20116 21121 22114 2348 2446 2570 26107 27116 28140 29113 3058 3161

2026年6月

一二三四五六日

1132 2140 3130 4111 5118 668 767 8126 9115 1075 1181 1281 1335 1428 1515161718192021222324252627282930

2024-04-24 · 星期三2024年4月24日

00:00

782d ago

● P1OpenAI 博客· rssEN00:00 · 04·24

GPT-4 API 全面开放，旧版补全模型半年后下线

OpenAI 宣布 GPT-4 API 向所有付费开发者开放，同时给旧版 Completions API 模型判了死缓：2024 年 1 月 4 日起，ada、babbage、curie、davinci 等老模型将彻底停用，用户需要迁移到新的替代模型上。官方推荐大家转向 Chat Completions API，说现在 97% 的 GPT API 用量...

#Tools#OpenAI#GPT-4#Product update

精选理由

这是一次有分量的 OpenAI 平台更新，HKR 的 K 和 R 都很扎实：GPT-4 API 全面开放叠加 Completions 旧模型弃用，对开发者是立刻要面对的事。没给 p1 是因为正文是空的，开放范围、截止日期、受影响模型名单全没披露，实际影响还得等细节。

一句话点评

OpenAI 把 GPT-4 开放给所有付费用户了，同时宣布老款补全模型半年后退役，建议大家都切到 Chat Completions API。

锐评

这条公告的核心就两件事：GPT-4 不用排队申请了，以及老旧的 Completions API 模型要逐步下线。对开发者来说，GPT-4 的 8K 上下文版本现在付过钱的就能直接用，月底还会对新开发者开放，之后根据算力情况提速率限制。这算是个好消息，门槛降低了。更值得留意的是模型退役计划。从 2024 年 1 月 4 日起，像 ada、babbage、curie、davinci 这些老款补全模型都会被替换成新模型，比如 davinci-002 或 gpt-3.5-turbo-instruct。OpenAI 给出的理由是，Chat Completions API 这种结构化的对话接口（能区分系统指令和用户输入，支持多轮对话）已经占了他们 API 用量的 97%，效果更好，还能降低提示词注入攻击的风险。所以，如果你还在用老接口，现在就得开始迁移了。不过，正文没提这些新替换模型的定价和具体性能对比，也没说老模型退役后，依赖它们的应用会不会有兼容性问题。这点先别太激动，迁移成本和工作量得自己评估。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2024-04-23 · 星期二2024年4月23日

00:00

783d ago

Hugging Face 博客· rssEN00:00 · 04·23

Hugging Face 推出开放思维链排行榜

Hugging Face 发布了一个公开排行榜，专门比较各家大模型在“思维链”提示下的表现。它不直接比模型答对多少题，而是比“用了思维链比不用时准确率提升了多少”。目前评测任务包括 LogiQA 和 LSAT 两类逻辑推理题。动机是传统排行榜容易被训练数据污染——模型可能只是背过答案，而思维链能测出它是不是真的会推理。正文没披露具体模型排名、评测频率或...

#Reasoning#Benchmarking#Hugging Face#Benchmark

精选理由

HKR-H 勉强靠'开放 CoT 榜单'这个钩子过关。HKR-K 和 HKR-R 都失败，因为片段没给任何任务、协议、样本排名、参与模型或更新节奏，所以这条只能算低价值 all。

一句话点评

HuggingFace 联合 Logikon 和 Ai2 搞了个新榜单，不测模型最终答对多少，而是测“用思维链提示比不用能提升多少准确率”。目前只上了 LogiQA 和 LSAT 两类逻辑题，样本量偏小，且全是选择题。正文没披露参与模型的具体增益数字，也没说是否控制温度等生成参数。思路不错——抗数据污染，但验证力度还弱。

锐评

Hugging Face 这次只放出了一个 Open Chain of Thought Leaderboard 标题，正文未披露评测任务、参与模型、打分口径和更新频率；在这些关键信息缺席的条件下，这条新闻的含金量还很有限。我的判断很直接：如果评测协议、prompt、解析器和去污染规则不公开，这种 leaderboard 很容易测成“谁更会迎合裁判”，不是谁更会推理。我一直觉得，chain-of-thought 榜单比一般能力榜更难做干净。原因不是名字新，而是它天然碰到两个老问题：第一，很多闭源模型对 CoT 有强策略限制，公开 API 返回的内容跟内部推理轨迹不是一回事；第二，只要打分依赖输出步骤，模型就会学会写“像推理”的文本。去年到今年，业内已经反复见过这种事：有些模型把答案前面铺一大段看似严谨的步骤，最终准确率并不稳定。GSM8K、MATH、甚至后来的 GPQA、MMLU-Pro 相关讨论里，大家已经越来越警惕“会写过程”和“真的推理”被混成一个指标。Hugging Face 如果想把这件事做成基础设施，至少要把 judge 设计、是否允许 self-consistency、是否限制 test-time compute 讲清楚。标题说 open，我第一反应不是“更透明了”，而是“你最好真的把 protocol 全开出来”。我对“Open”这个词也有一点保留。开源社区很喜欢把 leaderboard 做成公共坐标系，这个方向我支持；Open LLM Leaderboard 当年确实帮不少开源模型获得了可见度。但 CoT 跟常规选择题榜单不一样，它更容易被 prompt engineering、answer extraction 和 contamination 放大。我还没查到这篇正文，所以不能断言它会踩坑；但如果它只公开分数，不公开样本、提示模板、解析代码，那这个 open 更像品牌名，不像方法学承诺。还有个上下文不能省：2024 年这波“推理模型”叙事正在升温，很多团队都在把 test-time scaling、deliberate reasoning、tool use 混着讲。一个 CoT leaderboard 很容易被市场拿去当“推理能力排行榜”，这个我不太买账。没有任务拆分，你不知道它测的是数学、多跳问答、代码还是符号推理；没有成本指标，你也不知道高分是不是靠更长输出堆出来的。OpenAI 当时对隐藏 chain-of-thought 已经越来越谨慎，Anthropic 也更偏向展示结果和可控行为，而不是把内部推理全文吐给用户。顺着这个趋势看，公开 CoT 榜单的价值，不在于谁第一，而在于它能不能把“推理评测”从花哨样例拉回可复现实验。所以我现在的态度很简单：这条先别吹。标题给了方向，正文没给证据。等 Hugging Face 把任务集、提示词、评分脚本、去重和污染检查放出来，这个榜单才配当行业参考；不然它更像一个会持续制造社媒截图的页面。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

00:00

783d ago

OpenAI 博客· rssEN00:00 · 04·23

OpenAI 给 API 客户加了更多企业级功能

OpenAI 宣布为 API 客户新增一批企业级功能，包括 Private Link（让 Azure 和 OpenAI 之间走专线，不经过公网）、原生多因素认证（MFA）、项目级权限和 API 密钥管理（可以按项目限制模型和用量）、以及 Assistants API 的改进——文件搜索现在每个助手能处理 1 万份文件（之前是 20 份），还支持流式响应...

#OpenAI#Product update

精选理由

这篇只有标题，正文为空。OpenAI说给API客户加企业级功能，但没列具体功能、适用客户、价格、上线时间。真正该盯的访问控制、合规和运维细节全没披露。信息量等于零，不值得跟进。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

00:00

783d ago

OpenAI 博客· rssEN00:00 · 04·23

OpenAI 联合多家公司承诺“安全设计”保护儿童，但没提具体怎么落地

OpenAI 与 Amazon、Google、Meta、微软等十几家公司签了一份“安全设计”承诺，核心是在开发、部署、维护生成式 AI 的每个环节都考虑儿童安全，比如训练数据里筛掉儿童性虐待素材、上线后持续清理违规内容、每年发一次进展报告。但正文只列了原则框架，没披露具体用什么技术手段、怎么验证效果、违规怎么处罚。简单说就是表了个态，细节欠奉。

#Safety#Alignment#OpenAI#Policy

精选理由

这篇只有标题，信息密度太低。只确认了 OpenAI 要为儿童安全采用安全设计原则，但适用范围、执行机制、时间表和量化指标都没披露，HKR 三项全挂零，直接排除。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2024-04-19 · 星期五2024年4月19日

19:00

786d ago

FEATUREDOpenAI 博客· rssEN19:00 · 04·19

指令层级：OpenAI 教模型分清谁的话更管用

OpenAI 发了一篇论文，核心思路是给指令排优先级——系统提示词（开发者写的）比用户输入（可能带恶意）优先级高，模型应该优先听高优先级的。这主要是为了防 prompt 注入和越狱攻击，这类攻击的本质就是让模型把攻击者的低权限指令当成系统指令来执行。方法是在 GPT-3.5 上做训练数据生成，教模型选择性忽略低优先级指令。论文说效果不错，连训练时没见过...

#Alignment#Safety#OpenAI#Research release

精选理由

OpenAI 这篇只有标题，正文为空。标题本身已经点出两个关键信息：存在指令层级机制，目标是让模型优先处理特权指令。但真正值钱的东西——训练方法、层级定义、评测结果、失效率——全都没给。HKR-H 和 HKR-R 成立，因为提示注入防御对开发者是刚需；HKR-K 不成立，因为信息缺口太大，只能确认话题存在。所以维持 all 层级。

一句话点评

OpenAI 给 GPT-3.5 加了一套“指令等级制”，让模型学会听系统的话、忽略用户恶意注入，实测对没见过的新攻击也扛得住，且常规能力没怎么掉。

锐评

这篇论文解决的是一个很实际的问题：现在的大模型经常分不清系统指令和用户指令谁大，导致一句“忽略之前所有要求”就能把模型带偏。OpenAI 提出的方案是给指令划等级——系统提示优先级最高，用户输入靠后，第三方工具更低——再通过专门构造的训练数据，教模型在冲突时选择性忽略低优先级指令。他们在 GPT-3.5 上做了实验，效果很直接：对训练时没见过的攻击类型，鲁棒性也大幅提升，同时标准能力退化很小。这比事后打补丁的防御思路更底层，相当于从行为规范上堵住了注入攻击的口子。不过正文没披露训练数据的规模和具体构造细节，也没给出跨模型（比如 GPT-4）的对比。另外，这种等级制在复杂 agent 场景下会不会误伤正常的多轮交互，还需要更多验证。如果这套方法真像论文说的那样几乎不影响通用能力，那对做应用层安全的团队是个好消息。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

787d ago

Hugging Face 博客· rssEN00:00 · 04·19

Hugging Face 发布医疗大模型排行榜：测模型能答对多少医学题

Hugging Face 上线了一个医疗大模型排行榜，用 MedQA、MedMCQA、PubMedQA 和 MMLU 里的医学/生物子集来测模型。说白了就是让模型做医学选择题和判断题，看谁答得准。正文没披露具体有哪些模型上榜、评分怎么算、多久更新一次，所以目前只能知道有这个榜，但没法判断哪个模型好用。医疗场景下模型答错可能影响诊断和治疗，所以搞一个专门...

#Benchmarking#Hugging Face#Benchmark#Open source

精选理由

H 通过，因为开放医疗 LLM 排行榜是一个具体的新产物。K 和 R 不通过，因为正文除了名字之外几乎没披露任何实质内容：数据集、评分方式、模型列表、行业影响都没提，所以留在 all 层。

一句话点评

HuggingFace 搞了个医疗 LLM 排行榜，用 MedQA、PubMedQA 等公开题库测模型知识问答能力。目前榜单上 GPT-4 和 Med-PaLM 2 领先，但正文没披露具体分数和参数量。注意：这些题都是选择题，考的是记忆而非临床推理，高分不等于能看病。

锐评

Hugging Face 公开了一个医疗 LLM 排行榜，但正文未披露评测集、模型名单、分数算法和更新频率。就目前信息量，我不会把它当成医疗模型能力判断的依据。没有数据集边界，就不知道它测的是医学知识问答、临床推理、患者沟通，还是考试刷分；这几类差得非常远。我对“开放医疗排行榜”这套叙事一直比较警觉。医疗不是通用聊天。过去一年里，MedQA、PubMedQA、MMLU 医学子集这类 benchmark 已经被刷得很高，但高分和临床可用性经常脱钩。比如不少模型在 USMLE 风格题上表现不错，一进真实病历、缩写歧义、多轮追问，稳定性就掉下去。OpenAI、Google、Anthropic 这几家后来都在往更贴近 workflow 的评测走，不再只拿考试题当主菜。Hugging Face 这次如果还是把公开题库拼成一个榜，参考价值会有，但上限很低。我还担心一件事：开放排行榜天然会诱导为榜单优化。这个现象在 LMSYS Chatbot Arena 和通用开源榜单上已经出现过，厂商会针对公开集做微调、提示工程、过滤器适配。医疗场景里这么玩，风险比通用场景大得多，因为用户会把“排行榜靠前”误读成“能给临床建议”。标题给了 open leaderboard，正文没给治理机制，比如是否区分闭卷/检索增强、是否限制数据污染、是否做人类医生复核。没有这些，榜单更像社区信号，不像严肃评测。说真的，我并不反对 Hugging Face 做这件事。医疗模型现在最缺的就是可复现、可公开讨论的基线，尤其是开源模型。问题在于，医疗 benchmark 一旦没有任务拆分和误差分析，就很容易把复杂问题压成单一分数。我还没查到这篇里有没有 adverse event、hallucination rate、refusal calibration 这类更关键的维度；如果没有，那它能回答“谁会做题”，回答不了“谁更安全”。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2024-04-18 · 星期四2024年4月18日

00:00

788d ago

Hugging Face 博客· rssEN00:00 · 04·18

Meta 发布 Llama 3，号称新一代开源大模型

Meta 在 Hugging Face 上宣布推出 Llama 3，定位为新一代开源大模型。但正文目前只有标题，页面返回 429 错误，无法访问具体内容。所以模型尺寸、上下文长度、许可证、跑分和发布时间这些关键信息都还没披露。目前只能确认 Meta 在推新版本，具体参数和性能要等页面恢复才能知道。

#Meta#Product update#Open source

精选理由

标题说 Meta 发了 Llama 3，但正文啥也没写，等于只给了一个名字。我会先打个折：这条消息的钩子很强，可眼下能拿来判断的事实是零。真正该盯的是开放程度和能不能商用，但这篇帖子现在不提供任何细节，所以重要性只能压在 40 以下，直接归到 excluded。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-04-16 · 星期二2024年4月16日

00:00

790d ago

FEATUREDHugging Face 博客· rssEN00:00 · 04·16

Hugging Face 上线 LiveCodeBench 排行榜：用实时更新的竞赛题测代码模型，防作弊

Hugging Face 联合 UC Berkeley、MIT 和 Cornell 推出了 LiveCodeBench 排行榜，专门评测代码生成模型。它从 LeetCode、AtCoder、CodeForces 等竞赛平台持续收集新题，并按题目发布时间分窗口评测模型，这样能有效防止模型提前“背题”（数据污染）。评测不止看能不能写对代码，还测了自我修复（...

#Code#Benchmarking#Hugging Face#LiveCodeBench

精选理由

Hugging Face 新出的代码模型榜单，主打“无污染”评测，这个点确实戳中行业对 benchmark 作弊的焦虑，所以 H 和 R 成立。但正文没给题库大小、指标定义、更新频率和参赛模型，信息缺口太大，K 不通过。

一句话点评

这个新榜单用“按发布时间切分题目”来防刷分，比固定题库更接近真实编程能力，但别把它当成模型代码水平的唯一标尺。

锐评

LiveCodeBench 这个榜单的思路挺直接：它不从老题库里抽题，而是持续爬取 LeetCode、AtCoder 等竞赛平台的新题目，并记录每道题的发布日期。这样在评测时，可以只选模型训练数据截止日期之后的题，从机制上减少“考题泄露”导致的分数虚高。除了常规的代码生成，它还测了自我修复、代码执行和测试输出预测，覆盖的场景比多数榜单更全。目前榜单刚上线，正文没披露具体参评模型数量和详细得分分布，也还没看到不同时间窗口下的成绩变化趋势。另外，题目来源集中在算法竞赛类平台，对企业级工程代码（比如写接口、处理异常、读文档）的覆盖度有限。这点先别太激动，把它当成一个更干净的代码能力参考就好，实际选模型还得结合自己的业务场景跑一遍。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

790d ago

Hugging Face 博客· rssEN00:00 · 04·16

Hugging Face 说推理端点能保护隐私，但正文是空的

Hugging Face 发了一篇博客，标题说推理端点（Inference Endpoints）现在支持隐私保护推理。但点进去只看到 429 限流页面，正文一个字都没有。所以目前能确认的只有部署入口和隐私这个方向，完全没披露用了什么技术（是不是全同态加密 FHE？）、支持哪些模型、延迟和成本增加了多少、什么时候能用。这些关键信息全缺，暂时没法评估这个更...

#Inference-opt#Safety#Hugging Face#Product update

精选理由

HKR-H 和 HKR-R 通过，因为隐私保护推理在托管端点上确实是企业用户的真实痛点。HKR-K 不通过：正文为空，没披露任何机制、延迟、定价或上线条件，而且触发了硬排除规则 cloud-vendor-promo，所以重要性低于 40。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-04-15 · 星期一2024年4月15日

00:00

791d ago

Hugging Face 博客· rssEN00:00 · 04·15

Hugging Face 发布 Idefics2：一个 8B 参数的开源视觉语言模型

Hugging Face 推出了 Idefics2，一个 8B 参数的视觉语言模型，能同时理解图片和文字。但 Hugging Face 的博客页面返回了 429 错误（访问太频繁被限流），所以正文完全没披露训练数据、跑分、许可证、上下文窗口这些关键信息。目前能确认的只有模型规模和定位——8B 参数意味着它可以在消费级显卡上跑，成本相对可控。至于它是不是...

#Multimodal#Vision#Hugging Face#Product update

精选理由

这篇只有标题，正文为空。能确认的只有Hugging Face发了个叫Idefics2的8B视觉语言模型，其他关键信息——训练数据、基准成绩、许可协议、上下文长度、推理成本——全都没披露。HKR三项全不满足，维持排除。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2024-04-09 · 星期二2024年4月9日

00:00

797d ago

Hugging Face 博客· rssEN00:00 · 04·09

Google 发布 CodeGemma：三款专写代码的开源模型

Google 在 Hugging Face 上发布了 CodeGemma，一套基于 Gemma 的代码专用模型，分三个版本：2B 基础版只做代码填充和生成，适合低延迟或隐私敏感场景；7B 基础版用 80% 代码 + 20% 自然语言训练，既能补代码也能理解语言；7B 指令版在 7B 基础上微调，可以跟人聊代码。三个模型都在额外 5000 亿 token...

#Code#Google#CodeGemma#Product update

精选理由

HKR-H 和 HKR-R 成立：Google 新代码模型本身就有点击价值，也跟开发者工具竞争相关。HKR-K 不成立：帖子只确认了名字和代码方向，大小、许可、跑分、可用性都没披露，所以这条只能留在 all 里。

一句话点评

Google 开源了代码专用模型 CodeGemma，分 2B 和 7B 两个尺寸，7B 还有对话版。2B 主打低延迟、可本地跑，适合代码补全；7B 在 Gemma 基础上多训了 5000 亿 token（数学+代码），HumanEval 上 7B 基础版 pass@1 约 30%，比同尺寸开源模型略好。但注意：评测只列了 HumanEval 和 MBPP，缺更难的 HumanEval+ 或...

锐评

Google 只公布了 CodeGemma 这个名字和“面向代码”这层定位。信息少到这个程度，我的判断会很保守：这条先别按“Google 又出一个能打的代码模型”来读，更像是 Gemma 系列往开发者场景补一块拼图。标题给了官方发布，正文没给参数规模、上下文长度、训练语料、许可、评测口径，也没说是补全优先、指令优先，还是 repo 级 agent 任务优先；这些没落地前，讨论能力排名都站不住。我一直觉得代码模型最怕标题叙事。去年到今年，市场已经被 Code Llama、DeepSeek-Coder、StarCoder2 这几条线教育过一次：同样叫“for code”，开源许可、训练数据洁净度、fill-in-the-middle 支持、long context、仓库级评测覆盖，差一项，实际开发体验就差很多。Google 这次如果只是把 Gemma 基座做一层代码微调，那它会先撞上两个老问题：一是工程实用性，能不能稳定过 HumanEval、MBPP 之外的更脏任务；二是分发诚意，权重、商用条款、推理门槛给不给到位。Gemma 本身在开源圈的热度不低，但它还没建立“代码第一选择”这个心智，CodeGemma 也不会靠名字自动拿到。我对“官方发布”这四个字也有点怀疑。Google 的官方模型不少，真正进开发者日常工作流的没那么多。说实话，我更想先看模型卡，而不是宣传标题：有没有和 Code Llama 7B/13B、DeepSeek-Coder 6.7B/33B 这类公开基线对齐的 benchmark；有没有补全延迟、IDE 场景、许可证边界；有没有说明训练截止时间和代码数据过滤。文章没给，我就不替它补。现在能下的结论只有一个：CodeGemma 先证明自己是产品，不只是 Google 给 Gemma 家族补上的一个类目名。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-04-05 · 星期五2024年4月5日

00:00

801d ago

OpenAI 博客· rssEN00:00 · 04·05

Klarna 的 AI 客服干了 700 人的活，但先别急着算裁员账

Klarna 上线了一个基于 OpenAI 的 AI 客服助手，上线第一个月就处理了 230 万次对话，占其客服总量的三分之二。Klarna 自己说这相当于 700 个全职客服的工作量，客户满意度跟真人持平，重复咨询率还降了 25%，平均解决时间从 11 分钟缩到 2 分钟以内。全年预计能帮公司省下 4000 万美元。不过正文没披露这 700 人的工作...

#Agent#Klarna#Commentary

精选理由

标题有钩子，话题有讨论价值，但正文为零，关键核算方法一个字没提。按规则，信息不够就直说没披露，不补设定。同时这条符合硬排除规则5：Klarna是OpenAI的客户案例，核心结论就是Klarna用了OpenAI，属于厂商客户案例，直接排除。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-04-04 · 星期四2024年4月4日

00:00

802d ago

OpenAI 博客· rssEN00:00 · 04·04

OpenAI 微调 API 升级，新增检查点、对比测试和超参面板

OpenAI 今天宣布了微调 API 的几项改进，同时扩大了定制模型计划。微调 API 新增了按训练轮次自动生成检查点、并排对比模型输出的 Playground、支持集成 Weights & Biases、全量验证集指标计算、以及从 Dashboard 配置超参数等功能。这些改动主要让开发者更容易调试和比较微调效果，不用反复重跑训练。定制模型计划方面，...

#Fine-tuning#OpenAI#Product update

精选理由

这是 OpenAI 企业定制化产品更新，但只有 R 明确通过，因为从业者关心微调和定制模型的交付边界。K 不通过，因为价格、模型范围、机制、接入条件都没披露，所以分数偏低。

一句话点评

OpenAI 给微调 API 加了几个实用功能：按训练轮次自动保存检查点、侧边栏对比模型输出、集成 Weights & Biases、全量验证集指标、超参可视化配置。案例数据不错：Indeed 用微调把 prompt 长度砍了 80%，月消息量从不到 100 万冲到 2000 万；SK Telecom 微调 GPT-4 后，韩语客服摘要质量涨 35%、意图识别准度升 33%、满意度从 3.6...

锐评

OpenAI 只确认了 2 个动作：改 fine-tuning API，扩 custom models program；正文没给模型范围、价格、上线时间、准入条件。我的判断先摆这：这条更像 OpenAI 在补企业交付层，而不是在放一个新的模型能力信号。原因不复杂。2024 年这个节点，基础模型本身已经开始商品化一部分，厂商分层主要看三件事：能不能把客户数据接进去，能不能把评测和回滚流程做稳，能不能给大客户卖“我帮你做”的高价服务。fine-tuning API 指向前两件，custom models program 指向第三件。OpenAI 这次把两条放在一起讲，我看着就是在补一条更完整的 enterprise path：先让普通客户自助微调，再把高 ARPU 客户往定制模型服务里接。外部参照并不难找。OpenAI 在 2023 年就开过 GPT-3.5 Turbo fine-tuning，后来行业里 Anthropic 更偏 prompt engineering 和 tool use，公开的自助微调动作一直没 OpenAI 激进；Cohere、Mistral 这类厂商则更愿意把“企业私有化 + 定制”当卖点。Meta 那边虽然有 Llama 生态，但真正把数据清洗、训练、评测、部署责任一起打包卖出去的能力，更多还是靠云厂商和集成商。放在这个格局里看，OpenAI 扩 custom models program，不是在追新，而是在把“从 API 到咨询式交付”的链条抓得更紧。但我对这个叙事有个保留。标题说“improvements”，没说清是训练吞吐、超参控制、验证集管理、checkpoint、还是安全审查。这里差别很大：如果只是把作业管理界面和评测工具补齐，那是产品成熟；如果能控制更细的训练配置，才接近平台能力升级。custom models program 也一样。是少数头部客户的一对一项目，还是更标准化的套餐，正文没披露。没有交付边界，这条新闻的含金量暂时没法高估。我还得补一句现实判断：很多企业现在对“微调”本身没前两年那么上头了，RAG、工具调用、系统提示工程，往往先把 70% 的需求解决，成本和迭代速度都更友好。OpenAI 这时强调 fine-tuning，我不觉得是在押技术主线，我更倾向于把它看成收入结构动作——把那些已经证明有预算、又嫌通用 API 不够稳的客户继续往上承接。标题已经给出方向，正文没披露执行细节；在细节出来前，我不会把它读成一次能力跃迁。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

00:00

802d ago

Hugging Face 博客· rssEN00:00 · 04·04

用 Hugging Face 数据集直接查 SQL：DuckDB-NSQL-7B 方案

这篇博客标题说可以用 Hugging Face Dataset Viewer API 和 MotherDuck DuckDB-NSQL-7B 做 Text2SQL，也就是把自然语言问题转成 SQL 查询。但正文只返回了 429 错误，没有披露任何提示词、评测指标、延迟、成本或可复现步骤。关键问题是它是否真的能把数据集查询直接连到 SQL 生成——标题只...

#RAG#Code#Tools#Hugging Face

精选理由

这篇只有标题级信号：Dataset Viewer API、DuckDB-NSQL-7B 和 Text2SQL 方向。HKR 三项全不满足，因为提示词、评测、延迟、成本和可复现步骤都没公开，所以归入 excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2024-04-01 · 星期一2024年4月1日

00:00

805d ago

OpenAI 博客· rssEN00:00 · 04·01

ChatGPT 现在不用注册就能直接用

OpenAI 宣布从今天起，用户无需注册账号就能直接使用 ChatGPT。目的是降低门槛，让更多人对 AI 好奇的人能直接上手体验。目前是逐步开放，没说具体覆盖哪些地区。免注册版会加更多内容过滤，比如屏蔽更广范围的提示词和生成结果。但 OpenAI 也提醒，不登录时你的对话数据仍可能被用来训练模型，不过可以在设置里关掉。注册账号的好处是能保存聊天记录、...

#OpenAI#ChatGPT#Product update

精选理由

这是 OpenAI 官方的一条分发/访问更新。HKR-H 和 HKR-R 靠“立即”钩子和降低上手门槛通过，但 HKR-K 不通过，因为帖子没披露入口、地区覆盖或登录规则；按小型产品更新的低端打分。

一句话点评

OpenAI 宣布 ChatGPT 免注册直接可用，逐步开放。周活用户超 1 亿、覆盖 185 国，这次拉新门槛降到零。但免登录版加了更严的内容过滤，且默认用对话数据训练模型（可在设置关闭）。对开发者来说，这意味着 ChatGPT 的免费流量入口进一步扩大，但 API 调用量未必直接受益。正文没披露免登录版是否限制模型版本或对话轮数，实际体验可能打折。

锐评

OpenAI 这条更像增长动作，不像产品大版本更新。标题直接写“立即开始使用 ChatGPT”，指向的是首访转化率，不是模型能力、价格层级、上下文长度这类从业者会关心的硬指标。正文为空，入口、地区、账号要求、免费版是否覆盖都没披露，所以现在最多只能下一个保守判断：OpenAI 在试着继续压低首次使用 ChatGPT 的摩擦。我一直觉得这条路他们迟早会补。ChatGPT 在 2023 年靠注册制拿到爆发式增长，但到了 2024 年，Google Gemini、Microsoft Copilot、Perplexity 都在把“先试一下”做得更轻。尤其是搜索入口和浏览器入口，用户对“先建号再说”这一步越来越没耐心。OpenAI 如果把匿名试用、免登录首轮对话、或更浅的 web 入口放出来，逻辑是成立的：先让人进来，再把历史记录、文件上传、长对话这些留给登录态。但我还没查到原文，所以不能把标题直接读成“全面免注册”。我对这类标题党式官博还有一点保留。OpenAI 过去几次面向大众的产品文案，经常把体验层改动写得像能力边界变化；进去一看，很多只是入口重排、默认路由调整，或地区灰度。这里也一样：标题给了“instantly”，没给任何可复现条件。没有地区名单，没有设备范围，没有是否限新用户，连是 web 还是 app 都没说。对开发者和产品团队来说，这条现在的有效信息很少，别把它误判成新分发政策已经稳定落地。如果后续原文补出来，我最想看三件事：是否免注册、是否有地区限制、匿名态能用到哪一档模型。少了这三项，这条就只能当获客漏斗优化看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-03-27 · 星期三2024年3月27日

00:00

810d ago

OpenAI 博客· rssEN00:00 · 03·27

OpenAI 给美国NTIA的公开信：开源权重有好处，但旗舰模型还是走API更安全

OpenAI 向美国国家电信和信息管理局（NTIA）提交了一份关于开放模型权重的意见书。核心立场是：开源权重（即公开模型参数）和API/产品发布都是实现有益AI的工具，美国AI生态两者都需要。OpenAI 回顾了自己从GPT-2的“分阶段开源”到GPT-3转向API发布的历程，认为API模式能持续监控和阻断恶意使用（比如最近配合微软打击国家背景的黑客）...

#OpenAI#NTIA#Policy#Commentary

精选理由

HKR-R 通过，因为 OpenAI 对开放模型权重的正式表态踩中了当前活跃的政策辩论和开源 vs 闭源争议。HKR-K 不通过，因为 RSS 只暴露了标题，意见全文、具体主张和涉及模型都没披露，所以这条信息带宽很低，适合所有人看但不值得深挖。

一句话点评

OpenAI 向美国NTIA提交了关于开放模型权重的官方意见，核心立场是：开源和闭源（API/产品）两条路都要走，不能一刀切。文章回顾了GPT-2的阶段性开源、GPT-3转向API的原因，并强调闭源能有效阻断恶意使用——比如他们和微软合作打击国家背景的黑客，如果模型权重公开，黑客自己部署就拦不住了。但OpenAI也承认开源的好处，比如促进学术研究、本地部署和模型修改。整体看，这是一份平衡的游...

锐评

OpenAI 这次更像在争夺“开放权重”的法律口径，不像产品路线转向。标题已经给出对象是 NTIA，议题是 open model weights；正文未披露意见全文、具体主张、提交版本、涉及哪些模型，这些关键条件现在都没有。我对这条的直觉很明确：OpenAI 大概率不是来替开放权重松绑的，而是来划边界的。原因不复杂。2023 到 2024 这段，美国政策讨论里“开源”“开放权重”“API 可访问”一直被混着说，厂商最想抢的就是定义权。谁先把“开放权重”解释成一个需要分级、备案、风控义务的类别，谁就在后面的监管文本里占便宜。OpenAI 过去一年对 frontier model 的公开表述，核心一直是部署安全、滥用风险、分阶段发布，不是 Meta 那种直接把 Llama 权重放出去的路子。把这条放回那个脉络里看，我不太买“OpenAI 开始支持 open weights”这种轻快解读。外部参照很清楚。Meta 在 2023 年推 Llama 2、2024 年继续推 Llama 3，公开叙事一直是开放分发带动生态；法国和开源社区那边也长期主张，权重开放本身不该被默认等同高风险。Anthropic 则更偏审慎发布，强调能力阈值和防护。OpenAI 夹在中间，但历史动作更接近后者。说真的，如果这份 NTIA comment 真的明显偏向开放，OpenAI 自己过去很多安全叙事都得重写，我目前没看到这种迹象。我自己的疑虑也得摆出来：现在只有标题，连 comment 是支持豁免、支持分层监管，还是主张只管训练方不管下游分发，都不知道。标题已给出“comment to the NTIA on open model weights”，正文未披露最关键的 policy line，所以不能把它读得太满。可就算信息这么薄，这条还是有价值，因为它暴露了一个现实：OpenAI 已经不能只在产品发布会上定义“安全”，它得去华盛顿抢定义。谁来定义 open weights，后面影响的是 Llama、Mistral、Qwen 这类权重分发路线的合规成本，不只是 OpenAI 自己。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

2024-03-25 · 星期一2024年3月25日

00:00

812d ago

OpenAI 博客· rssEN00:00 · 03·25

OpenAI 发了 Sora 的“初体验”博客，但正文只有艺术家感言，没提任何技术参数或上线时间

OpenAI 发了一篇名为“Sora: first impressions”的博客，内容全是艺术家和导演的试用感言，比如“终于能把脑子里想了多年的画面做出来了”“不用再被预算和团队限制”。但整篇没披露任何硬信息：视频最长能生成多少秒、分辨率多少、什么时候开放给普通用户、怎么收费，全都没说。目前只能看出 OpenAI 在拉创作者做 PR，实际产品状态和可...

#Multimodal#Vision#OpenAI#Sora

精选理由

HKR-H 通过，因为 Sora 本身就是一个强点击钩子；HKR-R 通过，因为它踩中了文生视频竞争这条神经。HKR-K 不通过，因为只有标题被披露，时长、分辨率、价格、访问条件全都没有，硬性排除零来源规则把分数压在 40 以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-03-22 · 星期五2024年3月22日

00:00

815d ago

Hugging Face 博客· rssEN00:00 · 03·22

Embedding 量化：用二进制和标量压缩让向量检索更快更便宜

这篇博客标题说用二进制和标量量化（把向量从浮点数压缩成 0/1 或低精度整数）能让 embedding 检索更快、成本更低，但正文是空的——Hugging Face 返回了 429 限流错误。所以实际加速比、省了多少钱、用了什么数据集、精度掉了多少，全都没披露。唯一能确认的是话题本身：embedding 量化用于检索。关键缺口是精度与速度的 trade...

#Embedding#RAG#Inference-opt#Hugging Face

精选理由

HKR-R 成立，因为检索成本和延迟确实是 RAG 团队关心的真问题。但这条 feed 只有标题，正文为空：没有加速倍数、召回损失、索引设计、数据集或复现条件，触发了硬性排除规则——零来源，所以维持 excluded。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

2024-03-20 · 星期三2024年3月20日

00:00

817d ago

FEATUREDHugging Face 博客· rssEN00:00 · 03·20

GaLore：用消费级显卡训70亿参数大模型

GaLore 的核心是把梯度投影到低维子空间再喂给优化器，从而大幅降低优化器状态的内存占用。作者称优化器状态内存减少了 82.5% 以上，配合 8-bit 优化器还能进一步压缩。这意味着你可以在 RTX 4090 这类消费级显卡上训练 70 亿参数的 Llama 模型。不过正文没披露具体训练时长、收敛效果或可复现的配置，所以实际落地成本还不清楚。

#Research release

精选理由

HKR-H 和 HKR-R 成立，因为消费级硬件训练大模型是一个强成本/访问钩子。HKR-K 不成立：RSS 没有给出机制、显存数字、模型规模或可复现配置，所以这只能算一个中等优先级的研究发布。

一句话点评

GaLore 让消费级显卡能训 70 亿参数模型，显存占用砍掉八成多，但论文只测了预训练，微调效果还没给。

锐评

这篇博客讲的是 GaLore，一种给大模型训练省显存的方法。核心思路是发现训练时梯度矩阵天然是低秩的，所以可以先把它压到一个更小的子空间里，再喂给优化器。这样一来，优化器状态占的显存能减少超过 82.5%，让一张 RTX 4090 就能跑 Llama 架构的 70 亿参数模型预训练。如果再叠上 8-bit 优化器，省得更多。不过得注意，博客里引用的数字都来自作者自己的论文和推文，目前只展示了预训练阶段的节省效果。它能不能在指令微调、RLHF 这些更复杂的下游任务里保持同样的稳定性和省显存比例，文章没提。另外，这种低秩投影会不会在某些任务上丢掉对模型表现关键的高频梯度信息，也需要更多独立验证。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

817d ago

Hugging Face 博客· rssEN00:00 · 03·20

笔记本跑聊天机器人：Phi-2 在 Intel Meteor Lake 上能跑，但正文没给速度

这篇博客讲的是把微软的 Phi-2 小模型（27亿参数）塞进 Intel 最新笔记本 CPU（Meteor Lake）里跑聊天。好处很直观：数据不用上传云端、延迟更低、没网也能用、省钱、还能自己微调或挂外挂资料库（RAG）。做法是先用 Intel OpenVINO 工具把模型权重压到 4-bit（省内存），然后在中等配置的笔记本上推理。但正文没披露具体...

#Inference-opt#Hugging Face#Intel#Phi-2

精选理由

标题抛了个“Phi-2 在笔记本上跑聊天机器人”的钩子，端侧推理确实戳从业者痛点——成本、隐私、离线部署。但 RSS 正文为空，速度、量化方式、内存占用、调用栈一概没提。H 和 R 靠标题话术成立，K 因为信息缺口直接挂掉。目前只能算个边缘演示，不是高信息量的发布。

一句话点评

微软的 Phi-2 模型（27亿参数）在 Intel Meteor Lake 笔记本上跑起来了，靠的是 4-bit 量化（把模型压缩到原来的四分之一内存）。实测能离线聊天，延迟比云端低，隐私也好。但正文没披露具体生成速度（每秒多少 token），也没说多轮对话会不会崩。小模型本地跑是趋势，但别指望它跟 GPT-4 比。

锐评

标题只给出一个事实：Phi-2 运行在 Intel Meteor Lake 笔记本上，形态是聊天机器人。关键参数正文未披露，包括生成速度、首 token 延迟、量化方式、上下文长度、内存占用、NPU 还是 iGPU 在跑、调用栈是不是 OpenVINO。我对这类标题一直比较谨慎，因为“能跑”和“能用”差得很远，尤其是端侧聊天这种场景，差的往往不是模型本身，而是整条推理链路。先看模型侧。Phi-2 是 2.7B 级别，小到足以让端侧演示成立，但它从来不是“笔记本原生聊天体验”的天然代表。我记得 2024 年初很多本地跑法都把 2B-3B 模型压到 4-bit 甚至更低，才能把内存和吞吐压进消费级设备能接受的区间。问题在于，一旦量化到这个程度，聊天质量、长上下文稳定性、工具调用可靠性都会掉。文章如果不写量化细节，这个演示的参考价值就很有限。再看硬件侧。Meteor Lake 当时最想讲的是 CPU+iGPU+NPU 的异构推理叙事，不只是“本地能跑模型”。Intel 需要一个能落在终端设备上的 AI demo，去证明 NPU 不只是规格表上的一个框。可我对这套叙事有点怀疑：很多所谓“on-device LLM”演示，最后重活还是落在 GPU 或 CPU，NPU 只是参与一部分算子，或者只在特定 batch、特定 context 下有收益。这里如果没有芯片占用、功耗和每秒 token 数，基本没法判断 Meteor Lake 到底解决了什么。 Hugging Face 愿意配合做这类展示，我能理解。它过去一年一直在把“本地推理”从极客玩法往标准工作流推，像 transformers.js、Text Generation Inference 之外，也在不断给硬件厂商做适配样板。这个合作更像生态对接，不太像模型能力突破。拿它和苹果后来在设备侧主推的小模型路线比，思路其实接近：先用小参数模型占住“离线、隐私、低时延”这个入口，再谈体验升级。差别在于，苹果会把系统级调度和功耗曲线一起讲，Intel 这条如果只剩“能聊天”，信息量就不够。所以我现在的判断很简单：这条先别当成端侧 AI 已经成熟的证据，更像 Intel 在补一块叙事拼图。要让我改观，至少得看到 3 个数字：首 token 延迟、持续生成 tok/s、整机功耗或电池影响。标题已给出“能跑”，正文没给“跑成什么样”。这两者中间，差了一整个产品层级。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

817d ago

Hugging Face 博客· rssEN00:00 · 03·20

Cosmopedia：用合成数据做大模型预训练

Hugging Face 发了一篇博客讲 Cosmopedia，主题是用大规模合成数据做 LLM 预训练。但正文目前只返回了 429 错误，实际内容没读到。所以这篇目前只有标题能确认方向，数据集规模、生成流程、过滤方法、评测结果全都没披露。等能访问了再细看。

#Hugging Face#Cosmopedia#Research release#Commentary

精选理由

标题钩子够具体，但正文一个字都没有，HKR-K 和 HKR-R 直接挂零。这是典型的信息真空型排除，分数压在 40 以下合理。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2024-03-18 · 星期一2024年3月18日

00:00

819d ago

Hugging Face 博客· rssEN00:00 · 03·18

Quanto：Hugging Face 给 PyTorch 模型做量化压缩的后端工具

Hugging Face 发了一篇博客介绍 Quanto，一个给 Optimum 用的 PyTorch 量化后端。正文目前只有标题，没披露具体支持多少比特位宽、覆盖哪些模型、能省多少显存或提速多少，也没说什么时候能用。简单说就是 HF 想让你更方便地把模型压小、跑快，但细节还没给。

#Inference-opt#Tools#Hugging Face#PyTorch

精选理由

正文只有标题，说 Hugging Face 给 Optimum 做了个叫 Quanto 的 PyTorch 量化后端。支持几位量化、能跑哪些模型、推理快多少一概没披露。信息缺口太大，H/K/R 三项全挂，所以排除。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2024-03-15 · 星期五2024年3月15日

00:00

822d ago

Hugging Face 博客· rssEN00:00 · 03·15

WebSight：把网页截图转成HTML代码的数据集

Hugging Face 发了一篇博客介绍 WebSight 数据集，目标是让模型把网页截图直接转成 HTML 代码。但正文目前是空的（访问被限流），所以数据集大小、怎么标注的、用了什么基线模型、评测指标、是否已开源，这些关键信息都没披露。如果这个数据集真能用，截图→代码这条路线对前端自动化、设计稿转页面会挺实用，但现阶段只能先标记一下，等正文出来再细看。

#Vision#Code#Benchmarking#Hugging Face

精选理由

HKR 里 H 通过，因为截图转 HTML 是个具体可感的任务。K 和 R 都挂掉：博文正文为空，数据集大小、标注方式、基线模型、评测指标、仓库地址全都没给。按硬排除-零来源处理，分数压在 40 以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2024-03-13 · 星期三2024年3月13日

07:00

824d ago

OpenAI 博客· rssEN07:00 · 03·13

OpenAI 与《世界报》和 Prisa Media 达成新闻合作

OpenAI 宣布与法国《世界报》和西班牙 Prisa Media 集团（旗下有 El País、As 等媒体）达成合作。合作后，ChatGPT 用户能读到这两家媒体的新闻摘要并附原文链接，同时这些内容也会用来训练模型。正文没披露授权费用、独家条款和合作期限。Le Monde 自称有 60 万订阅用户、月均 6.32 亿页面浏览；Prisa Media...

#OpenAI#Le Monde#Prisa Media#Partnership

精选理由

HKR-H 和 HKR-R 通过：OpenAI 签下两家主流媒体是强数据授权信号，行业紧张感真实。HKR-K 不通过：当前条目只确认了合作方名字，授权范围、财务条款、上线时间均未披露。

一句话点评

OpenAI 与法国《世界报》和西班牙 Prisa Media 签了内容授权协议，ChatGPT 能引用它们的新闻并给链接，同时拿这些内容训练模型。合作方数据挺亮眼：《世界报》月均 6.32 亿页面浏览，Prisa 月均 16.5 亿。但正文没披露授权费金额、是否独家、以及训练数据的具体使用期限。对从业者来说，这标志着高质量新闻语料正式进入大模型训练供应链，但版权补偿模式仍不透明。

锐评

OpenAI 这次只给出 2 家媒体名字，没给合作条款；我对这条的判断很直接：它主要是在补版权与品牌合法性，不是在释放新的产品能力。标题已经给出合作对象，正文未披露授权范围、财务安排、是否用于训练、是否接入实时检索、上线时间，这些恰好都是最关键的部分。我一直觉得这类“新闻合作”要拆成三层看。第一层是训练数据授权，解决的是历史语料能不能合法吃进去。第二层是产品内分发，解决的是 ChatGPT 搜索、答案卡片、摘要引用能不能稳定拿到内容。第三层才是商业分成，媒体到底拿固定授权费，还是拿流量、订阅、广告分成。现在标题只证明第一层和第二层里至少有一层在推进，第三层完全没信息。没有正文，我不会替 OpenAI 自动脑补成“深度整合”。外部参照其实很清楚。2023 年 OpenAI 已经跟 Axel Springer 签过类似合作，后来又有美联社、FT 这一路线；另一边，纽约时报选择直接起诉。这说明新闻机构现在不是统一倒向“合作”，而是在“收许可费”与“打版权战”之间分化。Le Monde 和 Prisa Media 加进来，比较像 OpenAI 继续把欧洲主流出版商拉进可合作阵营，顺手给自己在欧盟监管语境里多加几层背书。尤其是法国、西语市场这两个点，不只是内容量问题，也是政治与舆论合法性问题。但我对“全球新闻合作”这个说法有点保留。Le Monde 是法国头部媒体，Prisa Media 覆盖西语市场，这很重要；可“全球”更多像地理叙事，不等于内容覆盖已经足够广。英文世界的大型版权对抗还没结束，区域性授权也不等于高质量问答就能稳定提升。新闻内容对通用模型的边际价值，本来就更偏检索和时效，不太像代码语料那样直接抬基础能力。还有一个常被 PR 省掉的问题：媒体签约，不等于媒体一定赚到。出版商过去一年最想要的是三件事——授权费、可归因流量、别被摘要吃掉点击。前两项可以谈，第三项最难。搜索产品一旦把答案压缩得太完整，合作方拿到的钱如果覆盖不了被替代的访问量，关系迟早会紧张。这个坑，Google 跟新闻机构已经踩过很多次，OpenAI 也不会天然免疫。所以我现在的结论很克制：这条先把它看成 OpenAI 在版权风险、欧洲监管、搜索内容供给上的一次补强。至于它会不会变成用户层面的明显产品变化，标题没给，正文也没给。我还没查到合同口径前，不会把它吹成“新闻业与 AI 共赢”的证据。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-03-08 · 星期五2024年3月8日

08:00

829d ago

● P1OpenAI 博客· rssEN08:00 · 03·08

OpenAI 独立调查结束，Sam Altman 和 Greg Brockman 继续掌舵

OpenAI 董事会宣布，由 WilmerHale 律所完成的独立调查已结案，Sam Altman 和 Greg Brockman 将继续领导公司，Altman 也会重回董事会。调查翻了三万多份文件、做了几十次访谈，结论是去年 11 月那场罢免风波，根源在于前董事会和 Altman 之间信任崩了，跟产品安全、研发速度、公司财务都没关系。前董事会当时觉得...

#OpenAI#Sam Altman#Greg Brockman#Personnel

精选理由

这条是 OpenAI 官方口径的人事确认，H 和 R 都拉满：它把董事会危机后最大的不确定性给摁住了，对后续产品节奏和商业信任都有实际影响。K 偏低是因为目前只有一句话公告，审查怎么做的、结论怎么来的、治理机制有没有改，全都没披露，所以信息量其实很薄。

一句话点评

OpenAI 独立调查结束，确认去年那场罢免风波无关产品安全或财务，纯粹是前任董事会和 Altman 之间信任崩了。

锐评

WilmerHale 律所翻了三万多份文件、做了几十次访谈，结论很明确：去年 11 月董事会突然赶走 Altman 和 Brockman，不是因为产品安全、研发速度、公司财务或对外声明出了什么问题，就是双方关系破裂、信任没了。前任董事会当时觉得自己在解决内部管理矛盾，没料到动作会直接把公司搞到差点散架。调查也指出，董事会程序上有问题——决策仓促，没提前通知关键方，也没给 Altman 解释的机会。虽然董事会确实有权开除他，但他的行为并没到非走不可的程度。基于这份报告，特别委员会建议让 Altman 和 Brockman 回来继续带队，董事会全票通过。Altman 本人也重新进入董事会。同时董事会补了三名新成员，分别来自盖茨基金会、索尼和 Instacart，背景偏非营利、法律和商业运营，并新增了匿名举报热线、利益冲突政策等治理措施。这份公告是 OpenAI 自己发的，立场上自然会往“问题已解决、团队更团结”的方向靠。正文没披露 WilmerHale 的完整报告，只给了摘要，所以前任董事会具体因为哪些事对 Altman 失去信任，外界还是不知道。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

08:00

829d ago

FEATUREDOpenAI 博客· rssEN08:00 · 03·08

OpenAI 宣布三位新董事，Sam Altman 回归董事会

OpenAI 在 2024 年 3 月 8 日宣布新增三位董事：前盖茨基金会 CEO Sue Desmond-Hellmann、索尼前法务负责人 Nicole Seligman、Instacart 现任 CEO Fidji Simo。同时 Sam Altman 重新加入董事会。这三位都有大型组织治理和复杂监管经验，但正文没披露他们具体在董事会里负责什么...

#OpenAI#Personnel#Commentary

精选理由

这条有基础关注度，因为是 OpenAI 的治理变动，所以 HKR-H 和 HKR-R 通过。HKR-K 不通过，因为提供的文本只有标题级信息：没有名字、没有人数、没有生效日期，只能算一条有趣的人事更新，不是重点新闻。

一句话点评

OpenAI 把 Sam Altman 请回董事会，同时塞进三位有政府、法律和消费平台背景的新董事，摆明是在补治理和合规的课。

锐评

这次董事会扩容，核心是 OpenAI 在去年管理层地震后，试图用人事安排稳住外界对它的信任。新加入的三位董事：Sue Desmond-Hellmann 是前盖茨基金会 CEO，有公共卫生和非营利治理经验；Nicole Seligman 是索尼前总法律顾问，擅长处理复杂的法律与合规事务；Fidji Simo 是 Instacart 的 CEO，在 Facebook 管过核心产品。这三人的背景分别对应非营利使命、法律监管和消费级产品运营，正好是 OpenAI 目前最需要对外证明自己靠谱的三个方向。 Sam Altman 重回董事会，等于正式宣告去年那场罢免风波翻篇。但公告没提董事会未来的具体决策机制，也没说会不会增加独立董事席位。这些新董事能带来多少实质性制衡，还是主要起象征作用，正文没披露，得看后续的治理章程怎么改。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-03-05 · 星期二2024年3月5日

00:00

832d ago

Hugging Face 博客· rssEN00:00 · 03·05

ConTextual：多模态模型在图文混排场景里到底能不能看懂上下文？

Hugging Face 联合 UCLA 发布了一个新评测集 ConTextual，专门测多模态模型在文字密集的图片里能不能结合上下文理解信息——比如看地图导航、读梗图、操作手机界面。数据集只有 506 条指令，覆盖 8 个真实场景（时间读取、购物、导航等），每条配一张图、一个人工写的指令和参考答案。正文没披露具体指标和基线模型分数，但提到首批测了 1...

#Multimodal#Vision#Benchmarking#Hugging Face

精选理由

Hugging Face 发了个新评测基准 ConTextual，主题是测多模态模型在文字密集的图片里能不能同时看懂字和图。但 RSS 正文是空的，没交代具体怎么测、用什么指标、样本量多少、基线模型是谁。没有榜单也没有翻车案例，行业里吵不起来。所以只适合全量推送，不值得单独标记已知或争议。

一句话点评

Hugging Face 联合 UCLA 发布 ConTextual 评测集，专测多模态模型在图文混排场景（地图、梗图、网页）中联合推理文本与视觉信息的能力。506 道题，覆盖 8 类真实场景，GPT-4V 和 Gemini-Vision-Pro 都上了，但正文没披露具体分数排名。亮点是用了 GPT-4 当裁判打分，跟人工判断一致性最高。规模小（506 题），验证集仅 100 条，刷榜容易。...

锐评

Hugging Face 这次只放出 ConTextual 标题，正文未披露任务设计、指标、样本规模和基线模型。我的判断很直接：题目选得对，信息给得太少，现在还谈不上 benchmark。多模态模型在富文本场景里一直有硬伤，尤其是小字 OCR、跨框引用、图文指代和版面结构推理混在一起时，很多模型会先丢文字，再丢关系。过去一年这类能力常被拆进 TextVQA、DocVQA、ChartQA、MMMU、OCRBench 之类评测里，各测一段，联合推理反而没测透，所以 ConTextual 这个切口我认。但我对这类新榜单一直有个保留：如果没有把“读到字”和“理解关系”拆开计分，分数很容易失真。模型答错，到底是 OCR 没看清，还是 reasoning 断了，结论完全不同。闭源模型还能靠更强 OCR 或更大上下文吃分，最后大家以为是“多模态推理进步”，其实只是感知层补齐。标题里说 text-rich scenes，我第一反应不是通用视觉，而是文档、海报、界面、教材页面这类高密度版面；如果样本主要来自合成数据，榜单价值会打折。我还想看三件事，正文目前都没给。第一，是否控制数据污染，尤其是公开网页截图和教材页，训练集重合很难避开。第二，是否区分单图问答和多步定位，不然 agent 式模型会占便宜。第三，基线里有没有 Claude 3、GPT-4V、Gemini 1.5，以及开源的 Qwen-VL、LLaVA、InternVL 这几类，不然排名没法读。说真的，这条我先记账，等方法页出来再判断它是不是下一个大家会引用的评测。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2024-02-28 · 星期三2024年2月28日

14:58

837d ago

欧盟 AI 法案· rssEN14:58 · 02·28

欧盟AI法案进入实施阶段

这篇来自 artificialintelligenceact.eu 的页面标题说 AI 法案要开始实施了，还提到有时间表和下一步。但点进去正文是空的，只有一堆导航链接。所以目前能确认的就是法案确实在推进实施，但具体哪天生效、谁管、企业要做什么合规动作，全都没披露。如果你在等 deadline 或罚则，这篇帮不上忙。

#Policy#Commentary

精选理由

议题方向有受众共鸣，所以R通过。但正文只有标题级别的政策框架，没有日期、执行细节、合规步骤或处罚信息，所以K不通过，触发硬性排除-零来源规则；排除并打分低于40。

一句话点评

欧盟AI法案2月2日正式生效，首批禁止条款（如社会信用评分、实时人脸识别）已落地。违规企业最高罚全球营收7%或3500万欧元，取高者。但大部分合规要求要到2026-2027年才执行，留给企业缓冲期。目前缺的是具体执行细则和成员国监管机构到位情况，实际执法力度未知。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

2024-02-27 · 星期二2024年2月27日

00:00

839d ago

Hugging Face 博客· rssEN00:00 · 02·27

TTS Arena：让真人投票给语音合成模型打分

Hugging Face 上线了一个叫 TTS Arena 的语音合成模型擂台，思路跟 LMSys 的 Chatbot Arena 一样：你输入一段文字，两个模型分别念出来，你听完投票选哪个更自然。模型名字投票后才揭晓，避免偏见。目前首批模型包括 ElevenLabs（闭源）、MetaVoice、OpenVoice、Pheme、WhisperSpeec...

#Audio#Benchmarking#Hugging Face#Benchmark

精选理由

RSS 只给了标题和元摘要，正文为空。HKR-H 靠“真实场景 TTS 基准”这个钩子勉强通过，但 HKR-K 和 HKR-R 都挂零，因为模型、指标、样本量、排名方法全没披露。按硬性规则，标题+空正文直接归为 hard-exclusion-zero-sourcing，分数压在 40 以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2024-02-23 · 星期五2024年2月23日

00:00

843d ago

Hugging Face 博客· rssEN00:00 · 02·23

Hugging Face 上线红队抵抗排行榜，测模型扛不扛得住人类写的攻击提示

Hugging Face 联合 Haize Labs 发布了一个红队抵抗排行榜，专门测大模型面对人类写的攻击提示（jailbreak）时会不会输出有害内容。跟之前常见的 GCG 那种机器生成的乱码式攻击不同，这个榜单用的是真人写的、读起来通顺的提示，更贴近真实使用场景。榜单按违规类别（暴力、犯罪、不当建议、NSFW 等）分别打分，能看出模型在哪些方面容...

#Safety#Benchmarking#Hugging Face#Benchmark

精选理由

H 通过是因为安全榜单这个切入点比较具体，不是泛泛的模型发布。K 和 R 不通过：正文除了标题和一句话简介外没有任何实质内容——没披露评测对象、指标、样本量、结果，连发布时间都没有，属于低价值预告，不值得作为一条有讨论点的报道。

一句话点评

Haize Labs 搞了个红队抵抗排行榜，用真人写的对抗提示测模型安全边界，比 GCG 那种乱码攻击更贴近真实攻击。目前只测了有限几个数据集，没披露具体模型得分和攻击成功率，榜单说服力还不好说。

锐评

Hugging Face 发布了一个名为“Red-Teaming Resistance Leaderboard”的榜单标题，正文未披露评测对象、指标、样本量和上线形式。只看这点信息，我的判断很直接：方向没问题，执行风险很高。安全榜单一旦把“抵抗红队”做成单一分数，很容易把厂商训练成“挡住这批攻击词”，不是把系统做得更稳。我一直觉得，安全评测最难的不是出题，而是定义“抵抗”两个字。是拒答率更高就算赢，还是在保留有用性的前提下减少危险输出才算赢？标题没说。正文也没给 taxonomy、attack success rate、false refusal、judge model 这些基本要素。没有这些，榜单分数几乎没法复现。你把 system prompt 换一版，把裁判模型从 GPT-4 换成 Claude，名次都可能重排。这类事过去不是没先例。Stanford 的 HELM、Center for AI Safety 推过 HarmBench，后来很多 jailbreak 评测也都卡在同一个坑：攻击集一公开，模型很快就对题库过拟合；攻击集不公开，外部又没法审计。我没查到这次是不是和 Haize Labs 一起做了自适应攻击，如果只是静态 prompt 列表，那信息量会打很大折扣。说实话，我对“leaderboard”这个包装也有点怀疑。能力榜单天然鼓励刷分，安全榜单照样会鼓励刷拒答模板。还有一个经常被忽略的问题：红队抵抗不等于整体安全。很多模型在 jailbreak benchmark 上分数很好，换到多轮对话、工具调用、代码执行、检索增强场景，漏洞还是会冒出来。2024 年大家已经见过太多“单轮文本里很安全，agent 一接工具就漏”的案例。这个标题如果最后只覆盖纯文本聊天模型，那它测到的是一层薄壳，不是系统级安全。所以这条我先给保留意见。榜单有没有用，取决于四件事：攻击是否自适应、评分是否把误拒也算进去、样本是否公开到可复现、更新频率是否足够快。标题已给出“红队抵抗榜单”这个方向，正文没有披露这些关键条件。在这些细节出来前，我更愿意把它当成一个待验证的评测框架，不当成安全现状的排名。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

00:00

843d ago

Hugging Face 博客· rssEN00:00 · 02·23

Hugging Face 手把手教你微调 Gemma：LoRA 配置公开，但没给效果和成本

Hugging Face 发了一篇教程，讲怎么用 Transformers 和 PEFT 库微调 Google DeepMind 的 Gemma 2B 和 7B 模型，支持 GPU 和 Cloud TPU。他们给出了一个 LoRA 配置示例：秩 r=8，作用在 q_proj、k_proj、v_proj、o_proj、gate_proj、up_proj、...

#Fine-tuning#Inference-opt#Tools#Hugging Face

精选理由

硬排除-过时重跑：这是 2024 年 2 月 23 日的 Gemma 微调指南，没有新实验、新发布或后续跟进。HKR-K 通过，因为给出了具体的 PEFT 细节；HKR-H 和 HKR-R 不通过，因为结果、成本和当前相关性均未披露。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

2024-02-21 · 星期三2024年2月21日

00:00

845d ago

FEATUREDHugging Face 博客· rssEN00:00 · 02·21

Google 发布开源大模型 Gemma：2B 和 7B 两个尺寸，消费级显卡就能跑

Google 今天正式发布了 Gemma，一个基于 Gemini 技术的开源大模型系列。一共四个模型：2B 和 7B 两个尺寸，每个尺寸都有基础版和指令微调版。7B 版本在消费级 GPU 和 TPU 上就能跑，2B 版本甚至可以在 CPU 和手机上运行，上下文窗口 8K tokens。正文没有披露训练数据量、许可证细节和具体评测分数，只提了会在 Hug...

#Google#Product update#Open source

精选理由

HKR-H 和 HKR-R 通过，因为 Google 开源模型本身就有新闻价值和行业讨论价值。HKR-K 不通过，正文为空，关键配置全缺，所以定级为 all 而非 featured。

一句话点评

Google 发了两个能跑在消费级显卡甚至手机上的开源模型，7B 和 2B 参数，但训练数据和具体成本没细说。

锐评

Google 这次放出的 Gemma 系列，直接对标的就是 Meta 的 Llama 这类开源模型。它分 7B 和 2B 两个尺寸，7B 能在普通消费级显卡和 TPU 上跑，2B 甚至能塞进手机或笔记本 CPU 里用，部署门槛确实低。两个尺寸都有基础版和指令微调版，上下文窗口都是 8K token。从 Hugging Face 的评测榜分数看，7B 基础模型的表现压过了不少同尺寸的开源选手，这点挺硬。但文章没提训练数据量、具体训练成本，也没给指令微调版在真实任务里的对比数据。另外，它的使用许可里有没有商业限制，正文也没展开，想商用的人得自己去翻条款。一个月后 Google 还更新了 1.1 版指令模型，说修了爱回“Sure”的毛病，代码和事实性也更好，但没给量化指标，只能当一次常规迭代看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-02-19 · 星期一2024年2月19日

00:00

847d ago

Hugging Face 博客· rssEN00:00 · 02·19

Hugging Face PEFT 新增 LoRA 合并方法

Hugging Face 在 PEFT 库中加入了多种 LoRA 适配器合并方法，包括拼接、线性加权、SVD、TIES、DARE 和幅度剪枝。这些方法允许用户在不下载完整模型权重的情况下，直接在内存中合并来自同一基座模型的多个 LoRA 适配器，从而节省显存和磁盘空间。正文没有披露每种方法在具体任务上的性能对比或推荐配置，所以选哪个方法还得自己试。

#Fine-tuning#Tools#Hugging Face#PEFT

精选理由

正文为空：能确认的只有 PEFT 加了合并方法，方法名称、适配器支持、版本范围、指标全没披露。HKR 三项全挂，分数低于 40，归入 excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2024-02-14 · 星期三2024年2月14日

08:00

852d ago

FEATUREDOpenAI 博客· rssEN08:00 · 02·14

OpenAI封了五个国家背景黑客的账号，但说AI帮不了他们太多

OpenAI跟微软合作，封了五个国家背景黑客组织的账号，涉及中国、伊朗、朝鲜和俄罗斯。这些团伙主要拿ChatGPT干翻译、查资料、写代码、找漏洞这些基础活，没搞出什么高级攻击。OpenAI自己承认，GPT-4在恶意网络任务上能帮的忙很有限，不比公开的免费工具强多少。正文没披露具体封了多少账号、怎么发现的，也没说这些团伙到底造成了多大破坏。

#Safety#OpenAI#Safety/alignment#Incident

精选理由

HKR-H和HKR-R成立：国家背景攻击者滥用AI是强钩子，且能引发平台治理风险的共鸣。HKR-K不成立：这篇帖子只确认了处置动作，但缺少攻击者名称、样本、封禁数量和检测机制等关键细节，所以归入all而非featured。

一句话点评

OpenAI 封了一批国家背景黑客的号，但结论是自家模型对恶意网络任务的帮助“有限且增量”，别被标题唬住。

锐评

OpenAI 和微软联手，端掉了五个国家背景的黑客组织的账号，分别来自中国、伊朗、朝鲜和俄罗斯。这些组织用 ChatGPT 干的事主要是查公开资料、翻译、找代码 bug 和写基础脚本，比如生成钓鱼邮件内容或研究怎么让恶意软件躲过检测。OpenAI 自己说，根据之前的红队测试，GPT-4 在这些恶意网络任务上能提供的额外能力很有限，没比网上已有的非 AI 工具强多少。这个判断挺实在，没吹牛也没甩锅。但文章没给出具体封了多少个账号、阻止了多少次攻击，也没说这些攻击到底成没成功。所以“有限”这个结论，目前只能基于他们自己的测试和这次发现的用法。我会先打个折：这更像是一次公开表态，告诉大家他们有在盯、有在管，但实际威胁有多大，正文没给量化数据。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-02-13 · 星期二2024年2月13日

00:00

853d ago

FEATUREDOpenAI 博客· rssEN00:00 · 02·13

ChatGPT 加上了记忆功能，能跨对话记住你的偏好，你也可以随时关掉或让它忘掉

OpenAI 给 ChatGPT 加了一个记忆功能，不再每次对话都像第一次见面。它会记住你主动告诉它的事，也会自己从聊天里抓取细节，比如你喜欢的会议纪要格式、你开的咖啡店、你家小孩喜欢水母。这些记忆会跨对话保留，用越多越懂你。控制权在你手里：可以在设置里关掉整个记忆，也可以直接对话让它忘掉某件事，或者用临时对话模式完全不记。正文提到免费和付费用户都在小...

#Memory#Tools#OpenAI#ChatGPT

精选理由

OpenAI 官方发了个标题，说 ChatGPT 要有记忆和新控制项，但正文是空的。我会先打个折：记忆能让 ChatGPT 记住你的偏好和上下文，用久了会更顺手，这点挺抓人。可真正该盯的是控制机制——用户能不能随时关掉、能不能按会话或按话题设权限，这些全没披露。没有这些信息，标题里的“新控制项”还只是一句口号，产品影响暂时没法判断。

一句话点评

ChatGPT 能记住你之前聊过的事了，不用每次都重复说一遍。但别太激动，它记的东西可能不准，而且你的聊天记录会被用来训练模型，除非你手动关掉。

锐评

OpenAI 给 ChatGPT 加了个记忆功能，简单说就是它能跨对话记住你的偏好和背景信息，比如你喜欢的会议纪要格式、你的职业、甚至你家小孩喜欢水母。这能省掉很多重复解释的麻烦。但这里有几个点得打折看。第一，记忆分两种：你明确让它记的“已保存记忆”，和它自己从聊天记录里扒出来的“聊天历史”。后者听起来智能，但正文没给出它判断相关性的准确率，很可能会自作聪明记错。第二，隐私和训练数据的问题。OpenAI 明确说，你提供的内容包括记忆，默认会被用来改进模型。如果你不想被当成训练素材，得自己去数据控制里关掉。Team 和 Enterprise 用户的数据不会被训练，这点对商业用户是颗定心丸。第三，控制权在你手里，可以随时关掉记忆、删掉特定记忆，或者用临时聊天模式。但删除对话记录并不会自动清除相关记忆，你得专门去记忆管理里删，这个逻辑有点绕，容易让人误以为自己已经删干净了。整体看，功能方向是对的，让对话更连贯，但信息准确度和隐私边界还需要更多实测验证。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-02-08 · 星期四2024年2月8日

00:00

858d ago

Hugging Face 博客· rssEN00:00 · 02·08

Hugging Face 推出 Messages API，让你用 OpenAI 的客户端直接调用开源大模型

Hugging Face 在 TGI 1.4.0 版本里加了一个 Messages API，兼容 OpenAI 的 Chat Completion API。简单说，你原来用 OpenAI 的 Python 或 JavaScript 客户端写的代码，现在改个地址就能调用 Hugging Face 上的开源模型，比如 Mixtral 8x7B。迁移成本很低...

#Tools#Hugging Face#OpenAI#Product update

精选理由

HKR-H 和 HKR-R 都扣在 OpenAI 兼容迁移这个钩子上，但 HKR-K 不成立，因为模型覆盖范围、定价、延迟、API 限制全部未披露。这本质上是一篇厂商 API 推广稿，按硬排除规则「云厂商推广」封顶 40 分，所以重要性 35 合理。正文没披露任何实测数据或迁移成本对比，建议等具体模型列表和价格出来再重新评估。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-01-31 · 星期三2024年1月31日

08:00

866d ago

OpenAI 博客· rssEN08:00 · 01·31

OpenAI 发了一篇生物威胁预警系统的论文，但正文是空的

OpenAI 发了一篇博客，标题是《为 LLM 辅助的生物威胁制造建立早期预警系统》，但正文只有导航栏和一张图，没有任何机制、指标或部署条件。唯一能读到的信息来自摘要：他们找了 50 个生物学博士和 50 个学生，让一半人只用互联网、另一半人额外用 GPT-4，然后完成生物威胁制造的五个环节任务。结果 GPT-4 组在准确率和完整性上只有微弱提升（专家...

#Safety#OpenAI#Safety/alignment#Commentary

精选理由

标题有钩子，但正文为零。H 和 R 靠生物威胁+预警系统的组合能过，K 因为零信息源直接挂掉。结论维持 excluded，等后续披露可复现的阈值和误报数据再考虑升级。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-01-30 · 星期二2024年1月30日

00:00

867d ago

Hugging Face 博客· rssEN00:00 · 01·30

英特尔在至强CPU上把StarCoder推理加速7倍：Q8/Q4量化+投机解码

Hugging Face和英特尔发了一篇博客，讲怎么在第四代至强CPU上把StarCoder-15B这个代码生成模型跑得更快。核心手段是两个：一是量化，把模型精度压到8位或4位（INT8/INT4），减少计算量；二是assisted generation（投机解码），让一个小模型先快速生成候选token，大模型再验证，减少串行推理步数。最终号称推理速度...

#Code#Inference-opt#Hugging Face#Intel

精选理由

打分 34 且排除。HKR 三项全不满足：帖子确认了 Xeon + Q8/Q4 + 投机解码，但没给任何基准、延迟、CPU 代际、StarCoder 版本或复现配置，读起来像面向特定厂商的优化，对多数人价值有限。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2024-01-29 · 星期一2024年1月29日

00:00

868d ago

Hugging Face 博客· rssEN00:00 · 01·29

幻觉排行榜：开源模型谁最爱编瞎话，Hugging Face 给排了个名

Hugging Face 联合多位研究者推出了一个公开的“幻觉排行榜”，专门测大模型有没有胡编乱造。他们把幻觉分成两类：一类是事实性幻觉，比如把登月第一人说成是林德伯格；另一类是忠实性幻觉，比如总结新闻时把日期从 2023 年 10 月改成 2006 年。排行榜覆盖了问答、指令跟随、摘要、阅读理解、幻觉检测几个维度，用的是上下文学习（in-contex...

#Benchmarking#Safety#Benchmark#Open source

精选理由

HKR-H 和 HKR-R 通过：公开的幻觉排行榜确实能吸引眼球，可靠性也是真问题。HKR-K 不通过，因为正文为空——没有方法、数据集大小、模型覆盖或发布细节，所以只能放在 low-tier all。

一句话点评

Hugging Face 搞了个幻觉排行榜，用问答、摘要等任务测模型编造事实的程度。目前看，小模型不一定更爱瞎说，但排行榜只测英文，且依赖自动评估，不能完全替代人工检查。

锐评

Hugging Face 这次只公布了一个“幻觉排行榜”方向，正文未披露评测方法、样本规模、覆盖模型和发布时间；在这些空白补上前，这条消息的信息量其实很有限。我先把立场摆明：我支持有人去系统测幻觉，但我对“排行榜”这个包装天然有戒心。幻觉不是 MMLU 那种单轴分数，先问的是定义，再问的是数据，最后才轮到排名。一个模型在闭卷事实问答里答错，和它在缺上下文时硬编引用，和它在工具调用失败后编造执行结果，这三类问题根本不是一回事。标题只说 measure hallucinations，没说测哪一种，也没说是 binary judgment、pairwise preference，还是基于 citation verification。定义没立住，榜单就会把不同失误揉成一个分数，读者看到名次，团队却不知道该怎么改模型。这件事我为什么比较敏感，因为过去一年行业已经吃过几次“指标先行、定义落后”的亏。TruthfulQA 很早就被拿来当“抗幻觉”代表，但它更像是特定问答分布下的 truthfulness 测试，不足以覆盖长文总结、RAG、agent 行为。HaluEval 也常被引用，我记得它主要依赖 ChatGPT 生成和标注一部分数据，这类基准的好处是快，问题是模型会学会 benchmark style，而不一定学会少胡编。再往后看，很多厂商开始拿 RAGAS、faithfulness、groundedness 这类指标评估检索问答；这些指标至少把“有没有依据上下文说话”单独拎出来，比一个总榜更接近真实部署场景。回到 Hugging Face 这条，如果它最后只是做一个跨模型总排名，我会觉得方向有点旧；如果它把 hallucination 拆成封闭问答、上下文忠实度、引用一致性、工具执行真实性几条子榜，这件事才站得住。我还有一个疑虑：开放参与听起来很好，但开放榜单最容易被 prompt engineering 污染。模型厂商只要知道评测模板，就会专门优化 refusal pattern、答案长度、引用格式，最后得到的是“会考模型”，不是“稳模型”。这在 Open LLM Leaderboard 上已经见过很多次了：大家先追公开基准分，分数上去，真实使用里的稳定性和成本却不一定同步改善。幻觉评测更脆，因为它高度依赖评判器。若用 GPT-4 一类模型当 judge，要交代 judge prompt、温度、复核机制；若用人工标注，要交代一致性和成本；若混合使用，也要给出 conflict resolution。标题没给这些，我只能先把它当一个倡议，不把它当结果。说真的，我反而更想看它怎么处理“回答或拒答”的权衡。很多模型压幻觉的方法很直接：提高拒答率。你问一个边界模糊的问题，它不编了，但开始频繁说“我不确定”。从安全角度看这有价值，从产品角度看未必。Anthropic、OpenAI、Google 这两年都在 system prompt 和 policy 上做过类似调节，结果常常是 hallucination 降了，helpfulness 也一起掉。一个像样的榜单不能只奖励“少说错话”，还得同时约束“别把该答的也全拒了”。标题没有提 calibration、coverage 或 abstention cost，我自己会把这当成最大的信息缺口之一。还有个上下文不能忽略：Hugging Face 的角色决定了它做这件事既有优势，也有局限。优势是社区分发能力强，能把评测模板、数据集、复现脚本做成公开基础设施；局限是社区榜单天然会被“谁更容易接入、谁更愿意提交”影响，闭源前沿模型的覆盖可能长期不完整。一个 hallucination leaderboard 如果主要覆盖开源模型，它对研究很有用；如果外界拿它当“全行业最可靠模型排行”，那就会失真。标题现在没说纳入标准、提交机制、是否允许私有评测，我没法替它补完这层叙事。所以我现在的判断很简单：方向对，包装危险，成败全看方法公开到什么程度。要让我认真参考，至少得看到四样东西：一，幻觉类型拆分，不要单分；二，数据来源和规模，尤其是否含多轮、RAG、长上下文；三，评判协议，含 judge 和人工复核；四，拒答率与有用性一起报。没有这些，榜单只会把一个本来就定义混乱的问题，再做成一张更好传播的图。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2024-01-19 · 星期五2024年1月19日

00:00

878d ago

Hugging Face 博客· rssEN00:00 · 01·19

用 Hugging Face 微调 W2V2-Bert 做低资源语音识别

Hugging Face 发了一篇博客，讲怎么用 Transformers 微调 W2V2-Bert 做低资源语音识别（ASR）。W2V2-Bert 是 Meta 去年发布的，参数量 5.8 亿，预训练用了 450 万小时、143 种语言的未标注音频——比之前的 XLS-R（50 万小时、128 种语言）和 MMS（50 万小时、1400 种语言）数据...

#Audio#Fine-tuning#Hugging Face#Commentary

精选理由

只有标题确认了模型名 W2V2-Bert 和“低资源”方向，正文完全空白，没给数据集、训练步骤、评测指标或硬件配置。标题看起来像常规教程，但信息缺口太大，不能当可复现实验看。HKR 三项全不满足，按规则归为 excluded，重要性保持 34。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2024-01-18 · 星期四2024年1月18日

00:00

879d ago

Hugging Face 博客· rssEN00:00 · 01·18

Hugging Face 实测三种偏好调优方法：DPO、IPO、KTO 谁更稳？

Hugging Face 发了一篇博客，对比了三种不用强化学习也能对齐模型偏好的方法：DPO、IPO 和 KTO。简单说，它们都是拿“好回答 vs 差回答”的配对数据直接训练模型，省去了 RLHF 里那个又贵又不稳定的奖励模型。实验用了两个已经做过监督微调但没做过偏好对齐的 7B 模型（Zephyr-7b-beta-SFT 和 OpenHermes-7...

#Fine-tuning#Alignment#Hugging Face#Commentary

精选理由

正文只有标题，连摘要都是空的。HKR 三项全挂：没有具体结果（h），没有数据和基线（k），没有成本或替代 RLHF 的讨论点（r）。这更像一篇技术方法介绍，对从业者来说信息量约等于零，所以归为 excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2024-01-15 · 星期一2024年1月15日

08:00

882d ago

OpenAI 博客· rssEN08:00 · 01·15

OpenAI 公布 2024 大选应对方案：防滥用、标来源、引官方投票信息

OpenAI 发了一篇 2024 年全球大选应对方案，但正文大部分是更新日志，没有一次性讲清楚规则、检测流程和执行门槛。核心动作有三块：一是防滥用，比如拒绝生成政治人物图像（选前一个月拒了超 25 万次 DALL·E 请求），并打击隐蔽影响力操作；二是给 AI 内容打标签，加入了 C2PA 溯源标准；三是引导用户去官方投票网站（美国导到 CanIVot...

#Safety#Alignment#OpenAI#Policy

精选理由

HKR-R 成立，因为选举诚信治理确实是行业敏感神经。HKR-H/K 不成立：RSS 正文为空，只确认了主题，没有给出政策机制、产品范围、执法阈值或时间表，因此归入 all 层级。

一句话点评

OpenAI 在2024全球大选前发布安全措施：ChatGPT 拒绝生成政治人物图像，超25万次请求被拦截；引导用户至官方投票网站 CanIVote.org，约100万次回复；选举日当天约200万次回复建议查美联社或路透社。正文未披露这些拦截的误报率或对模型其他能力的影响。短评：防滥用动作扎实，但效果评估缺第三方验证。

锐评

OpenAI 这篇文章只挂出了“2024 年全球选举”主题，正文却没有披露政策文本、产品范围、执法阈值和上线时间。我的判断很直接：这不是一条能让从业者据此更新风险模型的安全公告，更像一条先表态、后补细则的公司声明。问题不在标题，问题在缺口。选举相关治理至少要回答四件事：哪些内容直接禁止，哪些内容允许但要加上下文，检测是走模型内拦截还是后置审核，误杀和漏放由谁兜底。这里一项都没展开。没有这些，你没法判断 ChatGPT、API、图像生成、语音生成是不是同一套规则，也没法判断 OpenAI 是按国家法律分区执行，还是给全球统一口径。我对这种“先讲方向”的写法一直有点警觉。2024 年初各家平台都在抢先占位 election integrity 叙事：Meta 当时还在推进 AI 生成政治广告披露规则，Google 也在 YouTube 和 ads policy 上补合成内容标签，Anthropic 后来在高风险场景里也反复强调 usage policy，但真正决定效果的从来不是原则清单，而是阈值和执行频率。比如“阻止生成误导性投票信息”这句话谁都会写，难的是边界：候选人讽刺内容算不算，二创视频算不算，地方语言和方言怎么判，人工复核 SLA 是几小时还是几天。标题没回答，摘要也没回答。还有个现实问题，OpenAI 当时的主要分发面已经不只是自家 ChatGPT。API 接入、第三方应用封装、再加上后来一整波 agent 产品，都会把同一条政策拉成多层执行链。公司自己写了规则，不等于生态里每一层都按同样标准落地。我还没查到这篇原文是否覆盖了开发者责任分配；如果没有，这条信息就缺得很关键。所以这条我不会高估。它能说明 OpenAI 知道 2024 是高压年，也知道“选举”是必须单列的风险域；它不能说明 OpenAI 已经拿出了一套可审计、可复现、跨产品一致的治理机制。对 AI 从业者来说，后续如果没有具体 policy language、appeals 流程、误报数据和区域化执行口径，这篇东西基本只提供姿态，不提供操作性。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

2024-01-10 · 星期三2024年1月10日

08:00

887d ago

FEATUREDOpenAI 博客· rssEN08:00 · 01·10

OpenAI 推出 ChatGPT Team，面向团队的自助套餐

OpenAI 今天上线了 ChatGPT Team，一个面向团队的自助订阅方案，介于个人版和企业版之间。每月 25 美元（年付）或 30 美元（月付），每人。包含 GPT-4（32K 上下文）、DALL·E 3、高级数据分析等工具，以及一个团队专属工作区和管理后台。OpenAI 承诺不会用你的业务数据训练模型。注意：这个套餐没有披露最低席位要求，也没有...

#OpenAI#Product update

精选理由

这是OpenAI正式推出的团队级产品，所以HKR-R在采购和治理层面有参考价值。HKR-H和HKR-K不通过，因为正文只确认了产品名和团队定位，价格、最低席位、模型权限和管理细节都没披露。

一句话点评

OpenAI 给中小团队开了个自助套餐，每人每月 25 刀就能用 GPT-4 和 DALL·E 3，还承诺不拿你的数据训练模型。

锐评

这条消息的核心是 OpenAI 在 ChatGPT Enterprise 之后，补上了一块面向中小团队的自助拼图。ChatGPT Team（现在改名叫 ChatGPT Business）定价每人每月 25 美元年付，或者 30 美元月付，给团队开了一个共享工作区，能用 GPT-4、DALL·E 3 和高级数据分析，还能自己捏定制版 GPT 并只在团队内发布。比较实在的一点是，OpenAI 明确说不会用你的业务数据和对话来训练模型，这对在意数据隐私的团队是个定心丸。文章引了哈佛商学院的一个研究，说波士顿咨询的人用 GPT-4 后完成任务快 25%，工作质量高 40%。这个数字可以参考，但别直接当成自己团队的预期收益——咨询公司的任务类型和普通中小团队不一定一样，而且研究是 2023 年的，模型和产品形态已经变了不少。Sourcegraph 和波士顿儿童医院的案例也只是定性背书，没有给出具体怎么用、省了多少成本。还缺什么？正文没提 32K 上下文在实际业务里够不够用，也没说消息上限具体是多少。对于想拿它跑长文档分析或高频调用的团队，这两点会直接影响体验。另外，和 Enterprise 版在安全管控、SAML SSO 这些企业级功能上的差距也没展开，选型时得自己去翻详细对比页。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

08:00

887d ago

OpenAI 博客· rssEN08:00 · 01·10

OpenAI 正式上线 GPT 商店，已有超 300 万个自定义 ChatGPT

OpenAI 今天开始向 ChatGPT Plus、Team 和 Enterprise 用户逐步开放 GPT 商店，距离首次公布 GPTs 功能刚过去两个月。目前社区已经创建了超过 300 万个自定义版本的 ChatGPT，这个数字说明用户对定制化聊天机器人的需求很大。商店里按 DALL·E、写作、编程、教育等分类展示热门 GPT，每周还会推荐精选应用...

#OpenAI#Product update

精选理由

标题确认 OpenAI 要搞 GPT 商店，所以 HKR-H 落在商店/分发这个钩子上，HKR-R 落在开发者赚钱焦虑上。HKR-K 不成立，因为正文只披露了名字；上架规则、分成比例、开放范围全都没说，所以这条只能给 all。

一句话点评

OpenAI 正式上线 GPT Store，用户已创建超 300 万个自定义 GPT。商店按类别展示热门 GPT，每周推荐精选，并计划 Q1 推出创作者收入计划（按用户参与度付费）。目前仅对 Plus、Team 和 Enterprise 用户开放，企业版后续支持。审核引入人工+自动机制。短评：GPT 生态从工具走向平台，但收入计划细节未披露，分成比例和参与度标准未知。

锐评

OpenAI 这次只公布了 GPT Store 这个名字，正文为 0，发布时间、上架规则、分成比例都没披露。我的判断是，这一步先抢的是分发叙事，不是平台完成度。我一直觉得，AI 应用层到 2024 年初最缺的不是“再来一个商店”这三个字，而是可持续分发。ChatGPT 在 2023 年底周活已经是亿级量级，我没在这篇条目里看到具体数字，但入口价值本来就摆在那里。谁把自定义 agent、工作流、提示词模板塞进默认入口，谁就先拿到发现机制。标题本身已经说明 OpenAI 想把“自定义 GPT”从创作工具，往双边市场推进一步。但我对这条叙事有保留。商店模式在移动互联网里成立，前提是审核、排序、支付、反作弊四件事一起到位。这里 4 项都没给。没有上架规则，开发者不知道什么能卖；没有分成机制，创作者没法算 ROI；没有排名逻辑，商店大概率先被头部品牌和 SEO 式包装占满；没有安全边界，低质套壳和提示词搬运会很快出现。标题给了一个很大的词，正文没有给最关键的可复现条件。外部参照其实不少。OpenAI 在 2023 年 11 月 DevDay 先推了 GPTs，当时就已经把 Builder 和分享页铺好，所以 GPT Store 更像第二段，不是突然起意。再往前看，苹果 App Store 和微软 Office 插件市场都证明过，入口分发可以养出生态，也会把审核权和抽成权集中到平台手里。AI 这边的问题更棘手，因为“应用”很多时候只是一层 prompt 包装，差异比移动 App 更薄。我还没看到 OpenAI 准备用什么机制区分一个真有工具调用和私有知识库的 GPT，和一个换皮 prompt 集合。还有一层是战略位置。OpenAI 如果把 GPT Store 做成 ChatGPT 内的默认分发层，它抢的就不只是开发者时间，也是在卡 Anthropic、Google、Character.AI 这类对手的应用入口。问题在于，平台要成立，至少要有结算、搜索、推荐、风控这几套系统联动。现在只有标题，我不会把它当成完成发布，更像一次先把旗插上。这个说法我还是买一半：名字有了，市场会自己补完想象；但在分发规则出来前，它离“App Store for AI”还差最硬的那部分。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

887d ago

Hugging Face 博客· rssEN00:00 · 01·10

Unsloth 联手 Hugging Face TRL，微调速度翻倍

Unsloth 是一个轻量库，通过重写模型底层计算（把 PyTorch 模块换成 Triton 内核）来加速大模型微调，官方称最高能快 2.7 倍、省 74% 显存，且精度不掉。它兼容 Hugging Face 全家桶（transformers、PEFT、TRL），支持 Llama 和 Mistral 架构，从 GTX 1070 到 H100 都能跑。...

#Fine-tuning#Tools#Hugging Face#Unsloth

精选理由

标题说 Unsloth 和 TRL 能把微调速度翻倍，但正文一个字都没有，硬件、模型、数据、显存、复现步骤全没披露。H 靠‘2倍提速’这个明确承诺能吸引训练方向的人，K 因为信息缺口太大直接挂掉——没有可复现条件，这个速度数字就是空话。R 也弱，因为没提成本或质量折损，没法引发有效讨论。整体就是个低价值的‘all’级内容，不值得推荐。

一句话点评

Unsloth 把微调速度翻倍，显存省 40%，精度不掉。实测 Llama-2 7B 在 T4 上快 1.95 倍、显存降 43%。原理是手动重写反向传播和 Triton 内核，没做近似。目前只支持 Llama 和 Mistral 架构，其他模型得等。正文没披露训练步数或收敛曲线，加速比可能因任务波动。

锐评

Hugging Face 这篇博客只给出了“Unsloth + TRL 微调提速 2 倍”这个结论，训练硬件、基准模型、数据集、batch size、序列长度、显存占用都没披露。我的判断很直接：这条现在还不能当性能结论看，只能当渠道分发。标题先把“2x”打出去，目的是把 Unsloth 从社区技巧抬到 Hugging Face 官方工作流的一部分。说真的，微调提速这种话题我一直很警觉，因为它太容易被口径操作。把 LoRA 和全参训练混着讲，2 倍很常见；把 packing、Flash Attention、bf16、梯度检查点、paged optimizer 一起开掉，再和一个没调好的 baseline 比，2 倍也不稀奇。问题不在于 2 倍有没有可能，问题在于这 2 倍是从哪一层省出来的：是 Triton kernel 重写了前向反向，是减少了 VRAM 碎片，是更激进的 checkpoint 策略，还是单纯换了默认超参。正文没给，所以现在没法判断这是不是“同等质量下更快”，还是“损一点稳定性换吞吐”。文章外的上下文其实很清楚。2023 年那波开源微调栈，QLoRA 先把“单卡可训”打出来，Axolotl、LLaMA-Factory、FastChat、TRL 再把配方工程化；到 2024 年，竞争点已经不是“能不能训”，而是“同一张 24GB 或 48GB 卡，谁能塞更长上下文、谁更稳、谁更省时间”。Unsloth 当时能冒出来，靠的就是把这件事做成几乎即插即用。我没去逐条核过它最早那版 benchmark，但我记得社区里不少对比都是拿 Mistral 7B 或 Llama 2 7B 做 LoRA/QLoRA，速度提升通常伴随更低显存占用一起宣传。这里我想要的不是一句“更快”，而是至少一张表：A100 40GB 还是 T4？7B 还是 70B？SFT 还是 DPO？tokens/s 提了多少，step time 降了多少，eval loss 有没有偏移。我对这条叙事还有个 pushback：Hugging Face 把 Unsloth 接进 TRL，价值未必先体现在绝对性能，反而更像生态防守。原因很简单，训练框架一旦脱离官方接口，用户就会往自带 launcher、自带 recipes、自带 hub integration 的整包工具流失。TRL 过去更强的是对齐训练流程，像 SFTTrainer、DPOTrainer 这些抽象；它不是大家默认认知里的“最快训练器”。这次把 Unsloth 放进来，本质上是在说：你不用离开 Hugging Face 体系，也能拿到社区里那批更激进的 kernel 优化。这个动作比“2 倍”本身更有信息量。但我还是要泼点冷水。只要没有复现条件，这个标题就不该直接进入团队路线图。Nvidia 每代卡都爱讲数倍提升，最后落到真实训练流水线，经常被 dataloader、padding、checkpoint I/O、eval 频率吃掉一半；开源训练工具也一样。你在单卡、短序列、纯 SFT 上看到 2 倍，放到多卡、长序列、混合对齐流程里，结果经常不是同一个故事。标题已经给出“2x faster”，正文没披露最关键的控制变量，这就是目前最大的信息缺口。如果你真在做训练栈，我会先等三个东西：第一，官方 benchmark 表；第二，显存曲线和可训练最大序列长度；第三，至少一套可复现脚本。没这三样，这条只能算生态整合新闻，不算性能新闻。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2023-12-20 · 星期三2023年12月20日

00:00

908d ago

Hugging Face 博客· rssEN00:00 · 12·20

投机解码让 Whisper 语音识别快一倍，输出完全不变

Hugging Face 发了一篇博客，讲怎么用投机解码（Speculative Decoding）把 OpenAI Whisper 的推理速度提到 2 倍，而且保证输出和原模型一模一样。原理很简单：先让一个小模型快速生成一串候选 token，再让大模型一次前向传播去验证，遇到不一致的就从第一个错的地方截断、替换。这样不用改现有管线，直接替换就能白捡一...

#Inference-opt#Audio#Commentary

精选理由

标题的“2倍加速”是个具体性能钩子，但正文完全空白，机制、硬件、模型版本、评估设置全无，属于硬排除条件6——只有标题信息，没有可复现细节。语音团队确实关心延迟和成本，但这点先别太激动，等补全测试条件再说。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-12-13 · 星期三2023年12月13日

08:00

915d ago

OpenAI 博客· rssEN08:00 · 12·13

OpenAI 与 Axel Springer 达成全球合作，ChatGPT 将能摘要付费新闻内容

OpenAI 与德国媒体集团 Axel Springer 宣布全球合作，这是第一家与 OpenAI 深度整合的出版集团。合作后，ChatGPT 用户可以直接获取 POLITICO、BUSINESS INSIDER、BILD、WELT 等媒体的新闻摘要，包括原本付费的内容，并附上原文链接。此外，Axel Springer 的优质内容也会用于训练 Open...

#OpenAI#Axel Springer#Partnership#Commentary

精选理由

OpenAI 和 Axel Springer 的合作在行业层面值得关注，因为内容授权和分发边界是AI公司与媒体集团的核心争议点，所以R通过。但K不通过：正文只给了合作标题，产品落地形态、资金条款、时间表、付费内容具体怎么开放都没披露，信息缺口大，只能算低带宽信号。

一句话点评

OpenAI 与 Axel Springer 达成全球合作，ChatGPT 将摘要 Politico、Business Insider 等媒体的付费内容并附链接，同时用这些新闻数据训练模型。这是 OpenAI 首个大型出版商合作，但正文没披露授权费金额和分成比例。对从业者来说，信号是：高质量新闻源正式成为模型训练和实时回答的付费原料，内容授权模式开始跑通。但别急着跟风——合作细节不透明，其他...

锐评

OpenAI 与 Axel Springer 宣布合作，但 RSS 正文为空，范围、金额、产品形态、授权边界都没给。我的判断很直接：这条先别按“AI 改造新闻业”来读，先按出版商和模型公司重新分配流量与版权来读。标题里的 beneficial use 很像公关层的共同语汇，信息量最低；合同里写不写训练权、实时抓取权、摘要展示权、跳转回流义务，这些才决定合作含金量。我一直觉得这类合作的核心不在 newsroom workflow，而在内容供给和法律降噪。2023 年下半年到 2024 年，新闻出版商对生成式 AI 的态度已经分成两路：一路谈授权换收入，一路直接起诉。我没在这条里看到任何条款，所以没法判断 OpenAI 拿到的是训练数据、检索展示、还是两者都拿。拿训练权和拿展示权，价格模型完全不同，风险也完全不同。标题没说，正文也没给，这个缺口很大。外部参照其实已经有了。OpenAI 后面和多家出版商都谈过类似合作，行业里也出现过按内容库授权、按展示分成、按品牌露出置换流量的几种做法；我记得 Axel Springer 自己也一直在推付费墙和数字订阅，所以它不会轻易把高价值内容无条件喂给模型。说真的，我对“beneficial”这个叙事有点保留：如果聊天界面直接吃掉搜索点击，出版商短期拿到授权费，长期丢掉用户入口，这笔账未必划算。现在只有标题，我还不能下更重的结论，但这条至少说明一件事：OpenAI 当时已经不想只靠“公开网页可抓取”那套灰色地带往前跑了，它开始用合同把高质量新闻内容锁进来。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

2023-12-05 · 星期二2023年12月5日

00:00

923d ago

Hugging Face 博客· rssEN00:00 · 12·05

Hugging Face 把 LoRA 推理提速 300%，但正文没写怎么做到的

Hugging Face 发了一篇博客，标题说他们把 LoRA 推理速度提升了 300%，主要解决冷启动问题。冷启动指的是每次换一个 LoRA 适配器（一种轻量微调模块，像给模型加个外挂滤镜）都要重新加载模型，耗时 25 秒。改进后，预热时间从 25 秒降到 3 秒，用户等待时间从 35 秒降到 13 秒，而且只用不到 5 张 A10G GPU 就能服...

#Inference-opt#Fine-tuning#Tools#Hugging Face

精选理由

H 和 R 靠冷启动延迟这个痛点过关，但 K 彻底失败——正文一个字都没有，基线、硬件、适配器数量、加载方法全缺。按硬排除零来源规则，这条故事只能留在 excluded 且分数不超过 40。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-11-29 · 星期三2023年11月29日

08:00

929d ago

● P1OpenAI 博客· rssEN08:00 · 11·29

Sam Altman 回任 OpenAI CEO，新初始董事会只有三个人

OpenAI 官方确认 Sam Altman 重新担任 CEO，Mira Murati 回到 CTO 岗位，Greg Brockman 也回来当总裁。新成立的初始董事会只有三个人：Bret Taylor（主席）、Larry Summers 和 Adam D'Angelo。Ilya Sutskever 不再留在董事会，但 Sam 说还在聊怎么让他继续在 ...

#Sam Altman#OpenAI#Personnel#Policy

精选理由

这是一条 95–100 分段的治理事件：Sam Altman 回归 CEO，OpenAI 重置初始董事会。HKR 三项全中，靠的是反转力度和行业冲击，但正文没披露董事会成员和生效时间，所以扣一点分，没给满分。

一句话点评

Sam Altman 回任 OpenAI CEO，新董事会只有三人，微软拿到无投票权观察员席位。这是官方公告，不是第三方报道，措辞经过精心处理。

锐评

OpenAI 用一篇官方博文确认了 Sam Altman 回归 CEO，Mira Murati 回任 CTO，Greg Brockman 也回来了。新初始董事会只有三个人：Bret Taylor 当主席，Larry Summers 和 Adam D'Angelo 留任。Ilya Sutskever 离开董事会，但 Sam 说还在谈怎么让他继续在 OpenAI 工作，语气很克制，没有透露任何分歧细节。这篇公告本质是内部信公开，两封信都在安抚员工和合作伙伴。Sam 特别强调“没丢一个员工、没丢一个客户”，这是在回应外界对 OpenAI 稳定性的质疑。微软拿到了无投票权的董事会观察员席位，说明双方关系从之前的模糊状态走向了更明确的绑定，但微软依然没有投票权，治理结构上 OpenAI 还是保持独立。正文没披露独立调查的具体范围和时间表，只说 Bret、Larry 和 Adam 会负责这件事。另外，新董事会只有三人，后续要扩充到多少人、什么背景，都还是空白。如果你关心这家公司到底怎么从差点散架到全员归位，这篇公告只给了结果，没给过程。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

2023-11-17 · 星期五2023年11月17日

08:00

941d ago

OpenAI 博客· rssEN08:00 · 11·17

OpenAI 宣布领导层变动：Sam Altman 离职，CTO Mira Murati 接任临时 CEO

OpenAI 董事会宣布 Sam Altman 即日起卸任 CEO 并离开董事会，原因是董事会认为他在沟通中不够坦诚，已无法信任他继续领导公司。CTO Mira Murati 被任命为临时 CEO，立即生效。董事会称她已在公司五年，熟悉研究、产品、安全及治理，能平稳过渡。同时，董事长 Greg Brockman 卸任主席，但留任并向新 CEO 汇报。董...

#OpenAI#Personnel#Commentary

精选理由

标题是 OpenAI 官方发的“leadership transition”，光这一句就够当钩子，但正文为空，没披露任何名字、时间或汇报线。H 和 R 都成立，K 因为信息缺口直接挂零。加上这是 2023 年的旧闻，没有新角度，按硬性排除规则（过时重复）处理，重要性上限卡在 40 以下。后续真正该盯的是正式公告里的汇报关系和产品归属。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-11-09 · 星期四2023年11月9日

00:00

949d ago

Hugging Face 博客· rssEN00:00 · 11·09

SDXL 4 步出图：Latent Consistency LoRA 把生成速度从 7 秒压到 1 秒

Hugging Face 发了一篇博客，讲 Latent Consistency LoRA（一种轻量微调模块）能让 SDXL 只用 4 步就生成图片，而不是原来的 25–50 步。在 3090 上，单张图从 7 秒降到约 1 秒，Mac 上快 10 倍。核心思路是用蒸馏（拿原模型输出当老师，训一个小模型模仿）把步数压下来，但这次不是训整个模型，而是只训...

#Vision#Inference-opt#Fine-tuning#Hugging Face

精选理由

HKR-H 靠“SDXL 四步出图”这个标题钩子通过，但 HKR-K 因为正文为空直接挂掉。硬排除规则“零来源/披露不足”适用：没权重、没延迟、没画质对比、没复现配置，重要性压不到 40 以上。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2023-10-26 · 星期四2023年10月26日

07:00

963d ago

OpenAI 博客· rssEN07:00 · 10·26

OpenAI发布前沿模型风险与应对准备工作方案

OpenAI 发了一篇博客，宣布成立一个叫 Preparedness 的新团队，专门管前沿模型（比现在最强的模型还强的那种）可能带来的灾难性风险。团队负责人是 Aleksander Madry，工作包括能力评估、内部红队测试，以及制定一套“风险知情开发政策”（RDP），说白了就是给模型从开发到部署画一条安全红线。风险类别列了四个：个性化说服、网络安全、...

#Safety#Alignment#OpenAI#Safety/alignment

精选理由

话题本身有共鸣——OpenAI 对前沿风险的表态会触动安全治理的神经。但 RSS 正文是空的，没有模型范围、评估方法、阈值、时间表或治理细节，所以硬排除规则 6 适用，分数低于 40。

一句话点评

OpenAI 2023年10月宣布成立 Preparedness 团队，专门应对前沿模型的灾难性风险，比如网络攻击、生化威胁、自主复制等。团队由 Aleksander Madry 领导，还会搞一个风险知情开发政策（RDP），说白了就是给模型上线前加一道安全审查。同时他们办了个挑战赛，悬赏2.5万美元API额度征集“未知风险”案例，收到几百份投稿，70%都提到模型可能被用来搞舆论操控和激进宣传...

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

2023-10-19 · 星期四2023年10月19日

00:00

970d ago

Hugging Face 博客· rssEN00:00 · 10·19

Gradio-Lite：浏览器里跑Gradio，不用服务器

Hugging Face 发了 Gradio-Lite，一个让 Gradio 应用直接在浏览器里运行的 JS 库。它靠 Pyodide（Python 的 WebAssembly 运行时）把 Python 代码塞进浏览器执行，所以开发者不用搭服务器就能部署 demo。正文给了完整的 HTML 嵌入示例，包括引入 JS/CSS、写 `<gradio-lit...

#Tools#Hugging Face#Gradio#Product update

精选理由

HKR-H和HKR-R成立：浏览器里跑完整Gradio对应用开发者有强吸引力。HKR-K不成立，因为正文没披露实现机制、兼容性或性能数据，而且这是2023年的发布帖，没有新角度，所以按硬排除-过时重发处理。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-10-04 · 星期三2023年10月4日

00:00

985d ago

Hugging Face 博客· rssEN00:00 · 10·04

ONNX Runtime 加速 13 万个 Hugging Face 模型

Hugging Face 说 ONNX Runtime 可以加速平台上超过 13 万个模型，覆盖 90 多种架构，包括 BERT、GPT-2、T5 等最热门的 11 种。正文只给了一个具体数据：用 ONNX Runtime 跑 whisper-tiny 模型，推理延迟比 PyTorch 最多降低 74%。但没披露测试用的硬件、batch size、精度...

#Inference-opt#Tools#Hugging Face#ONNX Runtime

精选理由

标题抛了个'13万模型'的大数，但RSS片段里没给任何加速幅度、硬件条件或精度数据，连支持的模型族和部署方式都没提。没有吞吐和时延对比，这结论没法直接用。文章是2023年的，没有新版本或新跑分，现在行业不盯着这个点，所以硬排除-过时重跑，分数压在40以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2023-10-03 · 星期二2023年10月3日

07:00

986d ago

OpenAI 博客· rssEN07:00 · 10·03

OpenAI 发布 DALL·E 3 系统卡，但正文只给了摘要和下载链接

OpenAI 放出了 DALL·E 3 的系统卡页面，标题和摘要说这是一份安全与部署文档，包含外部红队测试、关键风险评估和缓解措施。但页面正文只有一段摘要和一个 PDF 下载链接，没有披露任何具体的评估数据、风险类别、缓解手段或时间节点。如果你想看细节，得自己去读那篇 PDF。

#Vision#Safety#OpenAI#DALL·E 3

精选理由

H/K/R 全不满足：这条 feed 只给了标题级元信息。OpenAI 的系统卡本身可以很重要，但这里没有披露任何评测、风险分类、缓解机制或部署上下文，所以归为 excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2023-09-25 · 星期一2023年9月25日

07:00

994d ago

● P1OpenAI 博客· rssEN07:00 · 09·25

ChatGPT 现在能看、能听、能说话了

OpenAI 给 ChatGPT 加了语音和图片功能。语音部分，你对着手机说话它能回你，背后用了一个新的文字转语音模型，拿几秒真人录音就能合成很像人的声音，还接入了自家的 Whisper 做语音识别。图片部分，你可以拍照或截图发给它，让它看图说话，底层是 GPT-3.5 和 GPT-4 的多模态版本。这两个功能会先推给 Plus 和 Enterpris...

#Multimodal#Vision#Audio#OpenAI

精选理由

这是一次实打实的 OpenAI 产品更新：标题确认了视觉输入、语音输入和语音输出，所以 HKR 三项都踩中了。正文没给版本、推送范围、延迟和定价，我会先打个折，停在 88 分而不是拉满。别被标题骗了，真正要盯的是语音延迟、视觉理解边界和调用入口。

一句话点评

ChatGPT 能看、能听、能说了，但先别激动，目前只推给 Plus 和企业用户，而且语音功能仅限手机端。

锐评

OpenAI 给 ChatGPT 加上了语音对话和图片理解能力。语音部分，它用了一个新的文字转语音模型，拿几秒真人录音就能合成很像人的声音，再配合自家的 Whisper 做语音识别，实现来回对话。图片部分，背后是多模态的 GPT-3.5 和 GPT-4，能看懂照片、截图和带文字的文档。官方说这两项功能会在两周内逐步推给付费用户，语音在 iOS 和 Android 上，图片全平台都有。他们特别强调是“逐步部署”，因为语音合成容易被用来冒充他人或诈骗，所以目前只开放给语音聊天这一个场景，声音也是找专业配音演员录的。图片方面，他们找红队测试过极端主义和科学专业领域的风险，还故意限制了模型直接分析图片里人物的能力，防止胡说八道侵犯隐私。正文没提语音交互的延迟有多高，也没说图片理解在复杂图表上的准确率到底怎么样。另外，免费用户什么时候能用、中文语音效果如何，这些关键信息都还没给。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2023-09-19 · 星期二2023年9月19日

07:00

1000d ago

OpenAI 博客· rssEN07:00 · 09·19

OpenAI 组建红队网络，邀请外部专家给模型找漏洞

OpenAI 宣布成立红队网络，公开招募各领域专家来给模型做安全测试。红队就是模拟攻击者，主动找模型漏洞和风险。之前 OpenAI 的红队主要靠内部和零散的外部合作，这次想搞成一个常备专家库，按需调用。专家一年可能只花 5-10 小时，参与具体项目会签保密协议并拿报酬。申请已于 2023 年 12 月 1 日截止，目前不再接受新报名。正文没披露已招募多...

#Safety#OpenAI#Safety/alignment#Product update

精选理由

OpenAI 安全相关新闻让 HKR-H 和 HKR-R 有点分量。HKR-K 不行，因为这条只确认了项目名称，成员规模、参与条件、测试范围都没说，所以分数压在 50 出头，分到 all 层。

一句话点评

OpenAI 在 2023 年 9 月宣布组建红队网络，公开招募各领域专家来给模型找漏洞。关键信息：最低只需投入 5-10 小时/年，有报酬但需签 NDA。注意：申请已于 2023 年 12 月 1 日截止，目前是旧闻。正文没披露已招募多少人、实际发现了哪些漏洞。

锐评

OpenAI 这次只放出了 Red Teaming Network 这个名字，正文对成员人数、准入条件、测试权限都未披露。我先下个判断：这条信息的价值，不在“OpenAI 开始做红队”，而在他们把外部对抗测试正式产品化了多少。现在看，公开材料还不够。说真的，红队网络这件事本身并不新。Anthropic、Google、Meta 这两年都在安全评估里引入过外部研究者、领域专家和预发布测试，只是叫法不同，公开程度也不同。OpenAI 之前也做过定向 red teaming，像 GPT-4 system card 里就写过请外部专家测生物、网络安全、说服等风险。所以标题里的新意，不是“第一次有红队”，而是他们要不要把这件事常设化、网络化、流程化。成员是一次性顾问，还是长期合作池；测试是拿到早期模型，还是只测已上线功能；能不能接触系统提示、工具调用、语音链路、多模态输入，这些决定了它是不是实打实的安全基础设施。我对这种公告一直有个保留：很多公司把 red teaming 当成信誉背书，但不愿公开最关键的三样东西。第一是覆盖范围，第二是升级路径，第三是反馈是否真能卡住发布。没有这三项，“我们有红队”只能证明公司知道安全该被提起，证明不了机制有效。OpenAI 这条目前正卡在这里。标题给了方向，正文没给操作层。还有一层背景不能忽略。2023 年那会儿，OpenAI 正处在监管压力和产品扩张同时上升的节点。欧洲在谈 AI Act，美国也在盯 frontier model 的自律安排，白宫同年还拉了几家模型公司做自愿安全承诺。我看这条更像是对外部治理预期的响应：先把“我们有外部测试网络”摆出来，给政策、合作伙伴和企业客户一个交代。这个动作有用，但我不太愿意把它直接记成安全能力增强，除非后面补出成员结构、测试周期、漏洞赏金或披露流程。我还没查到这条后续配套页面里有没有申请入口、保密条款、报酬机制。要是这些都没有，这个网络更像专家通讯录，不像持续运转的评估系统。要是后面公开了 system card、拦截率、修复时长、发布前否决案例，那我会改观。现在这条只能算一个姿态明确、证据偏少的信号。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-09-13 · 星期三2023年9月13日

00:00

1006d ago

Hugging Face 博客· rssEN00:00 · 09·13

用 PyTorch FSDP 微调 Llama 2 70B

Hugging Face 发了一篇博客，讲怎么用 PyTorch FSDP 微调 Llama 2 70B。FSDP 会把模型参数、梯度和优化器状态切分到多张 GPU 上，前向和反向传播时再临时收集完整权重，以此省显存。硬件配置是 2 节点、每节点 8 张 A100（80GB），节点内用 NVLink，节点间用 Elastic Fabric Adapte...

#Fine-tuning#Inference-opt#Hugging Face#PyTorch

精选理由

标题有真实钩子，但 HKR-K 不通过，因为可用文本只确认了模型和方法。没有显存、硬件、并行策略或结果细节，加上高度专业的训练工程角度，触发了硬排除规则-技术可及性，维持原判。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2023-09-06 · 星期三2023年9月6日

07:00

1013d ago

FEATUREDOpenAI 博客· rssEN07:00 · 09·06

OpenAI 首届开发者大会定档 11 月 6 日，旧金山见

OpenAI 宣布 2023 年 11 月 6 日在旧金山举办首届开发者大会 DevDay，为期一天。正文只确认了时间地点和这是第一届，没披露议程、新品发布或参会人数。目前只知道会有技术团队主持的分组讨论，以及全球开发者可以看直播。现场参会注册要等几周后才开放。另外 OpenAI 顺便提了一嘴：自 2020 年开放 API 以来，已有超过 200 万开...

#Tools#OpenAI#Product update#Commentary

精选理由

这是 OpenAI 生态的真实信号：公司为首次开发者大会定了时间和地点。HKR-H 和 HKR-R 通过，但 HKR-K 不通过，因为帖子没给议程、票务、API 或模型细节，所以分数落在 60-71 区间，分发给所有人。

一句话点评

OpenAI 要在 11 月 6 号旧金山办第一届开发者大会，现场名额有限但可以看直播。具体会发什么新东西还没说，先当个预告看。

锐评

OpenAI 宣布 2023 年 11 月 6 日在旧金山举办首次开发者大会 DevDay。这是一天的线下活动，会预览新工具、做技术交流，也会有 OpenAI 技术人员的分组讨论。现场注册会在几周内开放，同时提供主题演讲直播。文章给了几个数字：目前有超过 200 万开发者在用 GPT-4、GPT-3.5、DALL·E 和 Whisper 这些模型，说明开发者生态已经不小。但这次大会具体要发布什么——是新模型、降价、还是让模型进业务流程干活的新功能——正文完全没提。Sam Altman 只说“展示最新工作，帮开发者造新东西”，这话弹性很大，别急着脑补。另外，这是 2023 年 9 月的旧公告，现在回头看，当时 DevDay 确实发了 GPT-4 Turbo 和 Assistants API 这些东西。但就这条信息本身而言，它只是一个活动预告，没有产品细节，也没有技术指标。如果你在找具体更新，得去翻会后发布的博客和文档。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-08-28 · 星期一2023年8月28日

07:00

1022d ago

OpenAI 博客· rssEN07:00 · 08·28

OpenAI 推出 ChatGPT 企业版：数据不训练、不限速、32K 上下文

OpenAI 正式发布 ChatGPT Enterprise，核心卖点是企业级数据保护：承诺不用客户数据训练模型，对话全程加密，已通过 SOC 2 认证。功能上，企业版不限 GPT-4 调用次数，速度比普通版快两倍，上下文窗口拉到 32K（一次能处理四倍于之前的内容），还内置了高级数据分析（就是之前的 Code Interpreter）。管理后台支持 ...

#OpenAI#ChatGPT Enterprise#Product update

精选理由

OpenAI 推企业版，部署和合规方向有受众，所以 R 通过。但抓到的正文只有产品名，定价、上下文长度、数据政策、上线时间全没写，H 和 K 都弱，故事只能算 all。

一句话点评

OpenAI 正式推出企业版 ChatGPT，主打安全合规（SOC 2、数据不用于训练）、无限量高速 GPT-4 和 32K 上下文。价格未公布，但免费送 API 额度。已有 80% 的财富 500 强注册过 ChatGPT，但注册≠付费。正文没披露具体定价和客户留存数据，这点先别太激动。

锐评

OpenAI 只公布了 ChatGPT Enterprise 这个产品名，定价、上下文长度、数据政策、上线范围都没给。这种发布方式很像先把企业采购心智卡住，再慢慢补合同细节。我对这个节奏有点警觉，因为企业版最关键的从来不是名字，而是三件硬指标：数据是否进训练、管理员控制台能管到什么粒度、法务条款谁来背责。标题已经给出产品方向，正文没披露这些核心条件，现阶段还没法判断它是在卖真正的企业能力，还是把现有 ChatGPT 包一层 SSO 和账单。我一直觉得，OpenAI 这一步其实是被市场推着走。2023 年中那个时间点，Microsoft 早就在推 Bing Chat Enterprise，Google 也在把 Duet AI 往 Workspace 企业包里塞。再往前看，Slack、Notion、Salesforce 这些 SaaS 公司都已经摸清一件事：企业买的不是“更聪明的聊天框”，而是权限、审计、留存、合规和采购流程兼容。我没查到 OpenAI 当天正文，因为它就是空的；但如果它没有把默认不训练、SOC 2、SAML SSO、域级管理这些条款一次讲清，这个产品名本身没那么大说服力。还有一个我不太买账的地方：Enterprise 这个词在 AI 产品里经常被滥用。很多公司加个 enterprise，其实只是把速率限制放宽，再给一个管理员后台。真正难的是把模型服务接进公司的身份系统、日志系统、DLP 策略和法务审计链路。OpenAI 当时的强项是模型体验，不是企业软件交付。我寻思了一下，这条更像一次防守型命名，占住“ChatGPT 也能进公司”这个认知位，避免客户先被 Microsoft 或 Google 框进各自套件里。所以这条我现在不会高估。标题说明 OpenAI 明确要抢企业预算，这点很清楚；但产品是否站得住，要看后续是否给出可执行条款。没有 pricing，就没法判断它要走 seat-based 还是 usage-based；没有数据政策，就没法判断大型金融、医疗、制造客户能不能过内审；没有上线范围，也看不出它是精选客户试点，还是准备大规模铺开。只有标题时，我的判断很简单：这是一次必要发布，不是一次完成度高的发布。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

2023-08-22 · 星期二2023年8月22日

00:00

1028d ago

Hugging Face 博客· rssEN00:00 · 08·22

Hugging Face 开源多模态模型 IDEFICS，对标 DeepMind 的 Flamingo

Hugging Face 发布了 IDEFICS，一个开源的视觉语言模型，直接对标 DeepMind 未公开的 Flamingo。模型能看图说话、回答图片问题，甚至基于多张图编故事。有两个版本：9B 和 80B 参数，80B 那个在多项图文理解基准上跟 Flamingo 差不多。全部用公开数据（LLaMA v1 和 OpenCLIP）训练，没有用任何闭...

#Multimodal#Vision#Open source#Product update

精选理由

HKR 的 H 靠开放复现这个钩子通过，但 K 和 R 都挂了，因为只有标题级别的宣称，正文没给任何实质信息。这是 2023 年的发布，没有新角度，按硬排除规则里的“过时重发”处理，重要性上限卡在 40 以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2023-08-16 · 星期三2023年8月16日

07:00

1034d ago

FEATUREDOpenAI 博客· rssEN07:00 · 08·16

OpenAI 收购了一家做创意工具的小公司 Global Illumination

OpenAI 宣布收购 Global Illumination，这家公司主要用 AI 做创意工具和数字体验，团队来自 Instagram、Facebook、YouTube、Google、Pixar 等。整个团队已经加入 OpenAI，参与 ChatGPT 等核心产品的开发。公告没披露收购价格、具体时间、团队后续安排或产品整合计划，信息量很少。

#OpenAI#Global Illumination#Partnership#Product update

精选理由

OpenAI 收购 Global Illumination 这件事有新闻性（H 通过），也能反映战略方向（R 通过），但正文只确认了收购关系，金额、时间、团队去向、产品整合计划都没披露，信息缺口明显，所以 K 不通过。综合下来分数落在 60–71 区间。

一句话点评

OpenAI 买下 Global Illumination 团队，核心是收人而非收产品，这更像一次高调的团队招聘。

锐评

OpenAI 在 2023 年 8 月宣布收购 Global Illumination，整个团队加入，将参与 ChatGPT 等核心产品的工作。这本质上是一次“人才收购”，看重的是团队在 Instagram、Facebook、YouTube 等产品早期阶段的设计与工程经验，以及他们用 AI 做创意工具和数字体验的背景。官方公告很短，没有披露交易金额、团队规模，也没有说明他们具体会负责 ChatGPT 的哪一部分。从团队背景推测，他们可能更偏向产品交互、用户体验和前端工程，而不是底层模型研发。这点先别太激动，这不是一次技术并购，而是 OpenAI 在快速扩张期补强产品化能力。还缺的信息是：这个团队并入后是否独立运作，以及他们之前的产品（比如那个 Minecraft 风格的多人游戏）是否会继续维护。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-07-27 · 星期四2023年7月27日

00:00

1054d ago

Hugging Face 博客· rssEN00:00 · 07·27

Stable Diffusion XL 在 Mac 上跑起来了，苹果用混合位调色板把模型压到 1.4 GB

Hugging Face 和苹果合作，把 Stable Diffusion XL 移植到了 Mac 的 Core ML 上。模型太大（原版 4.8 GB），普通电脑跑不动，所以他们用了一种叫混合位调色板的压缩方法，把 UNet 部分压到等效每参数 4.5 位，总大小从 4.8 GB 降到 1.4 GB，缩小了 71%。官方说画质还行，但正文没披露具体加...

#Inference-opt#Vision#Hugging Face#Product update

精选理由

H 成立是因为 Mac 本地跑 SDXL 加 Core ML 量化本身是个不错的钩子。K 和 R 不成立：正文没披露量化位宽、速度、显存或硬件范围，所以这只是一篇小众部署贴，不是更广泛的行业故事。

一句话点评

苹果和Hugging Face把SDXL跑在了Mac上，用混合位调色板把模型从4.8GB压到1.4GB，体积降了71%，号称画质还行。但这是2023年7月的博客，时效性差，且只测了Mac，没提推理速度。

锐评

Hugging Face 这次先把 Stable Diffusion XL 搬到 Mac，条件只有一个：标题提到用了 Advanced Core ML Quantization。我的判断很直接，这条的重点不是“Mac 端生成图像 suddenly 变强”，而是 Hugging Face 在给苹果端侧分发补基础设施。正文没披露量化位宽、延迟、峰值内存、支持机型，也没说是 M1、M2 还是更高配芯片，所以现在没法把它读成一次明确的推理突破。我对这种标题党式乐观有点警觉。扩散模型上 Mac，本来就不是新方向。去年到今年，苹果自己、Replicate、社区开发者都在折腾 Core ML 版 Stable Diffusion，主线一直是把 UNet、VAE、text encoder 拆开，靠 ANE、GPU 和统一内存吃下推理负载。SDXL 比 SD 1.5 大得多，双文本编码器和更高分辨率都让端侧部署更难，所以“能跑”本身有价值，但离“跑得好”差了至少四个数字：量化后体积、首图时延、持续吞吐、画质损失。标题一个都没给。我还想补一层上下文。2023 年那波本地 AI 叙事里，Mac 端最先跑出来的通常是 4-bit/8-bit LLM，图像这边反而更吃内存带宽和图算调度。Core ML 的高级量化如果只是把权重压小，收益往往先体现在可加载和可分发，不一定直接兑现成成倍提速。我自己没看到正文，没法确认这次是不是用了苹果之前提过的 palettization 或 mixed-bit 方案；如果没有算子级重写，标题里的“advanced”很容易被读得太满。所以这条我会把它当成一个生态动作看：Hugging Face 在告诉开发者，SDXL 这类重量级视觉模型也能进苹果工具链。这个信号对 demos、离线创作、隐私敏感场景都成立。性能叙事先别急着接。等正文补出位宽、机型、分辨率和对比基线，再谈它有没有把 Mac 端生成图像往前推了一格。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2023-07-18 · 星期二2023年7月18日

00:00

1063d ago

Hugging Face 博客· rssEN00:00 · 07·18

Llama 2 正式发布，Hugging Face 已全面集成

Meta 今天开源了 Llama 2 系列大模型，Hugging Face 第一时间做了完整接入。模型分 7B、13B、70B 三个尺寸，每个都有基座版和对话版（Llama 2-Chat）。相比 Llama 1，训练数据多了 40%，上下文窗口拉到 4k tokens（大概能一次处理三四千字），70B 版还用了分组查询注意力来提速。对话版用 RLHF（...

#Hugging Face#Llama 2#Product update

精选理由

标题有吸引力，但正文没有任何可验证的细节。实际触发硬排除规则（云厂商推广），且缺乏信息来源深度，所以重要性压在 40 以下，尽管 HKR 的 H 和 R 有分。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-06-15 · 星期四2023年6月15日

00:00

1096d ago

Hugging Face 博客· rssEN00:00 · 06·15

苹果设备跑 Stable Diffusion 更快了，靠 Core ML 新优化

Hugging Face 发了一篇博客，说 iPhone、iPad 和 Mac 上跑 Stable Diffusion 现在更快了，用的是苹果 Core ML 框架的新压缩和优化技术。具体来说，他们用了 6-bit palettization（一种量化方法，把模型权重从 16 位浮点数压缩到每个参数只用 6 位，类似图片调色板，只存索引不存完整数值），...

#Vision#Inference-opt#Core ML#Product update

精选理由

H 成立是因为苹果设备本地跑 SD 加速是个具体可用的 hook。K 和 R 不成立：标题只暴露了“更快”，没有加速倍数、芯片范围、模型版本或复现步骤，而且这篇是 2023 年的旧文，没有新进展，直接触发硬排除规则。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2023-05-24 · 星期三2023年5月24日

00:00

1118d ago

Hugging Face 博客· rssEN00:00 · 05·24

Hugging Face 模型目录上架 Azure，但细节全没披露

Hugging Face 和微软合作，把 Hugging Face 模型目录搬到了 Azure 上。目前唯一能确认的条件就是“在 Azure 上”。正文因为返回 429 错误，没有披露模型数量、访问流程、定价、上线区域或具体时间。关键看点其实是：模型发现、部署和计费会不会直接嵌入 Azure 的工作流里——如果真能像用 Azure 自家服务一样点几下就...

#Tools#Hugging Face#Microsoft#Partnership

精选理由

HKR 三项全挂：这条只有合作标题，没有目录规模、定价、接入流程、区域或集成细节。触发硬排除规则 cloud-vendor-promo，读起来就是一条分发公告，不是实质性的模型或产品变化。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2023-05-23 · 星期二2023年5月23日

00:00

1119d ago

Hugging Face 博客· rssEN00:00 · 05·23

Safetensors 通过安全审计，将成为 Hugging Face 默认格式

Hugging Face 宣布 Safetensors 已完成安全审计，并即将成为平台默认的模型权重格式。正文目前只有标题，没有披露审计方、发现了多少漏洞、修复范围以及具体切换时间。关键信息缺失，供应链安全细节待补。

#Safety#Tools#Hugging Face#Safetensors

精选理由

标题有钩子，话题也戳中供应链安全痛点，但正文完全空白，审计方、问题数量、修复细节、切换时间一概未提，信息缺口导致硬排除规则生效，分数上限被压在 40 以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-05-22 · 星期一2023年5月22日

07:00

1120d ago

OpenAI 博客· rssEN07:00 · 05·22

超级智能治理：OpenAI 的早期思考

OpenAI 发了一篇博客，讨论未来超级智能（比通用人工智能还强的 AI）该怎么管。核心三点：一是头部开发方需要协调，比如政府牵头项目或限制每年能力增长速率；二是最终可能需要一个类似国际原子能机构的国际监管机构，对超过算力或能力门槛的项目进行审查、审计、限制部署；三是技术上得先解决如何让超级智能本身安全，这还是个开放研究问题。文章明确说，当前 AI 系...

#Alignment#Safety#OpenAI#Policy

精选理由

H 和 R 通过，因为 OpenAI 加超级智能治理这个组合本身就有话题性。K 不通过，因为 RSS 只暴露了标题，正文为空，信息源为零，只能归为 excluded。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-05-15 · 星期一2023年5月15日

00:00

1127d ago

Hugging Face 博客· rssEN00:00 · 05·15

用一张AMD显卡跑类ChatGPT聊天机器人

这篇博客标题说可以用一张AMD GPU（通过ROCm平台）跑一个类似ChatGPT的聊天机器人，正文只确认了“单卡”这个条件。文章介绍了Vicuna 13B模型，用70万条用户对话微调LLaMA得到，训练成本仅约300美元。为了把显存需求从28GB（fp16）降下来，用了GPTQ 4-bit量化，但正文没有披露具体用了什么模型、实际显存占用、生成速度或...

#Tools#Inference-opt#Commentary

精选理由

只有标题，正文为空，所以K项因缺少模型、显存、吞吐、延迟和步骤这些基础信息而失败。H项和R项也弱，这是一个低信号教程梗概，评分34，归为excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2023-04-05 · 星期三2023年4月5日

00:00

1167d ago

Hugging Face 博客· rssEN00:00 · 04·05

StackLLaMA：用RLHF调教LLaMA的实操指南

Hugging Face 发了一篇手把手教你怎么用 RLHF（人类反馈强化学习）训练 LLaMA 模型的博客。正文目前只有标题和目录，没有具体内容，所以训练用了什么数据集、模型多大、跑了多少步、效果如何，一概没披露。从目录看，流程包括监督微调、奖励模型训练和强化学习对齐，还专门有一节讲训练中的不稳定问题和应对方法。如果你正在做 RLHF 落地，这篇值得...

#Fine-tuning#Alignment#Hugging Face#LLaMA

精选理由

触发硬排除-过时重发：这是一篇 2023 年的教程，不是当前进展。HKR 三项全不满足，尤其是 K——正文只有标题级信息，未披露数据集、训练流程或结果。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2023-03-24 · 星期五2023年3月24日

07:00

1179d ago

FEATUREDOpenAI 博客· rssEN07:00 · 03·24

ChatGPT 3月20日宕机：一个开源库 bug 导致用户聊天记录和支付信息泄露

OpenAI 确认，3月20日 ChatGPT 宕机是因为一个开源库 redis-py 的 bug，导致部分用户能看到其他活跃用户的聊天标题，甚至新对话的第一条消息。更严重的是，约1.2%的 ChatGPT Plus 订阅者（在特定9小时窗口内活跃的用户）的姓名、邮箱、账单地址、信用卡类型、后四位和有效期可能被其他用户看到——但完整卡号没泄露。Open...

#OpenAI#Incident

精选理由

OpenAI 官方确认 3 月 20 日 ChatGPT 故障，但 RSS 片段正文为空，停机时长、影响范围、根因与修复措施均未披露。真正该盯的是后续 RCA，而不是标题里的“解释”。

一句话点评

OpenAI 自己发公告解释 3 月 20 日宕机，核心是 Redis 客户端库的 bug 导致用户聊天记录标题和部分支付信息可能被错看，但完整卡号没泄露。

锐评

这条公告是 OpenAI 在 2023 年 3 月 24 日发的，复盘了四天前 ChatGPT 下线的原因。问题出在 redis-py 这个开源库与异步请求的交互上：请求取消时连接没清干净，下一个请求可能拿到上一个用户的数据。影响分两层，一是聊天历史标题可能被别的活跃用户看到，二是 1.2% 的 ChatGPT Plus 订阅者在特定 9 小时窗口内，姓名、邮箱、支付地址、信用卡后四位和有效期可能被错看。完整卡号没暴露，这点可以稍微松口气。OpenAI 说实际被看到数据的人极少，但正文没给出具体人数，也没解释怎么算出来的。他们修了 bug、加了缓存校验、查了日志，动作算快，但公告里没提是否通知了监管机构，也没说受影响用户能拿到什么补偿。整篇读下来，技术复盘写得清楚，但用户影响评估部分信息缺口明显，更像一次对内复盘转公开，而不是面向用户的完整交代。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-03-17 · 星期五2023年3月17日

07:00

1186d ago

OpenAI 博客· rssEN07:00 · 03·17

GPTs 就是通用技术：OpenAI 早期研究称 80% 美国岗位至少 10% 任务会被影响

OpenAI 在 2023 年 3 月发了一篇论文，标题玩了个双关：GPTs（模型）就是 GPTs（通用技术）。核心结论是约 80% 的美国劳动力，至少有 10% 的工作任务会被 GPT 这类模型影响；约 19% 的人一半以上的任务都可能被波及。而且高薪职业受影响比例反而更高，不光是低端重复劳动。论文用了一套新评估方法，结合人工和 GPT-4 自己打分...

#OpenAI#Research release#Commentary

精选理由

标题有钩子，但正文没披露任何关键数字——样本规模、评估方法、受影响职业比例、核心结论全缺，信息缺口太大，加上硬性排除规则（陈旧重发）把分数压在 40 以下，所以不收录。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2023-03-09 · 星期四2023年3月9日

00:00

1194d ago

Hugging Face 博客· rssEN00:00 · 03·09

用 RLHF 在 24GB 消费级显卡上微调 200 亿参数大模型

Hugging Face 宣布把 TRL（强化学习微调库）和 PEFT（参数高效微调工具）打通，让 RLHF 微调 200 亿参数模型只需要一张 24GB 的消费级显卡。核心做法是：先把模型加载成 8 位精度（省显存），再挂上可训练的 LoRA 小适配器（只改少量参数），最后用同一份模型同时算参考 logits 和当前 logits。正文没有披露具体用...

#Fine-tuning#Alignment#Commentary

精选理由

H 和 R 成立：标题确实抓人，20B 模型 RLHF 压进 24GB 消费卡，成本敏感型用户会点进来。K 不成立：正文一个字没有，缺了所有复现关键参数，所以这条只能留在 all 里，等人补细节。

一句话点评

Hugging Face 把 RLHF 微调 20B 模型的门槛压到一张 24GB 消费级显卡上，靠的是 8-bit 量化 + LoRA 低秩适配器。之前全精度光加载模型就要 40GB，现在显存省了一半多。但正文没披露训练速度、收敛步数或最终效果对比，所以“能跑”不等于“跑得好”。对个人开发者是好事，但先别太激动。

锐评

标题只给出一个硬条件：24GB 消费级 GPU 可以对 20B 参数模型做 RLHF 微调。问题也卡在这里。正文没披露基座模型、量化位宽、LoRA rank、梯度检查点、paged optimizer、sequence length、batch size、reward model是否同卡运行，连训练时长和 tokens/s 都没有。这种信息密度，离“别人能照着跑”还差一整层。我对这条的第一判断是：它大概率在讲“把 RLHF 流程拆到勉强塞进单卡”，不是在讲“单卡也能高效做 20B 对齐训练”。2023 年那个时间点，社区已经在用 QLoRA 把 33B、65B 的监督微调压到 24GB 或 48GB 卡上，关键手段就是 4-bit 量化 + LoRA + gradient checkpointing。RLHF 比 SFT 麻烦一截，因为你不只要 policy，常见流程还要 reward model、value head、rollout cache，PPO 一跑，显存和吞吐都会更难看。要把 20B RLHF 塞进 24GB，理论上不是做不到，但通常要靠很激进的取舍：短上下文、小 batch、强依赖 CPU offload，甚至把 reward 计算拆到另一阶段。标题没说这些，我对“消费级 GPU 即可”这个叙事会保留意见。还有个上下文不能省。Hugging Face 当时推 TRL 和 PEFT，核心价值一直不是把 RLHF 变便宜，而是把以前只有大实验室能碰的流程，拆成社区能改、能接、能试的组件。这个方向后来被证明很对：真正扩散开的不是大规模 PPO 生产线，而是 LoRA/QLoRA、DPO 这类更稳、更省资源的对齐路径。回头看，这篇标题像一个时代切片：大家都在试图把 RLHF 下沉到个人硬件，但行业后来并没有长期停在 PPO 这条线上。我还有个疑虑：这里的“20B”到底是可训练参数规模，还是加载后的基座规模？如果只是 20B 基座 + 少量适配器参数更新，那和“在 24GB 上训练 20B 模型”不是一回事。标题用了很容易让人误解的说法，正文又空着，这就有点不对劲了。我的态度很简单：先把显存账本和训练脚本放出来，再谈 democratization。没有这些，这条更像一张技术海报。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2022-11-17 · 星期四2022年11月17日

00:00

1306d ago

Hugging Face 博客· rssEN00:00 · 11·17

用同态加密做情感分析：输入全程加密，模型照样判断正面负面

Hugging Face 一篇博客展示了如何用同态加密（FHE）对加密文本做情感分析，用户输入全程不解密，服务器也看不到原文。做法是用 BERT 提取文本特征，再喂给 XGBoost 做三分类（正面/负面/中性），最后用 Concrete-ML 库把推理过程搬到加密数据上。数据集是 Twitter 航空公司评论，负面样本占 62.7%，正面只有 16....

#Safety#Hugging Face#Commentary

精选理由

标题钩子成立，但正文几乎没给任何技术细节——模型、延迟、吞吐、准确率损失全没提，信息缺口大到没法评估。隐私合规方向确实有共鸣，但缺乏关键数据支撑，硬排除技术可及性上限卡在40以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2022-10-19 · 星期三2022年10月19日

07:00

1335d ago

OpenAI 博客· rssEN07:00 · 10·19

奖励模型过度优化的缩放定律

OpenAI 发了一篇论文，核心是研究奖励模型（给模型回答打分的模型）被过度优化时会发生什么。他们用了一个合成实验：先固定一个“黄金标准”奖励模型当人类，再训练一个代理奖励模型去模仿它，然后看用强化学习或 best-of-n 采样（从多个回答里挑分最高的）去优化代理模型时，黄金模型的分数怎么变。结果发现，优化方法和模型参数量会直接影响分数变化曲线，而且...

#Alignment#Safety#Benchmarking#OpenAI

精选理由

标题有钩子——OpenAI 把奖励模型过度优化和缩放定律绑在一起，但这是 2022 年的研究，当前这条 RSS 没给任何新角度。硬排除规则里的“过时重发”适用，而且 K 项不通过，因为正文没披露实验设置、指标和结果，信息不够做判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2022-08-02 · 星期二2022年8月2日

00:00

1413d ago

Hugging Face 博客· rssEN00:00 · 08·02

Nyströmformer：用Nyström方法把自注意力算得快一点、省点显存

这篇博客讲的是Nyströmformer，一个用Nyström矩阵近似法把Transformer自注意力的时间和内存复杂度从O(n²)降到O(n)的模型。核心思路是不直接算完整的注意力矩阵，而是从查询和键里挑出少量“地标”点，用它们拼出三个小矩阵来近似原矩阵。正文只解释了方法原理，没有披露近似误差、实际加速比、能支持多长的序列，也没给下游任务的benc...

#Inference-opt#Hugging Face#Research release

精选理由

硬排除：技术可读性差且信息源单薄。标题说用Nyström方法把自注意力降到线性复杂度，但正文没给近似误差、基准测试或复现细节，所以HKR三项都不满足目标读者需求。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2022-05-28 · 星期六2022年5月28日

07:00

1479d ago

OpenAI 博客· rssEN07:00 · 05·28

教模型用自然语言说“我不确定”

OpenAI 发了一篇 2022 年的论文，核心是让 GPT-3 在回答问题时自己说出信心有多高，比如“90% 信心”或“高信心”，而不是靠模型内部的 logit 分数。实验表明，这些用自然语言表达的置信度跟实际正确率对得上（校准良好），换到没见过的题目分布时也还能保持中等校准。关键发现是模型能感知自己答案的不确定性，而不是单纯模仿人类标注。论文还搞了...

#Alignment#Safety#OpenAI#Research release

精选理由

标题本身有钩子，因为校准是实际痛点，但正文为空，模型、方法、指标、上线范围全缺，属于硬排除的零来源和过时重跑，所以分数压在 40 以下，tier 设为 excluded。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2022-05-10 · 星期二2022年5月10日

00:00

1497d ago

Hugging Face 博客· rssEN00:00 · 05·10

Hugging Face 发布 Optimum 推理加速，用 ONNX Runtime 跑 Transformers 流水线

Hugging Face 正式在 Optimum 库中支持推理加速，核心做法是把 Transformers 模型转成 ONNX 格式，再用 ONNX Runtime 跑。这样用户不用改代码，把原来的 AutoModelForXxx 换成 ORTModelForXxx 就行。正文给出了一个完整的 RoBERTa 问答模型加速教程，包括模型转换、图优化、动...

#Inference-opt#Tools#Hugging Face#Optimum

精选理由

Hugging Face 发了一篇讲 Optimum 和 Transformers Pipelines 加速推理的博文，但 RSS 片段只有标题和摘要，正文没披露加速幅度、支持什么硬件、覆盖哪些模型、怎么复现。标题里的“加速”只是方向，不是结论。对从业者来说，没有数字和路径，这条链接目前只能当个工具更新预告看，编辑价值很低。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2022-05-09 · 星期一2022年5月9日

00:00

1498d ago

Hugging Face 博客· rssEN00:00 · 05·09

Hugging Face 完成 1 亿美元 C 轮融资

Hugging Face 宣布获得 1 亿美元 C 轮融资，由 Lux Capital 领投，Sequoia、Coatue 等跟投。这笔钱将用于加大开源、产品和研究的投入。目前平台已托管 10 万个预训练模型和 1 万个数据集，超过 1 万家企业在使用。正文没有披露估值、具体资金用途和本轮详细条款。

#Hugging Face#Funding

精选理由

Hugging Face 融了 1 亿美元，这事本身有信号意义，尤其对开源 AI 圈子。但这是 2022 年的旧闻，正文除了金额几乎没给新信息——轮次、估值、谁投的、钱怎么花，一概没披露。硬排除-旧闻重跑规则把它压在 40 以下，合理。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2021-12-16 · 星期四2021年12月16日

08:00

1642d ago

OpenAI 博客· rssEN08:00 · 12·16

WebGPT：让模型自己上网查资料再回答，减少胡说八道

OpenAI 在 2021 年底发了一篇论文，核心思路是让 GPT-3 学会用文本浏览器上网查资料，再根据查到的内容写答案。模型会模拟人搜索、翻页、引用来源的过程，目的是减少大模型凭空编造事实的问题。训练分两步：先模仿人类操作学会用浏览器，再用人类偏好做强化学习或拒绝采样来优化答案质量。在 ELI5 数据集上，最好的模型有 56% 的概率比人类示范者写...

#Tools#RAG#OpenAI#WebGPT

精选理由

这是OpenAI 2021年的WebGPT旧帖，没有新角度，直接按硬排除-过时重发处理。标题只说了目标——通过网页浏览提升事实准确性，但机制、规模、评测数字都没披露，所以H、K、R三项都不满足。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2021-10-25 · 星期一2021年10月25日

00:00

1694d ago

Hugging Face 博客· rssEN00:00 · 10·25

用10亿句子对训练句向量模型

Hugging Face 发了一篇博客，讲怎么用10亿个句子对训练一个句向量模型（把句子转成向量，用来做聚类、搜索等）。方法不新鲜：用对比学习，让模型把语义相近的句子对拉近，把不匹配的推远，损失函数叫 Multiple Negative Ranking Loss。训练用了7块 TPU v3-8，规模不小。但正文没披露最终模型效果、跟 Sentence-...

#Embedding#Hugging Face#Commentary

精选理由

标题有规模钩子，但正文缺失，HKR-K和HKR-R因为缺少方法、评测和开源细节而失败。这触发了硬排除-零来源规则，重要性上限40，层级设为excluded。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2020-09-22 · 星期二2020年9月22日

07:00

2092d ago

OpenAI 博客· rssEN07:00 · 09·22

OpenAI 把 GPT-3 授权给微软

OpenAI 在 2020 年 9 月宣布，把 GPT-3 授权给微软用于其自家产品和服务。这是双方 2019 年宣布的多年合作的一部分。正文没披露授权范围、是否独家、价格和时间表。不过 OpenAI 强调，这次授权不影响开发者通过 API 继续使用 GPT-3，API 用户照常能调用这个 1750 亿参数的模型。简单说就是微软拿到了 GPT-3 的商...

#OpenAI#Microsoft#Partnership

精选理由

标题确认了交易双方和技术，但正文一个字都没有，所以 H 和 R 成立，K 不成立——信息缺口太大，连授权是排他性还是非排他性都不知道，更别提价格和部署时间了。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2019-04-15 · 星期一2019年4月15日

07:00

2618d ago

OpenAI 博客· rssEN07:00 · 04·15

OpenAI Five 在 Dota 2 直播赛中击败世界冠军 OG

OpenAI 宣布其 Dota 2 五对五 AI 系统 OpenAI Five 在 Finals 周末连续两局击败了世界冠军战队 OG，这是 AI 首次在电竞直播赛中战胜职业选手。此前 OpenAI Five 和 DeepMind 的 AlphaStar 都曾在私下赢过职业选手，但公开赛都输了。这次胜利的关键是把训练算力提升了 8 倍：从 TI8 时的...

#Agent#Benchmarking#OpenAI#OpenAI Five

精选理由

标题确实抓人，但正文几乎为空，连比赛怎么打的、用了什么限制都没说。而且这是 2019 年的事，现在翻出来没有新信息或新场景，按硬性规则直接归为陈旧重播，分数上限卡在 40 以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

全部

更多

频道

后台