2025-03-07 · 星期五 2025年3月7日
Hugging Face 博客 · rss EN 00:00 · 03·07
在手机上跑大模型:Hugging Face 出了一份 React Native 教程
Hugging Face 发布了一篇教程,教你怎么用 React Native 在手机上跑大模型。文章提到可以用 DeepSeek R1 Distil Qwen 2.5(15 亿参数)这类小模型,通过 llama.rn(llama.cpp 的绑定)加载 GGUF 格式文件,从 Hugging Face Hub 下载模型,在本地做推理,数据不出手机。教程...
#Inference-opt #Tools #Hugging Face #React Native
精选理由
这是一篇移动端教程类的线索,H 和 R 都成立,但 K 不成立——RSS 只暴露了标题,没有模型名、性能数据、平台范围和复现步骤,所以评分中等偏低,不推荐上首页。
一句话点评
Hugging Face 发了一篇教程,教你怎么用 React Native 在手机上跑大模型,用的还是 DeepSeek R1 蒸馏版(1.5B 参数)。核心是 llama.rn 这个库,它把 llama.cpp 封装成了 React Native 能调用的模块,模型格式是 GGUF(量化后的文件,体积小很多)。教程手把手教你怎么下载模型、加载、做聊天界面,还支持 Android 和 iO...
锐评
Hugging Face 只公布了 React Native 手机端跑 LLM 这个标题,正文未披露模型名、token/s、内存占用、量化方案与 iOS/Android 条件。我的判断很直接:这条更像开发者获客内容,不像一次有信息密度的技术发布。题目里把“Fun and Easy”放得很前,反而说明最难的那部分还没摆上台面。
手机端推理这件事,过去一年早就不是新鲜方向。MLC、llama.cpp、Ollama 的移动端尝试,外加 Qualcomm、Apple、MediaTek 各自的端侧 NPU 叙事,都已经把“能跑起来”讲完了。现在大家关心的是三组硬指标:首 token 延迟、持续吞吐、功耗温升。没有这三组数,教程价值就只能停在 demo 层。我还没看到正文,所以没法判断它是在调用本地 GGUF、MLC 打包模型,还是走某种混合推理;这几个路径的工程难度差很多,React Native 也只是最外层壳。
我对这类标题一直有点警觉。React Native 解决的是跨端 UI 和部分原生桥接,不直接解决 KV cache、内存碎片、Metal 或 NNAPI 调度、模型分片下载这些真问题。你把 1B 量级模型塞进手机,和把 7B 模型塞进手机,是两种完全不同的产品命题。前者常常能做离线助手,后者很容易在热管理和首包体积上翻车。标题没给模型尺寸,这个缺口很关键。要是只是 0.5B 到 1B 的小模型,本地跑通不稀奇;要是碰 3B 以上,还能保持可用延迟,那才有讨论价值。
还有一层背景不能忽略。Hugging Face 这两年一直在把自己从“模型仓库”往“开发分发入口”推,Inference Endpoints、Transformers.js、smol 系列内容都在服务这个方向。React Native 教程放在这里,我看着更像是把移动端开发者继续往自己生态里收,而不是单纯证明端侧推理出现了新突破。这个动作本身没问题,但叙事要分清:平台扩张,不等于技术拐点。
我目前更想知道四件事。它支持的是哪类模型格式,是否需要原生模块改造,Android 与 iPhone 各自的最低芯片条件是什么,离线场景下的实际 token/s 到了多少。标题已经给出“手机端、React Native、边缘推理”三个事实,正文却没给任何复现门槛。没有这些,工程团队很难判断这是不是能进生产试验的路线。我先把它当成一篇 onboarding 教程,而不是端侧 LLM 又向前迈了一步的证据。
HKR 分解
hook ✓ knowledge — resonance ✓
2025-03-04 · 星期二 2025年3月4日
OpenAI 博客 · rss EN 10:00 · 03·04
LaunchDarkly CPTO 谈 AI 如何压缩产品经理工作:7 分钟搭一个客户故事 GPT
LaunchDarkly 的 CPTO Claire Vo 认为 AI 会压缩传统产品经理的工作,未来 PM 要么转向商业导向(类似 GM),要么融合工程和设计角色。她举了个例子:花 7 分钟搭了一个客户故事 GPT,把反复被问的客户案例变成自助搜索,省下自己的时间。正文没披露用了什么模型、部署规模或实际效果,重点在组织设计,不是新模型发布。
#Agent #Tools #LaunchDarkly #OpenAI
精选理由
HKR-K 和 HKR-R 靠7分钟搭GPT的轶事和25%跨职能比例通过。但这是 OpenAI 客户案例采访,没披露模型名称、部署规模或量化效果,硬排除-纯营销封顶40分以下。
HKR 分解
hook — knowledge ✓ resonance ✓
FEATURED OpenAI 博客 · rss EN 06:00 · 03·04
OpenAI 成立 NextGenAI 联盟,砸 5000 万美元把高校和图书馆绑上自己的技术栈
OpenAI 拉上 15 家大学、医院和图书馆组了个叫 NextGenAI 的联盟,总共承诺投入 5000 万美元,形式是研究经费、算力补贴和 API 调用额度。这笔钱不是直接发,而是让合作方用 OpenAI 的工具干活。MIT 的师生能拿 API 和算力去训练、微调自己的模型;牛津的博德利图书馆用 API 转录古籍,把几百年前的书变成可检索的电子文本...
#Fine-tuning #Alignment #Tools #OpenAI
精选理由
OpenAI掏5000万美元加算力和API,把MIT、牛津等15家机构拉进NextGenAI联盟。这事不是发个模型,而是让学术圈用它的工具做训练、微调、甚至转录古籍,等于在下一代研究者和机构里提前铺管道。我会先打个折:正文没披露资金是现金还是额度、算力具体多少、API调用上限,这些缺口让实际力度不好判断。但方向很明确,卖的不是单点产品,是生态绑定。
一句话点评
OpenAI 拉了个 15 家高校和机构的联盟,投 5000 万美元给算力和 API,帮学校搞研究和教学。钱不算特别多,但能直接让师生用上最新模型,比单纯捐钱实在。
锐评
OpenAI 宣布成立 NextGenAI 联盟,联合了包括哈佛、MIT、牛津在内的 15 家学术机构,承诺投入 5000 万美元的研究资助、算力和 API 访问权限。这笔钱不是现金全款,而是混合了资源包,所以实际能撬动多少研究产出,还得看各家怎么用。从已披露的案例看,方向比较务实:俄亥俄州立搞数字健康和制造,哈佛和波士顿儿童医院拿来做罕见病诊断,牛津的博德利图书馆在用它转录古籍。这些场景对模型能力要求高,但也能直接验证 AI 在专业领域的可靠性。
不过,公告里没提联盟的治理结构、成果是否强制开源,也没说 5000 万怎么分。15 家机构体量差距很大,像加州州立大学系统和 MIT 的需求完全不同,资源分配是否公平会直接影响效果。另外,这本质上是 OpenAI 在教育市场的深度绑定,师生习惯了它的 API 和工具链,未来付费转化就顺理成章。这点先别太激动,等看到具体研究产出和教学数据再下判断。
HKR 分解
hook — knowledge ✓ resonance ✓
2025-02-28 · 星期五 2025年2月28日
FEATURED OpenAI 博客 · rss EN 08:00 · 02·28
OpenAI 拉上美国九大国家实验室,搞了一场千名科学家集体测 AI 的活动
OpenAI 联合美国能源部下属九家国家实验室,在 2 月 28 日搞了一场“千名科学家 AI 即兴测试”,超过 1000 名研究员用 o3-mini 等模型在自己领域里跑问题、打分、提反馈。参与方包括阿贡、伯克利、洛斯阿拉莫斯、橡树岭等知名实验室。能源部长 Chris Wright 和 OpenAI 总裁 Greg Brockman 还去橡树岭现场站...
#Reasoning #Multimodal #Benchmarking #OpenAI
精选理由
H和K过关:1000名科学家在国家实验室测OpenAI模型,这个事实本身够新、够具体。R不过关:正文没披露任务集、基准、访问权限和结果时间表,所以留在all,不上featured。
一句话点评
OpenAI 拉着九家美国国家实验室搞了一场千人科学家“试用会”,让研究员用 o3-mini 跑自己的课题并反馈。场面很大,但正文没给出任何实验结果或性能数据,目前只是一次集体产品体验。
锐评
OpenAI 在 2025 年 2 月 28 日组织了一场“千人科学家 AI 即兴会”,联合九家美国国家实验室,让超过一千名科学家在同一天用 o3-mini 模型测试各自领域的科学问题,并收集反馈。这事的实质是一次大规模、有组织的产品试用和需求调研,不是发布新模型或新研究。
正文强调了参与实验室的名单和能源部长的站台,但完全没有披露科学家具体跑了什么任务、模型表现如何、反馈是正面还是负面。唯一能确认的是,OpenAI 把推理模型 o3-mini 交到了这批科学家手里,后续会出一份报告总结“AI 模型如何被科学界使用”。这更像是一次政府关系与客户拓展动作,而非技术验证。
我会先打个折:活动本身说明 OpenAI 在争取国家级科研用户,但“加速科学发现”目前还停留在口号阶段。真正值得关注的是那份后续报告——如果它公开了模型在材料、能源、天体物理等领域的实际表现和失败案例,才值得认真讨论。现在能说的只是:他们把人聚起来了,模型跑起来了,但结果还没看到。
HKR 分解
hook ✓ knowledge ✓ resonance —
2025-02-27 · 星期四 2025年2月27日
OpenAI 博客 · rss EN 14:00 · 02·27
日本二手平台 Mercari 用 GPT-4o mini 帮卖家自动写商品描述,转化率有提升
Mercari 在 2024 年 9 月上线了 AI Listing Support 功能,用户上传商品照片后,GPT-4o mini 自动生成分类、标题和描述。最初用的是 GPT-4,后来换成 GPT-4o mini 以降低延迟和成本,并且能处理多张图片。目前每分钟生成几百条 AI 辅助的商品页,转化率有提升,但正文没披露具体百分比。另一个功能是 M...
#Multimodal #Vision #Tools #Mercari
精选理由
HKR-K 通过是因为正文包含了模型切换、多图输入和吞吐量等具体细节。但硬排除规则中的纯营销案例适用:这是供应商客户案例,转化率提升没有披露具体数字,所以重要性上限为 39。
HKR 分解
hook — knowledge ✓ resonance —
● P1 OpenAI 博客 · rss EN 12:00 · 02·27
OpenAI 发布 GPT-4.5 系统卡,安全风险没比现有模型更高,但也没给跑分和价格
OpenAI 在 2025 年 2 月 27 日公开了 GPT-4.5 的系统卡,说这是他们目前规模最大、知识面最广的模型。它基于 GPT-4o 继续扩大预训练,用了监督微调(SFT)和人类反馈强化学习(RLHF)这些常规方法,目标是做一个比纯推理模型更通用的家伙。早期测试感觉对话更自然,知识更宽,更能理解用户意图,情绪感知也强了点,写东西、编程、解决...
#Alignment #Safety #OpenAI #GPT-4.5
精选理由
这份 GPT-4.5 系统卡最值得看的是 OpenAI 自己划的线:模型上线前,缓解后的风险评分必须卡在 Medium 或更低。评分表里,CBRN 和说服力两项是 Medium,网络安全和模型自主性都是 Low,但正文没披露具体基准分数、上下文窗口和定价。OpenAI 说没发现比现有模型有明显安全风险上升,这点先别太激动,毕竟没给原始数据。我会先打个折,把它当成一份安全治理声明,而不是完整评测报告。
一句话点评
OpenAI 发了 GPT-4.5 的系统卡,定位是知识面更广、聊天更自然的通用模型,不是专攻推理的理科生。安全评分没爆雷,但正文没给具体跑分和对比数据,这点先别太激动。
锐评
这份系统卡把 GPT-4.5 定位成 GPT-4o 的放大版:预训练规模更大,用了监督微调和人类反馈强化学习这些老办法,目标是让模型知识更广、更懂人话、更少胡说。早期测试说它写东西、写代码、解决实际问题时感觉更自然,情商也更高。
安全方面,OpenAI 按自己的预备框架打了分:生化风险中、网络安全低、说服力中、自主性低,都在可部署的“中”及以下。但系统卡正文没放具体的基准测试分数,也没和 GPT-4o 做逐项对比,只说“没发现安全风险显著增加”。这让人很难判断“最大最强”到底强了多少,还是只是体感变好。
目前是研究预览,OpenAI 自己也在摸它的边界。缺的是实打实的量化对比、推理任务上的表现,以及这种大尺寸模型的实际推理成本——如果真的很贵,那“更自然”的代价就得掂量一下。
HKR 分解
hook — knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 10:00 · 02·27
OpenAI 发布 GPT-4.5 研究预览版,说是目前最大、聊天最自然的模型
OpenAI 在 2 月 27 日放出了 GPT-4.5 的研究预览版,Pro 用户和开发者现在就能用。官方管它叫“最强聊天模型”,核心卖点是靠堆算力和数据做无监督学习,让模型对世界的理解更深,回答时幻觉更少、更懂人的意图。简单说,就是没走 o1 那种先想再答的推理路线,而是把 GPT 系列的老路子做到更大。文章给了两个具体数字:SimpleQA 准确...
#Reasoning #Alignment #OpenAI #Microsoft Azure
精选理由
OpenAI 发新旗舰,当天就该写。正文确认 GPT-4.5 研究预览已向 Pro 用户和全球开发者开放,HKR 三项全中。没给 95 分以上是因为正文摘录里没放 SimpleQA 分数、幻觉率、定价和上下文窗口这些关键数字,我会先打个折。
一句话点评
GPT-4.5 是 OpenAI 目前最大的聊天模型,主打更自然的对话和更低的幻觉率,但别把它当推理模型用。
锐评
GPT-4.5 走的是扩大无监督学习的老路,靠堆算力和数据让模型知识面更广、直觉更强。OpenAI 自己说它不擅长推理,那是 o1、o3 的活。这次主要提升在对话体验上:更会揣摩人的意图,回答更有“情商”,写作和创意任务表现更好。从官方给的 SimpleQA 测试看,准确率比 GPT-4o 高,幻觉率更低,但没给具体数字,只说“更好”。
训练上有个值得注意的点:他们用较小模型产出的数据来训练这个大家伙,目的是提高可控性和对细微差别的理解。这思路挺务实,但正文没披露用了哪些小模型、数据规模多大。另外,模型目前只是研究预览版,只开放给 Pro 用户和开发者,普通用户还摸不到。
我会先打个折:这些对比案例都是官方挑的,实际用起来是不是真那么“暖”、那么懂你,还得等更多人上手。成本、延迟、API 定价这些关键信息也都没提,想用在生产环境的人得再等等。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 09:30 · 02·27
OpenAI 和 Endex 合造了一个金融分析 AI Agent,专家盲测中 o1 胜率 70%
Endex 用 OpenAI 的 o1 和 o3-mini 搭了一个能自动读财报、做对账、写投资备忘录的 AI 分析师。关键数字:专家盲测里 o1 的输出有 70% 被选中,比第二名(12%)高出一大截;o3-mini 把每轮对话的延迟降到了原来的三分之一;在 Endex 自己的多模态提取测试(看图、看表、看 Excel)里,o1 准确率到了 99%。...
#Reasoning #Multimodal #Fine-tuning #OpenAI
精选理由
HKR 三个维度都成立:钩子是自主金融分析师,正文有 70% 盲测偏好、99% 图表提取准确率和 3 倍延迟降低。但这是 OpenAI 客户案例,按硬规则归为纯营销排除,分数上限 40。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 02·27
Hugging Face 与 IISc 合作,把印度多语言数据集 Vaani 搬到平台上
Hugging Face 和印度科学研究所(IISc)宣布合作,将印度最大的开源多语言数据集 Vaani 放到 Hugging Face 上。Vaani 项目始于 2022 年,目标是收集超过 15 万小时的语音和 1.5 万小时的转写文本,覆盖印度全部 773 个地区,尤其关注偏远地区的方言。目前第一阶段(80 个地区)的数据已经开源,第二阶段正在扩...
#Hugging Face #IISc #Partnership
精选理由
这是一条只有标题的合作公告。HKR三项全不达标:没有可交付成果,没有语种覆盖、数据规模、模型名称或时间表,从业者无法评估任何实际影响;评分落在40分以下,直接排除。
HKR 分解
hook — knowledge — resonance —
2025-02-25 · 星期二 2025年2月25日
● P1 OpenAI 博客 · rss EN 10:00 · 02·25
OpenAI 发布 Deep Research 系统卡,披露安全测试与风险评级
OpenAI 在 2 月 25 日公开了 Deep Research 的系统卡,说明这个能自己上网搜资料、读文件、写 Python 做分析的智能体,在发布前做了哪些安全功课。他们按内部准备框架给四个高风险领域打了分:生化核辐射风险、网络安全、说服能力和模型自主性,四项都是“中等”。OpenAI 的规矩是,只有风险缓解后不高于“中等”的模型才能上线,所以...
#Agent #Reasoning #Safety #OpenAI
精选理由
OpenAI 官方系统卡,有明确的部署门槛、6 类风险拆解和 4 个 Preparedness Medium 评级,HKR 三项都踩中了。没给 P1 是因为这更像现有产品的安全交底,不是新模型发布,而且样本量和通过率都没披露,验证强度存疑。
一句话点评
OpenAI 给 Deep Research 发了安全报告,四项核心风险评级全是“中等”,刚好卡在可发布的及格线上。
锐评
这份系统卡是 OpenAI 在发布 Deep Research 功能前做的安全交底。它用的是一个早期版 o3 模型,能自己上网搜资料、读 PDF、写 Python 分析数据,相当于让模型进业务流程干活了。报告重点查了六个风险区:提示注入、违规内容、隐私、代码执行、偏见和幻觉。在 Preparedness 框架下,生化核辐、网络安全、说服力和模型自主性这四项评级全是“中等”——刚好是允许部署的最高线,再高一级就不能发了。
我会先打个折:报告只给了评级结果,没放具体测试数据和失败率,也没说红队测试到底发现了什么漏洞、修了多少。隐私保护部分提到加强了网上个人信息的防护,还训练模型抵抗搜索时遇到的恶意指令,但具体怎么做、效果如何,正文没披露细节。这点先别太激动,系统卡更像一份合规声明,不是技术深潜。想评估实际风险,还得等第三方实测或者他们放出更细的评估数据。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 04:15 · 02·25
爱沙尼亚要把 ChatGPT 接入全国中学,明年秋天从高一高二开始
OpenAI 和爱沙尼亚政府合作,计划在 2025 年 9 月先让全国的高一、高二学生和老师用上 ChatGPT Edu。这是第一个由国家政府牵头、覆盖整个中学阶段的 ChatGPT 接入项目,不是某个学校的试点。ChatGPT Edu 是专门给学校用的版本,带 GDPR 合规和企业级管控,正文没提具体价格和总覆盖人数。爱沙尼亚本身 ChatGPT 使...
#Tools #Code #OpenAI #Estonia
精选理由
爱沙尼亚政府跟 OpenAI 签的是全国中学接入 ChatGPT Edu,不是零散的校园实验。2025 年 9 月先从 10、11 年级开始,OpenAI 提供产品、API 和技术支持,还带 GDPR 合规和企业级安全控制。但正文没写多少钱、多少席位、后续年级什么时候扩,这些缺口让实际落地速度要打个折。我会先别太激动,等看到预算和覆盖人数再说。
一句话点评
爱沙尼亚要在全国中学推 ChatGPT Edu,这是第一个国家级的部署,但新闻稿没提具体怎么评估教学效果,先当试点看。
锐评
爱沙尼亚政府跟 OpenAI 合作,计划从 2025 年 9 月起,先给全国 10 年级和 11 年级的学生和老师用上 ChatGPT Edu。这是全球第一个把这种教育定制版 AI 铺到整个国家中学系统的项目,不是只给几个大学校园用。新闻稿说,爱沙尼亚每 4 个人里就有 1 个活跃的 ChatGPT 账号,主要用来辅导学习、编程和写作,底子确实不错。
但这份公告是 OpenAI 自己发的,属于单方面宣传,没有独立第三方的评估或教育部的详细实施计划。它只讲了能帮老师减负、给学生个性化反馈这些方向,没给出任何衡量标准,比如学生成绩变化、教师培训覆盖率、数据隐私的具体审计机制。ChatGPT Edu 虽然号称符合 GDPR,但在全国未成年人场景里大规模用,实际合规细节和长期影响都还是空白。
另外,项目叫 AI Leap 2025,是总统牵头拉企业一起做的,延续了 1996 年让学校电脑化的 Tiger Leap 思路。历史包袱轻、数字化基础好是爱沙尼亚的优势,但 AI 进课堂比配电脑复杂得多,正文没披露课程怎么改、老师怎么训、不用 AI 的学生会不会被落下。这些缺口决定了现在还只能把它当成一个值得跟踪的大规模实验,而不是成熟方案。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 02·25
FastRTC:给 Python 加实时语音视频通话能力
Hugging Face 发布了一个叫 FastRTC 的 Python 库,专门用来给 AI 应用加实时语音和视频通话。核心思路是帮你省掉 WebRTC 的复杂配置,用几行代码就能搭一个能说话、能打断的语音聊天界面。内置了语音检测和自动切换说话人,还自带一个 Gradio 测试界面,甚至能免费生成一个电话号码让用户打进来。正文没披露具体的延迟数字和传...
#Tools #Hugging Face #Product update
精选理由
标题只确认了 FastRTC 是一个 Python 实时通信库,正文为空。真正该盯的是它是否接 WebRTC 栈、延迟多低、怎么跟 Gradio 和 Transformers 配合,这些都没说。信息量不足以支撑任何判断,直接排除。
HKR 分解
hook — knowledge — resonance —
2025-02-21 · 星期五 2025年2月21日
OpenAI 博客 · rss EN 06:30 · 02·21
OpenAI 发报告:过去一年怎么拦截 AI 被用来干坏事
OpenAI 在 2025 年 2 月 21 日发了一份报告,讲他们怎么检测和阻止有人拿 AI 干坏事,比如儿童性剥削、隐蔽舆论操控、诈骗、垃圾信息和恶意网络攻击。这是他们第二年公开这类信息。报告里放了几个案例,但没披露具体封了多少账号、删了多少内容,也没讲技术细节。正文没披露具体数字,所以不好判断力度有多大。
#Safety #Alignment #OpenAI #Ben Nimmo
精选理由
OpenAI 的滥用报告对从业者有参考价值,但正文信息量不足。HKR-R 通过是因为信任与安全话题有共鸣;HKR-K 不通过是因为没有披露处置数量、涉事账号和检测技术细节;HKR-H 是常规报告标题,所以留在 all 层级。
一句话点评
OpenAI 发了一篇报告,讲他们怎么用 AI 抓 AI 的恶意使用,比如国家支持的舆论操控、诈骗、网络攻击。报告里列了几个案例,但正文没披露具体手法和成功率,只说了“趋势和特征”。亮点是 OpenAI 自称是第一个公开这类报告的 AI 实验室,已经坚持了一年。但信息量有限,更像公关稿——展示自己做了事,但没给太多可复用的细节。如果你关心 AI 安全对抗,可以下载 PDF 看看案例,但别指望...
锐评
OpenAI 这次公开了第 2 年恶意使用 AI 处置报告,但正文没给处置数量、账号规模、检测命中率。我的判断很直接:这份东西有政策信号,情报价值偏弱,离平台治理需要的可审计披露还差一截。
先说我为什么不太买账。它点名了儿童剥削、隐蔽影响行动、诈骗、垃圾信息、恶意网络活动,这些分类谁都知道重要;问题在于,分类不是证据。文章只说有 case studies,还把完整报告丢到 PDF 里,落地页本身没有一条可复核的数据。封了多少账户,人工审查占比多少,模型侧拦截和账号侧封禁怎么分工,误杀率多少,复发率多少,正文都没披露。你很难据此判断 OpenAI 的检测体系是在扩大覆盖,还是只挑了几个能讲的样本。
我一直觉得,做这类披露最怕“威胁情报化叙事”盖过“平台治理指标”。Ben Nimmo 这一路的写法,长处是能把影响行动和国家关联网络讲得很清楚;短处也在这,报告很容易变成案例展板,而不是风控记分板。对做模型安全的人来说,后者更关键。我们需要看到的是:哪类滥用最常见,生成侧拦截占多少,注册侧和支付侧拦截占多少,文本模型和图像模型的滥用分布有什么差异。标题给了“disrupting”,正文没给 disruption 的口径,这就有点不对劲了。
外部参照其实不少。微软和 Google 过去一年发的威胁报告,通常至少会给 campaign 名称、攻击链条、基础设施模式,偶尔还会讲到检测方法和行为特征。OpenAI 去年那份 state-affiliated threat actors 报告,虽然也没把关键指标全摊开,但至少在叙事上更聚焦,读者能知道它拦的是哪类国家关联操作。这次把儿童剥削、诈骗、垃圾信息、网络攻击全装进一个篮子里,覆盖面更大,信息密度反而被摊薄了。我自己没看到 PDF 全文里的每个 case,单看这篇落地页,像是在向监管者证明“我们在做事”,不是向同行证明“这套系统怎么工作”。
还有一层背景不能省。2025 年的大平台安全披露,已经不该停留在“我们阻断了坏人”这个级别。模型厂商现在同时扮演 API 提供者、消费级产品平台、内容审核方、企业安全供应商的混合角色。角色越多,越该给口径。最起码要有时间范围、处置阈值、账号去重规则、自动化与人工复核比例。没有这些,外界无法比较 OpenAI、Anthropic、Google、Meta 谁更严,甚至无法判断同一家公司今年是不是比去年更有效。
说真的,我认可公开披露这件事本身。连续第 2 年发布,总比完全不说强。可如果 OpenAI 想把这类报告做成行业标准,它下一步就得把“案例集”往“指标集”推。哪怕先给 3 个数字也行:处置账号数、主要滥用类型占比、从检测到封禁的中位时间。没有这些,这份报告更像政策沟通材料,不像安全工程文档。
HKR 分解
hook — knowledge — resonance ✓
2025-02-20 · 星期四 2025年2月20日
FEATURED OpenAI 博客 · rss EN 06:00 · 02·20
OpenAI 报告:美国 18-24 岁人群超三分之一用 ChatGPT,各州差距明显
OpenAI 发报告说,美国 18-24 岁年轻人里超过三分之一在用 ChatGPT,他们发的消息里大约四分之一跟学习或作业有关。各州差距挺大:加州、弗吉尼亚、新泽西、纽约用的人最多,怀俄明、阿拉斯加、蒙大拿、西弗吉尼亚最低。报告还提到,四分之三的高等教育学生想要 AI 培训,但只有四分之一的大学提供了。OpenAI 建议搞 AI 扫盲、扩大免费版覆盖...
#OpenAI #Commentary #Policy
精选理由
HKR-K 扎实:有具体采用率、使用场景、州级差异和培训缺口数字。HKR-R 过关:就业准备是从业者关心的议题。HKR-H 偏弱:这是公司政策报告,不是产品或模型事件,所以留在 all 层级。
一句话点评
OpenAI 自己出的报告说美国超三分之一大学生用 ChatGPT,但各州差距很大,加州、弗吉尼亚等州用得多,怀俄明、阿拉斯加等州用得少。
锐评
这份报告是 OpenAI 自己发布的,所以对 ChatGPT 的正面作用会讲得比较满,这点先打个折。核心数据是:美国 18-24 岁年轻人里超过三分之一在用 ChatGPT,其中约四分之一的对话跟学习有关,比如写论文、头脑风暴。这个比例不低,但报告没披露样本量、调查方式,也没说“用”的定义是每周一次还是每天一次,所以数字的扎实程度要打个问号。
报告真正值得看的是各州之间的差距。加州、弗吉尼亚、新泽西、纽约的采用率最高,怀俄明、阿拉斯加、蒙大拿、西弗吉尼亚最低。OpenAI 把这跟未来的劳动力竞争力挂上了钩,说雇主现在更愿意招有 AI 技能的人,哪怕经验少一点。这个逻辑方向对,但报告没给出各州具体差距有多大,也没分析差距是因为收入、学校政策还是网络基建。
另外,报告提到四分之三的大学生想要 AI 培训,但只有四分之一的高校在提供。这个供需缺口是实打实的,但 OpenAI 给出的解决方案——比如把 ChatGPT 免费版推给学生、推动政府出钱补贴——本质上还是在推广自家产品。还缺什么:缺第三方独立调查的交叉验证,缺各州差距背后的原因分析,也缺对“学生用 ChatGPT 到底是在辅助学习还是在走捷径”的诚实讨论。
HKR 分解
hook — knowledge ✓ resonance ✓
2025-02-19 · 星期三 2025年2月19日
Hugging Face 博客 · rss EN 00:00 · 02·19
PaliGemma 2 Mix:谷歌新视觉语言模型,但正文没内容
谷歌发布了 PaliGemma 2 Mix,标题说它是面向指令的视觉语言模型。但正文是空的,所以模型大小、跑分、上下文长度、怎么获取这些关键信息都没披露。目前只能知道名字和定位,其他都得等后续。
#Multimodal #Vision #Google #Product update
精选理由
标题确认 Google 发了指令视觉语言模型 PaliGemma 2 Mix,但正文是空的,除了名字和模态什么都没披露。HKR 三项全挂:没有数字、机制、基准、上下文长度或发布条款,所以分数低于 40,归入 excluded。
HKR 分解
hook — knowledge — resonance —
2025-02-14 · 星期五 2025年2月14日
FEATURED OpenAI 博客 · rss EN 07:00 · 02·14
OpenAI 和《卫报》母公司签了内容合作,ChatGPT 能直接引用卫报文章了
OpenAI 宣布跟 Guardian Media Group 达成合作,ChatGPT 每周 3 亿用户以后能直接看到《卫报》的报道和加长版摘要,内容会带上出处和原文链接。同时《卫报》内部也会部署 ChatGPT Enterprise,用来开发读者端和业务端的新工具。公告没提授权费、分成比例和具体上线范围,所以商业条款还不清楚。
#Tools #OpenAI #Guardian Media Group #ChatGPT
精选理由
OpenAI 官方发了个和卫报的合作公告,ChatGPT 会直接展示卫报新闻的扩展摘要,带署名和回链,同时卫报全公司用上 ChatGPT Enterprise。我会先打个折:这就是一笔常规的出版商授权,没有模型升级或产品大改。但公告里给了几个新数字——每周 3 亿用户、扩展摘要这种展示形式——说明 OpenAI 在把内容分发和授权打包谈,这对依赖搜索流量的媒体来说挺要命。正文没提商业条款、收入分成和具体接入范围,所以没法判断卫报到底赚了多少,只能停在“值得关注”这档。
一句话点评
OpenAI 和《卫报》签了内容合作,ChatGPT 能直接展示卫报文章摘要并附链接,卫报内部也会用 ChatGPT Enterprise 做产品和运营。但公告没写付费细节,别急着当成新闻业的大救星。
锐评
这条合作的核心就两件事:一是卫报的报道会进 ChatGPT,给全球每周 3 亿用户看,展示时会带署名和原文链接;二是卫报自己把 ChatGPT Enterprise 部署到业务里,用来开发读者产品和内部工具。听起来是双赢,但公告完全没提钱——是 OpenAI 付内容授权费,还是纯资源置换,正文没披露。这点很关键,因为之前《纽约时报》是直接起诉 OpenAI 侵权的,卫报选择合作,姿态不同,但商业条款决定了这到底是一笔划算的版权生意,还是一次品牌曝光交换。另外,卫报一年前发过自己的 AI 原则,强调人工监督、为读者和业务服务,这次合作算是原则落地,但具体怎么用 ChatGPT Enterprise、用在哪些场景,也没展开。我会先打个折:有 3 亿用户的分发量,对媒体触达新读者确实有用,但没看到任何关于内容准确性控制、编辑流程介入的说明,长期看新闻质量和品牌独立性怎么保,还是个问号。
HKR 分解
hook — knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 02·14
Hugging Face 用 Math-Verify 重跑所有模型,数学排行榜大洗牌
Hugging Face 发现 Open LLM 排行榜的数学评测一直有 bug:模型答对了但格式不对(比如没写“Final answer is ...”),就被判错。他们用新工具 Math-Verify 重新评估了全部 3751 个模型,结果排行榜几乎翻了个底朝天。Math-Verify 能更灵活地提取答案,不再死抠格式,还修复了 SymPy 解析符...
#Benchmarking #Hugging Face #Math-Verify #Open LLM Leaderboard
精选理由
HKR-H 成立,因为“修正旗舰榜单”这个动作本身就暗示排名可能洗牌。HKR-K 不成立,正文为空,Math-Verify 的方法、受影响模型、分数变动幅度一概没给。HKR-R 成立,榜单信任度影响模型选择与开源竞争,所以是 all 而非 featured。
一句话点评
Hugging Face 用新工具 Math-Verify 重跑了 Open LLM 排行榜上全部 3751 个模型的数学题成绩。之前的问题出在解析答案上:模型输出格式稍微不对(比如没写 'Final answer is ...'),SymPy 就解析失败,直接判错。新工具放宽了提取规则,能识别更多写法。重评后排名大洗牌,之前因为格式丢分的模型分数回升。正文没披露重评前后具体分数变化,只说排...
锐评
Hugging Face 这次要用 Math-Verify 修 Open LLM Leaderboard,但目前只有标题,修正规则、覆盖模型、分数变动幅度正文未披露。我的判断是,这条如果落到默认评测链路里,受冲击最大的不是榜单尾部,而是那批靠宽松字符串匹配吃分的模型。
我一直觉得开源榜单在数学题上有个老毛病:模型明明推到了正确答案,最后格式多了单位、分数没约分、用了 \boxed{} 或自然语言包了一层,旧评测脚本就会误判。反过来也有另一面,模型输出了看着像答案的片段,抽取器抓错位置,也会被算对。Math-Verify 这套思路如果和我记忆里社区在用的版本一致,核心不是再训一个 judge,而是把答案规范化、做等价校验、尽量减少表面字符串带来的误差。这个方向我买账,因为它比 LLM-as-a-judge 更可复现,也更容易审计。
上下文是,过去一年几家主流榜单都在补 evaluation leakage 和 parser bug。LiveCodeBench、SWE-bench、Arena 系列各修过各的问题,开源榜单这边反倒常被拿来当营销海报,很多人盯总分,不盯 harness。数学项又最容易放大这个问题,因为同一道题天然存在多种等价写法。只要判分器不稳,0.5 到 2 分的波动就足够把一串模型名次洗一遍。我还没看到 Hugging Face 这次是否只改数学子集,还是会回刷历史分数;如果不回刷,只加新规则,新旧分混在一起就会更乱。
我也有个保留意见。Math-Verify 能修“答案等价”,修不了“题集污染”。如果某些模型早就见过 GSM8K、MATH 这类公开数据,再精细的判分也只是把脏尺子磨光一点。另一个问题是多语种和符号混排,尤其中文解题、LaTeX、代码块混在一起时,等价校验很容易出边角 bug。标题已经给出要修榜,正文没披露回溯范围、失败样例、人工抽检比例;没有这些,我不会急着把新排名当成能力重估,只会把它当成一次必要但迟到的基建维护。
HKR 分解
hook ✓ knowledge — resonance ✓
2025-02-13 · 星期四 2025年2月13日
OpenAI 博客 · rss EN 10:01 · 02·13
Fanatics 博彩财务团队用 ChatGPT 省下每月 18 小时,但没说用了哪个模型
Fanatics Betting and Gaming 的财务团队用 ChatGPT 做流程自动化,其中一个叫 VendorID GPT 的工具能自动识别供应商和总结合同,每月省约 18 小时。公司还搞了 AI 自动化工作组、全员基础 ChatGPT 培训,以及一天内和数据科学家一起搭定制 GPT 的“GPT-athon”。正文没披露用了哪个模型版本、...
#Tools #OpenAI #Fanatics Betting and Gaming #Andrea Ellis
精选理由
这是一篇供应商案例,核心信息就是 Fanatics 用了 ChatGPT,所以触发硬排除——纯营销稿,分数上限 40。只有 HKR-K 那条每月省 18 小时算具体数字,能过门槛;模型版本、部署范围和量化 ROI 正文都没披露。
HKR 分解
hook — knowledge ✓ resonance —
OpenAI 博客 · rss EN 10:00 · 02·13
Wayfair 把 ChatGPT 塞进了法务、研发和商品库,新 API 开发快了 85%
Wayfair CTO 在 OpenAI 的访谈里说,他们用生成式 AI 把新 API 的创建速度提升了 85%,法务团队用 ChatGPT 扫用户评论里的产品安全风险,研发用来翻新老代码。核心不是搞个聊天机器人,而是把 AI 嵌进商品目录、工程和风控流程。不过正文没披露用了哪个模型、部署规模多大、花了多少钱。亮点是“多模态搜索”——用户拍张图或说“绿...
#Agent #Multimodal #Code #Wayfair
精选理由
这是一篇供应商包装的客户案例,核心信息是Wayfair用OpenAI效果不错,所以按硬排除-纯营销处理。它有一个可用的事实——API创建速度提升85%,以及命名的业务流程,但模型名称、部署规模、成本、基线数据和复现细节均未披露。
HKR 分解
hook — knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 07:00 · 02·13
Rogo 用 OpenAI o1 做金融分析,投行分析师每周省 10+ 小时
Rogo 是一个面向投行、私募和对冲基金的 AI 金融平台,已服务 5000+ 银行家,能搜索 5000 万份金融文档。架构上分层用模型:GPT-4o 做问答,o1-mini 把数据整理成适合搜索的结构,o1 负责评估、生成合成数据和复杂推理。分析师平均每周省 10 小时。关键不是“AI+金融”这个方向,而是他们做了路由分层和人工标注——前银行家团队给...
#Agent #Fine-tuning #Reasoning #Rogo
精选理由
硬排除——纯营销:这是OpenAI客户案例,核心信息是Rogo用OpenAI做金融研究,所以tier保持excluded。HKR-K靠5000万文档、3模型路由和每周10+小时通过,但HKR-H和HKR-R都很弱。
HKR 分解
hook — knowledge ✓ resonance —
2025-02-12 · 星期三 2025年2月12日
FEATURED OpenAI 博客 · rss EN 13:00 · 02·12
OpenAI 更新了模型行为规范,并把它完全开源了
OpenAI 在 2 月 12 日发布了新版 Model Spec,相当于一份教模型怎么“做人”的说明书,并且用 CC0 协议开源,谁都可以拿去用或改。这次更新主要明确了指令优先级:平台规则最大,然后是开发者设定,最后才是用户指令,用户可以在这个框架内随意定制模型行为。规范里还写入了“智力自由”原则,鼓励模型客观探讨任何话题,不预设政治立场,但碰到造炸...
#Alignment #Safety #OpenAI #Safety/alignment
精选理由
OpenAI 这版 Model Spec 在 HKR 的 K 和 R 上都踩中了,加上是官方一手信源,分量够。我会先打个折——文章给了原则和机制,但没给评测分数和落地模型,所以分数卡在 featured 低位。真正值得盯的不是“显著提升”这种说法,而是他们把“知识自由”写进规范,同时又保留平台级拒绝边界,这对开发者来说是个需要仔细读的博弈点。
一句话点评
OpenAI 更新了模型行为规范,把“知识自由”写进原则,并公开了模型遵守度的早期测试数据。
锐评
OpenAI 这次更新的 Model Spec,说白了就是给模型定了一套更细的“员工守则”。核心变化是明确了一条指令优先级:平台(OpenAI)> 开发者 > 用户,这意味着用户和开发者虽然能深度定制模型行为,但最终解释权还是在 OpenAI 手里。另一个值得关注的点是,他们把“知识自由”作为原则写了进去,鼓励模型在不造成实质伤害(比如教人造炸弹)的前提下,可以探讨任何敏感或有争议的话题,不预设立场。
他们还首次放出了模型遵守这份规范的测试图表。从图上看,相比去年 5 月的版本,新模型在各项原则上的遵守度都有明显提升,官方认为这主要归功于对齐技术的进步,而不仅仅是改了规则。不过,正文没披露具体的测试样本量和通过标准,只说这些题目是模型生成加人工审查做的,所以这个“进步”有多大参考价值,还得看他们后续会不会公开更详细的评估方法。
目前这份规范以 CC0 协议开源,谁都能拿去用或改。但说到底,它还是一份原则性文件,具体执行时模型会不会在复杂场景下“灵活变通”,以及如何平衡“知识自由”和“守住边界”之间的灰色地带,正文没给出案例,这是未来实际落地时最需要盯住的地方。
HKR 分解
hook — knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 02·12
Hugging Face Hub 从分块升级到块,上传下载更快
Hugging Face 正在把 Hub 的存储方式从“分块”改成“块”,目的是加快上传和下载速度。目前只发了标题,正文没披露具体提速多少、怎么实现的、什么时候上线。不过他们提到,之前的分块方案在 45PB 数据、200 万个仓库的规模下会产生 6900 亿个分块,导致网络请求爆炸、数据库撑不住、成本飙升。新方案应该能缓解这些问题,但具体效果还得等更多信息。
#Tools #Inference-opt #Hugging Face #Product update
精选理由
标题确认了 Hub 传输单元从 chunks 改成 blocks,所以 HKR-H 靠这个具体的 infra 钩子通过。HKR-K 不通过,因为帖子没披露任何提速幅度、机制、范围或上线细节。HKR-R 限于重度 Hub 用户,所以 tier 定为 all 而不是 featured。
一句话点评
HuggingFace 把上传下载从按文件切块改成按内容去重块,实测能快 2-3 倍。核心是避免 6900 亿个碎块带来的网络和数据库开销。目前只集成在 xet-core 里,普通用户还没默认开启,想用得上得等 huggingface_hub 更新。
锐评
Hugging Face 把 Hub 传输单元从 chunks 改成 blocks。正文未披露提速倍率、协议层实现、适用仓库类型、客户端版本要求,现阶段能确认的只有标题本身。
我对这条的第一判断很直接:这更像一次传输栈重构的信号,不该先按“性能新闻”来读。上传下载要想明显变快,通常不是把名词换一下就够了,背后得碰到分片大小、并发调度、断点续传、校验方式、对象存储写入路径,甚至 CDN 缓存命中。标题只说 chunks 变 blocks,没有给任何一个机制位点,我没法接受“变快”已经成立。
这类改动在模型仓库里其实很关键。过去一年,单个仓库动辄几十 GB,甚至上百 GB,safetensors 分片、数据集 parquet、LFS 大文件都会把传输层放大成用户体验问题。Git LFS 早就证明过,小文件多和超大文件都能把吞吐打碎;如果 Hugging Face 这次是在重写 Hub 的大文件传输路径,那影响会比博客标题大得多。我还没查到他们是不是动了 Xet、hf_transfer 这一侧,或者只是服务端换了块级去重/预取策略。标题没说,不能脑补。
我自己的疑虑有两个。第一,blocks 这个词听起来像更底层,也更适合去重和随机范围读取,但块变小会增加元数据和索引开销,块变大又会伤增量重传,具体取值决定结果。第二,上传和下载被放在一起讲,我有点怀疑这是把两条不同路径打包成一个市场话术。很多系统下载快,不代表上传也快,尤其在校验、合并和权限检查更重的时候。
所以这条先别急着庆祝。等正文补出来,我最想看四个点:提速倍率在什么文件规模下成立;HTTP 范围请求还是自定义协议;是否要求新 CLI 或新 SDK;现有仓库是否自动受益。没有这些,标题只能算产品方向,不算性能结论。
HKR 分解
hook ✓ knowledge — resonance —
2025-02-10 · 星期一 2025年2月10日
Hugging Face 博客 · rss EN 16:10 · 02·10
Open R1 第二次更新:页面被 Hugging Face 限流,正文没看到
Hugging Face 发了 Open R1 项目的第二次更新,但点进去只看到 429 限流页面,正文内容完全没披露。目前唯一能确认的是标题和来源,具体更新了什么——模型改动、代码提交、跑分结果、发布时间——一概未知。想了解真实信号得等 Hugging Face 解除限流后再看全文。
#Hugging Face #Product update #Open source
精选理由
RSS 条目只暴露了标题和来源,Open R1 的实际改动、代码、参数和基准结果全都没披露。HKR 三项在当前证据下都不成立,所以分数低于 40,排除。
HKR 分解
hook — knowledge — resonance —
FEATURED OpenAI 博客 · rss EN 06:00 · 02·10
OpenAI 与北欧最大媒体集团 Schibsted 达成合作,把旗下报纸内容直接接进 ChatGPT 做新闻摘要
ChatGPT 会开始用 VG、Aftonbladet 等北欧大报的文章来回答用户的新闻类问题,覆盖 3 亿用户。回答里会标明出处和媒体品牌,方便读者去原站核实。公告没提授权费怎么分、合同签了多久、具体能用哪些文章。Schibsted 的 CEO 说这是为了在 AI 平台越来越影响信息获取方式时,早点进去摸索怎么让高质量新闻在 AI 环境里继续赚钱。他...
#RAG #Tools #OpenAI #Schibsted Media Group
精选理由
OpenAI 自己发的合作消息,产品效果很具体:Schibsted 旗下几家报纸的内容会以带来源标注的摘要形式出现在 ChatGPT 里,覆盖 3 亿用户。我会先打个折,因为正文没写合作期限、授权范围和钱怎么分,这些关键信息都空着。但值得留意的是,授权新闻正进一步嵌入 ChatGPT 的主回答链路,不再只是外挂搜索导流,这对媒体分发和平台信息控制权都有影响。
一句话点评
OpenAI 跟北欧大报集团 Schibsted 签了内容授权,ChatGPT 能直接引用 VG、Aftonbladet 等媒体的新闻做摘要。这是笔典型的“用曝光换内容”交易,但具体付没付钱、付了多少,正文一个字没提。
锐评
OpenAI 又拿下一家传统媒体,这次是北欧的 Schibsted,旗下有 VG、Aftonbladet 等几家大报。合作模式很标准:ChatGPT 在回答里直接引用这些媒体的新闻做摘要,附上出处链接,让用户能去原站核实。对 Schibsted 来说,好处是能蹭到 ChatGPT 那 3 亿用户的流量;对 OpenAI 来说,是给产品补上北欧地区的实时新闻源,减少模型瞎编的风险。
公告里举了几个 Schibsted 自己用 AI 的例子,比如 Aftonbladet 的聊天机器人答了 60 万次美国大选相关问题,还有把文字新闻转成音频和视频。这些数字说明 Schibsted 内部已经在推 AI 应用,不是被动接洽。但整篇稿子没披露任何商业条款——是单纯的流量置换,还是有固定授权费,完全不清楚。CEO 的话里提到“探索新的商业机会”和“变现”,暗示他们想借这波合作找找 AI 环境下的收入模式,但目前还停留在“探索”阶段。
缺的信息很关键:授权范围到底多大,是全文还是摘要;有没有排他性;数据会不会被拿来训练模型。这些不明确,就没法判断这笔交易对 Schibsted 是赚是亏。
HKR 分解
hook — knowledge ✓ resonance ✓
2025-02-09 · 星期日 2025年2月9日
FEATURED OpenAI 博客 · rss EN 22:00 · 02·09
OpenAI 发了一篇公关文:ChatGPT 用户破 3 亿,八成是 35 岁以下
OpenAI 在 2 月 9 日发了一篇名为“Introducing the Intelligence Age”的博客,核心信息是 ChatGPT 用户量已超 3 亿,其中近八成用户年龄在 35 岁以下,今年 1 月有七分之一美国成年人用过它。文章还提到 ChatGPT 上线两个月就达到 100 万用户,比 Netflix(约 10 年)和 Fortn...
#Multimodal #Tools #OpenAI #Sam Altman
精选理由
OpenAI 罕见地公布了 ChatGPT 的采用数据,所以 K 和 R 都成立。但整篇是政策宣言,没有新模型、价格、基准或发布时间表,价值在于市场规模的上下文,不是技术更新,所以不上 featured。
一句话点评
OpenAI 在超级碗投了首支电视广告,把 ChatGPT 和火、轮子、登月并列,想讲一个“智能时代”的品牌故事。
锐评
这不是产品发布,而是一次品牌定调。OpenAI 把 ChatGPT 放进人类工具史里,从火、轮子一路排到互联网,最后落在自家产品上,意图很明确:把 AI 叙事从“技术突破”拉高到“文明进程”。文章给了几个数字:ChatGPT 月活超 3 亿,1 月美国成年人里七分之一用过,近八成用户不到 35 岁。这些数字说明渗透速度确实快,但没提付费转化、留存和实际使用深度,所以“普及”和“深度使用”是两回事。
广告制作本身是个案例:团队用 Sora 做视觉脑暴,说能更快出方案、压缩工期。这算一个轻量级的“AI 辅助创意”示范,但正文没给具体效率对比数据,也没说最终成片里 Sora 素材占多少,所以别当生产力报告看。
文章后半段列了一串应用场景,从国家实验室科研到反无人机,都是之前公开过的合作,没有新进展。整体看,这篇更像面向大众和政策的愿景声明,不是给从业者看的干货。还缺的东西很明显:没讲模型能力边界、没讲成本、没讲安全治理的具体动作,也没回应近期关于版权和能耗的争议。
HKR 分解
hook — knowledge ✓ resonance ✓
2025-02-07 · 星期五 2025年2月7日
FEATURED OpenAI 博客 · rss EN 17:00 · 02·07
OpenAI 在巴黎 AI 行动峰会更新安全承诺,ChatGPT 周活用户达 3 亿
OpenAI 在巴黎 AI 行动峰会上说,ChatGPT 现在每周有 3 亿人在用。他们更新了自愿安全承诺的进展:从上次首尔峰会后,已经给 4o、o1、Sora、Operator 和 o3-mini 这五个前沿模型发了系统卡(详细的安全评估报告)。今年晚些时候还会更新他们的“准备框架”,调整风险阈值和应对策略。对从业者来说,一个实际信号是:deep r...
#Safety #Alignment #OpenAI #Sanofi
精选理由
我会先打个折,这篇本质是OpenAI在巴黎AI峰会上的表态稿,公关味重。但能拎出来的硬信息有三块:一是ChatGPT周活冲到3亿,规模摆在那;二是首尔峰会后他们给4o、o1、Sora、Operator和o3-mini都发了系统卡,安全披露没断档;三是今年要更新Preparedness Framework,而且deep research扩容前也会先发系统卡——这点比峰会表态更实在,说明安全报告正在变成上线前的固定动作。正文没披露这些系统卡的具体结论和外部审计情况,所以安全承诺的含金量还得看后续执行。
一句话点评
OpenAI 在巴黎峰会前发了篇预热文,核心是秀肌肉和表安全态度,但具体政策和经济蓝图都还没出,先当预告看。
锐评
OpenAI 赶在巴黎 AI 行动峰会前发了这篇公告,主要讲了两件事:一是要在欧洲推“AI 经济学”活动,为后续发布欧洲经济蓝图造势;二是更新了他们在安全承诺上的进展。文章提到 ChatGPT 周活用户到了 3 亿,这个数字说明用户规模确实大,但正文没披露付费转化或企业客户占比,商业健康度看不出来。
安全部分,他们重申会更新《准备框架》,并列举了给 4o、o1 等五个模型发了系统卡。这算是按首尔框架交作业,但更新后的风险阈值和缓解策略要“今年晚些时候”才公布,现在能看到的还是旧版本。另外,文章提了跟美英安全机构的合作,但没给出第三方评估的具体结论,只说做了测试。
整篇公告更像一份峰会立场声明,实际政策细节和欧洲经济蓝图都还缺位。法国案例里提到的 Sanofi、Orange 等合作,也只给了定性描述,没有效率提升或成本节省的数据支撑。
HKR 分解
hook — knowledge ✓ resonance ✓
2025-02-05 · 星期三 2025年2月5日
FEATURED OpenAI 博客 · rss EN 22:00 · 02·05
OpenAI 在欧洲推出数据本地存储选项
OpenAI 给 API、ChatGPT 企业版和教育版加了欧洲数据驻留功能。新开的 API 项目可以选欧洲区处理请求,OpenAI 不留存请求和回复数据;新开的企业/教育版工作区可以把对话、文件、图片等内容静态存储在欧洲。但公告没列出具体哪些 API 接口支持这个功能,已有的项目也没法改成欧洲区,这点要注意。
#Tools #Vision #Multimodal #OpenAI
精选理由
OpenAI 给欧洲开了个数据驻留选项,API 新建项目可以选欧洲区域处理请求,而且不留数据;ChatGPT Enterprise 和 Edu 新建工作区能把对话和上传文件静态存在欧洲。我会先打个折——现有项目不能迁移,这点挺要命的,别一激动就当全量可用。正文没列出具体哪些接口支持,实际覆盖范围还得自己测。对要过欧盟合规关的团队来说,零保留加区域存储是实打实的进展,但落地限制不少,先看清楚再动手。
一句话点评
OpenAI 在欧洲开了数据本地存放,企业版和 API 都能选欧洲处理数据,合规门槛降了一截。但注意,API 只支持新建项目,老项目改不了。
锐评
OpenAI 宣布在欧洲提供数据本地存放服务,覆盖 ChatGPT 企业版、教育版和 API 平台。API 客户可以新建项目并指定欧洲区域,模型请求和回复不会在服务器上落盘保存。企业版和教育版的新工作区则可以把对话、上传文件等内容静态存放在欧洲。这直接回应了 GDPR 等数据主权要求,对欧洲客户是个实打实的合规加分项。
不过有几个限制得说清楚。API 这边,只有新建项目才能选欧洲,已有的老项目没法改区域,迁移成本不低。正文没提推理算力是否也在欧洲本地跑,只说了数据静态存放和零保留,延迟和可用区覆盖范围都没给具体数字。另外,数据不用于训练是默认设置,但客户主动同意分享的话,这条保护就失效了。
还缺什么:欧洲本地 GPU 推理的具体延迟数据、支持哪些模型端点、以及老项目未来能不能迁移。这些没公布之前,别把“数据本地化”直接等同于端到端都在欧洲。
HKR 分解
hook — knowledge ✓ resonance ✓
2025-02-04 · 星期二 2025年2月4日
OpenAI 博客 · rss EN 11:30 · 02·04
OpenAI 拿下加州州立大学系统,23 个校区 50 万人用上 ChatGPT Edu
OpenAI 宣布与加州州立大学系统(CSU)合作,在其 23 个校区部署 ChatGPT Edu,覆盖超过 46 万学生和 6.3 万教职工,总计超 52 万人。这是 OpenAI 目前单笔最大的 ChatGPT 部署。校方计划用 GPT 做课程开发、个性化辅导和行政减负,还提供免费 AI 培训和认证,并连接实习项目。不过正文没披露合同金额或每用户定...
#Tools #OpenAI #California State University #ChatGPT Edu
精选理由
HKR 的 H 和 K 靠规模数据通过:23 个校区、52 万+席位。但这是一篇第一方客户部署的公关稿,没有定价、合同期限或使用效果,硬排除规则 5 适用,分数上限被压在 40 以下。
HKR 分解
hook ✓ knowledge ✓ resonance —
FEATURED Hugging Face 博客 · rss EN 00:00 · 02·04
π0 和 π0-FAST:给机器人用的视觉-语言-动作通用控制模型
Hugging Face 把 Physical Intelligence 的机器人基础模型 π0 和 π0-FAST 移植到了自家的 LeRobot 仓库里。π0 是一个视觉-语言-动作模型(VLA),跟常见的视觉-语言模型(VLM)不同,它不光能看图说话,还能直接输出机器人该怎么做动作。π0-FAST 则是在注意力机制上做了加速,用 FlexAtte...
#Robotics #Vision #Multimodal #Hugging Face
精选理由
标题看起来像是一个值得关注的VLA机器人模型发布,所以HKR-H和HKR-R在新鲜度和受众相关性上能过。HKR-K不通过,因为正文完全缺失:训练数据、机器人平台、控制频率、评测基准都没披露,信息不足以支撑精选。
一句话点评
Physical Intelligence 的机器人基础模型 π0 和 π0-FAST 已移植到 Hugging Face LeRobot,现在可以直接下载、推理和微调。
锐评
这条消息对想动手试机器人模型的人是个好消息。π0 是一个视觉-语言-动作模型,你可以把它理解成不仅能看图说话、还能直接输出机械臂动作指令的模型。它的升级版 π0-FAST 用了一种新的动作表示方法,号称推理更快、训练更省资源。现在这两个模型都进了 Hugging Face 的 LeRobot 生态,意味着你不用从头搭环境,就能跑预训练权重,甚至用自己的机器人数据做微调。
不过,这篇博客主要是技术移植和教程性质的介绍,没有给出 π0 或 π0-FAST 在具体任务上的成功率、泛化能力对比,也没提训练用了多少机器人数据、覆盖了哪些硬件平台。所以目前只能确认代码和模型权重开放了,但它在你家机械臂上到底好不好用,还得自己测。另外,FAST 的加速效果在什么硬件上测的、延迟降到多少毫秒,正文也没给具体数字,这点先别太激动。
HKR 分解
hook ✓ knowledge — resonance ✓
Hugging Face 博客 · rss EN 00:00 · 02·04
HuggingFace 要把 DeepResearch 开源了,但正文啥也没说
HuggingFace 发了一篇博客,标题说要把 DeepResearch 开源,口号是“释放我们的搜索智能体”。但点进去页面返回 429 错误,正文完全没内容。目前能确认的只有“开源”和“搜索智能体”这两个方向,代码仓库、许可证、跑分、发布时间全都没披露。想跟进的话只能等 HuggingFace 补上正文或放出 repo。
#Agent #Tools #Open source #Product update
精选理由
标题说开源 DeepResearch,但正文为空,只确认了主题涉及开源和搜索代理。模型结构、许可协议、评测数据、发布时间一概没提。H 和 R 靠标题和话题性撑住,但 K 完全失败——没有仓库、基准或日期可验证。按硬排除规则第 6 条处理,重要性压到 40 以下,tier 定为 excluded。
HKR 分解
hook ✓ knowledge — resonance ✓
OpenAI 博客 · rss EN 00:00 · 02·04
我用自家狗子当人设,给女儿做了个AI数学家教
一位英国老爸用ChatGPT的GPT功能,给12岁女儿Daisy定制了一个数学辅导机器人,人设是家里的狗Izzy。专门教分数乘法和长除法,女儿最后通过了英国小学毕业数学考试(SATs),但正文没披露具体分数、用了哪个模型版本、以及GPT的具体配置方法。做法可复制:把GPT限定到年级、薄弱知识点和固定人设。
#Tools #Reasoning #OpenAI #ChatGPT
精选理由
正文讲了一个父亲用ChatGPT给女儿搭数学辅导GPT的案例,亮点是设成狗的语气,但实操细节缺失:没披露用了哪个模型版本、提示词怎么写、训练数据量多少,分数也只说'通过SATs',没有前后对比。整体更像一篇产品体验分享,不是技术方案或行业洞察,按规则硬排除在营销故事类,分数压到40以下合理。
HKR 分解
hook ✓ knowledge — resonance —
2025-02-02 · 星期日 2025年2月2日
● P1 OpenAI 博客 · rss EN 16:00 · 02·02
OpenAI 把深度调研做进了 ChatGPT:让它自己上网查几百个网页,5 到 30 分钟出一份带引用来源的报告
OpenAI 给 ChatGPT 加了一个叫“深度调研”的功能,不是简单的搜索总结,而是让模型自己上网分步干活。你丢一个复杂问题过去,它会花 5 到 30 分钟去翻几百个网页、图片和 PDF,边查边分析,最后生成一份带清晰引用出处的报告。背后跑的是专门为上网浏览和数据分析调过的 o3 模型,训练时就用到了浏览器和 Python 工具的真实任务。到 20...
#Agent #Reasoning #Tools #OpenAI
精选理由
这不是一次普通的搜索改版,而是把自主多步研究能力打包成产品接口。文章给出了具体的技术实现(o3 模型、浏览器和 Python 工具训练)和使用限制(不同套餐次数),信息密度高且可验证。对知识工作者来说,这个功能可能直接压缩现有工作流,所以值得当天就写。HKR 三项都成立:钩子强、干货足、对核心读者群有直接冲击。
一句话点评
OpenAI 给 ChatGPT 加了个能自己上网查资料、写报告的功能,叫 deep research。它花几十分钟干的活,人可能要花好几个小时。
锐评
这个功能让 ChatGPT 从“你问我答”变成了“你给个题目,它自己去搜几百个网页,最后交一份带引用出处的分析报告”。它背后用的是还没正式发布的 o3 模型,专门训练了浏览器和 Python 工具的使用,能边查边调整方向。官方说适合金融、科研这类需要深挖信息的活,也能帮你做买车、买家电的功课。
目前看,它更像一个能自动干活的初级研究助理。报告会标注来源,方便核实,这点对实际工作挺重要。但官方也承认有局限,比如可能搞错事实或者推理过头。另外,现在只有 Pro 用户能用,Plus 用户要等到 2 月 25 号,而且没提免费版什么时候上。
我最关心的是它“自主判断信息”的可靠性到底有多高。报告写得再像样,如果关键数据引用错了,用的人还得花时间重查一遍。这点先别太激动,等更多实际案例出来再看。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2025-01-31 · 星期五 2025年1月31日
● P1 OpenAI 博客 · rss EN 11:00 · 01·31
OpenAI 发布 o3-mini,一个更便宜、更快的推理模型,专攻数理化和编程
OpenAI 在 1 月 31 号把 o3-mini 放到了 ChatGPT 和 API 里,这是他们推理系列里目前成本最低的模型。它主打 STEM(科学、数学、编程),速度比 o1-mini 快,Plus 和 Team 用户的每日使用额度也从 50 条提到了 150 条。这个模型首次在小型推理模型上支持了函数调用、结构化输出和开发者消息,也支持流式传...
#Reasoning #Code #Tools #OpenAI
精选理由
o3-mini 是 OpenAI 当天上线的新模型,属于必须写的级别。HKR 三项全中:发布动作本身就是钩子,有具体用量和对比数据,而且直接打中开发者关心的高性价比推理场景。我会先打个预防针——正文截断了,Codeforces 等完整跑分没全露出来,但现有信息已经够判断它的分量。
一句话点评
OpenAI 发了 o3-mini,一个小模型但推理能力很强,STEM 场景下能打平甚至超过 o1,而且免费用户也能用。
锐评
o3-mini 是 OpenAI 目前最省钱的推理模型,主打数理化和编程。它最大的变化不是跑分,而是把推理模型的门槛打下来了:免费用户第一次能用上推理模型,Plus 用户每天从 50 条涨到 150 条。性能上,中等推理强度就能在 AIME 数学题和 GPQA 博士级科学题上打平 o1,高强度下甚至超过 o1,Codeforces 编程分也到了 2073 Elo。不过要注意,这些跑分是 OpenAI 自己给的,没有第三方复现。另外它不支持视觉,看图还得用 o1。开发者关心的函数调用、结构化输出这次都给了,还加了低中高三档推理强度可调,这点对实际落地挺实用。但正文没提具体延迟数据和成本对比,只说比 o1-mini 快、便宜,具体省多少得等实测。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 11:00 · 01·31
OpenAI 发布 o3-mini 系统卡:整体风险定级为“中”,模型自主性首次达到“中”
OpenAI 给 o3-mini 的最终安全评分是“中”等风险,其中在生化核辐射、说服力和模型自主性这三项上都是“中”,网络安全是“低”。这是 OpenAI 第一个在“模型自主性”上拿到“中”的模型,主要因为它的编程和研究工程能力更强了。但别急着慌,系统卡里说它在“现实世界机器学习自我改进”的测试里表现还很差,没达到“高”风险的门槛。OpenAI 的规...
#Reasoning #Alignment #Safety #OpenAI
精选理由
这是 OpenAI 官方的系统卡,不是日常宣传稿。我会先打个折:正文没给具体的基准分数,所以它算不上那种炸裂的模型发布。但它把 o3-mini 的部署后总体风险定在 Medium,模型自主性也首次到了 Medium,还明说了部署要求不高于 Medium、继续开发不高于 High——这些门槛本身比一个孤零零的分数更有看头。对从业者来说,知道模型现在踩在哪条线上,比单纯看跑分更实在。
一句话点评
OpenAI 发了 o3-mini 的安全卡,模型自主性首次达到中等风险,但别慌,它在自我改进的实操测试里表现还很差。
锐评
这份系统卡是 OpenAI 自己出的,相当于 o3-mini 的“体检报告”。核心看点是,在内部安全框架下,o3-mini 的“模型自主性”风险评级首次被提到了中等。这主要是因为它的编程和研究工程能力变强了。但报告也直说,在模拟真实世界机器学习研究的测试里,它干不了自我改进的活,所以没到高风险。另外,在说服力、化生放核风险上也是中等,网络安全风险低。整体看,OpenAI 认为经过安全措施后,这模型可以上线。
报告里提了用“深思熟虑对齐”的方法,让模型在回答危险问题前先自己推理一遍安全政策,这算是个新尝试。不过,正文没给出具体的评测数据和对比基准,只说在某些防越狱、防刻板印象的测试里达到了顶尖水平。这点先别太激动,没看到具体数字和测试集,很难判断这个“顶尖”到底有多硬。
还缺什么?缺第三方独立评测,缺具体的安全测试通过率和失败案例。光看这份自评报告,只能知道 OpenAI 认为它安全,但实际表现还得等社区大规模测试后才能下结论。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 10:29 · 01·31
Mini-R1:用强化学习复现 DeepSeek R1 的“啊哈时刻”
Hugging Face 发了一篇教程,教你怎么用 GRPO 强化学习算法在“倒计时数字游戏”上复现 DeepSeek R1 那种“啊哈时刻”——模型自己学会在解题时多思考一会儿、重新检查步骤。教程用了 4 张 H100 GPU,搭配 DeepSpeed 和 vLLM 做分布式训练。不过正文目前只有标题和目录,训练数据量、奖励函数设计、最终效果这些关键...
#Reasoning #Hugging Face #DeepSeek #Commentary
精选理由
标题有H和R,但K不成立——正文是空的,没有训练设置、奖励设计、数据规模、复现结果。这触发了硬排除规则:零来源。所以分数低于40,排除。
HKR 分解
hook ✓ knowledge — resonance ✓
2025-01-30 · 星期四 2025年1月30日
● P1 OpenAI 博客 · rss EN 10:00 · 01·30
OpenAI 把 o 系列推理模型部署到美国国家实验室的超算上,先给 1.5 万名科学家用
OpenAI 在 2025 年 1 月 30 日宣布跟美国国家实验室签了协议,把 o1 或另一款 o 系列模型部署在洛斯阿拉莫斯实验室的 Venado 超算上。这台超算用的是 NVIDIA 芯片,会作为共享资源开放给洛斯阿拉莫斯、劳伦斯利弗莫尔和桑迪亚三个国家实验室的大约 1.5 万名科学家。主要用在材料科学、可再生能源、天体物理、疾病防治、电网安全这...
#Reasoning #Safety #OpenAI #U.S. National Laboratories
精选理由
我会先打个折:这不是新模型发布,也不是能力大跳跃,而是一次部署合作。但 OpenAI 把 o 系列模型送进洛斯阿拉莫斯、利弗莫尔、桑迪亚这三家核武相关实验室,还专门为核与 CBRN 用例设计了带安全许可研究员参与的审查流程,这个信号比普通商业合作重得多。标题和摘要里 1.5 万名科学家、Venado 超算这些数字让消息有肉,不是空泛的“战略合作”。所以 HKR 三项都站得住,重要性给 82、放在 featured 合理。
一句话点评
OpenAI 把推理模型部署到美国国家实验室的超算上,让科学家用。合作范围很广,但具体怎么用、效果如何,正文没给细节。
锐评
OpenAI 宣布跟美国三家国家实验室(洛斯阿拉莫斯、劳伦斯利弗莫尔、桑迪亚)签了协议,会把 o1 或同系列推理模型部署在洛斯阿拉莫斯的 Venado 超算上,供约 15000 名科学家共享使用。这台超算是英伟达的,专为材料、能源、天体物理等研究设计。合作方还包括微软,负责提供算力基础设施。
从列出的方向看,覆盖基础科学、疾病治疗、电网安全、能源勘探、威胁检测甚至核安全,摊子铺得很大。但公告没给出任何性能指标、算力规模或预期时间表,也没说明模型在这些高精尖场景下的可靠性验证到什么程度。核安全那部分提到会有安全审查和 OpenAI 持密研究员参与,算是唯一一处具体的安全机制说明,但同样没有展开。
这件事的信号意义大于实操细节。把最先进的推理模型放进国家实验室,确实可能加速一些计算密集型科研,但到底能省多少时间、解决什么以前解决不了的问题,现在还完全看不出来。后续如果没有论文、基准测试或案例公开,就只能当一次高规格的合作官宣来看。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2025-01-28 · 星期二 2025年1月28日
● P1 OpenAI 博客 · rss EN 06:00 · 01·28
OpenAI 给美国政府做了个专用版 ChatGPT,叫 ChatGPT Gov
OpenAI 在 2025 年 1 月 28 日发布了 ChatGPT Gov,专门给美国联邦、州和地方机构用。这个版本可以部署在机构自己的微软 Azure 商业云或政府云上,让 IT 部门自己管安全、隐私和合规,比如满足 IL5、CJIS、ITAR 和 FedRAMP High 这类严格的安全框架。功能上跟企业版差不多:能用 GPT-4o 模型,支持...
#Tools #Multimodal #Code #OpenAI
精选理由
这是一次包装和部署层面的发布,不是模型能力的大跳跃,但附带了实打实的采用数据。OpenAI把ChatGPT打包成符合美国政府安全要求的版本,跑在Azure政府云上,直接瞄准IL5、CJIS这类合规门槛。我会先打个折:正文没披露定价、具体哪些机构在用、以及实际部署后的性能或安全审计结果。但3500多家机构、9万用户、1800万条消息这些数字本身就有说服力,说明政府侧需求真实存在。所以给featured而不是p1,因为这不是前沿模型突破,而是产品化和渠道动作,但信息密度和信号强度都够。
一句话点评
OpenAI 给美国政府做了个自托管版 ChatGPT,数据留在自家 Azure 云里,安全合规自己管。但正文没提价格和具体上线时间。
锐评
OpenAI 发布 ChatGPT Gov,简单说就是让美国政府部门能在自己管控的微软 Azure 商业云或政府云里跑 ChatGPT,不用把敏感数据交给 OpenAI 的公共 SaaS。这解决了政府最头疼的安全合规问题,比如它明确提到支持 IL5、CJIS、ITAR 这些严苛的安全框架,甚至还在考虑未来接入 Azure 的机密云区域。功能上跟企业版差不多,能用 GPT-4o、自定义 GPT 和管理后台。
文章给了几个使用数字:3500 多个联邦、州和地方机构已经用了,发了 1800 多万条消息。宾州一个试点项目说,用的人平均每天省下约 105 分钟。这个数字来自 OpenAI 自己的文章,没看到第三方验证,所以效果可以先打个折看。
目前缺的关键信息是定价和 FedRAMP 中高级认证的具体进度。文章只说在推进,没给时间表。另外,所有案例都来自 OpenAI 单方面披露,没有独立评估,实际落地效果和潜在风险还看不清。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
FEATURED Hugging Face 博客 · rss EN 00:00 · 01·28
Open-R1:完全开源复刻 DeepSeek-R1,Hugging Face 要补上缺失的代码和数据
Hugging Face 宣布启动 Open-R1 项目,目标是完全开源复刻 DeepSeek-R1。DeepSeek-R1 本身性能对标 OpenAI o1,训练成本仅 550 万美元,靠纯强化学习(没用人工标注数据)就让模型学会分步推理。但 DeepSeek 没公开训练代码、数据筛选方法和超参数,Open-R1 就是要补上这些。项目会从收集推理数据...
#Reasoning #DeepSeek #Open source #Commentary
精选理由
HKR-H 和 HKR-R 靠“开源复现”这个角度和它在推理模型竞争中的共鸣通过。HKR-K 不通过,因为正文是空的;训练数据、模型规模、许可证、评测结果都没披露,所以留在 all 而不是 featured。
一句话点评
DeepSeek-R1 的训练配方公开了,但数据和代码没给全,Hugging Face 要自己动手复现一遍。
锐评
Hugging Face 发起 Open-R1 项目,打算把 DeepSeek-R1 的训练流程完整复现出来。DeepSeek 的论文讲了用纯强化学习(GRPO)让基础模型学会推理,但没公开训练代码、具体数据集和超参数,等于给了菜谱没给食材清单。他们自己会从数据收集、训练到规模化实验全走一遍,验证论文里的结论。
DeepSeek-V3 这个基座模型训练成本压到了 550 万美元,靠的是混合专家架构和大量硬件优化,这个数字确实低,但复现时能不能用更小的模型跑通类似流程,是 Open-R1 要回答的关键问题。目前项目刚启动,正文没披露具体时间表和资源投入,也没说会基于哪个开源基座模型来做。
对社区来说,这事如果做成,意味着大家能拿到一套可复现的推理模型训练方案,不用再猜 DeepSeek 到底怎么调的参。但现阶段还缺验证结果,先别太激动,等他们跑出第一批数据再说。
HKR 分解
hook ✓ knowledge — resonance ✓
2025-01-24 · 星期五 2025年1月24日
Hugging Face 博客 · rss EN 00:00 · 01·24
smolagents 现在能看图了
Hugging Face 给它的智能体框架 smolagents 加上了视觉能力,现在智能体可以直接用视觉语言模型(VLM)看图,而不是只读文字。最直接的用处是做一个能自己浏览网页的智能体——它能看到页面布局、图标颜色这些纯文本抓不到的信息。实现方式有两种:一是在启动时一次性传入图片,适合处理带图的长 PDF;二是通过回调函数在每一步动态截图并塞进模型...
#Agent #Multimodal #Vision #Hugging Face
精选理由
这是一个方向性的产品更新:Hugging Face 给 smolagents 加了视觉输入能力,所以 HKR-H 和 HKR-R 成立。评分给 64 是因为能确认的信息只有“支持 VLM”,具体支持哪些模型、API 长什么样、有没有可复现的代码,正文都没说,信息缺口太大,没法给更高分。
一句话点评
Hugging Face 给 smolagents 加了视觉能力,现在 agent 能看图操作网页了。支持两种传图方式:启动时一次性传入(适合文档分析),或通过回调每步动态截图(适合浏览器 agent)。正文没披露具体延迟和成本,但思路挺实用——让模型自己看页面布局和图标,比纯文本提取信息更准。
锐评
Hugging Face 这次把 smolagents 接上 VLM,关键信息只剩一个条件:正文没放出来。基于标题,我的判断很直接,这更像产品层把多模态补齐,不像底层 agent 范式有了新突破。标题能确认的是“smolagents 支持 VLMs”,不能确认的是支持哪些模型、输入格式怎么定义、tool calling 是否能吃图像、状态管理是不是改了,正文都没披露。
我对这条的兴趣点不在“支持视觉”,而在它怎么接。过去一年,agent 框架接多模态,分成两条路:一条是把图像当成普通消息块塞进 chat template,OpenAI、Anthropic、Gemini SDK 大多这么走;另一条是把视觉解析拆成单独工具,先 caption 或 OCR,再交给规划器。两条路差很多。前者开发体验更顺,但会把模型耦合死在某几家 API 上;后者更通用,开源模型和本地推理更好接,但 agent loop 会更长,延迟和错误传播也更难看。smolagents 以前给人的印象一直是轻、直接、少抽象层,所以我怀疑他们大概率会偏第一种;但我还没看到正文,不能替它下结论。
回到行业位置,这步也不算早。LangChain、LlamaIndex、OpenAI Assistants 那一挂,过去一年早就在把图像输入塞进 agent workflow。开源侧像 Qwen2-VL、Llama 3.2 Vision 这类模型出来后,用户对“agent 能看图”基本已经默认存在。Hugging Face 现在补上,更多是在避免 smolagents 留在纯文本时代。说实话,我对标题里的“now support”会留个心眼:很多产品说支持,最后只是 demo 能跑,不等于 memory、planning、tool schema、eval 都跟上了。只看标题,这些都还是空白。
所以这条现在还不能判强弱。我想看的不是宣传页,而是 3 个很具体的东西:一,消息协议里图像是 URL、base64,还是统一 content block;二,兼容的是 Transformers 本地模型、Inference API,还是只先接云端端点;三,有没有给出一个能复现的 agent 例子,比如读图后调用浏览器或 Python 工具。没有这些,VLM 支持就只是“能传图进去”。这对从业者有用,但离“好用”还差一大截。
HKR 分解
hook ✓ knowledge — resonance ✓
2025-01-23 · 星期四 2025年1月23日
● P1 OpenAI 博客 · rss EN 10:00 · 01·23 📰 2 信源
OpenAI 发布计算机交互代理 Operator 研究预览版
OpenAI 在 2025 年 1 月 23 日放出了一个研究预览版智能体,叫 CUA(Computer-Using Agent)。它把 GPT-4o 的视觉能力和强化学习训出来的推理能力揉在一起,不看代码接口,直接像人一样看屏幕截图、用虚拟鼠标键盘来操作图形界面。在 OSWorld 这类模拟真实电脑操作的测试里,它拿了 38.1% 的成功率,比之前最...
#Agent #Vision #Reasoning #OpenAI
精选理由
OpenAI 当天发布的 agent 产品,CUA 模型驱动 Operator,先推给美国 ChatGPT Pro 用户。HKR 三项全中:GUI 操控这个切入点本身就够新,文章给了机制和具体跑分,而且它把“自主干活 vs 人盯着”这个行业纠结的点直接拎了出来。
一句话点评
OpenAI 把能直接操作电脑的模型 CUA 放出来了,目前只给美国 Pro 用户用。它在模拟真实电脑操作的 OSWorld 上拿了 38.1%,比之前最好的 22% 高不少,但离人类 72.4% 还差一大截。
锐评
OpenAI 这次发布的不是聊天机器人,而是一个能看懂屏幕截图、自己点鼠标敲键盘的模型 CUA。它背后是 GPT-4o 的视觉能力加上强化学习训练出来的推理能力,不需要网站专门给它开接口,直接像人一样看像素操作界面。
从跑分看,CUA 在 OSWorld 上拿了 38.1%,比之前 Anthropic 的 22% 高出一截,说明它在完整电脑操作任务上确实有进步。在 WebArena 和 WebVoyager 这两个网页任务测试里分别拿了 58.1% 和 87%。WebVoyager 分数高是因为上面任务相对简单,WebArena 更复杂,分数就下来了,离人类 78.2% 还有明显差距。
目前这个研究预览版只开放给美国 Pro 用户,OpenAI 自己也在正文里说模型还早、有局限。他们没披露推理延迟和单次任务成本,这两点对实际落地很关键。另外,涉及登录、验证码这类敏感操作,模型会停下来让用户接管,说明安全边界还在靠人工兜底。整体看,方向有意思,但离稳定干活还有距离。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 10:00 · 01·23
OpenAI 发布 Operator 系统卡:一个能替你操作电脑的智能体,但高风险操作会强制让人确认
OpenAI 在 2025 年 1 月 23 日公开了 Operator 的安全评估报告。Operator 是一个能看懂屏幕截图、像人一样点击按钮和菜单的电脑操作智能体,底层结合了 GPT-4o 的视觉能力和强化学习训练出的推理纠错能力。它能帮你在浏览器里订菜、买票、填表,但也会引入新风险,比如被第三方网页里的恶意指令误导(提示注入攻击),或者自己操作...
#Agent #Vision #Reasoning #OpenAI
精选理由
这篇系统卡不是产品发布稿,而是安全说明书,但信息密度够高。我会先打个折:它只是 Operator 的配套文件,不是主产品公告,所以 featured 定位合理。真正值得看的是两件事:一是 OpenAI 把部署门槛定在缓解后 Medium 以下,这等于公开承诺了一个可验证的安全基线;二是高风险任务的处理很具体——金融交易、发邮件、删日程需要关键步骤确认,买卖股票直接封死。这些细节比泛泛的“安全第一”有用得多。说服力评 Medium 也值得留意,说明模型在影响人的决策上已经有一定能力,但还没到高危。整体事实清楚,没有发现错误或过时信息,对从业者判断 C...
一句话点评
OpenAI 发了 Operator 的系统卡,但正文没给具体数据,只说了在评估安全风险。
锐评
OpenAI 给 Operator 这个能替你操作浏览器的智能体发了份系统卡,相当于一份安全说明书。从标题看,这更像是一次风险评估的公开表态,而不是功能更新。目前正文被省略了,看不到具体披露了哪些安全指标、测试场景或失败案例。对从业者来说,系统卡有没有给出误操作率、被越狱的成功率、或者在真实网站上的翻车概率,才是判断这东西能不能放进业务流程的关键。如果只是笼统地讲‘我们做了红队测试’,那参考价值就打折扣了。我会先打个折,等看到具体数字再说。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 08:03 · 01·23
NVIDIA 发 KVPress:给大模型长文本推理省显存
NVIDIA 在 Hugging Face 上发了一篇博客,标题叫 KVPress,讲的是怎么让大模型处理长文本时更省显存。KVPress 大概率是一种 KV-cache 压缩方法——就是模型在生成每个新词时,不用把前面所有词的中间计算结果都存着,而是压一压再存,这样长文本推理时显存占用能降不少。不过正文目前是空的,只有标题,所以具体压了多少、用了什么...
#Inference-opt #Memory #Hugging Face #NVIDIA
精选理由
HKR三项全不满足:输入只有标题,没有模型名称、上下文长度、压缩方法、基准或代码。读者得不到任何可用的新事实,因此维持排除,分数34。
HKR 分解
hook — knowledge — resonance —
FEATURED Hugging Face 博客 · rss EN 00:00 · 01·23
SmolVLM 又变小了:256M 和 500M 参数版本发布
Hugging Face 发布了 SmolVLM 系列的两个新尺寸:256M 和 500M 参数,其中 256M 号称是目前最小的视觉语言模型。相比之前的 2B 版本,新模型换用了更小的 SigLIP 视觉编码器(93M 参数),但通过提高输入分辨率来弥补,实际效果差不多。训练时还用了新的 token 化技巧,虽然让训练损失变难看了,但实际跑分反而更高...
#Product update
精选理由
HKR-H 和 HKR-K 通过:256M 和 500M 的 VLM 是个清晰的钩子,标题也确认了新尺寸。HKR-R 不通过:正文缺失,架构、基准、延迟、许可证都没说,所以留在 all 而非 featured。
一句话点评
Hugging Face 把视觉语言模型压到了 2.56 亿参数,能在浏览器里跑,但复杂推理别抱太高期待。
锐评
这条消息的核心是“小”。Hugging Face 发布了 SmolVLM-256M 和 500M,其中 256M 版本自称全球最小的视觉语言模型。小到什么概念?它可以直接在浏览器里用 WebGPU 跑,或者塞进消费级笔记本,处理海量图片的成本比之前的 20 亿参数版低一大截。
技术上有几个实在的取舍。他们试了更大的视觉编码器,发现效果提升有限,干脆用了只有 9300 万参数的 SigLIP 来压缩体积。同时把图片分辨率拉高,用更少的参数换取更清晰的图像理解。训练时还搞了个小技巧,让测试集上的表现变好,虽然训练损失看起来更差了。
不过,正文没给出具体的推理延迟和显存占用数据,也没说在复杂文档理解上与 20 亿模型的差距有多大。这点先别太激动,小模型通常在长链条推理和细节捕捉上会打折。如果你只是想做个简单的图片描述或分类,它很省钱;但要处理复杂版面分析,最好自己拿真实数据测一下。
HKR 分解
hook ✓ knowledge ✓ resonance —
2025-01-22 · 星期三 2025年1月22日
OpenAI 博客 · rss EN 17:00 · 01·22
贝塔斯曼全线铺开 OpenAI,媒体集团最大规模企业级部署之一
贝塔斯曼宣布在全球多个品牌部署 ChatGPT Enterprise,OpenAI 称这是最大规模的企业级部署之一,但正文没披露具体坐席数和合同金额。关键信号是范围:这不是单个团队试点,而是由集团新设的 AI Hub 协调跨业务线落地。已披露的用例包括 RTL Deutschland 新闻室用 AI 辅助调查报道、企鹅兰登书屋用 AI 做社交媒体个性化...
#Tools #Agent #Multimodal #Bertelsmann
精选理由
这是一篇典型的客户案例通稿,贝塔斯曼宣布大规模部署 OpenAI,但关键信息——席位数、合同金额、部署节奏——全部未披露。已列的场景(新闻调查、荐书、搜索推荐、视频生成)都是常见的企业 AI 用法,没有新能力或意外应用。正文没披露任何成本或效率数据,所以没法判断实际影响。纯营销导向,按规则排除。
HKR 分解
hook — knowledge — resonance —
● P1 OpenAI 博客 · rss EN 10:00 · 01·22
OpenAI 发现:让 o1 系列模型多想一会儿,对抗攻击成功率会大幅下降
OpenAI 发了篇新论文,核心结论是:给 o1-preview 和 o1-mini 这类推理模型更多的“思考时间”(也就是推理时计算量),它们对对抗攻击的防御力会明显变强,很多攻击的成功率能降到接近零。他们测了数学题、SimpleQA 的提示注入、Attack Bard 的对抗图片,还有 StrongREJECT 的越狱提示词。结果发现,攻击者投入的...
#Reasoning #Safety #Benchmarking #OpenAI
精选理由
我会先打个折:OpenAI 自己在标题里写了“初步证据”,正文也没完整披露哪些情况下防御会失效,所以别当成熟方案看。但这条思路确实值得盯——不靠对抗训练,而是让模型多想一会儿来扛住没见过的攻击,在数学题、提示注入、滥用提示这几类测试里都看到了攻击成功率大幅下降。如果后续能确认成本和失效边界,对安全部署会是个挺省钱的方向。
一句话点评
OpenAI 发现让 o1 这类模型多“想”一会儿,能扛住更多对抗攻击,但有些攻击反而先变强再变弱,这点先别太激动。
锐评
这篇论文给了一个挺直观的发现:让推理模型在回答前花更多算力“思考”(也就是增加推理时间),可以明显降低被对抗攻击成功的概率。他们拿 o1-preview 和 o1-mini 做了实验,在数学题、事实问答、滥用提示等任务上,攻击成功率经常随着思考时间增加而降到接近零。这跟以往单纯堆模型大小但防不住攻击的路子不一样,而且模型事先并不知道攻击类型,说明这种防御对没见过的攻击也可能有效。
不过论文自己也列了限制。有些情况下,攻击成功率会先升后降——因为模型得先有足够算力去理解问题,才能被带偏。更关键的是,正文没披露那些“思考再久也防不住”的攻击具体是什么类型、占比多大,也没给出不同算力档位对应的实际延迟和成本。所以这目前还只是初步证据,离“靠堆推理时间就能解决对抗鲁棒性”的结论差得远。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2025-01-21 · 星期二 2025年1月21日
● P1 OpenAI 博客 · rss EN 13:30 · 01·21
OpenAI 拉上软银、甲骨文成立 Stargate,四年要砸 5000 亿美元建 AI 算力
OpenAI、软银、甲骨文和 MGX 联合成立了一家叫 Stargate 的新公司,计划未来四年在美国投 5000 亿美元建 AI 基础设施,首批 1000 亿美元已经启动。软银管钱,OpenAI 管运营,孙正义当董事长。目前得克萨斯州已经开始动工,Arm、微软、英伟达和甲骨文是首批技术合作方。这笔钱主要用来给 OpenAI 铺算力,OpenAI 也会...
#OpenAI #SoftBank #Oracle #Partnership
精选理由
这条远超常规合作公告。5000 亿四年、首批 1000 亿马上砸下去,OpenAI 把自己绑在了一个天文数字的基建计划上。HKR 全中:数字够吓人,分工和进度有实料,而且直接踩在算力控制权和资本集中的神经上。我会打 95 分,p1 没毛病。
一句话点评
OpenAI 拉上软银、甲骨文搞了个新公司,计划四年砸 5000 亿美元建 AI 算力,首批 1000 亿已经开动。数字很大,但正文没披露钱具体怎么分批到位、回报预期是什么,先当个超大规模基建宣言看。
锐评
OpenAI 联合软银、甲骨文和 MGX 成立了一家叫 Stargate 的新公司,打算在未来四年内投入 5000 亿美元,在美国为 OpenAI 建设专用的 AI 基础设施。首批 1000 亿美元已经启动,目前正在得克萨斯州开建,同时在全美范围内物色更多园区选址。软银管钱、OpenAI 管运营,孙正义出任董事长,Arm、微软、英伟达、甲骨文和 OpenAI 是初始技术合作方。
这笔钱的核心用途是堆算力,用来训练“领先模型”并最终通向 AGI。公告里特别提到,OpenAI 对微软 Azure 的消耗量还会继续增加,说明 Stargate 不是要替代现有云合作,而是在此之上再叠一层专属基建。
不过,这篇公告本质上是一份愿景声明,关键细节全缺:5000 亿美元是纯股权投资还是包含债务融资、各家的出资比例、建设时间表、电力供应如何保障,正文都没说。几百个“千”量级的就业岗位和“巨大经济效益”也没有任何测算依据。对从业者来说,这更像一个信号——OpenAI 在算力供给上不想再受制于人,但离真正把这么多钱变成可用的 GPU 集群,中间还有无数执行风险。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
FEATURED OpenAI 博客 · rss EN 13:30 · 01·21
OpenAI 发了个“星门基建”供应商征集表,不是项目官宣
OpenAI 上线了一个叫“Stargate Infrastructure”的页面,本质是一个供应商征集表单,面向美国数据中心基建公司,征集电力、土地、施工、设备等领域的合作意向。页面只要求填公司类型、产品、联系方式、合作兴趣,没有披露项目规模、投资金额、时间表或已签约的合作伙伴。换句话说,这不是“星门基建项目”的启动公告,更像是在广撒网找供应商。正文...
#OpenAI #Partnership #Commentary
精选理由
这是一手信源:OpenAI 官方页面明确在征集美国数据中心基础设施供应商,覆盖电力、土地、施工、设备。HKR 三项都满足,但正文没披露项目规模、预算、时间表或已签约伙伴,所以定 all 不上 featured。
一句话点评
OpenAI 发了个供应商招募表,想找建数据中心的全链条公司合作,但没提规模、预算和时间表。
锐评
这条消息本质是 OpenAI 在为自己的“星际之门”基建项目公开招商,想拉上从电力、土地、施工到设备的所有供应商一起干。页面就是一个表单,让公司填自己是做什么的、怎么联系。但正文没披露任何具体数字:没说要建多大、花多少钱、在哪建、什么时候动工。也没说这是之前软银参与的那个 5000 亿美元大项目的一部分,还是一个新的独立计划。对从业者来说,这更像一个信号:OpenAI 在认真铺自己的算力底座,不再完全依赖微软。但现阶段除了“他们开始找人”之外,没有更多可验证的实质信息。如果是真的在推进,后续应该会有选址或电力采购的招标细节出来,那才是值得跟进的节点。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2025-01-20 · 星期一 2025年1月20日
Hugging Face 博客 · rss EN 18:58 · 01·20
Hugging Face 现在允许组织发博客了
Hugging Face 上线了组织博客功能,但正文是空的,没说明哪些组织能用、权限怎么管、什么时候全面开放。关键看它会不会跟 Hub 现有的工作流(比如模型页、数据集页)打通。
#Tools #Hugging Face #Product update
精选理由
Hugging Face 开放组织账号发博客,标题看着像新能力,但正文为空,连发布条件、可用范围、权限模型和上线时间都没披露。目前只能确认功能上线,但无法判断是否并入现有 Hub 工作流、是否影响内容分发格局。信息量不足以支撑 H/K/R 任何一项,直接排除。
HKR 分解
hook — knowledge — resonance —
2025-01-17 · 星期五 2025年1月17日
FEATURED OpenAI 博客 · rss EN 13:00 · 01·17
ChatGPT 新增个性化设置:你可以告诉它你想要什么性格和说话风格
OpenAI 在 1 月 17 日发文宣布,ChatGPT 本周更新了自定义设置,用户可以指定模型应具备的特质(比如“机智”“有主见”“诗意”)、说话风格以及要遵守的规则。文章引用 5 月发布的 Model Spec(模型行为说明书)称,默认情况下 ChatGPT 应“保持客观立场”。但关键问题在于边界:OpenAI 强调个性化要与透明性结合,但正文没...
#Alignment #Tools #OpenAI #ChatGPT
精选理由
OpenAI 官方发文说 ChatGPT 本周更新自定义设置,用户可以指定 traits、说话方式和规则。正文确认了新增“Customize ChatGPT”入口,并引用 2024 年 5 月公开的 Model Spec,要求默认“assume an objective point of view”。HKR-K 和 HKR-R 通过:它确认了新入口和用户可设规则,还提供了一个清晰的“控制 vs 安全”讨论钩子。HKR-H 偏弱,而且价格、适用层级、上线范围、规则冲突仲裁机制都没披露。
一句话点评
OpenAI 更新了 ChatGPT 的个性化设置,你可以直接告诉它你想要的说话风格和规则。但整篇公告没给出任何用户数据或效果验证,更像一篇理念声明。
锐评
这篇公告的核心就一件事:ChatGPT 现在允许用户更细地定制它的回复风格,比如让它更幽默、更有主见,或者像个实验室助手。同时 OpenAI 搬出了五月发布的“模型说明书”,强调默认设定是尽量政治中立,用户不喜欢某个回答可以查是 bug 还是有意为之。
但全文没有披露任何关键数字——有多少人用了定制功能、满意度变化、是否影响回答准确性,这些一概没提。把 AI 比作“头脑的火箭”听起来很酷,可对于从业者来说,更想知道定制后模型幻觉率有没有波动,或者不同风格设定下推理成本会不会变。另外,所谓“透明度”目前只停留在公开一份内部文档,用户并不能实时看到模型决策路径。
这篇东西更适合看作 OpenAI 在监管和舆论压力下的一次姿态展示,想强调“我们只是工具,不灌输价值观”。实际产品力如何,还得等更多第三方测试和用户反馈。
HKR 分解
hook — knowledge ✓ resonance ✓
2025-01-16 · 星期四 2025年1月16日
Hugging Face 博客 · rss EN 00:00 · 01·16
Timm 模型现在可以直接在 Transformers 里用了
Hugging Face 发了一篇博客,说 Transformers 现在能直接调用 timm 库里的任何视觉模型。timm 是 PyTorch 上一个很流行的图像模型库,有超过 200 种架构,很多是移动端友好的轻量模型,之前 Transformers 不支持。现在通过一个叫 TimmWrapper 的封装层,你可以用 pipeline、AutoCl...
#Tools #Vision #Hugging Face #timm
精选理由
互操作性这个钩子对视觉从业者确实有吸引力,但 HKR 只过了 H:现有文本没披露 API 形态、支持范围、版本要求或性能影响,所以留在 all。
一句话点评
Hugging Face 把视觉模型库 timm 塞进了 transformers 生态,现在可以用 pipeline、AutoClass、量化、LoRA 微调一条龙跑任何 timm 模型。好处是省去自己写适配代码,尤其适合想快速试 mobile-friendly 小模型的人。但正文没披露集成后推理速度对比原生 timm 的损耗,也没说哪些模型兼容性有问题。
锐评
Hugging Face 在标题里把范围拉到“任意 timm 模型”,这个表述很满,条件却没给。正文为空,支持架构、调用入口、权重转换方式、版本要求、训练/推理限制、性能回退都未披露。只靠标题,我没法把它当成“无缝互通”,更像是 Hugging Face 在补一层视觉模型接入面,让 timm 这条老牌 PyTorch 视觉资产更容易吃到 transformers 的 Trainer、Hub、AutoClass 和部署工具链。
我对“任意”最保留的一点,在于 timm 从来不是一个只管分类 backbone 的小库。它里面有大量图像分类、ViT 变体、ConvNeXt、EfficientNet、Swin,也有不同预处理、head 设计、feature extraction 路径。transformers 这边的强项,是统一 config、processor、checkpoint、pipeline、generation 之外的训练接口。两边真要打通,麻烦不在能不能 import,而在预处理语义能不能完全对齐:resize、crop、interpolation、mean/std、label mapping、dynamic shape、feature pyramid 输出这些,只差一项,复现精度就会掉。标题没给 benchmark,我只能默认这层兼容先解决“能跑”,不是“结果完全一致”。
这事的行业上下文其实很清楚。2024 年 Hugging Face 一直在把非文本模型往 transformers 的统一 API 里收,视觉、语音、多模态都在走这条线;另一边,rwightman 的 timm 依旧是很多视觉训练脚本的默认底座,学术代码和工业微调里都很常见。两边接上,价值不在“新模型更强”,而在组织成本下降:原来一套 CV 代码、一套 NLP/MLLM 代码,现在想收敛成一套。这对平台团队比对研究团队更有吸引力。我自己见过不少团队卡在这里:模型不缺,缺的是统一评测、统一导出、统一部署。
但我还是要泼点冷水。兼容层经常把 80% 的 happy path 做得很好,剩下 20% 的边角最费人。比如自定义 head 怎么映射,timm 的 pretrained_cfg 怎么落到 transformers 的 image processor,state_dict 键名是不是一次性稳定转换,ONNX 或 TensorRT 导出会不会因为 wrapper 多一层就炸,量化和 torch.compile 会不会退化。标题没提,我还没查到。如果这些没处理,短期受益最大的其实是 demo、推理和基础 fine-tune,不是生产训练。
还有一个现实问题:如果 Hugging Face 只是“能加载 timm 权重到 transformers 壳子里”,那这条更像分发层胜利;如果它支持双向保存、AutoModel 注册、Trainer 原生训练、Hub 上统一卡片和评测,那分量就大很多。前者解决的是入口统一,后者才会改写团队选型。我现在倾向前者,因为后者通常会配版本矩阵、支持清单、性能对比,标题党式一句话不太像完整落地公告。
所以这条我先给半个好评:方向对,叙事有点满。等正文补出三样东西再下结论——支持范围清单、至少一组精度/吞吐对比、一个非 happy path 例子。没有这些,“任意 timm 模型”更像营销口径,不像工程承诺。
HKR 分解
hook ✓ knowledge — resonance —
Hugging Face 博客 · rss EN 00:00 · 01·16
TGI 现在支持 TRT-LLM 和 vLLM 两个推理后端
Hugging Face 宣布 Text Generation Inference 新增对 TRT-LLM 和 vLLM 两个推理后端的支持。但正文是空的,没披露集成设计、性能数据、模型覆盖范围或部署限制。真正关键的不是“支持了”,而是后端抽象层是否统一——这点先别太激动。
#Inference-opt #Tools #Hugging Face #Product update
精选理由
这篇只确认 TGI 新增了 TRT-LLM 和 vLLM 两个后端,但没给任何基准测试、抽象层细节或支持的模型范围。HKR 三个维度全不达标,所以归为 excluded,不算有意义的基建更新。
HKR 分解
hook — knowledge — resonance —
2025-01-15 · 星期三 2025年1月15日
FEATURED OpenAI 博客 · rss EN 03:00 · 01·15
OpenAI 和 Axios 达成内容合作,还出钱帮它在美国四个城市扩张本地新闻
OpenAI 宣布跟 Axios 签了内容合作协议,同时提供资金,帮 Axios 把本地新闻业务开到匹兹堡、堪萨斯城、博尔德和亨茨维尔这四个新城市。OpenAI 说现在合作的媒体机构接近 20 家,覆盖 160 多个新闻出口、几百个内容品牌和 20 多种语言。ChatGPT 的搜索功能会展示合作方的摘要、节选、出处和原文链接。正文没披露这次合作的具体金...
#RAG #Tools #OpenAI #Axios
精选理由
OpenAI和Axios的合作本身不算大新闻,但公告里透出的规模数字和Search展示方式挺实在。我会先打个折,因为资助金额和技术条款都没说,没法判断Axios到底拿了多少好处、模型具体怎么用他们的内容。不过对做AI应用和媒体的人来说,这相当于看到了一张更清晰的“AI搜索引用地图”:160多家机构、20多种语言,意味着引用和流量分配的模式在快速定型。这点值得留意,哪怕公告本身有点PR味。
一句话点评
OpenAI 和 Axios 合作,出钱帮后者在四个新城市建本地新闻编辑室。这是用投资换内容授权的老路子,但这次明确说了钱会用在招人上。
锐评
OpenAI 又签了一家媒体,这次是 Axios。合作模式没变:OpenAI 给钱、给技术,换取内容能在 ChatGPT 里展示摘要和链接。比较实在的一点是,公告里直接说了这笔投资会用来在匹兹堡、堪萨斯城等四个城市扩张本地新闻团队,而不是模糊的“赋能新闻业”。
文章还列了一串其他媒体的使用案例,比如美联社用 AI 把西班牙语翻译量提了 40%,葡萄牙语翻译翻倍;《大西洋月刊》在拿自己的百年存档做聊天机器人实验。这些数字能看出 AI 在辅助生产环节确实省了时间,但正文没披露这些合作的具体交易金额,也没说清楚 ChatGPT 给媒体网站带去了多少流量。对媒体来说,拿到钱续命是好事,但把自己的内容喂给一个可能直接回答用户、绕过原文的聊天机器人,长期看是亏是赚,这笔账还没算清。
HKR 分解
hook — knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 01·15
Hugging Face 发了个静态向量模型,训练快 400 倍,CPU 上就能跑
Hugging Face 发了一篇博客,说他们用 Sentence Transformers 训练静态向量模型(就是那种每个词或句子只对应一个固定向量的模型,不像大模型那样动态生成),速度比现有最先进的模型快 100 到 400 倍,而且质量能保住 85% 以上。他们放出了两个模型:一个做英文检索,一个做多语言相似度。实测在 CPU 上跑,比 all-...
#Embedding #Tools #Hugging Face #Sentence Transformers
精选理由
HKR-H 靠 400 倍速度这个钩子通过。HKR-K 和 HKR-R 不通过,因为片段没给数据集、硬件、基线或可复现条件,这个宣称很虚,只能留在 all 层级,不值得推荐。
一句话点评
Hugging Face 发了个新训练方法,能把静态 embedding 模型训到比主流模型快 100-400 倍(CPU 上跑),性能还能保住 85% 以上。代价是静态 embedding 本身不感知上下文,适合检索、聚类这类任务,不适合对话。正文没披露具体训练耗时和硬件成本,只说用了 30 个训练集、13 个评测集。这点先别太激动——快是快,但适用场景有限。
锐评
Hugging Face 在标题里宣称 Sentence Transformers 可把静态 embedding 训练提速 400 倍。正文未披露基线、数据集、硬件、batch、序列长度,这个数字现在还不够落地。
我先说判断:这条更像方法切换带来的数量级收益,不像同一任务下的纯工程优化。静态 embedding 这条线,本来就比双塔 encoder 轻很多。你如果把“在线编码每个句子”换成“先建词表再聚合”,训练速度拉开 10 倍到 100 倍,我不意外。标题直接写 400 倍,我会先问四个条件:比的是哪个 Sentence Transformers 配方,负采样怎么做,语料 token 分布怎样,GPU 还是 CPU。少一个,这个数都很难复现。
这事有上下文。过去一年,embedding 圈子一直在分叉:一边是 BGE、E5、gte 这类通用文本 encoder,效果强,训练和推理都更贵;另一边是更便宜的 sparse、static、hybrid 检索方案,靠成本和吞吐吃市场。很多团队把 reranker 留给热路径,把 embedding 压到冷路径,原因很现实:向量库账单和重建索引时间比榜单分数更疼。放在这个背景里,Hugging Face 这篇如果讲的是“用 Sentence Transformers 训练更便宜的 static model”,我觉得方向是对的。行业现在缺的不是又一个 SOTA encoder,而是能在千万到十亿文档规模上稳定重建索引的便宜方案。
但我对“400 倍”这个说法还是有点警觉。训练提速最容易被放大的地方,就是拿一个不公平基线来比。比如拿完整 transformer encoder 当对照,再把 static embedding 的查表式训练放上去,差距当然会很夸张。问题是,用户采购的不是“训练速度”这一个指标。他买的是检索质量、跨域泛化、词表外鲁棒性、多语种表现,还有上线后的索引更新成本。标题只给了速度,正文没给 MTEB、BEIR、召回率、内存占用,我没法判断这是工程上真能替代一部分 encoder,还是只适合预算极紧、语料很稳的场景。
我还想补一层经验判断。static embedding 不是新东西,FastText 那套词向量加子词信息,很多年以前就把“快”和“便宜”讲明白了。Sentence Transformers 现在如果把这条线重新包装起来,价值不在“发明了新范式”,而在于把训练、评估、部署接口接进现有 HF 生态。这个落地价值我认。很多团队不用 static 方法,不是因为它没用,而是因为工具链断了,和现有 embedding API、评测脚本、向量数据库流程接不上。要是这篇博客解决的是这个问题,那就比“400 倍”本身更有用。
现在信息太薄,我只能把结论压到这里:方向我看好,标题数字我保留意见。等正文补出训练配置、对照模型、效果损失和推理成本,再决定这是实用工具升级,还是一次好看的标题党。
HKR 分解
hook ✓ knowledge — resonance —
2025-01-14 · 星期二 2025年1月14日
FEATURED OpenAI 博客 · rss EN 09:00 · 01·14
OpenAI 董事会新添一位基础设施投资大佬 Adebayo Ogunlesi
OpenAI 在 2025 年 1 月 14 日宣布,全球基础设施合伙公司(GIP)的创始合伙人兼 CEO、贝莱德高级董事总经理 Adebayo Ogunlesi 加入其董事会。公告说,他带来的主要是基础设施投资、公司金融和全球市场策略方面的经验,目的是帮 OpenAI 在迈向通用人工智能(AGI)的过程中,更好地搞定大规模 AI 基础设施的转型和投资...
#OpenAI #Adebayo Ogunlesi #BlackRock #Personnel
精选理由
这条任命本身值得关注,因为 OpenAI 的董事会席位从来不只是挂名。Adebayo Ogunlesi 的背景是基础设施投资和全球市场,OpenAI 也明说需要这方面的经验,说明他们在为大规模算力和资本铺路。但公告本身信息量有限,只列了履历,没提他具体管什么、任期多长、会不会进某个委员会,所以只能算重要但不够扎实的人事消息。
一句话点评
OpenAI 董事会补了一个搞基建和投资的人,说明接下来建数据中心、拉大钱会是公司级重点。
锐评
OpenAI 把 Adebayo Ogunlesi 拉进董事会,信号很直白:他们需要有人专门盯着基础设施和资本运作。Ogunlesi 是 Global Infrastructure Partners 的创始人兼 CEO,现在也在 BlackRock 当高级董事总经理,一辈子都在做大型基建投资和跨境项目融资。OpenAI 的公告里直接说,他的经验能帮公司应对 AI 基础设施的全球转型。翻译过来就是,训练和跑大模型越来越贵,建数据中心、铺算力网络这些重资产投入,光靠技术团队搞不定,得有一个懂怎么融钱、怎么落地大工程的人坐在董事会里。
公告没提他具体会参与哪些决策,也没说 OpenAI 接下来在基建上的投资规模有多大。但结合行业趋势看,算力成本已经是 AI 公司最大的竞争变量之一,OpenAI 这一步补的是财务和工程落地的短板。不过,Ogunlesi 的背景全是传统金融和基建,没有 AI 技术或安全治理经验,他能在多大程度上理解模型研发的风险和节奏,公告一个字都没提。这点先别太激动,他更像一个管账和管工地的角色,不是来定技术路线的。
HKR 分解
hook ✓ knowledge — resonance ✓
2025-01-13 · 星期一 2025年1月13日
FEATURED OpenAI 博客 · rss EN 03:00 · 01·13
OpenAI 发布经济蓝图,核心是呼吁美国搞全国统一的 AI 规则,别让各州各管各的
OpenAI 在 2025 年 1 月 13 日发了份政策文件,不是讲新产品,而是给美国政府提要求。他们认为 AI 的竞争关键是芯片、数据、能源和人才,并提到全球有 1750 亿美元在找 AI 项目投,美国不接住就会流向中国。文件最核心的主张是反对各州自己立法,要求搞一套全国通行的规则,理由是碎片化监管会拖慢创新。他们计划 1 月 30 日在华盛顿搞活...
#OpenAI #Sam Altman #Policy #Commentary
精选理由
OpenAI 发了份政策蓝图,不是产品更新,所以别当技术新闻看。我会先打个折:钩子不强,但信息量够。1750 亿美元这个数挺实在,说明资本端已经准备好了,就差政策松绑。他们反对州级碎片化监管,主张联邦统一规则,这对做美国市场的团队是个明确的信号。2 月 20 日的更新只是补了劳动力提案,没改核心主张。整体上,这份材料对关注合规、基建和人才策略的人有用,但对纯技术岗参考有限。
一句话点评
OpenAI 给美国政府画了一张 AI 基建路线图,核心就一句话:快砸钱建数据中心、芯片厂和电厂,别让钱流到中国去。
锐评
这份蓝图与其说是政策建议,不如说是 OpenAI 向华盛顿递出的一份游说清单。它用了一个很直白的逻辑:全球有 1750 亿美元等着投 AI 项目,美国不接住,钱就会流向中国。这个数字来自 OpenAI 自己的估算,正文没给出具体出处,所以说服力要打个折。
文件把重点放在芯片、数据、能源和人才这四个要素上,呼吁联邦政府搞全国统一规则,别让各州各搞一套。这很符合大公司的利益——规则越统一,合规成本越低。但关于“公平分享 AI 好处”和“防止实际伤害”的部分,基本停留在口号层面,没有具体机制。
还缺什么?缺对模型安全、版权、劳工冲击这些硬问题的具体方案。它更像一份投资促进书,而不是完整的治理框架。
HKR 分解
hook — knowledge ✓ resonance ✓
2025-01-09 · 星期四 2025年1月9日
Hugging Face 博客 · rss EN 00:00 · 01·09
Hugging Face 想算算模型跑分和碳排放的关系,但正文没发出来
Hugging Face 发了一篇博客预告,标题说要用 Open LLM Leaderboard 的数据分析模型性能和碳排放之间的关系。但正文页面返回 429 错误,实际内容没加载出来。目前只知道它想对比两个变量——跑分和碳排放——但样本量、时间范围、具体指标和分析方法都没披露。结论还谈不上,先别当可复现的结果看。
#Benchmarking #Hugging Face #Open LLM Leaderboard #Benchmark
精选理由
HKR-H靠标题的碳排放vs性能张力通过;HKR-K和HKR-R均不通过,因为正文缺失,无样本量、时间窗口、方法或结论可引用,严格执行硬排除零来源规则,分数上限卡在40以下。
HKR 分解
hook ✓ knowledge — resonance —
2024-12-31 · 星期二 2024年12月31日
Hugging Face 博客 · rss EN 00:00 · 12·31
Hugging Face 发布 smolagents:让模型自己写代码干活
Hugging Face 在年底推出了一个叫 smolagents 的轻量库,核心思路是让语言模型自己写 Python 代码来执行任务,而不是只输出 JSON 或文本指令。代码里直接调搜索工具、算数学题,跑完一步再决定下一步,直到任务完成。官方给了一段演示:问“猎豹全速跑过巴黎艺术桥要几秒”,模型自己写代码查桥长、查猎豹速度、算结果。正文没有披露支持哪...
#Agent #Code #Tools #Hugging Face
精选理由
HKR-H 通过,因为“用代码写动作”是个具体钩子。HKR-K 和 HKR-R 不通过:正文只有名称和定位,没有执行细节、模型支持、跑分、许可或价格,所以留在 all 里。
一句话点评
HuggingFace 新开源了一个叫 smolagents 的轻量 agent 库,核心卖点是让模型直接写 Python 代码来调用工具,而不是生成 JSON 再解析。代码量很小,几行就能搭一个能上网搜索的多步 agent。正文用了一个豹子跑过艺术桥需要多少秒的例子演示。目前只支持 HuggingFace 自家的 API 模型,没提是否兼容 OpenAI 或本地模型。开源协议是 Apach...
锐评
Hugging Face 这次只放出了 smolagents 的名字和“用代码写动作”这句定位,正文未披露模型兼容范围、工具调用机制、沙箱设计、基准结果、价格和许可。信息到这个程度,没法判断它是个严肃的 agent runtime,还是把 ReAct 换成 code-generation 的一层薄封装。我先给偏保守判断:标题方向没错,证据远远不够。
我一直觉得“让 agent 直接写代码再执行”这条路不新,关键从来不在代码生成,而在执行约束。OpenAI 去年把 Code Interpreter 做成产品,靠的是隔离环境、文件系统和时限控制;Anthropic 今年推 computer use,卡的也是权限边界,不是 prompt 写得多漂亮。Hugging Face 如果只是把 action schema 改成 Python 片段,这个说法我不太买账,因为市面上 LangGraph、AutoGen、crewAI,连更轻的工具调用封装都已经很多了。没有成功率、延迟、token 开销,标题本身说明不了竞争力。
我对这条还有一个疑虑:code-as-action 往往提升灵活性,也会放大不可控性。工具参数可以做类型校验,生成代码就要面对导入、状态污染、死循环、越权调用这些老问题。正文没给任何可复现条件,所以现在最多只能说 Hugging Face 在押“代码优先 agent”这条产品线。要不要认真看,得等它补三样东西:支持哪些模型,代码运行在哪里,和函数调用基线比到底提升多少。
HKR 分解
hook ✓ knowledge — resonance —
2024-12-27 · 星期五 2024年12月27日
● P1 OpenAI 博客 · rss EN 00:00 · 12·27
OpenAI 说非营利架构撑不住了,得改公司结构才能继续搞 AGI
OpenAI 董事会正在评估调整公司结构,核心原因是钱不够烧了。他们 2019 年预估搞 AGI 大概要 100 亿美元,现在发现大厂们都在砸几千亿,自己靠捐赠和非营利控股的混合模式根本融不到这个量级的钱。文章说,投资人愿意投,但到了这种资金规模,人家要的是常规股权,不是定制化的利润上限条款。目前 ChatGPT 每周有超过 3 亿人用,但正文没披露最...
#Reasoning #Safety #OpenAI #Microsoft
精选理由
OpenAI 自己出来说,2019 年以为融 100 亿美元就够,现在发现不够,得把架构改得更像普通公司,不然投资人不敢继续砸钱。文章没给新架构的具体条款,但把融资约束摊开了——这是核心。我会提醒读者盯紧两点:一是非营利那块最后还剩多少控制权,二是股权结构会怎么调。整体事实没硬伤,安全上也没问题,就是信息不全,但作为信号已经够用了。
一句话点评
OpenAI 自己发博客解释为什么要改公司结构,但正文没披露具体怎么改、时间表是什么。
锐评
OpenAI 亲自下场谈结构必须进化,说明这件事已经从外部猜测变成了他们主动要推动的议程。标题用“advance our mission”来框定,意图是把结构调整和使命绑定,降低外界对商业化转向的抵触。但这次公开的只是一篇立场声明,正文被省略了,我们看不到具体方案、治理变化、非营利实体未来角色这些关键信息。对从业者来说,真正要盯的是两点:一是新结构会不会给模型开放和安全性带来实质约束,二是投资条款和利润上限会不会松动。现在只能先打个折,等正式方案出来再判断。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-12-24 · 星期二 2024年12月24日
Hugging Face 博客 · rss EN 00:00 · 12·24
可视化 PyTorch GPU 显存
Hugging Face 发了一篇博客,讲怎么可视化 PyTorch 训练时的 GPU 显存占用。正文目前是空的,只有标题确认了主题。没有披露用了什么工具、PyTorch 版本、代码示例或可复现的环境,所以没法判断这篇是讲 torch.cuda.memory_summary() 这类内置工具,还是第三方可视化库。
#Tools #Inference-opt #Hugging Face #PyTorch
精选理由
这是一篇窄得不能再窄的 PyTorch GPU 内存教程,HKR 三个维度都弱。feed 只给了标题,工具、版本、代码、复现细节全缺;硬排除项“技术可访问性”把它压在 40 分以下。
HKR 分解
hook — knowledge — resonance —
2024-12-20 · 星期五 2024年12月20日
● P1 OpenAI 博客 · rss EN 10:00 · 12·20
OpenAI 公布 deliberative alignment:让模型先读安全规范再推理,o1 在安全基准上超过 GPT-4o
OpenAI 在 12 月 20 日介绍了 deliberative alignment,一种直接让推理模型学习人类写的安全规范文本,并在回答前先对着规范做推理的训练方法。o 系列模型用上了这套方法,推理时会在思维链里调取内部政策、判断请求是否违规,再给出回复。整个过程不需要人工标注思维链或答案。文章说 o1 在内部和外部安全基准上大幅超过 GPT-4...
#Reasoning #Alignment #Safety #OpenAI
精选理由
我会先打个折:正文没给 o1 的具体基准分数,只说比 GPT-4o 强很多、部分数据集接近饱和,所以没法判断实际提升幅度。但方法本身有嚼头——用人类能看懂的安全规范训练模型在回答前显式推理,而且不需要人工写思维链样本,省了不少标注成本。安全对齐从“事后拦截”变成“事前想清楚”,这个转向值得关注。综合看,放在 featured 没问题,83 分也合理,毕竟缺了硬数据,离必写还差一口气。
一句话点评
OpenAI 直接把安全规范文本喂给 o 系列模型,让它先想规则再回答,不再靠猜标签学安全。
锐评
这篇讲的是 OpenAI 的新对齐方法,核心是把安全规范直接教给模型,并要求它在回答前先推理一遍这些规范。这跟以前靠人类反馈(RLHF)或 AI 反馈(CAI)的做法不一样,以前模型只看到根据规范生成的标签,没见过规范本身,等于在猜规则。新方法让 o1 这类模型在推理时能调出具体政策条文,对照着判断,所以对恶意诱导、过度拒答和越狱攻击的处理更准。
从给出的例子看,模型在思维链里先解码了用户的加密请求,识别出对方在套取非法支付建议,然后对照内部政策,判定这是教唆违法,最终拒绝回答。文章说 o1 在多项内外部安全基准上远超 GPT-4o,甚至在很多高难度数据集上表现饱和。但正文没披露具体测试集名称、样本量和误拒率,也没说这种显式规范推理会带来多少额外推理成本和延迟。
这点先别太激动。方法听着直接,但前提是规范本身写得足够清晰无歧义,否则模型照着有漏洞的条文推理,反而可能产生新的盲区。另外,规范文本的维护和更新成本、对多语言场景的覆盖,文章都没提。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-12-19 · 星期四 2024年12月19日
Hugging Face 博客 · rss EN 00:00 · 12·19
Hugging Face 发布 ModernBERT,号称 BERT 的替代品
Hugging Face 宣布推出 ModernBERT,并称它是 BERT 的替代品。但目前只有标题,正文是空的,没有披露模型参数量、训练数据、评测基准或上下文长度。接下来要看完整博客或模型仓库是否提供可复现的评测,光靠标题还不能下结论。
#Hugging Face #BERT #ModernBERT #Research release
精选理由
HKR-H 通过,因为'替代 BERT'这个标题本身就是钩子。HKR-K 和 HKR-R 不通过:文章只确认了模型名称,训练数据、参数量、基准成绩、上下文长度全部未披露,属于硬排除规则第六条——零来源/仅标题内容。
HKR 分解
hook ✓ knowledge — resonance —
2024-12-18 · 星期三 2024年12月18日
Hugging Face 博客 · rss EN 00:00 · 12·18
Bamba:混合 Mamba2 模型,主打推理效率
Hugging Face 发了一篇博客讲 Bamba,核心是混合 Mamba2 架构,目标是推理更省资源。但正文被 429 挡住了,参数规模、跑分、延迟、吞吐量全都没披露。目前能确认的只有方向——用 Mamba2 做混合模型来提效,但到底省了多少、跟谁比、能不能复现,都得等原文恢复才能判断。
#Inference-opt #Hugging Face #Research release
精选理由
RSS 片段只确认了主题是“推理高效的混合 Mamba2 模型”,正文一个字都没给。HKR 三个维度全部落空:H 因为标题全是术语没有入口;K 因为没有任何可测试的指标;R 因为没连接成本、部署或竞争压力。另外硬性排除规则“技术可及性失败”也适用——标题对非研究者不友好,没有解释性铺垫。
HKR 分解
hook — knowledge — resonance —
2024-12-17 · 星期二 2024年12月17日
● P1 OpenAI 博客 · rss EN 00:00 · 12·17
OpenAI 把 o1 模型放进 API 了,还顺手给实时语音接口降了价
OpenAI 这次主要给开发者端上了几道新菜。首先是 o1 模型正式在 API 里上线,先推给用量最高的第五级开发者。相比之前的预览版,o1 现在能调用外部函数、按你给的 JSON 格式稳定输出、看懂图片,还多了一个叫 reasoning_effort 的参数让你控制它思考多久。官方说它平均比预览版少用 60% 的思考 token,等于更快更省钱。跑分...
#Reasoning #Tools #Fine-tuning #OpenAI
精选理由
这条更新对开发者来说信息量很扎实。o1 补上了之前缺失的生产特性,不再是只能看不能用的状态;推理 token 用量大降和音频价格大砍都是实打实的成本改善。后半段 GPT-4o mini 实时价格被截断,但已披露的部分没有事实错误或过时信息,也没有不安全或误导性的建议。整体判断:事实准确、当前有效、对从业者安全。
一句话点评
OpenAI 把 o1 正式版放进 API 了,支持函数调用和图片识别,推理成本比预览版低了六成,但暂时只开放给用量最高的开发者。
锐评
这次更新最实在的是 o1 正式版上线 API,不再是只能看不能用的预览版。它现在能调用外部工具、按你给的 JSON 格式回话,还能看图,这让 o1 从做题家变成了能进业务流的员工。官方说同样的问题,o1 用的思考 token 比预览版平均少了 60%,这意味着推理更快、更省钱。不过正文没披露具体价格,只说先开放给用量第五级的开发者,普通团队还得等。
另一个值得看的是实时语音 API 降价,GPT-4o 音频 token 价格砍了六成,还新增了 GPT-4o mini 版本,成本只有原来的十分之一。加上直接支持 WebRTC,几行 JS 就能把实时语音接进浏览器或手机 App,对想做语音助手的小团队是个好消息。
新出的偏好微调(Preference Fine-Tuning)听起来像用对比样本教模型学回答风格,但正文没展开讲具体怎么用、效果提升多少,这点先别太激动。整体看,OpenAI 在把模型往更可控、更便宜的方向推,但 o1 的开放节奏和微调方法的实际效果,还得看后续落地情况。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 12·17
Falcon 3 开源模型家族发布
Falcon 3 是一个新的开源模型系列,但目前正文页面返回 429 错误,无法获取任何具体信息。模型参数量、上下文长度、许可证、基准测试成绩和发布时间等关键细节均未披露。
#Falcon #Product update #Open source
精选理由
标题级信息而已:Falcon 3 以开放模型家族形式发布,但参数规模、许可协议、上下文窗口、基准成绩正文全没披露。HKR 三项都不达标,所以排在 feature 线以下,直接排除。
HKR 分解
hook — knowledge — resonance —
2024-12-16 · 星期一 2024年12月16日
Hugging Face 博客 · rss EN 00:00 · 12·16
Hugging Face 推出合成数据生成器:用自然语言描述就能造数据集
Hugging Face 发布了一个叫 Synthetic Data Generator 的工具,主打无代码、用自然语言描述就能生成数据集。目前只支持文本分类和对话数据,后续计划加评估和 RAG(外挂资料库)任务。背后用的是 distilabel 和 Hugging Face 的免费文本生成 API,但正文没披露具体用了哪个模型、生成方法、支持什么模态...
#Tools #Hugging Face #Product update
精选理由
HKR-H 和 HKR-R 通过:标题有明确的钩子,合成数据也是从业者的真实痛点。HKR-K 不通过:正文为空,只确认了产品名和用途,机制、模态、价格、发布时间全缺,信息量很低,所以重要性只给了 58。
一句话点评
Hugging Face 出了一个无代码的合成数据生成器,输入自然语言描述就能自动生成文本分类或对话数据集,还能直接训练模型。底层调了 distilabel 和免费推理 API,生成速度和质量取决于你选的模型——正文没披露具体成本,但用免费 API 意味着有速率限制。亮点是门槛极低,适合快速做原型验证;缺点是只支持分类和对话两种任务,RAG 和评估说要等后续。
锐评
Hugging Face 只给出 Synthetic Data Generator 标题和“用自然语言构建数据集”这个用途,正文未披露模型、工作流、模态、价格和上线条件。我的判断很直接:这条先别按产品力看,先按产品定位看。因为“自然语言生成数据集”这句话覆盖面太大,从简单的 prompt-to-JSON 样本工厂,到带验证器、去重器、分布控制、标注协议和评测闭环的数据管线,都能往里装。
我对这类工具一直有个保留:合成数据好做,能用于训练的合成数据很难做。过去一年里,Scale、Gretel、Writer、OpenAI ecosystem 里的不少数据工作流,都在讲 synthetic data,但真正把效果拉开的不是“能生成多少条”,而是能不能控住 label quality、hard negative、distribution drift 和 contamination。我记得去年不少代码和指令微调项目都踩过同一个坑:模型自己出题、自己作答,最后把错误模式也一并放大。标题现在没说有没有 verifier、teacher model、过滤器,信息差就在这里。
我还想追问一层:它到底是给谁用的。如果是 Hugging Face Hub 里的轻量工具,那重点是易用性和数据导出格式;如果它要接近 Argilla、Datasets、AutoTrain 那条线,重点就变成数据治理和反馈闭环。说真的,Hugging Face 过去几年最强的地方一直是分发和社区,不是闭门的数据生产体系。所以这条我看着像入口产品,不像已经证明质量的核心基础设施。除非后续正文拿出很具体的机制,比如支持哪些模态、怎么做 schema enforcement、有没有 automatic eval,不然“自然语言建数据集”更像 demo 级叙事,不是能直接进生产的答案。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-12-13 · 星期五 2024年12月13日
● P1 OpenAI 博客 · rss EN 00:00 · 12·13
OpenAI 公开邮件时间线:马斯克 2017 年就想要一个营利公司,而且要绝对控制权
OpenAI 在 2024 年 12 月 13 日发了一篇博文,直接贴出邮件记录和时间线,回应马斯克的法律诉讼。核心事实是:2017 年马斯克不仅同意 OpenAI 转成营利性公司,还自己注册了一家叫“Open Artificial Intelligence Technologies, Inc.”的公益公司,要求拿到多数股权、绝对控制权和 CEO 位置...
#OpenAI #Elon Musk #xAI #Commentary
精选理由
这篇 OpenAI 单方面发布的博文,核心价值在于提供了马斯克当年推动营利化、索要控制权的具体证据,以及团队对 AGI 算力成本的早期估算(数十亿到可能低于 100 亿美元)。这些事实性内容本身没有发现错误或过时之处,也没有给出危险的操作建议。它本质上是一份法律公关叙事,不是独立验证的产品或研究发布,所以保持原有评分是合理的。
一句话点评
OpenAI 公开邮件反击马斯克:2017年是他自己先要搞营利公司,还想要绝对控制权,没谈拢才走的。
锐评
这条新闻本质是 OpenAI 对马斯克诉讼的公开回应,核心信息来自他们自己公布的内部邮件。邮件显示,2015 年马斯克就质疑过非营利架构,建议用“标准 C 公司加平行非营利”的模式。到 2017 年,双方都同意需要转成营利公司来搞钱买算力,因为发现要烧几十亿美元。分歧在于,马斯克要求拿多数股权、绝对控制权并当 CEO,OpenAI 团队没答应,认为这违背了使命。马斯克随后在 2018 年初离开,还预言他们会失败。
这些邮件是 OpenAI 单方面披露的,经过了筛选和编辑,我们看不到完整的上下文和对方的回复。比如,马斯克要求控制权时,双方具体是怎么谈判的、有没有其他方案,正文都没提。另外,OpenAI 现在的营利架构到底怎么保证非营利使命不跑偏,文章也没解释。所以,这些材料能说明马斯克并非一开始就反对营利,但“谁更占理”还得看更多证据。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-12-11 · 星期三 2024年12月11日
OpenAI 博客 · rss EN 06:00 · 12·11
Zalando 把客服助手从 GPT-3.5 换成 GPT-4o mini,点击率涨了 23%,加心愿单多了 41%
欧洲时尚电商 Zalando 把它的 AI 导购助手从 GPT-3.5 升级到了 GPT-4o mini,同时重写了评估流程。效果是产品点击涨了 23%,加心愿单多了 41%,用户点“不推荐”的比例降了 5%。关键点是成本没怎么涨,但流量翻了 12 倍——因为 GPT-4o mini 本身更便宜,而且支持更多语言,Zalando 直接铺到了 25 个市...
#Multimodal #Tools #Benchmarking #Zalando
精选理由
这是供应商客户案例:OpenAI用Zalando的转化数据来推销GPT-4o mini,所以硬排除规则5适用。文章有扎实的事实——点击率提升23%、愿望单提升40%+、覆盖25个市场、以及评测/迁移工作流——所以HKR-K通过,但H和R仍然偏弱。
HKR 分解
hook — knowledge ✓ resonance —
2024-12-09 · 星期一 2024年12月9日
● P1 OpenAI 博客 · rss EN 10:00 · 12·09 📰 2 信源
OpenAI 将 Sora 视频生成模型向 ChatGPT Plus 用户开放
OpenAI 在 12 月 9 日结束了 Sora 的研究预览,直接把它做成了一个独立产品,给 ChatGPT Plus 和 Pro 用户用。新版本叫 Sora Turbo,生成速度比二月份展示的快了不少。Plus 用户每月能免费生成最多 50 个 480p 视频,或者少一些的 720p 视频;Pro 用户用量是 10 倍,还能出更高分辨率和更长的片子...
#Multimodal #Vision #Safety #OpenAI
精选理由
Sora 正式上线,从预览变付费,HKR 三项都踩中了:上线本身有话题性,规格和限制写得清楚,对创作者工作流有直接影响。没给更高分是因为文章自己就说了地区封锁、人物上传受限,物理一致性和长动作还不稳,这些限制让实际可用性打了折扣。
一句话点评
OpenAI 把 Sora 视频生成开放给 ChatGPT Plus 用户了,但别急着冲,20 美元档只能生成少量低分辨率视频,想正经用得加钱上 Pro。
锐评
Sora 向 Plus 用户开放,意味着 OpenAI 开始把视频生成从演示推向日常使用。但这次放开的不是完整版:Plus 订阅(20 美元/月)每月最多生成 50 个 480p 视频,想做 1080p、20 秒的片子得买 200 美元/月的 Pro。这个定价把轻度尝鲜和专业创作切得很开。
从系统卡看,Sora 用了类似 DALL·E 3 的“看图说话”技术来理解指令,还解决了画面主体暂时消失后保持一致的老问题。安全上做了多层过滤,包括训练数据清洗、上传人脸限制和 18 岁以上年龄门槛,但正文没给出具体误拦率和漏放率,实际体验会不会过度敏感还不清楚。
目前缺的是 Plus 档位下的实际生成速度和排队时长,也没提中文提示词的支持程度。如果你只是想玩玩,先拿 Plus 试试水可以;真要用来做素材,得等 Pro 档位的实测出来再算账。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 12·09
Hugging Face 社区发布开源图像偏好数据集
Hugging Face 社区发布了一个 Apache 2.0 许可的开源图像偏好数据集,专门用于文生图任务。数据集包含不同模型(Flux、Stable Diffusion)生成的图像对,以及人工标注的偏好结果。正文没有披露具体样本量、标注人数和标注一致性指标,所以数据质量和规模暂时没法判断。亮点是代码和数据集都开源了,还附带一个微调好的 LoRA 模...
#Multimodal #Hugging Face #Open source #Research release
精选理由
只有 R 通过:开放偏好数据确实卡在开源文生图模型的训练瓶颈上。K 不通过是因为 RSS 只确认了数据集类型和任务,规模、标注、许可、获取方式都没披露,信息带宽很低,只能算低优先级。
一句话点评
Hugging Face 社区发布了一个 Apache 2.0 协议的开源图生文偏好数据集,包含不同模型(Flux、SD)生成的图片对和人工偏好标注。关键点:数据集开源、可商用,但正文没披露标注者数量、一致性分数,也没说微调后模型在哪些指标上提升了多少。对想低成本做图生文 RLHF 的团队是个起点,但效果验证还缺细节。
锐评
Hugging Face 社区只公开了一个“文生图开放偏好数据集”的标题,正文未披露样本规模、标注流程、许可协议和下载方式。我的判断很直接:这条现在更像一次方向宣示,不像一份可复现的基础设施发布。
偏好数据集对文生图很重要,这点不用争。过去一年里,大家已经看清一件事:模型底座差距在缩,小样本高质量偏好对齐开始决定“审美稳定性”和“提示词服从度”。问题是,偏好数据比普通 caption 数据更容易失真。两张图怎么配对,提示词怎么采样,标注者看的是构图、文本一致性还是风格讨好,都会直接改写训练信号。正文没给这些条件,我没法判断它更接近 Pick-a-Pic 这类公开偏好集,还是更接近内部 RLHF/RLAIF 管线里的一段中间产物。许可也很关键。文生图数据一旦带有生成图、人工选择、再分发,商用边界很容易卡住。没有 license,企业团队基本没法碰。
我对“社区”这层叙事也有一点保留。开源社区当然能做出好数据,但偏好标注的难点从来不只是收集量,而是标注一致性和去偏流程。LAION 当年把规模做出来了,审美和安全噪声也一起带进来了。后来很多团队转向更小、更贵的人类偏好集,就是在补这门课。Hugging Face 如果这次想把它做成行业公共品,至少要把四件事讲透:样本数、配对机制、标注协议、使用许可。少一项,研究能引用,产品很难上。
说真的,我还想看一个信息:它到底是训练集还是评测集。两者名字很像,价值差很多。训练集要看覆盖面和噪声控制;评测集要看泄漏风险和分层设计。标题给了“open preference dataset”,正文没给用途边界。这个缺口不补,我对它的实际影响先保守看待。
HKR 分解
hook — knowledge — resonance ✓
2024-12-05 · 星期四 2024年12月5日
● P1 OpenAI 博客 · rss EN 10:30 · 12·05
OpenAI 推出每月 200 美元的 ChatGPT Pro,把更长的思考时间做成付费功能
OpenAI 新加了一个 ChatGPT Pro 档位,月费 200 美元,可以无限用 o1、o1-mini、GPT-4o 和高级语音模式。核心卖点是 o1 pro 模式,它用更多算力让模型“想得更久”,去啃数据科学、编程和判例分析这类硬骨头。官方用了一个更严的 4/4 可靠性指标来强调稳定性——一道题必须连续四次都答对才算过关,但正文没披露这个模式的...
#Reasoning #Tools #Benchmarking #OpenAI
精选理由
OpenAI 把额外推理算力包装成 200 美元的 ChatGPT Pro 层级,属于当天必须写的产品新闻。HKR 三项都成立:钩子是把推理时间商品化,知识面有具体价格和模型访问细节,共鸣点在于算力分层引发的行业讨论。正文未披露配额或延迟数据,所以保持现有评分。
一句话点评
OpenAI 推出月费 200 美元的 ChatGPT Pro,主打一个让模型“多想一会儿”的 o1 pro 模式,但别急着掏钱,先看它到底多可靠。
锐评
OpenAI 这次把订阅费拉到 200 美元一个月,核心卖点是 o1 pro 模式。说白了,就是让模型在回答前花更多算力去“思考”,官方说这在数据科学、编程和判例分析上会更靠谱。他们用了一个很严格的测试标准:一道题必须连续答对四次才算过关,而不是碰运气对一次。在这种“四发四中”的考验下,o1 pro 模式在数学竞赛、编程竞赛和博士级科学题上的表现确实压过了之前的版本。
但要注意,官方只放了对比柱状图,没给具体分数,也没说测试题总量。这让我们很难判断这个“更可靠”的领先幅度到底有多大,以及是不是只在特定难题上有效。另外,生成答案的时间会明显变长,界面会出进度条,你得等着。
目前看,这更像给每天需要顶尖模型处理复杂问题的研究员或工程师准备的,普通用户用 Plus 版可能就够了。正文没提 API 接口,也没说 o1 pro 模式有没有使用次数上限,只说了“无限使用”其他几个模型。这些缺口在掏钱前最好搞清楚。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 10:00 · 12·05
OpenAI 发布 o1 系统卡:用大规模强化学习训练模型先想再答,安全风险定在“中”以下才上线
OpenAI 把 o1 和 o1-mini 的安全测试结果公开了。核心就一句话:o1 系列用大规模强化学习训练模型在回答前先进行“思维链”推理,这让它在遵循安全规则、抵抗越狱攻击上比前代强。但正文没披露具体的数据配比和完整基准分。安全方面,他们设了上线门槛——风险缓解后评分必须“中”或更低。目前给出的评分是:网络安全低、生化威胁中、说服能力中、模型自主...
#Reasoning #Alignment #Safety #OpenAI
精选理由
这是一份前沿推理模型的高信号安全披露,不是常规物料。HKR-K 强在公布了部署门槛、四项风险评级和测试范围;HKR-R 成立是因为从业者持续关注推理模型的安全阈值和 CoT 透明度。事实核查:系统卡原文确实列出了这些评级和门槛,未发现错误或过时信息,安全建议也符合当前实践。
一句话点评
OpenAI 发了 o1 的安全说明书,模型会自己琢磨安全规则再回答,但生物化学和说服力两项风险只压到“中”,正文没给具体缓解措施。
锐评
这份系统卡最值得看的是 o1 怎么把安全规则融进推理过程里。它回答问题前会先“想”一遍,相当于在脑子里过一遍公司的内容政策,所以面对越狱攻击或擦边问题时表现比前代好。但别以为这就万无一失了。在化学、生物、放射性及核威胁(CBRN)和说服力这两项上,OpenAI 自己给的评级是“中”,意思是风险没完全消除,只是压到了可以部署的门槛。
报告里列了训练数据来源,包括公开网页、付费数据库和内部定制数据,但没披露具体占比和清洗细节。外部红队测试和思维链安全评估都做了,可正文只放了摘要,关键指标比如有害内容拦截率、不同语言的偏差分数都没给具体数字。这点比较可惜,因为 o1 系列已经上线,用户需要知道它在非英语场景下到底靠不靠谱。
整体看,这份报告更像一份合规声明,而不是给从业者用的技术参考。它告诉你模型通过了内部安全门槛,但没给你足够数据去独立判断这些门槛设得合不合理。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 12·05
大模型能自己改错吗?Keras + TPU 搭了个对战平台来测
Hugging Face 上发了一篇博客,标题说用 Keras 和 TPU 搭了一个聊天机器人竞技场,专门测大模型能不能自己修正错误。但正文返回 429 错误,实际内容为空,所以没披露用了哪些模型、样本量、评测指标和结果。核心问题是评测设计本身——没有这些信息,光靠标题没法判断模型的自纠错能力。
#Benchmarking #Tools #Hugging Face #Keras
精选理由
H 靠“大模型自己改错”这个竞技场测试标题抓住了注意力,但 K 和 R 都落空,因为正文是空的,没给出任何模型、样本量、指标或结果。适用 hard-exclusion-6(零来源/无实证内容),所以重要性上限卡在 40 以下。
HKR 分解
hook ✓ knowledge — resonance —
2024-12-04 · 星期三 2024年12月4日
FEATURED OpenAI 博客 · rss EN 23:30 · 12·04
OpenAI 签下 200+ 媒体品牌,ChatGPT 将直接引用原文
OpenAI 与英国出版商 Future 达成合作,把后者旗下 200 多个媒体品牌(包括 PC Gamer、TechRadar、Marie Claire 等)的内容接入 ChatGPT。用户提问时,模型会引用原文并附上链接。正文没披露上线时间、商业条款、收入分成比例,也没说覆盖哪些具体内容。真正的信号是 OpenAI 在持续囤积可用的高质量内容供给,...
#RAG #Tools #OpenAI #Future
精选理由
行业相关,因为发布商授权会影响ChatGPT的检索层,但正文只披露了200多个品牌的合作和署名链接。HKR-K和HKR-R通过;HKR-H较弱,所以归入all而非featured。
一句话点评
OpenAI 跟拥有 200 多个垂类媒体品牌的 Future 签了内容合作,ChatGPT 会直接引用这些文章并附上原文链接。这是 OpenAI 在版权争议中继续用付费合作换内容授权的常规操作,别当成技术突破。
锐评
OpenAI 和英国媒体集团 Future 达成合作,把后者旗下 Marie Claire、PC Gamer、TechRadar 等 200 多个品牌的内容接入 ChatGPT。用户提问时,ChatGPT 会引用这些文章并给出原文链接。Future 自己也在用 OpenAI 的工具做聊天机器人和内部提效,比如给 Tom's Hardware 做了个能聊硬件内容的 bot。
这笔交易本质是版权换曝光。OpenAI 拿到合法训练数据和实时内容,Future 多一个分发渠道。但公告没提钱,也没说授权范围是否包含模型训练,还是只做检索展示。这点先别太激动,之前 OpenAI 跟新闻集团、美联社的合作也是类似路数,具体条款从不公开。
对从业者来说,值得看的是 Future 这种垂类媒体集团怎么把 AI 嵌进业务——不是只卖内容,而是自己下场用。但正文没披露他们内部提效的具体数据,比如省了多少人力、聊天机器人用户留存怎么样,这些才是判断合作实际价值的关键。
HKR 分解
hook — knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 10:00 · 12·04
摩根士丹利把GPT-4塞进投顾工作流,98%的顾问团队在用
摩根士丹利把GPT-4嵌入了财富管理的工作流程,内部叫AI @ Morgan Stanley Assistant的聊天机器人现在能回答10万份文档里的问题,覆盖范围从最初的7000个问题大幅扩展。超过98%的顾问团队在用这个工具。另一个产品Debrief用Whisper和GPT-4把客户同意的Zoom会议录音自动转成CRM笔记和跟进草稿。关键信息是他们...
#Benchmarking #RAG #Audio #Morgan Stanley
精选理由
信息量够,98%使用率、10万文档语料、每日回归测试、零数据留存都是新事实,也切中企业落地AI的信任和合规痛点。但本质是OpenAI客户案例,摩根士丹利作为服务商展示自家方案,按硬排除规则第5条(供应商主导的客户案例)归为excluded,重要性39合理。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-12-02 · 星期一 2024年12月2日
Hugging Face 博客 · rss EN 00:00 · 12·02
开源开发者如何应对欧盟AI法案?Hugging Face的指南来了(但正文还没看到)
Hugging Face 发了一篇博客,标题是《开源开发者指南:欧盟AI法案》,但正文目前无法访问(返回429错误)。从标题看,这篇应该会讲开源项目在欧盟AI法案下的义务、豁免和合规时间线,但具体内容还没披露。如果你正在做开源AI项目、担心法案影响,这篇值得关注,但先别当行动清单用——等正文出来再判断。
#European Union #Policy #Open source #Commentary
精选理由
只有R通过:开源开发者确实关心欧盟AI Act怎么合规。但RSS只给了标题,正文为空;适用范围、义务、豁免条件和生效时间全都没披露,所以K不通过,直接命中硬排除6——零细节/零来源内容。
HKR 分解
hook — knowledge — resonance ✓
2024-11-26 · 星期二 2024年11月26日
Hugging Face 博客 · rss EN 00:00 · 11·26
Hugging Face 重写上传下载架构,要解决大模型文件传输瓶颈
Hugging Face 的 Xet 团队正在重新设计 Hub 的上传和下载架构,核心是引入一个内容寻址存储(CAS)层。简单说,就是把文件拆成小块,上传时只传新增的块,下载时从 CAS 服务器拿重组信息,数据本身仍存在 AWS S3(美东一区),下载走 CloudFront CDN。动机很直接:现有架构对大模型不友好。CloudFront 单文件上限...
#Tools #Hugging Face #Product update
精选理由
这是一个平台基础设施更新,HKR-R 成立,因为 Hub 传输可靠性直接影响模型分发和团队工作流。HKR-K 不成立,因为 feed 没有正文:吞吐量、失败率、上线范围、兼容性都没披露,所以只能留在 all 层级。
一句话点评
Hugging Face 正在重写上传下载架构,核心是插入一个内容寻址存储(CAS),把文件拆成字节级块,上传时只传新块,下载时从 CAS 拿重建信息。10月11日一天就有8.2百万次上传、130.8 TB数据,来自88个国家。目前依赖 S3(us-east-1)和 CloudFront CDN,但 CDN 单文件上限50GB,Llama-3-70B 权重131GB得拆成30个文件。新协议目...
锐评
Hugging Face 把重构对象指向上传与下载链路,但 RSS 只有标题和一句摘要。现在能确认的事实只有一条:改的是平台文件传输路径,不是新模型,不是新 benchmark;上线时间、涉及 Hub 还是 Spaces 还是 Inference Endpoints,正文都没披露。
我先给判断:这类“重构传输层”的动作,通常不是为了把下载速度从 1 提到 1.2,而是旧架构已经扛不住文件体积、并发峰值,或跨区域缓存命中率。Hugging Face 这两年承载的东西早就不是几百 MB 的 checkpoint 了。单个模型仓库里塞进数十 GB 甚至更大的 safetensors、分片权重、数据集 parquet、GGUF 量化文件,已经很常见。传输链路一旦没重做,用户看到的就是断点续传不稳、CDN 回源抖动、etag 或 range 请求兼容性出问题、git-lfs 体验越来越差。
这里有个文章外的背景。过去一年,ModelScope、Kaggle、Replicate、云厂商自带模型仓库都在抢“分发”这一层,不只是抢训练和推理。谁把大文件分发做稳,谁就更像默认基础设施。我一直觉得 Hugging Face 的强项不是首页流量,而是它把模型、数据集、版本、权限和下载地址绑在了一起。传输层如果开始重构,八成是在补这个底层护城河。
我也有保留意见。标题很容易把人带进“性能要起飞”的叙事,但正文没给任何数字:吞吐提升多少,失败率降多少,热文件是否改走新缓存层,老 SDK 和 git-lfs 客户端会不会受影响,统统没有。没有这些信息,我不买“架构升级=用户立刻受益”这套说法。很多平台把下载链路重写一遍,短期先带来的是兼容性回归,不是速度红利。
所以这条先别吹。等 Hugging Face 放出 95/99 分位下载延迟、上传成功率、跨区域命中率、文件大小门槛和回滚策略,再判断这次是不是一次够硬的基础设施升级。现在只有标题,我能给的判断就是:方向对,信息还远远不够。
HKR 分解
hook — knowledge — resonance ✓
2024-11-21 · 星期四 2024年11月21日
FEATURED OpenAI 博客 · rss EN 10:30 · 11·21
OpenAI 公开两篇红队测试论文:一篇讲怎么请外部专家找茬,一篇讲怎么用 AI 自动找茬
OpenAI 在 2024 年 11 月 21 日发了两篇论文,把自家红队测试(就是找人来攻击模型、挖风险)的方法摊开来讲。第一篇白皮书专门说外部人类红队的流程,讲了三个具体设计选择:一是根据威胁模型挑人,比如要找懂网络安全、会小语种或熟悉某地区政治的人;二是给测试员看哪个版本的模型,没加安全措施的早期版本能测出新能力带来的风险,加了措施的版本能测防护...
#Safety #Benchmarking #Tools #OpenAI
精选理由
我会先打个折:正文对自动化红队的实验指标和效果摘录不全,这点先别太激动。但 OpenAI 这次把外部红队怎么组队、怎么分配模型版本、怎么收反馈这三件事说清楚了,流程比“红队”这个词本身值钱。如果是真的按威胁建模来组队,安全团队可以直接抄作业。
一句话点评
OpenAI 发了两篇红队测试论文,一篇讲怎么请外部专家,一篇讲怎么用 AI 自动找漏洞,但自动方法的效果和成本正文没给具体数字。
锐评
OpenAI 这次公开的是他们做安全测试的方法论,不是某个模型的安全报告。两篇论文,一篇白皮书讲外部红队怎么组织:先做威胁建模定优先级,再按需选人,测试不同阶段的模型版本,最后把反馈结构化收回来。另一篇研究论文提出一种自动红队方法,用更强的 AI 去大规模发现模型可能犯的错。
这件事的价值在于把流程摊开来说,让同行能参考怎么搭自己的红队。但要注意,正文没披露自动方法到底能省多少人力、误报率多高,也没说外部专家测试一次要花多少钱。这些数字缺了,就很难判断这套方法是不是真比纯人工划算。另外,自动红队能找出的问题类型是不是跟人找的重合、会不会漏掉文化语境相关的风险,论文摘要里也没展开。
我会先打个折:方法论公开是好事,但没给效果数据,就先当它是份操作手册看,别当成安全能力的证明。
HKR 分解
hook — knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 05:00 · 11·21
BBVA 给全员发 ChatGPT 企业版,5 个月造了 2900 个定制 GPT
西班牙银行 BBVA 在 5 个月内向员工发放了 3000 个 ChatGPT Enterprise 许可证,员工自己建了超过 2900 个定制 GPT。83% 的领证用户每周都在用。内部 GPT 商店里大约有 700 个 GPT 可以互相抄作业。一个法律助手 GPT 帮 9 人团队处理每年 4 万个来自分行经理的问题。关键不是数字大,而是推广方式:法...
#Agent #Multimodal #Tools #BBVA
精选理由
HKR-K和HKR-R靠具体的采用数字和落地机制通过,但HKR弱。更重要的是,它触发了硬排除规则5:这是一篇供应商客户案例,核心信息是BBVA用ChatGPT Enterprise,没有反例、失败或独立验证。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-11-20 · 星期三 2024年11月20日
OpenAI 博客 · rss EN 17:00 · 11·20
Grab 用 GPT-4o 看图微调做地图,100 个样本就把限速牌识别准确率从 67% 拉到 80%
东南亚打车外卖平台 Grab 用 GPT-4o 的视觉微调功能做地图。他们只用了 100 个样本,把限速牌和道路匹配的准确率从 67% 提到 80%,车道数识别准确率涨了 20%,限速牌定位也提升了 13%。做法是把司机拍的街景图和地图瓦片叠在一起让模型看,减少人工标图的工作量。正文没披露具体省了多少成本,但样本这么少就能提点,对做地图或视觉任务的团队...
#Vision #Fine-tuning #Multimodal #Grab
精选理由
这是一篇 OpenAI 官方发布的 Grab 客户案例,核心是 GPT-4o 视觉微调在东南亚地图制作上的效果。100 个样本把限速牌道路匹配准确率从 67% 提到 80%,车道计数再涨 20%,限速牌定位提升 13%,数字扎实,能看出微调在小样本下对特定视觉任务有效。但场景太窄——地图运营不是多数 AI 从业者的日常,正文也没披露训练成本、推理延迟或是否替代了人工岗位,所以整体冲击有限。按硬排除规则 5(官方客户案例),分数上限 40,给 37 合理。
HKR 分解
hook — knowledge ✓ resonance —
Hugging Face 博客 · rss EN 00:00 · 11·20
Hugging Face 推出日语大模型排行榜,但页面目前打不开
Hugging Face 宣布上线了一个专门评测日语大模型的开源排行榜。不过正文目前只给了标题,点进去是 429 错误(访问太频繁被限流),所以排行榜具体用什么指标、收录了多少模型、怎么提交都还没披露。先别急着激动,等页面恢复后重点看它的评测设计,而不是光看“开源”两个字。
#Benchmarking #Hugging Face #Benchmark #Open source
精选理由
正文只有标题,没有披露基准设计、数据集、初始模型集和结果,因此HKR三项均不满足。属于硬排除-零来源/披露不足,重要性上限39分,层级为excluded。
HKR 分解
hook — knowledge — resonance —
Hugging Face 博客 · rss EN 00:00 · 11·20
大模型辩论赛:首次多语言对决,但正文啥也没说
Hugging Face 宣布要办一场多语言大模型辩论赛,但点进去只有 429 报错,正文一个字都没披露。目前不知道哪些模型参赛、覆盖哪些语言、怎么评分、什么时候比。没有评审协议,结果就没法复现,这点先别太激动。
#Reasoning #Benchmarking #Benchmark
精选理由
标题有新鲜感,但正文完全空白,连评判机制都没披露——辩论赛的结果可复现性全靠规则,这点先别太激动。信息缺口太大,重要性压到40以下合理。
HKR 分解
hook ✓ knowledge — resonance —
Hugging Face 博客 · rss EN 00:00 · 11·20
自推测解码:不换模型也能让生成变快
Hugging Face 发了一篇博客,标题说用“自推测解码”可以加速文本生成。但正文被限流了,实际内容为零。从标题能猜到的信息:这个方法不需要额外模型,而是让模型自己给自己当“草稿模型”,先快速猜一段再验证。但加速比多少、显存开销涨不涨、支持哪些模型、怎么落地——全都没披露。如果后续有实测数据,这倒是一个低成本加速推理的方向,但目前只能当个预告看。
#Inference-opt #Hugging Face #Research release
精选理由
HKR-H 通过,因为“更快生成”本身就是一个强钩子。HKR-K 和 HKR-R 不通过,因为博文正文为空:没有披露加速倍数、显存代价、支持模型或复现细节。这触发了硬排除条件——技术可及性不足,所以 tier=excluded,能力评分也封顶。
HKR 分解
hook ✓ knowledge — resonance —
2024-11-19 · 星期二 2024年11月19日
欧盟 AI 法案 · rss EN 11:38 · 11·19
欧盟AI办公室招首席科学顾问
欧盟AI办公室正在招一名首席科学顾问,但正文只放了标题,没写职责、汇报线、地点、薪资、任期和截止日期。目前唯一能确认的就是这个招聘动作本身,具体信号要看完整职位描述。
#AI Office #Personnel #Commentary
精选理由
AI Office 在招首席科学顾问,但正文是空的,只有标题这一句。没披露职责、汇报线、任期、地点和截止时间,目前就是个普通人事动作,没有可执行细节。H、K、R 三项都不满足,分数低于 40,归入 excluded。
HKR 分解
hook — knowledge — resonance —
OpenAI 博客 · rss EN 07:00 · 11·19
Rox 把整个销售平台押注在 OpenAI 上,省了销售每周 8 小时
Rox 是一家做销售自动化的公司,完全用 OpenAI 的模型搭了一套“永远在线”的 AI 销售代理。他们用 GPT-4o mini 做数据清洗和统一(便宜模型干粗活),用 GPT-4o 和 Realtime API 写邮件、做外联、生成语音简报(贵模型干精细活)。结果:销售每周省出 8 小时,客户互动率涨 35%,销售管道转化率翻倍。7 个月从 0 ...
#Agent #Tools #Multimodal #Rox
精选理由
这篇本质是OpenAI的客户案例,属于硬排除的营销稿。虽然堆了技术细节和自报数字,但整体是厂商宣传,不是对AI从业者有广泛参考价值的新闻。
HKR 分解
hook — knowledge ✓ resonance —
2024-11-15 · 星期五 2024年11月15日
FEATURED OpenAI 博客 · rss EN 00:00 · 11·15
OpenAI 在巴黎开了第一个欧洲大陆办公室
OpenAI 11月15日宣布在巴黎设办公室,这是它在欧洲大陆的第一个据点。文章列了5个法国用户/合作伙伴:赛诺菲(用AI加速临床试验病人招募)、Simplon(给弱势群体做数字技能培训,也是OpenAI Academy在欧洲的第一个合作方)、Mirakl(电商平台软件商,用AI帮第三方卖家增长)、ESCP商学院(用AI做个性化学习)、Ask Mona...
#OpenAI #Sanofi #Simplon #Product update
精选理由
这是区域扩张和政策站位,不是模型或产品更新。HKR-K来自首个欧洲大陆办公室、5个本地案例和EU AI Pact支持;HKR-R是欧洲市场和合规角度。人员规模和产品计划正文没披露,所以不算高重要性。
一句话点评
OpenAI 在巴黎开了欧洲大陆第一个办公室,但公告没提团队规模、具体业务和本地研发计划,更像一次品牌落地。
锐评
OpenAI 宣布在巴黎设立办公室,这是它在欧洲大陆的第一个据点。公告主要讲了两件事:一是法国 AI 生态活跃,二是已经有一些本地客户在用他们的工具。列举的合作方包括赛诺菲用 AI 加速临床试验患者招募、数字技能培训机构 Simplon 成为 OpenAI Academy 首个欧洲伙伴、电商平台软件商 Mirakl 用 AI 提升卖家增长和内部效率、ESCP 商学院做个性化学习、文化机构 Ask Mona 做互动体验。这些案例听起来不错,但正文没披露任何效果数据——招募快了多少、效率提升了百分之几,全都没有。
公告还提到跟法国政府签了欧盟 AI 公约的核心承诺,以及要在 STATION F 搞黑客松。但办公室到底招了多少人、是研发岗还是商务岗、有没有算力或数据中心配套,一概没说。Sam Altman 的引语也是标准表态,没有实质信息。
整体看,这是一次市场扩张的信号,说明 OpenAI 想在欧洲监管环境里占个位置,离客户和政界更近。但现阶段能带来什么产品变化或本地化服务,正文没给线索。想判断实际投入力度,得看后续招聘规模和是否有技术团队落地。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-11-13 · 星期三 2024年11月13日
OpenAI 博客 · rss EN 00:00 · 11·13
雅诗兰黛用ChatGPT建了240多个定制GPT,10周出原型,响应时间缩短90%+
雅诗兰黛(ELC)部署了ChatGPT企业版,内部建了240多个定制GPT,覆盖消费者调研、临床试验数据、文案撰写、供应商分析等场景。公司成立了一个“GPT实验室”,用五步冲刺流程(设计-准备-构建测试-发布-迭代)快速出原型,10周内做出多个可用版本,员工提了1000多个点子。响应时间改善超过90%,但正文没披露基线是多少、用了多少员工、花了多少钱。...
#Tools #RAG #The Estée Lauder Companies #OpenAI
精选理由
硬排除-纯营销:这是供应商撰写的客户故事,核心结论是雅诗兰黛部署了ChatGPT Enterprise,而非产品更新或研究突破。HKR-K有部分具体数字(240个GPT、10周实验室、>90%响应提升),但基线、覆盖人数和成本均未披露。
HKR 分解
hook — knowledge ✓ resonance —
2024-11-04 · 星期一 2024年11月4日
FEATURED OpenAI 博客 · rss EN 12:00 · 11·04
OpenAI 给美国商务部 NTIA 的建言:一个 5GW 数据中心能拉动约 4 万个就业岗位
OpenAI 在 2024 年 11 月 4 日公开了它提交给美国国家电信和信息管理局(NTIA)的意见书,核心是在为 AI 基础设施抢政策。文章里算了一笔账:建一个 5GW 的数据中心,从施工到周边餐饮零售,能创造或支撑大概 4 万个工作岗位,给所在州贡献 170 亿到 200 亿美元的 GDP。OpenAI 还提到全球有 1750 亿美元的基础设施...
#OpenAI #NTIA #Policy #Commentary
精选理由
OpenAI向NTIA提交的政策意见,正文不涉及新模型参数或产品时间表,所以我会先打个折,不把它当产品信号看。但这份文件把AI基础设施的规模讲得很实在:一个5GW项目能拉动170亿到200亿美元州GDP、约4万个岗位,全球还有1750亿美元资金等着进场。对从业者来说,这些数字比模型跑分更贴近现实——算力供给、电力审批和场地安全,才是接下来卡不卡脖子的关键。
一句话点评
OpenAI 给美国商务部 NTIA 的建言,核心就一句话:想保住 AI 领先地位,先把数据中心基建砸钱搞起来,不然钱就流到中国去了。
锐评
这是 OpenAI 2024 年 11 月提交给美国商务部下属机构 NTIA 的一份政策建议,不是技术报告,更像一份游说文件。全文的逻辑很直白:美国今天在 AI 上的领先,靠的是几十年前铺下的光纤和宽带网,所以“基础设施决定命运”。现在全球有大概 1750 亿美元等着投进数据中心,OpenAI 认为这笔钱要么流向美国主导的项目,要么就流向中国,没有第三条路。
为了证明建数据中心划算,他们自己找人算了一笔账:在一个州建一个 5GW(5000 兆瓦)的数据中心,能直接或间接带动约 4 万个就业岗位,给该州贡献 170 到 200 亿美元的 GDP。数字看着很大,但要注意这只是基于“抽样州”的预测模型,正文没披露具体是哪些州、用了什么假设,实际落地效果会打不少折扣。
整份材料没提具体的技术标准或安全细则,重点全在呼吁政策松绑和投资倾斜。缺的东西也很明显:没讨论这么大的电力需求从哪来、电网怎么扛,也没提水资源消耗和社区反对这些现实阻力。所以这份文件的价值在于看清 OpenAI 的政策游说方向,而不是拿里面的经济预测当真。
HKR 分解
hook — knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 11·04
Argilla 2.4 发布:在 Hub 上零代码搭建微调与评估数据集
Argilla 2.4 主打在 Hugging Face Hub 上零代码构建微调和评估数据集。但正文目前只有标题,实际内容因 Hugging Face 返回 429 错误(请求频率限制)而无法获取。所以目前能确认的信息很窄:版本号 2.4,以及“零代码”这个定位。至于支持什么数据格式、工作流怎么走、能不能导出、权限怎么控制、是不是只限 Hub 上用—...
#Fine-tuning #Benchmarking #Tools #Argilla
精选理由
正文为空,故事只确认了Argilla 2.4的Hub零代码定位。HKR三项全不满足:标题是例行发布说明,正文缺失数据格式、标注流程、权限、导出方式以及任何可复现条件。
HKR 分解
hook — knowledge — resonance —
2024-10-31 · 星期四 2024年10月31日
● P1 OpenAI 博客 · rss EN 10:00 · 10·31
ChatGPT 现在能直接搜网页了,不用再跳去搜索引擎
OpenAI 在 2024 年 10 月 31 日给 ChatGPT 加上了搜索功能,Plus、Team 和之前排队的 SearchGPT 用户先用。它会根据你的问题自动判断要不要上网查,你也可以手动点搜索图标。回答里会附上来源链接,点一下侧边栏就能看到引用了哪些网页。背后的模型是微调过的 GPT-4o,训练时用了一种叫“蒸馏”的技术,从更强的 o1-...
#RAG #Reasoning #Tools #OpenAI
精选理由
这是 OpenAI 当天发的产品上线公告,不是小修小补。搜索直接嵌进聊天界面,等于把传统搜索引擎的流量入口挪到了对话里。公告确认了自动/手动搜索、可点击来源链接,还提到模型是 GPT-4o 微调版、用 o1-preview 蒸馏输出做后训练,信息量够。对从业者来说,这比单纯发个新模型更值得盯,因为它改的是用户获取信息的方式和流量分配逻辑,所以给到 P1。
一句话点评
ChatGPT 正式把搜索做进对话里了,不用再切出去搜。但别急着说它要干掉 Google,目前更像给聊天补上了联网能力。
锐评
OpenAI 把网页搜索直接塞进了 ChatGPT 的对话框。你问一句,它能自己判断要不要去网上找最新信息,比如股价、天气、球赛比分,然后把来源链接列出来。这比之前手动点插件或切搜索引擎要顺滑不少。
技术上说,搜索模型是基于 GPT-4o 微调的,训练时用到了从 o1-preview 蒸馏出来的合成数据。说人话就是,他们让更强的模型当老师,教这个搜索模型怎么更好地理解问题、筛选信息。不过正文没披露具体延迟、成本或错误率,所以实际体验稳不稳还不好说。
目前 Plus 和 Team 用户能用,免费用户要等几个月。OpenAI 还拉了一堆媒体合作,像美联社、路透社、金融时报,回答里会优先展示这些来源。这对内容生态是好事,但也意味着搜索结果可能不是完全中立的。另外,购物和旅行场景还在规划中,现在别指望它能直接比价。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 08:00 · 10·31
Promega 从上往下推 ChatGPT:80% 员工在用 1400 多个定制 GPT,质检一年省 600 小时
生命科学公司 Promega 发了一篇 OpenAI 客户案例,说他们 80% 的员工在用超过 1400 个定制 GPT,覆盖制造、销售和营销。CEO 亲自带头,先试点再铺开。具体数字:质检团队用 GPT 自动处理客户问卷,一年 250 多份,省了 600 多小时;销售那边一个叫“My Prospecting Pal”的 GPT 能把每个客户的调研时间...
#Tools #Promega #OpenAI #Bill Linton
精选理由
这是OpenAI的客户案例,按硬排除规则5处理:核心信息是买家用了供应商的产品。HKR-K靠具体数字(80%员工、1400个自定义GPT、年省600+小时)通过,但HKR-H和HKR-R偏弱,且经验不具备广泛复用性。
HKR 分解
hook — knowledge ✓ resonance —
2024-10-30 · 星期三 2024年10月30日
● P1 OpenAI 博客 · rss EN 10:00 · 10·30
OpenAI 开源了一个叫 SimpleQA 的事实性基准,专门测模型回答短问题的准确率
OpenAI 放出了一个包含 4326 道题的基准 SimpleQA,题目都是简短、有明确答案的事实类问题,比如“2022 年世界杯荷兰对阿根廷,哪位荷兰球员打进了运动战进球”。每道题都经过两名独立 AI 训练师交叉验证,又抽了 1000 道题做第三方审计,发现答案一致率 94.4%,估算数据集本身的固有错误率在 3% 左右。这个基准的目标是给前沿模型...
#Benchmarking #Alignment #OpenAI #Research release
精选理由
OpenAI 开源了一个事实问答基准 SimpleQA,4,326 道题,专门测模型回答短事实的准确率和校准能力。我会先打个折:它叫“简单”,但实际是给前沿模型挖坑,GPT-4o 得分不到 40%,说明越强的模型越容易在这上面翻车。数据质量方面,两道人工交叉核验,1,000 题抽检一致率 94.4%,估算固有错误率约 3%,这点先别太激动,3% 的错题率意味着有些题本身可能就有争议或歧义。整体看,这不是一篇例行公事的论文发布,而是一个直接打中可靠性、校准和基准信任问题的动作。
一句话点评
OpenAI 发了个叫 SimpleQA 的题库,专门测模型回答事实类短问题的准确率,GPT-4o 正确率不到 40%,说明顶尖模型在简单事实上依然容易胡扯。
锐评
OpenAI 开源了一个事实性评测集 SimpleQA,包含 4326 道短答案问题,覆盖科技、影视、游戏等领域。它的设计目标很明确:答案唯一、不随时间变化、且能难倒当前最强模型。GPT-4o 的正确率不到 40%,这个数字直接说明,即便是最前沿的模型,在回答没有歧义的简单事实问题时,表现依然很差。
这个基准的亮点在于它同时测量了模型的“校准度”——也就是模型知不知道自己在胡扯。o1 系列模型更倾向于回答“不知道”,而不是硬编一个错误答案,这算是一种进步。但要注意,数据集本身有大约 3% 的固有错误率,因为部分问题存在歧义或不同网站给出矛盾信息。
目前公开的评测结果只覆盖了 OpenAI 自家的几款模型,没有与其他家(如 Gemini、Claude)的横向对比。另外,这个评测只测了模型不联网时的知识储备,没测联网检索后的表现,而后者在实际应用中更常见。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-10-29 · 星期二 2024年10月29日
OpenAI 博客 · rss EN 10:00 · 10·29
Decagon 用 OpenAI 多模型混搭,帮大客户做到 91% 客服全自动
Decagon 是一家 AI 客服公司,声称帮某大客户处理了 91% 的全球客服,全程无人介入。它的技术栈混用了 GPT-3.5、GPT-4、GPT-4o、GPT-4 Turbo 和 o1-mini,其中用微调过的 GPT-3.5 先把用户问题重写一遍,再进外挂资料库(RAG)查答案。不同模型干不同活:GPT-3.5 负责改写,GPT-4 做复杂决策。...
#Agent #RAG #Fine-tuning #OpenAI
精选理由
HKR-K和HKR-R靠91%自动化率和模型栈通过。但硬排除-纯营销:这是OpenAI客户案例,价格、延迟和评测基线正文没披露,验证价值打折扣。
HKR 分解
hook — knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 10·29
通用辅助生成:随便拿个小模型就能给大模型加速
Hugging Face 和 Intel 实验室发了一篇博客,讲的是“通用辅助生成”——一种让大模型(比如 Gemma-2-9B、Mixtral-8x22B)在生成文字时,可以随便拉一个不同家族的小模型来帮忙加速,不用非得找同系列的小版本。之前辅助生成(也叫推测解码)要求大小模型来自同一家族,限制很大。这篇说他们把这个限制去掉了,任何小模型都能当“助理...
#Inference-opt #Hugging Face #Research release
精选理由
HKR-H 靠'任意辅助模型'这个钩子通过,但 HKR-K 和 HKR-R 全挂——正文为空,没披露任何速度增益、额外显存、适用模型范围或实现机制。按硬排除规则第6条,分数封顶40,直接排除。
HKR 分解
hook ✓ knowledge — resonance —
2024-10-24 · 星期四 2024年10月24日
FEATURED OpenAI 博客 · rss EN 14:00 · 10·24
OpenAI 公布国家安全合作框架,明确禁止武器开发,但会帮美军做网络防御和行政提效
OpenAI 在 2024 年 10 月白宫发布 AI 国家安全备忘录后,公开了自己参与国家安全项目的边界。他们说自己有一套内部审核流程,由产品政策和国家安全团队把关,只接符合“民主价值观”的活。文章举了三个已有的例子:跟 DARPA 合作做网络防御、帮美国国际开发署用 ChatGPT 减轻行政杂活、以及在洛斯阿拉莫斯国家实验室搞生物科学研究。核心红线...
#Safety #Tools #OpenAI #White House
精选理由
这篇不是产品发布,所以 H 分不高。真正有用的是 OpenAI 把内部评审流程摆出来了,还列了 3 个已经在跑的项目:跟 DARPA 做网络防御、帮 USAID 用 ChatGPT 减行政负担、跟洛斯阿拉莫斯国家实验室继续搞生物科学合作。同时明确画了红线——不准伤人、毁东西、造武器。我会先打个折,因为正文没披露模型版本、合同金额和实际效果数据,这些才是判断合作深度的硬指标。但光是把禁止用途和评审关卡公开写出来,在国防 AI 这个话题上就算有信息量了,所以 K 和 R 都给了通过。
一句话点评
OpenAI 发了一篇立场文,回应白宫刚出的 AI 国安备忘录。文章没宣布新产品,是在划合作红线:可以帮国防部搞网络安全、帮实验室做科研,但禁止用于武器和伤人。
锐评
这篇东西本质上是 OpenAI 在国家安全议题上的“价值观说明书”,发布时间紧跟着白宫的《国家安全备忘录》。文章没有披露任何新的技术细节或合作规模,更像是一次公开表态:我们愿意跟美国政府及盟友合作,但只做防御性、辅助性的事,比如帮 DARPA 做网络安全、帮 USAID 减行政负担、跟洛斯阿拉莫斯国家实验室搞生物科学。
它把合作边界划得很清楚:使用政策禁止开发武器、伤害人或破坏财产,每个国安项目都要经过产品政策和国安团队的正式评估。这算是一种“有限参与”的姿态,既不想被排除在政府订单之外,又怕踩进军事 AI 的舆论泥潭。
文章没提任何具体合同金额、合作规模或评估案例,所以这些原则到底能卡住多少项目,现在完全看不出来。它也没说如果盟友或下游用户违规,OpenAI 有什么强制手段。这点先别太激动,目前还停留在原则声明阶段。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-10-23 · 星期三 2024年10月23日
● P1 OpenAI 博客 · rss EN 10:00 · 10·23
OpenAI 把一致性模型简化并扩展到 15 亿参数,两步出图,质量追平扩散模型
OpenAI 发了个新方法叫 sCM,把连续时间一致性模型的训练搞稳定了,直接扩到 15 亿参数,在 512×512 的 ImageNet 上跑。它只用两步采样,出图质量就能跟现在最好的扩散模型打平,单张 A100 上 0.11 秒出一张图,比扩散模型快大约 50 倍。论文里对比了有效算力,sCM 花不到 10% 的算力就拿到差不多的 FID 分数。不...
#Inference-opt #Vision #Benchmarking #OpenAI
精选理由
这篇论文把连续时间一致性模型真正做大了,15 亿参数在 ImageNet 512×512 上跑通,两步采样就能拿到跟扩散模型差不多的样本质量,墙钟速度快了大约 50 倍。单张 A100、batch size=1、没做推理优化时 0.11 秒出一张图,这个数对实际部署有参考价值。我会先打个折:正文没披露跟其他快速采样方案(比如蒸馏模型)的直接对比,也没说训练用了多少算力,所以“快 50 倍”是跟谁比、代价多大,还得看后续细节。但能把快采样和大规模训练同时稳住,本身就是一个信号,说明这条路在工程上开始走得通了。
一句话点评
OpenAI 把一致性模型训练稳了,两步出图质量能打扩散模型,单张 0.11 秒,但只跑了 512x512 的 ImageNet,别脑补到所有任务。
锐评
这篇工作最大的价值是让连续时间一致性模型(sCM)能在大规模数据上稳定训练,参数量拉到 15 亿,在 ImageNet 512×512 上两步采样就能拿到跟扩散模型差不多的 FID。单张图生成只要 0.11 秒(单张 A100),比传统扩散模型快大约 50 倍,有效采样算力不到对比方法的 10%。
不过得把预期管住。正文只展示了 ImageNet 的类别条件生成,没提文生图、视频或音频的实际效果,也没给人类偏好评估。FID 是标准指标,但低 FID 不等于看着顺眼。另外,0.11 秒是没做推理优化的裸速度,实际部署能再压,但论文没给出优化后的延迟数据。
还缺几块关键信息:训练用了多少算力、跟蒸馏路线的成本对比、在小分辨率或别的任务上是否也稳。如果这些能补上,才能判断它是不是真能替代扩散模型成为新的默认 backbone。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 10·23
CinePile 2.0:用对抗式精炼把视频问答数据集做得更扎实
Hugging Face 发了 CinePile 2.0,一个长视频问答数据集的新版本。核心改进是一种叫“对抗式精炼”的方法——简单说就是让模型自己挑旧数据里的毛病,再针对性修复,相当于用模型当质检员来清洗训练数据。1.0 版已经有约 30 万训练样本和 5000 测试样本,人类比最好的商用视觉模型高 25 个点、比开源模型高 65 个点,说明题目本身...
#Benchmarking #Hugging Face #CinePile 2.0 #Research release
精选理由
Hugging Face 发了 CinePile 2.0,标题提了 adversarial refinement(对抗式精炼,就是让模型自己找数据集的漏洞然后修补)。但正文是空的,数据多大、从哪来、怎么精炼、跑分涨没涨,一概没写。现在能确认的只有方向:这是个数据集改进,不是模型发布。信息太少,三个维度都挂零,直接排除。
HKR 分解
hook — knowledge — resonance —
2024-10-22 · 星期二 2024年10月22日
FEATURED OpenAI 博客 · rss EN 10:30 · 10·22
OpenAI 任命首席合规官,信号是治理补人而非发模型
OpenAI 在 2024 年 10 月 22 日宣布,前 Uber 首席道德与合规官 Scott Schools 加入担任首席合规官。他之前还在美国司法部当过副助理总检察长,管过全国法律策略和伦理事务。公告说他将跟各团队和董事会一起做合规,但没写薪酬、汇报线、到岗日期。这条消息的信号是 OpenAI 在补治理岗,不是发新模型。
#OpenAI #Scott Schools #Uber #Personnel
精选理由
这是一条治理层的人事变动,不是模型或产品发布。HKR 的 K 和 R 通过:正文点明了 CCO 角色、董事会协作以及 Schools 的 DOJ/Uber 履历。H 偏弱,且汇报线和到任时间都没披露,所以分数压在 60–71 区间。
一句话点评
OpenAI 把 Uber 前首席道德与合规官 Scott Schools 挖来当合规负责人,应对全球监管压力的意图很明显。
锐评
OpenAI 宣布任命 Scott Schools 为首席合规官。这个人之前在 Uber 管道德与合规,更早在美国司法部当过副助理总检察长,还做过两个地区的联邦检察官。从履历看,他擅长在复杂监管环境里帮公司“排雷”。OpenAI 现在面临欧盟 AI 法案、美国各州立法以及数据隐私等多重监管压力,招这样一个人进来,说明他们正在把合规从被动应对变成主动布局。不过公告里没提他具体要管哪些事、团队有多大、向谁汇报,也没说这个职位是新增还是接替。这些信息缺了,就很难判断这次任命是实质性的组织升级,还是对外释放一个“我们很重视合规”的信号。
HKR 分解
hook — knowledge ✓ resonance ✓
FEATURED OpenAI 博客 · rss EN 10:05 · 10·22
OpenAI 任命了首位首席经济学家,要研究 AI 到底怎么影响就业和经济增长
OpenAI 在 2024 年 10 月 22 日宣布,杜克大学教授 Ronnie Chatterji 将担任公司首位首席经济学家。这个职位不是发布新模型,而是专门研究 AI 对经济增长、就业和劳动力市场的长期影响,并想办法让技术红利扩散到更多人手里。Chatterji 之前在白宫负责协调 520 亿美元的芯片与科学法案,也当过美国商务部首席经济学家,...
#OpenAI #Ronnie Chatterji #Duke University #Personnel
精选理由
我会先打个折:正文只说了 Ronnie Chatterji 是谁、干过什么,没说他上任后要做什么研究、怎么衡量 AI 的经济影响。但 OpenAI 专门设这个岗,说明他们想把经济影响从公关话题变成内部研究课题,这点值得盯。他之前管过 520 亿美元的芯片法案执行,政策接口经验是实的,不是挂名。
一句话点评
OpenAI 找了个懂芯片法案的经济学家来研究 AI 对就业和增长的影响,但正文没披露具体研究计划或预算,先当个信号看。
锐评
OpenAI 把杜克大学教授、前白宫 CHIPS 项目协调人 Ronnie Chatterji 请来做首任首席经济学家。这个职位要干的事是研究 AI 怎么影响经济增长和就业,包括建 AI 基础设施的全球经济效应、长期劳动力市场趋势,以及怎么让现在和未来的打工人用上 AI 的好处。Chatterji 之前管过 520 亿美元的芯片法案落地,也做过商务部首席经济学家,履历上确实对口。
不过,这篇公告更像一个任命通知,没有给出具体的研究课题、时间表或团队规模。它说研究成果会提供给政策制定者和开发者参考,但没说明 OpenAI 内部对这个角色的决策权重有多大——是纯研究输出,还是能影响产品路线或公共政策游说。这点先别太激动。
还缺什么:Chatterji 的研究是否独立于 OpenAI 的商业目标?会不会公开原始数据和方法?以及他如何平衡“广泛分配 AI 好处”这个目标与公司盈利压力之间的关系,正文都没提。
HKR 分解
hook ✓ knowledge — resonance ✓
OpenAI 博客 · rss EN 06:05 · 10·22
OpenAI 联合 Lenfest 研究所启动地方新闻 AI 合作项目,每家报社配一名 AI 研究员
OpenAI、Lenfest 研究所和微软启动了一个两年试点,给 5 家美国地方新闻机构每家配一名 AI 研究员,总投入最高 1000 万美元,其中 500 万是现金,500 万是软件和企业额度。第二轮还会再选 3 家。关键信号是“可复制”:参与方必须把案例、产品和技术细节分享给其他新闻编辑室。每家报社的项目方向不同,比如芝加哥公共媒体用 AI 做转录...
#Tools #RAG #Multimodal #OpenAI
精选理由
HKR-K 成立,因为正文包含具体的项目条款:两年试点、首批5家媒体、最高1000万美元分直接资助和软件积分。HKR-H 和 HKR-R 较弱,因为这是合作/资助公告,不是模型、产品或广泛讨论的安全/监管议题。
一句话点评
OpenAI 联合 Lenfest 研究所给五家地方媒体每家发一笔钱(含 Azure 和 OpenAI 额度),雇一个两年期的 AI 研究员,帮报社用 AI 做转录、摘要、广告销售等。总盘子 1000 万美元,OpenAI 和微软各掏一半。项目刚启动,具体效果、研究员怎么选、工具是否开源都没披露。对想拿 AI 救地方新闻的人是个信号,但别当成熟方案。
锐评
OpenAI、微软和 Lenfest 推出两年试点并投最高 1000 万美元,首轮覆盖 5 家地方新闻机构、每家配 1 名 AI fellow。我的判断很直接:这条表面写的是“扶持地方新闻”,实际更像一次带着公关外衣的行业嵌入。钱不算小,但也没大到能改写地方媒体财务结构;它更像用资助和企业积分,把 OpenAI + Azure 放进新闻机构的日常流程、内容库和商业部门里,先占默认位。
正文给了一个很关键的细节:500 万美元是直接资助,另外 500 万美元是软件和企业积分。这种结构很像云厂商和模型厂商过去做开发者生态的老套路。现金解决招聘和试点启动,credits 把实验环境、推理成本、数据管线、权限体系都绑到供应商堆栈上。新闻机构一旦把转录、摘要、检索、归档、广告销售支持这些环节接到 OpenAI 和 Azure,上线容易,迁移就没那么容易了。尤其这里不是只碰 newsroom,还碰 audience engagement、marketing services、sales analytics,这比“给记者一个写稿助手”更深,因为它直接进入收入链条。
我一直觉得,媒体 AI 试点里最被低估的不是生成内容,而是 archives 和 public data。费城问询报做 archive conversational search,Newsday 做 public data aggregation,Chicago Public Media 做 transcription、summarization、translation,这几项都比“AI 写本地稿”稳得多。理由很简单:一是风险边界清楚,二是 ROI 更容易算,三是最适合被产品化。这里我想到去年很多新闻机构和 OpenAI、Google、Adobe 的合作,最后能留住的通常不是 flashy demo,而是检索、转录、标签、销售支持这类后台能力。文章没给任何单位经济数据,所以现在还不能证明这些项目会形成持续收入,但方向上我买账。
我不太买账的是这套叙事里“共享案例和技术细节就能复制到更多 newsroom”。地方媒体的技术债、CMS 结构、法务能力、工会约束、档案数字化程度差异非常大。5 家机构能跑通,不等于第 6 家就能抄作业。尤其 Seattle Times 做的是广告 go-to-market 和 sales training,这类项目往往高度依赖内部 CRM、客户结构和销售流程,技术细节公开了,别人也未必能复现。标题和正文把“replication”讲得很顺,但没披露统一评估指标,也没说 fellows 的产出归属、代码开放范围、模型调用成本、成功标准。没有这些,复用就容易停在 case study 层面。
还有个更现实的问题:地方媒体对平台的依赖历史并不光彩。Facebook 当年用流量承诺改过一次新闻分发结构,Google News 和搜索分发又改过一次,结果很多 publisher 最后发现自己拿到的是短期增长,长期议价权更弱。OpenAI 这次当然不是同一模式,它给的是工具链不是流量池,但依赖逻辑有相似处:谁控制界面、检索层和推理成本,谁就离工作流更近。我还没看到这批项目对数据使用边界、训练隔离、内容许可的细则披露,只有 OpenAI 内容与知识产权负责人 Tom Rubin 出面表态。说实话,这种安排会让我更在意合同,而不是愿景。
外部对比也很清楚。过去一年,新闻业和 AI 公司的关系一边是 licensing lawsuit,一边是 selective partnership:Axel Springer、News Corp 一类大集团谈内容授权;地方媒体拿到的通常是工具、培训、信用额度和有限资金。这次把地方新闻单独拉出来,说明 OpenAI 已经不满足于头部内容授权,它开始往“工作流基础设施”走。这个方向和微软很合拍,因为 Azure credits 天生适合把实验变成长期云消费。若第二轮 3 家机构继续沿这个模板扩张,我会把它看成媒体版的 enterprise land-and-expand,而不是一次性 philanthropy。
所以这条我给的结论是:项目方向挑得很聪明,优先放在低风险高复用的检索、摘要、转录、销售支持;叙事包装得也很稳,避开了最敏感的“AI 代替记者”。但别把它读成单纯的行业善意。它更像 OpenAI 和微软在一个高信任、低预算、强资料资产行业里做早期占坑。能不能成,不取决于案例会不会写得漂亮,而取决于 24 个月后这些 newsroom 有没有把 credits 用成真实预算、有没有留下可持续产品、以及合同里有没有把平台锁定做得过深。正文没披露这些,我现在只能先保留一半认可,一半警惕。
HKR 分解
hook — knowledge ✓ resonance —
FEATURED Hugging Face 博客 · rss EN 00:00 · 10·22
Transformers.js v3 发布:浏览器里跑模型终于能用 GPU 了
Hugging Face 发布了 Transformers.js v3,最大亮点是支持 WebGPU,号称比之前的 WASM 方案快 100 倍。简单说,以前在浏览器里跑 AI 模型全靠 CPU 硬扛,现在能调用显卡加速了。不过正文没披露具体跑什么模型、什么任务能快 100 倍,也没给 benchmark 数据。另外新增了 120 种模型架构支持、12...
#Inference-opt #Tools #Hugging Face #Transformers.js
精选理由
HKR-H/K 靠标题级事实通过:Transformers.js v3 加入 WebGPU,对浏览器推理是个真钩子。HKR-R 偏弱,而且正文为空:模型名、性能变化、兼容条件都没披露,所以留在 all 层级。
一句话点评
Transformers.js v3 把 WebGPU 加速带进浏览器,号称比 WASM 快 100 倍,但正文没给出具体测试场景和模型,这个数字先打个折看。
锐评
这条发布对前端 AI 开发者是个好消息:以后在浏览器里跑模型推理,可以直接调用显卡,不用再忍受 WASM 的慢速。用法也简单,加载模型时加一句 device: 'webgpu' 就行。官方说最高能快 100 倍,但没交代是什么模型、什么任务、跟什么基线比,所以这个数字更像一个上限宣传,实际落地得自己测。
另外,v3 还加了新的模型压缩格式(量化数据类型),支持了 120 种模型架构,预转换好 1200 多个模型可以直接用,Node、Deno、Bun 也都兼容。这些让它在服务端和浏览器端的部署都更方便。
目前 WebGPU 全球浏览器覆盖率约 70%,Firefox 和 Safari 还要手动开实验开关,生产环境还得考虑降级方案。正文没提移动端浏览器的支持情况,这也是一个信息缺口。
HKR 分解
hook ✓ knowledge ✓ resonance —
Hugging Face 博客 · rss EN 00:00 · 10·22
Hugging Face 联手 Protect AI,给模型仓库加了一道安全扫描
Hugging Face 宣布与安全公司 Protect AI 合作,把后者的扫描工具 Guardian 集成到模型仓库里。Guardian 会自动扫描所有公开模型文件,检查有没有恶意代码——比如 pickle 格式里藏的可执行代码,或者 Keras Lambda 层里的漏洞。Hugging Face 说已经扫了几亿个文件,但超过 100 万个模型仓库...
#Safety #Hugging Face #Protect AI #Partnership
精选理由
这是一条只有标题的合作公告:确认了 Hugging Face 和 Protect AI 的安全合作,但没给机制、范围、上线时间或用户影响。HKR 三个维度都缺信息,所以分数低于 40,排除出精选。
HKR 分解
hook — knowledge — resonance —
Hugging Face 博客 · rss EN 00:00 · 10·22
Diffusers 正式支持 Stable Diffusion 3.5 Large
Hugging Face 的 Diffusers 库现在可以直接跑 Stability AI 刚发的 SD3.5 Large 了。这次发布有两个 8B 参数的模型:一个标准版,一个蒸馏版(能少跑几步就出图)。架构上主要加了 QK 归一化和双注意力层,文本编码器、VAE 和噪声调度器跟 SD3 Medium 一样。模型需要去 Hugging Face 页...
#Hugging Face #Diffusers #Product update
精选理由
这只是一次兼容性信号:Diffusers 说支持 Stable Diffusion 3.5 Large,但没有任何可验证的细节。HKR 三项全不满足,按 0/3 规则归入 excluded,重要性因缺少参数、许可、API 路径和硬件信息而卡在噪声区间。
HKR 分解
hook — knowledge — resonance —
2024-10-21 · 星期一 2024年10月21日
Hugging Face 博客 · rss EN 00:00 · 10·21
Llama 3.2 上线 Keras,但 Hugging Face 页面挂了
Hugging Face 博客标题确认 Llama 3.2 已可在 Keras 生态中使用,但正文返回 429 错误,无法读取任何内容。目前只知道模型名称和框架,模型尺寸、许可证、支持任务、代码示例、发布时间等关键信息全部缺失。如果你急着跑推理,建议直接去 Keras 官方文档或 Meta 仓库确认细节。
#Tools #Hugging Face #Keras #Llama
精选理由
标题只说了 Llama 3.2 能在 Keras 里用了,正文是空的,没给模型大小、后端要求、支持任务或代码示例。HKR 三项全挂,连普通产品更新都算不上,直接排除。
HKR 分解
hook — knowledge — resonance —
2024-10-15 · 星期二 2024年10月15日
FEATURED OpenAI 博客 · rss EN 10:00 · 10·15
OpenAI 自查 ChatGPT 有没有看人下菜碟:用名字测偏见,整体翻车率约 0.1%
OpenAI 拿几百万条 ChatGPT 的真实对话做了次内部体检,想看看用户的名字会不会触发有害的刻板印象。他们让 GPT-4o 当“隐私保护评审员”去读聊天记录、找规律,研究员看不到原始对话。结果发现,ChatGPT 的回答质量不会因为名字暗示的性别或种族而变差,但确实有大约 0.1% 的情况,名字会引出有害偏见。在写故事这类开放任务里,出问题的概...
#Alignment #Safety #Benchmarking #OpenAI
精选理由
OpenAI 拿数百万条真实 ChatGPT 请求做了一次公平性审计,这种事很少见。我会先打个折:整体有害刻板印象发生率约 0.1%,看着很低,但研究也坦白种族相关判定的一致率不如性别高,这点先别太激动。真正该盯的是旧模型——GPT-3.5 Turbo 在分任务评测里偏差最明显,说明模型升级确实在压这个问题。研究用 GPT-4o 当隐私保护评审器,省了人工成本,但正文没披露评审器本身有没有系统性偏见。整体是一份有数据、有对比、有保留的工程报告,不是公关稿。
一句话点评
OpenAI 自己测了 ChatGPT 会不会看人下菜碟,结论是整体回答质量没差,但约 0.1% 的回复仍踩中刻板印象,写故事时最容易翻车。
锐评
这篇研究是 OpenAI 自己做的,核心是看用户名字(隐含性别、种族等信息)会不会让 ChatGPT 的回答带出有害的刻板印象。他们用 GPT-4o 当“研究助手”去分析海量真实对话,没让人直接看,算是保住了隐私。
结论先说好的:不管名字暗示什么性别或种族,回答的整体质量(准确率、幻觉率)没区别。但坏消息是,大约 0.1% 的回复还是被判定为反映了有害刻板印象,老模型在某些领域能到 1%。这个数字看着小,但考虑到 ChatGPT 的体量,绝对数量不会少。最容易出问题的任务是“写故事”这类开放式、长回复的场景。
有几个点得打个折。第一,这是自检,不是第三方审计。第二,他们用来判定的“语言模型研究助手”在种族刻板印象上的判断准确率不如性别高,正文也承认了这一点,说明对种族偏见的测量可能不太准。第三,研究只测了名字这一个变量,没覆盖对话历史、语气等其他可能引入偏见的线索。整体看,这更像一份内部基线报告,告诉我们问题存在但不大,后续能不能持续压下来才是关键。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-10-10 · 星期四 2024年10月10日
● P1 OpenAI 博客 · rss EN 10:00 · 10·10
OpenAI 搞了个 MLE-bench,用 75 个 Kaggle 比赛来考 AI 的机器学习工程能力
OpenAI 从 Kaggle 挑了 75 个真实比赛做成基准测试,让 AI 智能体自己训练模型、处理数据、跑实验。最强的组合是 o1-preview 配上 AIDE 脚手架(一种帮模型自动迭代代码的工具),在 16.9% 的比赛里拿到了至少铜牌水平。这个成绩说明模型能独立完成一些 ML 工程任务,但离真正拿金牌还差得远。团队还研究了多给算力、多跑几次...
#Agent #Benchmarking #Code #OpenAI
精选理由
OpenAI 这次没让模型刷题,而是让它真刀真枪跑完 75 个 Kaggle 竞赛——从准备数据、训模型到交结果,整套 ML 工程流程都得自己来。最佳组合 o1-preview + AIDE 在 16.9% 的任务里摸到了铜牌线,说明能做一些,但离靠谱还差得远。我会先打个折:铜牌在 Kaggle 上不算难,正文也没披露具体是哪些任务、失败在哪类环节,所以别急着喊“替代 ML 工程师”。真正值得看的是它把评测从“会答题”扭到了“能干完整工程活”,而且代码开源,团队可以自己跑一遍看自家 agent 几斤几两。
一句话点评
OpenAI 用 75 个 Kaggle 比赛搭了个 ML 工程能力测试场,最强的 o1-preview 也只拿到 16.9% 的铜牌水平,离替代人类 ML 工程师还差得远。
锐评
OpenAI 发布了一个叫 MLE-bench 的基准测试,说白了就是用 75 个 Kaggle 上的真实机器学习比赛,来考校 AI 智能体干 ML 工程活的能力。这些任务覆盖了训练模型、处理数据集、跑实验这些日常操作,不是纸上谈兵。他们拿 Kaggle 公开排行榜上的成绩当人类对照线,然后让几个前沿模型搭配开源脚手架去参赛。结果最好的组合——o1-preview 加上 AIDE 脚手架——在 16.9% 的比赛里摸到了铜牌门槛。这个数字说明,现在最强的模型在独立完成一个完整 ML 项目时,大部分时候连最低奖项都拿不到。
研究还检查了预训练数据污染和资源投入对成绩的影响,代码也开源了。不过正文没披露具体哪些比赛被攻克、失败主要卡在哪个环节,也没说跑一轮测试要烧多少钱。这些信息对判断实用性挺关键,目前只能看到个大概的能力边界。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 10·10
Gradio 5 安全审查:Hugging Face 发了篇博客,但正文没拿到
Hugging Face 发了一篇题为“Gradio 5 安全审查”的博客,但 RSS 摘要里没有正文,实际页面返回了 429 限流错误,所以审查范围、发现了多少漏洞、影响哪些版本、怎么修,全都没披露。目前能确认的只有标题和主题——Gradio 5 的安全性。对开发者来说,关键信息(漏洞类型、复现条件、补丁时间线)都还缺着,得等 Hugging Fac...
#Safety #Tools #Hugging Face #Gradio
精选理由
目前只确认Hugging Face发了一篇题为《Gradio 5安全审查》的博文,正文缺失,漏洞数量、严重等级、受影响版本、补丁时间线一概未知。信息缺口太大,无法判断是否影响现有部署或升级决策,因此归为excluded。
HKR 分解
hook — knowledge — resonance —
2024-10-09 · 星期三 2024年10月9日
FEATURED OpenAI 博客 · rss EN 03:30 · 10·09
OpenAI 说今年已端掉 20 多个滥用其模型的欺骗性网络
OpenAI 发了一篇安全更新,说从 2024 年初到现在,已经发现并掐断了超过 20 个试图用他们模型干坏事的行动和欺骗性网络。这些事主要跟选举干扰、社交媒体操纵以及有国家背景的团伙有关。文章把具体发现写进了 2024 年 10 月的一份威胁情报报告里,但正文没披露这 20 多个案例分别用了哪些模型,也没说具体是怎么发现和阻断的。我会先打个折,这更像...
#Safety #OpenAI #Safety/alignment #Research release
精选理由
OpenAI 这篇公告 HKR 三项都站得住:20 多次打击是个能让人点进来的数字,威胁情报报告更新到 10 月也算新事实,选举干扰和社媒操纵又是当下最烫手的安全话题。不过正文没给出具体样本分布、用了哪些模型、怎么处置的细节,所以分数停在 featured 不往上走。我会先打个折——没看到实操层面的干货,这点先别太激动。
一句话点评
OpenAI 自己发了一份威胁情报报告,说今年端掉了 20 多个用他们模型搞欺骗宣传的团伙。报告本身是 PDF,这篇博客只是摘要,具体手法和证据得去翻原文。
锐评
OpenAI 在 2024 年 10 月发了篇安全更新,核心就一句话:他们今年已经掐掉了 20 多个试图用自家模型在社交媒体上搞欺骗宣传的网络。这个数字不算小,说明在选举年,把 AI 当“水军加速器”的需求确实存在。但要注意,这篇博客只是报告的预告,正文没披露这些团伙具体来自哪些国家、用了什么具体手法,也没说模型本身有没有被越狱成功。
他们提到会出一份完整的威胁情报报告,链接指向一个 PDF。所以现在能看到的判断都基于这篇摘要:OpenAI 在强调自己有专门的情报、调查、安全团队在盯这件事,并且会跟同行分享信息。这更像是一次安全能力的对外展示,而不是技术细节的公开。
还缺什么?缺的是这些操作到底造成了多大影响——是发了几条帖子就被按住了,还是已经形成了小规模传播?另外,报告里对“欺骗性使用”的定义边界也不清楚,比如用 AI 写软文算不算。这些都得等翻完 PDF 才能下结论。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 10·09
Hugging Face 联姻 Dask:用并行计算给数据处理加速
这篇博客标题说 Hugging Face 和 Dask 能一起做大模型数据处理,但正文只返回了 429 错误,实际内容没看到。Dask 是 Python 的并行计算库,可以理解成把单机跑不动的数据拆成多块同时处理。Hugging Face 这边主要是 datasets 和 tokenizer 这些库。如果真能打通,好处是处理海量文本时不用自己搭 Spa...
#Tools #Hugging Face #Dask #Commentary
精选理由
只有标题可用:Hugging Face + Dask 用来扩展 AI 数据处理,但没提处理什么数据、多大集群、跑多快。HKR 三项全不满足,信息量太低,直接排除。
HKR 分解
hook — knowledge — resonance —
2024-10-08 · 星期二 2024年10月8日
FEATURED OpenAI 博客 · rss EN 10:00 · 10·08
OpenAI 与赫斯特达成内容合作,旗下 20+ 杂志和 40+ 报纸将进入 ChatGPT
OpenAI 在 2024 年 10 月 8 日宣布,跟美国老牌出版集团赫斯特(Hearst)签了内容授权协议。赫斯特会把《时尚先生》《时尚 COSMO》《ELLE》《跑者世界》《女性健康》等 20 多个杂志品牌和 40 多家报纸(包括《休斯顿纪事报》《旧金山纪事报》)的内容提供给 ChatGPT 这类产品。ChatGPT 目前每周有 2 亿用户,以后...
#RAG #Tools #OpenAI #Hearst
精选理由
OpenAI 把 Hearst 旗下 20 多个杂志品牌和 40 多家报纸的内容接进 ChatGPT,正文顺带确认周活用户 2 亿。合作只覆盖杂志和报纸,不含 Hearst 其他业务,内容会带引用和原文链接。我会先打个折:出版商授权现在不算新鲜事,但这次规模摆在那,而且新闻内容进 AI 分发链的归属和引用问题一直没消停,所以值得放 featured。
一句话点评
OpenAI 跟美国老牌媒体集团 Hearst 签了内容授权,把旗下 20 多本杂志和 40 多家报纸的内容接进 ChatGPT。这是 OpenAI 在版权官司压力下,又一笔用付费合作换内容合法性的交易。
锐评
这笔合作的核心是 OpenAI 花钱买“合法身份”。Hearst 手里的《旧金山纪事报》《时尚先生》《ELLE》等品牌,能直接给 ChatGPT 补上生活方式、本地新闻这类日常信息,覆盖它每周 2 亿用户。官方说会带引用和原文链接,这点对用户判断信息可信度挺重要,但正文没提具体怎么标、标到什么程度。
要注意的是,合作只限杂志和报纸,Hearst 其他业务没包含在内。另外,公告里没披露交易金额、授权年限,也没说这些内容在模型训练和实时回答里分别怎么用。没有这些数字,很难判断这笔钱花得值不值,只能说 OpenAI 在内容合规上又补了一块拼图。
HKR 分解
hook — knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 10·08
Hugging Face 发了个加速推理的新方法,但正文被限流了
Hugging Face 发了一篇博客,标题是《用动态推测加速辅助生成》。但正文页面返回 429 错误(访问太频繁被限流),所以目前只有标题,没有具体内容。从标题看,应该是改进 assisted generation(一种让大模型和小模型配合、小模型先猜词、大模型验证来加速推理的技术),核心思路是动态调整猜测步数。但加速比、适用模型、实现细节、可复现条...
#Inference-opt #Hugging Face #Commentary
精选理由
Hugging Face 发了一篇只有标题的文章,讲 Dynamic Speculation 能加速 assisted generation。正文一个字都没有,提速多少、支持什么模型、怎么实现的、能不能复现,全没写。标题里的“更快”太泛,没有具体数字或对比基线,从业者看了没法判断价值。信息太薄,重要性压到 35 合理。
HKR 分解
hook — knowledge — resonance —
2024-10-03 · 星期四 2024年10月3日
● P1 OpenAI 博客 · rss EN 10:00 · 10·03
OpenAI 给 ChatGPT 加了个叫 Canvas 的侧边栏,写东西和改代码不用再跟聊天框死磕了
OpenAI 在 10 月 3 号给 Plus 和 Team 用户推了个 Canvas 测试版,相当于在 ChatGPT 旁边开了个协作窗口,你可以直接在上面改文字或代码,模型也能像编辑一样给行内建议。它背后是 GPT-4o,专门训练过什么时候该自动弹出这个窗口:写作场景触发准确率到了 83%,编程场景 94%。模型还学会了做定点修改而不是每次都整篇重...
#Code #Tools #Fine-tuning #OpenAI
精选理由
OpenAI 给 ChatGPT 加了个叫 canvas 的协作界面,写作和编程时能单独开一个窗口,选中某段文字直接改、能回退版本,还有调长度、修 bug、代码审查这些快捷操作。我会先打个折,这目前是测试版,只给 Plus 和 Team 用户用。但真正值得看的是他们怎么训的:内部 20 多项评测里,模型知道什么时候该自动弹出 canvas 的准确率写作 83%、编程 94%,定向编辑效果比之前好 18%,评论准确率高出 30%、质量高出 16%。这些数字说明他们不是拍脑袋加功能,而是用偏好数据专门教过模型什么时候该进协作模式、怎么改得更准。对做 A...
一句话点评
ChatGPT 出了个叫 Canvas 的侧边栏界面,写东西和改代码不用再跟聊天记录死磕了,但别急着激动,目前只是 Beta 版,只对 Plus 和 Team 用户开放。
锐评
OpenAI 给 ChatGPT 加了一个独立窗口,叫 Canvas。它解决了一个很实际的痛点:在聊天框里反复修改长文或代码,上下文一长就容易乱。现在你可以像用在线文档一样,直接选中某段话让模型改,或者一键让它调整长度、查错、加注释。这比在对话框里来回粘贴要直观得多。
从技术上看,OpenAI 专门训练了 GPT-4o 来判断什么时候该自动弹出这个窗口。官方说,在写作场景下,正确触发的比例提到了 83%;写代码时为了避免打扰老手,故意调低了触发率,但也做到了 94%。另外,模型学会了区分“局部修改”和“全文重写”,你选中文字它就改局部,不选就默认重写。这些数据来自他们自己的内部评测,用了 o1-preview 模型生成的合成数据来训练,没依赖人工标注。
不过,正文没披露这个功能对响应延迟和计算成本的影响。在一个独立窗口里实时协作,对推理速度要求很高,实际用起来卡不卡,还得等更多用户反馈。另外,免费用户什么时候能用上,也只说了“等 Beta 结束”,没有具体时间表。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 07:00 · 10·03
OpenAI 拿到 40 亿美元银行授信,加上刚融的 66 亿,手里可动用资金超过 100 亿
OpenAI 在 2024 年 10 月 3 日宣布,从摩根大通、花旗、高盛等 9 家银行搞到了一个 40 亿美元的循环信贷额度。这笔钱目前还没动过,加上之前那轮 66 亿美元的融资,公司账上能随时调用的钱超过了 100 亿美元。说白了就是 OpenAI 给自己备了一大笔过冬或扩张的粮草,不是新产品发布。不过公告没提这笔贷款的利率、期限和抵押条件,所以...
#OpenAI #JPMorgan Chase #Sarah Friar #Funding
精选理由
OpenAI刚拿完66亿又搞了40亿的循环贷,账上可动用的钱超过100亿美元。我会先打个折:正文没写利率、期限和抵押条件,所以这更像一个资金实力的信号,而不是能细算成本的融资方案。对关注算力投入和现金流的人来说,这个弹药规模值得一看,但别急着下结论。
一句话点评
OpenAI 拿到 40 亿美元银行授信,加上刚融的 66 亿,手里可动用资金超过 100 亿。但这笔钱还没动,只是备着。
锐评
OpenAI 在 2024 年 10 月宣布,除了从投资人那里拿到 66 亿美元新融资,还跟摩根大通、花旗、高盛等九家银行谈妥了一笔 40 亿美元的循环信贷额度。这笔授信签约时还没提取,相当于一张大额信用卡,需要时随时能刷。加上融资,OpenAI 手头可调动的资金超过了 100 亿美元。
CFO 说这是为了增强资产负债表,方便抓住增长机会。从数字看,这确实给了 OpenAI 很大的操作空间,无论是买 GPU、扩建数据中心还是招人,短期内不用再急着融资。但公告没提这笔授信的具体利率、期限和附加条件,也没说打算什么时候用、用在哪个方向。
对从业者来说,这信号很直接:OpenAI 在囤弹药,下一阶段的算力军备竞赛和人才争夺战只会更烧钱。不过,100 亿流动性听起来多,按现在大模型训练和推理的烧钱速度,也撑不了太久。关键还得看他们能不能把规模优势转化成可持续的收入,而不是只靠融资续命。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-10-02 · 星期三 2024年10月2日
● P1 OpenAI 博客 · rss EN 10:00 · 10·02
OpenAI 拿了 66 亿美元新融资,估值推到 1570 亿美元
OpenAI 宣布完成 66 亿美元融资,投后估值 1570 亿美元。钱会花在前沿 AI 研究、增加算力和继续做产品工具上。现在 ChatGPT 每周有超过 2.5 亿人在用。正文没披露具体投资人名单、持股条款,也没说算力具体会扩到多大规模。
#Inference-opt #Tools #OpenAI #ChatGPT
精选理由
OpenAI 官方发的融资公告,66 亿美元、1570 亿估值、2.5 亿周活用户,三个数摆出来就够了。我会先打个折:投资方是谁、股权怎么安排、算力具体扩多少,正文全没写,所以别急着脑补。真正值得盯的是钱又流向了算力,这条线比估值本身更说明问题。
一句话点评
OpenAI 拿了 66 亿美元新融资,估值冲到 1570 亿。钱多到能砸更多算力,但公告没提怎么赚钱、怎么填烧钱速度的坑。
锐评
OpenAI 宣布完成 66 亿美元融资,投后估值 1570 亿美元。这笔钱的核心用途就一句话:继续砸前沿模型研究和扩大算力规模。公告里提到每周有超过 2.5 亿人用 ChatGPT,这个数字说明用户盘子确实大,但没提付费转化率和成本结构。
整篇公告更像给投资人看的定心丸,强调使命、合作、生态,但回避了几个关键问题:这轮钱能烧多久?模型训练和推理成本到底多高?盈利路径有没有时间表?正文没披露任何财务细节,也没说资金分配比例。
对从业者来说,这轮融资最大的信号是 OpenAI 短期内不会放慢烧钱速度,算力军备竞赛还会升级。但估值涨到 1570 亿,市场对回报的耐心也在缩短。还缺的信息是:新钱进来后,API 定价会不会降、开源策略会不会变、以及跟微软等合作伙伴的利益分配有没有调整。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-10-01 · 星期二 2024年10月1日
● P1 OpenAI 博客 · rss EN 10:05 · 10·01
OpenAI 发布 Realtime API 公测版,让开发者直接调用 GPT-4o 做低延迟语音对话
OpenAI 在 2024 年 10 月 1 日推出了 Realtime API 的公测版,所有付费开发者都能用。这个接口通过一个持久的 WebSocket 连接,把音频直接流式传给 GPT-4o,再流式返回语音,省掉了以前那种“先转文字、再生成回复、最后转语音”的串联流程。好处是延迟更低,能保留语气和重音,还能自动处理用户插话。API 支持函数调用,...
#Multimodal #Audio #Agent #OpenAI
精选理由
OpenAI 把语音交互从多模型拼接改成一条 WebSocket 直连 GPT-4o,延迟和打断处理都内建了,还给了函数调用和明确定价。对做实时语音 agent 的开发者来说,这是可以直接动手试的东西,不是概念稿。我会先打个折:公测阶段稳定性、实际延迟和成本还没大规模验证,但信息量和可操作性已经足够当天写。
一句话点评
OpenAI 把 ChatGPT 的实时语音对话能力拆成 API 卖了,音频输入每分钟约 0.06 美元,输出 0.24 美元,比之前拼三个模型省钱,但正文没提延迟具体多少毫秒。
锐评
这条消息的核心是 OpenAI 把高级语音模式的底层能力包装成 Realtime API 公开测试,让开发者不用再串联语音识别、文本模型和语音合成三个环节,一个 WebSocket 连接就能搞定语音对话,还能中途打断插话。这对做语言学习、客服的应用来说,开发复杂度会降一截。
价格方面,文本 token 输入每百万 5 美元、输出 20 美元,音频输入每百万 100 美元、输出 200 美元,折算下来每分钟音频输入约 0.06 美元、输出约 0.24 美元。这个定价比之前自己拼三个模型要便宜,但如果你只是想让模型念一段文字,用 Chat Completions API 加音频输出就够了,没必要上 Realtime API 多花钱。
安全部分说用了自动监控和人工审核,跟 ChatGPT 高级语音模式同一套安全基础设施,但具体误拦截率、审核延迟这些关键指标都没给。另外,正文完全没披露端到端延迟数据,只说“比人类对话慢”,这对实时场景是硬指标,缺了这个数字很难评估能不能真上生产。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 10:04 · 10·01
OpenAI 给 GPT-4o 开放了图像微调,开发者可以拿图片和文字一起训练模型了
OpenAI 在 2024 年 10 月 1 日上线了 GPT-4o 的图像微调功能,付费开发者现在能上传图片加文字的数据集来定制模型。最少 100 张图就能看到效果,图越多、数据量越大,提升越明显。Grab 用 100 个样本训练后,车道数量识别准确率提高了 20%,限速标志定位准确率提高了 13%;Automat 把桌面 RPA 机器人的任务成功率...
#Vision #Fine-tuning #Multimodal #OpenAI
精选理由
OpenAI 把视觉微调塞进了正式 API,门槛低到 100 张图,还给了两个有数字的客户案例,HKR 三项都踩实了。对做具体业务的人来说,这比发新模型更直接——能用自己的图片数据把模型掰成自己想要的形状。不过定价那段正文截断了,实际成本还得自己算,这点先别太激动。整体影响面不如旗舰模型发布那么大,但实用度很高,所以重要性给 84、放 featured 是合理的。
一句话点评
OpenAI 给 GPT-4o 开放了图像微调,最少 100 张图就能教模型认特定场景,Grab 用这招把车道线识别准确率拉高了 20%。
锐评
这条更新把 GPT-4o 的微调从纯文本扩展到了图像,意味着你可以用带图的对话数据来教模型做更具体的视觉任务。官方说最少 100 张图就能看到效果,Grab 用 100 个样本就让交通标志定位准确率提升了 13%,Automat 用 200 张保险单据截图把信息提取的 F1 分数拉高了 7%。这些数字说明门槛不高,小样本也能见效,但要注意这些都是合作方自己报的数据,没有独立的基准测试来横向对比。
从应用看,三个案例分别指向地图数据自动化、桌面流程机器人和网页生成,都是把通用视觉能力往垂直业务里收窄。Coframe 的例子挺直观:微调后模型生成的网页在视觉风格一致性上比基础版高了 26%,说明模型学会了“照着现有页面风格往下写代码”。
正文没披露图像微调的具体定价和延迟数据,也没提微调后的模型在安全评估上的具体通过率。如果你打算用在医疗影像这类高风险场景,这点信息缺口需要自己补上测试。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 10:03 · 10·01
OpenAI API 自动缓存重复的提示词前缀,费用直接打五折
OpenAI 给 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 的 API 加上了自动提示词缓存。只要你的请求里有一段超过 1024 个 token 的前缀最近被用过,系统就会自动命中缓存,这部分输入 token 的价格直接减半。缓存从 1024 token 起步,按 128 token 的粒度往上加。不过这个缓存不是...
#Inference-opt #Tools #OpenAI #GPT-4o
精选理由
OpenAI 这次没发新模型,但给 API 加了自动提示缓存,复用前缀就能省一半输入费用。我会先打个折:缓存不是永久的,空闲 5-10 分钟就可能被清,最长活不过 1 小时,所以别把它当长期存储。真正有用的地方是 cached_tokens 这个返回字段,能直接看命中率,团队可以据此优化公共前缀设计。对跑长上下文、固定系统提示或大批量推理的团队,这是近期最直接的成本优化手段,值得马上测一下自己的复用率。
一句话点评
OpenAI 给 API 加了自动缓存:重复用过的长前缀直接打五折,不用改代码。
锐评
OpenAI 在 API 里上线了提示缓存,主要省的是那些反复发相同上下文场景的钱。只要单次请求超过 1024 个 token,系统会自动把最长匹配的前缀缓存起来,下次再用就直接按半价算输入费用。从官方给的价目表看,GPT-4o 的缓存输入降到 $1.25/百万 token,o1-preview 从 $15 降到 $7.5,降幅确实都是 50%。延迟方面官方只说“更快”,没给具体数字,这点先别太激动。
缓存是自动生效的,开发者不用改集成代码,在返回的 usage 字段里能看到 cached_tokens 数量。不过缓存有寿命:闲置 5 到 10 分钟就清掉,最长活不过一小时,而且不同组织之间不共享。这意味着只对高频、重复前缀的调用管用,低频或每次 prompt 都大变样的场景基本吃不到折扣。
正文没提缓存命中率怎么监控、也没说并发高时缓存会不会被挤掉。如果你业务里大量调用是带长 system prompt 或多轮对话,这个功能等于直接砍半输入成本,值得立刻在日志里加上 cached_tokens 的监控看实际命中情况。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 10:02 · 10·01
OpenAI 在 API 里上线了模型蒸馏,让你用大模型的回答去教小模型
OpenAI 10 月 1 号在自家 API 里推了一套模型蒸馏工具,核心思路是:先用 GPT-4o 或 o1-preview 这类大模型跑出结果,再用这些结果去微调 GPT-4o mini 这种便宜模型,让它在特定任务上接近大模型的表现,但成本更低。整套流程包括三个部分:Stored Completions 负责自动抓取和保存 API 的输入输出对,...
#Fine-tuning #Benchmarking #Tools #OpenAI
精选理由
我会先打个折:这不是新模型发布,而是把模型蒸馏做成 API 内置流水线,附带自动存样本、评测和微调三个套件。正文说 store:true 抓取数据不额外增加延迟,这点先别太激动,实际体验要看并发量。免费 token 额度有截止日期,Evals 免费次数也绑定了与 OpenAI 共享评测的条件,省钱归省钱,但数据会留在对方那边。整体对想用大模型带小模型、又不想自建 infra 的团队挺实用,只是信息缺口在于蒸馏后的模型在具体任务上到底比直接微调强多少,正文没给对比数字。
一句话点评
OpenAI 把模型蒸馏做成了 API 内置流水线,自动存样本、跑评估、微调小模型,省掉了来回倒腾数据的麻烦。
锐评
这条更新解决了一个很实际的痛点:以前想用大模型教小模型,得自己写脚本抓数据、做评估、再微调,来回折腾。现在 OpenAI 在 API 里直接加了“存储补全结果”和“评估”功能,等于把蒸馏的脏活累活打包成了一条流水线。你只要在调用 GPT-4o 时加个 store=true,它就会自动存下输入输出对,不增加延迟。存下来的样本可以直接拿去微调 GPT-4o mini 这类便宜模型,再用内置的评估跑分,看效果够不够上线。
成本方面,存样本免费;评估按 token 收费,但年底前每周有 7 次免费额度(前提是你愿意把评估数据共享给 OpenAI)。微调本身有免费训练 token 额度,到 2024 年 10 月底为止,GPT-4o mini 每天 200 万,GPT-4o 每天 100 万。正文没提蒸馏后模型的实际性能对比数据,也没说这套流程在复杂多轮任务上的稳定性如何。如果只是简单问答或分类,这套工具确实省事;但遇到需要复杂推理的任务,光靠输出蒸馏能学到几成,还得自己实测。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 09:59 · 10·01
Altera 用 GPT-4o 造了能陪你玩《我的世界》的 AI 队友,最长能撑 4 小时
MIT 前教授创办的 Altera 公司,用 GPT-4o 做出了能在《我的世界》里像朋友一样跟你一起玩的 AI 智能体。到 2024 年中,这些智能体已经能连续自主运行长达 4 小时——比市面上大多数同类产品长不少。核心难点是“数据退化”:AI 自己输出的内容变成下一轮的输入,数据质量会越来越差,时间一长就跑偏。Altera 的做法是把 GPT-4o...
#Agent #Memory #Reasoning #OpenAI
精选理由
HKR 三项都过:Minecraft 合作 agent 的 demo 有钩子,正文给出了并行多模块设计和 4 小时自治的 claim,长期自治的数据退化问题也切中 agent 可靠性要害。但分数卡在 39 是因为硬排除规则第 5 条——这本质上还是供应商的案例页面,没披露基准分数、模型版本细节和成本数据,验证力度太弱。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-09-26 · 星期四 2024年9月26日
FEATURED OpenAI 博客 · rss EN 10:00 · 09·26
OpenAI 把内容审核接口升级成多模态了,现在能同时看文字和图片
OpenAI 在 9 月 26 日上线了新的审核模型 omni-moderation-latest,基于 GPT-4o,所有开发者都能免费用。它最大的变化是能审图片了,覆盖暴力、自残、色情这 6 个子类,不过色情类里涉及未成年人的图片暂时还审不了。文字审核新增了“违法”和“违法/暴力”两个类别,比如“怎么偷东西”这种教人干坏事的提示词会被抓出来。多语言...
#Multimodal #Safety #Tools #OpenAI
精选理由
OpenAI 官方开发者产品更新,HKR 里 K 和 R 都站得住:新模型加了风险类别、图像子类,还给出 40 种语言平均提升 42% 的具体数字,多语言审核能力明显增强。R 也成立,因为审核和合规直接卡应用上线的脖子,免费开放意味着团队可以零成本试用。H 偏弱,就是个功能迭代,没什么戏剧性,所以整体放在 featured 的低位。
一句话点评
OpenAI 把内容审核模型升级成了多模态版,能同时看图和文字,非英语准确率大幅提升,而且免费。
锐评
这次更新最实在的一点是:审核模型 `omni-moderation-latest` 基于 GPT-4o,现在能同时理解图片和文字了。以前只能审文本,现在可以判断图片本身、或者图文搭配起来有没有违规,覆盖暴力、自残、色情这几大类。不过色情类里涉及未成年人的图片暂时还审不了,正文也说了这块还在做。
数字上最亮眼的是多语言提升。在 40 种语言的测试里,新模型比旧版平均好了 42%,98% 的语言都有进步。像高棉语、斯瓦蒂语这种语料少的语言,准确率直接涨了 70%。泰卢固语更是翻了 6.4 倍。现在西班牙语、中文、印尼语这些主流非英语的表现,已经超过了旧版审英语的水平。这对做国际产品的开发者是个实打实的好消息。
另外,模型输出的分数现在更接近真实的违规概率,不再是模糊的参考值,后续版本之间的一致性也会更好。还新增了“非法行为”和“暴力非法行为”两个文本审核类别,比如“怎么偷东西”这类教唆内容现在能抓到了。模型通过 Moderation API 免费提供,但有调用频率限制。正文没提图片审核的延迟数据,实际用起来响应速度怎么样,还得自己测一下。
HKR 分解
hook — knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 07:00 · 09·26
明尼苏达州翻译办公室用 ChatGPT 做翻译,先让模型写初稿再人工审
明尼苏达州企业翻译办公室(ETO)把 ChatGPT 接进了翻译流程,今年 7 月正式上线,之前试跑了 4 个月。该州超过 20% 的居民主要说非英语语言,旧流程每份翻译请求可能要等一个月。新流程是模型先出初稿、人工审校,还建了自定义 GPT 术语表来保证文化贴切。团队也在试点用 ChatGPT 语音做实时口译。正文没披露用了哪个模型版本、具体成本或准...
#Tools #Audio #State of Minnesota #OpenAI
精选理由
HKR-K 通过,因为正文有具体工作流细节:4个月试点、2024年7月上线、人工复核并回写术语表。Tier 保持 excluded,因为这是一个供应商客户案例,核心信息只是某州办公室用了ChatGPT,触发了硬排除规则5。
HKR 分解
hook — knowledge ✓ resonance —
FEATURED OpenAI 博客 · rss EN 04:30 · 09·26
OpenAI 与意大利媒体集团 GEDI 合作,把《共和报》等新闻搬进 ChatGPT
OpenAI 宣布与意大利媒体集团 GEDI 达成合作,ChatGPT 用户将能看到来自《共和报》《新闻报》等意大利语新闻的引用、内容和链接,这个合作也覆盖了搜索原型 SearchGPT。正文没披露商业条款、具体覆盖范围和上线时间。关键信号是:出版商授权内容正在从简单的转载变成生成式搜索的底层数据源,而不是只给聊天机器人喂几条新闻。
#RAG #Tools #OpenAI #GEDI
精选理由
价值在于机制而非场面:OpenAI 把 GEDI 的意大利语新闻接入 ChatGPT,用户能看到带署名的引文、内容和链接。HKR-K 和 HKR-R 通过,但 HKR-H 偏弱,且授权范围、商业条款、上线地区都没披露,所以是扎实的'all'级,不是头条。
一句话点评
OpenAI 跟意大利最大报业集团 GEDI 签了内容合作,ChatGPT 以后能直接引用《共和报》和《新闻报》的文章。但公告没提付费细节,这点先别太激动。
锐评
OpenAI 又拿下一家欧洲主流出版商。GEDI 旗下有《共和报》《新闻报》等意大利头部媒体,合作后 ChatGPT 和 SearchGPT 会直接引用这些媒体的内容,并附上原文链接。对用户来说,查意大利新闻时信息源会靠谱一些,不用再对着模型瞎编的假新闻头疼。
公告里说这次合作能“提高产品的相关性和准确性”,还提到 GEDI 可以借助 ChatGPT 的翻译能力触达国际读者。但整篇新闻稿没披露最关键的东西:OpenAI 到底付了多少钱,是按年授权费还是按展示量分成。也没说 GEDI 的内容是只用于训练,还是仅做实时检索展示。这些缺口让合作的实质分量打了折扣——如果只是做个外挂资料库式的引用,那跟 Google 新闻的展示逻辑差别不大;如果是拿意大利语新闻去训练模型,那版权定价才是真正的看点。
另外,公告是 2024 年 9 月的旧闻,现在拿出来重提,可能是在为 OpenAI 近期的欧洲版权谈判造势。意大利语在模型训练语料里占比不高,这笔合作对提升小语种表现的实际帮助有多大,还得看后续有没有具体数据放出来。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-09-25 · 星期三 2024年9月25日
FEATURED Hugging Face 博客 · rss EN 00:00 · 09·25
Llama 3.2 来了:能看图,也能跑在手机上
Meta 发布了 Llama 3.2,这次主要加了两个能力:一是视觉,模型能看懂图片了;二是小模型,1B 和 3B 两个尺寸专门为手机、笔记本这类设备设计,不用联网也能跑。视觉版有 11B 和 90B 两种,11B 一张消费级显卡就能跑,90B 留给大规模场景。小模型虽然参数少,但官方说在同尺寸里表现不错。另外还附带了一个 1B 的 Llama Gua...
#Vision #Multimodal #Inference-opt #Meta
精选理由
HKR-H 和 HKR-R 成立:'视觉+端侧'对开源模型开发者是强钩子。HKR-K 不成立,因为只有标题,参数、设备、上下文窗口、基准都没披露,所以定 all 而非 featured。
一句话点评
Meta 把视觉塞进了 Llama,还给了两个能跑在手机上的小模型,但欧盟用户被新许可证挡在门外了。
锐评
Llama 3.2 这次主要干了两件事:一是给模型装上眼睛,二是把模型做小。视觉版分 11B 和 90B 两个尺寸,11B 号称能在消费级显卡上跑,90B 则面向大规模应用。同时发布的还有 1B 和 3B 纯文本模型,主打在手机、电脑等设备本地运行,不用联网。Hugging Face 的博文确认,这些模型都已集成到 Transformers 库,并支持用 TRL 在单张 GPU 上微调 11B 视觉版。
但有个坏消息:新许可证把欧盟用户排除在外了,博文直接写了“Sorry, EU :(”。正文没解释具体条款变动,只暗示地缘合规限制在收紧。另外,1B 和 3B 小模型的能力边界在哪、视觉版的多模态推理实测效果如何,文章没给具体基准数字,只说了“尺寸虽小能力强”。这点先别太激动,等第三方跑分出来再看。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-09-24 · 星期二 2024年9月24日
OpenAI 博客 · rss EN 07:00 · 09·24
拉美电商巨头 Mercado Libre 用 GPT-4o 搭了个 AI 开发平台 Verdi,已处理 10% 的客服纠纷
Mercado Libre 上线了一个叫 Verdi 的 AI 开发平台,底层用 GPT-4o、GPT-4o mini 和 GPT-3.5 Turbo。平台让 1.7 万名开发者可以拖拽式搭建 AI 应用,不用写代码,安全规则和路由逻辑都内置好了。目前最典型的场景是自动处理买卖双方的客服纠纷——上线几个月,已经接管了某个主力站点 10% 的纠纷量。按这...
#Agent #Tools #Multimodal #Mercado Libre
精选理由
正文有具体指标和平台细节,HKR-K 和 HKR-R 能过。但本质还是 OpenAI 客户案例,核心看点是 Mercado Libre 用 GPT-4o 降本,属于硬排除的纯营销稿,分数上限 40。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-09-23 · 星期一 2024年9月23日
OpenAI 博客 · rss EN 03:30 · 09·23
OpenAI 推出 Academy,先发 100 万美元 API 额度给中低收入国家开发者
OpenAI 在 9 月 23 日宣布成立 OpenAI Academy,首期拿出 100 万美元 API 额度,分给中低收入国家的开发者和公益组织。项目包含专家指导、API 额度、社区和竞赛/孵化器,但正文没披露申请流程、国家名单和时间表。100 万听着不少,但分到全球多个国家,单个项目能拿到的额度可能有限。这点先别太激动,关键看资源怎么分,不是挂个...
#Tools #OpenAI #KOBI #I-Stem
精选理由
这是OpenAI一个具体的项目公告,HKR-K通过是因为100万美元API额度和发展中国家聚焦有信息增量;HKR-H和HKR-R不通过,因为读起来像企业公关稿,且缺少申请流程、国家名单和具体时间表,所以留在all层级。
一句话点评
OpenAI 推出 Academy,面向中低收入国家的开发者,首期提供 100 万美元 API 额度(约 100 个团队各 1 万美金)和专家指导。金额不大,更像一个早期生态扶持项目,而非大规模资助。正文没披露申请门槛、评审标准或具体时间表,目前只有两个合作案例(KOBI 和 I-Stem),验证力度弱。
锐评
OpenAI 这次先投 100 万美元 API credits,再补培训、技术指导和 incubator 叙事,我看着更像渠道建设,不像教育项目本身。名字叫 Academy,但正文给出的硬资源只有 credits,申请流程、覆盖国家、评审机制、发放节奏都没披露。没有这些,外界就没法判断它是在扶持本地开发者,还是在用公益包装早期市场开拓。
100 万美元这个数,放在全球开发者资助里不算大。按 OpenAI API 的常见消耗习惯看,几十个中等活跃团队就能很快吃完,尤其是做语音、视觉、长上下文或高频调用的产品。正文也没写 credit 是一次性发完,还是按里程碑分批拨付;没写给个人、初创公司、NGO 的比例;也没写是否限制模型范围。资源分发规则才决定这条的含金量,OpenAI 现在只给了口号,没给制度。
我对这类项目一直有个固定怀疑:公司说“从低收入和中等收入国家开始”,听上去很对,但落地时最容易被英文申请、合规材料、付款主体、云基础设施可得性筛掉一大批人。文章提到 KOBI、I-Stem,也提到把 MMLU 专业翻译成 14 种语言,这说明 OpenAI 确实知道语言门槛和本地场景问题存在。问题在于,翻译 benchmark 和发 credits 解决不了数据治理、分销、支付、监管这些更硬的摩擦。很多 LMIC 团队缺的不是提示词培训,而是稳定预算、法务路径和本地部署选项。
这里有个文章外的背景。过去一年,Google、Microsoft、AWS、Anthropic 都在用 credits、startup program、非营利支持去抢开发者心智,只是包装不同。云厂那套玩法很成熟:先给额度,后看留存,再把优质团队导入商业合同。OpenAI 现在补这一层,并不意外,因为模型能力差距在缩窄,开发者关系和分发效率会变得更重要。尤其在非英语市场,谁先把本地 builder 社群、案例和付款链路铺起来,谁就更容易拿到长期使用量。
我还有个不太买账的点:正文把“经济增长”和“社区问题解决”放在一起讲,但没给任何衡量框架。是看部署应用数、活跃开发者数、留存、就业,还是后续融资?都没说。没有指标,Academy 就很容易滑成 PR 项目:故事很多,复用很少,年度总结很好看,实际转化一般。OpenAI 当然可以后面再补,但在第一篇公告里完全不写,我会默认他们还没把治理细节搭完。
说真的,这条并不弱,只是别把它读成慈善新闻。它更像 OpenAI 在全球南方提前布点:一边用 credits 换开发者关系,一边筛能长成商用客户或政策样板的团队。如果后续披露能看到明确国家名单、公开评审口径、分批拨付规则、毕业团队留存数据,这项目才算站住。现在我只能给到偏谨慎的正面评价:方向对,机制还太空。
HKR 分解
hook — knowledge ✓ resonance —
2024-09-19 · 星期四 2024年9月19日
OpenAI 博客 · rss EN 04:00 · 09·19
生物科技公司 Genmab 全员上 ChatGPT:2000 人用,每人每周省 3.5 小时
Genmab 把 ChatGPT Enterprise 从 1000 人扩到 2000 多人,搞了个“AI Everywhere”计划。员工平均每周省 3.5 小时,每人每周跑 120 次企业版对话,内部建了 100 多个定制 GPT,用来写文档、读文献、做分析、翻译,甚至处理临床试验文件。值得关注的是部署密度:GPT-4o 的视觉能力已经用在生产里,...
#Tools #Vision #Multimodal #Genmab
精选理由
HKR-K 过关,因为提供了可量化的落地指标:2000+ 席位、每周省 3.5 小时、每人 120 次会话、100+ 自定义 GPT。但按硬排除规则第 5 条仍归为 excluded:这是一篇供应商案例,核心信息是客户用了 OpenAI;ROI、模型配置和合规细节正文都没披露。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-09-18 · 星期三 2024年9月18日
Hugging Face 博客 · rss EN 00:00 · 09·18
把大模型压到1.58比特:微调也能做到极端量化
Hugging Face 发了一篇博客,讲怎么把现有大模型微调到1.58比特的极端量化。正常模型用16或32位浮点数存参数,1.58比特意味着每个参数只取 -1、0、1 三个值,内存和计算能省一大截。之前 BitNet 架构能做到,但得从头训练,成本太高。这篇说他们找到了微调已有模型到1.58比特的方法,不用重新预训练。不过正文目前只有标题和目录,具体...
#Fine-tuning #Inference-opt #Commentary
精选理由
标题只确认了“1.58比特微调”这个结论,正文缺失方法、模型范围、训练配置和精度损失。HKR-H靠新颖性通过,但HKR-K和HKR-R都不满足,技术可获取性硬性排除把分数压在40以下。
HKR 分解
hook ✓ knowledge — resonance —
2024-09-17 · 星期二 2024年9月17日
OpenAI 博客 · rss EN 05:00 · 09·17
巴西教育公司 Arco 用 GPT-4 帮老师备课,准确率 90%
巴西最大的教育操作系统 Arco Educação 正在 50 所学校试点一个基于 GPT-4 的“教师助手”,计划年底扩展到 600 所学校、覆盖约 7 万学生。核心数据:GPT-4 在葡萄牙语教学内容的创建和评估上准确率 90%,第二名模型只有 73%;老师对 GPT-4 生成的题目认可率 70%,第二名 56%。为了控制成本,Arco 混用了 G...
#Fine-tuning #Tools #Alignment #Arco Educação
精选理由
这是一篇供应商主导的客户案例。数字有用——50所学校、600所计划、90% vs 73%准确率对比——但核心信息就是'Arco用了GPT-4',没有独立验证、没有基准测试、没有可复现方法。正文没披露模型微调细节、数据隐私方案、以及教师实际节省了多少时间。硬排除:纯营销稿。
HKR 分解
hook — knowledge ✓ resonance —
2024-09-16 · 星期一 2024年9月16日
FEATURED OpenAI 博客 · rss EN 13:00 · 09·16
OpenAI 把安全委员会升级成独立监督机构,有权叫停模型发布
OpenAI 在 2024 年 9 月 16 日宣布,原先的安全与安保委员会将变成一个独立的董事会监督委员会,由卡内基梅隆大学的 Zico Kolter 当主席。这个委员会能审查重大模型的安全评估,如果觉得有风险,可以直接推迟发布,直到问题解决。公告里还提了几件事:刚完成了一个 90 天的安全流程审查;正在评估要不要搞一个 AI 行业的信息共享与分析中...
#Safety #Alignment #OpenAI #Zico Kolter
精选理由
我会先打个折:没有新模型、没有外部审计结果、也没有可复现的基准数据,所以到不了 P1。但这条消息比泛泛的安全声明实在得多。OpenAI 把安全委员会升格成独立董事会监督委员会,由 Zico Kolter 当主席,能看重大安全评估,还能在问题没解决时叫停发布——这等于给发布流程加了一道硬闸门。正文还提到 90 天审查已完成、在评估行业 ISAC、跟洛斯阿拉莫斯国家实验室搞安全合作,信息密度不低。对从业者来说,这直接关系到模型发布的可预期性和安全问责,所以 HKR 三项都站得住。
一句话点评
OpenAI 把安全委员会升级成独立监督机构,有权叫停模型发布。这是治理动作,不是技术突破,别当安全能力提升看。
锐评
OpenAI 公布了安全与安保委员会 90 天审查后的五项调整,核心是把委员会变成董事会下属的独立监督机构,由卡内基梅隆的 Zico Kolter 担任主席,成员包括 Quora 的 Adam D'Angelo、退役陆军上将 Paul Nakasone 和前索尼总法律顾问 Nicole Seligman。这个委员会现在有权在安全顾虑解决前直接延迟模型发布,o1 模型发布前已经走过这套流程。
其他几项属于常规强化:内部信息分区、扩充全天候安全运营团队、考虑建 AI 行业威胁情报共享中心。正文没给出具体预算、人员规模或时间表,所以这些措施的实际落地深度还不清楚。
值得留意的是,OpenAI 说会找更多第三方机构做独立测试,并跟洛斯阿拉莫斯国家实验室合作研究生化科研场景的安全使用。但公告没提外部测试的准入标准、测试范围有多大,也没说第三方报告会不会全文公开。整体看,这是一次治理架构的调整,把安全决策权从管理层往董事会层面挪了一步,但具体执行力度和透明度还得看后续动作。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-09-13 · 星期五 2024年9月13日
Hugging Face 博客 · rss EN 00:00 · 09·13
Hugging Face Accelerate 正式发布 1.0.0 候选版
Hugging Face 宣布 Accelerate 1.0.0 进入候选发布阶段。正文没有列出具体的新功能、兼容性变化或升级步骤,只确认了版本号。对 AI 团队来说,关键未知是是否有破坏性改动;目前能确定的只是正式 1.0.0 版本号已定。
#Tools #Hugging Face #Product update
精选理由
Hugging Face 发了 Accelerate 1.0.0 的公告,但正文是空的,没写新特性、破坏性改动、升级路径或性能数据。对从业者来说,版本号本身没有信息量,真正要盯的兼容性变更和迁移成本全没披露,所以 HKR 三项都不满足,归入 excluded。
HKR 分解
hook — knowledge — resonance —
2024-09-12 · 星期四 2024年9月12日
● P1 OpenAI 博客 · rss EN 10:03 · 09·12 📰 2 信源
OpenAI 发布 o1 和 o1-mini 推理模型预览版
OpenAI 在 9 月 12 日推出了 o1-preview 和 o1-mini 两个新模型,主打“先思考再回答”。在数学奥赛预选题上,GPT-4o 正确率只有 13%,o1 推理模型做到了 83%,编程能力也到了 Codeforces 前 11%。o1-mini 是个更小更快的版本,成本比 o1-preview 低 80%,适合写代码但不需要太广知...
#Reasoning #Code #Safety #OpenAI
精选理由
这是一次 OpenAI 的重大推理模型发布,三个信号全中。H 来自“先想再答”的新玩法,K 来自具体的基准、安全和定价数字,R 来自从业者必须权衡的现实:推理能力上去了,但 API 基础功能还没跟上。
一句话点评
OpenAI 发了新模型 o1,主打“先想清楚再回答”,数学和编程能力暴涨,但暂时不能联网、传文件,o1-mini 便宜八成但知识面窄。
锐评
这条新闻最值得看的是 OpenAI 把模型命名重置为 o1,说明他们内部认为这是一个代际升级。核心变化是训练模型像人一样花时间思考、试错、自我纠错,而不是直接吐答案。效果很直观:在数学奥赛预选题上,GPT-4o 只做对 13%,o1 做到了 83%;编程竞赛能排进前 11%。安全方面,防越狱测试从 22 分跳到 84 分,提升明显,但系统卡和论文里具体怎么做到的还没细说。
不过这是预览版,功能缺得厉害。API 没有函数调用、不支持流式传输、也不能设系统消息,想把它塞进现有产品流程会很别扭。ChatGPT 端也不能联网、传文件和图片,实用性打折扣。o1-mini 便宜 80%,但官方直说它“不需要广泛的世界知识”,意味着常识类任务可能还不如 GPT-4o。
目前最缺的是第三方评测和实际使用反馈。OpenAI 给的数字都是自家基准,而且模型还在快速迭代,现在下结论太早。如果你要做复杂推理任务,值得一试;如果是日常对话或需要联网的场景,GPT-4o 依然更实用。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 10:02 · 09·12
OpenAI 发布 o1 预览版,靠增加思考时间把推理能力拉上去了
OpenAI 推出了新模型 o1-preview,主打推理能力。在 AIME 2024 数学竞赛题上,o1 单次答题正确率 74%,GPT-4o 只有 12%;如果让模型对同一道题算 64 次再投票,正确率能到 83%。编程竞赛 Codeforces 上 o1 排到前 11%,GPQA Diamond 博士级科学题正确率超过了人类专家。这些提升靠的是大...
#Reasoning #Code #Benchmarking #OpenAI
精选理由
这是一次有产品含义的实质性研究发布。钩子落在 o1 的推理线和大跨度的基准跃升上,知识性来自可验证的数字和推理扩展律的机制说明,相关性在于它直接冲击模型策略和推理经济学。信息密度高,没有公关腔,给 93 分合理。
一句话点评
OpenAI 发了 o1 预览版,靠强化学习让模型在回答前先“想几步”,数学竞赛题正确率从 GPT-4o 的 12% 拉到 74%。
锐评
这条消息的核心是 OpenAI 把“推理时多算一会儿”这件事做成了产品。o1 在 AIME 数学竞赛题上,单次回答正确率 74%,64 次投票后能到 83%,用评分模型挑 1000 次答案能到 93%,进了全美前 500 名。GPQA 博士级科学题上,它第一次超过了人类专家。这些数字说明,给模型更多“思考时间”(测试时算力)确实能稳定提分,而且训练时用的强化学习算法被他们称为“数据效率很高”,意味着可能不需要海量新数据就能训出这种推理能力。
但要注意几点。第一,正文没披露 o1 的具体推理延迟和单次调用成本,只说“让它像现有模型一样好用还有很多工作要做”,实际用起来可能又慢又贵。第二,所有评测都开了最大测试时算力,日常使用会不会缩水不清楚。第三,模型把思考过程藏起来了,官方理由是安全和对齐,但用户没法检查它的推理逻辑有没有漏洞。这点先别太激动,等 API 大规模开放后看延迟和成本再说。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 10:00 · 09·12
OpenAI 公开 o1 贡献者名单,Ilya 在列,但没提技术细节
OpenAI 发了一篇博文,列出了参与 o1 模型的上百号人,分成了 Foundational、Core、Safety 等至少 10 个组。名单里出现了 Jakub Pachocki、Noam Brown 和 Ilya Sutskever,还感谢了微软 Azure、Bing 和安全团队提供训练基础设施和部署支持。但正文没披露任何新的技术细节、参数规模或...
#Reasoning #Safety #Alignment #OpenAI
精选理由
HKR-K 通过,因为帖子披露了 o1 的具名贡献者和微软基础设施/安全角色。HKR-H 和 HKR-R 不通过:这只是一份致谢名单,没有新模型细节、基准测试、定价或时间表,因此属于低价值区间。
一句话点评
OpenAI 发了一篇 o1 贡献者名单,列了上百号人,从研究到安全到红队。正文没披露任何技术细节或新结论,就是一份致谢。对从业者来说,唯一价值是看看哪些人参与了推理模型的安全评估,比如外部红队和 Preparedness 团队。
锐评
OpenAI 这篇帖文列出至少 10 个分组、数百名 o1 参与者,却没有给出一项新技术细节。我的判断很直接:它的主要功能不是解释 o1 怎么做出来,而是重新定义“谁算做出了 o1”。
名单本身有信息量。Jakub Pachocki、Noam Brown、Ilya Sutskever 这些名字同框,说明 o1 被 OpenAI 放在“推理研究主线”里,不是普通产品迭代。微软 Azure、Bing 和微软安全团队被单独致谢,也说明这代模型从训练基础设施到部署风控,都带着很重的微软协作痕迹。这对外部读者是组织地图。对从业者来说,它也在传递一个更现实的信号:前沿模型已经很难再被讲成几位研究员的单点突破。
但我对这种发布方式有点保留。文章给了人名,没给机制;给了分工,没给结果。标题已经给出 o1,正文没披露参数、训练算力、数据变化、推理链路、评测增益,也没交代 system card 之外的新安全方法。你当然可以说贡献名单本来就不是技术报告,这没错。问题在于 o1 当时本来就处在外界强烈追问阶段,OpenAI 选在这个节点发 roster,我看着更像是在处理两件事:一是内部归功,二是外部归责。以后若有安全争议、版权争议、或产品化争议,这种分层名单会让“我们有完整流程、完整责任链”这套说法更好成立。
我一直觉得,过去一年大模型公司都在把“论文署名”换成“产品贡献制”。Anthropic 发模型时,公开的是 system card、评测和少量核心作者,不太爱铺长名单。Google DeepMind 偶尔会用长作者列表配技术报告,但通常会把 benchmark、架构方法、训练设定一起放出来。OpenAI 这次只给 roster,不给技术正文,姿态很企业,不太研究。你要说这是不是坏事,我不这么看。模型越接近大规模部署,法务、安全、infra、go-to-market 的贡献本来就该被看见。只是它也顺手稀释了外界对“到底哪项方法带来 o1 提升”的追问。
还有一层更微妙。名单里同时强调 Preparedness Evaluations、内外部 red teaming、安全基础设施,说明 OpenAI 很清楚 o1 的卖点不只是“更会推理”,也是“更能被部署”。这和 2024 年很多公司的路线接近:能力提升开始和可控性、可审计性绑在一起卖。我记得 Anthropic 那段时间也在反复强调 ASL、system card 与部署门槛,Meta 则更偏开源分发。OpenAI 这里走的是另一条路:先把组织能力摆上桌,再让外界接受黑箱更深的现实。
我不太买账的一点,是这份名单很容易被读成透明度提升。说实话,这不算。透明度不是把几百个名字公开。透明度至少要补上几类可复现信息:哪些能力是训练时得到的,哪些是推理时策略堆出来的,安全评估覆盖了哪些高风险域,微软团队具体承担了什么边界职责。正文都没给。名单解决了“谁参与”,没解决“发生了什么”。
所以这条消息更像一次公司治理层面的公开备案。它告诉你,o1 已经不是单一模型项目,而是一个跨研究、产品、安全、合作方的复合工程。这个判断对行业是有用的,因为它抬高了后来者的进入门槛:你不只要有模型研究员,还得有评测、安全、基础设施、伙伴协同的整套机器。可如果你想从这篇文里读出 o1 的技术路线,基本读不到。OpenAI 这次公开的是组织厚度,不是方法厚度。
HKR 分解
hook — knowledge ✓ resonance —
OpenAI 博客 · rss EN 00:00 · 09·12
OpenAI 用 o1 模型帮遗传学家解读两万个基因
OpenAI 发了个案例,说遗传学家 Catherine Brownstein 拿 o1 模型做遗传学分析。o1 的特点是回答前会多花时间推理,而不是直接吐结果。她提到人类记不住两万个基因的细节,但 AI 可以。不过这篇更像宣传稿:没给任何评估指标、准确率、临床效果,也没说部署方式。如果你想知道 o1 比 GPT-4 在基因分析上快多少或准多少,正文没披露。
#Reasoning #OpenAI #Catherine Brownstein #Commentary
精选理由
这是 OpenAI 的客户案例式宣传,属于硬排除——纯营销。正文只给了“面对约2万个基因”这个背景和 o1 主打“回答前花更多时间思考”的卖点;评测方法、准确率、临床结果和部署条件都没披露。
HKR 分解
hook ✓ knowledge — resonance —
OpenAI 博客 · rss EN 00:00 · 09·12
OpenAI 发了个 o1 用量子物理问题做演示的案例
OpenAI 在 2024 年 9 月 12 日发了一篇博客,说 o1 模型能回答量子物理问题。全文只强调 o1 会花更多时间思考,在科学、编程和数学上比之前模型表现更好,但没公布测试集、具体指标或错误率。这更像一个能力展示,不是可复现的评测。如果你想知道它到底答对了多少、在哪些问题上翻车,正文里一个字都没提。
#Reasoning #OpenAI #Mario Krenn #Product update
精选理由
这是 OpenAI 的一篇案例展示页,不是可复现的实验报告。HKR-H 靠跨领域 hook 通过,但 HKR-K 不通过,因为正文没给测试集、分数或误差率;HKR-R 很弱。触发硬排除:传统科学交叉 / 纯营销。
HKR 分解
hook ✓ knowledge — resonance —
2024-09-05 · 星期四 2024年9月5日
OpenAI 博客 · rss EN 08:00 · 09·05
客服机器人 Ada 用 GPT-4 把问题解决率从 30% 拉到 60%,头部客户超过 80%
客服平台 Ada 把 GPT-4 塞进客服流程,搞了一套新评估标准:不看“机器人挡了多少问题”(行业常用的 containment rate,能到 80–100% 但体验很差),而是看“问题到底解决了没有”。结果自动解决率从 30% 翻倍到 60%,头部客户超过 80%。评估框架用 GPT-4 加历史数据打分(相关性、准确性、安全性),和人工审核的一致...
#Agent #Fine-tuning #Benchmarking #OpenAI
精选理由
文章包含可用数据,因此 HKR-K 和 HKR-R 通过。但它仍然触发了硬排除条件——纯营销:这是一篇 OpenAI 托管的客户案例,核心结论是 Ada 用了 GPT-4 后客服指标变好了,因此 importance 上限不超过 40。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-09-04 · 星期三 2024年9月4日
Hugging Face 博客 · rss EN 00:00 · 09·04
Hugging Face 接入 TruffleHog 扫密钥,泄露了会发邮件通知
Hugging Face 宣布和 TruffleHog 合作,在平台上加了一道密钥扫描。现在每次有人 push 代码或文件,系统会用 TruffleHog 跑一遍,发现能用的密钥(verified secret)就发邮件提醒用户去处理。扫不出来的不一定是安全的,可能只是对方服务挂了。另外 TruffleHog 也出了个原生 Hugging Face 扫...
#Tools #Safety #Hugging Face #TruffleHog
精选理由
HKR-R 通过,因为密钥泄露是真实的开发者痛点。HKR-H 和 HKR-K 不通过:文章只确认了合作和目的,没有范围、触发机制、默认开启策略或指标,所以这只是一个低带宽的“全部”合作/产品更新。
一句话点评
Hugging Face 把开源密钥扫描工具 TruffleHog 直接集成到平台里,以后每次上传模型或数据集都会自动扫一遍有没有泄露的 token、密码。扫到确认有效的密钥会发邮件通知你,但没确认的不代表安全,可能只是对方服务挂了。另外 TruffleHog 也出了个原生命令,用户可以自己扫自己的账号、组织甚至单个模型。目前还不支持 LFS 大文件,团队说后续会补。整体是个实用的安全加固,...
锐评
Hugging Face 这次宣布与 TruffleHog 合作扫描敏感凭证,但正文未披露扫描范围、触发条件、默认策略。对平台安全来说,这三个信息比“合作”两个字重要得多。我先说判断:这条方向是对的,力度暂时看不出来。要是只做成“作者手动点一下”的可选工具,拦不住大多数真实泄漏;要是能卡在 push、上传、Space 构建、模型资产发布这些入口,价值就完全不一样。
我对这条会多看一眼,不是因为 secret scanning 这事新,而是因为 Hugging Face 的资产形态比普通代码托管平台更杂。它不只有 Git 仓库,还有 dataset、model card、Space、权重文件、配置文件、示例 notebook、构建日志。凭证泄漏经常就藏在这些边角里,不只是在 .env。GitHub 早就把 secret scanning 做成平台级能力了,公开仓库和 partner patterns 这些年一直在扩;GitLab、Sourcegraph 以及一堆 CI 安全工具也都在做相近的事。Hugging Face 现在补这一课,不算超前,更像把一个迟到但必要的控件装上去。
我有个明确的保留意见:标题里的“scan for secrets”听着很稳,实际误报和漏报一直很烦。TruffleHog 的长处是高熵字符串加 provider 验证,很多场景比纯 regex 靠谱,这个业内都知道;但平台集成一旦扩大到模型资产和数据集,噪声会不会飙升,我还没看到任何说明。比如训练样本里本来就包含 token 样式字符串,或者安全研究数据集刻意收录泄漏样本,这些该怎么分流?正文没给。再往前一步,发现 secret 之后是阻断、告警、自动吊销,还是只发邮件?也没给。没有 remediation flow,扫描就容易沦为看板指标。
还有个点我不太买账:如果这次合作不是默认开启,而是仓库管理员手动 opt-in,覆盖面大概率不会高。公开平台的安全功能,默认策略基本决定实际效果。GitHub Advanced Security 这些年一个核心经验就是,安全能力放在付费包、手动开关、或只对企业仓默认,最后总有一大片长尾项目漏在外面。Hugging Face 的风险面还更特殊,因为很多实验型项目、demo Space、社区数据集恰恰最容易把凭证写进去。
说真的,我更想知道它集成在哪一层。要是只扫代码仓,帮助有限;要是连 Space secrets、构建日志、上传文件、LFS 对象、dataset viewer 后端都能覆盖,这条就硬很多。我还没查到原文,标题只给了合作方向,没给执行面。现阶段我的结论很简单:先别把它当成 Hugging Face 安全能力大升级,它先是一次补洞表态。等他们把默认开关、阻断位置、扫描对象、处置流程写清楚,再谈实际防护强度。
HKR 分解
hook — knowledge — resonance ✓
2024-08-26 · 星期一 2024年8月26日
OpenAI 博客 · rss EN 04:00 · 08·26
亚利桑那州立大学用 ChatGPT 铺了 200 多个项目,覆盖八成院系
亚利桑那州立大学(ASU)说,到 2024 年 7 月已经收到 400 多份 ChatGPT 提案,激活了 200 多个项目,覆盖大部分院系。关键信号是部署密度——提案在几周内就覆盖了 80% 以上的学院,集中在教学、公共利益研究和运营。正文提到用了 ChatGPT Edu 和 Enterprise,但没有披露买了多少席位、花了多少钱、以及具体效果指标...
#Tools #Arizona State University #OpenAI #Michael M. Crow
精选理由
正文给了落地密度(400+方案、200+项目、80%+学院),K和R都够。但本质是OpenAI的客户宣传稿,没披露采购规模、费用和效果指标,信息缺口明显,所以维持excluded且上限卡在36。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-08-22 · 星期四 2024年8月22日
欧盟 AI 法案 · rss EN 11:06 · 08·22 📰 2 信源
欧盟《AI法案》规定欧盟委员会AI办公室职责
这篇文章的标题是《AI法案:欧盟委员会(AI办公室)的职责》,但点进去发现正文根本没列出AI办公室具体要干什么、怎么执法、时间表是什么。目前能确定的是,AI办公室负责监管通用AI模型和高风险系统,但具体执行细节还没出来。对于做AI产品的团队来说,关键得盯着后续的实施细则,因为执法力度直接决定合规成本有多高。
#European Commission #AI Office #Policy
精选理由
标题说的是欧盟《AI Act》下AI Office的职责,但RSS只给了标题,正文是空的。具体管什么、怎么罚、什么时候生效、谁要遵守,全没写。对做模型和应用的人来说,这事确实跟合规和上线风险挂钩,但信息量等于零。先别激动,等细则出来再判断。
一句话点评
欧盟《AI法案》把成员国和AI办公室的职责分清了:成员国管高风险系统的审批和处罚,AI办公室盯通用模型(比如GPT)的合规。正文没披露具体罚金或人员编制,执行力度还不好说。
HKR 分解
hook — knowledge — resonance ✓
2024-08-21 · 星期三 2024年8月21日
Hugging Face 博客 · rss EN 00:00 · 08·21
Hugging Face 用 Flash Attention 2 做 packing 训练,吞吐量翻倍
Hugging Face 发了一篇博客,说他们把 packing(把多个样本拼成一个序列,不填充空白)和 Flash Attention 2 结合起来了,训练吞吐量最高能到原来的 2 倍。以前 packing 用 Flash Attention 2 会跨样本算注意力,导致模型学歪,现在他们通过一个叫 `flash_attn_varlen_func` 的...
#Tools #Hugging Face #Product update #Commentary
精选理由
只有标题:Hugging Face说FA2 packing能提升训练效率,但正文没给提速数字、显存变化、模型覆盖范围或复现条件。角度也很窄,就是训练栈底层优化,所以直接归入硬排除——技术可及性不足,且受众面小。
HKR 分解
hook — knowledge — resonance —
2024-08-20 · 星期二 2024年8月20日
FEATURED OpenAI 博客 · rss EN 11:00 · 08·20
OpenAI 和康泰纳仕合作,把 Vogue、纽约客等杂志内容接进 ChatGPT 和 SearchGPT
OpenAI 在 2024 年 8 月 20 日宣布与康泰纳仕(Condé Nast)达成合作,会把 Vogue、The New Yorker、GQ、Wired 等至少九个品牌的内容放进 ChatGPT 和还在测试的 SearchGPT 里。SearchGPT 会直接给出原文链接,让用户点进去看完整报道。公告里没提合作金额、授权范围、收入怎么分、以及具...
#RAG #Tools #OpenAI #Condé Nast
精选理由
OpenAI 把 Vogue、The New Yorker、Wired 等 Condé Nast 旗下品牌的内容接进 ChatGPT 和 SearchGPT,搜索结果会带原文链接。对从业者来说,这验证了头部出版商在 AI 搜索里的分发位置,但合作细节全没披露——没写授权范围、没写钱怎么分、也没写哪些地区能用,所以我会先打个折,把它放在低分 featured 档。
一句话点评
OpenAI 和康泰纳仕签了内容授权,ChatGPT 和 SearchGPT 以后能直接展示 Vogue、GQ 等杂志的内容。但公告没提钱、没提具体怎么分账,也没说授权是独家还是非独家。
锐评
OpenAI 把康泰纳仕旗下 Vogue、纽约客、GQ 等一堆杂志的内容接进了 ChatGPT 和还在测试的 SearchGPT。这事说白了就是 OpenAI 在给自家产品铺“正版内容”的路,让搜索结果和回答能直接引用这些杂志的文章,用户点链接还能跳回原文。
公告里列了一串已经签约的媒体,从美联社到新闻集团,康泰纳仕是名单里偏时尚生活类的补充。但关键信息全没给:合作是付费授权还是资源互换?OpenAI 会不会用这些内容继续训练模型?SearchGPT 目前只是原型,正文说“未来会把最好的功能整合进 ChatGPT”,等于现在还是个半成品,效果怎么样完全没谱。
对从业者来说,这条新闻的价值在于确认 OpenAI 在持续扫货内容版权,但别急着下“AI 搜索要变天”的结论。没看到具体条款、没看到流量分成机制、没看到用户实际使用数据之前,这更像是一张内容合规的入场券,离真正好用的产品还有距离。
HKR 分解
hook — knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 10:00 · 08·20
OpenAI 开放 GPT-4o 微调,训练费每百万 token 25 美元,9 月 23 日前每天送 100 万免费额度
OpenAI 把 GPT-4o 的微调权限开放给所有付费开发者了。训练价格是每百万 token 25 美元,用微调后的模型跑推理,输入每百万 token 3.75 美元,输出每百万 token 15 美元。到 9 月 23 日为止,每个组织每天能免费拿到 100 万训练 token。官方说,几十条样本就能让模型在特定任务上听话不少,比如调整回答风格、遵...
#Fine-tuning #Code #Benchmarking #OpenAI
精选理由
OpenAI 这次给 GPT-4o 开放微调,不是画饼,是直接上线了。我会先打个折:免费额度只到 9 月 23 号,每天 100 万 token,够你跑个小实验但别指望白嫖大项目。训练每百万 token 25 美元,推理输入 3.75、输出 15,价格不算低,但比从头训模型省事太多。真正值得盯的是两个外部团队的成绩——Cosine 在 SWE-bench Verified 上刷到 43.8%,Distyl 在 BIRD-SQL 上拿到 71.83%,说明微调后的 GPT-4o 在代码和 SQL 场景确实能打。正文没披露这两个微调具体用了多少数据、什...
一句话点评
GPT-4o 开放微调了,9 月 23 号前每天送 100 万训练 token,训练费每百万 token 25 美元,推理费输入 3.75 美元、输出 15 美元。
锐评
OpenAI 终于把 GPT-4o 的微调权限放出来了,这是开发者呼声最高的功能之一。简单说,你现在可以拿自己的数据去教 GPT-4o 按你的风格、格式或专业领域要求来回答问题,几十条样本就能看到效果。价格方面,训练费每百万 token 25 美元,推理费输入 3.75 美元、输出 15 美元,不算便宜,但 9 月 23 号前每天白送 100 万训练 token,可以先低成本试水。文章举了两个合作案例:Cosine 的 AI 编程助手 Genie 用微调后的 GPT-4o 在 SWE-bench Verified 上拿了 43.8% 的最高分,Distyl 在 BIRD-SQL 文本转 SQL 榜单上以 71.83% 的执行准确率排第一。这两个数字说明微调确实能拉高垂直任务的上限,但要注意,这些都是官方合作的“成功故事”,实际效果还得看你的数据质量和任务匹配度。正文没提微调后模型延迟会不会增加,也没给更细的稳定性指标,这点先别太激动。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
OpenAI 博客 · rss EN 10:00 · 08·20
Upwork 全面接入 OpenAI:GPT-4o 做反欺诈,GPT-3.5 写招聘帖,98% 员工选 ChatGPT Enterprise
Upwork 把自己变成了“OpenAI 店”——全线产品、内部运营和反欺诈都用 OpenAI 模型。具体效果:GPT-3.5 写的招聘帖生成器让客户发帖时间缩短 80%,用这个功能的客户在 Upwork 上多花了 9%;早期版本的 AI 助手 Uma 让新客户首月消费高了 7%。反欺诈那边用 GPT-4o 自动识别低质量帖子和诈骗帖,省掉了大量人工审...
#Tools #Code #Safety #Upwork
精选理由
HKR-K 通过,因为文章包含具体的部署事实:GPT-3.5/GPT-4o 的使用和三个结果数字(80%、9%、7%)。但这仍然是第一方客户案例研究,其结论是'Upwork 使用 OpenAI 并受益',触发硬排除——纯营销,因此排除。
HKR 分解
hook — knowledge ✓ resonance —
2024-08-16 · 星期五 2024年8月16日
FEATURED OpenAI 博客 · rss EN 11:00 · 08·16
OpenAI 封掉了一批用 ChatGPT 给伊朗隐蔽舆论战写稿的账号
OpenAI 在 2024 年 8 月 16 日说,他们发现并封禁了一批 ChatGPT 账号,这些账号属于一个叫 Storm-2035 的伊朗隐蔽舆论行动。这批账号用 ChatGPT 干两件事:一是写长文章,发在五个伪装成进步派或保守派新闻的网站上;二是生成英语和西班牙语的短评论,发在 X 和 Instagram 上。他们聊的主要是加沙冲突、以色列参...
#Safety #Tools #OpenAI #Microsoft
精选理由
钩子落在 OpenAI 主动曝光自家模型被用于隐蔽选举干预,够抓眼球。新知部分给了具体账号数、站点数和 Breakout Scale 2 级,说明操作规模小、传播效果差,这点先别太激动。风险关联上,模型滥用和选举安全是行业硬伤,但 OpenAI 自己说没看到有意义的受众触达,所以重要性停在 76 分,不往上拔。
一句话点评
OpenAI 自己下场抓了个用 ChatGPT 搞美国大选舆论战的伊朗账号群,但效果很差,几乎没人看。
锐评
OpenAI 在 8 月 16 日公布,他们发现并封禁了一批与伊朗“风暴-2035”行动有关的 ChatGPT 账号。这批账号用 ChatGPT 干两件事:一是写长文章,发在五个伪装成进步派或保守派新闻的网站上;二是生成英文和西班牙文的短评论,发在 X 和 Instagram 上,有些评论是让模型改写其他用户的帖子。话题主要围绕加沙冲突、以色列参加奥运会和美国大选,中间还穿插时尚美容内容,可能是想装得更像真人。
但这次行动的效果很差。OpenAI 说,绝大多数帖子几乎没有点赞、转发或评论,也没发现网站文章被广泛分享。按布鲁金斯学会的“破圈指数”评估,这次行动只处于 2 级低端,意思是在多个平台有活动,但没有真人接盘传播。这个判断有微软上周公开的情报做交叉验证,不是 OpenAI 一家之言。
不过,正文没披露这批账号具体生成了多少内容、用了多少 API 额度,也没说模型本身是否输出了危险信息,还是只是被当成普通文案工具。这点先别太激动,OpenAI 目前展示的更像是一次平台合规动作,而不是模型被武器化的证据。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-08-15 · 星期四 2024年8月15日
OpenAI 博客 · rss EN 07:00 · 08·15
Indeed 用微调 GPT 给求职者写推荐理由,日处理 2000 万条消息
招聘平台 Indeed 把微调后的 GPT 模型塞进“邀请投递”功能,每天给近 2000 万条求职推荐配上个性化解释,告诉用户“为什么这个岗位适合你”。相比用 few-shot 提示词硬撑,微调后 token 用量降了 60%,成本省了一大截。A/B 测试显示,带 GPT 解释的推荐让求职者开始申请的比例涨了 20%,后续雇主确认匹配成功的比例也高了 ...
#Fine-tuning #Tools #Benchmarking #Indeed
精选理由
硬排除——纯营销案例,核心信息就是Indeed用了OpenAI。HKR-K和HKR-R靠具体规模和ROI指标过关,但正文没交代模型版本、定价和可复现性,分数卡在40以下,排除。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-08-14 · 星期三 2024年8月14日
OpenAI 博客 · rss EN 10:00 · 08·14
OpenAI 与大都会博物馆合作:用 AI 让一件 1931 年的婚纱开口说话
OpenAI 和大都会博物馆在“睡美人:时尚苏醒”展里做了一个叫“与娜塔莉聊天”的互动体验。观众可以问一件 1931 年婚纱的主人娜塔莉·波特关于她生活、婚礼和时代的问题。背后逻辑是:博物馆把信件、报纸、历史文档整理成资料库,OpenAI 用大模型加上定制指令,让模型只按这些资料回答,相当于一个博物馆级的“外挂资料库”加角色扮演。内容经过策展人审核,安...
#RAG #Safety #Tools #OpenAI
精选理由
硬排除-5(纯营销):这是博物馆客户案例,不是产品发布或研究突破,所以分数压在40以下。HKR-H靠'跟1931年新娘聊天'的钩子通过;HKR-K缺模型、规模、评估和上线细节;HKR-R缺乏行业利害关系。
HKR 分解
hook ✓ knowledge — resonance —
2024-08-13 · 星期二 2024年8月13日
● P1 OpenAI 博客 · rss EN 10:00 · 08·13
OpenAI 发布 SWE-bench Verified:人工复核过的代码能力测试集
OpenAI 和 SWE-bench 原作者一起搞了个“验过货”的子集,叫 SWE-bench Verified。他们发现原版测试有坑:单元测试太死板、问题描述含糊、环境搭不起来,导致明明对的代码被判错,会系统性地低估模型写代码的真实水平。截至 2024 年 8 月 5 日,头部智能体在原版 SWE-bench 上得分约 20%,在 SWE-bench...
#Code #Benchmarking #Safety #OpenAI
精选理由
这不是一次常规发布。OpenAI 拉着原作者把 SWE-bench 翻了一遍,点出三类硬伤,还给出了新的分数天花板。我会先打个折:正文没披露修正后的完整新榜单,但现有数据已经足够让人重新审视那些代码智能体的评测成绩。
一句话点评
OpenAI 自己动手修了 SWE-bench 的 bug,筛出 500 道更靠谱的题,之前很多模型分数其实被低估了。
锐评
OpenAI 发现 SWE-bench 这个流行的代码能力测试有不少坑:单元测试太死板、问题描述含糊、环境搭不起来,导致很多能用的方案被判错。他们和原作者合作,人工复核了全部 2294 道题,筛出 500 道没毛病的,叫 SWE-bench Verified。用这套新题跑,GPT-4o 的分数从 33% 涨到 50%,说明之前确实低估了模型。
这事本质是 OpenAI 在为自家的安全评估框架找更准的尺子,因为自动写代码的能力被他们划进了中等风险。不过文章只提了 GPT-4o 的分数,没给其他模型在新题上的对比,也没说人工标注花了多少钱、标准会不会再变。这套题能不能成为行业默认,还得看后续有没有更多模型愿意在上面晒分。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-08-12 · 星期一 2024年8月12日
Hugging Face 博客 · rss EN 00:00 · 08·12
Falcon Mamba 7B 发布:第一个能打的纯 Mamba 模型,不用注意力机制
阿布扎比 TII 发布了 Falcon Mamba 7B,这是第一个通用型纯 Mamba 架构的大模型,完全不用注意力机制。传统 Transformer 处理长序列时,计算和显存会随长度平方级增长,而 Mamba 架构能做到推理时显存不随序列长度增加,生成每个 token 的时间也是恒定的,不受上下文长度影响。模型在单张 A10 24GB GPU 上就...
#Falcon Mamba #Product update
精选理由
标题的钩子确实在:一个 7B 的无注意力模型很少见,H 成立。但正文完全空白,RSS 摘要只确认了名字、规模和定位,没有跑分、上下文长度、训练数据或许可证,K 和 R 都不满足。所以这条只能放在低优先级全量推送,不值得上推荐位。
一句话点评
Falcon Mamba 是第一个纯 Mamba 架构的 7B 模型,不用注意力机制,靠状态空间模型(SSM)处理长文本。官方说它推理时显存占用不随序列长度增长,单张 A10 24GB 显卡就能跑任意长序列,生成每个 token 的时间恒定。这点对长文档、多轮对话场景很友好。但注意,它只在部分基准上接近同尺寸 Transformer 模型,不是全面超越。正文没披露训练数据组成和具体推理速度对...
锐评
标题给出的硬信息只有两点:Falcon Mamba 是 7B,而且走 attention-free 路线。正文没披露训练数据、基准、上下文长度、许可证、推理吞吐,连“strong”是对谁强都没定义。所以这条我不会按模型能力新闻来读,我更愿意把它当成一条架构宣示:Falcon 这支线想证明,7B 这个主流参数带里,不靠 Transformer attention 也能打到可用区间。
我对这个方向一直有保留。attention-free 的卖点大家都懂,长上下文时理论扩展更顺,KV cache 压力也有机会降,部署成本账面上更好看。问题是过去一年,这条线在研究圈声量不小,在开发者实际采用上始终没冲进主航道。Mamba、Mamba-2、RWKV 这类名字,做模型的人都听过;真到了 production,大家买单的还是 Llama、Qwen、Mistral 这套 Transformer 家族。原因也不神秘:生态、工具链、后训练经验、量化兼容、框架优化,几乎全围着 attention 长出来。你单靠“不是 attention”拿不到席位,除非你把一个特别硬的指标直接拉开,比如同等显存下 10 倍上下文,或者同等延迟下明显更高吞吐。标题没给这些数字,我没法替它补。
还有个我不太买账的地方:7B 现在不是一个容易讲故事的尺寸。2024 年开源主流已经被 Llama 3 8B、Qwen2 7B、Mistral 7B 这种模型打得很满,大家对 7B 的预期很实际:要么便宜好部署,要么在特定任务上有异常高的性价比。Falcon Mamba 如果只是“第一个强 attention-free 7B”,这句宣传本身不构成护城河,因为“第一个”只在基准成立、复现条件清楚、而且社区愿意迁移时才有分量。许可证如果偏限制,故事还会再弱一截;可惜正文连这点都没给。
我更想看三组数据。第一,长上下文困境到底解了多少,32k、128k 还是更高,困惑度和检索任务怎么掉。第二,推理侧到底省了多少,吞吐、延迟、显存占用要和 Llama 3 8B 或 Qwen2 7B 放同一硬件上比。第三,后训练和工具调用是否稳定,这类新架构经常在 base model 上看着漂亮,一进 instruction tuning 和 agent loop 就开始露短。现在只有标题,我最多承认这是一条有技术野心的发布;离“强模型”四个字,还差一整页该公开而没公开的数据。
HKR 分解
hook ✓ knowledge — resonance —
2024-08-08 · 星期四 2024年8月8日
FEATURED OpenAI 博客 · rss EN 12:00 · 08·08
OpenAI 把卡内基梅隆的机器学习系主任 Zico Kolter 拉进了董事会和安全委员会
OpenAI 在 2024 年 8 月 8 日宣布,卡内基梅隆大学教授 Zico Kolter 加入董事会,同时进入安全与安保委员会。Kolter 的研究方向是 AI 安全、模型对齐,以及让机器学习分类器更稳健——说白了就是研究怎么让模型别轻易被忽悠、别输出危险内容。他之前搞出过给深度学习模型加“硬约束”的方法,2023 年还带队开发了自动评估大模型安...
#Safety #Alignment #OpenAI #Zico Kolter
精选理由
我会先打个折:这就是个任命通知,别当产品发布看。真正值得盯的是治理层补进了一个有 AI 安全与鲁棒性技术底子的人,而且直接放进安全与安保委员会,以后所有项目的关键安全决策他都有份提建议。正文没披露他具体投票权有多大、委员会多久开一次会,这点先别太激动。
一句话点评
OpenAI 把卡内基梅隆的 Zico Kolter 拉进董事会和安全委员会,主要看中他在模型鲁棒性和自动评估大模型安全上的研究。
锐评
OpenAI 宣布卡内基梅隆大学机器学习系主任 Zico Kolter 加入董事会,同时进入安全与安全委员会。Kolter 的研究方向集中在 AI 安全、对齐和模型鲁棒性上,他团队在 2023 年搞出了一套自动评估大模型安全的方法,能通过自动优化绕过现有模型的安全护栏。这基本就是 OpenAI 在治理层面给自己补安全课,找一个外部技术专家来盯着项目安全决策。
不过,这篇官方公告没提 Kolter 在董事会里具体有多少投票权,也没说安全委员会的建议对项目有多大强制力。他之前在 C3.ai 当首席数据科学家,现在还在博世和 AI 安全初创公司 Gray Swan 挂技术顾问的职,这些工业界背景可能比纯学术头衔更实用,但公告里只是一笔带过。
还缺的信息是:Kolter 加入后,委员会的安全审查流程会不会变,以及他手里能调动多少资源去做独立评估。这点先别太激动,任命一个专家和真正改变安全决策机制是两码事。
HKR 分解
hook — knowledge ✓ resonance ✓
● P1 OpenAI 博客 · rss EN 00:00 · 08·08
GPT-4o 系统卡:语音响应快过人类,但声音安全是最大隐患
OpenAI 在 8 月 8 号发了 GPT-4o 的系统卡,把安全底牌摊开来看。这个模型能直接吃文本、音频、图片和视频,输出也一样,最快 232 毫秒就能回话,平均 320 毫秒,跟人聊天反应速度差不多。API 价格比 GPT-4 Turbo 便宜一半。在 OpenAI 自己的安全框架里,网络安全、生物威胁、模型自主性三项风险都是低,说服力这项擦边踩...
#Multimodal #Audio #Safety #OpenAI
精选理由
这不是一篇例行公事的发布。它把 preparedness 四类风险评级、232 毫秒语音延迟和明确的部署门槛都摆出来了。HKR 三项全中,但本质是安全披露而非新模型或重大产品发布,所以放在 featured 而不是 p1。
一句话点评
OpenAI 发了 GPT-4o 的安全说明书,语音反应速度跟人差不多,但说服力这项风险刚好踩线,这点先别太激动。
锐评
OpenAI 自己把 GPT-4o 的安全底牌摊开了。这份报告最值得看的是他们对语音功能的风险评估,比如防止模型冒用别人声音、识别说话人是谁,以及会不会生成不该说的内容。最终结论是语音并没有明显拉高整体风险,在网络安全、生物威胁和模型自主性这三项上都是低风险,唯独“说服力”这项评了个中等,属于刚好能上架的边缘水平。
报告里给了几个关键数字:语音回复最快 232 毫秒,平均 320 毫秒,和人对话的反应时间差不多;API 调用成本比 GPT-4 Turbo 便宜了一半。不过正文没披露具体用了多少数据、模型参数量多大,也没给出说服力风险的具体测试场景和边界条件,所以这个“中等”到底有多容易越界,还得看后续实际使用中的表现。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-08-07 · 星期三 2024年8月7日
OpenAI 博客 · rss EN 16:00 · 08·07
乐天用 OpenAI API 打通 70 多个服务的数据,客服等待从几天缩到自动回复
乐天集团把 OpenAI 的 API 接入了自家 70 多个在线服务的数据,覆盖 18 亿会员和 5.7 万日本商家。他们用 GPT-3.5、RAG(外挂资料库)和 Code Interpreter 做了三件事:客服工单从等几天变成自动回复、给商品评论自动提炼要点、帮 B 端客户做市场分析和销售趋势。正文没披露准确率、成本和实际部署范围,所以这点先别太...
#RAG #Tools #Multimodal #Rakuten
精选理由
这是OpenAI的客户案例,不是实质性的产品或研究更新。HKR-K因为70多项服务、18亿会员和GPT-3.5+RAG细节拿到一些分,但硬排除-纯营销和云厂商推广适用,因为成本、准确率和部署范围未披露。
HKR 分解
hook — knowledge ✓ resonance —
2024-08-06 · 星期二 2024年8月6日
● P1 OpenAI 博客 · rss EN 10:00 · 08·06
OpenAI 给 API 加了“结构化输出”,让模型按你给的 JSON 模板回话
OpenAI 在 2024 年 8 月 6 日上线了 Structured Outputs 功能,模型能严格按开发者提供的 JSON Schema 输出,不再只是生成合法 JSON 就完事。新模型 gpt-4o-2024-08-06 在复杂 schema 测试里拿了 100% 的准确率,而老模型 gpt-4-0613 不到 40%。用法上,在函数调用里...
#Tools #Agent #Inference-opt #OpenAI
精选理由
我会先打个折,这不是新模型发布或公司级大事件,但把 JSON 模式从“输出合法 JSON”升级到“严格匹配你的 schema”,并且给出 100% 对不到 40% 的评测对比,对天天跟解析错误搏斗的开发者来说太解渴了。约束解码加模型训练这套组合拳,比旧版 JSON mode 靠谱得多,直接拉高了工具调用的下限。84 分给的是一个高价值的 API 能力更新,不是行业地震,但够实用。
一句话点评
OpenAI 给 API 加了个硬约束,让模型输出必须严格匹配你给的 JSON 模板,内部测试里 gpt-4o 做到了 100% 合规。
锐评
这条更新解决了一个很实际的痛点:以前让模型输出固定格式的 JSON,得靠反复提示、重试和各种开源工具兜底,现在直接在生成阶段就卡死格式。OpenAI 说新模型 gpt-4o-2024-08-06 在复杂 JSON Schema 测试里拿了满分,而老模型 gpt-4-0613 不到 40%。这个提升幅度很大,意味着以前因为格式错乱导致的流程中断能少很多。
实现上分两种方式:函数调用里开 strict: true,或者直接在响应格式里指定 json_schema。底层用了约束解码,只允许生成符合语法规则的 token,不是靠提示词碰运气。不过要注意,首批只支持新的 gpt-4o 模型,老模型和微调版暂时用不了。另外,正文没提这种硬约束对回答质量有没有副作用,比如为了凑格式牺牲了内容的灵活性。实际用起来,还得观察它在复杂业务逻辑下的表现。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-07-30 · 星期二 2024年7月30日
FEATURED OpenAI 博客 · rss EN 00:00 · 07·30
OpenAI 签了欧盟 AI 法案的通用 AI 行为准则,8月2日生效
OpenAI 在 7 月 11 日更新了它的欧盟 AI 法案解读,宣布会签署通用 AI(GPAI)行为准则,赶在 8 月 2 日 GPAI 条款生效前。法案本身 2024 年 8 月就生效了,覆盖在欧盟提供或部署 AI 的公司,也包括把 AI 系统卖进欧盟市场的非欧盟企业。核心是按风险分级管:禁止的、高风险的、低风险的、通用 AI 各有一套义务。Ope...
#Safety #Alignment #OpenAI #EU AI Office
精选理由
HKR-K和HKR-R通过:文章打包了时间线、域外管辖范围和禁用/高风险/GPAI分层,是一份有用的合规简报。HKR-H偏弱,且正文截取部分未披露全部实操要求,因此评分70,保留在all。
一句话点评
OpenAI 自己下场解读欧盟 AI 法案,重点划了高风险和通用 AI 的合规红线,但全文是立场声明,不是中立解读。
锐评
这是 OpenAI 在 2024 年 7 月发的欧盟 AI 法案入门指南,后来在 2025 年 7 月又补了一段更新,宣布他们会签署《通用 AI 行为准则》。文章把法案按风险等级拆了一遍:禁止的、高风险的、低风险的,以及专门针对通用 AI(GPAI)模型的规则。对 AI 从业者来说,最实在的信息是时间线和适用范围——法案 2024 年 8 月生效,但具体条款是分阶段执行的,而且不管公司注册地在不在欧盟,只要你的 AI 输出在欧盟被用到了,就可能被管到。
不过得打个折,这篇文章本质上是 OpenAI 的合规表态,不是独立的法律分析。它只挑了对自家有利或相关的部分展开,比如强调他们早就做了安全框架、红队测试和模型规格说明,暗示“我们底子好,合规不难”。至于法案里模糊的地方、可能对开源模型或中小厂商造成的合规成本,文章基本没提。正文也没披露 OpenAI 具体哪些产品会被划进高风险类别,以及他们打算怎么应对 GPAI 模型额外的透明度义务。想靠这篇搞懂法案全貌不够,它更适合当一份了解大厂合规思路的参考。
HKR 分解
hook — knowledge ✓ resonance ✓
2024-07-25 · 星期四 2024年7月25日
● P1 OpenAI 博客 · rss EN 00:00 · 07·25
OpenAI 发布 SearchGPT 原型,把实时搜索塞进聊天框里
OpenAI 在 7 月 25 号开始小范围测试 SearchGPT,一个临时上线的 AI 搜索原型。它直接用对话形式返回带实时信息的答案,每条信息都附有内联的出处标注,侧边栏还会列出更多来源链接,方便你点进去核实。这个原型目前只开放给一小部分用户和出版商试用,目的是收集反馈。官方明确说这只是个过渡产品,未来会把好用的功能整合进 ChatGPT 里。正...
#RAG #Tools #OpenAI #The Atlantic
精选理由
我会先打个折:正文没披露模型名、规模、商用时间,所以没法往 90 以上打。但 OpenAI 拿一个带实时网页回答和出版商参与的独立搜索原型出来测试,当天就该写。它用文内引用和侧边栏来源链接解决了一部分可信度问题,连续追问也让搜索更像对话,这些点从业者会关心。不过别太激动,它只是个临时原型,最终要融进 ChatGPT,现在更像 OpenAI 在试探搜索边界和出版商关系。
一句话点评
OpenAI 放出了一个叫 SearchGPT 的搜索原型,直接给答案并附来源链接,但只在小范围测试,还没整合进 ChatGPT。
锐评
OpenAI 在 2024 年 7 月 25 日公开了 SearchGPT 原型,核心是把大模型的对话能力和实时网页信息拼在一起,你问它答,答案里直接标出处、给链接,还能像聊天一样追问。目前只开放给一小批用户和出版商试用,目的是收集反馈,未来会把好的功能整合进 ChatGPT。
值得留意的是,OpenAI 特意强调这个搜索功能和训练生成式模型是两码事:就算网站拒绝被拿去训练 AI,依然可以出现在搜索结果里。这明显是在安抚出版商,还拉来了《大西洋月刊》和新闻集团的 CEO 站台背书。但正文没披露测试规模有多大、延迟多少、答案的准确率如何,也没说清楚和现有搜索引擎(比如 Google 或 Bing)的具体差异在哪。
我会先打个折:这还是个临时原型,离正式产品有距离。对从业者来说,看点在于 OpenAI 怎么在“直接给答案”和“给网站导流”之间找平衡,以及出版商控制面板到底能管到什么程度。这些细节目前都还缺着。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 07·25
LAVE:用大模型给文档问答打分,零样本下还需要微调吗?
Hugging Face 团队在开发 Docmatix 时发现,用这个合成数据集微调 Florence-2 后,模型在 DocVQA 基准上得分很低,但人类评估反而觉得效果更好。问题出在传统指标(如精确字符串匹配)对零样本场景太严格——模型答对了但格式或措辞不同就会被判错。他们提出 LAVE(LLM 辅助评估),用大模型判断答案语义是否一致,而不是死抠...
#Vision #Multimodal #Benchmarking #Benchmark
精选理由
标题钩子成立(H),话题有实际价值(R),但正文只交代了任务设定是零样本 VQA 评测,模型、指标、数据集规模、结论一概没有,属于硬性信息缺失,按规则排除。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-07-24 · 星期三 2024年7月24日
● P1 OpenAI 博客 · rss EN 09:00 · 07·24
OpenAI 用“规则打分”替代部分人工反馈,让模型在安全问题上更听话
OpenAI 在 7 月 24 日公开了他们用在安全对齐上的新方法:Rule-Based Rewards(RBRs),也就是用一套事先写好的规则给模型回复打分,而不是每次都靠人反复标注。这套方法把模型面对敏感请求时的反应分成三类——硬拒绝(简短道歉并明确说不)、软拒绝(带同理心地拒绝)和正常遵从——然后针对每类行为设定具体的评判标准,比如“回复是否在说...
#Alignment #Safety #Fine-tuning #OpenAI
精选理由
我会先打个折:正文截取部分没给具体效果数字,也没对比基线,所以分数压在 78–84 这个区间。但 OpenAI 把安全规则显式写进奖励模型这件事本身值得关注,因为它解决的是工程上很实际的麻烦——政策一改,不用重新雇人标一堆数据,改规则就行。三种响应模式(硬拒、软拒、合规)让模型拒绝时不会太生硬,这点对产品体验有帮助。不过别太激动,论文没披露误拒率或漏判率,实际线上表现还得看后续有没有更细的评测。
一句话点评
OpenAI 用一套写死的规则代替人工反馈来训练模型的安全行为,省去了反复收集人类偏好数据的麻烦。
锐评
这篇技术博客讲的是 OpenAI 在安全对齐上的一种新做法:Rule-Based Rewards(RBRs),也就是用事先写好的、分步骤的规则来给模型输出打分,替代传统 RLHF 里需要大量人工标注的奖励模型。好处很明显,规则是明确的,安全政策一改,直接改规则就行,不用重新收集人类反馈数据,省时省力。文章说这套方法从 GPT-4 时期就开始用了,GPT-4o mini 也在用。
具体做法是把模型面对敏感请求时的回复分成三类:硬拒绝(如暴力犯罪)、软拒绝(如自残话题)和正常回答,然后针对每类设定一些命题,比如“回复是否带有说教语气”、“是否包含简短道歉”。这些命题的真假组合会映射到“理想”、“不太好”、“不可接受”三个等级,最终形成一个线性加权的奖励分数来训练模型。
不过,正文没给出具体的性能对比数字,比如用了 RBRs 之后有害回复率降低了多少,或者跟纯 RLHF 比在安全指标上有多大提升。也没提这套规则在面对复杂、模糊的边界情况时,会不会因为规则过于死板而误判。另外,代码和论文链接是给了,但博客本身更像一个方法概览,想评估实际效果还得去翻论文里的实验部分。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-07-23 · 星期二 2024年7月23日
● P1 Hugging Face 博客 · rss EN 00:00 · 07·23
Llama 3.1 发布:405B、70B、8B 三个尺寸,主打多语言和长上下文
Meta 在 Hugging Face 上放出了 Llama 3.1,一共三个尺寸:8B、70B 和 405B。8B 适合在消费级显卡上跑,70B 给大规模 AI 应用,405B 主要用来做合成数据、让模型当裁判或者蒸馏小模型。每个尺寸都有基础版和指令微调版。这次还多了两个安全模型:Prompt Guard 是个小分类器,用来检测提示注入和越狱攻击;L...
#Multimodal #Meta #Llama #Product update
精选理由
Meta 的 Llama 3.1 是开源阵营的旗舰更新,标题已经把三个参数规模和两个关键能力点出来了。我会先打个折:正文没披露上下文窗口到底多长、支持哪些语种、许可是不是真开放可商用,也没给任何基准跑分,所以信息缺口不小。真正值得盯的是 405B 能不能免费用、长上下文推理实际要烧多少钱。这些没公布之前,分数先卡在 85-94 这个区间的低位。
一句话点评
Meta 把 405B 参数的开源模型放出来了,还带多语言和长上下文,但别急着激动,先看它跑起来要多少张显卡。
锐评
Llama 3.1 这次最大的动作是直接开源了 405B 参数的模型,这在以前是闭源巨头的专属地盘。8B、70B、405B 三个尺寸都给了基础版和指令微调版,还附带了 Prompt Guard 和 Llama Guard 3 两个安全小模型,一个防注入,一个做内容分类。
从 Hugging Face 这篇博客看,重点在落地:405B 跑推理需要多卡甚至多节点,他们给了显存估算,也提到了 FP8、AWQ 等量化方案来压成本。模型支持多语言和长上下文,还内置了工具调用能力,说明 Meta 想让它在实际业务里干活,不只是刷榜。
不过,博客没给出 405B 在中文或非英语任务上的具体评测数据,多语言能力到底怎么样还得自己试。另外,405B 的微调成本极高,正文只提了用 TRL 和合成数据生成工具 distilabel 的思路,没给实际的微调资源消耗数字,这点对想自己训的人来说是个缺口。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-07-18 · 星期四 2024年7月18日
● P1 OpenAI 博客 · rss EN 10:00 · 07·18
OpenAI 发布 GPT-4o mini,比 GPT-3.5 便宜六成,API 里首次用上指令层级防越狱
OpenAI 在 7 月 18 日推出了 GPT-4o mini,直接替换掉 ChatGPT 里的 GPT-3.5。价格是输入每百万 token 0.15 美元、输出 0.6 美元,比 GPT-3.5 Turbo 便宜了超过 60%。模型跑分还行,MMLU 82 分、HumanEval 87.2 分,都压过 Gemini Flash 和 Claude ...
#Multimodal #Code #Safety #OpenAI
精选理由
这不是小修小补,GPT-4o mini 带着新定价、长上下文、明确的基准成绩和一套新的安全机制出来,直接替掉 GPT-3.5,对开发者的钱包和安全方案都有实际影响。HKR 三项全中,放在 P1 没问题。
一句话点评
OpenAI 发了 GPT-4o mini,主打便宜,比 GPT-3.5 Turbo 还便宜 60% 以上,MMLU 82 分,但别急着冲,这只是官方自报成绩。
锐评
这条消息的核心就一个字:省。输入每百万 token 0.15 美元,输出 0.6 美元,比 GPT-3.5 Turbo 便宜六成多,对需要大量调用 API 的业务(比如客服、代码审查)确实能省下一大笔钱。性能上,官方给的 MMLU 82 分、HumanEval 87.2 分,都压过了 Gemini Flash 和 Claude Haiku,但要注意这些全是 OpenAI 自己跑出来的基准,实际用起来是不是真比竞品强,还得看第三方实测和社区反馈。
模型支持文本和图片输入,上下文窗口 128K,知识截止到 2023 年 10 月,这些规格跟上了主流。安全方面提到了指令层级方法,用来防越狱和提示注入,但具体效果正文没给数据,只能说方向对了。另外,微调功能说“接下来几天”上线,想拿自己数据定制的人可以等等看。
目前缺的是:多模态输入输出(视频、音频)还没实装,只是画了个饼;价格虽然低,但延迟和并发上限没提,高流量场景下会不会排队严重,这点先别太激动。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
FEATURED OpenAI 博客 · rss EN 00:00 · 07·18
OpenAI 给企业版 ChatGPT 加了合规 API 和自动管人工具
OpenAI 在 2024 年 7 月 18 日推出了企业合规 API,让公司能导出带时间戳的对话、文件、GPT 配置、记忆和用户记录,主要给金融、医疗、法律这些强监管行业做审计和归档用。同时接入了 Forcepoint、Microsoft Purview、Netskope 等八家第三方合规厂商,方便做数据防泄漏和法务留存。用户管理方面,SCIM 自动...
#Tools #OpenAI #ChatGPT Enterprise #Microsoft
精选理由
OpenAI 给 ChatGPT Enterprise 加了合规 API、8 个第三方合规集成和 SCIM 用户管理,主要解决企业审计和账号管控的落地问题。我会先打个折:文章没展开“Expanded GPT controls”的具体细节,这部分只能先当占位。能确认的是,API 可以导出带时间戳的对话、文件、GPT 配置、记忆和用户记录,对接了 Okta、Microsoft Entra ID、Google Workspace 和 Ping,对需要过合规审计的团队来说,省了自己拼积木的功夫。
一句话点评
OpenAI 给企业版加了合规 API 和自动管人工具,主要让金融、医疗这类强监管行业能查日志、防数据泄露。
锐评
这次更新核心是两件事:一是通过合规 API 把工作区里的对话、文件、配置等操作记录变成可审计的时间戳日志,方便对接 Forcepoint、Microsoft Purview 等八家已有的合规与防泄露工具,满足 FINRA、HIPAA、GDPR 等监管要求。二是上线 SCIM 做用户账号的自动同步和启停,支持 Okta、Entra ID 等主流目录,省去 IT 手动开删账号的麻烦。
正文没给出 API 调用的延迟、日志导出格式细节或 SCIM 的正式上线日期,只提到 SCIM 还在 beta。我会先打个折:功能听起来实用,但实际落地效果要看对接的第三方工具是否顺手,以及日志的完整度够不够应付审计。另外,GPT 控制扩展的部分文章被截断了,具体能管到什么粒度还不清楚。
HKR 分解
hook — knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 07·18
TGI Multi-LoRA:一次部署,同时服务30个模型
Hugging Face 在 TGI 里加了 Multi-LoRA 功能,说一次部署就能同时跑30个微调版本。LoRA 就是只改模型的一小部分参数(适配器),存储和内存开销只多1%左右,效果跟全量微调差不多。这篇博客主要讲动机和操作步骤,但正文没披露切换机制、实际吞吐和延迟数据。关键看适配器复用能不能稳住并发,光看标题还不能下结论。
#Fine-tuning #Inference-opt #Tools #Product update
精选理由
HKR-H和HKR-R靠'一次部署服务30个模型'这个明确的钩子通过。HKR-K不通过,因为正文缺失:没有适配器切换设计、显存、吞吐或延迟数据,所以这仍然是一个低分全量条目。
一句话点评
HuggingFace 给 TGI 推理框架加了 Multi-LoRA 支持:一个基础模型(比如 Mistral-7B)上挂最多 30 个 LoRA 小适配器,每个适配器只占基础模型约 1% 的存储,部署一次就能同时服务 30 个不同任务。省成本、省运维,适合团队各自微调模型但不想每人单独部署的场景。正文没披露多 LoRA 并发时的显存占用和延迟实测数据,这点先别太激动。
锐评
TGI 这次放出的关键信息只有一条:一次部署可服务 30 个模型。我的判断很直接,这条先别按“推理效率突破”收。正文为空,LoRA 热切换怎么做、adapter 是常驻显存还是按需加载、KV cache 是否共享、并发上来后尾延迟怎么掉,全部没披露。没有这些,30 这个数字只说明“能挂上去”,不说明“挂上去以后还能稳跑”。
我一直觉得,多 LoRA serving 的难点从来不在“支持多个适配器”,而在资源调度。单个 LoRA 权重很小,常见就是几 MB 到几十 MB;麻烦的是请求一旦混入不同 adapter,batch 怎么拼、prefill 和 decode 怎么排、频繁切换会不会把吞吐吃掉。vLLM、SGLang 这一年都在打连续批处理和显存复用,很多收益来自调度器,不来自 LoRA 这层名字本身。Hugging Face 如果只是把 30 个 adapter 放进同一服务实例,工程上当然有用,省运维、省副本数;但如果没有 p50/p95 延迟、tokens/s、并发数和 GPU 型号,这个标题离“更便宜地服务 30 个任务”还差一大截。
我对“30 models”这个表述也有点保留。严格讲,这里多半不是 30 个完整模型,而是 1 个基座模型加 30 个 LoRA adapter。产品上这么说没错,技术上差别很大。你部署 30 个 7B 全量权重,和部署 1 个 7B 加 30 个 LoRA,成本结构完全不是一回事。标题把这两件事压成一句,很容易让不看实现的人高估节省幅度。
外部参照也很明确。2024 年上半年,vLLM 社区已经在谈 Multi-LoRA serving,我记得他们重点讲过 adapter batching 和高吞吐场景,但具体数字我这里没核实。再往前,PEFT/LoRA 这套东西早就证明“训练便宜”,行业一直缺的是“线上多租户推理也便宜而且稳定”的公开数据。Hugging Face 这条如果后面补出 benchmark,最好把基座模型、adapter 数量、GPU 显存占用、冷热切换条件一次讲清楚。不然它更像平台能力补齐,不是推理栈的分水岭。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-07-17 · 星期三 2024年7月17日
● P1 OpenAI 博客 · rss EN 10:00 · 07·17
OpenAI 用“证明者-验证者博弈”让大模型写的东西更好懂,人类评估错误率降了一半
OpenAI 让 GPT-4 家族里的大模型和小模型玩一个博弈游戏:大模型当“证明者”负责解题,小模型当“验证者”负责判对错。大模型如果只追求答案正确,写出来的解题步骤会越来越难读——人类评估员在限时条件下,错误率几乎翻倍。换成这种博弈训练后,大模型必须写出连小模型都能看懂的推理过程,结果人类评估的准确率也上来了。文章说大小模型之间的预训练算力差了大约...
#Reasoning #Alignment #Benchmarking #OpenAI
精选理由
OpenAI 这篇研究把可读性做成训练信号,强模型要写出弱模型能核验的答案,人类评审也证实有效果。我会先打个折:正文只给了部分数字,完整实验表没披露,所以不能把效果说死。但思路本身戳中了可扩展监督的痛点,加上 hook 清晰、机制新,放在 featured 没问题。
一句话点评
OpenAI 用“证明者-验证者博弈”让强模型写出弱模型能看懂的解,人类评估错误率直接砍半,但模型正确率也打了折。
锐评
这篇研究解决了一个很实际的问题:模型为了追求答案正确,解题步骤会写得越来越“飞”,人反而看不懂、容易判错。OpenAI 的做法是让强模型当“证明者”,弱模型当“验证者”,强模型必须写出弱模型能轻松检查的推导过程。结果很直观——人类评估者的错误率从优化前的水平降了将近一半。
代价是模型正确率只提升了纯优化方案的一半左右。研究团队也直说,怎么缩小“可读”和“能力强”之间的差距,是下一步对齐工作的重点。训练用了 GPT-4 家族里预训练算力差三个数量级的大小模型,只在小学数学题上做了实验,没有大规模后训练。正文没披露具体参数量、训练轮数和计算成本,也没提在更复杂任务上的表现。这点先别太激动,方法目前只在小学数学场景验证过,能不能泛化到代码、长文本等任务还不清楚。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-07-10 · 星期三 2024年7月10日
OpenAI 博客 · rss EN 06:30 · 07·10
OpenAI 与洛斯阿拉莫斯国家实验室合作,评估多模态模型在生物实验室中的安全使用
OpenAI 与美国洛斯阿拉莫斯国家实验室(LANL)宣布合作,研究多模态 AI 模型(如 GPT-4o)如何在实验室环境中被科学家安全使用。合作将评估 GPT-4o 的视觉和语音能力能否帮助专家和新手完成湿实验操作(如基因转化、细胞培养、细胞分离),并衡量模型能多大程度提升任务完成率和准确率。这是首个在真实实验室测试多模态前沿模型安全性的实验,但正文...
#OpenAI #Los Alamos National Laboratory #Partnership
精选理由
HKR-H 成立:OpenAI 和洛斯阿拉莫斯国家实验室的配对出乎意料,标题本身就有话题性。HKR-K 不成立:正文只有标题,合作范围、模型、资金、数据访问和时间表全部未披露,信息缺口太大。HKR-R 成立:国家实验室合作会触发安全、采购和数据访问方面的讨论,从业者需要关注后续的合规细节。
一句话点评
OpenAI 与美国洛斯阿拉莫斯国家实验室合作,评估 GPT-4o 在真实实验室里帮科学家做生物实验的能力。这是首次测试多模态模型(看图、听语音)在湿实验(动手操作,比如细胞培养、离心)中的表现,看它能不能帮新手和专家提升效率。合作源于白宫行政令要求评估前沿模型的生物风险。但正文没披露具体评估结果、样本量或成本数据,目前只是宣布合作计划,实际效果未知。
锐评
OpenAI 宣布与洛斯阿拉莫斯国家实验室建立合作,但正文未披露研究方向、模型范围、数据权限、时间表和资金规模。信息量几乎只有机构名,这会直接改变解读方式:现在还不能把它当成能力发布,只能把它当成一张组织关系卡。
我对这条的第一反应偏冷。Los Alamos 不是普通高校实验室,它的名字天然带核安全、国防计算和高敏科研语境。OpenAI 选在 2024 年这个节点挂出合作,更多像是在往美国联邦体系里继续打桩。这个背景文章里没有写,但过去一年大家都看得到:Anthropic 一直在往国防和情报系统靠,Microsoft 靠 Azure Government 吃到不少政企部署红利,Meta 也在反复强调 Llama 的公共部门可用性。大厂都想拿到“能进高敏场景但不至于惹出大事”的位置,OpenAI 当然不会缺席。
我对标题叙事也有点怀疑。研究合作这四个字太宽了,宽到几乎没有判断价值。是做模型评估,还是做生物、材料、能源相关科研辅助,还是做安全红队与滥用测试,标题都装得下。洛斯阿拉莫斯最敏感的部分从来不是算力够不够,而是谁能碰什么数据、在什么隔离条件下跑、输出怎么审计。标题已经给出合作,正文却没披露访问边界,这个缺口比“用了哪一代模型”更关键。没有这些条件,外界很容易把“合作”误读成“OpenAI 获得了国家实验室级独家数据”或“模型已经进入关键科研流程”,这两种解读我都不买账。
还有一层现实问题。国家实验室和前沿模型公司的合作,落地通常慢于新闻稿。采购、合规、网络隔离、模型更新冻结、日志留存,这些流程一上来,试点节奏往往按季度算,不会像消费产品发布那样快。我没查到这条对应的项目书或合同编号,所以没法判断它是框架协议还是已经启动的具体课题。若只是框架合作,那它的信号更多在“OpenAI 被允许坐上桌”,不在“研究已经跑出结果”。
所以这条我先给低热度、高跟踪值。别急着从标题推演能力跃迁。等后续文件披露研究目标、数据隔离方式、是否限定在 Azure 环境、是否涉及生物或核相关评估,那时这条才有真正的技术含量。现在只有一个标题,离能下结论还差好几页正文。
HKR 分解
hook ✓ knowledge — resonance ✓
Hugging Face 博客 · rss EN 00:00 · 07·10
Hugging Face 用 Presidio 试水自动检测个人隐私信息
Hugging Face 说正在用 Presidio 做自动 PII 检测实验,目前只透露了检测工具(Presidio)和检测面(Hub),没讲触发条件、误报率、上线计划。正文被 429 挡了,所以更细节的东西一概没有。对从业者来说,重点不是它“开始做”了,而是误报怎么处理、检测到之后会不会直接封模型或删数据——这些都没说。先别太激动,等它公开 err...
#Safety #Tools #Hugging Face #Presidio
精选理由
从可见内容看,只确认了一个事实:Hugging Face 正在 Hub 上用 Presidio 做自动 PII 检测试验。检测范围、误报率、处理流程、上线条件均未披露,因此 HKR-K 不通过,且因缺乏可验证信息落入硬排除-6。
HKR 分解
hook — knowledge — resonance —
2024-07-01 · 星期一 2024年7月1日
Hugging Face 博客 · rss EN 00:00 · 07·01
Hugging Face 说自家代码智能体在 GAIA 上拿了第一,但正文是空的
Hugging Face 发了一篇博客,标题说他们的 Transformers Code Agent 在 GAIA 基准上赢了。但点进去只看到 429 错误页面,正文一个字都没有。所以分数、排名、评估设置全都没披露。唯一能确认的是标题里提到了代码智能体和 GAIA,但复现性完全没法验证。
#Agent #Code #Benchmarking #Hugging Face
精选理由
标题有钩子,但正文为零,分数、排名、评测设置全没披露,复现条件未知,信息缺口导致验证失败,硬排除规则(零来源)把分数压在40以下。
HKR 分解
hook ✓ knowledge — resonance —
2024-06-27 · 星期四 2024年6月27日
OpenAI 博客 · rss EN 10:00 · 06·27
用 GPT-4 自己抓自己的 bug:OpenAI 训练了一个“找茬模型”CriticGPT
OpenAI 发了一篇博客,讲他们用 GPT-4 训练了一个叫 CriticGPT 的模型,专门给 ChatGPT 的代码输出挑错。核心结果是:人类在 CriticGPT 辅助下审代码,60% 的情况下比单干效果更好——也就是说,AI 帮忙找 bug 确实能提高人工审核的覆盖率。CriticGPT 本身也是用 RLHF 训练的,但训练数据里故意插入了人...
#OpenAI
精选理由
OpenAI这篇官方研究标题自带反直觉钩子,从业者会好奇怎么用同一个模型抓自己的错。但RSS片段只给了标题,正文没披露具体任务、评测数据、提示词方法和误差范围,信息缺口太大,没法判断方法是否靠谱。自我审查这个方向对做评测、QA和安全流程的人确实有共鸣,但正文没给细节,这点先别太激动。
一句话点评
OpenAI 用 GPT-4 训练了一个叫 CriticGPT 的模型,专门挑 ChatGPT 代码里的错。人类搭配 CriticGPT 审代码,60% 的情况下比单干效果更好。核心思路是用 RLHF 让模型学会找自己的 bug,但训练数据是人工插入的,不是真实用户错误。正文也承认:CriticGPT 只能处理短回答,长任务和分散错误搞不定,模型自己也会幻觉。这点先别太激动——它更像一个辅助...
锐评
OpenAI 只给出了“GPT-4 用来找 GPT-4 错误”这个设定,正文未披露任务、指标、提示词和误差范围。我的判断很直接:这条如果没有人工标注基线和独立复现,它更像一套便宜的筛查流水线,不足以证明模型真的会“批判性审稿”。
同模型互审这件事,研究圈其实早就有人做。2023 到 2024 年,Self-Refine、LLM-as-a-Judge、Constitutional AI 一路都在试“模型生成—模型批改—模型重写”这条链。经验也很一致:对格式错误、明显事实冲突、推理漏步,二次审查常常有帮助;碰到隐蔽幻觉、领域知识空洞、带偏见的评分标准,效果就会掉得很快。尤其是同一个模型家族互审,错误相关性通常很高——生成时会漏掉的点,审查时也常漏。标题讲的是同模型设置,我对它能抓住“同分布盲点”这件事不太买账。
我还想追问两个硬问题。第一,审查器拿到的上下文有多少?如果它看到了原题、参考材料、推理草稿,命中率会明显提高;如果只看最终答案,很多错误根本无从判。第二,OpenAI有没有给出 precision 和 recall?只报“发现了更多错误”没用,误报太高会直接拖垮生产流。去年不少 LLM judge 的论文就卡在这里:和人类评分相关性不错,但一上高风险任务,false positive 和 position bias 都很难看。我记得当时几篇评测还专门提醒过,模型评委更擅长给流畅答案高分,这点我没逐篇核实,但大方向很稳。
所以这条我先把它看成运营工具,不看成能力里程碑。拿它做大规模数据清洗、找明显 bad case、给人工审核排优先级,这很合理;拿它证明“GPT-4 已经会可靠地检查自己”,证据还远远不够。正文没给数字,我没法判断它是在做 research demo,还是在给训练和部署流程铺一层自动 QA。差别很大。
HKR 分解
hook ✓ knowledge — resonance ✓
OpenAI 博客 · rss EN 06:00 · 06·27
OpenAI 与《时代》签了多年内容合作,ChatGPT 能直接引用其百年档案
OpenAI 宣布与《时代》杂志达成多年内容合作协议,ChatGPT 等产品可以访问《时代》过去 101 年的文章档案,并在回答用户问题时展示原文摘要、附上来源链接和引用。作为交换,《时代》也能用 OpenAI 的技术开发自己的新产品,并给 OpenAI 提反馈。正文没披露授权费、收入分成、是否允许拿这些内容训练模型,也没说具体什么时候上线。
#OpenAI #TIME #Partnership
精选理由
OpenAI 和 TIME 签了战略内容合作,但正文是空的,没披露授权范围、财务条款或上线时间。真正该关心的是训练使用权、检索展示规则和分成机制,这些都没给。信息缺口太大,只能算普通关注,不值得加精。
一句话点评
OpenAI 与《时代》周刊签了多年内容合作,ChatGPT 能直接引用其 101 年历史档案并附原文链接。好处是回答新闻类问题时可信度更高、有出处,但合作金额、是否独家、训练数据是否用于微调模型都没披露。对从业者来说,这更像版权合规的标杆案例,不是技术突破。
锐评
OpenAI 只公布了与 TIME 的战略合作标题,正文没有授权范围、价格和上线时间。我对这类公告的判断很直接:先把它当版权供给扩容,不要急着当成搜索产品进展。
说真的,TIME 这单本身不稀奇。OpenAI 之前已经拿下 AP、Axel Springer、Financial Times、News Corp 这些媒体合作,路线很一致:一边补训练与检索的合法内容池,一边给 ChatGPT 的新闻问答找更稳的出处。TIME 的分量不在独家内容强度,而在它是老牌综合媒体,品牌安全高,法务摩擦低,适合继续堆“我们在和出版业合作”这层防御叙事。
我不太买账的是“战略”这个词。标题给了合作对象,正文没给三件最硬的事:训练使用权有没有,RAG 展示是摘要、引用还是跳转,收入怎么分。少了这三项,外界没法判断这是 API 检索授权,还是全量训练许可,还是两者都要。差别很大。AP 当时更偏结构化新闻接入和训练支持;Axel Springer、FT 那类合作,外界更关心的是 ChatGPT 内的归因和导流。TIME 落在哪一档,帖子没说。
还有个背景不能忽略。OpenAI 这批媒体协议,很多都发生在《纽约时报》起诉之后。这个时间点决定了它们不只是内容合作,也是诉讼压力下的示范性交易:告诉别家出版商,签约比打官司更快拿到钱和流量。我自己一直怀疑,这套模式对头部媒体成立,对长尾出版商未必成立。因为品牌媒体有议价权,地方媒体和垂类站点大概率拿不到同样条款。
所以这条我先不给高权重。只有标题时,我更关心后续是否披露产品落点:ChatGPT 搜索里会不会出现 TIME 的明确卡片、引用规则是否可审计、TIME 是否拿到训练退出或更新频率控制。如果这些都没有,这就是又一张用来缓和版权冲突的合作海报。
HKR 分解
hook — knowledge — resonance ✓
FEATURED Hugging Face 博客 · rss EN 00:00 · 06·27
Google 发布 Gemma 2:新一代开源大模型
Google 推出了 Gemma 2,号称新一代开源大模型,目前已在 Hugging Face 上架 4 个开源权重模型(2 个基座模型 + 2 个微调版)。技术亮点包括滑动窗口注意力(只关注附近 token,降低长文本计算成本)、soft-capping(限制注意力分数范围,训练更稳)以及知识蒸馏(用大模型教小模型)和模型合并。评测数据来自技术报告和...
#Google #Gemma 2 #Hugging Face #Product update
精选理由
Google 发了 Gemma 2,标题写的是开放 LLM,但正文一个字都没有。目前只知道名字,参数、许可证、上下文长度、跑分全没披露。真正该盯的是开放条件——是开放权重、商用授权还是训练细节,正文没写。这条信息量极低,但 Google 出开放模型本身是个钩子,所以给 all 而不是 featured。
一句话点评
Gemma 2 用更小的参数跑出了接近大模型的效果,但官方技术报告还没公开,很多细节只能靠猜。
锐评
Google 这次放出的 Gemma 2 有两个尺寸:9B 和 27B。27B 模型在 LMSYS 聊天机器人竞技场上的分数已经超过了 Llama 3 70B,这意味着它用不到一半的参数量,做到了更强的对话能力。技术上,它用了滑动窗口注意力来降低长文本的内存消耗,还通过知识蒸馏让大模型当老师教小模型,最后把多个训练阶段的模型权重合并起来提升稳定性。
不过,这些信息主要来自 Hugging Face 的博客介绍,Google 官方的技术报告还没发。所以像训练数据构成、具体算力消耗、以及安全对齐的细节,目前都是缺失的。27B 模型虽然跑分强,但实际部署时对显存的要求和推理速度,还得自己实测才知道。如果你现在就想用,可以直接在 Hugging Face 上找到模型,Transformers 已经集成了,微调也支持。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-06-21 · 星期五 2024年6月21日
FEATURED OpenAI 博客 · rss EN 08:00 · 06·21
OpenAI 收购实时数据库公司 Rockset,强化检索基础设施
OpenAI 宣布收购 Rockset,一家主打实时分析数据库的公司,核心能力是数据索引和查询。官方说法是整合其技术来增强 OpenAI 产品的检索基础设施——你可以理解为让 ChatGPT 等产品更快、更准地查到你自己的数据。Rockset 的团队也会加入 OpenAI。收购金额、具体整合时间线、产品落地计划都没披露,正文只说了“会集成到产品里”。对...
#OpenAI #Rockset #Partnership #Commentary
精选理由
官方来源确认了收购事实,所以 H 和 R 都落在交易本身。K 不成立是因为正文没披露价格、交割时间、团队安排和整合计划,信息量不足以进 featured,只能放 all。
一句话点评
OpenAI 买了做实时数据分析的 Rockset,核心是补强自家产品的“外挂资料库”能力,让模型能更快查到最新数据。但公告没提收购金额和具体整合时间表。
锐评
OpenAI 这次收购 Rockset,说白了就是给自己的产品装一个更快的“外挂资料库”。Rockset 原本是做实时分析数据库的,强项是给数据建索引、毫秒级查询,这正好能解决大模型回答过时、或者查自己公司内部数据慢的问题。OpenAI 的 COO 说要把这技术集成到检索基础设施里,Rockset 的团队也会加入。
不过,这篇官方公告信息量很有限。收购花了多少钱、Rockset 现有客户怎么办、技术多久能真正落地到 ChatGPT 或 API 里,正文都没披露。这点先别太激动,收购公司补检索能力是行业常规操作,关键看整合速度和最终效果。对用户来说,如果集成顺利,以后用 ChatGPT 查实时数据或者企业内部知识库,延迟会更低、信息会更准,但具体能提升多少,还得等后续更新。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-06-17 · 星期一 2024年6月17日
OpenAI 博客 · rss EN 04:15 · 06·17
OpenAI 说 GPT-4o 帮医生做癌症筛查和治疗规划
OpenAI 发了一篇博客,说 Color Health 用 GPT-4o 做了一个辅助医生做癌症筛查和治疗规划的 copilot。流程是:GPT-4o 从患者病历和临床指南里提取信息,自动生成筛查建议和诊断检查清单,然后由医生审核修改后再给患者。正文提到延迟治疗四周死亡率会高 6–13%,以及超过三分之一的患者需要个性化筛查方案。但整篇没有披露任何准...
#Reasoning #OpenAI #Color Health #Partnership
精选理由
这更像一篇客户案例宣传,不是可验证的行业新闻。HKR-K 和 HKR-R 都不满足,因为正文缺失;按硬规则归为纯营销,排除且评分低于 40。
HKR 分解
hook — knowledge — resonance —
2024-06-13 · 星期四 2024年6月13日
FEATURED OpenAI 博客 · rss EN 14:00 · 06·13
OpenAI 把退役陆军上将 Paul M. Nakasone 拉进董事会,主抓网络安全
OpenAI 宣布退役美国陆军上将 Paul M. Nakasone 加入董事会,并进入安全与安保委员会。Nakasone 是网络安全的老手,曾长期掌管美国网络司令部和国家安全局。公告说他的加入是为了应对 AI 越来越强后随之而来的高级网络威胁,比如保护训练超算、模型权重和用户数据。另外他也想帮 OpenAI 搞清楚怎么用 AI 帮医院、学校这类常被攻...
#OpenAI #Paul M. Nakasone #Personnel #Commentary
精选理由
OpenAI 官方发文确认 Paul M. Nakasone 加入董事会,这件事的份量不在产品层面,而在治理和安全信号。我会先打个折:正文是空的,只给了标题,任命细节一概没提,所以没法判断是战略转向还是常规补位。但一个退役上将坐进 AI 公司的董事会,本身就够让行业多看两眼,尤其是那些做合规、出海或对接政府客户的人。这点先别太激动,等后续披露职责范围再说。
一句话点评
OpenAI 把前 NSA 局长兼网络司令部司令请进董事会,安全牌打得很直白,但别指望他能公开聊情报细节。
锐评
OpenAI 宣布退役陆军上将 Paul M. Nakasone 加入董事会,并进入安全委员会。他之前管过美国国安局(NSA)和网络司令部,是网络安全和网络防御的老手。OpenAI 的说法是,AI 越强,系统被攻击的风险越大,需要他帮忙保护训练超算、模型权重和用户数据。
这步棋信号很明确:OpenAI 在向外界,尤其是政府和大客户,展示自己对安全的重视。但公告只说了他的背景和将参与安全委员会,没披露他在董事会的具体投票权、薪酬,也没说明他是否会介入涉及情报或军事应用的业务决策。一个前情报高官进入最火的 AI 公司董事会,利益冲突和隐私边界怎么划,正文完全没提。
另外,公告提到 AI 能帮医院、学校等机构快速检测网络威胁,但没给出任何试点项目或效果数据。这点先别太激动,目前还只是一个愿景。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-06-12 · 星期三 2024年6月12日
Hugging Face 博客 · rss EN 00:00 · 06·12
Hugging Face 正式支持 Stable Diffusion 3,但正文没透露安装步骤和显存需求
Stability AI 的 Stable Diffusion 3 Medium(20亿参数)现在可以通过 Hugging Face 的 Diffusers 库使用了。这篇博客确认了模型名称和集成目标,但关键信息——安装步骤、推理参数、显存占用、许可证和发布时间——都没披露。模型用了三个文本编码器(CLIP、OpenCLIP 和 T5-XXL)和一个新...
#Vision #Tools #Hugging Face #Product update
精选理由
唯一确认的事实是 Diffusers 接入了 Stable Diffusion 3。HKR 三项全挂,因为正文是空的,没给安装路径、推理细节、显存、许可证或发布条件,属于只有标题的低信息内容,维持排除。
HKR 分解
hook — knowledge — resonance —
2024-06-10 · 星期一 2024年6月10日
FEATURED OpenAI 博客 · rss EN 11:55 · 06·10
OpenAI 和苹果宣布合作,ChatGPT 将直接内置到 iPhone、iPad 和 Mac 系统里
苹果会在 iOS、iPadOS 和 macOS 里把 ChatGPT 塞进 Siri 和系统自带的写作工具,用的是 GPT-4o 模型。用户不用跳转 App,就能让 Siri 直接调 ChatGPT 回答问题或理解图片、文档,写作工具里也能让 ChatGPT 帮忙生成文字和配图。隐私方面,OpenAI 说通过 Siri 和写作工具发起的请求不会被他们存...
#OpenAI #Apple #Partnership #Commentary
精选理由
官方帖子只给了一个标题,说 OpenAI 和 Apple 合作了,其他全是空白。我会先打个折:H 和 R 都过,因为两家体量摆在那,平台分发和模型站位的话题性够强。但 K 完全不过——没范围、没机制、没时间表、没商业条款,就是一条待补细节的合作声明。所以整体放在 featured 的低线,别被标题骗了,这还不是产品落地信息。
一句话点评
OpenAI 和苹果官宣合作,ChatGPT 将直接内建到 iOS、macOS 的系统级功能里,不用跳转 App 就能用。但注意这只是官方通稿,没提苹果付了多少钱、也没说具体上线日期。
锐评
这条合作的核心是把 GPT-4o 塞进 Siri 和系统自带的写作工具里,用户不用注册账号就能免费用,付费用户也能直接登录自己的 ChatGPT 账号解锁高级功能。对普通用户来说,最大的变化是以后让 Siri 帮忙写东西、理解文档或图片时,背后可能直接调 ChatGPT 来回答,而且苹果做了隐私处理:OpenAI 不存请求记录,IP 地址也会隐藏。
不过这篇是 OpenAI 自己发的通稿,信息量有限。它没披露几个关键点:苹果为这次集成付了多少授权费,还是说双方是资源置换;也没说 ChatGPT 免费版在苹果设备上会不会有使用次数限制,以及具体哪个月推送。另外,苹果在发布会上同时推了自己的“Apple Intelligence”,ChatGPT 只是其中一个外接模型,通稿里没讲清楚哪些任务走苹果自研模型、哪些走 ChatGPT,这个分工对实际体验影响很大。
整体看,这是 OpenAI 在端侧落地的一大步,但别急着把它当成苹果全面拥抱 OpenAI 的信号——更像是在自研能力还没完全覆盖的场景里,先拉一个成熟模型来补位。
HKR 分解
hook ✓ knowledge — resonance ✓
● P1 OpenAI 博客 · rss EN 10:30 · 06·10
OpenAI 宣布新任 CFO 和 CPO,分别来自 Nextdoor 和 Planet Labs
OpenAI 在 6 月 10 号发公告,Sarah Friar 加入当首席财务官,Kevin Weil 当首席产品官。Friar 之前在 Nextdoor 做 CEO,更早是 Square 的 CFO;Weil 之前在 Planet Labs 管产品和业务,也做过 Instagram 和 Twitter 的产品 VP。公告里说 CFO 要管投资和扩张...
#OpenAI #Sarah Friar #Kevin Weil #Personnel
精选理由
这条消息的钩子很足,OpenAI 同时端出 CFO 和 CPO,官方信源权威性也高。但信息量其实很薄,正文是空的,连到岗时间和职责范围都没给,所以知识增量要打个折。我会把它放进 featured,因为商业化节奏和组织扩张是大家真正关心的,哪怕现在只有个标题,也值得先标出来让人留意。
一句话点评
OpenAI 官宣两位新高管:前 Nextdoor CEO Sarah Friar 任 CFO,前 Planet Labs 产品负责人 Kevin Weil 任 CPO。这是 OpenAI 从研究机构转向大规模商业运营的明确信号。
锐评
OpenAI 这次招的两个人,一个管钱,一个管产品,指向很明确:公司要从“烧钱做研究”的阶段,正式进入“把研究变成能卖的产品并规模化赚钱”的阶段。CFO Sarah Friar 之前在 Square 当过 CFO,又做过 Nextdoor 的 CEO,履历上写满了“帮科技公司搞钱和上市”;CPO Kevin Weil 在 Twitter、Instagram、Facebook 都带过产品团队,经验集中在怎么把产品做到几亿人用。
这篇官方公告没提任何财务数字、产品路线图或组织架构调整细节,就是纯人事发布。所以别指望从这里读出 OpenAI 下一步具体要推什么产品、怎么收费。但结合 Sam Altman 那句“确保团队有资源继续发展”,可以理解为 OpenAI 在给外界打预防针:接下来花钱的地方还很多,得有人专门去搞钱和管产品节奏。
还缺什么?公告完全没提这两人上任后第一个季度要解决什么问题,也没说 CFO 对 OpenAI 目前烧钱速度的看法,或者 CPO 对 ChatGPT 下一步产品形态的判断。这些才是真正值得关注的信息,但正文没披露。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-06-07 · 星期五 2024年6月7日
OpenAI 博客 · rss EN 17:45 · 06·07
OpenAI 详解语音引擎工作原理与安全研究
OpenAI 发了一篇博客,讲他们的语音引擎(Voice Engine)怎么工作以及安全措施。核心信息:只要 15 秒的语音样本,就能克隆一个人的声音,生成逼真语音。模型不是针对某个说话人微调的,而是用扩散过程——从随机噪声开始,逐步去噪,让输出匹配样本里的说话方式。正文没披露模型参数量、训练数据规模或具体评测指标。安全方面,OpenAI 说他们加了水...
#Audio #Safety #OpenAI #Voice Engine
精选理由
当前只有标题,正文为空。标题确认 OpenAI 会补充 Voice Engine 的工作方式和安全研究,但 RSS 没给任何具体内容——模型怎么跑、克隆需要多少样本、评测结果、什么时候上线,全都没说。安全边界确实是值得盯的点,但这点信息没法做判断,先别太激动。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-06-06 · 星期四 2024年6月6日
Hugging Face 博客 · rss EN 00:00 · 06·06
Hugging Face 上线文生图排行榜和竞技场,靠4.5万次人工投票给模型排名
Hugging Face 联合 Artificial Analysis 推出了一个文生图模型的排行榜和竞技场。排行榜的分数来自用户在竞技场里的投票——每次给你两个模型生成的同一张图,你选哪个更好。目前已经收集了超过4.5万次偏好投票,用 ELO 算法算分。上榜模型包括 Midjourney、DALL·E 3、Stable Diffusion 3 和 P...
#Vision #Benchmarking #Hugging Face #Artificial Analysis
精选理由
标题确认 Hugging Face 上线了新的文生图排行榜和竞技场,所以 HKR-H 靠新颖性和对比价值通过。HKR-K 和 HKR-R 不通过,因为 RSS 片段没有给出任何指标、模型列表、打分方法或更新规则;这是一个低信息量的基准测试/产品更新。
一句话点评
Artificial Analysis 搞了个文生图模型排行榜,靠 4.5 万次人类投票算 ELO 分,类似 Chatbot Arena。目前 Midjourney、SD3、DALL·E 3 HD 排前面,但开源 Playground v2.5 已经超过 DALL·E 3。注意 SD3 Medium 6 月 12 日开源,可能拉低整体质量但社区微调潜力大。DALL·E 2 一年内从领先跌到选...
锐评
Hugging Face 这次挂出 leaderboard 和 arena 两个入口,但正文没有披露评测模型、指标、采样参数、更新时间。按现在这点信息,我不会把它当成文生图领域的新标准,只会把它当成一个流量很大的分发位。
我判断这条的价值,先不在“又多了一个榜”,而在 Hugging Face 把 Artificial Analysis 这套评测前端化了。榜单和竞技场放到 Hugging Face 上,得到的不是一点品牌曝光,而是默认入口。文生图用户本来就分散:有人看 Image Arena 式偏好投票,有人看人工 rubric,有人只关心提示词跟随、文字渲染、解剖结构、生成速度、价格。谁能把这些入口收拢,谁就开始影响开发者怎么定义“好模型”。这件事我一直觉得比单次排名更重要。
但我对 arena 这套叙事有保留。文生图 arena 最大的问题,从来不是有没有对战界面,而是条件能不能锁死。相同提示词下,seed 固定不固定,采样步数给多少,长宽比是否统一,安全过滤是否开启,参考图和负面提示能不能用,都会改结果。连“同一模型”都未必可比:比如 SDXL 系模型,换一个 scheduler、LoRA、提示词增强器,观感就能差一截。标题给了产品名,正文没给规则,这个缺口很致命。没有规则,胜负更像产品体验投票,不像可复现评测。
外部参照其实很清楚。LMSYS 那套 Chatbot Arena 能火,是因为主观偏好这件事在聊天里至少还算自然,虽然它一样有位置偏置、首因效应、风格迎合这些老问题。文生图 arena 的噪声更大,因为视觉偏好更受审美、屏幕尺寸、甚至缩略图排序影响。我没查到 Artificial Analysis 这套图像 arena 的具体设计;如果它没有做 prompt 分层、匿名对战、重复抽样、Elo 置信区间公开,那最后多半会滑向“谁更会讨好投票者”。这类榜不是不能看,但只能看热度,不能直接拿去做模型路线判断。
另一个我比较在意的点,是 Hugging Face 为什么现在补这块。2024 年中这个时间点,文生图已经不是单一模型比拼,而是闭源 API 和开源权重两条线并跑。Midjourney、OpenAI 当时都握着强产品体验,开源这边则是 SDXL、后续各种 finetune 和工作流生态在撑场面。Hugging Face 如果想在视觉生成继续占入口,光托管 checkpoint 不够,必须托管“评价”。这个动作我看着像平台层的防守,而不是单纯服务社区。说实话,这个判断我有把握,但具体商业合作条款正文没披露,我还没法确认 Artificial Analysis 在数据、流量、排序权重上各占多少。
还有一个现实问题,榜单很容易把“最受欢迎”伪装成“最强”。如果 leaderboard 最后混入价格、速度、可用性、API 稳定性,那它其实是产品榜,不是能力榜;如果只看单轮出图质量,它又会压低那些在编辑、一致性、多图叙事上更强的系统。文生图评测这些年一直没解决这个分裂:我们到底在评 base model,还是评完整产品?标题里两者都没拆。我不反对把它们放在一起,但前提是口径写清楚。
所以我对这条的结论很简单:入口有价值,排名先存疑。Hugging Face 的分发能力会让这套榜迅速获得注意力,可注意力不等于公信力。等它补出评测模型清单、prompt 集来源、采样配置、人工投票机制、更新频率,再谈这套 leaderboard 能不能进入开发团队的常用决策面板。现在只有标题信息,我最多把它记成一句话:Hugging Face 开始争夺文生图评测入口了,但规则还没亮牌。
HKR 分解
hook ✓ knowledge — resonance —
2024-06-05 · 星期三 2024年6月5日
Hugging Face 博客 · rss EN 00:00 · 06·05
NPC-Playground:一个能跟大模型驱动的NPC聊天的3D游乐场
Hugging Face 联合 Cubzh 和 Gigax 发布了一个浏览器可玩的 3D 演示,玩家能跟大模型驱动的 NPC 自由对话,还能用几行 Lua 脚本教 NPC 新技能。底层用了 Cubzh(开源版 Roblox 引擎)和 Gigax(专门跑大模型 NPC 的平台),托管在 Hugging Face Spaces 上。正文没披露具体用了哪个模...
#Agent #Multimodal #Tools #Hugging Face
精选理由
H 给过是因为 3D + LLM NPC 这个组合本身有钩子。但 K 和 R 都不过,因为正文是空的,模型、交互机制、开源状态、延迟、部署条件一概没披露,所以只能算一个低价值 all 条目,不值得推荐。
一句话点评
短评:Hugging Face 联合 Cubzh 和 Gigax 搞了个 3D 沙盒,让你跟 LLM 驱动的 NPC 聊天、教它写 Lua 脚本。目前只是浏览器 demo,离真能跑在游戏里还远。
点评:Hugging Face 博客发了篇介绍,说 NPC-Playground 是个 3D 沙盒 demo,玩家能跟 LLM 驱动的 NPC 自由对话,还能用几行 Lua 脚本教 NPC 新技能...
锐评
Hugging Face 这篇文章只给出“3D playground + LLM-powered NPCs”这个标题级信息,正文未披露交互循环、模型选型、语音链路、世界状态同步、延迟指标。我的判断很直接:在这些核心条件缺席前,这条消息的价值不在“NPC”两个字,而在 Hugging Face 想把社区注意力往可交互 AI 场景再推一步。
我对这类标题一直比较克制。做一个能聊天的 NPC 不难,2024 年上半年已经有一堆样板:Inworld、Convai、NVIDIA ACE、Unity 侧的一些插件,都能把 ASR、LLM、TTS、动画驱动串起来。难的是把 3D 场景里的多代理一致性、低延迟、记忆持久化和成本一起压住。比如端到端语音交互,行业里能让人觉得“像在对话”的体验,往往得把首 token 和首帧语音压到 500 毫秒到 1 秒附近;一旦上到 2 到 3 秒,角色感就开始塌。标题没给任何数字,我不会把它当成技术进展。
还有一层我比较在意。Hugging Face 过去一年最擅长的,不是自己做封闭式消费级产品,而是把模型、数据集、demo 和社区工作流串起来,让别人复用。顺着这个习惯看,NPC-Playground 如果最后有价值,价值大概率也不在“一个 playground 很好玩”,而在它会不会变成一个可 fork 的参考栈:比如场景层用什么 3D 框架,角色脑子接 Transformers 还是 Inference Endpoints,记忆是向量库还是状态机,工具调用怎么做安全边界。我还没查到正文,所以这些现在都不能下结论,但这才是从业者该问的问题。
我对“LLM-powered NPC”这套叙事还有个保留。很多 demo 把 NPC 互动做成了长文本聊天,加一点检索,再贴一层表情和动作。看上去热闹,系统却并不理解空间、任务链和其他角色的状态。你真要做游戏或仿真,关键不是角色会不会说,而是它能不能稳定感知位置、物品、事件,再把这些约束进决策里。去年到今年,不少 agent benchmark 在文本环境里分数涨得很快,但一进持续世界和实时交互,表现掉得很明显。这块标题也没给机制,我对“LLM NPC”四个字天然会打折。
说实话,我更愿意把这条看成 Hugging Face 在测试一个社区接口:他们想知道,大家现在是不是已经从“单轮聊天 demo”走到“可玩、可改、可接模型的具身交互 demo”。如果后续公开仓库、推理成本、并发上限和延迟曲线,这条就有讨论价值;如果只有一个网页演示,它大概率会停在传播层。现在只有标题信息,我不会往更大叙事上套。
HKR 分解
hook ✓ knowledge — resonance —
2024-05-30 · 星期四 2024年5月30日
OpenAI 博客 · rss EN 10:00 · 05·30
OpenAI 封了五个用 AI 搞舆论操控的账号,但没透露具体是谁、怎么查的
OpenAI 发了一篇博客,说过去三个月封了五个秘密舆论操控(covert influence operations)账号,这些账号用它的模型生成评论、文章、假身份,再发到 Telegram、X、Facebook 等平台。涉及俄罗斯、中国、伊朗和以色列的商业公司。OpenAI 说这些操作没带来明显的流量增长,按布鲁金斯学会的评分标准,最高只到 2 级(...
#Safety #OpenAI #Safety/alignment #Commentary
精选理由
话题有HKR-H和HKR-R,但RSS条目只有标题,没有披露任何主体、数量、时间范围、证据或执行细节,触发硬排除-6(零来源内容);重要性上限低于40。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-05-29 · 星期三 2024年5月29日
OpenAI 博客 · rss EN 07:30 · 05·29
OpenAI 与《大西洋月刊》合作:ChatGPT 里能直接看它的文章了
OpenAI 宣布与《大西洋月刊》达成内容与产品合作。以后用户在 ChatGPT 里搜到《大西洋月刊》的文章,会看到署名和原文链接,点一下就能跳转到官网阅读。作为合作方,《大西洋月刊》的产品团队还能提前拿到 OpenAI 的技术,参与反馈,帮 OpenAI 改进新闻类产品的展示方式。另外他们正在搞一个叫 Atlantic Labs 的实验性微站,打算用...
#OpenAI #The Atlantic #Partnership #Product update
精选理由
OpenAI 和《大西洋月刊》的合作有 HKR-H 和 HKR-R,因为它涉及出版商授权和新闻入口控制。HKR-K 不成立:这条 RSS 只披露了合作双方的名字,没有产品机制、上线计划或商业条款,所以留在 all 层级。
一句话点评
《大西洋月刊》与 OpenAI 达成内容与产品合作,其文章将在 ChatGPT 中带来源链接展示,并参与塑造新闻呈现方式。作为回报,大西洋月刊团队能提前试用 OpenAI 技术、反馈意见。该刊刚宣布订阅破 100 万、实现盈利,合作意在借 AI 搜索扩大读者群。但正文没披露授权费金额、是否独家,也没说 ChatGPT 用户能看到全文还是仅摘要。
锐评
OpenAI 宣布联手《大西洋月刊》,但这篇帖文只给出合作双方,产品机制、时间表、商业条款都没披露。基于现有信息,我不把它看成一次能力发布,更像 OpenAI 在新闻分发链上继续补洞。
我一直觉得,OpenAI 做新闻合作有两条线同时在跑。一条是产品线,想把 ChatGPT 里的时效内容、引用体验、答案可信度做得像个能用的新闻入口;另一条是风险线,要把“模型抓了谁的内容、给没给回流、有没有付钱”这些问题先压住。The Atlantic 这单标题里只写“enhancing news in ChatGPT”,措辞很克制,没提独家内容、没提实时接入、没提训练授权。我对外界把这类合作直接读成“ChatGPT 新闻能力升级”这件事有点怀疑,因为决定体验的关键细节一个都没给:是否显示文章来源,是否带链接,是否给摘要外跳,是否进入训练语料,正文都没有。
放到上下文里看,这更像 OpenAI 过去半年那套 publisher playbook 的延续。2023 年底它先和 Axel Springer 签了协议,后来又陆续和 FT、Le Monde、Prisa 一类出版商靠近;另一边,《纽约时报》诉讼把版权和替代流量问题直接摆到台面上。你把这些拼起来看,OpenAI 现在做的不是单点合作,而是在给 ChatGPT 的“答案直接吃掉原站流量”这件事找合法性缓冲层。The Atlantic 的象征意义在这里大过技术意义:它是高声量英文媒体品牌,拿下这种名字,对外能讲“主流出版商愿意合作”,对内能继续推进新闻问答场景。
但我不太买“多签几家媒体,新闻体验就自然变好”这个说法。新闻产品的难点从来不只是版权池规模。难的是检索新鲜度、引用颗粒度、冲突信息排序、以及模型别把评论口吻写成事实口吻。Perplexity 过去一年把“来源可见”做成了用户心智,Google SGE 也一直在试把答案和链接绑在一起,行业已经证明:没有稳定 citation 设计,媒体合作名单再长,用户也不会自动信。标题没披露任何展示机制,所以我还没法判断 OpenAI 这次碰的是体验核心,还是只多了一层授权外衣。
我还会补一句 pushback:对《大西洋月刊》这种媒体来说,这类合作未必是纯增量。ChatGPT 如果把高价值报道压缩成几段像样摘要,媒体拿到的是授权费还是订阅回流,哪个更大,正文没说。要是没有清晰跳转和归因,合作方拿到的很可能是短期现金,失去的是长期直接关系。这也是为什么我暂时不愿把它写成双赢。现在能确认的只有一件事:OpenAI 又签下一家头部媒体;更关键的变量,文章没给。
HKR 分解
hook ✓ knowledge — resonance ✓
OpenAI 博客 · rss EN 07:00 · 05·29
OpenAI 与 Vox Media 达成内容与产品合作
OpenAI 宣布与 Vox Media 建立战略合作,Vox 旗下 Vox、The Verge、Eater、New York Magazine 等媒体将向 ChatGPT 提供内容,ChatGPT 会标注来源并回链。合作还涉及用 OpenAI 技术帮 Vox 开发面向用户和广告主的产品,比如升级其导购工具 The Strategist Gift Sc...
#Tools #OpenAI #Vox Media #Partnership
精选理由
R 落地是因为 OpenAI 的媒体合作策略直接影响授权和分发格局。H 和 K 都弱:正文只提了 Vox Media 和产品/内容合作方向,但合作形式、产品集成、商业条款、发布时间一概没写。
一句话点评
OpenAI 与 Vox Media 签了内容授权和产品合作,ChatGPT 能引用 Vox 旗下 Vox、The Verge、Eater 等媒体的文章,并附上来源链接。Vox 还会用 OpenAI 技术优化广告平台和购物搜索工具。这笔交易没披露金额和独家条款,所以不确定是不是排他性合作。对 OpenAI 来说,这是拿授权换内容可信度,对 Vox 则是用流量换品牌曝光,但实际能给 ChatG...
锐评
OpenAI 只公布了与 Vox Media 的内容和产品合作,合作结构、商业条款、产品范围都没披露,所以现在还不能把它算成一笔清晰的版权授权交易。
我对这条的第一判断是:OpenAI 继续在补“可引用内容”和“分发入口”两块短板,但这次标题里把 product 放进来,比 content 更有信号。内容合作大家已经见过几轮了。2024 年上半年,OpenAI 先后和 Axel Springer、Financial Times、News Corp、The Atlantic 这类出版方签协议,主线都是训练访问、检索展示、归因链接、部分产品分发。我印象里,这批合作的共同点是叙事很像,细节都藏得深,外部通常很晚才知道到底是训练许可、ChatGPT 内展示,还是双方联合做新功能。Vox 这条如果也是同一路数,新闻价值其实有限;如果它落到 Vox 自家 CMS、广告工具、编辑工作流、播客分发工具,那才说明 OpenAI 想拿媒体当产品渠道,不只是内容池。
我对官方叙事有个保留。媒体合作现在很容易被包装成“双赢”:平台拿高质量语料,媒体拿流量和新产品入口。问题是,过去一年媒体最焦虑的不是有没有 AI 合作新闻稿,而是搜索流量下滑和用户关系被中介层截走。OpenAI 如果只是把 Vox 的内容接进回答系统,再给少量归因链接,这更像给自己的答案层补货,不等于给出版商建立新分发。标题用了 partnership,很宽。正文没说 revenue share、最低保底、索引范围、是否覆盖训练,这几个点不披露,我不会替它脑补成深度联盟。
还有一个上下文不能忽略。OpenAI 当时正往 Search 和多模态助手方向走,媒体合作的战略意义早就不只是“拿授权,避诉讼”。Perplexity、Google、甚至一些垂直问答产品都在抢高质量可验证来源,谁先把来源体系、引用体验、媒体关系做顺,谁就在答案产品上少掉一块短板。Vox 旗下既有新闻品牌,也有播客和解释型内容,这种资产对问答、摘要、推荐都比泛网页抓取更干净。我还没看到这单是否覆盖音频、视频转写或结构化元数据;正文没给,这个空缺很关键。
所以我现在不会高估这条,也不会忽视它。它大概率不是一条单纯的 PR 合作新闻,而是 OpenAI 继续把媒体公司分成两类来经营:一类给内容许可,一类顺手变成产品分发和工作流客户。Vox 属于哪一类,标题没说。没价格、没范围、没时间表,这条目前只能先记成“战略方向延续,落地形态待证实”。
HKR 分解
hook — knowledge — resonance ✓
2024-05-28 · 星期二 2024年5月28日
FEATURED OpenAI 博客 · rss EN 03:00 · 05·28
OpenAI 董事会成立安全委员会,90 天内要给所有项目定安全规矩
OpenAI 董事会新设了一个安全与安保委员会,由 Bret Taylor 牵头,成员包括 Adam D’Angelo、Nicole Seligman 和 Sam Altman。这个委员会的任务是对公司所有项目的关键安全和安保决策提出建议,第一件事就是在 90 天内重新评估并完善现有的安全流程和防护措施,之后向全体董事会交方案,OpenAI 承诺会公开...
#OpenAI #Safety/alignment #Personnel #Commentary
精选理由
OpenAI 董事会官宣成立安全与安保委员会,动作本身值得关注,因为董事会级的委员会有实权。但正文是空的,没给任何具体信息:谁进委员会、管多宽、向谁汇报、什么时候生效,全不知道。我会先打个折,因为光有个名字说明不了是真治理还是公关动作。安全从业者真正该盯的是这个委员会能不能独立叫停训练或部署,而不是它叫什么。
一句话点评
OpenAI 董事会自己组了个安全委员会,但主席是公司 CEO Sam Altman,这相当于让球员当裁判,独立性先打个折。
锐评
OpenAI 董事会宣布成立一个安全与安保委员会,负责对公司所有项目的关键安全决策提出建议。委员会由 Bret Taylor 牵头,成员包括 Adam D'Angelo、Nicole Seligman 和 CEO Sam Altman。这个阵容最大的问题是:公司一把手直接坐在委员会里,自己审自己,最终建议还要交给包含 Altman 本人的董事会去批。正文说他们已经开始训练“下一代前沿模型”,并认为这会带来通向 AGI 的下一级能力,但没披露这个模型具体是什么、参数量多大、安全风险在哪。委员会的第一个任务是 90 天内评估并改进现有的流程和防护措施,之后会公开一份“已采纳建议”的更新。这里缺一个关键信息:如果委员会的建议和公司商业节奏冲突,谁说了算?另外,委员会里虽然有技术负责人(准备度、安全系统、对齐科学等),但外部专家目前只提了两位前网络安全官员,没有独立的第三方审计角色。整体看,这是一次内部流程的正式化,不是外部监督的引入。
HKR 分解
hook ✓ knowledge — resonance ✓
Hugging Face 博客 · rss EN 00:00 · 05·28
Sentence Transformers v3 发布:训练和微调嵌入模型
Hugging Face 发布了 Sentence Transformers v3,一个用于训练和微调嵌入模型(把文本转成向量)的 Python 库。这篇博客介绍了完整的训练流程:数据集可以从 Hugging Face Hub 或本地 CSV/JSON 等格式加载;损失函数、训练参数、评估器和 Trainer 组件都有说明。还支持多数据集联合训练。正文...
#Embedding #Fine-tuning #Tools #Hugging Face
精选理由
这篇只有标题级信息:Sentence Transformers v3 支持训练和微调嵌入模型,正文没有任何配方或评测。HKR-H/K/R 全不满足,且接近硬排除的零细节内容,所以重要性上限 39 分,归入 excluded。
HKR 分解
hook — knowledge — resonance —
2024-05-24 · 星期五 2024年5月24日
FEATURED Hugging Face 博客 · rss EN 00:00 · 05·24
Falcon 2 发布:110亿参数模型,训练数据超5000亿 token,支持11种语言
阿联酋技术创新研究所(TII)发布了 Falcon 2,一个 110 亿参数的语言模型和视觉语言模型(VLM)。训练数据量很大,超过 5000 亿 token,覆盖 11 种语言。但正文只给了标题和目录,模型架构、上下文长度、许可证、跑分结果全都没披露。关键信息缺失:语言和视觉是怎么联合训练的?目前只能看到模型名字和参数规模,这点先别太激动。
#Multimodal #Product update
精选理由
HKR-H靠的是多模态+多语言这个组合钩子,HKR-K靠标题里的三个具体数字:11B参数、5000B token、11种语言。HKR-R扣分是因为正文为空,基准、许可证、上下文长度、可用性全没给,所以只能放all-tier。
一句话点评
Falcon 2 发了 110 亿参数的纯文本和多模态模型,多模态版能看图说话,但视觉部分正文没给具体评测,这点先别太激动。
锐评
阿联酋 TII 放出了 Falcon 2 系列,一个 110 亿参数的模型,分纯文本和多模态两个版本。纯文本版用超过 5 万亿个 token 训练,覆盖 11 种语言,架构上还是纯解码器,没走 MoE 路线。从官方给的跑分看,英文能力跟 Llama 3 8B 打得有来有回,多语言和代码生成也给了基准测试,算是 10B 级别里一个能打的选项。
多模态版 VLM 是在纯文本模型上加了个视觉编码器,能做看图理解,但博客里只讲了训练流程,没放任何视觉问答或图像描述的标准评测分数。这让人没法判断它到底处在什么水平,只能等后续技术报告或第三方实测。
另外,正文没提训练成本、推理延迟和显存占用,也没说数据配比里各语言占比多少。想拿它做业务落地的人,得自己跑一遍资源评估。
HKR 分解
hook ✓ knowledge ✓ resonance —
2024-05-22 · 星期三 2024年5月22日
OpenAI 博客 · rss EN 13:15 · 05·22
OpenAI 与新闻集团签下多年内容授权协议
OpenAI 和新闻集团(News Corp)宣布了一项多年全球合作,允许 OpenAI 在回答用户问题时展示《华尔街日报》《纽约邮报》《泰晤士报》等媒体的当前及历史文章,并拿这些内容来改进产品。新闻集团还会派编辑团队帮 OpenAI 把关内容质量。双方都没披露授权费是多少、是否允许拿这些新闻数据训练模型、以及具体在 ChatGPT 的哪个界面显示。简...
#OpenAI #News Corp #Partnership
精选理由
事件有行业共鸣,所以 HKR-R 通过。正文为空,没披露金额、授权范围、训练使用边界或产品路径,所以 HKR-H 和 HKR-K 不通过;这条留在 all 且低于 60。
一句话点评
OpenAI 与新闻集团签了多年授权,能拿《华尔街日报》等主流媒体的实时和存档内容来回答用户问题。这是 OpenAI 继《金融时报》、Axel Springer 之后又一家大牌内容合作,说明它正在用版权内容给 ChatGPT 做事实背书。但协议金额、是否独家、训练数据能否用都没披露。对从业者来说,信号是:高质量新闻源正在变成大模型差异化竞争的关键资产,但成本不低,小团队跟不起。
锐评
OpenAI 宣布与 News Corp 签署多年合作协议,但正文未披露金额、内容范围、训练权限和上线时间。我的判断很直接:这更像 OpenAI 在版权战线上的防御性采购,不是产品层面的新突破。
说真的,标题里的“global partnership”很像公关包装。新闻机构和模型公司签内容协议,关键从来不是“合作”两个字,关键是四个边界:能不能用于预训练,能不能用于 RAG 检索,能不能保留摘要权,用户跳转和分成怎么结。这里一项都没给。没有这些条款,外界没法判断这笔钱买到的是长期数据供给,还是只买到了展示层的合规外衣。
这条放到过去一年的版权谈判里看,就顺很多了。OpenAI此前已经和 Axel Springer、Financial Times 等出版机构签过授权;另一边,《纽约时报》在 2023 年底直接起诉 OpenAI 和微软。两条线同时存在,说明大模型公司对新闻内容的态度已经分层:愿意谈的就付费接入,不愿意谈的就准备打官司。News Corp 旗下有《华尔街日报》、道琼斯、纽约邮报,资产密度比普通媒体高得多,金融和商业内容的引用价值也高。OpenAI把这类高价值出版商一个个签下来,核心作用不是“内容更丰富”,而是把高风险原告名单尽量缩短。
我对这类协议一直有个保留:新闻内容对模型能力提升的边际价值,未必有媒体公司自己想得那么高。时效新闻对聊天产品有用,对基础模型预训练未必值天价,因为高质量代码、数学、合成数据、专业语料的替代性没那么低。我没看到这份协议是否包含训练权,如果只覆盖“显示、引用、归因、跳转”,那它更接近分发协议;如果覆盖持续训练,意义才会大一截。标题已给出“多年”,正文未披露排他性,这个缺口很关键。排他与否,决定它是防御成本,还是竞争护城河。
还有一个现实问题我不太买账:媒体公司喜欢把这类合作讲成“AI 与新闻共赢”,但用户入口一旦被 ChatGPT 这类产品拿走,出版商长期议价能力大概率还是走弱。Axel Springer 当时也签了协议,可媒体行业过去二十年已经见过太多“平台先分发、再抽走关系”的故事。News Corp 这次拿到的钱,短期能补收入;长期能不能守住品牌直达流量,标题没有给任何答案。
现在能下的结论只有一半。OpenAI又签下一家重量级出版商,这是事实。它买到的到底是训练燃料、检索许可,还是诉讼缓冲,正文没说。没有条款,这条消息先别按“内容生态大胜利”处理。
HKR 分解
hook — knowledge — resonance ✓
2024-05-21 · 星期二 2024年5月21日
Hugging Face 博客 · rss EN 00:00 · 05·21
Hugging Face 推出 Spaces Dev Mode,但正文是空的
Hugging Face 发布了一个叫 Spaces Dev Mode 的新功能,标题说为了改善开发者体验。但点进去页面返回 429 错误,正文一个字都没披露——没有功能细节、没有上线时间、没有价格、也没有支持什么硬件。目前能确认的只有产品名字和标题里那句目标。这不是一个能力解读,只是一个工具类产品的发布信号,信息缺口很大,等后续补全再判断值不值得跟进。
#Tools #Hugging Face #Product update
精选理由
标题确认了 Hugging Face Spaces 的 Dev Mode 更新,但正文为空,未披露功能范围、定价、硬件支持或上线条件。HKR 三项均不满足,属于被排除的占位式产品公告。
HKR 分解
hook — knowledge — resonance —
2024-05-19 · 星期日 2024年5月19日
OpenAI 博客 · rss EN 23:30 · 05·19
ChatGPT 五个声音是怎么选出来的
OpenAI 发了一篇博客,讲 ChatGPT 五个声音(Breeze、Cove、Ember、Juniper、Sky)的选角过程。找了专业选角导演,2023 年 5 月发招募,一周收到 400 多份投稿,先筛到 14 人,再挑出 5 个。演员飞到旧金山录音,9 月上线。每个演员拿高于市场顶薪的报酬,但为了保护隐私不公布名字。正文没披露具体薪酬数字、用户...
#Audio #OpenAI #ChatGPT #Commentary
精选理由
HKR-H 靠标题的幕后角度过关。HKR-K 不通过,因为正文没披露任何筛选标准、样本量、合同条款或时间点。HKR-R 不通过,因为它没打到能力、成本或竞争神经;价值低,所以全选。
一句话点评
OpenAI 发了一篇博客,详细讲了 ChatGPT 五个语音(Breeze、Cove、Ember、Juniper、Sky)是怎么选出来的:找了专业配音导演、收了 400 多份试音、五个月流程、给演员高于市场价的报酬。核心目的是澄清 Sky 的声音不是模仿斯嘉丽·约翰逊,而是另一位专业演员的自然嗓音。但整篇没披露任何技术细节——比如语音合成用了什么模型、延迟多少、怎么处理多语言口音。更像公关...
锐评
OpenAI 只公开了 1 个标题谈 ChatGPT 语音来源,正文没给样本数、筛选标准、演员合同、上线时间。我先下判断:这条的核心不是“怎么选声线”,而是 OpenAI 需要把语音产品的决策流程重新讲一遍,给外界一个可引用版本。
时间点太敏感了。标题发布日期是 2024 年 5 月 19 日,刚好卡在 Sky 声音争议爆开之后。那几天的舆论焦点不是 TTS 质量,而是相似性、授权链条、内部决策留痕。OpenAI 这时发一篇“voices were chosen”,我很难把它看成常规幕后文章。说真的,这更像法务、PR、产品三方一起校口径后的解释入口。标题已经给出主题,正文却是空的,这一下就有点不对劲了:公司显然知道必须回应,但当下还没放出能承受审视的细节。
我对这种“流程说明先行”的叙事一直比较警觉。语音系统的争议从来不只在演员是不是签了字,还在相似性评估是谁做、用什么标准、出现外部异议后谁有停用权限。去年到今年,ElevenLabs、Meta、微软都在补语音水印、肖像与声音授权、合成内容标识这些治理环节;行业共识已经不是“我们有授权就行”,而是“你要能证明内部确实做过风险审查”。OpenAI 如果只是讲海选、试音、最终入选这种制作流程,这篇文章的信息量其实很有限。外部更关心的是三件事:一,候选声音与公众人物的相似性有没有被量化;二,谁签字放行;三,争议出现后多久下线。标题没回答,摘要也明确说正文未披露。
还有一点我不太买账。OpenAI 过去一年一直把多模态体验包装成“更自然的人机交互”,但声音一旦成为产品人格的一部分,它就不再只是 UI 组件。语音比文本更像品牌代言,也更像身份映射。你看去年 Character.AI、Meta AI、Pi 这类产品,大家都在试图把“声音”做成陪伴感和可信度的捷径,结果治理成本也一起上来了。OpenAI 这次如果只是补一篇品牌叙事稿,没把合同、审批、下线机制讲清楚,那它修复不了信任,只是在拖时间。
我还没查到正文,所以不装知道更多。现在能确认的只有:这是流程话题,不是模型规格更新;标题发布的时点带着强烈回应意味;关键治理信息仍然缺席。对做语音产品的人来说,这条提醒很直接:TTS 领先不等于语音产品成熟,授权链、相似性审查、撤回机制现在已经是功能的一部分。少一项,产品就会被公关反噬。
HKR 分解
hook ✓ knowledge — resonance —
2024-05-16 · 星期四 2024年5月16日
OpenAI 博客 · rss EN 15:00 · 05·16
ChatGPT 数据分析升级:直接连 Google Drive 和 OneDrive,还能改图表颜色
OpenAI 给 ChatGPT 的数据分析功能加了三个实用更新:一是可以直接从 Google Drive 和 OneDrive 拉文件,不用先下载再上传;二是表格和图表可以点开全屏看,边分析边更新,还能点某个区域追问;三是图表支持自定义颜色、悬停看数据,改好后能直接下载放到 PPT 里。这些功能跑在 GPT-4o 上,未来几周陆续推给 Plus、Te...
#Tools #OpenAI #ChatGPT #Product update
精选理由
这篇只有标题,正文是空的。标题说 OpenAI 要改进 ChatGPT 的数据分析,但改进什么、怎么改、什么时候上线、谁能用,一个字都没提。HKR 三项全挂,所以直接排除,不当作实质性产品更新处理。别被标题骗了,这还不是可执行的功能说明。
HKR 分解
hook — knowledge — resonance —
OpenAI 博客 · rss EN 13:30 · 05·16
OpenAI 与 Reddit 合作:ChatGPT 将能实时读取 Reddit 帖子,但合作金额和独家条款未披露
OpenAI 和 Reddit 正式宣布合作,核心是 OpenAI 接入 Reddit 的 Data API,让 ChatGPT 能实时获取 Reddit 上的结构化内容,尤其是热门话题下的讨论。作为交换,Reddit 会基于 OpenAI 的模型给社区开发 AI 功能,同时 OpenAI 成为 Reddit 的广告合作伙伴。但正文没披露合作金额、是否...
#OpenAI #Reddit #Partnership
精选理由
HKR 的 H 和 R 都成立:OpenAI 搭上 Reddit 本身就有话题性,而且戳中了数据授权和分发两条敏感神经。K 不成立是因为正文只给了合作名字,范围、价格、时间一概没有,信息量太低,只能放 low-band all。
一句话点评
OpenAI 和 Reddit 正式合作,ChatGPT 将能实时读取 Reddit 帖子,Reddit 则用 OpenAI 模型给社区加 AI 功能。好处是 ChatGPT 能拿到最新、最真实的人类讨论,比抓网页更结构化。但注意:Sam Altman 本人是 Reddit 股东,这笔交易有利益关联,OpenAI 强调由独立董事会批准。合作没披露具体金额,也没说数据是否独家。对开发者来说,R...
锐评
OpenAI 和 Reddit 已确认合作,但正文没给金额、范围、期限。我的判断偏保守:先把它看成一笔内容与分发资源交换的框架协议,别急着往“战略同盟”上抬。
理由很简单。Reddit 今年最清楚的动作,是把自家语料变成可收费资产。我记得 Reuters 2 月报过,Google 与 Reddit 的数据授权一年大约 6000 万美元;这笔钱当时就被很多人解读成 Reddit IPO 前给市场看的新收入故事。放到这个背景里,OpenAI 现在签进来,第一反应不是“论坛社区要深度接入 ChatGPT”,而是 OpenAI 也需要更持续、更新频率更高、带人类互动结构的数据源。Reddit 这种问答链路、投票、楼中楼争论,对齐和检索都好用,这个业内早就知道。
我对标题叙事有个明显保留:合作不等于数据全量授权。正文为空,所以训练权、实时 API 权、展示权、商业再分发权,一个都没披露。这里差别很大。要是像 Google 那类授权,重点在数据供给;要是把 Reddit 内容更深地接进 ChatGPT 或搜索产品,重点就在流量回传和品牌安全;要是广告合作,那又是另一套账。现在只有标题,三条路都不能排除。
还有个现实问题,很多人会故意跳过:Reddit 数据的价值,建立在社区活跃和搜索可见性上。过去一年各家模型厂都在追“新鲜语料”,但论坛数据也最容易带进垃圾帖、搬运帖、机器人灌水和版规噪声。OpenAI 如果拿的是高频更新接口,清洗和许可边界比买一批静态语料麻烦得多。说真的,这条新闻现在能确认的,不是 OpenAI 拿到了什么能力,而是 Reddit 又把自己往“AI 语料收费站”这个定位推近了一步。标题已经给出合作,正文没披露合同结构;在细节出来前,我不买任何一边关于“深度协同”的大词。
HKR 分解
hook ✓ knowledge — resonance ✓
Hugging Face 博客 · rss EN 00:00 · 05·16
用 KV Cache 量化给大模型续命,长文本生成不再爆显存
Hugging Face 发了一篇博客,讲的是把 KV Cache(大模型生成时存中间计算结果的那块缓存)做量化压缩,从而让模型能生成长文本而不被显存卡死。正文没披露具体量化到多少 bit、省了多少显存、能多生成多少 token,也没说支持哪些模型。核心逻辑是:长文本生成时 KV Cache 会吃掉大量显存——以 Llama-2 7B 为例,一万 to...
#Inference-opt #Commentary
精选理由
标题说 KV cache 量化能延长生成长度,但正文是空的,没给任何具体数字:量化位宽、显存省了多少、生成长度延长了几倍、在什么模型上测的,全都没有。所以 H 和 R 成立——痛点真实、方向对路;但 K 不成立,因为关键信息全缺,按规则只能算方向性评论,不是可落地的结论。重要性给 35 合理,tier 排除也是对的:标题党嫌疑,技术可及性不达标。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-05-14 · 星期二 2024年5月14日
● P1 OpenAI 博客 · rss EN 18:00 · 05·14
OpenAI 首席科学家换人:Ilya Sutskever 离职,Jakub Pachocki 接任
OpenAI 在 2024 年 5 月 14 日发了一条简短公告,确认联合创始人兼首席科学家 Ilya Sutskever 将离开公司,由原研究总监 Jakub Pachocki 接任首席科学家。公告里只有 Sam Altman 给全公司的一封告别信和一段 Pachocki 的履历介绍,没有说明 Sutskever 具体哪天离职、交接期怎么安排,也没提...
#OpenAI #Ilya Sutskever #Jakub Pachocki #Personnel
精选理由
我会先打个折,因为正文是空的,只有标题能确认两个人事变动。Ilya 作为联合创始人兼首席科学家离职,本身就够重磅,接任者是谁也直接决定后续研究风格。但正文没披露交接时间、过渡安排和职责切分,这些缺口让判断只能停在标题层面。对从业者来说,真正该盯的是研究路线谁说了算,这点目前还没答案。
一句话点评
Ilya Sutskever 离开 OpenAI,接任首席科学家的是 Jakub Pachocki。Sam Altman 的告别信写得挺动情,但没提 Ilya 具体去做什么,只说有“个人意义重大的事”。
锐评
OpenAI 官方确认了 Ilya Sutskever 的离开,由 Jakub Pachocki 接任首席科学家。Sam Altman 在内部信里给了 Ilya 很高的评价,称他是“我们这一代最伟大的头脑之一”,但也明确表示 Ilya 是去忙自己觉得有意义的事了,具体项目一个字没提。这让人没法不联想到去年那场董事会风波,Ilya 当时是参与罢免 Sam 的关键人物,虽然后来又改口支持,但裂痕可能比公开说的要深。
接棒的 Jakub Pachocki 从 2017 年就在 OpenAI,主导过 GPT-4 和 OpenAI Five 的开发,背景是卡内基梅隆的理论计算机博士。公告强调他在大规模强化学习和深度学习优化上的研究,以及“重新聚焦公司愿景到扩展深度学习系统”上的作用。这基本是在说,OpenAI 的技术路线会继续沿着大力出奇迹的 scaling 方向走,不会因为 Ilya 的离开而转向。
不过,公告完全没提 Ilya 离开对 OpenAI 安全对齐团队的影响。Ilya 之前是联合领导安全对齐工作的核心,他走后这个方向由谁主导、资源会不会被重新分配,正文都没披露。这点先别太激动,等后续人事安排出来再看。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
FEATURED Hugging Face 博客 · rss EN 00:00 · 05·14
Google 开源视觉语言模型 PaliGemma:能看图说话、检测、分割,但开源到什么程度还不清楚
Google 在 Hugging Face 上发布了 PaliGemma,一个能同时理解图像和文本的视觉语言模型(VLM)。架构上它把 SigLIP 图像编码器和 Gemma-2B 文本解码器拼在一起,中间加了个线性适配器。模型分三类:预训练版(pt)需要自己微调、混合版(mix)可直接用但仅限研究、微调版(ft)针对特定学术基准。分辨率有 224、4...
#Vision #Multimodal #Google #PaliGemma
精选理由
标题确认了真实事件:Google 发布了开放视觉语言模型 PaliGemma,所以 H 和 R 成立。K 不成立是因为 RSS 只有标题,正文为空,没披露任何关键细节——参数、数据、许可证、基准、时间都没有。因此重要性 70、分发给 all、不标 featured 是合理的。
一句话点评
Google 开源了一个能看图说话、读文档的轻量模型 PaliGemma,最低配版本只有 2B 参数,适合微调后跑具体任务。
锐评
PaliGemma 是 Google 放出的视觉语言模型,核心思路是把 SigLIP 图像编码器和 Gemma-2B 文本解码器拼在一起,中间加一个线性适配器。你可以把它理解成一个能看懂图的小型语言模型,给它一张图和一句话,它就能输出文字回答。
这次发布分了三种模型:预训练版(pt)拿来自己微调;混合版(mix)已经在多任务上微调过,适合通用场景但只能做研究;微调版(ft)专门针对学术基准做了优化。模型提供了 224、448、896 三种分辨率,精度有 bfloat16、float16 和 float32 可选。从架构看,它继承了 PaLI-3 的路线,但把文本解码器换成了 Gemma-2B,整体参数量不大,意味着微调成本相对低。
不过,博客正文没有给出任何具体基准分数或与同类模型的对比数据,只说“在各种学术基准上做了微调”。实际效果如何、在不同任务上比现有开源方案强多少,需要自己跑一遍才知道。另外,混合版和微调版都标注了“仅限研究用途”,商用场景得用预训练版自己微调,这点要注意。
HKR 分解
hook ✓ knowledge — resonance ✓
Hugging Face 博客 · rss EN 00:00 · 05·14
阿拉伯语大模型排行榜上线,但正文是空的
Hugging Face 联合阿联酋技术创新研究所(TII)推出了一个专门评估阿拉伯语大模型(LLM)的排行榜,叫 Open Arabic LLM Leaderboard。它用了 AlGhafa、ACVA 和 AceGPT 等基准数据集,覆盖阅读理解、情感分析、问答等任务,还翻译了 MMLU 和 EXAMS 来扩充测试范围。但正文只写了背景和数据集名字...
#Benchmarking #Benchmark
精选理由
全文只有标题,正文为空,连评测集、模型数量、分数都没披露,更别提可复现性。项目方向有意义,但当前信息量不足以支撑任何评分,按规则归为 excluded。
HKR 分解
hook — knowledge — resonance —
2024-05-13 · 星期一 2024年5月13日
FEATURED OpenAI 博客 · rss EN 10:05 · 05·13
GPT-4o 发布:能实时处理音频、图像和文本,API 价格砍半
OpenAI 今天正式发布了 GPT-4o,o 代表 omni(全能),核心卖点是能同时处理文字、音频、图像和视频输入,并输出文字、音频和图像。最直观的变化是语音对话延迟从 GPT-4 的 5.4 秒降到了平均 320 毫秒,接近真人聊天节奏。之前语音模式是靠三个模型拼凑:先转文字、再推理、再转回语音,中间会丢掉语气、笑声、背景音等信息;4o 用一个端...
精选理由
来源是 OpenAI 官方,确认有一篇叫 GPT-4o 的帖子,所以 HKR-H 和 HKR-R 成立。HKR-K 不成立,因为 feed 没给价格、上下文长度、模态细节、基准或上线条件,因此归入 all 而非 featured。
一句话点评
OpenAI 发了新旗舰模型 GPT-4o,把语音、图片、文字塞进一个模型里实时处理,API 价格直接砍半。
锐评
GPT-4o 最大的变化不是跑分,而是把之前语音模式那条“先转文字、再生成回复、再转语音”的流水线拆了,换成一个模型直接端到端处理音频、视觉和文字。这带来的直接好处是延迟从 GPT-4 的 5.4 秒压到平均 320 毫秒,跟人对话的反应时间差不多,而且模型能直接听到语气、笑声甚至唱歌,不再丢失信息。
性能上,官方说文字、推理和代码能力跟 GPT-4 Turbo 持平,但多语言和视觉理解有明显提升。这里有个实在的数字:API 调用费用比 Turbo 便宜 50%,对高频调用的产品来说省的是真金白银。另外新分词器对非英文语言更友好,比如古吉拉特语 token 数从 145 降到 33,中文从 34 降到 24,意味着处理成本更低、速度更快。
不过这篇公告本质是产品发布,不是技术论文。模型架构细节、训练数据、多模态对齐怎么做的一概没提,给出的评测也集中在自家选的基准上。实际场景里视觉推理稳不稳、跨语言理解会不会翻车,还得等第三方测。
HKR 分解
hook ✓ knowledge — resonance ✓
● P1 OpenAI 博客 · rss EN 10:00 · 05·13
OpenAI 把 GPT-4o 和更多工具开放给免费用户了
OpenAI 宣布免费版 ChatGPT 也能用上最新的旗舰模型 GPT-4o,同时还会逐步解锁联网搜索、数据分析画图表、上传文件、聊照片、用 GPTs 商店和记忆功能。GPT-4o 在文字、语音和图片理解上都比前代更快,但免费用户有使用次数限制,用完了会自动切回 GPT-3.5。付费的 Plus 用户消息额度是免费用户的 5 倍,还能抢先体验新的实时...
#Tools #OpenAI #Product update
精选理由
这条消息分量很重,OpenAI 把 GPT-4o 塞进免费套餐,等于重新划了免费 AI 工具的天花板。我会先打个折,因为正文是空的,工具清单、配额、地区、上线节奏全都没披露,实际落地效果还得看后续细节。但光是这个信号就够从业者紧张一阵了,所以分数给到 90,没拉满是因为信息缺口太大。
一句话点评
OpenAI 把 GPT-4 级模型免费了,还附赠联网、数据分析、传文件,但免费版有次数限制,用超了会降级到 3.5。
锐评
OpenAI 这次更新最狠的一步是把 GPT-4o 塞进了免费套餐。以前 GPT-4 是付费墙后的核心卖点,现在直接向过亿周活用户开放,等于把自家高端模型的护城河填平了一截。免费用户能用的东西一下多了不少:可以传文件让它总结分析、拍照片聊内容、用 GPTs 商店里的定制机器人,还能让它联网查资料。但别高兴太早,公告说免费版有使用上限,具体多少条没说,只提了“取决于用量和需求”,到了上限会自动切回 GPT-3.5。Plus 用户的消息额度是免费版的 5 倍以上,团队和企业版更高。
另外两个动作也值得留意。一是发了 macOS 桌面客户端,快捷键呼出,能直接聊截图,Windows 版说年内出。二是预告了一个新的语音模式,能做实时视频对话,比如对着直播画面问规则,但只说了几周内先给 Plus 用户内测,没给正式上线时间。整体看,OpenAI 在把能力往下放,但高负载时的体验和实时视频功能的落地速度,这两点正文都没给出具体承诺,得等实际推了再看。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
Hugging Face 博客 · rss EN 00:00 · 05·13
Hugging Face 发布 Transformers Agents 2.0:让模型学会调用工具干活
Hugging Face 正式推出 Transformers Agents 2.0,核心变化是新增两种能根据历史观察迭代执行任务的智能体类型,不再只是单次调用。官方称新框架性能很强,用 Llama-3-70B 驱动的智能体在 GAIA 排行榜上超过了 GPT-4 的方案。不过正文没披露具体 API 改动、支持哪些模型、以及是否改了底层的调用机制——目前...
#Agent #Tools #Hugging Face #Product update
精选理由
官方标题确认了 Transformers Agents 2.0,对关注 Agent 工具链的读者来说 H 和 R 有一定吸引力。但 RSS 正文为空,API、支持模型、调用机制改动全没披露,K 不成立,故事只能留在低 all 区间。
一句话点评
Hugging Face 发布 Transformers Agents 2.0,核心是让模型能根据历史观察迭代执行任务。亮点是 Llama-3-70B 驱动的 Agent 在 GAIA 排行榜上超过了 GPT-4 方案。代码更透明,支持社区共享 Agent。但正文没披露具体延迟和成本,实际跑起来未必轻量。
锐评
Hugging Face 这次只放出了“Transformers Agents 2.0”这个标题,功能、API、支持模型、发布条件正文都没披露。我的判断先摆在前面:在 agent 框架这条线上,版本号本身几乎没有信息量,调用机制才有。如果 2.0 只是把现有 tool use、code execution、planner 封成更顺手的接口,那是 DX 更新;如果它改了模型如何选择工具、如何处理多步状态、如何做错误恢复,那才配叫 2.0。
我一直觉得 Hugging Face 做 agent 容易掉进一个老问题:演示很好看,生产很难落。去年到今年,OpenAI 的 function calling、Assistants,再到 Anthropic 的 tool use,大家都在把“模型会不会调用工具”往“系统怎么保证调用稳定”上推。这个对比很关键,因为 agent 栈的门槛早就不是能不能发起一次 HTTP call,而是 schema 约束、重试策略、观察性、权限边界这些脏活。标题没给这些,我就不会把它当成重大发布。
还有一点我有点怀疑。Hugging Face 过去更擅长做开放生态入口,不太擅长替开发者吞掉全部运行时复杂度。Transformers、Inference Endpoints、Spaces 都证明了这家公司很会铺基础设施层和分发层,但 agent 产品要往前走,迟早得碰到 session memory、sandbox、tool auth、成本控制。LangChain、LlamaIndex 这两年挨了不少骂,原因也在这:抽象一旦太厚,调试就很痛。Agents 2.0 如果没有把中间状态暴露得更清楚,我看着还是会像 demo 框架。
目前只有标题信息,我还没查到 repo 变更、文档页、API 示例。说真的,这条新闻先别按“能力升级”处理,先按“命名升级”处理。等他们把 tool calling 协议、执行环境和失败回退策略放出来,再决定这是不是一次认真重构。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-05-08 · 星期三 2024年5月8日
OpenAI 博客 · rss EN 00:00 · 05·08
OpenAI 发布《模型规范》
OpenAI 发了一篇博客,标题是《模型规范》,但正文只给了目录和框架,没有披露具体条款、适用模型、生效时间或执行方式。目前能确认的只有:这是一份描述模型行为准则的文件,分目标、规则和默认行为三层,比如“遵守法律”“不生成 NSFW 内容”“默认用户善意”。但怎么训练、怎么验证、是否强制,正文都没说。所以这更像一份政策草案,不是产品更新,别当新功能看。
#OpenAI #Policy
精选理由
目前只有标题和来源是确认的,所以 HKR-K 不成立:范围、具体规则和执行方式都缺失。但主题本身值得关注,因为 OpenAI 把模型行为写成规范,这对对齐和治理有影响。信息密度只够打 all 级别。
一句话点评
OpenAI 发布了《模型规范》初稿,相当于一份给 AI 的“行为守则”,明确模型在 API 和 ChatGPT 里该怎么做人。核心分三层:目标(帮用户、利人类、给 OpenAI 长脸)、规则(守法、不泄密、不搞 NSFW)、默认行为(假设用户善意、不确定就直说)。目前只是草案,还没落地到具体模型,正文也没披露训练数据或评估指标。亮点是公开了内部设计原则,但缺具体案例和冲突解决机制,比如“帮...
锐评
OpenAI 只放出了《Model Spec》这个标题,正文、适用模型、执行方式都没披露;在这些关键信息缺席前,把它读成“新能力上线”是过度解读。我现在的判断很简单:这更像一份公开版行为规范,先服务外部对齐叙事,再决定要不要落进产品。
我一直觉得 OpenAI 在这类文件上的动作,通常有两层目标。第一层是给开发者和监管者一个可引用的口径。2023 年他们发过 system message、preparedness framework、usage policy 一类材料,作用都不是直接提升模型,而是把“模型该怎么回答、边界在哪、出了事按什么原则解释”写成文本。标题里用的是 spec,不是 release、API update、system card,这个词本身就偏规范,不偏能力。第二层才是内部执行:有没有进训练数据、有没有进 inference-time policy、有没有审核链路。标题没给,正文也没有,这块现在不能猜。
我对这条宣传口径有个保留。OpenAI 很擅长把“对齐原则”写得比“执行细节”更完整。问题在于,模型行为不是靠 PDF 稳定下来的,而是靠 system prompt、reward model、拒答策略、工具权限、红队反馈一起收敛出来的。Anthropic 以前讲 Constitutional AI 时,至少把原则如何进入训练这件事讲得更清楚一些;Google 发 model cards 或 safety reports 时,也常会给适用范围和限制条件。OpenAI 这次如果最后只给原则,不给适用模型、优先级冲突、覆盖率、版本更新机制,那它对从业者的参考价值会很有限。
我还想追一个点:这份 spec 是不是给 GPT-4o 这类新模型准备的统一行为层。发布时间点靠近 2024 年 5 月的产品节奏,这个联想不奇怪,但我还没查到正文,不能下结论。要是它覆盖 ChatGPT 和 API 两条线,那它会影响很多 prompt 工程和 agent 设计;要是它只是公开说明书,实际系统提示词继续频繁改,那开发者拿到的还是一张静态地图,跑的是动态地形。
所以这条先别吹,也别骂。标题已经给出“OpenAI 在写模型行为规范”,正文未披露“规范如何执行”。对做应用的人来说,后者才决定这东西有没有操作价值。
HKR 分解
hook — knowledge — resonance ✓
2024-05-06 · 星期一 2024年5月6日
FEATURED OpenAI 博客 · rss EN 00:00 · 05·06
OpenAI 和 Stack Overflow 签了 API 合作,ChatGPT 以后能直接查技术问答
OpenAI 和 Stack Overflow 宣布了一个 API 合作,核心是 OpenAI 通过 OverflowAPI 拿 Stack Overflow 的数据来训练模型,同时 ChatGPT 里会直接展示 Stack Overflow 的问答内容,并标注来源。Stack Overflow 那边也会用 OpenAI 的模型来改进自己的 Overf...
#OpenAI #Stack Overflow #Partnership #Product update
精选理由
这条新闻的 HKR-H 和 HKR-R 都很明显,因为 OpenAI 和 Stack Overflow 联手直接涉及开发者流量、内容授权和分发格局。HKR-K 不成立,因为目前只有标题确认了合作,具体范围、商业条款、覆盖产品和上线时间都没披露。
一句话点评
OpenAI 和 Stack Overflow 合作,把 5900 万条问答喂给模型,并在 ChatGPT 里直接引用来源。但正文没披露付费细节和社区分成方案。
锐评
这次合作的核心是 OpenAI 通过 OverflowAPI 拿到 Stack Overflow 过去 15 年积累的 5900 万条技术问答,用来改进模型在编程问题上的表现,同时在 ChatGPT 回答里标注来源、链接回社区。反过来,Stack Overflow 会用 OpenAI 的模型来开发自己的 OverflowAI 产品。
对开发者来说,好处是 ChatGPT 给出的代码答案可能更靠谱、有据可查,不再是“看起来对但跑不通”的黑箱。但公告完全没提钱的事——OpenAI 付了多少授权费、Stack Overflow 的贡献者能不能分到收益,这些关键信息都是空白。Stack Overflow 之前因为 AI 训练数据问题跟社区关系紧张,这次合作如果处理不好利益分配,可能进一步激化矛盾。
另外,第一批集成功能说 2024 上半年上线,但现在已经过了那个时间点,正文没更新实际落地情况,这点需要留意。整体看,这是一次典型的“数据换技术”合作,实际效果要看引用准确率和社区反馈,现在下结论还太早。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-05-03 · 星期五 2024年5月3日
Hugging Face 博客 · rss EN 00:00 · 05·03
HuggingFace 把第三方模型性能排行榜搬过来了
HuggingFace 宣布引入 Artificial Analysis 的 LLM 性能排行榜,但正文只返回了 429 错误页面,没给出任何具体信息。目前不知道上线时间、评测指标、覆盖模型数量,也不清楚是否支持筛选或 API 调用。
#Benchmarking #Tools #Hugging Face #Artificial Analysis
精选理由
HKR三项全不达标:标题只确认了Hugging Face接入Artificial Analysis排行榜这一件事。正文为空,没给上线时间、评测维度、模型数量、筛选排序或API访问,信号太薄,分数低于40/排除。
HKR 分解
hook — knowledge — resonance —
2024-04-29 · 星期一 2024年4月29日
FEATURED OpenAI 博客 · rss EN 00:00 · 04·29
OpenAI 与英国金融时报签约:ChatGPT 将能引用 FT 文章,但具体怎么用还没说
OpenAI 宣布与英国《金融时报》达成内容授权合作,ChatGPT 会在回答里显示 FT 文章的摘要、引语和链接,并标注来源。FT 自己也买了 ChatGPT Enterprise 给全员用。双方都说要一起开发新功能,但正文没披露合作金额、覆盖多少文章、UI 长什么样。FT 老板表态很明确:AI 平台用新闻就该付钱,署名和补偿缺一不可。对用户来说,以...
#OpenAI #Financial Times #ChatGPT #Partnership
精选理由
OpenAI 和 FT 的合作有讨论价值,所以 HKR-H 和 HKR-R 通过。我保留 66 分是因为 HKR-K 不通过:帖子确认了合作,但产品界面、覆盖范围和商业条款都没披露。
一句话点评
OpenAI 和《金融时报》签了授权协议,ChatGPT 能直接引用 FT 的新闻摘要和链接了。但公告没提具体付多少钱、怎么分账。
锐评
这条合作的核心就一句话:OpenAI 开始为训练和展示新闻内容付费了。FT 的新闻会以“署名摘要、引用和链接”的形式出现在 ChatGPT 的回答里,这比之前那种“模型自己瞎编”要靠谱,至少给了用户一个能点进去看原文的出口。同时,FT 全员买了 ChatGPT Enterprise,相当于自己先用起来,再谈怎么把 AI 产品卖给读者。
不过,公告里全是原则性表态,比如“AI 平台应该为使用内容付费”、“透明度很重要”,但没披露任何商业条款。授权费是一次性买断还是按展示量算?链接点击带来的流量算谁的?这些直接影响这笔生意划不划算的关键数字,正文一个字都没提。FT 说想“待在开发圈子里”,但具体能参与多深、对模型输出有多少控制权,目前也只是个模糊的方向。
所以,这更像一个信号:头部出版商和 AI 公司开始谈钱了。但离真正跑通一个对双方都公平、可持续的分账模式,还差得远。
HKR 分解
hook ✓ knowledge — resonance ✓
Hugging Face 博客 · rss EN 00:00 · 04·29
StarCoder2-Instruct:完全开源透明的代码模型自对齐方案
Hugging Face 发了一篇博客,讲他们怎么用 StarCoder2-15B 自己教自己写代码,不用人工标注,也不用 GPT-4 那种大模型来蒸馏数据。核心做法是:先从开源代码库里挑出质量好的 Python 函数,让模型自己生成对应的指令和回答,再用执行结果来验证回答对不对。最终模型在 HumanEval 上拿了 72.6,甚至超过了 70B 参...
#Code #Alignment #Hugging Face #StarCoder2-Instruct
精选理由
HKR-H 和 HKR-R 成立:透明自对齐加宽松许可是代码模型读者的真钩子。HKR-K 不成立,因为 RSS 正文为空,模型尺寸、训练数据、基准成绩和许可文本都没披露,所以这条留在 all 里。
一句话点评
StarCoder2-15B-Instruct 完全用自己生成的数据做指令微调,没用人工标注也没用 GPT-4 蒸馏,HumanEval 72.6 分,超过了 CodeLlama-70B-Instruct 的 72.0。关键卖点是全透明、可商用许可,而且自产数据效果居然比用 GPT-4 数据还好。但注意:评测只覆盖 Python 代码生成,没提多语言、长上下文或真实工程场景;HumanEva...
锐评
Hugging Face 这次只明确了 StarCoder2-Instruct 的两个标签:fully transparent 和 permissive self-alignment。就这点信息,我的判断很直接:这条先看成开源方法论表态,不看成代码模型排名变化。
原因不复杂。代码模型这条线,大家过去一年已经被太多“instruction-tuned”“aligned”“developer-friendly”的标题教育过了。没有模型尺寸、SFT 样本来源、偏好数据构造、过滤规则、许可文本、评测集和推理参数,所谓“自对齐”到底是流程可复现,还是结果可复现,完全是两回事。标题给了透明和宽松许可,正文却没有披露这些关键条件,那我没法把它和 DeepSeek-Coder、CodeQwen1.5、Magicoder,或者更早一批 WizardCoder 的开源实践放在同一张表上比较。开源代码模型里,很多项目一开始讲数据合规和流程公开,最后卡死在数据清洗细节、合成数据比例、测试污染处理这几件事上。这里最敏感的也正是这几件事。
我对“fully transparent”这个说法会先打个问号。说真的,代码模型要做到全透明,门槛比自然语言模型更高。你至少得交代基础底模是不是 StarCoder2 某个具体尺寸,指令数据是人写、模型蒸馏还是测试用例反推,拒答和安全策略怎么加,训练脚本和超参放不放,评测时有没有 pass@k、temperature、execution-based setting 这些条件。我还没看到这些。如果最后只是公开一个偏好优化思路,或者放出少量合成指令数据,这离“全透明”还差得远。
宽松许可这点我反而愿意认真看,因为它碰的是部署摩擦,不只是学术姿态。Meta 的 Llama 系列、Mistral 的部分发布、以及很多代码数据集的商业限制,过去一年已经证明了一件事:模型能力差 3 到 5 个点,企业有时能忍;许可边界不清,法务直接拦。代码生成场景尤其这样,因为输出会进生产仓库,责任链比聊天机器人更短。Hugging Face 如果这次真把训练流程、数据处理和权重许可都做到了可商用、可复现,那它的价值不一定体现在榜单名次,可能体现在“团队敢不敢拿去改、拿去上内网”。
但我还是要泼点冷水。标题现在只证明了叙事方向,没证明结果。文章没给 HumanEval、MBPP、EvalPlus、MultiPL-E 这类基准成绩,也没给与 StarCoder2 base、DeepSeek-Coder 33B、CodeQwen1.5 7B/14B 的对比。我自己也没查到这篇对应的完整博客正文,所以这里不能替它补成绩。要是后面披露出来只是一个中小尺寸模型,靠自合成指令把 chat format 做顺,意义依然有,但那是“开源配方更透明”,不是“代码生成能力跃迁”。这两个结论,别混着看。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-04-24 · 星期三 2024年4月24日
● P1 OpenAI 博客 · rss EN 00:00 · 04·24
GPT-4 API 全面开放,旧版补全模型半年后下线
OpenAI 宣布 GPT-4 API 向所有付费开发者开放,同时给旧版 Completions API 模型判了死缓:2024 年 1 月 4 日起,ada、babbage、curie、davinci 等老模型将彻底停用,用户需要迁移到新的替代模型上。官方推荐大家转向 Chat Completions API,说现在 97% 的 GPT API 用量...
#Tools #OpenAI #GPT-4 #Product update
精选理由
这是一次有分量的 OpenAI 平台更新,HKR 的 K 和 R 都很扎实:GPT-4 API 全面开放叠加 Completions 旧模型弃用,对开发者是立刻要面对的事。没给 p1 是因为正文是空的,开放范围、截止日期、受影响模型名单全没披露,实际影响还得等细节。
一句话点评
OpenAI 把 GPT-4 开放给所有付费用户了,同时宣布老款补全模型半年后退役,建议大家都切到 Chat Completions API。
锐评
这条公告的核心就两件事:GPT-4 不用排队申请了,以及老旧的 Completions API 模型要逐步下线。对开发者来说,GPT-4 的 8K 上下文版本现在付过钱的就能直接用,月底还会对新开发者开放,之后根据算力情况提速率限制。这算是个好消息,门槛降低了。
更值得留意的是模型退役计划。从 2024 年 1 月 4 日起,像 ada、babbage、curie、davinci 这些老款补全模型都会被替换成新模型,比如 davinci-002 或 gpt-3.5-turbo-instruct。OpenAI 给出的理由是,Chat Completions API 这种结构化的对话接口(能区分系统指令和用户输入,支持多轮对话)已经占了他们 API 用量的 97%,效果更好,还能降低提示词注入攻击的风险。所以,如果你还在用老接口,现在就得开始迁移了。
不过,正文没提这些新替换模型的定价和具体性能对比,也没说老模型退役后,依赖它们的应用会不会有兼容性问题。这点先别太激动,迁移成本和工作量得自己评估。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2024-04-23 · 星期二 2024年4月23日
Hugging Face 博客 · rss EN 00:00 · 04·23
Hugging Face 推出开放思维链排行榜
Hugging Face 发布了一个公开排行榜,专门比较各家大模型在“思维链”提示下的表现。它不直接比模型答对多少题,而是比“用了思维链比不用时准确率提升了多少”。目前评测任务包括 LogiQA 和 LSAT 两类逻辑推理题。动机是传统排行榜容易被训练数据污染——模型可能只是背过答案,而思维链能测出它是不是真的会推理。正文没披露具体模型排名、评测频率或...
#Reasoning #Benchmarking #Hugging Face #Benchmark
精选理由
HKR-H 勉强靠'开放 CoT 榜单'这个钩子过关。HKR-K 和 HKR-R 都失败,因为片段没给任何任务、协议、样本排名、参与模型或更新节奏,所以这条只能算低价值 all。
一句话点评
HuggingFace 联合 Logikon 和 Ai2 搞了个新榜单,不测模型最终答对多少,而是测“用思维链提示比不用能提升多少准确率”。目前只上了 LogiQA 和 LSAT 两类逻辑题,样本量偏小,且全是选择题。正文没披露参与模型的具体增益数字,也没说是否控制温度等生成参数。思路不错——抗数据污染,但验证力度还弱。
锐评
Hugging Face 这次只放出了一个 Open Chain of Thought Leaderboard 标题,正文未披露评测任务、参与模型、打分口径和更新频率;在这些关键信息缺席的条件下,这条新闻的含金量还很有限。我的判断很直接:如果评测协议、prompt、解析器和去污染规则不公开,这种 leaderboard 很容易测成“谁更会迎合裁判”,不是谁更会推理。
我一直觉得,chain-of-thought 榜单比一般能力榜更难做干净。原因不是名字新,而是它天然碰到两个老问题:第一,很多闭源模型对 CoT 有强策略限制,公开 API 返回的内容跟内部推理轨迹不是一回事;第二,只要打分依赖输出步骤,模型就会学会写“像推理”的文本。去年到今年,业内已经反复见过这种事:有些模型把答案前面铺一大段看似严谨的步骤,最终准确率并不稳定。GSM8K、MATH、甚至后来的 GPQA、MMLU-Pro 相关讨论里,大家已经越来越警惕“会写过程”和“真的推理”被混成一个指标。Hugging Face 如果想把这件事做成基础设施,至少要把 judge 设计、是否允许 self-consistency、是否限制 test-time compute 讲清楚。标题说 open,我第一反应不是“更透明了”,而是“你最好真的把 protocol 全开出来”。
我对“Open”这个词也有一点保留。开源社区很喜欢把 leaderboard 做成公共坐标系,这个方向我支持;Open LLM Leaderboard 当年确实帮不少开源模型获得了可见度。但 CoT 跟常规选择题榜单不一样,它更容易被 prompt engineering、answer extraction 和 contamination 放大。我还没查到这篇正文,所以不能断言它会踩坑;但如果它只公开分数,不公开样本、提示模板、解析代码,那这个 open 更像品牌名,不像方法学承诺。
还有个上下文不能省:2024 年这波“推理模型”叙事正在升温,很多团队都在把 test-time scaling、deliberate reasoning、tool use 混着讲。一个 CoT leaderboard 很容易被市场拿去当“推理能力排行榜”,这个我不太买账。没有任务拆分,你不知道它测的是数学、多跳问答、代码还是符号推理;没有成本指标,你也不知道高分是不是靠更长输出堆出来的。OpenAI 当时对隐藏 chain-of-thought 已经越来越谨慎,Anthropic 也更偏向展示结果和可控行为,而不是把内部推理全文吐给用户。顺着这个趋势看,公开 CoT 榜单的价值,不在于谁第一,而在于它能不能把“推理评测”从花哨样例拉回可复现实验。
所以我现在的态度很简单:这条先别吹。标题给了方向,正文没给证据。等 Hugging Face 把任务集、提示词、评分脚本、去重和污染检查放出来,这个榜单才配当行业参考;不然它更像一个会持续制造社媒截图的页面。
HKR 分解
hook ✓ knowledge — resonance —