ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部

200 items · updated 3m ago
RSS live
2025-03-07 · 星期五2025年3月7日
00:00
465d ago
Hugging Face 博客· rssEN00:00 · 03·07
在手机上跑大模型:Hugging Face 出了一份 React Native 教程
Hugging Face 发布了一篇教程,教你怎么用 React Native 在手机上跑大模型。文章提到可以用 DeepSeek R1 Distil Qwen 2.5(15 亿参数)这类小模型,通过 llama.rn(llama.cpp 的绑定)加载 GGUF 格式文件,从 Hugging Face Hub 下载模型,在本地做推理,数据不出手机。教程...
#Inference-opt#Tools#Hugging Face#React Native
精选理由
这是一篇移动端教程类的线索,H 和 R 都成立,但 K 不成立——RSS 只暴露了标题,没有模型名、性能数据、平台范围和复现步骤,所以评分中等偏低,不推荐上首页。
一句话点评
Hugging Face 发了一篇教程,教你怎么用 React Native 在手机上跑大模型,用的还是 DeepSeek R1 蒸馏版(1.5B 参数)。核心是 llama.rn 这个库,它把 llama.cpp 封装成了 React Native 能调用的模块,模型格式是 GGUF(量化后的文件,体积小很多)。教程手把手教你怎么下载模型、加载、做聊天界面,还支持 Android 和 iO...
锐评
Hugging Face 只公布了 React Native 手机端跑 LLM 这个标题,正文未披露模型名、token/s、内存占用、量化方案与 iOS/Android 条件。我的判断很直接:这条更像开发者获客内容,不像一次有信息密度的技术发布。题目里把“Fun and Easy”放得很前,反而说明最难的那部分还没摆上台面。 手机端推理这件事,过去一年早就不是新鲜方向。MLC、llama.cpp、Ollama 的移动端尝试,外加 Qualcomm、Apple、MediaTek 各自的端侧 NPU 叙事,都已经把“能跑起来”讲完了。现在大家关心的是三组硬指标:首 token 延迟、持续吞吐、功耗温升。没有这三组数,教程价值就只能停在 demo 层。我还没看到正文,所以没法判断它是在调用本地 GGUF、MLC 打包模型,还是走某种混合推理;这几个路径的工程难度差很多,React Native 也只是最外层壳。 我对这类标题一直有点警觉。React Native 解决的是跨端 UI 和部分原生桥接,不直接解决 KV cache、内存碎片、Metal 或 NNAPI 调度、模型分片下载这些真问题。你把 1B 量级模型塞进手机,和把 7B 模型塞进手机,是两种完全不同的产品命题。前者常常能做离线助手,后者很容易在热管理和首包体积上翻车。标题没给模型尺寸,这个缺口很关键。要是只是 0.5B 到 1B 的小模型,本地跑通不稀奇;要是碰 3B 以上,还能保持可用延迟,那才有讨论价值。 还有一层背景不能忽略。Hugging Face 这两年一直在把自己从“模型仓库”往“开发分发入口”推,Inference Endpoints、Transformers.js、smol 系列内容都在服务这个方向。React Native 教程放在这里,我看着更像是把移动端开发者继续往自己生态里收,而不是单纯证明端侧推理出现了新突破。这个动作本身没问题,但叙事要分清:平台扩张,不等于技术拐点。 我目前更想知道四件事。它支持的是哪类模型格式,是否需要原生模块改造,Android 与 iPhone 各自的最低芯片条件是什么,离线场景下的实际 token/s 到了多少。标题已经给出“手机端、React Native、边缘推理”三个事实,正文却没给任何复现门槛。没有这些,工程团队很难判断这是不是能进生产试验的路线。我先把它当成一篇 onboarding 教程,而不是端侧 LLM 又向前迈了一步的证据。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R1
2025-03-04 · 星期二2025年3月4日
10:00
468d ago
OpenAI 博客· rssEN10:00 · 03·04
LaunchDarkly CPTO 谈 AI 如何压缩产品经理工作:7 分钟搭一个客户故事 GPT
LaunchDarkly 的 CPTO Claire Vo 认为 AI 会压缩传统产品经理的工作,未来 PM 要么转向商业导向(类似 GM),要么融合工程和设计角色。她举了个例子:花 7 分钟搭了一个客户故事 GPT,把反复被问的客户案例变成自助搜索,省下自己的时间。正文没披露用了什么模型、部署规模或实际效果,重点在组织设计,不是新模型发布。
#Agent#Tools#LaunchDarkly#OpenAI
精选理由
HKR-K 和 HKR-R 靠7分钟搭GPT的轶事和25%跨职能比例通过。但这是 OpenAI 客户案例采访,没披露模型名称、部署规模或量化效果,硬排除-纯营销封顶40分以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R1
2025-02-28 · 星期五2025年2月28日
2025-02-27 · 星期四2025年2月27日
14:00
472d ago
OpenAI 博客· rssEN14:00 · 02·27
日本二手平台 Mercari 用 GPT-4o mini 帮卖家自动写商品描述,转化率有提升
Mercari 在 2024 年 9 月上线了 AI Listing Support 功能,用户上传商品照片后,GPT-4o mini 自动生成分类、标题和描述。最初用的是 GPT-4,后来换成 GPT-4o mini 以降低延迟和成本,并且能处理多张图片。目前每分钟生成几百条 AI 辅助的商品页,转化率有提升,但正文没披露具体百分比。另一个功能是 M...
#Multimodal#Vision#Tools#Mercari
精选理由
HKR-K 通过是因为正文包含了模型切换、多图输入和吞吐量等具体细节。但硬排除规则中的纯营销案例适用:这是供应商客户案例,转化率提升没有披露具体数字,所以重要性上限为 39。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
12:00
473d ago
● P1OpenAI 博客· rssEN12:00 · 02·27
OpenAI 发布 GPT-4.5 系统卡,安全风险没比现有模型更高,但也没给跑分和价格
OpenAI 在 2025 年 2 月 27 日公开了 GPT-4.5 的系统卡,说这是他们目前规模最大、知识面最广的模型。它基于 GPT-4o 继续扩大预训练,用了监督微调(SFT)和人类反馈强化学习(RLHF)这些常规方法,目标是做一个比纯推理模型更通用的家伙。早期测试感觉对话更自然,知识更宽,更能理解用户意图,情绪感知也强了点,写东西、编程、解决...
#Alignment#Safety#OpenAI#GPT-4.5
精选理由
这份 GPT-4.5 系统卡最值得看的是 OpenAI 自己划的线:模型上线前,缓解后的风险评分必须卡在 Medium 或更低。评分表里,CBRN 和说服力两项是 Medium,网络安全和模型自主性都是 Low,但正文没披露具体基准分数、上下文窗口和定价。OpenAI 说没发现比现有模型有明显安全风险上升,这点先别太激动,毕竟没给原始数据。我会先打个折,把它当成一份安全治理声明,而不是完整评测报告。
一句话点评
OpenAI 发了 GPT-4.5 的系统卡,定位是知识面更广、聊天更自然的通用模型,不是专攻推理的理科生。安全评分没爆雷,但正文没给具体跑分和对比数据,这点先别太激动。
锐评
这份系统卡把 GPT-4.5 定位成 GPT-4o 的放大版:预训练规模更大,用了监督微调和人类反馈强化学习这些老办法,目标是让模型知识更广、更懂人话、更少胡说。早期测试说它写东西、写代码、解决实际问题时感觉更自然,情商也更高。 安全方面,OpenAI 按自己的预备框架打了分:生化风险中、网络安全低、说服力中、自主性低,都在可部署的“中”及以下。但系统卡正文没放具体的基准测试分数,也没和 GPT-4o 做逐项对比,只说“没发现安全风险显著增加”。这让人很难判断“最大最强”到底强了多少,还是只是体感变好。 目前是研究预览,OpenAI 自己也在摸它的边界。缺的是实打实的量化对比、推理任务上的表现,以及这种大尺寸模型的实际推理成本——如果真的很贵,那“更自然”的代价就得掂量一下。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H0·K1·R1
10:00
473d ago
● P1OpenAI 博客· rssEN10:00 · 02·27
OpenAI 发布 GPT-4.5 研究预览版,说是目前最大、聊天最自然的模型
OpenAI 在 2 月 27 日放出了 GPT-4.5 的研究预览版,Pro 用户和开发者现在就能用。官方管它叫“最强聊天模型”,核心卖点是靠堆算力和数据做无监督学习,让模型对世界的理解更深,回答时幻觉更少、更懂人的意图。简单说,就是没走 o1 那种先想再答的推理路线,而是把 GPT 系列的老路子做到更大。文章给了两个具体数字:SimpleQA 准确...
#Reasoning#Alignment#OpenAI#Microsoft Azure
精选理由
OpenAI 发新旗舰,当天就该写。正文确认 GPT-4.5 研究预览已向 Pro 用户和全球开发者开放,HKR 三项全中。没给 95 分以上是因为正文摘录里没放 SimpleQA 分数、幻觉率、定价和上下文窗口这些关键数字,我会先打个折。
一句话点评
GPT-4.5 是 OpenAI 目前最大的聊天模型,主打更自然的对话和更低的幻觉率,但别把它当推理模型用。
锐评
GPT-4.5 走的是扩大无监督学习的老路,靠堆算力和数据让模型知识面更广、直觉更强。OpenAI 自己说它不擅长推理,那是 o1、o3 的活。这次主要提升在对话体验上:更会揣摩人的意图,回答更有“情商”,写作和创意任务表现更好。从官方给的 SimpleQA 测试看,准确率比 GPT-4o 高,幻觉率更低,但没给具体数字,只说“更好”。 训练上有个值得注意的点:他们用较小模型产出的数据来训练这个大家伙,目的是提高可控性和对细微差别的理解。这思路挺务实,但正文没披露用了哪些小模型、数据规模多大。另外,模型目前只是研究预览版,只开放给 Pro 用户和开发者,普通用户还摸不到。 我会先打个折:这些对比案例都是官方挑的,实际用起来是不是真那么“暖”、那么懂你,还得等更多人上手。成本、延迟、API 定价这些关键信息也都没提,想用在生产环境的人得再等等。
HKR 分解
hook knowledge resonance
打开信源
98
SCORE
H1·K1·R1
09:30
473d ago
OpenAI 博客· rssEN09:30 · 02·27
OpenAI 和 Endex 合造了一个金融分析 AI Agent,专家盲测中 o1 胜率 70%
Endex 用 OpenAI 的 o1 和 o3-mini 搭了一个能自动读财报、做对账、写投资备忘录的 AI 分析师。关键数字:专家盲测里 o1 的输出有 70% 被选中,比第二名(12%)高出一大截;o3-mini 把每轮对话的延迟降到了原来的三分之一;在 Endex 自己的多模态提取测试(看图、看表、看 Excel)里,o1 准确率到了 99%。...
#Reasoning#Multimodal#Fine-tuning#OpenAI
精选理由
HKR 三个维度都成立:钩子是自主金融分析师,正文有 70% 盲测偏好、99% 图表提取准确率和 3 倍延迟降低。但这是 OpenAI 客户案例,按硬规则归为纯营销排除,分数上限 40。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R1
00:00
473d ago
Hugging Face 博客· rssEN00:00 · 02·27
Hugging Face 与 IISc 合作,把印度多语言数据集 Vaani 搬到平台上
Hugging Face 和印度科学研究所(IISc)宣布合作,将印度最大的开源多语言数据集 Vaani 放到 Hugging Face 上。Vaani 项目始于 2022 年,目标是收集超过 15 万小时的语音和 1.5 万小时的转写文本,覆盖印度全部 773 个地区,尤其关注偏远地区的方言。目前第一阶段(80 个地区)的数据已经开源,第二阶段正在扩...
#Hugging Face#IISc#Partnership
精选理由
这是一条只有标题的合作公告。HKR三项全不达标:没有可交付成果,没有语种覆盖、数据规模、模型名称或时间表,从业者无法评估任何实际影响;评分落在40分以下,直接排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
2025-02-25 · 星期二2025年2月25日
10:00
475d ago
● P1OpenAI 博客· rssEN10:00 · 02·25
OpenAI 发布 Deep Research 系统卡,披露安全测试与风险评级
OpenAI 在 2 月 25 日公开了 Deep Research 的系统卡,说明这个能自己上网搜资料、读文件、写 Python 做分析的智能体,在发布前做了哪些安全功课。他们按内部准备框架给四个高风险领域打了分:生化核辐射风险、网络安全、说服能力和模型自主性,四项都是“中等”。OpenAI 的规矩是,只有风险缓解后不高于“中等”的模型才能上线,所以...
#Agent#Reasoning#Safety#OpenAI
精选理由
OpenAI 官方系统卡,有明确的部署门槛、6 类风险拆解和 4 个 Preparedness Medium 评级,HKR 三项都踩中了。没给 P1 是因为这更像现有产品的安全交底,不是新模型发布,而且样本量和通过率都没披露,验证强度存疑。
一句话点评
OpenAI 给 Deep Research 发了安全报告,四项核心风险评级全是“中等”,刚好卡在可发布的及格线上。
锐评
这份系统卡是 OpenAI 在发布 Deep Research 功能前做的安全交底。它用的是一个早期版 o3 模型,能自己上网搜资料、读 PDF、写 Python 分析数据,相当于让模型进业务流程干活了。报告重点查了六个风险区:提示注入、违规内容、隐私、代码执行、偏见和幻觉。在 Preparedness 框架下,生化核辐、网络安全、说服力和模型自主性这四项评级全是“中等”——刚好是允许部署的最高线,再高一级就不能发了。 我会先打个折:报告只给了评级结果,没放具体测试数据和失败率,也没说红队测试到底发现了什么漏洞、修了多少。隐私保护部分提到加强了网上个人信息的防护,还训练模型抵抗搜索时遇到的恶意指令,但具体怎么做、效果如何,正文没披露细节。这点先别太激动,系统卡更像一份合规声明,不是技术深潜。想评估实际风险,还得等第三方实测或者他们放出更细的评估数据。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
04:15
475d ago
● P1OpenAI 博客· rssEN04:15 · 02·25
爱沙尼亚要把 ChatGPT 接入全国中学,明年秋天从高一高二开始
OpenAI 和爱沙尼亚政府合作,计划在 2025 年 9 月先让全国的高一、高二学生和老师用上 ChatGPT Edu。这是第一个由国家政府牵头、覆盖整个中学阶段的 ChatGPT 接入项目,不是某个学校的试点。ChatGPT Edu 是专门给学校用的版本,带 GDPR 合规和企业级管控,正文没提具体价格和总覆盖人数。爱沙尼亚本身 ChatGPT 使...
#Tools#Code#OpenAI#Estonia
精选理由
爱沙尼亚政府跟 OpenAI 签的是全国中学接入 ChatGPT Edu,不是零散的校园实验。2025 年 9 月先从 10、11 年级开始,OpenAI 提供产品、API 和技术支持,还带 GDPR 合规和企业级安全控制。但正文没写多少钱、多少席位、后续年级什么时候扩,这些缺口让实际落地速度要打个折。我会先别太激动,等看到预算和覆盖人数再说。
一句话点评
爱沙尼亚要在全国中学推 ChatGPT Edu,这是第一个国家级的部署,但新闻稿没提具体怎么评估教学效果,先当试点看。
锐评
爱沙尼亚政府跟 OpenAI 合作,计划从 2025 年 9 月起,先给全国 10 年级和 11 年级的学生和老师用上 ChatGPT Edu。这是全球第一个把这种教育定制版 AI 铺到整个国家中学系统的项目,不是只给几个大学校园用。新闻稿说,爱沙尼亚每 4 个人里就有 1 个活跃的 ChatGPT 账号,主要用来辅导学习、编程和写作,底子确实不错。 但这份公告是 OpenAI 自己发的,属于单方面宣传,没有独立第三方的评估或教育部的详细实施计划。它只讲了能帮老师减负、给学生个性化反馈这些方向,没给出任何衡量标准,比如学生成绩变化、教师培训覆盖率、数据隐私的具体审计机制。ChatGPT Edu 虽然号称符合 GDPR,但在全国未成年人场景里大规模用,实际合规细节和长期影响都还是空白。 另外,项目叫 AI Leap 2025,是总统牵头拉企业一起做的,延续了 1996 年让学校电脑化的 Tiger Leap 思路。历史包袱轻、数字化基础好是爱沙尼亚的优势,但 AI 进课堂比配电脑复杂得多,正文没披露课程怎么改、老师怎么训、不用 AI 的学生会不会被落下。这些缺口决定了现在还只能把它当成一个值得跟踪的大规模实验,而不是成熟方案。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
00:00
475d ago
Hugging Face 博客· rssEN00:00 · 02·25
FastRTC:给 Python 加实时语音视频通话能力
Hugging Face 发布了一个叫 FastRTC 的 Python 库,专门用来给 AI 应用加实时语音和视频通话。核心思路是帮你省掉 WebRTC 的复杂配置,用几行代码就能搭一个能说话、能打断的语音聊天界面。内置了语音检测和自动切换说话人,还自带一个 Gradio 测试界面,甚至能免费生成一个电话号码让用户打进来。正文没披露具体的延迟数字和传...
#Tools#Hugging Face#Product update
精选理由
标题只确认了 FastRTC 是一个 Python 实时通信库,正文为空。真正该盯的是它是否接 WebRTC 栈、延迟多低、怎么跟 Gradio 和 Transformers 配合,这些都没说。信息量不足以支撑任何判断,直接排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2025-02-21 · 星期五2025年2月21日
06:30
479d ago
OpenAI 博客· rssEN06:30 · 02·21
OpenAI 发报告:过去一年怎么拦截 AI 被用来干坏事
OpenAI 在 2025 年 2 月 21 日发了一份报告,讲他们怎么检测和阻止有人拿 AI 干坏事,比如儿童性剥削、隐蔽舆论操控、诈骗、垃圾信息和恶意网络攻击。这是他们第二年公开这类信息。报告里放了几个案例,但没披露具体封了多少账号、删了多少内容,也没讲技术细节。正文没披露具体数字,所以不好判断力度有多大。
#Safety#Alignment#OpenAI#Ben Nimmo
精选理由
OpenAI 的滥用报告对从业者有参考价值,但正文信息量不足。HKR-R 通过是因为信任与安全话题有共鸣;HKR-K 不通过是因为没有披露处置数量、涉事账号和检测技术细节;HKR-H 是常规报告标题,所以留在 all 层级。
一句话点评
OpenAI 发了一篇报告,讲他们怎么用 AI 抓 AI 的恶意使用,比如国家支持的舆论操控、诈骗、网络攻击。报告里列了几个案例,但正文没披露具体手法和成功率,只说了“趋势和特征”。亮点是 OpenAI 自称是第一个公开这类报告的 AI 实验室,已经坚持了一年。但信息量有限,更像公关稿——展示自己做了事,但没给太多可复用的细节。如果你关心 AI 安全对抗,可以下载 PDF 看看案例,但别指望...
锐评
OpenAI 这次公开了第 2 年恶意使用 AI 处置报告,但正文没给处置数量、账号规模、检测命中率。我的判断很直接:这份东西有政策信号,情报价值偏弱,离平台治理需要的可审计披露还差一截。 先说我为什么不太买账。它点名了儿童剥削、隐蔽影响行动、诈骗、垃圾信息、恶意网络活动,这些分类谁都知道重要;问题在于,分类不是证据。文章只说有 case studies,还把完整报告丢到 PDF 里,落地页本身没有一条可复核的数据。封了多少账户,人工审查占比多少,模型侧拦截和账号侧封禁怎么分工,误杀率多少,复发率多少,正文都没披露。你很难据此判断 OpenAI 的检测体系是在扩大覆盖,还是只挑了几个能讲的样本。 我一直觉得,做这类披露最怕“威胁情报化叙事”盖过“平台治理指标”。Ben Nimmo 这一路的写法,长处是能把影响行动和国家关联网络讲得很清楚;短处也在这,报告很容易变成案例展板,而不是风控记分板。对做模型安全的人来说,后者更关键。我们需要看到的是:哪类滥用最常见,生成侧拦截占多少,注册侧和支付侧拦截占多少,文本模型和图像模型的滥用分布有什么差异。标题给了“disrupting”,正文没给 disruption 的口径,这就有点不对劲了。 外部参照其实不少。微软和 Google 过去一年发的威胁报告,通常至少会给 campaign 名称、攻击链条、基础设施模式,偶尔还会讲到检测方法和行为特征。OpenAI 去年那份 state-affiliated threat actors 报告,虽然也没把关键指标全摊开,但至少在叙事上更聚焦,读者能知道它拦的是哪类国家关联操作。这次把儿童剥削、诈骗、垃圾信息、网络攻击全装进一个篮子里,覆盖面更大,信息密度反而被摊薄了。我自己没看到 PDF 全文里的每个 case,单看这篇落地页,像是在向监管者证明“我们在做事”,不是向同行证明“这套系统怎么工作”。 还有一层背景不能省。2025 年的大平台安全披露,已经不该停留在“我们阻断了坏人”这个级别。模型厂商现在同时扮演 API 提供者、消费级产品平台、内容审核方、企业安全供应商的混合角色。角色越多,越该给口径。最起码要有时间范围、处置阈值、账号去重规则、自动化与人工复核比例。没有这些,外界无法比较 OpenAI、Anthropic、Google、Meta 谁更严,甚至无法判断同一家公司今年是不是比去年更有效。 说真的,我认可公开披露这件事本身。连续第 2 年发布,总比完全不说强。可如果 OpenAI 想把这类报告做成行业标准,它下一步就得把“案例集”往“指标集”推。哪怕先给 3 个数字也行:处置账号数、主要滥用类型占比、从检测到封禁的中位时间。没有这些,这份报告更像政策沟通材料,不像安全工程文档。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K0·R1
2025-02-20 · 星期四2025年2月20日
2025-02-19 · 星期三2025年2月19日
00:00
481d ago
Hugging Face 博客· rssEN00:00 · 02·19
PaliGemma 2 Mix:谷歌新视觉语言模型,但正文没内容
谷歌发布了 PaliGemma 2 Mix,标题说它是面向指令的视觉语言模型。但正文是空的,所以模型大小、跑分、上下文长度、怎么获取这些关键信息都没披露。目前只能知道名字和定位,其他都得等后续。
#Multimodal#Vision#Google#Product update
精选理由
标题确认 Google 发了指令视觉语言模型 PaliGemma 2 Mix,但正文是空的,除了名字和模态什么都没披露。HKR 三项全挂:没有数字、机制、基准、上下文长度或发布条款,所以分数低于 40,归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2025-02-14 · 星期五2025年2月14日
00:00
486d ago
Hugging Face 博客· rssEN00:00 · 02·14
Hugging Face 用 Math-Verify 重跑所有模型,数学排行榜大洗牌
Hugging Face 发现 Open LLM 排行榜的数学评测一直有 bug:模型答对了但格式不对(比如没写“Final answer is ...”),就被判错。他们用新工具 Math-Verify 重新评估了全部 3751 个模型,结果排行榜几乎翻了个底朝天。Math-Verify 能更灵活地提取答案,不再死抠格式,还修复了 SymPy 解析符...
#Benchmarking#Hugging Face#Math-Verify#Open LLM Leaderboard
精选理由
HKR-H 成立,因为“修正旗舰榜单”这个动作本身就暗示排名可能洗牌。HKR-K 不成立,正文为空,Math-Verify 的方法、受影响模型、分数变动幅度一概没给。HKR-R 成立,榜单信任度影响模型选择与开源竞争,所以是 all 而非 featured。
一句话点评
Hugging Face 用新工具 Math-Verify 重跑了 Open LLM 排行榜上全部 3751 个模型的数学题成绩。之前的问题出在解析答案上:模型输出格式稍微不对(比如没写 'Final answer is ...'),SymPy 就解析失败,直接判错。新工具放宽了提取规则,能识别更多写法。重评后排名大洗牌,之前因为格式丢分的模型分数回升。正文没披露重评前后具体分数变化,只说排...
锐评
Hugging Face 这次要用 Math-Verify 修 Open LLM Leaderboard,但目前只有标题,修正规则、覆盖模型、分数变动幅度正文未披露。我的判断是,这条如果落到默认评测链路里,受冲击最大的不是榜单尾部,而是那批靠宽松字符串匹配吃分的模型。 我一直觉得开源榜单在数学题上有个老毛病:模型明明推到了正确答案,最后格式多了单位、分数没约分、用了 \boxed{} 或自然语言包了一层,旧评测脚本就会误判。反过来也有另一面,模型输出了看着像答案的片段,抽取器抓错位置,也会被算对。Math-Verify 这套思路如果和我记忆里社区在用的版本一致,核心不是再训一个 judge,而是把答案规范化、做等价校验、尽量减少表面字符串带来的误差。这个方向我买账,因为它比 LLM-as-a-judge 更可复现,也更容易审计。 上下文是,过去一年几家主流榜单都在补 evaluation leakage 和 parser bug。LiveCodeBench、SWE-bench、Arena 系列各修过各的问题,开源榜单这边反倒常被拿来当营销海报,很多人盯总分,不盯 harness。数学项又最容易放大这个问题,因为同一道题天然存在多种等价写法。只要判分器不稳,0.5 到 2 分的波动就足够把一串模型名次洗一遍。我还没看到 Hugging Face 这次是否只改数学子集,还是会回刷历史分数;如果不回刷,只加新规则,新旧分混在一起就会更乱。 我也有个保留意见。Math-Verify 能修“答案等价”,修不了“题集污染”。如果某些模型早就见过 GSM8K、MATH 这类公开数据,再精细的判分也只是把脏尺子磨光一点。另一个问题是多语种和符号混排,尤其中文解题、LaTeX、代码块混在一起时,等价校验很容易出边角 bug。标题已经给出要修榜,正文没披露回溯范围、失败样例、人工抽检比例;没有这些,我不会急着把新排名当成能力重估,只会把它当成一次必要但迟到的基建维护。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
2025-02-13 · 星期四2025年2月13日
10:01
487d ago
OpenAI 博客· rssEN10:01 · 02·13
Fanatics 博彩财务团队用 ChatGPT 省下每月 18 小时,但没说用了哪个模型
Fanatics Betting and Gaming 的财务团队用 ChatGPT 做流程自动化,其中一个叫 VendorID GPT 的工具能自动识别供应商和总结合同,每月省约 18 小时。公司还搞了 AI 自动化工作组、全员基础 ChatGPT 培训,以及一天内和数据科学家一起搭定制 GPT 的“GPT-athon”。正文没披露用了哪个模型版本、...
#Tools#OpenAI#Fanatics Betting and Gaming#Andrea Ellis
精选理由
这是一篇供应商案例,核心信息就是 Fanatics 用了 ChatGPT,所以触发硬排除——纯营销稿,分数上限 40。只有 HKR-K 那条每月省 18 小时算具体数字,能过门槛;模型版本、部署范围和量化 ROI 正文都没披露。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
10:00
487d ago
OpenAI 博客· rssEN10:00 · 02·13
Wayfair 把 ChatGPT 塞进了法务、研发和商品库,新 API 开发快了 85%
Wayfair CTO 在 OpenAI 的访谈里说,他们用生成式 AI 把新 API 的创建速度提升了 85%,法务团队用 ChatGPT 扫用户评论里的产品安全风险,研发用来翻新老代码。核心不是搞个聊天机器人,而是把 AI 嵌进商品目录、工程和风控流程。不过正文没披露用了哪个模型、部署规模多大、花了多少钱。亮点是“多模态搜索”——用户拍张图或说“绿...
#Agent#Multimodal#Code#Wayfair
精选理由
这是一篇供应商包装的客户案例,核心信息是Wayfair用OpenAI效果不错,所以按硬排除-纯营销处理。它有一个可用的事实——API创建速度提升85%,以及命名的业务流程,但模型名称、部署规模、成本、基线数据和复现细节均未披露。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R1
07:00
487d ago
OpenAI 博客· rssEN07:00 · 02·13
Rogo 用 OpenAI o1 做金融分析,投行分析师每周省 10+ 小时
Rogo 是一个面向投行、私募和对冲基金的 AI 金融平台,已服务 5000+ 银行家,能搜索 5000 万份金融文档。架构上分层用模型:GPT-4o 做问答,o1-mini 把数据整理成适合搜索的结构,o1 负责评估、生成合成数据和复杂推理。分析师平均每周省 10 小时。关键不是“AI+金融”这个方向,而是他们做了路由分层和人工标注——前银行家团队给...
#Agent#Fine-tuning#Reasoning#Rogo
精选理由
硬排除——纯营销:这是OpenAI客户案例,核心信息是Rogo用OpenAI做金融研究,所以tier保持excluded。HKR-K靠5000万文档、3模型路由和每周10+小时通过,但HKR-H和HKR-R都很弱。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
2025-02-12 · 星期三2025年2月12日
00:00
488d ago
Hugging Face 博客· rssEN00:00 · 02·12
Hugging Face Hub 从分块升级到块,上传下载更快
Hugging Face 正在把 Hub 的存储方式从“分块”改成“块”,目的是加快上传和下载速度。目前只发了标题,正文没披露具体提速多少、怎么实现的、什么时候上线。不过他们提到,之前的分块方案在 45PB 数据、200 万个仓库的规模下会产生 6900 亿个分块,导致网络请求爆炸、数据库撑不住、成本飙升。新方案应该能缓解这些问题,但具体效果还得等更多信息。
#Tools#Inference-opt#Hugging Face#Product update
精选理由
标题确认了 Hub 传输单元从 chunks 改成 blocks,所以 HKR-H 靠这个具体的 infra 钩子通过。HKR-K 不通过,因为帖子没披露任何提速幅度、机制、范围或上线细节。HKR-R 限于重度 Hub 用户,所以 tier 定为 all 而不是 featured。
一句话点评
HuggingFace 把上传下载从按文件切块改成按内容去重块,实测能快 2-3 倍。核心是避免 6900 亿个碎块带来的网络和数据库开销。目前只集成在 xet-core 里,普通用户还没默认开启,想用得上得等 huggingface_hub 更新。
锐评
Hugging Face 把 Hub 传输单元从 chunks 改成 blocks。正文未披露提速倍率、协议层实现、适用仓库类型、客户端版本要求,现阶段能确认的只有标题本身。 我对这条的第一判断很直接:这更像一次传输栈重构的信号,不该先按“性能新闻”来读。上传下载要想明显变快,通常不是把名词换一下就够了,背后得碰到分片大小、并发调度、断点续传、校验方式、对象存储写入路径,甚至 CDN 缓存命中。标题只说 chunks 变 blocks,没有给任何一个机制位点,我没法接受“变快”已经成立。 这类改动在模型仓库里其实很关键。过去一年,单个仓库动辄几十 GB,甚至上百 GB,safetensors 分片、数据集 parquet、LFS 大文件都会把传输层放大成用户体验问题。Git LFS 早就证明过,小文件多和超大文件都能把吞吐打碎;如果 Hugging Face 这次是在重写 Hub 的大文件传输路径,那影响会比博客标题大得多。我还没查到他们是不是动了 Xet、hf_transfer 这一侧,或者只是服务端换了块级去重/预取策略。标题没说,不能脑补。 我自己的疑虑有两个。第一,blocks 这个词听起来像更底层,也更适合去重和随机范围读取,但块变小会增加元数据和索引开销,块变大又会伤增量重传,具体取值决定结果。第二,上传和下载被放在一起讲,我有点怀疑这是把两条不同路径打包成一个市场话术。很多系统下载快,不代表上传也快,尤其在校验、合并和权限检查更重的时候。 所以这条先别急着庆祝。等正文补出来,我最想看四个点:提速倍率在什么文件规模下成立;HTTP 范围请求还是自定义协议;是否要求新 CLI 或新 SDK;现有仓库是否自动受益。没有这些,标题只能算产品方向,不算性能结论。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R0
2025-02-10 · 星期一2025年2月10日
16:10
489d ago
Hugging Face 博客· rssEN16:10 · 02·10
Open R1 第二次更新:页面被 Hugging Face 限流,正文没看到
Hugging Face 发了 Open R1 项目的第二次更新,但点进去只看到 429 限流页面,正文内容完全没披露。目前唯一能确认的是标题和来源,具体更新了什么——模型改动、代码提交、跑分结果、发布时间——一概未知。想了解真实信号得等 Hugging Face 解除限流后再看全文。
#Hugging Face#Product update#Open source
精选理由
RSS 条目只暴露了标题和来源,Open R1 的实际改动、代码、参数和基准结果全都没披露。HKR 三项在当前证据下都不成立,所以分数低于 40,排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2025-02-09 · 星期日2025年2月9日
2025-02-07 · 星期五2025年2月7日
2025-02-05 · 星期三2025年2月5日
2025-02-04 · 星期二2025年2月4日
11:30
496d ago
OpenAI 博客· rssEN11:30 · 02·04
OpenAI 拿下加州州立大学系统,23 个校区 50 万人用上 ChatGPT Edu
OpenAI 宣布与加州州立大学系统(CSU)合作,在其 23 个校区部署 ChatGPT Edu,覆盖超过 46 万学生和 6.3 万教职工,总计超 52 万人。这是 OpenAI 目前单笔最大的 ChatGPT 部署。校方计划用 GPT 做课程开发、个性化辅导和行政减负,还提供免费 AI 培训和认证,并连接实习项目。不过正文没披露合同金额或每用户定...
#Tools#OpenAI#California State University#ChatGPT Edu
精选理由
HKR 的 H 和 K 靠规模数据通过:23 个校区、52 万+席位。但这是一篇第一方客户部署的公关稿,没有定价、合同期限或使用效果,硬排除规则 5 适用,分数上限被压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K1·R0
00:00
496d ago
Hugging Face 博客· rssEN00:00 · 02·04
HuggingFace 要把 DeepResearch 开源了,但正文啥也没说
HuggingFace 发了一篇博客,标题说要把 DeepResearch 开源,口号是“释放我们的搜索智能体”。但点进去页面返回 429 错误,正文完全没内容。目前能确认的只有“开源”和“搜索智能体”这两个方向,代码仓库、许可证、跑分、发布时间全都没披露。想跟进的话只能等 HuggingFace 补上正文或放出 repo。
#Agent#Tools#Open source#Product update
精选理由
标题说开源 DeepResearch,但正文为空,只确认了主题涉及开源和搜索代理。模型结构、许可协议、评测数据、发布时间一概没提。H 和 R 靠标题和话题性撑住,但 K 完全失败——没有仓库、基准或日期可验证。按硬排除规则第 6 条处理,重要性压到 40 以下,tier 定为 excluded。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
00:00
496d ago
OpenAI 博客· rssEN00:00 · 02·04
我用自家狗子当人设,给女儿做了个AI数学家教
一位英国老爸用ChatGPT的GPT功能,给12岁女儿Daisy定制了一个数学辅导机器人,人设是家里的狗Izzy。专门教分数乘法和长除法,女儿最后通过了英国小学毕业数学考试(SATs),但正文没披露具体分数、用了哪个模型版本、以及GPT的具体配置方法。做法可复制:把GPT限定到年级、薄弱知识点和固定人设。
#Tools#Reasoning#OpenAI#ChatGPT
精选理由
正文讲了一个父亲用ChatGPT给女儿搭数学辅导GPT的案例,亮点是设成狗的语气,但实操细节缺失:没披露用了哪个模型版本、提示词怎么写、训练数据量多少,分数也只说'通过SATs',没有前后对比。整体更像一篇产品体验分享,不是技术方案或行业洞察,按规则硬排除在营销故事类,分数压到40以下合理。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
2025-02-02 · 星期日2025年2月2日
16:00
497d ago
● P1OpenAI 博客· rssEN16:00 · 02·02
OpenAI 把深度调研做进了 ChatGPT:让它自己上网查几百个网页,5 到 30 分钟出一份带引用来源的报告
OpenAI 给 ChatGPT 加了一个叫“深度调研”的功能,不是简单的搜索总结,而是让模型自己上网分步干活。你丢一个复杂问题过去,它会花 5 到 30 分钟去翻几百个网页、图片和 PDF,边查边分析,最后生成一份带清晰引用出处的报告。背后跑的是专门为上网浏览和数据分析调过的 o3 模型,训练时就用到了浏览器和 Python 工具的真实任务。到 20...
#Agent#Reasoning#Tools#OpenAI
精选理由
这不是一次普通的搜索改版,而是把自主多步研究能力打包成产品接口。文章给出了具体的技术实现(o3 模型、浏览器和 Python 工具训练)和使用限制(不同套餐次数),信息密度高且可验证。对知识工作者来说,这个功能可能直接压缩现有工作流,所以值得当天就写。HKR 三项都成立:钩子强、干货足、对核心读者群有直接冲击。
一句话点评
OpenAI 给 ChatGPT 加了个能自己上网查资料、写报告的功能,叫 deep research。它花几十分钟干的活,人可能要花好几个小时。
锐评
这个功能让 ChatGPT 从“你问我答”变成了“你给个题目,它自己去搜几百个网页,最后交一份带引用出处的分析报告”。它背后用的是还没正式发布的 o3 模型,专门训练了浏览器和 Python 工具的使用,能边查边调整方向。官方说适合金融、科研这类需要深挖信息的活,也能帮你做买车、买家电的功课。 目前看,它更像一个能自动干活的初级研究助理。报告会标注来源,方便核实,这点对实际工作挺重要。但官方也承认有局限,比如可能搞错事实或者推理过头。另外,现在只有 Pro 用户能用,Plus 用户要等到 2 月 25 号,而且没提免费版什么时候上。 我最关心的是它“自主判断信息”的可靠性到底有多高。报告写得再像样,如果关键数据引用错了,用的人还得花时间重查一遍。这点先别太激动,等更多实际案例出来再看。
HKR 分解
hook knowledge resonance
打开信源
97
SCORE
H1·K1·R1
2025-01-31 · 星期五2025年1月31日
11:00
500d ago
● P1OpenAI 博客· rssEN11:00 · 01·31
OpenAI 发布 o3-mini,一个更便宜、更快的推理模型,专攻数理化和编程
OpenAI 在 1 月 31 号把 o3-mini 放到了 ChatGPT 和 API 里,这是他们推理系列里目前成本最低的模型。它主打 STEM(科学、数学、编程),速度比 o1-mini 快,Plus 和 Team 用户的每日使用额度也从 50 条提到了 150 条。这个模型首次在小型推理模型上支持了函数调用、结构化输出和开发者消息,也支持流式传...
#Reasoning#Code#Tools#OpenAI
精选理由
o3-mini 是 OpenAI 当天上线的新模型,属于必须写的级别。HKR 三项全中:发布动作本身就是钩子,有具体用量和对比数据,而且直接打中开发者关心的高性价比推理场景。我会先打个预防针——正文截断了,Codeforces 等完整跑分没全露出来,但现有信息已经够判断它的分量。
一句话点评
OpenAI 发了 o3-mini,一个小模型但推理能力很强,STEM 场景下能打平甚至超过 o1,而且免费用户也能用。
锐评
o3-mini 是 OpenAI 目前最省钱的推理模型,主打数理化和编程。它最大的变化不是跑分,而是把推理模型的门槛打下来了:免费用户第一次能用上推理模型,Plus 用户每天从 50 条涨到 150 条。性能上,中等推理强度就能在 AIME 数学题和 GPQA 博士级科学题上打平 o1,高强度下甚至超过 o1,Codeforces 编程分也到了 2073 Elo。不过要注意,这些跑分是 OpenAI 自己给的,没有第三方复现。另外它不支持视觉,看图还得用 o1。开发者关心的函数调用、结构化输出这次都给了,还加了低中高三档推理强度可调,这点对实际落地挺实用。但正文没提具体延迟数据和成本对比,只说比 o1-mini 快、便宜,具体省多少得等实测。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
11:00
500d ago
● P1OpenAI 博客· rssEN11:00 · 01·31
OpenAI 发布 o3-mini 系统卡:整体风险定级为“中”,模型自主性首次达到“中”
OpenAI 给 o3-mini 的最终安全评分是“中”等风险,其中在生化核辐射、说服力和模型自主性这三项上都是“中”,网络安全是“低”。这是 OpenAI 第一个在“模型自主性”上拿到“中”的模型,主要因为它的编程和研究工程能力更强了。但别急着慌,系统卡里说它在“现实世界机器学习自我改进”的测试里表现还很差,没达到“高”风险的门槛。OpenAI 的规...
#Reasoning#Alignment#Safety#OpenAI
精选理由
这是 OpenAI 官方的系统卡,不是日常宣传稿。我会先打个折:正文没给具体的基准分数,所以它算不上那种炸裂的模型发布。但它把 o3-mini 的部署后总体风险定在 Medium,模型自主性也首次到了 Medium,还明说了部署要求不高于 Medium、继续开发不高于 High——这些门槛本身比一个孤零零的分数更有看头。对从业者来说,知道模型现在踩在哪条线上,比单纯看跑分更实在。
一句话点评
OpenAI 发了 o3-mini 的安全卡,模型自主性首次达到中等风险,但别慌,它在自我改进的实操测试里表现还很差。
锐评
这份系统卡是 OpenAI 自己出的,相当于 o3-mini 的“体检报告”。核心看点是,在内部安全框架下,o3-mini 的“模型自主性”风险评级首次被提到了中等。这主要是因为它的编程和研究工程能力变强了。但报告也直说,在模拟真实世界机器学习研究的测试里,它干不了自我改进的活,所以没到高风险。另外,在说服力、化生放核风险上也是中等,网络安全风险低。整体看,OpenAI 认为经过安全措施后,这模型可以上线。 报告里提了用“深思熟虑对齐”的方法,让模型在回答危险问题前先自己推理一遍安全政策,这算是个新尝试。不过,正文没给出具体的评测数据和对比基准,只说在某些防越狱、防刻板印象的测试里达到了顶尖水平。这点先别太激动,没看到具体数字和测试集,很难判断这个“顶尖”到底有多硬。 还缺什么?缺第三方独立评测,缺具体的安全测试通过率和失败案例。光看这份自评报告,只能知道 OpenAI 认为它安全,但实际表现还得等社区大规模测试后才能下结论。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
10:29
500d ago
Hugging Face 博客· rssEN10:29 · 01·31
Mini-R1:用强化学习复现 DeepSeek R1 的“啊哈时刻”
Hugging Face 发了一篇教程,教你怎么用 GRPO 强化学习算法在“倒计时数字游戏”上复现 DeepSeek R1 那种“啊哈时刻”——模型自己学会在解题时多思考一会儿、重新检查步骤。教程用了 4 张 H100 GPU,搭配 DeepSpeed 和 vLLM 做分布式训练。不过正文目前只有标题和目录,训练数据量、奖励函数设计、最终效果这些关键...
#Reasoning#Hugging Face#DeepSeek#Commentary
精选理由
标题有H和R,但K不成立——正文是空的,没有训练设置、奖励设计、数据规模、复现结果。这触发了硬排除规则:零来源。所以分数低于40,排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
2025-01-30 · 星期四2025年1月30日
10:00
501d ago
● P1OpenAI 博客· rssEN10:00 · 01·30
OpenAI 把 o 系列推理模型部署到美国国家实验室的超算上,先给 1.5 万名科学家用
OpenAI 在 2025 年 1 月 30 日宣布跟美国国家实验室签了协议,把 o1 或另一款 o 系列模型部署在洛斯阿拉莫斯实验室的 Venado 超算上。这台超算用的是 NVIDIA 芯片,会作为共享资源开放给洛斯阿拉莫斯、劳伦斯利弗莫尔和桑迪亚三个国家实验室的大约 1.5 万名科学家。主要用在材料科学、可再生能源、天体物理、疾病防治、电网安全这...
#Reasoning#Safety#OpenAI#U.S. National Laboratories
精选理由
我会先打个折:这不是新模型发布,也不是能力大跳跃,而是一次部署合作。但 OpenAI 把 o 系列模型送进洛斯阿拉莫斯、利弗莫尔、桑迪亚这三家核武相关实验室,还专门为核与 CBRN 用例设计了带安全许可研究员参与的审查流程,这个信号比普通商业合作重得多。标题和摘要里 1.5 万名科学家、Venado 超算这些数字让消息有肉,不是空泛的“战略合作”。所以 HKR 三项都站得住,重要性给 82、放在 featured 合理。
一句话点评
OpenAI 把推理模型部署到美国国家实验室的超算上,让科学家用。合作范围很广,但具体怎么用、效果如何,正文没给细节。
锐评
OpenAI 宣布跟美国三家国家实验室(洛斯阿拉莫斯、劳伦斯利弗莫尔、桑迪亚)签了协议,会把 o1 或同系列推理模型部署在洛斯阿拉莫斯的 Venado 超算上,供约 15000 名科学家共享使用。这台超算是英伟达的,专为材料、能源、天体物理等研究设计。合作方还包括微软,负责提供算力基础设施。 从列出的方向看,覆盖基础科学、疾病治疗、电网安全、能源勘探、威胁检测甚至核安全,摊子铺得很大。但公告没给出任何性能指标、算力规模或预期时间表,也没说明模型在这些高精尖场景下的可靠性验证到什么程度。核安全那部分提到会有安全审查和 OpenAI 持密研究员参与,算是唯一一处具体的安全机制说明,但同样没有展开。 这件事的信号意义大于实操细节。把最先进的推理模型放进国家实验室,确实可能加速一些计算密集型科研,但到底能省多少时间、解决什么以前解决不了的问题,现在还完全看不出来。后续如果没有论文、基准测试或案例公开,就只能当一次高规格的合作官宣来看。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2025-01-28 · 星期二2025年1月28日
06:00
503d ago
● P1OpenAI 博客· rssEN06:00 · 01·28
OpenAI 给美国政府做了个专用版 ChatGPT,叫 ChatGPT Gov
OpenAI 在 2025 年 1 月 28 日发布了 ChatGPT Gov,专门给美国联邦、州和地方机构用。这个版本可以部署在机构自己的微软 Azure 商业云或政府云上,让 IT 部门自己管安全、隐私和合规,比如满足 IL5、CJIS、ITAR 和 FedRAMP High 这类严格的安全框架。功能上跟企业版差不多:能用 GPT-4o 模型,支持...
#Tools#Multimodal#Code#OpenAI
精选理由
这是一次包装和部署层面的发布,不是模型能力的大跳跃,但附带了实打实的采用数据。OpenAI把ChatGPT打包成符合美国政府安全要求的版本,跑在Azure政府云上,直接瞄准IL5、CJIS这类合规门槛。我会先打个折:正文没披露定价、具体哪些机构在用、以及实际部署后的性能或安全审计结果。但3500多家机构、9万用户、1800万条消息这些数字本身就有说服力,说明政府侧需求真实存在。所以给featured而不是p1,因为这不是前沿模型突破,而是产品化和渠道动作,但信息密度和信号强度都够。
一句话点评
OpenAI 给美国政府做了个自托管版 ChatGPT,数据留在自家 Azure 云里,安全合规自己管。但正文没提价格和具体上线时间。
锐评
OpenAI 发布 ChatGPT Gov,简单说就是让美国政府部门能在自己管控的微软 Azure 商业云或政府云里跑 ChatGPT,不用把敏感数据交给 OpenAI 的公共 SaaS。这解决了政府最头疼的安全合规问题,比如它明确提到支持 IL5、CJIS、ITAR 这些严苛的安全框架,甚至还在考虑未来接入 Azure 的机密云区域。功能上跟企业版差不多,能用 GPT-4o、自定义 GPT 和管理后台。 文章给了几个使用数字:3500 多个联邦、州和地方机构已经用了,发了 1800 多万条消息。宾州一个试点项目说,用的人平均每天省下约 105 分钟。这个数字来自 OpenAI 自己的文章,没看到第三方验证,所以效果可以先打个折看。 目前缺的关键信息是定价和 FedRAMP 中高级认证的具体进度。文章只说在推进,没给时间表。另外,所有案例都来自 OpenAI 单方面披露,没有独立评估,实际落地效果和潜在风险还看不清。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
2025-01-24 · 星期五2025年1月24日
00:00
507d ago
Hugging Face 博客· rssEN00:00 · 01·24
smolagents 现在能看图了
Hugging Face 给它的智能体框架 smolagents 加上了视觉能力,现在智能体可以直接用视觉语言模型(VLM)看图,而不是只读文字。最直接的用处是做一个能自己浏览网页的智能体——它能看到页面布局、图标颜色这些纯文本抓不到的信息。实现方式有两种:一是在启动时一次性传入图片,适合处理带图的长 PDF;二是通过回调函数在每一步动态截图并塞进模型...
#Agent#Multimodal#Vision#Hugging Face
精选理由
这是一个方向性的产品更新:Hugging Face 给 smolagents 加了视觉输入能力,所以 HKR-H 和 HKR-R 成立。评分给 64 是因为能确认的信息只有“支持 VLM”,具体支持哪些模型、API 长什么样、有没有可复现的代码,正文都没说,信息缺口太大,没法给更高分。
一句话点评
Hugging Face 给 smolagents 加了视觉能力,现在 agent 能看图操作网页了。支持两种传图方式:启动时一次性传入(适合文档分析),或通过回调每步动态截图(适合浏览器 agent)。正文没披露具体延迟和成本,但思路挺实用——让模型自己看页面布局和图标,比纯文本提取信息更准。
锐评
Hugging Face 这次把 smolagents 接上 VLM,关键信息只剩一个条件:正文没放出来。基于标题,我的判断很直接,这更像产品层把多模态补齐,不像底层 agent 范式有了新突破。标题能确认的是“smolagents 支持 VLMs”,不能确认的是支持哪些模型、输入格式怎么定义、tool calling 是否能吃图像、状态管理是不是改了,正文都没披露。 我对这条的兴趣点不在“支持视觉”,而在它怎么接。过去一年,agent 框架接多模态,分成两条路:一条是把图像当成普通消息块塞进 chat template,OpenAI、Anthropic、Gemini SDK 大多这么走;另一条是把视觉解析拆成单独工具,先 caption 或 OCR,再交给规划器。两条路差很多。前者开发体验更顺,但会把模型耦合死在某几家 API 上;后者更通用,开源模型和本地推理更好接,但 agent loop 会更长,延迟和错误传播也更难看。smolagents 以前给人的印象一直是轻、直接、少抽象层,所以我怀疑他们大概率会偏第一种;但我还没看到正文,不能替它下结论。 回到行业位置,这步也不算早。LangChain、LlamaIndex、OpenAI Assistants 那一挂,过去一年早就在把图像输入塞进 agent workflow。开源侧像 Qwen2-VL、Llama 3.2 Vision 这类模型出来后,用户对“agent 能看图”基本已经默认存在。Hugging Face 现在补上,更多是在避免 smolagents 留在纯文本时代。说实话,我对标题里的“now support”会留个心眼:很多产品说支持,最后只是 demo 能跑,不等于 memory、planning、tool schema、eval 都跟上了。只看标题,这些都还是空白。 所以这条现在还不能判强弱。我想看的不是宣传页,而是 3 个很具体的东西:一,消息协议里图像是 URL、base64,还是统一 content block;二,兼容的是 Transformers 本地模型、Inference API,还是只先接云端端点;三,有没有给出一个能复现的 agent 例子,比如读图后调用浏览器或 Python 工具。没有这些,VLM 支持就只是“能传图进去”。这对从业者有用,但离“好用”还差一大截。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
2025-01-23 · 星期四2025年1月23日
10:00
508d ago
● P1OpenAI 博客· rssEN10:00 · 01·23
OpenAI 发布计算机交互代理 Operator 研究预览版
OpenAI 在 2025 年 1 月 23 日放出了一个研究预览版智能体,叫 CUA(Computer-Using Agent)。它把 GPT-4o 的视觉能力和强化学习训出来的推理能力揉在一起,不看代码接口,直接像人一样看屏幕截图、用虚拟鼠标键盘来操作图形界面。在 OSWorld 这类模拟真实电脑操作的测试里,它拿了 38.1% 的成功率,比之前最...
#Agent#Vision#Reasoning#OpenAI
精选理由
OpenAI 当天发布的 agent 产品,CUA 模型驱动 Operator,先推给美国 ChatGPT Pro 用户。HKR 三项全中:GUI 操控这个切入点本身就够新,文章给了机制和具体跑分,而且它把“自主干活 vs 人盯着”这个行业纠结的点直接拎了出来。
一句话点评
OpenAI 把能直接操作电脑的模型 CUA 放出来了,目前只给美国 Pro 用户用。它在模拟真实电脑操作的 OSWorld 上拿了 38.1%,比之前最好的 22% 高不少,但离人类 72.4% 还差一大截。
锐评
OpenAI 这次发布的不是聊天机器人,而是一个能看懂屏幕截图、自己点鼠标敲键盘的模型 CUA。它背后是 GPT-4o 的视觉能力加上强化学习训练出来的推理能力,不需要网站专门给它开接口,直接像人一样看像素操作界面。 从跑分看,CUA 在 OSWorld 上拿了 38.1%,比之前 Anthropic 的 22% 高出一截,说明它在完整电脑操作任务上确实有进步。在 WebArena 和 WebVoyager 这两个网页任务测试里分别拿了 58.1% 和 87%。WebVoyager 分数高是因为上面任务相对简单,WebArena 更复杂,分数就下来了,离人类 78.2% 还有明显差距。 目前这个研究预览版只开放给美国 Pro 用户,OpenAI 自己也在正文里说模型还早、有局限。他们没披露推理延迟和单次任务成本,这两点对实际落地很关键。另外,涉及登录、验证码这类敏感操作,模型会停下来让用户接管,说明安全边界还在靠人工兜底。整体看,方向有意思,但离稳定干活还有距离。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
10:00
508d ago
● P1OpenAI 博客· rssEN10:00 · 01·23
OpenAI 发布 Operator 系统卡:一个能替你操作电脑的智能体,但高风险操作会强制让人确认
OpenAI 在 2025 年 1 月 23 日公开了 Operator 的安全评估报告。Operator 是一个能看懂屏幕截图、像人一样点击按钮和菜单的电脑操作智能体,底层结合了 GPT-4o 的视觉能力和强化学习训练出的推理纠错能力。它能帮你在浏览器里订菜、买票、填表,但也会引入新风险,比如被第三方网页里的恶意指令误导(提示注入攻击),或者自己操作...
#Agent#Vision#Reasoning#OpenAI
精选理由
这篇系统卡不是产品发布稿,而是安全说明书,但信息密度够高。我会先打个折:它只是 Operator 的配套文件,不是主产品公告,所以 featured 定位合理。真正值得看的是两件事:一是 OpenAI 把部署门槛定在缓解后 Medium 以下,这等于公开承诺了一个可验证的安全基线;二是高风险任务的处理很具体——金融交易、发邮件、删日程需要关键步骤确认,买卖股票直接封死。这些细节比泛泛的“安全第一”有用得多。说服力评 Medium 也值得留意,说明模型在影响人的决策上已经有一定能力,但还没到高危。整体事实清楚,没有发现错误或过时信息,对从业者判断 C...
一句话点评
OpenAI 发了 Operator 的系统卡,但正文没给具体数据,只说了在评估安全风险。
锐评
OpenAI 给 Operator 这个能替你操作浏览器的智能体发了份系统卡,相当于一份安全说明书。从标题看,这更像是一次风险评估的公开表态,而不是功能更新。目前正文被省略了,看不到具体披露了哪些安全指标、测试场景或失败案例。对从业者来说,系统卡有没有给出误操作率、被越狱的成功率、或者在真实网站上的翻车概率,才是判断这东西能不能放进业务流程的关键。如果只是笼统地讲‘我们做了红队测试’,那参考价值就打折扣了。我会先打个折,等看到具体数字再说。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
08:03
508d ago
Hugging Face 博客· rssEN08:03 · 01·23
NVIDIA 发 KVPress:给大模型长文本推理省显存
NVIDIA 在 Hugging Face 上发了一篇博客,标题叫 KVPress,讲的是怎么让大模型处理长文本时更省显存。KVPress 大概率是一种 KV-cache 压缩方法——就是模型在生成每个新词时,不用把前面所有词的中间计算结果都存着,而是压一压再存,这样长文本推理时显存占用能降不少。不过正文目前是空的,只有标题,所以具体压了多少、用了什么...
#Inference-opt#Memory#Hugging Face#NVIDIA
精选理由
HKR三项全不满足:输入只有标题,没有模型名称、上下文长度、压缩方法、基准或代码。读者得不到任何可用的新事实,因此维持排除,分数34。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2025-01-22 · 星期三2025年1月22日
17:00
508d ago
OpenAI 博客· rssEN17:00 · 01·22
贝塔斯曼全线铺开 OpenAI,媒体集团最大规模企业级部署之一
贝塔斯曼宣布在全球多个品牌部署 ChatGPT Enterprise,OpenAI 称这是最大规模的企业级部署之一,但正文没披露具体坐席数和合同金额。关键信号是范围:这不是单个团队试点,而是由集团新设的 AI Hub 协调跨业务线落地。已披露的用例包括 RTL Deutschland 新闻室用 AI 辅助调查报道、企鹅兰登书屋用 AI 做社交媒体个性化...
#Tools#Agent#Multimodal#Bertelsmann
精选理由
这是一篇典型的客户案例通稿,贝塔斯曼宣布大规模部署 OpenAI,但关键信息——席位数、合同金额、部署节奏——全部未披露。已列的场景(新闻调查、荐书、搜索推荐、视频生成)都是常见的企业 AI 用法,没有新能力或意外应用。正文没披露任何成本或效率数据,所以没法判断实际影响。纯营销导向,按规则排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
10:00
509d ago
● P1OpenAI 博客· rssEN10:00 · 01·22
OpenAI 发现:让 o1 系列模型多想一会儿,对抗攻击成功率会大幅下降
OpenAI 发了篇新论文,核心结论是:给 o1-preview 和 o1-mini 这类推理模型更多的“思考时间”(也就是推理时计算量),它们对对抗攻击的防御力会明显变强,很多攻击的成功率能降到接近零。他们测了数学题、SimpleQA 的提示注入、Attack Bard 的对抗图片,还有 StrongREJECT 的越狱提示词。结果发现,攻击者投入的...
#Reasoning#Safety#Benchmarking#OpenAI
精选理由
我会先打个折:OpenAI 自己在标题里写了“初步证据”,正文也没完整披露哪些情况下防御会失效,所以别当成熟方案看。但这条思路确实值得盯——不靠对抗训练,而是让模型多想一会儿来扛住没见过的攻击,在数学题、提示注入、滥用提示这几类测试里都看到了攻击成功率大幅下降。如果后续能确认成本和失效边界,对安全部署会是个挺省钱的方向。
一句话点评
OpenAI 发现让 o1 这类模型多“想”一会儿,能扛住更多对抗攻击,但有些攻击反而先变强再变弱,这点先别太激动。
锐评
这篇论文给了一个挺直观的发现:让推理模型在回答前花更多算力“思考”(也就是增加推理时间),可以明显降低被对抗攻击成功的概率。他们拿 o1-preview 和 o1-mini 做了实验,在数学题、事实问答、滥用提示等任务上,攻击成功率经常随着思考时间增加而降到接近零。这跟以往单纯堆模型大小但防不住攻击的路子不一样,而且模型事先并不知道攻击类型,说明这种防御对没见过的攻击也可能有效。 不过论文自己也列了限制。有些情况下,攻击成功率会先升后降——因为模型得先有足够算力去理解问题,才能被带偏。更关键的是,正文没披露那些“思考再久也防不住”的攻击具体是什么类型、占比多大,也没给出不同算力档位对应的实际延迟和成本。所以这目前还只是初步证据,离“靠堆推理时间就能解决对抗鲁棒性”的结论差得远。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2025-01-21 · 星期二2025年1月21日
13:30
509d ago
● P1OpenAI 博客· rssEN13:30 · 01·21
OpenAI 拉上软银、甲骨文成立 Stargate,四年要砸 5000 亿美元建 AI 算力
OpenAI、软银、甲骨文和 MGX 联合成立了一家叫 Stargate 的新公司,计划未来四年在美国投 5000 亿美元建 AI 基础设施,首批 1000 亿美元已经启动。软银管钱,OpenAI 管运营,孙正义当董事长。目前得克萨斯州已经开始动工,Arm、微软、英伟达和甲骨文是首批技术合作方。这笔钱主要用来给 OpenAI 铺算力,OpenAI 也会...
#OpenAI#SoftBank#Oracle#Partnership
精选理由
这条远超常规合作公告。5000 亿四年、首批 1000 亿马上砸下去,OpenAI 把自己绑在了一个天文数字的基建计划上。HKR 全中:数字够吓人,分工和进度有实料,而且直接踩在算力控制权和资本集中的神经上。我会打 95 分,p1 没毛病。
一句话点评
OpenAI 拉上软银、甲骨文搞了个新公司,计划四年砸 5000 亿美元建 AI 算力,首批 1000 亿已经开动。数字很大,但正文没披露钱具体怎么分批到位、回报预期是什么,先当个超大规模基建宣言看。
锐评
OpenAI 联合软银、甲骨文和 MGX 成立了一家叫 Stargate 的新公司,打算在未来四年内投入 5000 亿美元,在美国为 OpenAI 建设专用的 AI 基础设施。首批 1000 亿美元已经启动,目前正在得克萨斯州开建,同时在全美范围内物色更多园区选址。软银管钱、OpenAI 管运营,孙正义出任董事长,Arm、微软、英伟达、甲骨文和 OpenAI 是初始技术合作方。 这笔钱的核心用途是堆算力,用来训练“领先模型”并最终通向 AGI。公告里特别提到,OpenAI 对微软 Azure 的消耗量还会继续增加,说明 Stargate 不是要替代现有云合作,而是在此之上再叠一层专属基建。 不过,这篇公告本质上是一份愿景声明,关键细节全缺:5000 亿美元是纯股权投资还是包含债务融资、各家的出资比例、建设时间表、电力供应如何保障,正文都没说。几百个“千”量级的就业岗位和“巨大经济效益”也没有任何测算依据。对从业者来说,这更像一个信号——OpenAI 在算力供给上不想再受制于人,但离真正把这么多钱变成可用的 GPU 集群,中间还有无数执行风险。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
2025-01-20 · 星期一2025年1月20日
18:58
510d ago
Hugging Face 博客· rssEN18:58 · 01·20
Hugging Face 现在允许组织发博客了
Hugging Face 上线了组织博客功能,但正文是空的,没说明哪些组织能用、权限怎么管、什么时候全面开放。关键看它会不会跟 Hub 现有的工作流(比如模型页、数据集页)打通。
#Tools#Hugging Face#Product update
精选理由
Hugging Face 开放组织账号发博客,标题看着像新能力,但正文为空,连发布条件、可用范围、权限模型和上线时间都没披露。目前只能确认功能上线,但无法判断是否并入现有 Hub 工作流、是否影响内容分发格局。信息量不足以支撑 H/K/R 任何一项,直接排除。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K0·R0
2025-01-17 · 星期五2025年1月17日
2025-01-16 · 星期四2025年1月16日
00:00
515d ago
Hugging Face 博客· rssEN00:00 · 01·16
Timm 模型现在可以直接在 Transformers 里用了
Hugging Face 发了一篇博客,说 Transformers 现在能直接调用 timm 库里的任何视觉模型。timm 是 PyTorch 上一个很流行的图像模型库,有超过 200 种架构,很多是移动端友好的轻量模型,之前 Transformers 不支持。现在通过一个叫 TimmWrapper 的封装层,你可以用 pipeline、AutoCl...
#Tools#Vision#Hugging Face#timm
精选理由
互操作性这个钩子对视觉从业者确实有吸引力,但 HKR 只过了 H:现有文本没披露 API 形态、支持范围、版本要求或性能影响,所以留在 all。
一句话点评
Hugging Face 把视觉模型库 timm 塞进了 transformers 生态,现在可以用 pipeline、AutoClass、量化、LoRA 微调一条龙跑任何 timm 模型。好处是省去自己写适配代码,尤其适合想快速试 mobile-friendly 小模型的人。但正文没披露集成后推理速度对比原生 timm 的损耗,也没说哪些模型兼容性有问题。
锐评
Hugging Face 在标题里把范围拉到“任意 timm 模型”,这个表述很满,条件却没给。正文为空,支持架构、调用入口、权重转换方式、版本要求、训练/推理限制、性能回退都未披露。只靠标题,我没法把它当成“无缝互通”,更像是 Hugging Face 在补一层视觉模型接入面,让 timm 这条老牌 PyTorch 视觉资产更容易吃到 transformers 的 Trainer、Hub、AutoClass 和部署工具链。 我对“任意”最保留的一点,在于 timm 从来不是一个只管分类 backbone 的小库。它里面有大量图像分类、ViT 变体、ConvNeXt、EfficientNet、Swin,也有不同预处理、head 设计、feature extraction 路径。transformers 这边的强项,是统一 config、processor、checkpoint、pipeline、generation 之外的训练接口。两边真要打通,麻烦不在能不能 import,而在预处理语义能不能完全对齐:resize、crop、interpolation、mean/std、label mapping、dynamic shape、feature pyramid 输出这些,只差一项,复现精度就会掉。标题没给 benchmark,我只能默认这层兼容先解决“能跑”,不是“结果完全一致”。 这事的行业上下文其实很清楚。2024 年 Hugging Face 一直在把非文本模型往 transformers 的统一 API 里收,视觉、语音、多模态都在走这条线;另一边,rwightman 的 timm 依旧是很多视觉训练脚本的默认底座,学术代码和工业微调里都很常见。两边接上,价值不在“新模型更强”,而在组织成本下降:原来一套 CV 代码、一套 NLP/MLLM 代码,现在想收敛成一套。这对平台团队比对研究团队更有吸引力。我自己见过不少团队卡在这里:模型不缺,缺的是统一评测、统一导出、统一部署。 但我还是要泼点冷水。兼容层经常把 80% 的 happy path 做得很好,剩下 20% 的边角最费人。比如自定义 head 怎么映射,timm 的 pretrained_cfg 怎么落到 transformers 的 image processor,state_dict 键名是不是一次性稳定转换,ONNX 或 TensorRT 导出会不会因为 wrapper 多一层就炸,量化和 torch.compile 会不会退化。标题没提,我还没查到。如果这些没处理,短期受益最大的其实是 demo、推理和基础 fine-tune,不是生产训练。 还有一个现实问题:如果 Hugging Face 只是“能加载 timm 权重到 transformers 壳子里”,那这条更像分发层胜利;如果它支持双向保存、AutoModel 注册、Trainer 原生训练、Hub 上统一卡片和评测,那分量就大很多。前者解决的是入口统一,后者才会改写团队选型。我现在倾向前者,因为后者通常会配版本矩阵、支持清单、性能对比,标题党式一句话不太像完整落地公告。 所以这条我先给半个好评:方向对,叙事有点满。等正文补出三样东西再下结论——支持范围清单、至少一组精度/吞吐对比、一个非 happy path 例子。没有这些,“任意 timm 模型”更像营销口径,不像工程承诺。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R0
00:00
515d ago
Hugging Face 博客· rssEN00:00 · 01·16
TGI 现在支持 TRT-LLM 和 vLLM 两个推理后端
Hugging Face 宣布 Text Generation Inference 新增对 TRT-LLM 和 vLLM 两个推理后端的支持。但正文是空的,没披露集成设计、性能数据、模型覆盖范围或部署限制。真正关键的不是“支持了”,而是后端抽象层是否统一——这点先别太激动。
#Inference-opt#Tools#Hugging Face#Product update
精选理由
这篇只确认 TGI 新增了 TRT-LLM 和 vLLM 两个后端,但没给任何基准测试、抽象层细节或支持的模型范围。HKR 三个维度全不达标,所以归为 excluded,不算有意义的基建更新。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K0·R0
2025-01-15 · 星期三2025年1月15日
00:00
516d ago
Hugging Face 博客· rssEN00:00 · 01·15
Hugging Face 发了个静态向量模型,训练快 400 倍,CPU 上就能跑
Hugging Face 发了一篇博客,说他们用 Sentence Transformers 训练静态向量模型(就是那种每个词或句子只对应一个固定向量的模型,不像大模型那样动态生成),速度比现有最先进的模型快 100 到 400 倍,而且质量能保住 85% 以上。他们放出了两个模型:一个做英文检索,一个做多语言相似度。实测在 CPU 上跑,比 all-...
#Embedding#Tools#Hugging Face#Sentence Transformers
精选理由
HKR-H 靠 400 倍速度这个钩子通过。HKR-K 和 HKR-R 不通过,因为片段没给数据集、硬件、基线或可复现条件,这个宣称很虚,只能留在 all 层级,不值得推荐。
一句话点评
Hugging Face 发了个新训练方法,能把静态 embedding 模型训到比主流模型快 100-400 倍(CPU 上跑),性能还能保住 85% 以上。代价是静态 embedding 本身不感知上下文,适合检索、聚类这类任务,不适合对话。正文没披露具体训练耗时和硬件成本,只说用了 30 个训练集、13 个评测集。这点先别太激动——快是快,但适用场景有限。
锐评
Hugging Face 在标题里宣称 Sentence Transformers 可把静态 embedding 训练提速 400 倍。正文未披露基线、数据集、硬件、batch、序列长度,这个数字现在还不够落地。 我先说判断:这条更像方法切换带来的数量级收益,不像同一任务下的纯工程优化。静态 embedding 这条线,本来就比双塔 encoder 轻很多。你如果把“在线编码每个句子”换成“先建词表再聚合”,训练速度拉开 10 倍到 100 倍,我不意外。标题直接写 400 倍,我会先问四个条件:比的是哪个 Sentence Transformers 配方,负采样怎么做,语料 token 分布怎样,GPU 还是 CPU。少一个,这个数都很难复现。 这事有上下文。过去一年,embedding 圈子一直在分叉:一边是 BGE、E5、gte 这类通用文本 encoder,效果强,训练和推理都更贵;另一边是更便宜的 sparse、static、hybrid 检索方案,靠成本和吞吐吃市场。很多团队把 reranker 留给热路径,把 embedding 压到冷路径,原因很现实:向量库账单和重建索引时间比榜单分数更疼。放在这个背景里,Hugging Face 这篇如果讲的是“用 Sentence Transformers 训练更便宜的 static model”,我觉得方向是对的。行业现在缺的不是又一个 SOTA encoder,而是能在千万到十亿文档规模上稳定重建索引的便宜方案。 但我对“400 倍”这个说法还是有点警觉。训练提速最容易被放大的地方,就是拿一个不公平基线来比。比如拿完整 transformer encoder 当对照,再把 static embedding 的查表式训练放上去,差距当然会很夸张。问题是,用户采购的不是“训练速度”这一个指标。他买的是检索质量、跨域泛化、词表外鲁棒性、多语种表现,还有上线后的索引更新成本。标题只给了速度,正文没给 MTEB、BEIR、召回率、内存占用,我没法判断这是工程上真能替代一部分 encoder,还是只适合预算极紧、语料很稳的场景。 我还想补一层经验判断。static embedding 不是新东西,FastText 那套词向量加子词信息,很多年以前就把“快”和“便宜”讲明白了。Sentence Transformers 现在如果把这条线重新包装起来,价值不在“发明了新范式”,而在于把训练、评估、部署接口接进现有 HF 生态。这个落地价值我认。很多团队不用 static 方法,不是因为它没用,而是因为工具链断了,和现有 embedding API、评测脚本、向量数据库流程接不上。要是这篇博客解决的是这个问题,那就比“400 倍”本身更有用。 现在信息太薄,我只能把结论压到这里:方向我看好,标题数字我保留意见。等正文补出训练配置、对照模型、效果损失和推理成本,再决定这是实用工具升级,还是一次好看的标题党。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R0
2025-01-14 · 星期二2025年1月14日
2025-01-13 · 星期一2025年1月13日
2025-01-09 · 星期四2025年1月9日
00:00
522d ago
Hugging Face 博客· rssEN00:00 · 01·09
Hugging Face 想算算模型跑分和碳排放的关系,但正文没发出来
Hugging Face 发了一篇博客预告,标题说要用 Open LLM Leaderboard 的数据分析模型性能和碳排放之间的关系。但正文页面返回 429 错误,实际内容没加载出来。目前只知道它想对比两个变量——跑分和碳排放——但样本量、时间范围、具体指标和分析方法都没披露。结论还谈不上,先别当可复现的结果看。
#Benchmarking#Hugging Face#Open LLM Leaderboard#Benchmark
精选理由
HKR-H靠标题的碳排放vs性能张力通过;HKR-K和HKR-R均不通过,因为正文缺失,无样本量、时间窗口、方法或结论可引用,严格执行硬排除零来源规则,分数上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
2024-12-31 · 星期二2024年12月31日
00:00
531d ago
Hugging Face 博客· rssEN00:00 · 12·31
Hugging Face 发布 smolagents:让模型自己写代码干活
Hugging Face 在年底推出了一个叫 smolagents 的轻量库,核心思路是让语言模型自己写 Python 代码来执行任务,而不是只输出 JSON 或文本指令。代码里直接调搜索工具、算数学题,跑完一步再决定下一步,直到任务完成。官方给了一段演示:问“猎豹全速跑过巴黎艺术桥要几秒”,模型自己写代码查桥长、查猎豹速度、算结果。正文没有披露支持哪...
#Agent#Code#Tools#Hugging Face
精选理由
HKR-H 通过,因为“用代码写动作”是个具体钩子。HKR-K 和 HKR-R 不通过:正文只有名称和定位,没有执行细节、模型支持、跑分、许可或价格,所以留在 all 里。
一句话点评
HuggingFace 新开源了一个叫 smolagents 的轻量 agent 库,核心卖点是让模型直接写 Python 代码来调用工具,而不是生成 JSON 再解析。代码量很小,几行就能搭一个能上网搜索的多步 agent。正文用了一个豹子跑过艺术桥需要多少秒的例子演示。目前只支持 HuggingFace 自家的 API 模型,没提是否兼容 OpenAI 或本地模型。开源协议是 Apach...
锐评
Hugging Face 这次只放出了 smolagents 的名字和“用代码写动作”这句定位,正文未披露模型兼容范围、工具调用机制、沙箱设计、基准结果、价格和许可。信息到这个程度,没法判断它是个严肃的 agent runtime,还是把 ReAct 换成 code-generation 的一层薄封装。我先给偏保守判断:标题方向没错,证据远远不够。 我一直觉得“让 agent 直接写代码再执行”这条路不新,关键从来不在代码生成,而在执行约束。OpenAI 去年把 Code Interpreter 做成产品,靠的是隔离环境、文件系统和时限控制;Anthropic 今年推 computer use,卡的也是权限边界,不是 prompt 写得多漂亮。Hugging Face 如果只是把 action schema 改成 Python 片段,这个说法我不太买账,因为市面上 LangGraph、AutoGen、crewAI,连更轻的工具调用封装都已经很多了。没有成功率、延迟、token 开销,标题本身说明不了竞争力。 我对这条还有一个疑虑:code-as-action 往往提升灵活性,也会放大不可控性。工具参数可以做类型校验,生成代码就要面对导入、状态污染、死循环、越权调用这些老问题。正文没给任何可复现条件,所以现在最多只能说 Hugging Face 在押“代码优先 agent”这条产品线。要不要认真看,得等它补三样东西:支持哪些模型,代码运行在哪里,和函数调用基线比到底提升多少。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R0
2024-12-27 · 星期五2024年12月27日
00:00
535d ago
● P1OpenAI 博客· rssEN00:00 · 12·27
OpenAI 说非营利架构撑不住了,得改公司结构才能继续搞 AGI
OpenAI 董事会正在评估调整公司结构,核心原因是钱不够烧了。他们 2019 年预估搞 AGI 大概要 100 亿美元,现在发现大厂们都在砸几千亿,自己靠捐赠和非营利控股的混合模式根本融不到这个量级的钱。文章说,投资人愿意投,但到了这种资金规模,人家要的是常规股权,不是定制化的利润上限条款。目前 ChatGPT 每周有超过 3 亿人用,但正文没披露最...
#Reasoning#Safety#OpenAI#Microsoft
精选理由
OpenAI 自己出来说,2019 年以为融 100 亿美元就够,现在发现不够,得把架构改得更像普通公司,不然投资人不敢继续砸钱。文章没给新架构的具体条款,但把融资约束摊开了——这是核心。我会提醒读者盯紧两点:一是非营利那块最后还剩多少控制权,二是股权结构会怎么调。整体事实没硬伤,安全上也没问题,就是信息不全,但作为信号已经够用了。
一句话点评
OpenAI 自己发博客解释为什么要改公司结构,但正文没披露具体怎么改、时间表是什么。
锐评
OpenAI 亲自下场谈结构必须进化,说明这件事已经从外部猜测变成了他们主动要推动的议程。标题用“advance our mission”来框定,意图是把结构调整和使命绑定,降低外界对商业化转向的抵触。但这次公开的只是一篇立场声明,正文被省略了,我们看不到具体方案、治理变化、非营利实体未来角色这些关键信息。对从业者来说,真正要盯的是两点:一是新结构会不会给模型开放和安全性带来实质约束,二是投资条款和利润上限会不会松动。现在只能先打个折,等正式方案出来再判断。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
2024-12-24 · 星期二2024年12月24日
00:00
538d ago
Hugging Face 博客· rssEN00:00 · 12·24
可视化 PyTorch GPU 显存
Hugging Face 发了一篇博客,讲怎么可视化 PyTorch 训练时的 GPU 显存占用。正文目前是空的,只有标题确认了主题。没有披露用了什么工具、PyTorch 版本、代码示例或可复现的环境,所以没法判断这篇是讲 torch.cuda.memory_summary() 这类内置工具,还是第三方可视化库。
#Tools#Inference-opt#Hugging Face#PyTorch
精选理由
这是一篇窄得不能再窄的 PyTorch GPU 内存教程,HKR 三个维度都弱。feed 只给了标题,工具、版本、代码、复现细节全缺;硬排除项“技术可访问性”把它压在 40 分以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
2024-12-20 · 星期五2024年12月20日
10:00
542d ago
● P1OpenAI 博客· rssEN10:00 · 12·20
OpenAI 公布 deliberative alignment:让模型先读安全规范再推理,o1 在安全基准上超过 GPT-4o
OpenAI 在 12 月 20 日介绍了 deliberative alignment,一种直接让推理模型学习人类写的安全规范文本,并在回答前先对着规范做推理的训练方法。o 系列模型用上了这套方法,推理时会在思维链里调取内部政策、判断请求是否违规,再给出回复。整个过程不需要人工标注思维链或答案。文章说 o1 在内部和外部安全基准上大幅超过 GPT-4...
#Reasoning#Alignment#Safety#OpenAI
精选理由
我会先打个折:正文没给 o1 的具体基准分数,只说比 GPT-4o 强很多、部分数据集接近饱和,所以没法判断实际提升幅度。但方法本身有嚼头——用人类能看懂的安全规范训练模型在回答前显式推理,而且不需要人工写思维链样本,省了不少标注成本。安全对齐从“事后拦截”变成“事前想清楚”,这个转向值得关注。综合看,放在 featured 没问题,83 分也合理,毕竟缺了硬数据,离必写还差一口气。
一句话点评
OpenAI 直接把安全规范文本喂给 o 系列模型,让它先想规则再回答,不再靠猜标签学安全。
锐评
这篇讲的是 OpenAI 的新对齐方法,核心是把安全规范直接教给模型,并要求它在回答前先推理一遍这些规范。这跟以前靠人类反馈(RLHF)或 AI 反馈(CAI)的做法不一样,以前模型只看到根据规范生成的标签,没见过规范本身,等于在猜规则。新方法让 o1 这类模型在推理时能调出具体政策条文,对照着判断,所以对恶意诱导、过度拒答和越狱攻击的处理更准。 从给出的例子看,模型在思维链里先解码了用户的加密请求,识别出对方在套取非法支付建议,然后对照内部政策,判定这是教唆违法,最终拒绝回答。文章说 o1 在多项内外部安全基准上远超 GPT-4o,甚至在很多高难度数据集上表现饱和。但正文没披露具体测试集名称、样本量和误拒率,也没说这种显式规范推理会带来多少额外推理成本和延迟。 这点先别太激动。方法听着直接,但前提是规范本身写得足够清晰无歧义,否则模型照着有漏洞的条文推理,反而可能产生新的盲区。另外,规范文本的维护和更新成本、对多语言场景的覆盖,文章都没提。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
2024-12-19 · 星期四2024年12月19日
00:00
543d ago
Hugging Face 博客· rssEN00:00 · 12·19
Hugging Face 发布 ModernBERT,号称 BERT 的替代品
Hugging Face 宣布推出 ModernBERT,并称它是 BERT 的替代品。但目前只有标题,正文是空的,没有披露模型参数量、训练数据、评测基准或上下文长度。接下来要看完整博客或模型仓库是否提供可复现的评测,光靠标题还不能下结论。
#Hugging Face#BERT#ModernBERT#Research release
精选理由
HKR-H 通过,因为'替代 BERT'这个标题本身就是钩子。HKR-K 和 HKR-R 不通过:文章只确认了模型名称,训练数据、参数量、基准成绩、上下文长度全部未披露,属于硬排除规则第六条——零来源/仅标题内容。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
2024-12-18 · 星期三2024年12月18日
00:00
544d ago
Hugging Face 博客· rssEN00:00 · 12·18
Bamba:混合 Mamba2 模型,主打推理效率
Hugging Face 发了一篇博客讲 Bamba,核心是混合 Mamba2 架构,目标是推理更省资源。但正文被 429 挡住了,参数规模、跑分、延迟、吞吐量全都没披露。目前能确认的只有方向——用 Mamba2 做混合模型来提效,但到底省了多少、跟谁比、能不能复现,都得等原文恢复才能判断。
#Inference-opt#Hugging Face#Research release
精选理由
RSS 片段只确认了主题是“推理高效的混合 Mamba2 模型”,正文一个字都没给。HKR 三个维度全部落空:H 因为标题全是术语没有入口;K 因为没有任何可测试的指标;R 因为没连接成本、部署或竞争压力。另外硬性排除规则“技术可及性失败”也适用——标题对非研究者不友好,没有解释性铺垫。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
2024-12-17 · 星期二2024年12月17日
00:00
545d ago
● P1OpenAI 博客· rssEN00:00 · 12·17
OpenAI 把 o1 模型放进 API 了,还顺手给实时语音接口降了价
OpenAI 这次主要给开发者端上了几道新菜。首先是 o1 模型正式在 API 里上线,先推给用量最高的第五级开发者。相比之前的预览版,o1 现在能调用外部函数、按你给的 JSON 格式稳定输出、看懂图片,还多了一个叫 reasoning_effort 的参数让你控制它思考多久。官方说它平均比预览版少用 60% 的思考 token,等于更快更省钱。跑分...
#Reasoning#Tools#Fine-tuning#OpenAI
精选理由
这条更新对开发者来说信息量很扎实。o1 补上了之前缺失的生产特性,不再是只能看不能用的状态;推理 token 用量大降和音频价格大砍都是实打实的成本改善。后半段 GPT-4o mini 实时价格被截断,但已披露的部分没有事实错误或过时信息,也没有不安全或误导性的建议。整体判断:事实准确、当前有效、对从业者安全。
一句话点评
OpenAI 把 o1 正式版放进 API 了,支持函数调用和图片识别,推理成本比预览版低了六成,但暂时只开放给用量最高的开发者。
锐评
这次更新最实在的是 o1 正式版上线 API,不再是只能看不能用的预览版。它现在能调用外部工具、按你给的 JSON 格式回话,还能看图,这让 o1 从做题家变成了能进业务流的员工。官方说同样的问题,o1 用的思考 token 比预览版平均少了 60%,这意味着推理更快、更省钱。不过正文没披露具体价格,只说先开放给用量第五级的开发者,普通团队还得等。 另一个值得看的是实时语音 API 降价,GPT-4o 音频 token 价格砍了六成,还新增了 GPT-4o mini 版本,成本只有原来的十分之一。加上直接支持 WebRTC,几行 JS 就能把实时语音接进浏览器或手机 App,对想做语音助手的小团队是个好消息。 新出的偏好微调(Preference Fine-Tuning)听起来像用对比样本教模型学回答风格,但正文没展开讲具体怎么用、效果提升多少,这点先别太激动。整体看,OpenAI 在把模型往更可控、更便宜的方向推,但 o1 的开放节奏和微调方法的实际效果,还得看后续落地情况。
HKR 分解
hook knowledge resonance
打开信源
95
SCORE
H1·K1·R1
00:00
545d ago
Hugging Face 博客· rssEN00:00 · 12·17
Falcon 3 开源模型家族发布
Falcon 3 是一个新的开源模型系列,但目前正文页面返回 429 错误,无法获取任何具体信息。模型参数量、上下文长度、许可证、基准测试成绩和发布时间等关键细节均未披露。
#Falcon#Product update#Open source
精选理由
标题级信息而已:Falcon 3 以开放模型家族形式发布,但参数规模、许可协议、上下文窗口、基准成绩正文全没披露。HKR 三项都不达标,所以排在 feature 线以下,直接排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2024-12-16 · 星期一2024年12月16日
00:00
546d ago
Hugging Face 博客· rssEN00:00 · 12·16
Hugging Face 推出合成数据生成器:用自然语言描述就能造数据集
Hugging Face 发布了一个叫 Synthetic Data Generator 的工具,主打无代码、用自然语言描述就能生成数据集。目前只支持文本分类和对话数据,后续计划加评估和 RAG(外挂资料库)任务。背后用的是 distilabel 和 Hugging Face 的免费文本生成 API,但正文没披露具体用了哪个模型、生成方法、支持什么模态...
#Tools#Hugging Face#Product update
精选理由
HKR-H 和 HKR-R 通过:标题有明确的钩子,合成数据也是从业者的真实痛点。HKR-K 不通过:正文为空,只确认了产品名和用途,机制、模态、价格、发布时间全缺,信息量很低,所以重要性只给了 58。
一句话点评
Hugging Face 出了一个无代码的合成数据生成器,输入自然语言描述就能自动生成文本分类或对话数据集,还能直接训练模型。底层调了 distilabel 和免费推理 API,生成速度和质量取决于你选的模型——正文没披露具体成本,但用免费 API 意味着有速率限制。亮点是门槛极低,适合快速做原型验证;缺点是只支持分类和对话两种任务,RAG 和评估说要等后续。
锐评
Hugging Face 只给出 Synthetic Data Generator 标题和“用自然语言构建数据集”这个用途,正文未披露模型、工作流、模态、价格和上线条件。我的判断很直接:这条先别按产品力看,先按产品定位看。因为“自然语言生成数据集”这句话覆盖面太大,从简单的 prompt-to-JSON 样本工厂,到带验证器、去重器、分布控制、标注协议和评测闭环的数据管线,都能往里装。 我对这类工具一直有个保留:合成数据好做,能用于训练的合成数据很难做。过去一年里,Scale、Gretel、Writer、OpenAI ecosystem 里的不少数据工作流,都在讲 synthetic data,但真正把效果拉开的不是“能生成多少条”,而是能不能控住 label quality、hard negative、distribution drift 和 contamination。我记得去年不少代码和指令微调项目都踩过同一个坑:模型自己出题、自己作答,最后把错误模式也一并放大。标题现在没说有没有 verifier、teacher model、过滤器,信息差就在这里。 我还想追问一层:它到底是给谁用的。如果是 Hugging Face Hub 里的轻量工具,那重点是易用性和数据导出格式;如果它要接近 Argilla、Datasets、AutoTrain 那条线,重点就变成数据治理和反馈闭环。说真的,Hugging Face 过去几年最强的地方一直是分发和社区,不是闭门的数据生产体系。所以这条我看着像入口产品,不像已经证明质量的核心基础设施。除非后续正文拿出很具体的机制,比如支持哪些模态、怎么做 schema enforcement、有没有 automatic eval,不然“自然语言建数据集”更像 demo 级叙事,不是能直接进生产的答案。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
2024-12-13 · 星期五2024年12月13日
00:00
549d ago
● P1OpenAI 博客· rssEN00:00 · 12·13
OpenAI 公开邮件时间线:马斯克 2017 年就想要一个营利公司,而且要绝对控制权
OpenAI 在 2024 年 12 月 13 日发了一篇博文,直接贴出邮件记录和时间线,回应马斯克的法律诉讼。核心事实是:2017 年马斯克不仅同意 OpenAI 转成营利性公司,还自己注册了一家叫“Open Artificial Intelligence Technologies, Inc.”的公益公司,要求拿到多数股权、绝对控制权和 CEO 位置...
#OpenAI#Elon Musk#xAI#Commentary
精选理由
这篇 OpenAI 单方面发布的博文,核心价值在于提供了马斯克当年推动营利化、索要控制权的具体证据,以及团队对 AGI 算力成本的早期估算(数十亿到可能低于 100 亿美元)。这些事实性内容本身没有发现错误或过时之处,也没有给出危险的操作建议。它本质上是一份法律公关叙事,不是独立验证的产品或研究发布,所以保持原有评分是合理的。
一句话点评
OpenAI 公开邮件反击马斯克:2017年是他自己先要搞营利公司,还想要绝对控制权,没谈拢才走的。
锐评
这条新闻本质是 OpenAI 对马斯克诉讼的公开回应,核心信息来自他们自己公布的内部邮件。邮件显示,2015 年马斯克就质疑过非营利架构,建议用“标准 C 公司加平行非营利”的模式。到 2017 年,双方都同意需要转成营利公司来搞钱买算力,因为发现要烧几十亿美元。分歧在于,马斯克要求拿多数股权、绝对控制权并当 CEO,OpenAI 团队没答应,认为这违背了使命。马斯克随后在 2018 年初离开,还预言他们会失败。 这些邮件是 OpenAI 单方面披露的,经过了筛选和编辑,我们看不到完整的上下文和对方的回复。比如,马斯克要求控制权时,双方具体是怎么谈判的、有没有其他方案,正文都没提。另外,OpenAI 现在的营利架构到底怎么保证非营利使命不跑偏,文章也没解释。所以,这些材料能说明马斯克并非一开始就反对营利,但“谁更占理”还得看更多证据。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2024-12-11 · 星期三2024年12月11日
06:00
551d ago
OpenAI 博客· rssEN06:00 · 12·11
Zalando 把客服助手从 GPT-3.5 换成 GPT-4o mini,点击率涨了 23%,加心愿单多了 41%
欧洲时尚电商 Zalando 把它的 AI 导购助手从 GPT-3.5 升级到了 GPT-4o mini,同时重写了评估流程。效果是产品点击涨了 23%,加心愿单多了 41%,用户点“不推荐”的比例降了 5%。关键点是成本没怎么涨,但流量翻了 12 倍——因为 GPT-4o mini 本身更便宜,而且支持更多语言,Zalando 直接铺到了 25 个市...
#Multimodal#Tools#Benchmarking#Zalando
精选理由
这是供应商客户案例:OpenAI用Zalando的转化数据来推销GPT-4o mini,所以硬排除规则5适用。文章有扎实的事实——点击率提升23%、愿望单提升40%+、覆盖25个市场、以及评测/迁移工作流——所以HKR-K通过,但H和R仍然偏弱。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
2024-12-09 · 星期一2024年12月9日
10:00
553d ago
● P1OpenAI 博客· rssEN10:00 · 12·09
OpenAI 将 Sora 视频生成模型向 ChatGPT Plus 用户开放
OpenAI 在 12 月 9 日结束了 Sora 的研究预览,直接把它做成了一个独立产品,给 ChatGPT Plus 和 Pro 用户用。新版本叫 Sora Turbo,生成速度比二月份展示的快了不少。Plus 用户每月能免费生成最多 50 个 480p 视频,或者少一些的 720p 视频;Pro 用户用量是 10 倍,还能出更高分辨率和更长的片子...
#Multimodal#Vision#Safety#OpenAI
精选理由
Sora 正式上线,从预览变付费,HKR 三项都踩中了:上线本身有话题性,规格和限制写得清楚,对创作者工作流有直接影响。没给更高分是因为文章自己就说了地区封锁、人物上传受限,物理一致性和长动作还不稳,这些限制让实际可用性打了折扣。
一句话点评
OpenAI 把 Sora 视频生成开放给 ChatGPT Plus 用户了,但别急着冲,20 美元档只能生成少量低分辨率视频,想正经用得加钱上 Pro。
锐评
Sora 向 Plus 用户开放,意味着 OpenAI 开始把视频生成从演示推向日常使用。但这次放开的不是完整版:Plus 订阅(20 美元/月)每月最多生成 50 个 480p 视频,想做 1080p、20 秒的片子得买 200 美元/月的 Pro。这个定价把轻度尝鲜和专业创作切得很开。 从系统卡看,Sora 用了类似 DALL·E 3 的“看图说话”技术来理解指令,还解决了画面主体暂时消失后保持一致的老问题。安全上做了多层过滤,包括训练数据清洗、上传人脸限制和 18 岁以上年龄门槛,但正文没给出具体误拦率和漏放率,实际体验会不会过度敏感还不清楚。 目前缺的是 Plus 档位下的实际生成速度和排队时长,也没提中文提示词的支持程度。如果你只是想玩玩,先拿 Plus 试试水可以;真要用来做素材,得等 Pro 档位的实测出来再算账。
HKR 分解
hook knowledge resonance
打开信源
99
SCORE
H1·K1·R1
00:00
553d ago
Hugging Face 博客· rssEN00:00 · 12·09
Hugging Face 社区发布开源图像偏好数据集
Hugging Face 社区发布了一个 Apache 2.0 许可的开源图像偏好数据集,专门用于文生图任务。数据集包含不同模型(Flux、Stable Diffusion)生成的图像对,以及人工标注的偏好结果。正文没有披露具体样本量、标注人数和标注一致性指标,所以数据质量和规模暂时没法判断。亮点是代码和数据集都开源了,还附带一个微调好的 LoRA 模...
#Multimodal#Hugging Face#Open source#Research release
精选理由
只有 R 通过:开放偏好数据确实卡在开源文生图模型的训练瓶颈上。K 不通过是因为 RSS 只确认了数据集类型和任务,规模、标注、许可、获取方式都没披露,信息带宽很低,只能算低优先级。
一句话点评
Hugging Face 社区发布了一个 Apache 2.0 协议的开源图生文偏好数据集,包含不同模型(Flux、SD)生成的图片对和人工偏好标注。关键点:数据集开源、可商用,但正文没披露标注者数量、一致性分数,也没说微调后模型在哪些指标上提升了多少。对想低成本做图生文 RLHF 的团队是个起点,但效果验证还缺细节。
锐评
Hugging Face 社区只公开了一个“文生图开放偏好数据集”的标题,正文未披露样本规模、标注流程、许可协议和下载方式。我的判断很直接:这条现在更像一次方向宣示,不像一份可复现的基础设施发布。 偏好数据集对文生图很重要,这点不用争。过去一年里,大家已经看清一件事:模型底座差距在缩,小样本高质量偏好对齐开始决定“审美稳定性”和“提示词服从度”。问题是,偏好数据比普通 caption 数据更容易失真。两张图怎么配对,提示词怎么采样,标注者看的是构图、文本一致性还是风格讨好,都会直接改写训练信号。正文没给这些条件,我没法判断它更接近 Pick-a-Pic 这类公开偏好集,还是更接近内部 RLHF/RLAIF 管线里的一段中间产物。许可也很关键。文生图数据一旦带有生成图、人工选择、再分发,商用边界很容易卡住。没有 license,企业团队基本没法碰。 我对“社区”这层叙事也有一点保留。开源社区当然能做出好数据,但偏好标注的难点从来不只是收集量,而是标注一致性和去偏流程。LAION 当年把规模做出来了,审美和安全噪声也一起带进来了。后来很多团队转向更小、更贵的人类偏好集,就是在补这门课。Hugging Face 如果这次想把它做成行业公共品,至少要把四件事讲透:样本数、配对机制、标注协议、使用许可。少一项,研究能引用,产品很难上。 说真的,我还想看一个信息:它到底是训练集还是评测集。两者名字很像,价值差很多。训练集要看覆盖面和噪声控制;评测集要看泄漏风险和分层设计。标题给了“open preference dataset”,正文没给用途边界。这个缺口不补,我对它的实际影响先保守看待。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K0·R1
2024-12-05 · 星期四2024年12月5日
10:30
557d ago
● P1OpenAI 博客· rssEN10:30 · 12·05
OpenAI 推出每月 200 美元的 ChatGPT Pro,把更长的思考时间做成付费功能
OpenAI 新加了一个 ChatGPT Pro 档位,月费 200 美元,可以无限用 o1、o1-mini、GPT-4o 和高级语音模式。核心卖点是 o1 pro 模式,它用更多算力让模型“想得更久”,去啃数据科学、编程和判例分析这类硬骨头。官方用了一个更严的 4/4 可靠性指标来强调稳定性——一道题必须连续四次都答对才算过关,但正文没披露这个模式的...
#Reasoning#Tools#Benchmarking#OpenAI
精选理由
OpenAI 把额外推理算力包装成 200 美元的 ChatGPT Pro 层级,属于当天必须写的产品新闻。HKR 三项都成立:钩子是把推理时间商品化,知识面有具体价格和模型访问细节,共鸣点在于算力分层引发的行业讨论。正文未披露配额或延迟数据,所以保持现有评分。
一句话点评
OpenAI 推出月费 200 美元的 ChatGPT Pro,主打一个让模型“多想一会儿”的 o1 pro 模式,但别急着掏钱,先看它到底多可靠。
锐评
OpenAI 这次把订阅费拉到 200 美元一个月,核心卖点是 o1 pro 模式。说白了,就是让模型在回答前花更多算力去“思考”,官方说这在数据科学、编程和判例分析上会更靠谱。他们用了一个很严格的测试标准:一道题必须连续答对四次才算过关,而不是碰运气对一次。在这种“四发四中”的考验下,o1 pro 模式在数学竞赛、编程竞赛和博士级科学题上的表现确实压过了之前的版本。 但要注意,官方只放了对比柱状图,没给具体分数,也没说测试题总量。这让我们很难判断这个“更可靠”的领先幅度到底有多大,以及是不是只在特定难题上有效。另外,生成答案的时间会明显变长,界面会出进度条,你得等着。 目前看,这更像给每天需要顶尖模型处理复杂问题的研究员或工程师准备的,普通用户用 Plus 版可能就够了。正文没提 API 接口,也没说 o1 pro 模式有没有使用次数上限,只说了“无限使用”其他几个模型。这些缺口在掏钱前最好搞清楚。
HKR 分解
hook knowledge resonance
打开信源
95
SCORE
H1·K1·R1
10:00
557d ago
● P1OpenAI 博客· rssEN10:00 · 12·05
OpenAI 发布 o1 系统卡:用大规模强化学习训练模型先想再答,安全风险定在“中”以下才上线
OpenAI 把 o1 和 o1-mini 的安全测试结果公开了。核心就一句话:o1 系列用大规模强化学习训练模型在回答前先进行“思维链”推理,这让它在遵循安全规则、抵抗越狱攻击上比前代强。但正文没披露具体的数据配比和完整基准分。安全方面,他们设了上线门槛——风险缓解后评分必须“中”或更低。目前给出的评分是:网络安全低、生化威胁中、说服能力中、模型自主...
#Reasoning#Alignment#Safety#OpenAI
精选理由
这是一份前沿推理模型的高信号安全披露,不是常规物料。HKR-K 强在公布了部署门槛、四项风险评级和测试范围;HKR-R 成立是因为从业者持续关注推理模型的安全阈值和 CoT 透明度。事实核查:系统卡原文确实列出了这些评级和门槛,未发现错误或过时信息,安全建议也符合当前实践。
一句话点评
OpenAI 发了 o1 的安全说明书,模型会自己琢磨安全规则再回答,但生物化学和说服力两项风险只压到“中”,正文没给具体缓解措施。
锐评
这份系统卡最值得看的是 o1 怎么把安全规则融进推理过程里。它回答问题前会先“想”一遍,相当于在脑子里过一遍公司的内容政策,所以面对越狱攻击或擦边问题时表现比前代好。但别以为这就万无一失了。在化学、生物、放射性及核威胁(CBRN)和说服力这两项上,OpenAI 自己给的评级是“中”,意思是风险没完全消除,只是压到了可以部署的门槛。 报告里列了训练数据来源,包括公开网页、付费数据库和内部定制数据,但没披露具体占比和清洗细节。外部红队测试和思维链安全评估都做了,可正文只放了摘要,关键指标比如有害内容拦截率、不同语言的偏差分数都没给具体数字。这点比较可惜,因为 o1 系列已经上线,用户需要知道它在非英语场景下到底靠不靠谱。 整体看,这份报告更像一份合规声明,而不是给从业者用的技术参考。它告诉你模型通过了内部安全门槛,但没给你足够数据去独立判断这些门槛设得合不合理。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
00:00
557d ago
Hugging Face 博客· rssEN00:00 · 12·05
大模型能自己改错吗?Keras + TPU 搭了个对战平台来测
Hugging Face 上发了一篇博客,标题说用 Keras 和 TPU 搭了一个聊天机器人竞技场,专门测大模型能不能自己修正错误。但正文返回 429 错误,实际内容为空,所以没披露用了哪些模型、样本量、评测指标和结果。核心问题是评测设计本身——没有这些信息,光靠标题没法判断模型的自纠错能力。
#Benchmarking#Tools#Hugging Face#Keras
精选理由
H 靠“大模型自己改错”这个竞技场测试标题抓住了注意力,但 K 和 R 都落空,因为正文是空的,没给出任何模型、样本量、指标或结果。适用 hard-exclusion-6(零来源/无实证内容),所以重要性上限卡在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
2024-12-04 · 星期三2024年12月4日
10:00
558d ago
OpenAI 博客· rssEN10:00 · 12·04
摩根士丹利把GPT-4塞进投顾工作流,98%的顾问团队在用
摩根士丹利把GPT-4嵌入了财富管理的工作流程,内部叫AI @ Morgan Stanley Assistant的聊天机器人现在能回答10万份文档里的问题,覆盖范围从最初的7000个问题大幅扩展。超过98%的顾问团队在用这个工具。另一个产品Debrief用Whisper和GPT-4把客户同意的Zoom会议录音自动转成CRM笔记和跟进草稿。关键信息是他们...
#Benchmarking#RAG#Audio#Morgan Stanley
精选理由
信息量够,98%使用率、10万文档语料、每日回归测试、零数据留存都是新事实,也切中企业落地AI的信任和合规痛点。但本质是OpenAI客户案例,摩根士丹利作为服务商展示自家方案,按硬排除规则第5条(供应商主导的客户案例)归为excluded,重要性39合理。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R1
2024-12-02 · 星期一2024年12月2日
00:00
560d ago
Hugging Face 博客· rssEN00:00 · 12·02
开源开发者如何应对欧盟AI法案?Hugging Face的指南来了(但正文还没看到)
Hugging Face 发了一篇博客,标题是《开源开发者指南:欧盟AI法案》,但正文目前无法访问(返回429错误)。从标题看,这篇应该会讲开源项目在欧盟AI法案下的义务、豁免和合规时间线,但具体内容还没披露。如果你正在做开源AI项目、担心法案影响,这篇值得关注,但先别当行动清单用——等正文出来再判断。
#European Union#Policy#Open source#Commentary
精选理由
只有R通过:开源开发者确实关心欧盟AI Act怎么合规。但RSS只给了标题,正文为空;适用范围、义务、豁免条件和生效时间全都没披露,所以K不通过,直接命中硬排除6——零细节/零来源内容。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R1
2024-11-26 · 星期二2024年11月26日
00:00
566d ago
Hugging Face 博客· rssEN00:00 · 11·26
Hugging Face 重写上传下载架构,要解决大模型文件传输瓶颈
Hugging Face 的 Xet 团队正在重新设计 Hub 的上传和下载架构,核心是引入一个内容寻址存储(CAS)层。简单说,就是把文件拆成小块,上传时只传新增的块,下载时从 CAS 服务器拿重组信息,数据本身仍存在 AWS S3(美东一区),下载走 CloudFront CDN。动机很直接:现有架构对大模型不友好。CloudFront 单文件上限...
#Tools#Hugging Face#Product update
精选理由
这是一个平台基础设施更新,HKR-R 成立,因为 Hub 传输可靠性直接影响模型分发和团队工作流。HKR-K 不成立,因为 feed 没有正文:吞吐量、失败率、上线范围、兼容性都没披露,所以只能留在 all 层级。
一句话点评
Hugging Face 正在重写上传下载架构,核心是插入一个内容寻址存储(CAS),把文件拆成字节级块,上传时只传新块,下载时从 CAS 拿重建信息。10月11日一天就有8.2百万次上传、130.8 TB数据,来自88个国家。目前依赖 S3(us-east-1)和 CloudFront CDN,但 CDN 单文件上限50GB,Llama-3-70B 权重131GB得拆成30个文件。新协议目...
锐评
Hugging Face 把重构对象指向上传与下载链路,但 RSS 只有标题和一句摘要。现在能确认的事实只有一条:改的是平台文件传输路径,不是新模型,不是新 benchmark;上线时间、涉及 Hub 还是 Spaces 还是 Inference Endpoints,正文都没披露。 我先给判断:这类“重构传输层”的动作,通常不是为了把下载速度从 1 提到 1.2,而是旧架构已经扛不住文件体积、并发峰值,或跨区域缓存命中率。Hugging Face 这两年承载的东西早就不是几百 MB 的 checkpoint 了。单个模型仓库里塞进数十 GB 甚至更大的 safetensors、分片权重、数据集 parquet、GGUF 量化文件,已经很常见。传输链路一旦没重做,用户看到的就是断点续传不稳、CDN 回源抖动、etag 或 range 请求兼容性出问题、git-lfs 体验越来越差。 这里有个文章外的背景。过去一年,ModelScope、Kaggle、Replicate、云厂商自带模型仓库都在抢“分发”这一层,不只是抢训练和推理。谁把大文件分发做稳,谁就更像默认基础设施。我一直觉得 Hugging Face 的强项不是首页流量,而是它把模型、数据集、版本、权限和下载地址绑在了一起。传输层如果开始重构,八成是在补这个底层护城河。 我也有保留意见。标题很容易把人带进“性能要起飞”的叙事,但正文没给任何数字:吞吐提升多少,失败率降多少,热文件是否改走新缓存层,老 SDK 和 git-lfs 客户端会不会受影响,统统没有。没有这些信息,我不买“架构升级=用户立刻受益”这套说法。很多平台把下载链路重写一遍,短期先带来的是兼容性回归,不是速度红利。 所以这条先别吹。等 Hugging Face 放出 95/99 分位下载延迟、上传成功率、跨区域命中率、文件大小门槛和回滚策略,再判断这次是不是一次够硬的基础设施升级。现在只有标题,我能给的判断就是:方向对,信息还远远不够。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K0·R1
2024-11-21 · 星期四2024年11月21日
05:00
571d ago
OpenAI 博客· rssEN05:00 · 11·21
BBVA 给全员发 ChatGPT 企业版,5 个月造了 2900 个定制 GPT
西班牙银行 BBVA 在 5 个月内向员工发放了 3000 个 ChatGPT Enterprise 许可证,员工自己建了超过 2900 个定制 GPT。83% 的领证用户每周都在用。内部 GPT 商店里大约有 700 个 GPT 可以互相抄作业。一个法律助手 GPT 帮 9 人团队处理每年 4 万个来自分行经理的问题。关键不是数字大,而是推广方式:法...
#Agent#Multimodal#Tools#BBVA
精选理由
HKR-K和HKR-R靠具体的采用数字和落地机制通过,但HKR弱。更重要的是,它触发了硬排除规则5:这是一篇供应商客户案例,核心信息是BBVA用ChatGPT Enterprise,没有反例、失败或独立验证。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R1
2024-11-20 · 星期三2024年11月20日
17:00
571d ago
OpenAI 博客· rssEN17:00 · 11·20
Grab 用 GPT-4o 看图微调做地图,100 个样本就把限速牌识别准确率从 67% 拉到 80%
东南亚打车外卖平台 Grab 用 GPT-4o 的视觉微调功能做地图。他们只用了 100 个样本,把限速牌和道路匹配的准确率从 67% 提到 80%,车道数识别准确率涨了 20%,限速牌定位也提升了 13%。做法是把司机拍的街景图和地图瓦片叠在一起让模型看,减少人工标图的工作量。正文没披露具体省了多少成本,但样本这么少就能提点,对做地图或视觉任务的团队...
#Vision#Fine-tuning#Multimodal#Grab
精选理由
这是一篇 OpenAI 官方发布的 Grab 客户案例,核心是 GPT-4o 视觉微调在东南亚地图制作上的效果。100 个样本把限速牌道路匹配准确率从 67% 提到 80%,车道计数再涨 20%,限速牌定位提升 13%,数字扎实,能看出微调在小样本下对特定视觉任务有效。但场景太窄——地图运营不是多数 AI 从业者的日常,正文也没披露训练成本、推理延迟或是否替代了人工岗位,所以整体冲击有限。按硬排除规则 5(官方客户案例),分数上限 40,给 37 合理。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
00:00
572d ago
Hugging Face 博客· rssEN00:00 · 11·20
Hugging Face 推出日语大模型排行榜,但页面目前打不开
Hugging Face 宣布上线了一个专门评测日语大模型的开源排行榜。不过正文目前只给了标题,点进去是 429 错误(访问太频繁被限流),所以排行榜具体用什么指标、收录了多少模型、怎么提交都还没披露。先别急着激动,等页面恢复后重点看它的评测设计,而不是光看“开源”两个字。
#Benchmarking#Hugging Face#Benchmark#Open source
精选理由
正文只有标题,没有披露基准设计、数据集、初始模型集和结果,因此HKR三项均不满足。属于硬排除-零来源/披露不足,重要性上限39分,层级为excluded。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R0
00:00
572d ago
Hugging Face 博客· rssEN00:00 · 11·20
大模型辩论赛:首次多语言对决,但正文啥也没说
Hugging Face 宣布要办一场多语言大模型辩论赛,但点进去只有 429 报错,正文一个字都没披露。目前不知道哪些模型参赛、覆盖哪些语言、怎么评分、什么时候比。没有评审协议,结果就没法复现,这点先别太激动。
#Reasoning#Benchmarking#Benchmark
精选理由
标题有新鲜感,但正文完全空白,连评判机制都没披露——辩论赛的结果可复现性全靠规则,这点先别太激动。信息缺口太大,重要性压到40以下合理。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
00:00
572d ago
Hugging Face 博客· rssEN00:00 · 11·20
自推测解码:不换模型也能让生成变快
Hugging Face 发了一篇博客,标题说用“自推测解码”可以加速文本生成。但正文被限流了,实际内容为零。从标题能猜到的信息:这个方法不需要额外模型,而是让模型自己给自己当“草稿模型”,先快速猜一段再验证。但加速比多少、显存开销涨不涨、支持哪些模型、怎么落地——全都没披露。如果后续有实测数据,这倒是一个低成本加速推理的方向,但目前只能当个预告看。
#Inference-opt#Hugging Face#Research release
精选理由
HKR-H 通过,因为“更快生成”本身就是一个强钩子。HKR-K 和 HKR-R 不通过,因为博文正文为空:没有披露加速倍数、显存代价、支持模型或复现细节。这触发了硬排除条件——技术可及性不足,所以 tier=excluded,能力评分也封顶。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
2024-11-19 · 星期二2024年11月19日
11:38
573d ago
欧盟 AI 法案· rssEN11:38 · 11·19
欧盟AI办公室招首席科学顾问
欧盟AI办公室正在招一名首席科学顾问,但正文只放了标题,没写职责、汇报线、地点、薪资、任期和截止日期。目前唯一能确认的就是这个招聘动作本身,具体信号要看完整职位描述。
#AI Office#Personnel#Commentary
精选理由
AI Office 在招首席科学顾问,但正文是空的,只有标题这一句。没披露职责、汇报线、任期、地点和截止时间,目前就是个普通人事动作,没有可执行细节。H、K、R 三项都不满足,分数低于 40,归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
07:00
573d ago
OpenAI 博客· rssEN07:00 · 11·19
Rox 把整个销售平台押注在 OpenAI 上,省了销售每周 8 小时
Rox 是一家做销售自动化的公司,完全用 OpenAI 的模型搭了一套“永远在线”的 AI 销售代理。他们用 GPT-4o mini 做数据清洗和统一(便宜模型干粗活),用 GPT-4o 和 Realtime API 写邮件、做外联、生成语音简报(贵模型干精细活)。结果:销售每周省出 8 小时,客户互动率涨 35%,销售管道转化率翻倍。7 个月从 0 ...
#Agent#Tools#Multimodal#Rox
精选理由
这篇本质是OpenAI的客户案例,属于硬排除的营销稿。虽然堆了技术细节和自报数字,但整体是厂商宣传,不是对AI从业者有广泛参考价值的新闻。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
2024-11-15 · 星期五2024年11月15日
2024-11-13 · 星期三2024年11月13日
00:00
579d ago
OpenAI 博客· rssEN00:00 · 11·13
雅诗兰黛用ChatGPT建了240多个定制GPT,10周出原型,响应时间缩短90%+
雅诗兰黛(ELC)部署了ChatGPT企业版,内部建了240多个定制GPT,覆盖消费者调研、临床试验数据、文案撰写、供应商分析等场景。公司成立了一个“GPT实验室”,用五步冲刺流程(设计-准备-构建测试-发布-迭代)快速出原型,10周内做出多个可用版本,员工提了1000多个点子。响应时间改善超过90%,但正文没披露基线是多少、用了多少员工、花了多少钱。...
#Tools#RAG#The Estée Lauder Companies#OpenAI
精选理由
硬排除-纯营销:这是供应商撰写的客户故事,核心结论是雅诗兰黛部署了ChatGPT Enterprise,而非产品更新或研究突破。HKR-K有部分具体数字(240个GPT、10周实验室、>90%响应提升),但基线、覆盖人数和成本均未披露。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
2024-11-04 · 星期一2024年11月4日
00:00
588d ago
Hugging Face 博客· rssEN00:00 · 11·04
Argilla 2.4 发布:在 Hub 上零代码搭建微调与评估数据集
Argilla 2.4 主打在 Hugging Face Hub 上零代码构建微调和评估数据集。但正文目前只有标题,实际内容因 Hugging Face 返回 429 错误(请求频率限制)而无法获取。所以目前能确认的信息很窄:版本号 2.4,以及“零代码”这个定位。至于支持什么数据格式、工作流怎么走、能不能导出、权限怎么控制、是不是只限 Hub 上用—...
#Fine-tuning#Benchmarking#Tools#Argilla
精选理由
正文为空,故事只确认了Argilla 2.4的Hub零代码定位。HKR三项全不满足:标题是例行发布说明,正文缺失数据格式、标注流程、权限、导出方式以及任何可复现条件。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
2024-10-31 · 星期四2024年10月31日
10:00
592d ago
● P1OpenAI 博客· rssEN10:00 · 10·31
ChatGPT 现在能直接搜网页了,不用再跳去搜索引擎
OpenAI 在 2024 年 10 月 31 日给 ChatGPT 加上了搜索功能,Plus、Team 和之前排队的 SearchGPT 用户先用。它会根据你的问题自动判断要不要上网查,你也可以手动点搜索图标。回答里会附上来源链接,点一下侧边栏就能看到引用了哪些网页。背后的模型是微调过的 GPT-4o,训练时用了一种叫“蒸馏”的技术,从更强的 o1-...
#RAG#Reasoning#Tools#OpenAI
精选理由
这是 OpenAI 当天发的产品上线公告,不是小修小补。搜索直接嵌进聊天界面,等于把传统搜索引擎的流量入口挪到了对话里。公告确认了自动/手动搜索、可点击来源链接,还提到模型是 GPT-4o 微调版、用 o1-preview 蒸馏输出做后训练,信息量够。对从业者来说,这比单纯发个新模型更值得盯,因为它改的是用户获取信息的方式和流量分配逻辑,所以给到 P1。
一句话点评
ChatGPT 正式把搜索做进对话里了,不用再切出去搜。但别急着说它要干掉 Google,目前更像给聊天补上了联网能力。
锐评
OpenAI 把网页搜索直接塞进了 ChatGPT 的对话框。你问一句,它能自己判断要不要去网上找最新信息,比如股价、天气、球赛比分,然后把来源链接列出来。这比之前手动点插件或切搜索引擎要顺滑不少。 技术上说,搜索模型是基于 GPT-4o 微调的,训练时用到了从 o1-preview 蒸馏出来的合成数据。说人话就是,他们让更强的模型当老师,教这个搜索模型怎么更好地理解问题、筛选信息。不过正文没披露具体延迟、成本或错误率,所以实际体验稳不稳还不好说。 目前 Plus 和 Team 用户能用,免费用户要等几个月。OpenAI 还拉了一堆媒体合作,像美联社、路透社、金融时报,回答里会优先展示这些来源。这对内容生态是好事,但也意味着搜索结果可能不是完全中立的。另外,购物和旅行场景还在规划中,现在别指望它能直接比价。
HKR 分解
hook knowledge resonance
打开信源
95
SCORE
H1·K1·R1
08:00
592d ago
OpenAI 博客· rssEN08:00 · 10·31
Promega 从上往下推 ChatGPT:80% 员工在用 1400 多个定制 GPT,质检一年省 600 小时
生命科学公司 Promega 发了一篇 OpenAI 客户案例,说他们 80% 的员工在用超过 1400 个定制 GPT,覆盖制造、销售和营销。CEO 亲自带头,先试点再铺开。具体数字:质检团队用 GPT 自动处理客户问卷,一年 250 多份,省了 600 多小时;销售那边一个叫“My Prospecting Pal”的 GPT 能把每个客户的调研时间...
#Tools#Promega#OpenAI#Bill Linton
精选理由
这是OpenAI的客户案例,按硬排除规则5处理:核心信息是买家用了供应商的产品。HKR-K靠具体数字(80%员工、1400个自定义GPT、年省600+小时)通过,但HKR-H和HKR-R偏弱,且经验不具备广泛复用性。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
2024-10-30 · 星期三2024年10月30日
10:00
593d ago
● P1OpenAI 博客· rssEN10:00 · 10·30
OpenAI 开源了一个叫 SimpleQA 的事实性基准,专门测模型回答短问题的准确率
OpenAI 放出了一个包含 4326 道题的基准 SimpleQA,题目都是简短、有明确答案的事实类问题,比如“2022 年世界杯荷兰对阿根廷,哪位荷兰球员打进了运动战进球”。每道题都经过两名独立 AI 训练师交叉验证,又抽了 1000 道题做第三方审计,发现答案一致率 94.4%,估算数据集本身的固有错误率在 3% 左右。这个基准的目标是给前沿模型...
#Benchmarking#Alignment#OpenAI#Research release
精选理由
OpenAI 开源了一个事实问答基准 SimpleQA,4,326 道题,专门测模型回答短事实的准确率和校准能力。我会先打个折:它叫“简单”,但实际是给前沿模型挖坑,GPT-4o 得分不到 40%,说明越强的模型越容易在这上面翻车。数据质量方面,两道人工交叉核验,1,000 题抽检一致率 94.4%,估算固有错误率约 3%,这点先别太激动,3% 的错题率意味着有些题本身可能就有争议或歧义。整体看,这不是一篇例行公事的论文发布,而是一个直接打中可靠性、校准和基准信任问题的动作。
一句话点评
OpenAI 发了个叫 SimpleQA 的题库,专门测模型回答事实类短问题的准确率,GPT-4o 正确率不到 40%,说明顶尖模型在简单事实上依然容易胡扯。
锐评
OpenAI 开源了一个事实性评测集 SimpleQA,包含 4326 道短答案问题,覆盖科技、影视、游戏等领域。它的设计目标很明确:答案唯一、不随时间变化、且能难倒当前最强模型。GPT-4o 的正确率不到 40%,这个数字直接说明,即便是最前沿的模型,在回答没有歧义的简单事实问题时,表现依然很差。 这个基准的亮点在于它同时测量了模型的“校准度”——也就是模型知不知道自己在胡扯。o1 系列模型更倾向于回答“不知道”,而不是硬编一个错误答案,这算是一种进步。但要注意,数据集本身有大约 3% 的固有错误率,因为部分问题存在歧义或不同网站给出矛盾信息。 目前公开的评测结果只覆盖了 OpenAI 自家的几款模型,没有与其他家(如 Gemini、Claude)的横向对比。另外,这个评测只测了模型不联网时的知识储备,没测联网检索后的表现,而后者在实际应用中更常见。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2024-10-29 · 星期二2024年10月29日
10:00
594d ago
OpenAI 博客· rssEN10:00 · 10·29
Decagon 用 OpenAI 多模型混搭,帮大客户做到 91% 客服全自动
Decagon 是一家 AI 客服公司,声称帮某大客户处理了 91% 的全球客服,全程无人介入。它的技术栈混用了 GPT-3.5、GPT-4、GPT-4o、GPT-4 Turbo 和 o1-mini,其中用微调过的 GPT-3.5 先把用户问题重写一遍,再进外挂资料库(RAG)查答案。不同模型干不同活:GPT-3.5 负责改写,GPT-4 做复杂决策。...
#Agent#RAG#Fine-tuning#OpenAI
精选理由
HKR-K和HKR-R靠91%自动化率和模型栈通过。但硬排除-纯营销:这是OpenAI客户案例,价格、延迟和评测基线正文没披露,验证价值打折扣。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R1
00:00
594d ago
Hugging Face 博客· rssEN00:00 · 10·29
通用辅助生成:随便拿个小模型就能给大模型加速
Hugging Face 和 Intel 实验室发了一篇博客,讲的是“通用辅助生成”——一种让大模型(比如 Gemma-2-9B、Mixtral-8x22B)在生成文字时,可以随便拉一个不同家族的小模型来帮忙加速,不用非得找同系列的小版本。之前辅助生成(也叫推测解码)要求大小模型来自同一家族,限制很大。这篇说他们把这个限制去掉了,任何小模型都能当“助理...
#Inference-opt#Hugging Face#Research release
精选理由
HKR-H 靠'任意辅助模型'这个钩子通过,但 HKR-K 和 HKR-R 全挂——正文为空,没披露任何速度增益、额外显存、适用模型范围或实现机制。按硬排除规则第6条,分数封顶40,直接排除。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
2024-10-24 · 星期四2024年10月24日
2024-10-23 · 星期三2024年10月23日
10:00
600d ago
● P1OpenAI 博客· rssEN10:00 · 10·23
OpenAI 把一致性模型简化并扩展到 15 亿参数,两步出图,质量追平扩散模型
OpenAI 发了个新方法叫 sCM,把连续时间一致性模型的训练搞稳定了,直接扩到 15 亿参数,在 512×512 的 ImageNet 上跑。它只用两步采样,出图质量就能跟现在最好的扩散模型打平,单张 A100 上 0.11 秒出一张图,比扩散模型快大约 50 倍。论文里对比了有效算力,sCM 花不到 10% 的算力就拿到差不多的 FID 分数。不...
#Inference-opt#Vision#Benchmarking#OpenAI
精选理由
这篇论文把连续时间一致性模型真正做大了,15 亿参数在 ImageNet 512×512 上跑通,两步采样就能拿到跟扩散模型差不多的样本质量,墙钟速度快了大约 50 倍。单张 A100、batch size=1、没做推理优化时 0.11 秒出一张图,这个数对实际部署有参考价值。我会先打个折:正文没披露跟其他快速采样方案(比如蒸馏模型)的直接对比,也没说训练用了多少算力,所以“快 50 倍”是跟谁比、代价多大,还得看后续细节。但能把快采样和大规模训练同时稳住,本身就是一个信号,说明这条路在工程上开始走得通了。
一句话点评
OpenAI 把一致性模型训练稳了,两步出图质量能打扩散模型,单张 0.11 秒,但只跑了 512x512 的 ImageNet,别脑补到所有任务。
锐评
这篇工作最大的价值是让连续时间一致性模型(sCM)能在大规模数据上稳定训练,参数量拉到 15 亿,在 ImageNet 512×512 上两步采样就能拿到跟扩散模型差不多的 FID。单张图生成只要 0.11 秒(单张 A100),比传统扩散模型快大约 50 倍,有效采样算力不到对比方法的 10%。 不过得把预期管住。正文只展示了 ImageNet 的类别条件生成,没提文生图、视频或音频的实际效果,也没给人类偏好评估。FID 是标准指标,但低 FID 不等于看着顺眼。另外,0.11 秒是没做推理优化的裸速度,实际部署能再压,但论文没给出优化后的延迟数据。 还缺几块关键信息:训练用了多少算力、跟蒸馏路线的成本对比、在小分辨率或别的任务上是否也稳。如果这些能补上,才能判断它是不是真能替代扩散模型成为新的默认 backbone。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
00:00
600d ago
Hugging Face 博客· rssEN00:00 · 10·23
CinePile 2.0:用对抗式精炼把视频问答数据集做得更扎实
Hugging Face 发了 CinePile 2.0,一个长视频问答数据集的新版本。核心改进是一种叫“对抗式精炼”的方法——简单说就是让模型自己挑旧数据里的毛病,再针对性修复,相当于用模型当质检员来清洗训练数据。1.0 版已经有约 30 万训练样本和 5000 测试样本,人类比最好的商用视觉模型高 25 个点、比开源模型高 65 个点,说明题目本身...
#Benchmarking#Hugging Face#CinePile 2.0#Research release
精选理由
Hugging Face 发了 CinePile 2.0,标题提了 adversarial refinement(对抗式精炼,就是让模型自己找数据集的漏洞然后修补)。但正文是空的,数据多大、从哪来、怎么精炼、跑分涨没涨,一概没写。现在能确认的只有方向:这是个数据集改进,不是模型发布。信息太少,三个维度都挂零,直接排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
2024-10-22 · 星期二2024年10月22日
06:05
601d ago
OpenAI 博客· rssEN06:05 · 10·22
OpenAI 联合 Lenfest 研究所启动地方新闻 AI 合作项目,每家报社配一名 AI 研究员
OpenAI、Lenfest 研究所和微软启动了一个两年试点,给 5 家美国地方新闻机构每家配一名 AI 研究员,总投入最高 1000 万美元,其中 500 万是现金,500 万是软件和企业额度。第二轮还会再选 3 家。关键信号是“可复制”:参与方必须把案例、产品和技术细节分享给其他新闻编辑室。每家报社的项目方向不同,比如芝加哥公共媒体用 AI 做转录...
#Tools#RAG#Multimodal#OpenAI
精选理由
HKR-K 成立,因为正文包含具体的项目条款:两年试点、首批5家媒体、最高1000万美元分直接资助和软件积分。HKR-H 和 HKR-R 较弱,因为这是合作/资助公告,不是模型、产品或广泛讨论的安全/监管议题。
一句话点评
OpenAI 联合 Lenfest 研究所给五家地方媒体每家发一笔钱(含 Azure 和 OpenAI 额度),雇一个两年期的 AI 研究员,帮报社用 AI 做转录、摘要、广告销售等。总盘子 1000 万美元,OpenAI 和微软各掏一半。项目刚启动,具体效果、研究员怎么选、工具是否开源都没披露。对想拿 AI 救地方新闻的人是个信号,但别当成熟方案。
锐评
OpenAI、微软和 Lenfest 推出两年试点并投最高 1000 万美元,首轮覆盖 5 家地方新闻机构、每家配 1 名 AI fellow。我的判断很直接:这条表面写的是“扶持地方新闻”,实际更像一次带着公关外衣的行业嵌入。钱不算小,但也没大到能改写地方媒体财务结构;它更像用资助和企业积分,把 OpenAI + Azure 放进新闻机构的日常流程、内容库和商业部门里,先占默认位。 正文给了一个很关键的细节:500 万美元是直接资助,另外 500 万美元是软件和企业积分。这种结构很像云厂商和模型厂商过去做开发者生态的老套路。现金解决招聘和试点启动,credits 把实验环境、推理成本、数据管线、权限体系都绑到供应商堆栈上。新闻机构一旦把转录、摘要、检索、归档、广告销售支持这些环节接到 OpenAI 和 Azure,上线容易,迁移就没那么容易了。尤其这里不是只碰 newsroom,还碰 audience engagement、marketing services、sales analytics,这比“给记者一个写稿助手”更深,因为它直接进入收入链条。 我一直觉得,媒体 AI 试点里最被低估的不是生成内容,而是 archives 和 public data。费城问询报做 archive conversational search,Newsday 做 public data aggregation,Chicago Public Media 做 transcription、summarization、translation,这几项都比“AI 写本地稿”稳得多。理由很简单:一是风险边界清楚,二是 ROI 更容易算,三是最适合被产品化。这里我想到去年很多新闻机构和 OpenAI、Google、Adobe 的合作,最后能留住的通常不是 flashy demo,而是检索、转录、标签、销售支持这类后台能力。文章没给任何单位经济数据,所以现在还不能证明这些项目会形成持续收入,但方向上我买账。 我不太买账的是这套叙事里“共享案例和技术细节就能复制到更多 newsroom”。地方媒体的技术债、CMS 结构、法务能力、工会约束、档案数字化程度差异非常大。5 家机构能跑通,不等于第 6 家就能抄作业。尤其 Seattle Times 做的是广告 go-to-market 和 sales training,这类项目往往高度依赖内部 CRM、客户结构和销售流程,技术细节公开了,别人也未必能复现。标题和正文把“replication”讲得很顺,但没披露统一评估指标,也没说 fellows 的产出归属、代码开放范围、模型调用成本、成功标准。没有这些,复用就容易停在 case study 层面。 还有个更现实的问题:地方媒体对平台的依赖历史并不光彩。Facebook 当年用流量承诺改过一次新闻分发结构,Google News 和搜索分发又改过一次,结果很多 publisher 最后发现自己拿到的是短期增长,长期议价权更弱。OpenAI 这次当然不是同一模式,它给的是工具链不是流量池,但依赖逻辑有相似处:谁控制界面、检索层和推理成本,谁就离工作流更近。我还没看到这批项目对数据使用边界、训练隔离、内容许可的细则披露,只有 OpenAI 内容与知识产权负责人 Tom Rubin 出面表态。说实话,这种安排会让我更在意合同,而不是愿景。 外部对比也很清楚。过去一年,新闻业和 AI 公司的关系一边是 licensing lawsuit,一边是 selective partnership:Axel Springer、News Corp 一类大集团谈内容授权;地方媒体拿到的通常是工具、培训、信用额度和有限资金。这次把地方新闻单独拉出来,说明 OpenAI 已经不满足于头部内容授权,它开始往“工作流基础设施”走。这个方向和微软很合拍,因为 Azure credits 天生适合把实验变成长期云消费。若第二轮 3 家机构继续沿这个模板扩张,我会把它看成媒体版的 enterprise land-and-expand,而不是一次性 philanthropy。 所以这条我给的结论是:项目方向挑得很聪明,优先放在低风险高复用的检索、摘要、转录、销售支持;叙事包装得也很稳,避开了最敏感的“AI 代替记者”。但别把它读成单纯的行业善意。它更像 OpenAI 和微软在一个高信任、低预算、强资料资产行业里做早期占坑。能不能成,不取决于案例会不会写得漂亮,而取决于 24 个月后这些 newsroom 有没有把 credits 用成真实预算、有没有留下可持续产品、以及合同里有没有把平台锁定做得过深。正文没披露这些,我现在只能先保留一半认可,一半警惕。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K1·R0
00:00
601d ago
Hugging Face 博客· rssEN00:00 · 10·22
Hugging Face 联手 Protect AI,给模型仓库加了一道安全扫描
Hugging Face 宣布与安全公司 Protect AI 合作,把后者的扫描工具 Guardian 集成到模型仓库里。Guardian 会自动扫描所有公开模型文件,检查有没有恶意代码——比如 pickle 格式里藏的可执行代码,或者 Keras Lambda 层里的漏洞。Hugging Face 说已经扫了几亿个文件,但超过 100 万个模型仓库...
#Safety#Hugging Face#Protect AI#Partnership
精选理由
这是一条只有标题的合作公告:确认了 Hugging Face 和 Protect AI 的安全合作,但没给机制、范围、上线时间或用户影响。HKR 三个维度都缺信息,所以分数低于 40,排除出精选。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
00:00
601d ago
Hugging Face 博客· rssEN00:00 · 10·22
Diffusers 正式支持 Stable Diffusion 3.5 Large
Hugging Face 的 Diffusers 库现在可以直接跑 Stability AI 刚发的 SD3.5 Large 了。这次发布有两个 8B 参数的模型:一个标准版,一个蒸馏版(能少跑几步就出图)。架构上主要加了 QK 归一化和双注意力层,文本编码器、VAE 和噪声调度器跟 SD3 Medium 一样。模型需要去 Hugging Face 页...
#Hugging Face#Diffusers#Product update
精选理由
这只是一次兼容性信号:Diffusers 说支持 Stable Diffusion 3.5 Large,但没有任何可验证的细节。HKR 三项全不满足,按 0/3 规则归入 excluded,重要性因缺少参数、许可、API 路径和硬件信息而卡在噪声区间。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
2024-10-21 · 星期一2024年10月21日
00:00
602d ago
Hugging Face 博客· rssEN00:00 · 10·21
Llama 3.2 上线 Keras,但 Hugging Face 页面挂了
Hugging Face 博客标题确认 Llama 3.2 已可在 Keras 生态中使用,但正文返回 429 错误,无法读取任何内容。目前只知道模型名称和框架,模型尺寸、许可证、支持任务、代码示例、发布时间等关键信息全部缺失。如果你急着跑推理,建议直接去 Keras 官方文档或 Meta 仓库确认细节。
#Tools#Hugging Face#Keras#Llama
精选理由
标题只说了 Llama 3.2 能在 Keras 里用了,正文是空的,没给模型大小、后端要求、支持任务或代码示例。HKR 三项全挂,连普通产品更新都算不上,直接排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2024-10-15 · 星期二2024年10月15日
2024-10-10 · 星期四2024年10月10日
10:00
613d ago
● P1OpenAI 博客· rssEN10:00 · 10·10
OpenAI 搞了个 MLE-bench,用 75 个 Kaggle 比赛来考 AI 的机器学习工程能力
OpenAI 从 Kaggle 挑了 75 个真实比赛做成基准测试,让 AI 智能体自己训练模型、处理数据、跑实验。最强的组合是 o1-preview 配上 AIDE 脚手架(一种帮模型自动迭代代码的工具),在 16.9% 的比赛里拿到了至少铜牌水平。这个成绩说明模型能独立完成一些 ML 工程任务,但离真正拿金牌还差得远。团队还研究了多给算力、多跑几次...
#Agent#Benchmarking#Code#OpenAI
精选理由
OpenAI 这次没让模型刷题,而是让它真刀真枪跑完 75 个 Kaggle 竞赛——从准备数据、训模型到交结果,整套 ML 工程流程都得自己来。最佳组合 o1-preview + AIDE 在 16.9% 的任务里摸到了铜牌线,说明能做一些,但离靠谱还差得远。我会先打个折:铜牌在 Kaggle 上不算难,正文也没披露具体是哪些任务、失败在哪类环节,所以别急着喊“替代 ML 工程师”。真正值得看的是它把评测从“会答题”扭到了“能干完整工程活”,而且代码开源,团队可以自己跑一遍看自家 agent 几斤几两。
一句话点评
OpenAI 用 75 个 Kaggle 比赛搭了个 ML 工程能力测试场,最强的 o1-preview 也只拿到 16.9% 的铜牌水平,离替代人类 ML 工程师还差得远。
锐评
OpenAI 发布了一个叫 MLE-bench 的基准测试,说白了就是用 75 个 Kaggle 上的真实机器学习比赛,来考校 AI 智能体干 ML 工程活的能力。这些任务覆盖了训练模型、处理数据集、跑实验这些日常操作,不是纸上谈兵。他们拿 Kaggle 公开排行榜上的成绩当人类对照线,然后让几个前沿模型搭配开源脚手架去参赛。结果最好的组合——o1-preview 加上 AIDE 脚手架——在 16.9% 的比赛里摸到了铜牌门槛。这个数字说明,现在最强的模型在独立完成一个完整 ML 项目时,大部分时候连最低奖项都拿不到。 研究还检查了预训练数据污染和资源投入对成绩的影响,代码也开源了。不过正文没披露具体哪些比赛被攻克、失败主要卡在哪个环节,也没说跑一轮测试要烧多少钱。这些信息对判断实用性挺关键,目前只能看到个大概的能力边界。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
00:00
613d ago
Hugging Face 博客· rssEN00:00 · 10·10
Gradio 5 安全审查:Hugging Face 发了篇博客,但正文没拿到
Hugging Face 发了一篇题为“Gradio 5 安全审查”的博客,但 RSS 摘要里没有正文,实际页面返回了 429 限流错误,所以审查范围、发现了多少漏洞、影响哪些版本、怎么修,全都没披露。目前能确认的只有标题和主题——Gradio 5 的安全性。对开发者来说,关键信息(漏洞类型、复现条件、补丁时间线)都还缺着,得等 Hugging Fac...
#Safety#Tools#Hugging Face#Gradio
精选理由
目前只确认Hugging Face发了一篇题为《Gradio 5安全审查》的博文,正文缺失,漏洞数量、严重等级、受影响版本、补丁时间线一概未知。信息缺口太大,无法判断是否影响现有部署或升级决策,因此归为excluded。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
2024-10-09 · 星期三2024年10月9日
00:00
614d ago
Hugging Face 博客· rssEN00:00 · 10·09
Hugging Face 联姻 Dask:用并行计算给数据处理加速
这篇博客标题说 Hugging Face 和 Dask 能一起做大模型数据处理,但正文只返回了 429 错误,实际内容没看到。Dask 是 Python 的并行计算库,可以理解成把单机跑不动的数据拆成多块同时处理。Hugging Face 这边主要是 datasets 和 tokenizer 这些库。如果真能打通,好处是处理海量文本时不用自己搭 Spa...
#Tools#Hugging Face#Dask#Commentary
精选理由
只有标题可用:Hugging Face + Dask 用来扩展 AI 数据处理,但没提处理什么数据、多大集群、跑多快。HKR 三项全不满足,信息量太低,直接排除。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K0·R0
2024-10-08 · 星期二2024年10月8日
00:00
615d ago
Hugging Face 博客· rssEN00:00 · 10·08
Hugging Face 发了个加速推理的新方法,但正文被限流了
Hugging Face 发了一篇博客,标题是《用动态推测加速辅助生成》。但正文页面返回 429 错误(访问太频繁被限流),所以目前只有标题,没有具体内容。从标题看,应该是改进 assisted generation(一种让大模型和小模型配合、小模型先猜词、大模型验证来加速推理的技术),核心思路是动态调整猜测步数。但加速比、适用模型、实现细节、可复现条...
#Inference-opt#Hugging Face#Commentary
精选理由
Hugging Face 发了一篇只有标题的文章,讲 Dynamic Speculation 能加速 assisted generation。正文一个字都没有,提速多少、支持什么模型、怎么实现的、能不能复现,全没写。标题里的“更快”太泛,没有具体数字或对比基线,从业者看了没法判断价值。信息太薄,重要性压到 35 合理。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
2024-10-03 · 星期四2024年10月3日
10:00
620d ago
● P1OpenAI 博客· rssEN10:00 · 10·03
OpenAI 给 ChatGPT 加了个叫 Canvas 的侧边栏,写东西和改代码不用再跟聊天框死磕了
OpenAI 在 10 月 3 号给 Plus 和 Team 用户推了个 Canvas 测试版,相当于在 ChatGPT 旁边开了个协作窗口,你可以直接在上面改文字或代码,模型也能像编辑一样给行内建议。它背后是 GPT-4o,专门训练过什么时候该自动弹出这个窗口:写作场景触发准确率到了 83%,编程场景 94%。模型还学会了做定点修改而不是每次都整篇重...
#Code#Tools#Fine-tuning#OpenAI
精选理由
OpenAI 给 ChatGPT 加了个叫 canvas 的协作界面,写作和编程时能单独开一个窗口,选中某段文字直接改、能回退版本,还有调长度、修 bug、代码审查这些快捷操作。我会先打个折,这目前是测试版,只给 Plus 和 Team 用户用。但真正值得看的是他们怎么训的:内部 20 多项评测里,模型知道什么时候该自动弹出 canvas 的准确率写作 83%、编程 94%,定向编辑效果比之前好 18%,评论准确率高出 30%、质量高出 16%。这些数字说明他们不是拍脑袋加功能,而是用偏好数据专门教过模型什么时候该进协作模式、怎么改得更准。对做 A...
一句话点评
ChatGPT 出了个叫 Canvas 的侧边栏界面,写东西和改代码不用再跟聊天记录死磕了,但别急着激动,目前只是 Beta 版,只对 Plus 和 Team 用户开放。
锐评
OpenAI 给 ChatGPT 加了一个独立窗口,叫 Canvas。它解决了一个很实际的痛点:在聊天框里反复修改长文或代码,上下文一长就容易乱。现在你可以像用在线文档一样,直接选中某段话让模型改,或者一键让它调整长度、查错、加注释。这比在对话框里来回粘贴要直观得多。 从技术上看,OpenAI 专门训练了 GPT-4o 来判断什么时候该自动弹出这个窗口。官方说,在写作场景下,正确触发的比例提到了 83%;写代码时为了避免打扰老手,故意调低了触发率,但也做到了 94%。另外,模型学会了区分“局部修改”和“全文重写”,你选中文字它就改局部,不选就默认重写。这些数据来自他们自己的内部评测,用了 o1-preview 模型生成的合成数据来训练,没依赖人工标注。 不过,正文没披露这个功能对响应延迟和计算成本的影响。在一个独立窗口里实时协作,对推理速度要求很高,实际用起来卡不卡,还得等更多用户反馈。另外,免费用户什么时候能用上,也只说了“等 Beta 结束”,没有具体时间表。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
07:00
620d ago
● P1OpenAI 博客· rssEN07:00 · 10·03
OpenAI 拿到 40 亿美元银行授信,加上刚融的 66 亿,手里可动用资金超过 100 亿
OpenAI 在 2024 年 10 月 3 日宣布,从摩根大通、花旗、高盛等 9 家银行搞到了一个 40 亿美元的循环信贷额度。这笔钱目前还没动过,加上之前那轮 66 亿美元的融资,公司账上能随时调用的钱超过了 100 亿美元。说白了就是 OpenAI 给自己备了一大笔过冬或扩张的粮草,不是新产品发布。不过公告没提这笔贷款的利率、期限和抵押条件,所以...
#OpenAI#JPMorgan Chase#Sarah Friar#Funding
精选理由
OpenAI刚拿完66亿又搞了40亿的循环贷,账上可动用的钱超过100亿美元。我会先打个折:正文没写利率、期限和抵押条件,所以这更像一个资金实力的信号,而不是能细算成本的融资方案。对关注算力投入和现金流的人来说,这个弹药规模值得一看,但别急着下结论。
一句话点评
OpenAI 拿到 40 亿美元银行授信,加上刚融的 66 亿,手里可动用资金超过 100 亿。但这笔钱还没动,只是备着。
锐评
OpenAI 在 2024 年 10 月宣布,除了从投资人那里拿到 66 亿美元新融资,还跟摩根大通、花旗、高盛等九家银行谈妥了一笔 40 亿美元的循环信贷额度。这笔授信签约时还没提取,相当于一张大额信用卡,需要时随时能刷。加上融资,OpenAI 手头可调动的资金超过了 100 亿美元。 CFO 说这是为了增强资产负债表,方便抓住增长机会。从数字看,这确实给了 OpenAI 很大的操作空间,无论是买 GPU、扩建数据中心还是招人,短期内不用再急着融资。但公告没提这笔授信的具体利率、期限和附加条件,也没说打算什么时候用、用在哪个方向。 对从业者来说,这信号很直接:OpenAI 在囤弹药,下一阶段的算力军备竞赛和人才争夺战只会更烧钱。不过,100 亿流动性听起来多,按现在大模型训练和推理的烧钱速度,也撑不了太久。关键还得看他们能不能把规模优势转化成可持续的收入,而不是只靠融资续命。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
2024-10-02 · 星期三2024年10月2日
10:00
621d ago
● P1OpenAI 博客· rssEN10:00 · 10·02
OpenAI 拿了 66 亿美元新融资,估值推到 1570 亿美元
OpenAI 宣布完成 66 亿美元融资,投后估值 1570 亿美元。钱会花在前沿 AI 研究、增加算力和继续做产品工具上。现在 ChatGPT 每周有超过 2.5 亿人在用。正文没披露具体投资人名单、持股条款,也没说算力具体会扩到多大规模。
#Inference-opt#Tools#OpenAI#ChatGPT
精选理由
OpenAI 官方发的融资公告,66 亿美元、1570 亿估值、2.5 亿周活用户,三个数摆出来就够了。我会先打个折:投资方是谁、股权怎么安排、算力具体扩多少,正文全没写,所以别急着脑补。真正值得盯的是钱又流向了算力,这条线比估值本身更说明问题。
一句话点评
OpenAI 拿了 66 亿美元新融资,估值冲到 1570 亿。钱多到能砸更多算力,但公告没提怎么赚钱、怎么填烧钱速度的坑。
锐评
OpenAI 宣布完成 66 亿美元融资,投后估值 1570 亿美元。这笔钱的核心用途就一句话:继续砸前沿模型研究和扩大算力规模。公告里提到每周有超过 2.5 亿人用 ChatGPT,这个数字说明用户盘子确实大,但没提付费转化率和成本结构。 整篇公告更像给投资人看的定心丸,强调使命、合作、生态,但回避了几个关键问题:这轮钱能烧多久?模型训练和推理成本到底多高?盈利路径有没有时间表?正文没披露任何财务细节,也没说资金分配比例。 对从业者来说,这轮融资最大的信号是 OpenAI 短期内不会放慢烧钱速度,算力军备竞赛还会升级。但估值涨到 1570 亿,市场对回报的耐心也在缩短。还缺的信息是:新钱进来后,API 定价会不会降、开源策略会不会变、以及跟微软等合作伙伴的利益分配有没有调整。
HKR 分解
hook knowledge resonance
打开信源
99
SCORE
H1·K1·R1
2024-10-01 · 星期二2024年10月1日
10:05
622d ago
● P1OpenAI 博客· rssEN10:05 · 10·01
OpenAI 发布 Realtime API 公测版,让开发者直接调用 GPT-4o 做低延迟语音对话
OpenAI 在 2024 年 10 月 1 日推出了 Realtime API 的公测版,所有付费开发者都能用。这个接口通过一个持久的 WebSocket 连接,把音频直接流式传给 GPT-4o,再流式返回语音,省掉了以前那种“先转文字、再生成回复、最后转语音”的串联流程。好处是延迟更低,能保留语气和重音,还能自动处理用户插话。API 支持函数调用,...
#Multimodal#Audio#Agent#OpenAI
精选理由
OpenAI 把语音交互从多模型拼接改成一条 WebSocket 直连 GPT-4o,延迟和打断处理都内建了,还给了函数调用和明确定价。对做实时语音 agent 的开发者来说,这是可以直接动手试的东西,不是概念稿。我会先打个折:公测阶段稳定性、实际延迟和成本还没大规模验证,但信息量和可操作性已经足够当天写。
一句话点评
OpenAI 把 ChatGPT 的实时语音对话能力拆成 API 卖了,音频输入每分钟约 0.06 美元,输出 0.24 美元,比之前拼三个模型省钱,但正文没提延迟具体多少毫秒。
锐评
这条消息的核心是 OpenAI 把高级语音模式的底层能力包装成 Realtime API 公开测试,让开发者不用再串联语音识别、文本模型和语音合成三个环节,一个 WebSocket 连接就能搞定语音对话,还能中途打断插话。这对做语言学习、客服的应用来说,开发复杂度会降一截。 价格方面,文本 token 输入每百万 5 美元、输出 20 美元,音频输入每百万 100 美元、输出 200 美元,折算下来每分钟音频输入约 0.06 美元、输出约 0.24 美元。这个定价比之前自己拼三个模型要便宜,但如果你只是想让模型念一段文字,用 Chat Completions API 加音频输出就够了,没必要上 Realtime API 多花钱。 安全部分说用了自动监控和人工审核,跟 ChatGPT 高级语音模式同一套安全基础设施,但具体误拦截率、审核延迟这些关键指标都没给。另外,正文完全没披露端到端延迟数据,只说“比人类对话慢”,这对实时场景是硬指标,缺了这个数字很难评估能不能真上生产。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
10:04
622d ago
● P1OpenAI 博客· rssEN10:04 · 10·01
OpenAI 给 GPT-4o 开放了图像微调,开发者可以拿图片和文字一起训练模型了
OpenAI 在 2024 年 10 月 1 日上线了 GPT-4o 的图像微调功能,付费开发者现在能上传图片加文字的数据集来定制模型。最少 100 张图就能看到效果,图越多、数据量越大,提升越明显。Grab 用 100 个样本训练后,车道数量识别准确率提高了 20%,限速标志定位准确率提高了 13%;Automat 把桌面 RPA 机器人的任务成功率...
#Vision#Fine-tuning#Multimodal#OpenAI
精选理由
OpenAI 把视觉微调塞进了正式 API,门槛低到 100 张图,还给了两个有数字的客户案例,HKR 三项都踩实了。对做具体业务的人来说,这比发新模型更直接——能用自己的图片数据把模型掰成自己想要的形状。不过定价那段正文截断了,实际成本还得自己算,这点先别太激动。整体影响面不如旗舰模型发布那么大,但实用度很高,所以重要性给 84、放 featured 是合理的。
一句话点评
OpenAI 给 GPT-4o 开放了图像微调,最少 100 张图就能教模型认特定场景,Grab 用这招把车道线识别准确率拉高了 20%。
锐评
这条更新把 GPT-4o 的微调从纯文本扩展到了图像,意味着你可以用带图的对话数据来教模型做更具体的视觉任务。官方说最少 100 张图就能看到效果,Grab 用 100 个样本就让交通标志定位准确率提升了 13%,Automat 用 200 张保险单据截图把信息提取的 F1 分数拉高了 7%。这些数字说明门槛不高,小样本也能见效,但要注意这些都是合作方自己报的数据,没有独立的基准测试来横向对比。 从应用看,三个案例分别指向地图数据自动化、桌面流程机器人和网页生成,都是把通用视觉能力往垂直业务里收窄。Coframe 的例子挺直观:微调后模型生成的网页在视觉风格一致性上比基础版高了 26%,说明模型学会了“照着现有页面风格往下写代码”。 正文没披露图像微调的具体定价和延迟数据,也没提微调后的模型在安全评估上的具体通过率。如果你打算用在医疗影像这类高风险场景,这点信息缺口需要自己补上测试。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
10:03
622d ago
● P1OpenAI 博客· rssEN10:03 · 10·01
OpenAI API 自动缓存重复的提示词前缀,费用直接打五折
OpenAI 给 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 的 API 加上了自动提示词缓存。只要你的请求里有一段超过 1024 个 token 的前缀最近被用过,系统就会自动命中缓存,这部分输入 token 的价格直接减半。缓存从 1024 token 起步,按 128 token 的粒度往上加。不过这个缓存不是...
#Inference-opt#Tools#OpenAI#GPT-4o
精选理由
OpenAI 这次没发新模型,但给 API 加了自动提示缓存,复用前缀就能省一半输入费用。我会先打个折:缓存不是永久的,空闲 5-10 分钟就可能被清,最长活不过 1 小时,所以别把它当长期存储。真正有用的地方是 cached_tokens 这个返回字段,能直接看命中率,团队可以据此优化公共前缀设计。对跑长上下文、固定系统提示或大批量推理的团队,这是近期最直接的成本优化手段,值得马上测一下自己的复用率。
一句话点评
OpenAI 给 API 加了自动缓存:重复用过的长前缀直接打五折,不用改代码。
锐评
OpenAI 在 API 里上线了提示缓存,主要省的是那些反复发相同上下文场景的钱。只要单次请求超过 1024 个 token,系统会自动把最长匹配的前缀缓存起来,下次再用就直接按半价算输入费用。从官方给的价目表看,GPT-4o 的缓存输入降到 $1.25/百万 token,o1-preview 从 $15 降到 $7.5,降幅确实都是 50%。延迟方面官方只说“更快”,没给具体数字,这点先别太激动。 缓存是自动生效的,开发者不用改集成代码,在返回的 usage 字段里能看到 cached_tokens 数量。不过缓存有寿命:闲置 5 到 10 分钟就清掉,最长活不过一小时,而且不同组织之间不共享。这意味着只对高频、重复前缀的调用管用,低频或每次 prompt 都大变样的场景基本吃不到折扣。 正文没提缓存命中率怎么监控、也没说并发高时缓存会不会被挤掉。如果你业务里大量调用是带长 system prompt 或多轮对话,这个功能等于直接砍半输入成本,值得立刻在日志里加上 cached_tokens 的监控看实际命中情况。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
10:02
622d ago
● P1OpenAI 博客· rssEN10:02 · 10·01
OpenAI 在 API 里上线了模型蒸馏,让你用大模型的回答去教小模型
OpenAI 10 月 1 号在自家 API 里推了一套模型蒸馏工具,核心思路是:先用 GPT-4o 或 o1-preview 这类大模型跑出结果,再用这些结果去微调 GPT-4o mini 这种便宜模型,让它在特定任务上接近大模型的表现,但成本更低。整套流程包括三个部分:Stored Completions 负责自动抓取和保存 API 的输入输出对,...
#Fine-tuning#Benchmarking#Tools#OpenAI
精选理由
我会先打个折:这不是新模型发布,而是把模型蒸馏做成 API 内置流水线,附带自动存样本、评测和微调三个套件。正文说 store:true 抓取数据不额外增加延迟,这点先别太激动,实际体验要看并发量。免费 token 额度有截止日期,Evals 免费次数也绑定了与 OpenAI 共享评测的条件,省钱归省钱,但数据会留在对方那边。整体对想用大模型带小模型、又不想自建 infra 的团队挺实用,只是信息缺口在于蒸馏后的模型在具体任务上到底比直接微调强多少,正文没给对比数字。
一句话点评
OpenAI 把模型蒸馏做成了 API 内置流水线,自动存样本、跑评估、微调小模型,省掉了来回倒腾数据的麻烦。
锐评
这条更新解决了一个很实际的痛点:以前想用大模型教小模型,得自己写脚本抓数据、做评估、再微调,来回折腾。现在 OpenAI 在 API 里直接加了“存储补全结果”和“评估”功能,等于把蒸馏的脏活累活打包成了一条流水线。你只要在调用 GPT-4o 时加个 store=true,它就会自动存下输入输出对,不增加延迟。存下来的样本可以直接拿去微调 GPT-4o mini 这类便宜模型,再用内置的评估跑分,看效果够不够上线。 成本方面,存样本免费;评估按 token 收费,但年底前每周有 7 次免费额度(前提是你愿意把评估数据共享给 OpenAI)。微调本身有免费训练 token 额度,到 2024 年 10 月底为止,GPT-4o mini 每天 200 万,GPT-4o 每天 100 万。正文没提蒸馏后模型的实际性能对比数据,也没说这套流程在复杂多轮任务上的稳定性如何。如果只是简单问答或分类,这套工具确实省事;但遇到需要复杂推理的任务,光靠输出蒸馏能学到几成,还得自己实测。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
09:59
622d ago
OpenAI 博客· rssEN09:59 · 10·01
Altera 用 GPT-4o 造了能陪你玩《我的世界》的 AI 队友,最长能撑 4 小时
MIT 前教授创办的 Altera 公司,用 GPT-4o 做出了能在《我的世界》里像朋友一样跟你一起玩的 AI 智能体。到 2024 年中,这些智能体已经能连续自主运行长达 4 小时——比市面上大多数同类产品长不少。核心难点是“数据退化”:AI 自己输出的内容变成下一轮的输入,数据质量会越来越差,时间一长就跑偏。Altera 的做法是把 GPT-4o...
#Agent#Memory#Reasoning#OpenAI
精选理由
HKR 三项都过:Minecraft 合作 agent 的 demo 有钩子,正文给出了并行多模块设计和 4 小时自治的 claim,长期自治的数据退化问题也切中 agent 可靠性要害。但分数卡在 39 是因为硬排除规则第 5 条——这本质上还是供应商的案例页面,没披露基准分数、模型版本细节和成本数据,验证力度太弱。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R1
2024-09-26 · 星期四2024年9月26日
07:00
627d ago
OpenAI 博客· rssEN07:00 · 09·26
明尼苏达州翻译办公室用 ChatGPT 做翻译,先让模型写初稿再人工审
明尼苏达州企业翻译办公室(ETO)把 ChatGPT 接进了翻译流程,今年 7 月正式上线,之前试跑了 4 个月。该州超过 20% 的居民主要说非英语语言,旧流程每份翻译请求可能要等一个月。新流程是模型先出初稿、人工审校,还建了自定义 GPT 术语表来保证文化贴切。团队也在试点用 ChatGPT 语音做实时口译。正文没披露用了哪个模型版本、具体成本或准...
#Tools#Audio#State of Minnesota#OpenAI
精选理由
HKR-K 通过,因为正文有具体工作流细节:4个月试点、2024年7月上线、人工复核并回写术语表。Tier 保持 excluded,因为这是一个供应商客户案例,核心信息只是某州办公室用了ChatGPT,触发了硬排除规则5。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
2024-09-25 · 星期三2024年9月25日
2024-09-24 · 星期二2024年9月24日
07:00
629d ago
OpenAI 博客· rssEN07:00 · 09·24
拉美电商巨头 Mercado Libre 用 GPT-4o 搭了个 AI 开发平台 Verdi,已处理 10% 的客服纠纷
Mercado Libre 上线了一个叫 Verdi 的 AI 开发平台,底层用 GPT-4o、GPT-4o mini 和 GPT-3.5 Turbo。平台让 1.7 万名开发者可以拖拽式搭建 AI 应用,不用写代码,安全规则和路由逻辑都内置好了。目前最典型的场景是自动处理买卖双方的客服纠纷——上线几个月,已经接管了某个主力站点 10% 的纠纷量。按这...
#Agent#Tools#Multimodal#Mercado Libre
精选理由
正文有具体指标和平台细节,HKR-K 和 HKR-R 能过。但本质还是 OpenAI 客户案例,核心看点是 Mercado Libre 用 GPT-4o 降本,属于硬排除的纯营销稿,分数上限 40。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R1
2024-09-23 · 星期一2024年9月23日
03:30
630d ago
OpenAI 博客· rssEN03:30 · 09·23
OpenAI 推出 Academy,先发 100 万美元 API 额度给中低收入国家开发者
OpenAI 在 9 月 23 日宣布成立 OpenAI Academy,首期拿出 100 万美元 API 额度,分给中低收入国家的开发者和公益组织。项目包含专家指导、API 额度、社区和竞赛/孵化器,但正文没披露申请流程、国家名单和时间表。100 万听着不少,但分到全球多个国家,单个项目能拿到的额度可能有限。这点先别太激动,关键看资源怎么分,不是挂个...
#Tools#OpenAI#KOBI#I-Stem
精选理由
这是OpenAI一个具体的项目公告,HKR-K通过是因为100万美元API额度和发展中国家聚焦有信息增量;HKR-H和HKR-R不通过,因为读起来像企业公关稿,且缺少申请流程、国家名单和具体时间表,所以留在all层级。
一句话点评
OpenAI 推出 Academy,面向中低收入国家的开发者,首期提供 100 万美元 API 额度(约 100 个团队各 1 万美金)和专家指导。金额不大,更像一个早期生态扶持项目,而非大规模资助。正文没披露申请门槛、评审标准或具体时间表,目前只有两个合作案例(KOBI 和 I-Stem),验证力度弱。
锐评
OpenAI 这次先投 100 万美元 API credits,再补培训、技术指导和 incubator 叙事,我看着更像渠道建设,不像教育项目本身。名字叫 Academy,但正文给出的硬资源只有 credits,申请流程、覆盖国家、评审机制、发放节奏都没披露。没有这些,外界就没法判断它是在扶持本地开发者,还是在用公益包装早期市场开拓。 100 万美元这个数,放在全球开发者资助里不算大。按 OpenAI API 的常见消耗习惯看,几十个中等活跃团队就能很快吃完,尤其是做语音、视觉、长上下文或高频调用的产品。正文也没写 credit 是一次性发完,还是按里程碑分批拨付;没写给个人、初创公司、NGO 的比例;也没写是否限制模型范围。资源分发规则才决定这条的含金量,OpenAI 现在只给了口号,没给制度。 我对这类项目一直有个固定怀疑:公司说“从低收入和中等收入国家开始”,听上去很对,但落地时最容易被英文申请、合规材料、付款主体、云基础设施可得性筛掉一大批人。文章提到 KOBI、I-Stem,也提到把 MMLU 专业翻译成 14 种语言,这说明 OpenAI 确实知道语言门槛和本地场景问题存在。问题在于,翻译 benchmark 和发 credits 解决不了数据治理、分销、支付、监管这些更硬的摩擦。很多 LMIC 团队缺的不是提示词培训,而是稳定预算、法务路径和本地部署选项。 这里有个文章外的背景。过去一年,Google、Microsoft、AWS、Anthropic 都在用 credits、startup program、非营利支持去抢开发者心智,只是包装不同。云厂那套玩法很成熟:先给额度,后看留存,再把优质团队导入商业合同。OpenAI 现在补这一层,并不意外,因为模型能力差距在缩窄,开发者关系和分发效率会变得更重要。尤其在非英语市场,谁先把本地 builder 社群、案例和付款链路铺起来,谁就更容易拿到长期使用量。 我还有个不太买账的点:正文把“经济增长”和“社区问题解决”放在一起讲,但没给任何衡量框架。是看部署应用数、活跃开发者数、留存、就业,还是后续融资?都没说。没有指标,Academy 就很容易滑成 PR 项目:故事很多,复用很少,年度总结很好看,实际转化一般。OpenAI 当然可以后面再补,但在第一篇公告里完全不写,我会默认他们还没把治理细节搭完。 说真的,这条并不弱,只是别把它读成慈善新闻。它更像 OpenAI 在全球南方提前布点:一边用 credits 换开发者关系,一边筛能长成商用客户或政策样板的团队。如果后续披露能看到明确国家名单、公开评审口径、分批拨付规则、毕业团队留存数据,这项目才算站住。现在我只能给到偏谨慎的正面评价:方向对,机制还太空。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
2024-09-19 · 星期四2024年9月19日
04:00
634d ago
OpenAI 博客· rssEN04:00 · 09·19
生物科技公司 Genmab 全员上 ChatGPT:2000 人用,每人每周省 3.5 小时
Genmab 把 ChatGPT Enterprise 从 1000 人扩到 2000 多人,搞了个“AI Everywhere”计划。员工平均每周省 3.5 小时,每人每周跑 120 次企业版对话,内部建了 100 多个定制 GPT,用来写文档、读文献、做分析、翻译,甚至处理临床试验文件。值得关注的是部署密度:GPT-4o 的视觉能力已经用在生产里,...
#Tools#Vision#Multimodal#Genmab
精选理由
HKR-K 过关,因为提供了可量化的落地指标:2000+ 席位、每周省 3.5 小时、每人 120 次会话、100+ 自定义 GPT。但按硬排除规则第 5 条仍归为 excluded:这是一篇供应商案例,核心信息是客户用了 OpenAI;ROI、模型配置和合规细节正文都没披露。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R1
2024-09-18 · 星期三2024年9月18日
00:00
635d ago
Hugging Face 博客· rssEN00:00 · 09·18
把大模型压到1.58比特:微调也能做到极端量化
Hugging Face 发了一篇博客,讲怎么把现有大模型微调到1.58比特的极端量化。正常模型用16或32位浮点数存参数,1.58比特意味着每个参数只取 -1、0、1 三个值,内存和计算能省一大截。之前 BitNet 架构能做到,但得从头训练,成本太高。这篇说他们找到了微调已有模型到1.58比特的方法,不用重新预训练。不过正文目前只有标题和目录,具体...
#Fine-tuning#Inference-opt#Commentary
精选理由
标题只确认了“1.58比特微调”这个结论,正文缺失方法、模型范围、训练配置和精度损失。HKR-H靠新颖性通过,但HKR-K和HKR-R都不满足,技术可获取性硬性排除把分数压在40以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
2024-09-17 · 星期二2024年9月17日
05:00
636d ago
OpenAI 博客· rssEN05:00 · 09·17
巴西教育公司 Arco 用 GPT-4 帮老师备课,准确率 90%
巴西最大的教育操作系统 Arco Educação 正在 50 所学校试点一个基于 GPT-4 的“教师助手”,计划年底扩展到 600 所学校、覆盖约 7 万学生。核心数据:GPT-4 在葡萄牙语教学内容的创建和评估上准确率 90%,第二名模型只有 73%;老师对 GPT-4 生成的题目认可率 70%,第二名 56%。为了控制成本,Arco 混用了 G...
#Fine-tuning#Tools#Alignment#Arco Educação
精选理由
这是一篇供应商主导的客户案例。数字有用——50所学校、600所计划、90% vs 73%准确率对比——但核心信息就是'Arco用了GPT-4',没有独立验证、没有基准测试、没有可复现方法。正文没披露模型微调细节、数据隐私方案、以及教师实际节省了多少时间。硬排除:纯营销稿。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
2024-09-16 · 星期一2024年9月16日
2024-09-13 · 星期五2024年9月13日
00:00
640d ago
Hugging Face 博客· rssEN00:00 · 09·13
Hugging Face Accelerate 正式发布 1.0.0 候选版
Hugging Face 宣布 Accelerate 1.0.0 进入候选发布阶段。正文没有列出具体的新功能、兼容性变化或升级步骤,只确认了版本号。对 AI 团队来说,关键未知是是否有破坏性改动;目前能确定的只是正式 1.0.0 版本号已定。
#Tools#Hugging Face#Product update
精选理由
Hugging Face 发了 Accelerate 1.0.0 的公告,但正文是空的,没写新特性、破坏性改动、升级路径或性能数据。对从业者来说,版本号本身没有信息量,真正要盯的兼容性变更和迁移成本全没披露,所以 HKR 三项都不满足,归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
2024-09-12 · 星期四2024年9月12日
10:03
641d ago
● P1OpenAI 博客· rssEN10:03 · 09·12
OpenAI 发布 o1 和 o1-mini 推理模型预览版
OpenAI 在 9 月 12 日推出了 o1-preview 和 o1-mini 两个新模型,主打“先思考再回答”。在数学奥赛预选题上,GPT-4o 正确率只有 13%,o1 推理模型做到了 83%,编程能力也到了 Codeforces 前 11%。o1-mini 是个更小更快的版本,成本比 o1-preview 低 80%,适合写代码但不需要太广知...
#Reasoning#Code#Safety#OpenAI
精选理由
这是一次 OpenAI 的重大推理模型发布,三个信号全中。H 来自“先想再答”的新玩法,K 来自具体的基准、安全和定价数字,R 来自从业者必须权衡的现实:推理能力上去了,但 API 基础功能还没跟上。
一句话点评
OpenAI 发了新模型 o1,主打“先想清楚再回答”,数学和编程能力暴涨,但暂时不能联网、传文件,o1-mini 便宜八成但知识面窄。
锐评
这条新闻最值得看的是 OpenAI 把模型命名重置为 o1,说明他们内部认为这是一个代际升级。核心变化是训练模型像人一样花时间思考、试错、自我纠错,而不是直接吐答案。效果很直观:在数学奥赛预选题上,GPT-4o 只做对 13%,o1 做到了 83%;编程竞赛能排进前 11%。安全方面,防越狱测试从 22 分跳到 84 分,提升明显,但系统卡和论文里具体怎么做到的还没细说。 不过这是预览版,功能缺得厉害。API 没有函数调用、不支持流式传输、也不能设系统消息,想把它塞进现有产品流程会很别扭。ChatGPT 端也不能联网、传文件和图片,实用性打折扣。o1-mini 便宜 80%,但官方直说它“不需要广泛的世界知识”,意味着常识类任务可能还不如 GPT-4o。 目前最缺的是第三方评测和实际使用反馈。OpenAI 给的数字都是自家基准,而且模型还在快速迭代,现在下结论太早。如果你要做复杂推理任务,值得一试;如果是日常对话或需要联网的场景,GPT-4o 依然更实用。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
10:02
641d ago
● P1OpenAI 博客· rssEN10:02 · 09·12
OpenAI 发布 o1 预览版,靠增加思考时间把推理能力拉上去了
OpenAI 推出了新模型 o1-preview,主打推理能力。在 AIME 2024 数学竞赛题上,o1 单次答题正确率 74%,GPT-4o 只有 12%;如果让模型对同一道题算 64 次再投票,正确率能到 83%。编程竞赛 Codeforces 上 o1 排到前 11%,GPQA Diamond 博士级科学题正确率超过了人类专家。这些提升靠的是大...
#Reasoning#Code#Benchmarking#OpenAI
精选理由
这是一次有产品含义的实质性研究发布。钩子落在 o1 的推理线和大跨度的基准跃升上,知识性来自可验证的数字和推理扩展律的机制说明,相关性在于它直接冲击模型策略和推理经济学。信息密度高,没有公关腔,给 93 分合理。
一句话点评
OpenAI 发了 o1 预览版,靠强化学习让模型在回答前先“想几步”,数学竞赛题正确率从 GPT-4o 的 12% 拉到 74%。
锐评
这条消息的核心是 OpenAI 把“推理时多算一会儿”这件事做成了产品。o1 在 AIME 数学竞赛题上,单次回答正确率 74%,64 次投票后能到 83%,用评分模型挑 1000 次答案能到 93%,进了全美前 500 名。GPQA 博士级科学题上,它第一次超过了人类专家。这些数字说明,给模型更多“思考时间”(测试时算力)确实能稳定提分,而且训练时用的强化学习算法被他们称为“数据效率很高”,意味着可能不需要海量新数据就能训出这种推理能力。 但要注意几点。第一,正文没披露 o1 的具体推理延迟和单次调用成本,只说“让它像现有模型一样好用还有很多工作要做”,实际用起来可能又慢又贵。第二,所有评测都开了最大测试时算力,日常使用会不会缩水不清楚。第三,模型把思考过程藏起来了,官方理由是安全和对齐,但用户没法检查它的推理逻辑有没有漏洞。这点先别太激动,等 API 大规模开放后看延迟和成本再说。
HKR 分解
hook knowledge resonance
打开信源
99
SCORE
H1·K1·R1
10:00
641d ago
OpenAI 博客· rssEN10:00 · 09·12
OpenAI 公开 o1 贡献者名单,Ilya 在列,但没提技术细节
OpenAI 发了一篇博文,列出了参与 o1 模型的上百号人,分成了 Foundational、Core、Safety 等至少 10 个组。名单里出现了 Jakub Pachocki、Noam Brown 和 Ilya Sutskever,还感谢了微软 Azure、Bing 和安全团队提供训练基础设施和部署支持。但正文没披露任何新的技术细节、参数规模或...
#Reasoning#Safety#Alignment#OpenAI
精选理由
HKR-K 通过,因为帖子披露了 o1 的具名贡献者和微软基础设施/安全角色。HKR-H 和 HKR-R 不通过:这只是一份致谢名单,没有新模型细节、基准测试、定价或时间表,因此属于低价值区间。
一句话点评
OpenAI 发了一篇 o1 贡献者名单,列了上百号人,从研究到安全到红队。正文没披露任何技术细节或新结论,就是一份致谢。对从业者来说,唯一价值是看看哪些人参与了推理模型的安全评估,比如外部红队和 Preparedness 团队。
锐评
OpenAI 这篇帖文列出至少 10 个分组、数百名 o1 参与者,却没有给出一项新技术细节。我的判断很直接:它的主要功能不是解释 o1 怎么做出来,而是重新定义“谁算做出了 o1”。 名单本身有信息量。Jakub Pachocki、Noam Brown、Ilya Sutskever 这些名字同框,说明 o1 被 OpenAI 放在“推理研究主线”里,不是普通产品迭代。微软 Azure、Bing 和微软安全团队被单独致谢,也说明这代模型从训练基础设施到部署风控,都带着很重的微软协作痕迹。这对外部读者是组织地图。对从业者来说,它也在传递一个更现实的信号:前沿模型已经很难再被讲成几位研究员的单点突破。 但我对这种发布方式有点保留。文章给了人名,没给机制;给了分工,没给结果。标题已经给出 o1,正文没披露参数、训练算力、数据变化、推理链路、评测增益,也没交代 system card 之外的新安全方法。你当然可以说贡献名单本来就不是技术报告,这没错。问题在于 o1 当时本来就处在外界强烈追问阶段,OpenAI 选在这个节点发 roster,我看着更像是在处理两件事:一是内部归功,二是外部归责。以后若有安全争议、版权争议、或产品化争议,这种分层名单会让“我们有完整流程、完整责任链”这套说法更好成立。 我一直觉得,过去一年大模型公司都在把“论文署名”换成“产品贡献制”。Anthropic 发模型时,公开的是 system card、评测和少量核心作者,不太爱铺长名单。Google DeepMind 偶尔会用长作者列表配技术报告,但通常会把 benchmark、架构方法、训练设定一起放出来。OpenAI 这次只给 roster,不给技术正文,姿态很企业,不太研究。你要说这是不是坏事,我不这么看。模型越接近大规模部署,法务、安全、infra、go-to-market 的贡献本来就该被看见。只是它也顺手稀释了外界对“到底哪项方法带来 o1 提升”的追问。 还有一层更微妙。名单里同时强调 Preparedness Evaluations、内外部 red teaming、安全基础设施,说明 OpenAI 很清楚 o1 的卖点不只是“更会推理”,也是“更能被部署”。这和 2024 年很多公司的路线接近:能力提升开始和可控性、可审计性绑在一起卖。我记得 Anthropic 那段时间也在反复强调 ASL、system card 与部署门槛,Meta 则更偏开源分发。OpenAI 这里走的是另一条路:先把组织能力摆上桌,再让外界接受黑箱更深的现实。 我不太买账的一点,是这份名单很容易被读成透明度提升。说实话,这不算。透明度不是把几百个名字公开。透明度至少要补上几类可复现信息:哪些能力是训练时得到的,哪些是推理时策略堆出来的,安全评估覆盖了哪些高风险域,微软团队具体承担了什么边界职责。正文都没给。名单解决了“谁参与”,没解决“发生了什么”。 所以这条消息更像一次公司治理层面的公开备案。它告诉你,o1 已经不是单一模型项目,而是一个跨研究、产品、安全、合作方的复合工程。这个判断对行业是有用的,因为它抬高了后来者的进入门槛:你不只要有模型研究员,还得有评测、安全、基础设施、伙伴协同的整套机器。可如果你想从这篇文里读出 o1 的技术路线,基本读不到。OpenAI 这次公开的是组织厚度,不是方法厚度。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
00:00
641d ago
OpenAI 博客· rssEN00:00 · 09·12
OpenAI 用 o1 模型帮遗传学家解读两万个基因
OpenAI 发了个案例,说遗传学家 Catherine Brownstein 拿 o1 模型做遗传学分析。o1 的特点是回答前会多花时间推理,而不是直接吐结果。她提到人类记不住两万个基因的细节,但 AI 可以。不过这篇更像宣传稿:没给任何评估指标、准确率、临床效果,也没说部署方式。如果你想知道 o1 比 GPT-4 在基因分析上快多少或准多少,正文没披露。
#Reasoning#OpenAI#Catherine Brownstein#Commentary
精选理由
这是 OpenAI 的客户案例式宣传,属于硬排除——纯营销。正文只给了“面对约2万个基因”这个背景和 o1 主打“回答前花更多时间思考”的卖点;评测方法、准确率、临床结果和部署条件都没披露。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
00:00
641d ago
OpenAI 博客· rssEN00:00 · 09·12
OpenAI 发了个 o1 用量子物理问题做演示的案例
OpenAI 在 2024 年 9 月 12 日发了一篇博客,说 o1 模型能回答量子物理问题。全文只强调 o1 会花更多时间思考,在科学、编程和数学上比之前模型表现更好,但没公布测试集、具体指标或错误率。这更像一个能力展示,不是可复现的评测。如果你想知道它到底答对了多少、在哪些问题上翻车,正文里一个字都没提。
#Reasoning#OpenAI#Mario Krenn#Product update
精选理由
这是 OpenAI 的一篇案例展示页,不是可复现的实验报告。HKR-H 靠跨领域 hook 通过,但 HKR-K 不通过,因为正文没给测试集、分数或误差率;HKR-R 很弱。触发硬排除:传统科学交叉 / 纯营销。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
2024-09-05 · 星期四2024年9月5日
08:00
648d ago
OpenAI 博客· rssEN08:00 · 09·05
客服机器人 Ada 用 GPT-4 把问题解决率从 30% 拉到 60%,头部客户超过 80%
客服平台 Ada 把 GPT-4 塞进客服流程,搞了一套新评估标准:不看“机器人挡了多少问题”(行业常用的 containment rate,能到 80–100% 但体验很差),而是看“问题到底解决了没有”。结果自动解决率从 30% 翻倍到 60%,头部客户超过 80%。评估框架用 GPT-4 加历史数据打分(相关性、准确性、安全性),和人工审核的一致...
#Agent#Fine-tuning#Benchmarking#OpenAI
精选理由
文章包含可用数据,因此 HKR-K 和 HKR-R 通过。但它仍然触发了硬排除条件——纯营销:这是一篇 OpenAI 托管的客户案例,核心结论是 Ada 用了 GPT-4 后客服指标变好了,因此 importance 上限不超过 40。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R1
2024-09-04 · 星期三2024年9月4日
00:00
649d ago
Hugging Face 博客· rssEN00:00 · 09·04
Hugging Face 接入 TruffleHog 扫密钥,泄露了会发邮件通知
Hugging Face 宣布和 TruffleHog 合作,在平台上加了一道密钥扫描。现在每次有人 push 代码或文件,系统会用 TruffleHog 跑一遍,发现能用的密钥(verified secret)就发邮件提醒用户去处理。扫不出来的不一定是安全的,可能只是对方服务挂了。另外 TruffleHog 也出了个原生 Hugging Face 扫...
#Tools#Safety#Hugging Face#TruffleHog
精选理由
HKR-R 通过,因为密钥泄露是真实的开发者痛点。HKR-H 和 HKR-K 不通过:文章只确认了合作和目的,没有范围、触发机制、默认开启策略或指标,所以这只是一个低带宽的“全部”合作/产品更新。
一句话点评
Hugging Face 把开源密钥扫描工具 TruffleHog 直接集成到平台里,以后每次上传模型或数据集都会自动扫一遍有没有泄露的 token、密码。扫到确认有效的密钥会发邮件通知你,但没确认的不代表安全,可能只是对方服务挂了。另外 TruffleHog 也出了个原生命令,用户可以自己扫自己的账号、组织甚至单个模型。目前还不支持 LFS 大文件,团队说后续会补。整体是个实用的安全加固,...
锐评
Hugging Face 这次宣布与 TruffleHog 合作扫描敏感凭证,但正文未披露扫描范围、触发条件、默认策略。对平台安全来说,这三个信息比“合作”两个字重要得多。我先说判断:这条方向是对的,力度暂时看不出来。要是只做成“作者手动点一下”的可选工具,拦不住大多数真实泄漏;要是能卡在 push、上传、Space 构建、模型资产发布这些入口,价值就完全不一样。 我对这条会多看一眼,不是因为 secret scanning 这事新,而是因为 Hugging Face 的资产形态比普通代码托管平台更杂。它不只有 Git 仓库,还有 dataset、model card、Space、权重文件、配置文件、示例 notebook、构建日志。凭证泄漏经常就藏在这些边角里,不只是在 .env。GitHub 早就把 secret scanning 做成平台级能力了,公开仓库和 partner patterns 这些年一直在扩;GitLab、Sourcegraph 以及一堆 CI 安全工具也都在做相近的事。Hugging Face 现在补这一课,不算超前,更像把一个迟到但必要的控件装上去。 我有个明确的保留意见:标题里的“scan for secrets”听着很稳,实际误报和漏报一直很烦。TruffleHog 的长处是高熵字符串加 provider 验证,很多场景比纯 regex 靠谱,这个业内都知道;但平台集成一旦扩大到模型资产和数据集,噪声会不会飙升,我还没看到任何说明。比如训练样本里本来就包含 token 样式字符串,或者安全研究数据集刻意收录泄漏样本,这些该怎么分流?正文没给。再往前一步,发现 secret 之后是阻断、告警、自动吊销,还是只发邮件?也没给。没有 remediation flow,扫描就容易沦为看板指标。 还有个点我不太买账:如果这次合作不是默认开启,而是仓库管理员手动 opt-in,覆盖面大概率不会高。公开平台的安全功能,默认策略基本决定实际效果。GitHub Advanced Security 这些年一个核心经验就是,安全能力放在付费包、手动开关、或只对企业仓默认,最后总有一大片长尾项目漏在外面。Hugging Face 的风险面还更特殊,因为很多实验型项目、demo Space、社区数据集恰恰最容易把凭证写进去。 说真的,我更想知道它集成在哪一层。要是只扫代码仓,帮助有限;要是连 Space secrets、构建日志、上传文件、LFS 对象、dataset viewer 后端都能覆盖,这条就硬很多。我还没查到原文,标题只给了合作方向,没给执行面。现阶段我的结论很简单:先别把它当成 Hugging Face 安全能力大升级,它先是一次补洞表态。等他们把默认开关、阻断位置、扫描对象、处置流程写清楚,再谈实际防护强度。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K0·R1
2024-08-26 · 星期一2024年8月26日
04:00
658d ago
OpenAI 博客· rssEN04:00 · 08·26
亚利桑那州立大学用 ChatGPT 铺了 200 多个项目,覆盖八成院系
亚利桑那州立大学(ASU)说,到 2024 年 7 月已经收到 400 多份 ChatGPT 提案,激活了 200 多个项目,覆盖大部分院系。关键信号是部署密度——提案在几周内就覆盖了 80% 以上的学院,集中在教学、公共利益研究和运营。正文提到用了 ChatGPT Edu 和 Enterprise,但没有披露买了多少席位、花了多少钱、以及具体效果指标...
#Tools#Arizona State University#OpenAI#Michael M. Crow
精选理由
正文给了落地密度(400+方案、200+项目、80%+学院),K和R都够。但本质是OpenAI的客户宣传稿,没披露采购规模、费用和效果指标,信息缺口明显,所以维持excluded且上限卡在36。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R1
2024-08-22 · 星期四2024年8月22日
11:06
662d ago
欧盟 AI 法案· rssEN11:06 · 08·22
欧盟《AI法案》规定欧盟委员会AI办公室职责
这篇文章的标题是《AI法案:欧盟委员会(AI办公室)的职责》,但点进去发现正文根本没列出AI办公室具体要干什么、怎么执法、时间表是什么。目前能确定的是,AI办公室负责监管通用AI模型和高风险系统,但具体执行细节还没出来。对于做AI产品的团队来说,关键得盯着后续的实施细则,因为执法力度直接决定合规成本有多高。
#European Commission#AI Office#Policy
精选理由
标题说的是欧盟《AI Act》下AI Office的职责,但RSS只给了标题,正文是空的。具体管什么、怎么罚、什么时候生效、谁要遵守,全没写。对做模型和应用的人来说,这事确实跟合规和上线风险挂钩,但信息量等于零。先别激动,等细则出来再判断。
一句话点评
欧盟《AI法案》把成员国和AI办公室的职责分清了:成员国管高风险系统的审批和处罚,AI办公室盯通用模型(比如GPT)的合规。正文没披露具体罚金或人员编制,执行力度还不好说。
HKR 分解
hook knowledge resonance
打开信源
49
SCORE
H0·K0·R1
2024-08-21 · 星期三2024年8月21日
00:00
663d ago
Hugging Face 博客· rssEN00:00 · 08·21
Hugging Face 用 Flash Attention 2 做 packing 训练,吞吐量翻倍
Hugging Face 发了一篇博客,说他们把 packing(把多个样本拼成一个序列,不填充空白)和 Flash Attention 2 结合起来了,训练吞吐量最高能到原来的 2 倍。以前 packing 用 Flash Attention 2 会跨样本算注意力,导致模型学歪,现在他们通过一个叫 `flash_attn_varlen_func` 的...
#Tools#Hugging Face#Product update#Commentary
精选理由
只有标题:Hugging Face说FA2 packing能提升训练效率,但正文没给提速数字、显存变化、模型覆盖范围或复现条件。角度也很窄,就是训练栈底层优化,所以直接归入硬排除——技术可及性不足,且受众面小。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
2024-08-20 · 星期二2024年8月20日
10:00
664d ago
● P1OpenAI 博客· rssEN10:00 · 08·20
OpenAI 开放 GPT-4o 微调,训练费每百万 token 25 美元,9 月 23 日前每天送 100 万免费额度
OpenAI 把 GPT-4o 的微调权限开放给所有付费开发者了。训练价格是每百万 token 25 美元,用微调后的模型跑推理,输入每百万 token 3.75 美元,输出每百万 token 15 美元。到 9 月 23 日为止,每个组织每天能免费拿到 100 万训练 token。官方说,几十条样本就能让模型在特定任务上听话不少,比如调整回答风格、遵...
#Fine-tuning#Code#Benchmarking#OpenAI
精选理由
OpenAI 这次给 GPT-4o 开放微调,不是画饼,是直接上线了。我会先打个折:免费额度只到 9 月 23 号,每天 100 万 token,够你跑个小实验但别指望白嫖大项目。训练每百万 token 25 美元,推理输入 3.75、输出 15,价格不算低,但比从头训模型省事太多。真正值得盯的是两个外部团队的成绩——Cosine 在 SWE-bench Verified 上刷到 43.8%,Distyl 在 BIRD-SQL 上拿到 71.83%,说明微调后的 GPT-4o 在代码和 SQL 场景确实能打。正文没披露这两个微调具体用了多少数据、什...
一句话点评
GPT-4o 开放微调了,9 月 23 号前每天送 100 万训练 token,训练费每百万 token 25 美元,推理费输入 3.75 美元、输出 15 美元。
锐评
OpenAI 终于把 GPT-4o 的微调权限放出来了,这是开发者呼声最高的功能之一。简单说,你现在可以拿自己的数据去教 GPT-4o 按你的风格、格式或专业领域要求来回答问题,几十条样本就能看到效果。价格方面,训练费每百万 token 25 美元,推理费输入 3.75 美元、输出 15 美元,不算便宜,但 9 月 23 号前每天白送 100 万训练 token,可以先低成本试水。文章举了两个合作案例:Cosine 的 AI 编程助手 Genie 用微调后的 GPT-4o 在 SWE-bench Verified 上拿了 43.8% 的最高分,Distyl 在 BIRD-SQL 文本转 SQL 榜单上以 71.83% 的执行准确率排第一。这两个数字说明微调确实能拉高垂直任务的上限,但要注意,这些都是官方合作的“成功故事”,实际效果还得看你的数据质量和任务匹配度。正文没提微调后模型延迟会不会增加,也没给更细的稳定性指标,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
10:00
664d ago
OpenAI 博客· rssEN10:00 · 08·20
Upwork 全面接入 OpenAI:GPT-4o 做反欺诈,GPT-3.5 写招聘帖,98% 员工选 ChatGPT Enterprise
Upwork 把自己变成了“OpenAI 店”——全线产品、内部运营和反欺诈都用 OpenAI 模型。具体效果:GPT-3.5 写的招聘帖生成器让客户发帖时间缩短 80%,用这个功能的客户在 Upwork 上多花了 9%;早期版本的 AI 助手 Uma 让新客户首月消费高了 7%。反欺诈那边用 GPT-4o 自动识别低质量帖子和诈骗帖,省掉了大量人工审...
#Tools#Code#Safety#Upwork
精选理由
HKR-K 通过,因为文章包含具体的部署事实:GPT-3.5/GPT-4o 的使用和三个结果数字(80%、9%、7%)。但这仍然是第一方客户案例研究,其结论是'Upwork 使用 OpenAI 并受益',触发硬排除——纯营销,因此排除。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
2024-08-16 · 星期五2024年8月16日
2024-08-15 · 星期四2024年8月15日
07:00
669d ago
OpenAI 博客· rssEN07:00 · 08·15
Indeed 用微调 GPT 给求职者写推荐理由,日处理 2000 万条消息
招聘平台 Indeed 把微调后的 GPT 模型塞进“邀请投递”功能,每天给近 2000 万条求职推荐配上个性化解释,告诉用户“为什么这个岗位适合你”。相比用 few-shot 提示词硬撑,微调后 token 用量降了 60%,成本省了一大截。A/B 测试显示,带 GPT 解释的推荐让求职者开始申请的比例涨了 20%,后续雇主确认匹配成功的比例也高了 ...
#Fine-tuning#Tools#Benchmarking#Indeed
精选理由
硬排除——纯营销案例,核心信息就是Indeed用了OpenAI。HKR-K和HKR-R靠具体规模和ROI指标过关,但正文没交代模型版本、定价和可复现性,分数卡在40以下,排除。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R1
2024-08-14 · 星期三2024年8月14日
10:00
670d ago
OpenAI 博客· rssEN10:00 · 08·14
OpenAI 与大都会博物馆合作:用 AI 让一件 1931 年的婚纱开口说话
OpenAI 和大都会博物馆在“睡美人:时尚苏醒”展里做了一个叫“与娜塔莉聊天”的互动体验。观众可以问一件 1931 年婚纱的主人娜塔莉·波特关于她生活、婚礼和时代的问题。背后逻辑是:博物馆把信件、报纸、历史文档整理成资料库,OpenAI 用大模型加上定制指令,让模型只按这些资料回答,相当于一个博物馆级的“外挂资料库”加角色扮演。内容经过策展人审核,安...
#RAG#Safety#Tools#OpenAI
精选理由
硬排除-5(纯营销):这是博物馆客户案例,不是产品发布或研究突破,所以分数压在40以下。HKR-H靠'跟1931年新娘聊天'的钩子通过;HKR-K缺模型、规模、评估和上线细节;HKR-R缺乏行业利害关系。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
2024-08-13 · 星期二2024年8月13日
10:00
671d ago
● P1OpenAI 博客· rssEN10:00 · 08·13
OpenAI 发布 SWE-bench Verified:人工复核过的代码能力测试集
OpenAI 和 SWE-bench 原作者一起搞了个“验过货”的子集,叫 SWE-bench Verified。他们发现原版测试有坑:单元测试太死板、问题描述含糊、环境搭不起来,导致明明对的代码被判错,会系统性地低估模型写代码的真实水平。截至 2024 年 8 月 5 日,头部智能体在原版 SWE-bench 上得分约 20%,在 SWE-bench...
#Code#Benchmarking#Safety#OpenAI
精选理由
这不是一次常规发布。OpenAI 拉着原作者把 SWE-bench 翻了一遍,点出三类硬伤,还给出了新的分数天花板。我会先打个折:正文没披露修正后的完整新榜单,但现有数据已经足够让人重新审视那些代码智能体的评测成绩。
一句话点评
OpenAI 自己动手修了 SWE-bench 的 bug,筛出 500 道更靠谱的题,之前很多模型分数其实被低估了。
锐评
OpenAI 发现 SWE-bench 这个流行的代码能力测试有不少坑:单元测试太死板、问题描述含糊、环境搭不起来,导致很多能用的方案被判错。他们和原作者合作,人工复核了全部 2294 道题,筛出 500 道没毛病的,叫 SWE-bench Verified。用这套新题跑,GPT-4o 的分数从 33% 涨到 50%,说明之前确实低估了模型。 这事本质是 OpenAI 在为自家的安全评估框架找更准的尺子,因为自动写代码的能力被他们划进了中等风险。不过文章只提了 GPT-4o 的分数,没给其他模型在新题上的对比,也没说人工标注花了多少钱、标准会不会再变。这套题能不能成为行业默认,还得看后续有没有更多模型愿意在上面晒分。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2024-08-12 · 星期一2024年8月12日
00:00
672d ago
Hugging Face 博客· rssEN00:00 · 08·12
Falcon Mamba 7B 发布:第一个能打的纯 Mamba 模型,不用注意力机制
阿布扎比 TII 发布了 Falcon Mamba 7B,这是第一个通用型纯 Mamba 架构的大模型,完全不用注意力机制。传统 Transformer 处理长序列时,计算和显存会随长度平方级增长,而 Mamba 架构能做到推理时显存不随序列长度增加,生成每个 token 的时间也是恒定的,不受上下文长度影响。模型在单张 A10 24GB GPU 上就...
#Falcon Mamba#Product update
精选理由
标题的钩子确实在:一个 7B 的无注意力模型很少见,H 成立。但正文完全空白,RSS 摘要只确认了名字、规模和定位,没有跑分、上下文长度、训练数据或许可证,K 和 R 都不满足。所以这条只能放在低优先级全量推送,不值得上推荐位。
一句话点评
Falcon Mamba 是第一个纯 Mamba 架构的 7B 模型,不用注意力机制,靠状态空间模型(SSM)处理长文本。官方说它推理时显存占用不随序列长度增长,单张 A10 24GB 显卡就能跑任意长序列,生成每个 token 的时间恒定。这点对长文档、多轮对话场景很友好。但注意,它只在部分基准上接近同尺寸 Transformer 模型,不是全面超越。正文没披露训练数据组成和具体推理速度对...
锐评
标题给出的硬信息只有两点:Falcon Mamba 是 7B,而且走 attention-free 路线。正文没披露训练数据、基准、上下文长度、许可证、推理吞吐,连“strong”是对谁强都没定义。所以这条我不会按模型能力新闻来读,我更愿意把它当成一条架构宣示:Falcon 这支线想证明,7B 这个主流参数带里,不靠 Transformer attention 也能打到可用区间。 我对这个方向一直有保留。attention-free 的卖点大家都懂,长上下文时理论扩展更顺,KV cache 压力也有机会降,部署成本账面上更好看。问题是过去一年,这条线在研究圈声量不小,在开发者实际采用上始终没冲进主航道。Mamba、Mamba-2、RWKV 这类名字,做模型的人都听过;真到了 production,大家买单的还是 Llama、Qwen、Mistral 这套 Transformer 家族。原因也不神秘:生态、工具链、后训练经验、量化兼容、框架优化,几乎全围着 attention 长出来。你单靠“不是 attention”拿不到席位,除非你把一个特别硬的指标直接拉开,比如同等显存下 10 倍上下文,或者同等延迟下明显更高吞吐。标题没给这些数字,我没法替它补。 还有个我不太买账的地方:7B 现在不是一个容易讲故事的尺寸。2024 年开源主流已经被 Llama 3 8B、Qwen2 7B、Mistral 7B 这种模型打得很满,大家对 7B 的预期很实际:要么便宜好部署,要么在特定任务上有异常高的性价比。Falcon Mamba 如果只是“第一个强 attention-free 7B”,这句宣传本身不构成护城河,因为“第一个”只在基准成立、复现条件清楚、而且社区愿意迁移时才有分量。许可证如果偏限制,故事还会再弱一截;可惜正文连这点都没给。 我更想看三组数据。第一,长上下文困境到底解了多少,32k、128k 还是更高,困惑度和检索任务怎么掉。第二,推理侧到底省了多少,吞吐、延迟、显存占用要和 Llama 3 8B 或 Qwen2 7B 放同一硬件上比。第三,后训练和工具调用是否稳定,这类新架构经常在 base model 上看着漂亮,一进 instruction tuning 和 agent loop 就开始露短。现在只有标题,我最多承认这是一条有技术野心的发布;离“强模型”四个字,还差一整页该公开而没公开的数据。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
2024-08-08 · 星期四2024年8月8日
00:00
676d ago
● P1OpenAI 博客· rssEN00:00 · 08·08
GPT-4o 系统卡:语音响应快过人类,但声音安全是最大隐患
OpenAI 在 8 月 8 号发了 GPT-4o 的系统卡,把安全底牌摊开来看。这个模型能直接吃文本、音频、图片和视频,输出也一样,最快 232 毫秒就能回话,平均 320 毫秒,跟人聊天反应速度差不多。API 价格比 GPT-4 Turbo 便宜一半。在 OpenAI 自己的安全框架里,网络安全、生物威胁、模型自主性三项风险都是低,说服力这项擦边踩...
#Multimodal#Audio#Safety#OpenAI
精选理由
这不是一篇例行公事的发布。它把 preparedness 四类风险评级、232 毫秒语音延迟和明确的部署门槛都摆出来了。HKR 三项全中,但本质是安全披露而非新模型或重大产品发布,所以放在 featured 而不是 p1。
一句话点评
OpenAI 发了 GPT-4o 的安全说明书,语音反应速度跟人差不多,但说服力这项风险刚好踩线,这点先别太激动。
锐评
OpenAI 自己把 GPT-4o 的安全底牌摊开了。这份报告最值得看的是他们对语音功能的风险评估,比如防止模型冒用别人声音、识别说话人是谁,以及会不会生成不该说的内容。最终结论是语音并没有明显拉高整体风险,在网络安全、生物威胁和模型自主性这三项上都是低风险,唯独“说服力”这项评了个中等,属于刚好能上架的边缘水平。 报告里给了几个关键数字:语音回复最快 232 毫秒,平均 320 毫秒,和人对话的反应时间差不多;API 调用成本比 GPT-4 Turbo 便宜了一半。不过正文没披露具体用了多少数据、模型参数量多大,也没给出说服力风险的具体测试场景和边界条件,所以这个“中等”到底有多容易越界,还得看后续实际使用中的表现。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2024-08-07 · 星期三2024年8月7日
16:00
676d ago
OpenAI 博客· rssEN16:00 · 08·07
乐天用 OpenAI API 打通 70 多个服务的数据,客服等待从几天缩到自动回复
乐天集团把 OpenAI 的 API 接入了自家 70 多个在线服务的数据,覆盖 18 亿会员和 5.7 万日本商家。他们用 GPT-3.5、RAG(外挂资料库)和 Code Interpreter 做了三件事:客服工单从等几天变成自动回复、给商品评论自动提炼要点、帮 B 端客户做市场分析和销售趋势。正文没披露准确率、成本和实际部署范围,所以这点先别太...
#RAG#Tools#Multimodal#Rakuten
精选理由
这是OpenAI的客户案例,不是实质性的产品或研究更新。HKR-K因为70多项服务、18亿会员和GPT-3.5+RAG细节拿到一些分,但硬排除-纯营销和云厂商推广适用,因为成本、准确率和部署范围未披露。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K1·R0
2024-08-06 · 星期二2024年8月6日
10:00
678d ago
● P1OpenAI 博客· rssEN10:00 · 08·06
OpenAI 给 API 加了“结构化输出”,让模型按你给的 JSON 模板回话
OpenAI 在 2024 年 8 月 6 日上线了 Structured Outputs 功能,模型能严格按开发者提供的 JSON Schema 输出,不再只是生成合法 JSON 就完事。新模型 gpt-4o-2024-08-06 在复杂 schema 测试里拿了 100% 的准确率,而老模型 gpt-4-0613 不到 40%。用法上,在函数调用里...
#Tools#Agent#Inference-opt#OpenAI
精选理由
我会先打个折,这不是新模型发布或公司级大事件,但把 JSON 模式从“输出合法 JSON”升级到“严格匹配你的 schema”,并且给出 100% 对不到 40% 的评测对比,对天天跟解析错误搏斗的开发者来说太解渴了。约束解码加模型训练这套组合拳,比旧版 JSON mode 靠谱得多,直接拉高了工具调用的下限。84 分给的是一个高价值的 API 能力更新,不是行业地震,但够实用。
一句话点评
OpenAI 给 API 加了个硬约束,让模型输出必须严格匹配你给的 JSON 模板,内部测试里 gpt-4o 做到了 100% 合规。
锐评
这条更新解决了一个很实际的痛点:以前让模型输出固定格式的 JSON,得靠反复提示、重试和各种开源工具兜底,现在直接在生成阶段就卡死格式。OpenAI 说新模型 gpt-4o-2024-08-06 在复杂 JSON Schema 测试里拿了满分,而老模型 gpt-4-0613 不到 40%。这个提升幅度很大,意味着以前因为格式错乱导致的流程中断能少很多。 实现上分两种方式:函数调用里开 strict: true,或者直接在响应格式里指定 json_schema。底层用了约束解码,只允许生成符合语法规则的 token,不是靠提示词碰运气。不过要注意,首批只支持新的 gpt-4o 模型,老模型和微调版暂时用不了。另外,正文没提这种硬约束对回答质量有没有副作用,比如为了凑格式牺牲了内容的灵活性。实际用起来,还得观察它在复杂业务逻辑下的表现。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
2024-07-30 · 星期二2024年7月30日
2024-07-25 · 星期四2024年7月25日
00:00
690d ago
● P1OpenAI 博客· rssEN00:00 · 07·25
OpenAI 发布 SearchGPT 原型,把实时搜索塞进聊天框里
OpenAI 在 7 月 25 号开始小范围测试 SearchGPT,一个临时上线的 AI 搜索原型。它直接用对话形式返回带实时信息的答案,每条信息都附有内联的出处标注,侧边栏还会列出更多来源链接,方便你点进去核实。这个原型目前只开放给一小部分用户和出版商试用,目的是收集反馈。官方明确说这只是个过渡产品,未来会把好用的功能整合进 ChatGPT 里。正...
#RAG#Tools#OpenAI#The Atlantic
精选理由
我会先打个折:正文没披露模型名、规模、商用时间,所以没法往 90 以上打。但 OpenAI 拿一个带实时网页回答和出版商参与的独立搜索原型出来测试,当天就该写。它用文内引用和侧边栏来源链接解决了一部分可信度问题,连续追问也让搜索更像对话,这些点从业者会关心。不过别太激动,它只是个临时原型,最终要融进 ChatGPT,现在更像 OpenAI 在试探搜索边界和出版商关系。
一句话点评
OpenAI 放出了一个叫 SearchGPT 的搜索原型,直接给答案并附来源链接,但只在小范围测试,还没整合进 ChatGPT。
锐评
OpenAI 在 2024 年 7 月 25 日公开了 SearchGPT 原型,核心是把大模型的对话能力和实时网页信息拼在一起,你问它答,答案里直接标出处、给链接,还能像聊天一样追问。目前只开放给一小批用户和出版商试用,目的是收集反馈,未来会把好的功能整合进 ChatGPT。 值得留意的是,OpenAI 特意强调这个搜索功能和训练生成式模型是两码事:就算网站拒绝被拿去训练 AI,依然可以出现在搜索结果里。这明显是在安抚出版商,还拉来了《大西洋月刊》和新闻集团的 CEO 站台背书。但正文没披露测试规模有多大、延迟多少、答案的准确率如何,也没说清楚和现有搜索引擎(比如 Google 或 Bing)的具体差异在哪。 我会先打个折:这还是个临时原型,离正式产品有距离。对从业者来说,看点在于 OpenAI 怎么在“直接给答案”和“给网站导流”之间找平衡,以及出版商控制面板到底能管到什么程度。这些细节目前都还缺着。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
00:00
690d ago
Hugging Face 博客· rssEN00:00 · 07·25
LAVE:用大模型给文档问答打分,零样本下还需要微调吗?
Hugging Face 团队在开发 Docmatix 时发现,用这个合成数据集微调 Florence-2 后,模型在 DocVQA 基准上得分很低,但人类评估反而觉得效果更好。问题出在传统指标(如精确字符串匹配)对零样本场景太严格——模型答对了但格式或措辞不同就会被判错。他们提出 LAVE(LLM 辅助评估),用大模型判断答案语义是否一致,而不是死抠...
#Vision#Multimodal#Benchmarking#Benchmark
精选理由
标题钩子成立(H),话题有实际价值(R),但正文只交代了任务设定是零样本 VQA 评测,模型、指标、数据集规模、结论一概没有,属于硬性信息缺失,按规则排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
2024-07-24 · 星期三2024年7月24日
09:00
691d ago
● P1OpenAI 博客· rssEN09:00 · 07·24
OpenAI 用“规则打分”替代部分人工反馈,让模型在安全问题上更听话
OpenAI 在 7 月 24 日公开了他们用在安全对齐上的新方法:Rule-Based Rewards(RBRs),也就是用一套事先写好的规则给模型回复打分,而不是每次都靠人反复标注。这套方法把模型面对敏感请求时的反应分成三类——硬拒绝(简短道歉并明确说不)、软拒绝(带同理心地拒绝)和正常遵从——然后针对每类行为设定具体的评判标准,比如“回复是否在说...
#Alignment#Safety#Fine-tuning#OpenAI
精选理由
我会先打个折:正文截取部分没给具体效果数字,也没对比基线,所以分数压在 78–84 这个区间。但 OpenAI 把安全规则显式写进奖励模型这件事本身值得关注,因为它解决的是工程上很实际的麻烦——政策一改,不用重新雇人标一堆数据,改规则就行。三种响应模式(硬拒、软拒、合规)让模型拒绝时不会太生硬,这点对产品体验有帮助。不过别太激动,论文没披露误拒率或漏判率,实际线上表现还得看后续有没有更细的评测。
一句话点评
OpenAI 用一套写死的规则代替人工反馈来训练模型的安全行为,省去了反复收集人类偏好数据的麻烦。
锐评
这篇技术博客讲的是 OpenAI 在安全对齐上的一种新做法:Rule-Based Rewards(RBRs),也就是用事先写好的、分步骤的规则来给模型输出打分,替代传统 RLHF 里需要大量人工标注的奖励模型。好处很明显,规则是明确的,安全政策一改,直接改规则就行,不用重新收集人类反馈数据,省时省力。文章说这套方法从 GPT-4 时期就开始用了,GPT-4o mini 也在用。 具体做法是把模型面对敏感请求时的回复分成三类:硬拒绝(如暴力犯罪)、软拒绝(如自残话题)和正常回答,然后针对每类设定一些命题,比如“回复是否带有说教语气”、“是否包含简短道歉”。这些命题的真假组合会映射到“理想”、“不太好”、“不可接受”三个等级,最终形成一个线性加权的奖励分数来训练模型。 不过,正文没给出具体的性能对比数字,比如用了 RBRs 之后有害回复率降低了多少,或者跟纯 RLHF 比在安全指标上有多大提升。也没提这套规则在面对复杂、模糊的边界情况时,会不会因为规则过于死板而误判。另外,代码和论文链接是给了,但博客本身更像一个方法概览,想评估实际效果还得去翻论文里的实验部分。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2024-07-23 · 星期二2024年7月23日
00:00
692d ago
● P1Hugging Face 博客· rssEN00:00 · 07·23
Llama 3.1 发布:405B、70B、8B 三个尺寸,主打多语言和长上下文
Meta 在 Hugging Face 上放出了 Llama 3.1,一共三个尺寸:8B、70B 和 405B。8B 适合在消费级显卡上跑,70B 给大规模 AI 应用,405B 主要用来做合成数据、让模型当裁判或者蒸馏小模型。每个尺寸都有基础版和指令微调版。这次还多了两个安全模型:Prompt Guard 是个小分类器,用来检测提示注入和越狱攻击;L...
#Multimodal#Meta#Llama#Product update
精选理由
Meta 的 Llama 3.1 是开源阵营的旗舰更新,标题已经把三个参数规模和两个关键能力点出来了。我会先打个折:正文没披露上下文窗口到底多长、支持哪些语种、许可是不是真开放可商用,也没给任何基准跑分,所以信息缺口不小。真正值得盯的是 405B 能不能免费用、长上下文推理实际要烧多少钱。这些没公布之前,分数先卡在 85-94 这个区间的低位。
一句话点评
Meta 把 405B 参数的开源模型放出来了,还带多语言和长上下文,但别急着激动,先看它跑起来要多少张显卡。
锐评
Llama 3.1 这次最大的动作是直接开源了 405B 参数的模型,这在以前是闭源巨头的专属地盘。8B、70B、405B 三个尺寸都给了基础版和指令微调版,还附带了 Prompt Guard 和 Llama Guard 3 两个安全小模型,一个防注入,一个做内容分类。 从 Hugging Face 这篇博客看,重点在落地:405B 跑推理需要多卡甚至多节点,他们给了显存估算,也提到了 FP8、AWQ 等量化方案来压成本。模型支持多语言和长上下文,还内置了工具调用能力,说明 Meta 想让它在实际业务里干活,不只是刷榜。 不过,博客没给出 405B 在中文或非英语任务上的具体评测数据,多语言能力到底怎么样还得自己试。另外,405B 的微调成本极高,正文只提了用 TRL 和合成数据生成工具 distilabel 的思路,没给实际的微调资源消耗数字,这点对想自己训的人来说是个缺口。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
2024-07-18 · 星期四2024年7月18日
10:00
697d ago
● P1OpenAI 博客· rssEN10:00 · 07·18
OpenAI 发布 GPT-4o mini,比 GPT-3.5 便宜六成,API 里首次用上指令层级防越狱
OpenAI 在 7 月 18 日推出了 GPT-4o mini,直接替换掉 ChatGPT 里的 GPT-3.5。价格是输入每百万 token 0.15 美元、输出 0.6 美元,比 GPT-3.5 Turbo 便宜了超过 60%。模型跑分还行,MMLU 82 分、HumanEval 87.2 分,都压过 Gemini Flash 和 Claude ...
#Multimodal#Code#Safety#OpenAI
精选理由
这不是小修小补,GPT-4o mini 带着新定价、长上下文、明确的基准成绩和一套新的安全机制出来,直接替掉 GPT-3.5,对开发者的钱包和安全方案都有实际影响。HKR 三项全中,放在 P1 没问题。
一句话点评
OpenAI 发了 GPT-4o mini,主打便宜,比 GPT-3.5 Turbo 还便宜 60% 以上,MMLU 82 分,但别急着冲,这只是官方自报成绩。
锐评
这条消息的核心就一个字:省。输入每百万 token 0.15 美元,输出 0.6 美元,比 GPT-3.5 Turbo 便宜六成多,对需要大量调用 API 的业务(比如客服、代码审查)确实能省下一大笔钱。性能上,官方给的 MMLU 82 分、HumanEval 87.2 分,都压过了 Gemini Flash 和 Claude Haiku,但要注意这些全是 OpenAI 自己跑出来的基准,实际用起来是不是真比竞品强,还得看第三方实测和社区反馈。 模型支持文本和图片输入,上下文窗口 128K,知识截止到 2023 年 10 月,这些规格跟上了主流。安全方面提到了指令层级方法,用来防越狱和提示注入,但具体效果正文没给数据,只能说方向对了。另外,微调功能说“接下来几天”上线,想拿自己数据定制的人可以等等看。 目前缺的是:多模态输入输出(视频、音频)还没实装,只是画了个饼;价格虽然低,但延迟和并发上限没提,高流量场景下会不会排队严重,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
00:00
697d ago
Hugging Face 博客· rssEN00:00 · 07·18
TGI Multi-LoRA:一次部署,同时服务30个模型
Hugging Face 在 TGI 里加了 Multi-LoRA 功能,说一次部署就能同时跑30个微调版本。LoRA 就是只改模型的一小部分参数(适配器),存储和内存开销只多1%左右,效果跟全量微调差不多。这篇博客主要讲动机和操作步骤,但正文没披露切换机制、实际吞吐和延迟数据。关键看适配器复用能不能稳住并发,光看标题还不能下结论。
#Fine-tuning#Inference-opt#Tools#Product update
精选理由
HKR-H和HKR-R靠'一次部署服务30个模型'这个明确的钩子通过。HKR-K不通过,因为正文缺失:没有适配器切换设计、显存、吞吐或延迟数据,所以这仍然是一个低分全量条目。
一句话点评
HuggingFace 给 TGI 推理框架加了 Multi-LoRA 支持:一个基础模型(比如 Mistral-7B)上挂最多 30 个 LoRA 小适配器,每个适配器只占基础模型约 1% 的存储,部署一次就能同时服务 30 个不同任务。省成本、省运维,适合团队各自微调模型但不想每人单独部署的场景。正文没披露多 LoRA 并发时的显存占用和延迟实测数据,这点先别太激动。
锐评
TGI 这次放出的关键信息只有一条:一次部署可服务 30 个模型。我的判断很直接,这条先别按“推理效率突破”收。正文为空,LoRA 热切换怎么做、adapter 是常驻显存还是按需加载、KV cache 是否共享、并发上来后尾延迟怎么掉,全部没披露。没有这些,30 这个数字只说明“能挂上去”,不说明“挂上去以后还能稳跑”。 我一直觉得,多 LoRA serving 的难点从来不在“支持多个适配器”,而在资源调度。单个 LoRA 权重很小,常见就是几 MB 到几十 MB;麻烦的是请求一旦混入不同 adapter,batch 怎么拼、prefill 和 decode 怎么排、频繁切换会不会把吞吐吃掉。vLLM、SGLang 这一年都在打连续批处理和显存复用,很多收益来自调度器,不来自 LoRA 这层名字本身。Hugging Face 如果只是把 30 个 adapter 放进同一服务实例,工程上当然有用,省运维、省副本数;但如果没有 p50/p95 延迟、tokens/s、并发数和 GPU 型号,这个标题离“更便宜地服务 30 个任务”还差一大截。 我对“30 models”这个表述也有点保留。严格讲,这里多半不是 30 个完整模型,而是 1 个基座模型加 30 个 LoRA adapter。产品上这么说没错,技术上差别很大。你部署 30 个 7B 全量权重,和部署 1 个 7B 加 30 个 LoRA,成本结构完全不是一回事。标题把这两件事压成一句,很容易让不看实现的人高估节省幅度。 外部参照也很明确。2024 年上半年,vLLM 社区已经在谈 Multi-LoRA serving,我记得他们重点讲过 adapter batching 和高吞吐场景,但具体数字我这里没核实。再往前,PEFT/LoRA 这套东西早就证明“训练便宜”,行业一直缺的是“线上多租户推理也便宜而且稳定”的公开数据。Hugging Face 这条如果后面补出 benchmark,最好把基座模型、adapter 数量、GPU 显存占用、冷热切换条件一次讲清楚。不然它更像平台能力补齐,不是推理栈的分水岭。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
2024-07-17 · 星期三2024年7月17日
10:00
698d ago
● P1OpenAI 博客· rssEN10:00 · 07·17
OpenAI 用“证明者-验证者博弈”让大模型写的东西更好懂,人类评估错误率降了一半
OpenAI 让 GPT-4 家族里的大模型和小模型玩一个博弈游戏:大模型当“证明者”负责解题,小模型当“验证者”负责判对错。大模型如果只追求答案正确,写出来的解题步骤会越来越难读——人类评估员在限时条件下,错误率几乎翻倍。换成这种博弈训练后,大模型必须写出连小模型都能看懂的推理过程,结果人类评估的准确率也上来了。文章说大小模型之间的预训练算力差了大约...
#Reasoning#Alignment#Benchmarking#OpenAI
精选理由
OpenAI 这篇研究把可读性做成训练信号,强模型要写出弱模型能核验的答案,人类评审也证实有效果。我会先打个折:正文只给了部分数字,完整实验表没披露,所以不能把效果说死。但思路本身戳中了可扩展监督的痛点,加上 hook 清晰、机制新,放在 featured 没问题。
一句话点评
OpenAI 用“证明者-验证者博弈”让强模型写出弱模型能看懂的解,人类评估错误率直接砍半,但模型正确率也打了折。
锐评
这篇研究解决了一个很实际的问题:模型为了追求答案正确,解题步骤会写得越来越“飞”,人反而看不懂、容易判错。OpenAI 的做法是让强模型当“证明者”,弱模型当“验证者”,强模型必须写出弱模型能轻松检查的推导过程。结果很直观——人类评估者的错误率从优化前的水平降了将近一半。 代价是模型正确率只提升了纯优化方案的一半左右。研究团队也直说,怎么缩小“可读”和“能力强”之间的差距,是下一步对齐工作的重点。训练用了 GPT-4 家族里预训练算力差三个数量级的大小模型,只在小学数学题上做了实验,没有大规模后训练。正文没披露具体参数量、训练轮数和计算成本,也没提在更复杂任务上的表现。这点先别太激动,方法目前只在小学数学场景验证过,能不能泛化到代码、长文本等任务还不清楚。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2024-07-10 · 星期三2024年7月10日
06:30
705d ago
OpenAI 博客· rssEN06:30 · 07·10
OpenAI 与洛斯阿拉莫斯国家实验室合作,评估多模态模型在生物实验室中的安全使用
OpenAI 与美国洛斯阿拉莫斯国家实验室(LANL)宣布合作,研究多模态 AI 模型(如 GPT-4o)如何在实验室环境中被科学家安全使用。合作将评估 GPT-4o 的视觉和语音能力能否帮助专家和新手完成湿实验操作(如基因转化、细胞培养、细胞分离),并衡量模型能多大程度提升任务完成率和准确率。这是首个在真实实验室测试多模态前沿模型安全性的实验,但正文...
#OpenAI#Los Alamos National Laboratory#Partnership
精选理由
HKR-H 成立:OpenAI 和洛斯阿拉莫斯国家实验室的配对出乎意料,标题本身就有话题性。HKR-K 不成立:正文只有标题,合作范围、模型、资金、数据访问和时间表全部未披露,信息缺口太大。HKR-R 成立:国家实验室合作会触发安全、采购和数据访问方面的讨论,从业者需要关注后续的合规细节。
一句话点评
OpenAI 与美国洛斯阿拉莫斯国家实验室合作,评估 GPT-4o 在真实实验室里帮科学家做生物实验的能力。这是首次测试多模态模型(看图、听语音)在湿实验(动手操作,比如细胞培养、离心)中的表现,看它能不能帮新手和专家提升效率。合作源于白宫行政令要求评估前沿模型的生物风险。但正文没披露具体评估结果、样本量或成本数据,目前只是宣布合作计划,实际效果未知。
锐评
OpenAI 宣布与洛斯阿拉莫斯国家实验室建立合作,但正文未披露研究方向、模型范围、数据权限、时间表和资金规模。信息量几乎只有机构名,这会直接改变解读方式:现在还不能把它当成能力发布,只能把它当成一张组织关系卡。 我对这条的第一反应偏冷。Los Alamos 不是普通高校实验室,它的名字天然带核安全、国防计算和高敏科研语境。OpenAI 选在 2024 年这个节点挂出合作,更多像是在往美国联邦体系里继续打桩。这个背景文章里没有写,但过去一年大家都看得到:Anthropic 一直在往国防和情报系统靠,Microsoft 靠 Azure Government 吃到不少政企部署红利,Meta 也在反复强调 Llama 的公共部门可用性。大厂都想拿到“能进高敏场景但不至于惹出大事”的位置,OpenAI 当然不会缺席。 我对标题叙事也有点怀疑。研究合作这四个字太宽了,宽到几乎没有判断价值。是做模型评估,还是做生物、材料、能源相关科研辅助,还是做安全红队与滥用测试,标题都装得下。洛斯阿拉莫斯最敏感的部分从来不是算力够不够,而是谁能碰什么数据、在什么隔离条件下跑、输出怎么审计。标题已经给出合作,正文却没披露访问边界,这个缺口比“用了哪一代模型”更关键。没有这些条件,外界很容易把“合作”误读成“OpenAI 获得了国家实验室级独家数据”或“模型已经进入关键科研流程”,这两种解读我都不买账。 还有一层现实问题。国家实验室和前沿模型公司的合作,落地通常慢于新闻稿。采购、合规、网络隔离、模型更新冻结、日志留存,这些流程一上来,试点节奏往往按季度算,不会像消费产品发布那样快。我没查到这条对应的项目书或合同编号,所以没法判断它是框架协议还是已经启动的具体课题。若只是框架合作,那它的信号更多在“OpenAI 被允许坐上桌”,不在“研究已经跑出结果”。 所以这条我先给低热度、高跟踪值。别急着从标题推演能力跃迁。等后续文件披露研究目标、数据隔离方式、是否限定在 Azure 环境、是否涉及生物或核相关评估,那时这条才有真正的技术含量。现在只有一个标题,离能下结论还差好几页正文。
HKR 分解
hook knowledge resonance
打开信源
59
SCORE
H1·K0·R1
00:00
705d ago
Hugging Face 博客· rssEN00:00 · 07·10
Hugging Face 用 Presidio 试水自动检测个人隐私信息
Hugging Face 说正在用 Presidio 做自动 PII 检测实验,目前只透露了检测工具(Presidio)和检测面(Hub),没讲触发条件、误报率、上线计划。正文被 429 挡了,所以更细节的东西一概没有。对从业者来说,重点不是它“开始做”了,而是误报怎么处理、检测到之后会不会直接封模型或删数据——这些都没说。先别太激动,等它公开 err...
#Safety#Tools#Hugging Face#Presidio
精选理由
从可见内容看,只确认了一个事实:Hugging Face 正在 Hub 上用 Presidio 做自动 PII 检测试验。检测范围、误报率、处理流程、上线条件均未披露,因此 HKR-K 不通过,且因缺乏可验证信息落入硬排除-6。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K0·R0
2024-07-01 · 星期一2024年7月1日
00:00
714d ago
Hugging Face 博客· rssEN00:00 · 07·01
Hugging Face 说自家代码智能体在 GAIA 上拿了第一,但正文是空的
Hugging Face 发了一篇博客,标题说他们的 Transformers Code Agent 在 GAIA 基准上赢了。但点进去只看到 429 错误页面,正文一个字都没有。所以分数、排名、评估设置全都没披露。唯一能确认的是标题里提到了代码智能体和 GAIA,但复现性完全没法验证。
#Agent#Code#Benchmarking#Hugging Face
精选理由
标题有钩子,但正文为零,分数、排名、评测设置全没披露,复现条件未知,信息缺口导致验证失败,硬排除规则(零来源)把分数压在40以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
2024-06-27 · 星期四2024年6月27日
10:00
718d ago
OpenAI 博客· rssEN10:00 · 06·27
用 GPT-4 自己抓自己的 bug:OpenAI 训练了一个“找茬模型”CriticGPT
OpenAI 发了一篇博客,讲他们用 GPT-4 训练了一个叫 CriticGPT 的模型,专门给 ChatGPT 的代码输出挑错。核心结果是:人类在 CriticGPT 辅助下审代码,60% 的情况下比单干效果更好——也就是说,AI 帮忙找 bug 确实能提高人工审核的覆盖率。CriticGPT 本身也是用 RLHF 训练的,但训练数据里故意插入了人...
#OpenAI
精选理由
OpenAI这篇官方研究标题自带反直觉钩子,从业者会好奇怎么用同一个模型抓自己的错。但RSS片段只给了标题,正文没披露具体任务、评测数据、提示词方法和误差范围,信息缺口太大,没法判断方法是否靠谱。自我审查这个方向对做评测、QA和安全流程的人确实有共鸣,但正文没给细节,这点先别太激动。
一句话点评
OpenAI 用 GPT-4 训练了一个叫 CriticGPT 的模型,专门挑 ChatGPT 代码里的错。人类搭配 CriticGPT 审代码,60% 的情况下比单干效果更好。核心思路是用 RLHF 让模型学会找自己的 bug,但训练数据是人工插入的,不是真实用户错误。正文也承认:CriticGPT 只能处理短回答,长任务和分散错误搞不定,模型自己也会幻觉。这点先别太激动——它更像一个辅助...
锐评
OpenAI 只给出了“GPT-4 用来找 GPT-4 错误”这个设定,正文未披露任务、指标、提示词和误差范围。我的判断很直接:这条如果没有人工标注基线和独立复现,它更像一套便宜的筛查流水线,不足以证明模型真的会“批判性审稿”。 同模型互审这件事,研究圈其实早就有人做。2023 到 2024 年,Self-Refine、LLM-as-a-Judge、Constitutional AI 一路都在试“模型生成—模型批改—模型重写”这条链。经验也很一致:对格式错误、明显事实冲突、推理漏步,二次审查常常有帮助;碰到隐蔽幻觉、领域知识空洞、带偏见的评分标准,效果就会掉得很快。尤其是同一个模型家族互审,错误相关性通常很高——生成时会漏掉的点,审查时也常漏。标题讲的是同模型设置,我对它能抓住“同分布盲点”这件事不太买账。 我还想追问两个硬问题。第一,审查器拿到的上下文有多少?如果它看到了原题、参考材料、推理草稿,命中率会明显提高;如果只看最终答案,很多错误根本无从判。第二,OpenAI有没有给出 precision 和 recall?只报“发现了更多错误”没用,误报太高会直接拖垮生产流。去年不少 LLM judge 的论文就卡在这里:和人类评分相关性不错,但一上高风险任务,false positive 和 position bias 都很难看。我记得当时几篇评测还专门提醒过,模型评委更擅长给流畅答案高分,这点我没逐篇核实,但大方向很稳。 所以这条我先把它看成运营工具,不看成能力里程碑。拿它做大规模数据清洗、找明显 bad case、给人工审核排优先级,这很合理;拿它证明“GPT-4 已经会可靠地检查自己”,证据还远远不够。正文没给数字,我没法判断它是在做 research demo,还是在给训练和部署流程铺一层自动 QA。差别很大。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
06:00
718d ago
OpenAI 博客· rssEN06:00 · 06·27
OpenAI 与《时代》签了多年内容合作,ChatGPT 能直接引用其百年档案
OpenAI 宣布与《时代》杂志达成多年内容合作协议,ChatGPT 等产品可以访问《时代》过去 101 年的文章档案,并在回答用户问题时展示原文摘要、附上来源链接和引用。作为交换,《时代》也能用 OpenAI 的技术开发自己的新产品,并给 OpenAI 提反馈。正文没披露授权费、收入分成、是否允许拿这些内容训练模型,也没说具体什么时候上线。
#OpenAI#TIME#Partnership
精选理由
OpenAI 和 TIME 签了战略内容合作,但正文是空的,没披露授权范围、财务条款或上线时间。真正该关心的是训练使用权、检索展示规则和分成机制,这些都没给。信息缺口太大,只能算普通关注,不值得加精。
一句话点评
OpenAI 与《时代》周刊签了多年内容合作,ChatGPT 能直接引用其 101 年历史档案并附原文链接。好处是回答新闻类问题时可信度更高、有出处,但合作金额、是否独家、训练数据是否用于微调模型都没披露。对从业者来说,这更像版权合规的标杆案例,不是技术突破。
锐评
OpenAI 只公布了与 TIME 的战略合作标题,正文没有授权范围、价格和上线时间。我对这类公告的判断很直接:先把它当版权供给扩容,不要急着当成搜索产品进展。 说真的,TIME 这单本身不稀奇。OpenAI 之前已经拿下 AP、Axel Springer、Financial Times、News Corp 这些媒体合作,路线很一致:一边补训练与检索的合法内容池,一边给 ChatGPT 的新闻问答找更稳的出处。TIME 的分量不在独家内容强度,而在它是老牌综合媒体,品牌安全高,法务摩擦低,适合继续堆“我们在和出版业合作”这层防御叙事。 我不太买账的是“战略”这个词。标题给了合作对象,正文没给三件最硬的事:训练使用权有没有,RAG 展示是摘要、引用还是跳转,收入怎么分。少了这三项,外界没法判断这是 API 检索授权,还是全量训练许可,还是两者都要。差别很大。AP 当时更偏结构化新闻接入和训练支持;Axel Springer、FT 那类合作,外界更关心的是 ChatGPT 内的归因和导流。TIME 落在哪一档,帖子没说。 还有个背景不能忽略。OpenAI 这批媒体协议,很多都发生在《纽约时报》起诉之后。这个时间点决定了它们不只是内容合作,也是诉讼压力下的示范性交易:告诉别家出版商,签约比打官司更快拿到钱和流量。我自己一直怀疑,这套模式对头部媒体成立,对长尾出版商未必成立。因为品牌媒体有议价权,地方媒体和垂类站点大概率拿不到同样条款。 所以这条我先不给高权重。只有标题时,我更关心后续是否披露产品落点:ChatGPT 搜索里会不会出现 TIME 的明确卡片、引用规则是否可审计、TIME 是否拿到训练退出或更新频率控制。如果这些都没有,这就是又一张用来缓和版权冲突的合作海报。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K0·R1
2024-06-21 · 星期五2024年6月21日
2024-06-17 · 星期一2024年6月17日
04:15
728d ago
OpenAI 博客· rssEN04:15 · 06·17
OpenAI 说 GPT-4o 帮医生做癌症筛查和治疗规划
OpenAI 发了一篇博客,说 Color Health 用 GPT-4o 做了一个辅助医生做癌症筛查和治疗规划的 copilot。流程是:GPT-4o 从患者病历和临床指南里提取信息,自动生成筛查建议和诊断检查清单,然后由医生审核修改后再给患者。正文提到延迟治疗四周死亡率会高 6–13%,以及超过三分之一的患者需要个性化筛查方案。但整篇没有披露任何准...
#Reasoning#OpenAI#Color Health#Partnership
精选理由
这更像一篇客户案例宣传,不是可验证的行业新闻。HKR-K 和 HKR-R 都不满足,因为正文缺失;按硬规则归为纯营销,排除且评分低于 40。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2024-06-13 · 星期四2024年6月13日
2024-06-12 · 星期三2024年6月12日
00:00
733d ago
Hugging Face 博客· rssEN00:00 · 06·12
Hugging Face 正式支持 Stable Diffusion 3,但正文没透露安装步骤和显存需求
Stability AI 的 Stable Diffusion 3 Medium(20亿参数)现在可以通过 Hugging Face 的 Diffusers 库使用了。这篇博客确认了模型名称和集成目标,但关键信息——安装步骤、推理参数、显存占用、许可证和发布时间——都没披露。模型用了三个文本编码器(CLIP、OpenCLIP 和 T5-XXL)和一个新...
#Vision#Tools#Hugging Face#Product update
精选理由
唯一确认的事实是 Diffusers 接入了 Stable Diffusion 3。HKR 三项全挂,因为正文是空的,没给安装路径、推理细节、显存、许可证或发布条件,属于只有标题的低信息内容,维持排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
2024-06-10 · 星期一2024年6月10日
10:30
735d ago
● P1OpenAI 博客· rssEN10:30 · 06·10
OpenAI 宣布新任 CFO 和 CPO,分别来自 Nextdoor 和 Planet Labs
OpenAI 在 6 月 10 号发公告,Sarah Friar 加入当首席财务官,Kevin Weil 当首席产品官。Friar 之前在 Nextdoor 做 CEO,更早是 Square 的 CFO;Weil 之前在 Planet Labs 管产品和业务,也做过 Instagram 和 Twitter 的产品 VP。公告里说 CFO 要管投资和扩张...
#OpenAI#Sarah Friar#Kevin Weil#Personnel
精选理由
这条消息的钩子很足,OpenAI 同时端出 CFO 和 CPO,官方信源权威性也高。但信息量其实很薄,正文是空的,连到岗时间和职责范围都没给,所以知识增量要打个折。我会把它放进 featured,因为商业化节奏和组织扩张是大家真正关心的,哪怕现在只有个标题,也值得先标出来让人留意。
一句话点评
OpenAI 官宣两位新高管:前 Nextdoor CEO Sarah Friar 任 CFO,前 Planet Labs 产品负责人 Kevin Weil 任 CPO。这是 OpenAI 从研究机构转向大规模商业运营的明确信号。
锐评
OpenAI 这次招的两个人,一个管钱,一个管产品,指向很明确:公司要从“烧钱做研究”的阶段,正式进入“把研究变成能卖的产品并规模化赚钱”的阶段。CFO Sarah Friar 之前在 Square 当过 CFO,又做过 Nextdoor 的 CEO,履历上写满了“帮科技公司搞钱和上市”;CPO Kevin Weil 在 Twitter、Instagram、Facebook 都带过产品团队,经验集中在怎么把产品做到几亿人用。 这篇官方公告没提任何财务数字、产品路线图或组织架构调整细节,就是纯人事发布。所以别指望从这里读出 OpenAI 下一步具体要推什么产品、怎么收费。但结合 Sam Altman 那句“确保团队有资源继续发展”,可以理解为 OpenAI 在给外界打预防针:接下来花钱的地方还很多,得有人专门去搞钱和管产品节奏。 还缺什么?公告完全没提这两人上任后第一个季度要解决什么问题,也没说 CFO 对 OpenAI 目前烧钱速度的看法,或者 CPO 对 ChatGPT 下一步产品形态的判断。这些才是真正值得关注的信息,但正文没披露。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K0·R1
2024-06-07 · 星期五2024年6月7日
17:45
737d ago
OpenAI 博客· rssEN17:45 · 06·07
OpenAI 详解语音引擎工作原理与安全研究
OpenAI 发了一篇博客,讲他们的语音引擎(Voice Engine)怎么工作以及安全措施。核心信息:只要 15 秒的语音样本,就能克隆一个人的声音,生成逼真语音。模型不是针对某个说话人微调的,而是用扩散过程——从随机噪声开始,逐步去噪,让输出匹配样本里的说话方式。正文没披露模型参数量、训练数据规模或具体评测指标。安全方面,OpenAI 说他们加了水...
#Audio#Safety#OpenAI#Voice Engine
精选理由
当前只有标题,正文为空。标题确认 OpenAI 会补充 Voice Engine 的工作方式和安全研究,但 RSS 没给任何具体内容——模型怎么跑、克隆需要多少样本、评测结果、什么时候上线,全都没说。安全边界确实是值得盯的点,但这点信息没法做判断,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
2024-06-06 · 星期四2024年6月6日
00:00
739d ago
Hugging Face 博客· rssEN00:00 · 06·06
Hugging Face 上线文生图排行榜和竞技场,靠4.5万次人工投票给模型排名
Hugging Face 联合 Artificial Analysis 推出了一个文生图模型的排行榜和竞技场。排行榜的分数来自用户在竞技场里的投票——每次给你两个模型生成的同一张图,你选哪个更好。目前已经收集了超过4.5万次偏好投票,用 ELO 算法算分。上榜模型包括 Midjourney、DALL·E 3、Stable Diffusion 3 和 P...
#Vision#Benchmarking#Hugging Face#Artificial Analysis
精选理由
标题确认 Hugging Face 上线了新的文生图排行榜和竞技场,所以 HKR-H 靠新颖性和对比价值通过。HKR-K 和 HKR-R 不通过,因为 RSS 片段没有给出任何指标、模型列表、打分方法或更新规则;这是一个低信息量的基准测试/产品更新。
一句话点评
Artificial Analysis 搞了个文生图模型排行榜,靠 4.5 万次人类投票算 ELO 分,类似 Chatbot Arena。目前 Midjourney、SD3、DALL·E 3 HD 排前面,但开源 Playground v2.5 已经超过 DALL·E 3。注意 SD3 Medium 6 月 12 日开源,可能拉低整体质量但社区微调潜力大。DALL·E 2 一年内从领先跌到选...
锐评
Hugging Face 这次挂出 leaderboard 和 arena 两个入口,但正文没有披露评测模型、指标、采样参数、更新时间。按现在这点信息,我不会把它当成文生图领域的新标准,只会把它当成一个流量很大的分发位。 我判断这条的价值,先不在“又多了一个榜”,而在 Hugging Face 把 Artificial Analysis 这套评测前端化了。榜单和竞技场放到 Hugging Face 上,得到的不是一点品牌曝光,而是默认入口。文生图用户本来就分散:有人看 Image Arena 式偏好投票,有人看人工 rubric,有人只关心提示词跟随、文字渲染、解剖结构、生成速度、价格。谁能把这些入口收拢,谁就开始影响开发者怎么定义“好模型”。这件事我一直觉得比单次排名更重要。 但我对 arena 这套叙事有保留。文生图 arena 最大的问题,从来不是有没有对战界面,而是条件能不能锁死。相同提示词下,seed 固定不固定,采样步数给多少,长宽比是否统一,安全过滤是否开启,参考图和负面提示能不能用,都会改结果。连“同一模型”都未必可比:比如 SDXL 系模型,换一个 scheduler、LoRA、提示词增强器,观感就能差一截。标题给了产品名,正文没给规则,这个缺口很致命。没有规则,胜负更像产品体验投票,不像可复现评测。 外部参照其实很清楚。LMSYS 那套 Chatbot Arena 能火,是因为主观偏好这件事在聊天里至少还算自然,虽然它一样有位置偏置、首因效应、风格迎合这些老问题。文生图 arena 的噪声更大,因为视觉偏好更受审美、屏幕尺寸、甚至缩略图排序影响。我没查到 Artificial Analysis 这套图像 arena 的具体设计;如果它没有做 prompt 分层、匿名对战、重复抽样、Elo 置信区间公开,那最后多半会滑向“谁更会讨好投票者”。这类榜不是不能看,但只能看热度,不能直接拿去做模型路线判断。 另一个我比较在意的点,是 Hugging Face 为什么现在补这块。2024 年中这个时间点,文生图已经不是单一模型比拼,而是闭源 API 和开源权重两条线并跑。Midjourney、OpenAI 当时都握着强产品体验,开源这边则是 SDXL、后续各种 finetune 和工作流生态在撑场面。Hugging Face 如果想在视觉生成继续占入口,光托管 checkpoint 不够,必须托管“评价”。这个动作我看着像平台层的防守,而不是单纯服务社区。说实话,这个判断我有把握,但具体商业合作条款正文没披露,我还没法确认 Artificial Analysis 在数据、流量、排序权重上各占多少。 还有一个现实问题,榜单很容易把“最受欢迎”伪装成“最强”。如果 leaderboard 最后混入价格、速度、可用性、API 稳定性,那它其实是产品榜,不是能力榜;如果只看单轮出图质量,它又会压低那些在编辑、一致性、多图叙事上更强的系统。文生图评测这些年一直没解决这个分裂:我们到底在评 base model,还是评完整产品?标题里两者都没拆。我不反对把它们放在一起,但前提是口径写清楚。 所以我对这条的结论很简单:入口有价值,排名先存疑。Hugging Face 的分发能力会让这套榜迅速获得注意力,可注意力不等于公信力。等它补出评测模型清单、prompt 集来源、采样配置、人工投票机制、更新频率,再谈这套 leaderboard 能不能进入开发团队的常用决策面板。现在只有标题信息,我最多把它记成一句话:Hugging Face 开始争夺文生图评测入口了,但规则还没亮牌。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R0
2024-06-05 · 星期三2024年6月5日
00:00
740d ago
Hugging Face 博客· rssEN00:00 · 06·05
NPC-Playground:一个能跟大模型驱动的NPC聊天的3D游乐场
Hugging Face 联合 Cubzh 和 Gigax 发布了一个浏览器可玩的 3D 演示,玩家能跟大模型驱动的 NPC 自由对话,还能用几行 Lua 脚本教 NPC 新技能。底层用了 Cubzh(开源版 Roblox 引擎)和 Gigax(专门跑大模型 NPC 的平台),托管在 Hugging Face Spaces 上。正文没披露具体用了哪个模...
#Agent#Multimodal#Tools#Hugging Face
精选理由
H 给过是因为 3D + LLM NPC 这个组合本身有钩子。但 K 和 R 都不过,因为正文是空的,模型、交互机制、开源状态、延迟、部署条件一概没披露,所以只能算一个低价值 all 条目,不值得推荐。
一句话点评
短评:Hugging Face 联合 Cubzh 和 Gigax 搞了个 3D 沙盒,让你跟 LLM 驱动的 NPC 聊天、教它写 Lua 脚本。目前只是浏览器 demo,离真能跑在游戏里还远。 点评:Hugging Face 博客发了篇介绍,说 NPC-Playground 是个 3D 沙盒 demo,玩家能跟 LLM 驱动的 NPC 自由对话,还能用几行 Lua 脚本教 NPC 新技能...
锐评
Hugging Face 这篇文章只给出“3D playground + LLM-powered NPCs”这个标题级信息,正文未披露交互循环、模型选型、语音链路、世界状态同步、延迟指标。我的判断很直接:在这些核心条件缺席前,这条消息的价值不在“NPC”两个字,而在 Hugging Face 想把社区注意力往可交互 AI 场景再推一步。 我对这类标题一直比较克制。做一个能聊天的 NPC 不难,2024 年上半年已经有一堆样板:Inworld、Convai、NVIDIA ACE、Unity 侧的一些插件,都能把 ASR、LLM、TTS、动画驱动串起来。难的是把 3D 场景里的多代理一致性、低延迟、记忆持久化和成本一起压住。比如端到端语音交互,行业里能让人觉得“像在对话”的体验,往往得把首 token 和首帧语音压到 500 毫秒到 1 秒附近;一旦上到 2 到 3 秒,角色感就开始塌。标题没给任何数字,我不会把它当成技术进展。 还有一层我比较在意。Hugging Face 过去一年最擅长的,不是自己做封闭式消费级产品,而是把模型、数据集、demo 和社区工作流串起来,让别人复用。顺着这个习惯看,NPC-Playground 如果最后有价值,价值大概率也不在“一个 playground 很好玩”,而在它会不会变成一个可 fork 的参考栈:比如场景层用什么 3D 框架,角色脑子接 Transformers 还是 Inference Endpoints,记忆是向量库还是状态机,工具调用怎么做安全边界。我还没查到正文,所以这些现在都不能下结论,但这才是从业者该问的问题。 我对“LLM-powered NPC”这套叙事还有个保留。很多 demo 把 NPC 互动做成了长文本聊天,加一点检索,再贴一层表情和动作。看上去热闹,系统却并不理解空间、任务链和其他角色的状态。你真要做游戏或仿真,关键不是角色会不会说,而是它能不能稳定感知位置、物品、事件,再把这些约束进决策里。去年到今年,不少 agent benchmark 在文本环境里分数涨得很快,但一进持续世界和实时交互,表现掉得很明显。这块标题也没给机制,我对“LLM NPC”四个字天然会打折。 说实话,我更愿意把这条看成 Hugging Face 在测试一个社区接口:他们想知道,大家现在是不是已经从“单轮聊天 demo”走到“可玩、可改、可接模型的具身交互 demo”。如果后续公开仓库、推理成本、并发上限和延迟曲线,这条就有讨论价值;如果只有一个网页演示,它大概率会停在传播层。现在只有标题信息,我不会往更大叙事上套。
HKR 分解
hook knowledge resonance
打开信源
51
SCORE
H1·K0·R0
2024-05-30 · 星期四2024年5月30日
10:00
746d ago
OpenAI 博客· rssEN10:00 · 05·30
OpenAI 封了五个用 AI 搞舆论操控的账号,但没透露具体是谁、怎么查的
OpenAI 发了一篇博客,说过去三个月封了五个秘密舆论操控(covert influence operations)账号,这些账号用它的模型生成评论、文章、假身份,再发到 Telegram、X、Facebook 等平台。涉及俄罗斯、中国、伊朗和以色列的商业公司。OpenAI 说这些操作没带来明显的流量增长,按布鲁金斯学会的评分标准,最高只到 2 级(...
#Safety#OpenAI#Safety/alignment#Commentary
精选理由
话题有HKR-H和HKR-R,但RSS条目只有标题,没有披露任何主体、数量、时间范围、证据或执行细节,触发硬排除-6(零来源内容);重要性上限低于40。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
2024-05-29 · 星期三2024年5月29日
07:30
747d ago
OpenAI 博客· rssEN07:30 · 05·29
OpenAI 与《大西洋月刊》合作:ChatGPT 里能直接看它的文章了
OpenAI 宣布与《大西洋月刊》达成内容与产品合作。以后用户在 ChatGPT 里搜到《大西洋月刊》的文章,会看到署名和原文链接,点一下就能跳转到官网阅读。作为合作方,《大西洋月刊》的产品团队还能提前拿到 OpenAI 的技术,参与反馈,帮 OpenAI 改进新闻类产品的展示方式。另外他们正在搞一个叫 Atlantic Labs 的实验性微站,打算用...
#OpenAI#The Atlantic#Partnership#Product update
精选理由
OpenAI 和《大西洋月刊》的合作有 HKR-H 和 HKR-R,因为它涉及出版商授权和新闻入口控制。HKR-K 不成立:这条 RSS 只披露了合作双方的名字,没有产品机制、上线计划或商业条款,所以留在 all 层级。
一句话点评
《大西洋月刊》与 OpenAI 达成内容与产品合作,其文章将在 ChatGPT 中带来源链接展示,并参与塑造新闻呈现方式。作为回报,大西洋月刊团队能提前试用 OpenAI 技术、反馈意见。该刊刚宣布订阅破 100 万、实现盈利,合作意在借 AI 搜索扩大读者群。但正文没披露授权费金额、是否独家,也没说 ChatGPT 用户能看到全文还是仅摘要。
锐评
OpenAI 宣布联手《大西洋月刊》,但这篇帖文只给出合作双方,产品机制、时间表、商业条款都没披露。基于现有信息,我不把它看成一次能力发布,更像 OpenAI 在新闻分发链上继续补洞。 我一直觉得,OpenAI 做新闻合作有两条线同时在跑。一条是产品线,想把 ChatGPT 里的时效内容、引用体验、答案可信度做得像个能用的新闻入口;另一条是风险线,要把“模型抓了谁的内容、给没给回流、有没有付钱”这些问题先压住。The Atlantic 这单标题里只写“enhancing news in ChatGPT”,措辞很克制,没提独家内容、没提实时接入、没提训练授权。我对外界把这类合作直接读成“ChatGPT 新闻能力升级”这件事有点怀疑,因为决定体验的关键细节一个都没给:是否显示文章来源,是否带链接,是否给摘要外跳,是否进入训练语料,正文都没有。 放到上下文里看,这更像 OpenAI 过去半年那套 publisher playbook 的延续。2023 年底它先和 Axel Springer 签了协议,后来又陆续和 FT、Le Monde、Prisa 一类出版商靠近;另一边,《纽约时报》诉讼把版权和替代流量问题直接摆到台面上。你把这些拼起来看,OpenAI 现在做的不是单点合作,而是在给 ChatGPT 的“答案直接吃掉原站流量”这件事找合法性缓冲层。The Atlantic 的象征意义在这里大过技术意义:它是高声量英文媒体品牌,拿下这种名字,对外能讲“主流出版商愿意合作”,对内能继续推进新闻问答场景。 但我不太买“多签几家媒体,新闻体验就自然变好”这个说法。新闻产品的难点从来不只是版权池规模。难的是检索新鲜度、引用颗粒度、冲突信息排序、以及模型别把评论口吻写成事实口吻。Perplexity 过去一年把“来源可见”做成了用户心智,Google SGE 也一直在试把答案和链接绑在一起,行业已经证明:没有稳定 citation 设计,媒体合作名单再长,用户也不会自动信。标题没披露任何展示机制,所以我还没法判断 OpenAI 这次碰的是体验核心,还是只多了一层授权外衣。 我还会补一句 pushback:对《大西洋月刊》这种媒体来说,这类合作未必是纯增量。ChatGPT 如果把高价值报道压缩成几段像样摘要,媒体拿到的是授权费还是订阅回流,哪个更大,正文没说。要是没有清晰跳转和归因,合作方拿到的很可能是短期现金,失去的是长期直接关系。这也是为什么我暂时不愿把它写成双赢。现在能确认的只有一件事:OpenAI 又签下一家头部媒体;更关键的变量,文章没给。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
07:00
747d ago
OpenAI 博客· rssEN07:00 · 05·29
OpenAI 与 Vox Media 达成内容与产品合作
OpenAI 宣布与 Vox Media 建立战略合作,Vox 旗下 Vox、The Verge、Eater、New York Magazine 等媒体将向 ChatGPT 提供内容,ChatGPT 会标注来源并回链。合作还涉及用 OpenAI 技术帮 Vox 开发面向用户和广告主的产品,比如升级其导购工具 The Strategist Gift Sc...
#Tools#OpenAI#Vox Media#Partnership
精选理由
R 落地是因为 OpenAI 的媒体合作策略直接影响授权和分发格局。H 和 K 都弱:正文只提了 Vox Media 和产品/内容合作方向,但合作形式、产品集成、商业条款、发布时间一概没写。
一句话点评
OpenAI 与 Vox Media 签了内容授权和产品合作,ChatGPT 能引用 Vox 旗下 Vox、The Verge、Eater 等媒体的文章,并附上来源链接。Vox 还会用 OpenAI 技术优化广告平台和购物搜索工具。这笔交易没披露金额和独家条款,所以不确定是不是排他性合作。对 OpenAI 来说,这是拿授权换内容可信度,对 Vox 则是用流量换品牌曝光,但实际能给 ChatG...
锐评
OpenAI 只公布了与 Vox Media 的内容和产品合作,合作结构、商业条款、产品范围都没披露,所以现在还不能把它算成一笔清晰的版权授权交易。 我对这条的第一判断是:OpenAI 继续在补“可引用内容”和“分发入口”两块短板,但这次标题里把 product 放进来,比 content 更有信号。内容合作大家已经见过几轮了。2024 年上半年,OpenAI 先后和 Axel Springer、Financial Times、News Corp、The Atlantic 这类出版方签协议,主线都是训练访问、检索展示、归因链接、部分产品分发。我印象里,这批合作的共同点是叙事很像,细节都藏得深,外部通常很晚才知道到底是训练许可、ChatGPT 内展示,还是双方联合做新功能。Vox 这条如果也是同一路数,新闻价值其实有限;如果它落到 Vox 自家 CMS、广告工具、编辑工作流、播客分发工具,那才说明 OpenAI 想拿媒体当产品渠道,不只是内容池。 我对官方叙事有个保留。媒体合作现在很容易被包装成“双赢”:平台拿高质量语料,媒体拿流量和新产品入口。问题是,过去一年媒体最焦虑的不是有没有 AI 合作新闻稿,而是搜索流量下滑和用户关系被中介层截走。OpenAI 如果只是把 Vox 的内容接进回答系统,再给少量归因链接,这更像给自己的答案层补货,不等于给出版商建立新分发。标题用了 partnership,很宽。正文没说 revenue share、最低保底、索引范围、是否覆盖训练,这几个点不披露,我不会替它脑补成深度联盟。 还有一个上下文不能忽略。OpenAI 当时正往 Search 和多模态助手方向走,媒体合作的战略意义早就不只是“拿授权,避诉讼”。Perplexity、Google、甚至一些垂直问答产品都在抢高质量可验证来源,谁先把来源体系、引用体验、媒体关系做顺,谁就在答案产品上少掉一块短板。Vox 旗下既有新闻品牌,也有播客和解释型内容,这种资产对问答、摘要、推荐都比泛网页抓取更干净。我还没看到这单是否覆盖音频、视频转写或结构化元数据;正文没给,这个空缺很关键。 所以我现在不会高估这条,也不会忽视它。它大概率不是一条单纯的 PR 合作新闻,而是 OpenAI 继续把媒体公司分成两类来经营:一类给内容许可,一类顺手变成产品分发和工作流客户。Vox 属于哪一类,标题没说。没价格、没范围、没时间表,这条目前只能先记成“战略方向延续,落地形态待证实”。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K0·R1
2024-05-28 · 星期二2024年5月28日
00:00
748d ago
Hugging Face 博客· rssEN00:00 · 05·28
Sentence Transformers v3 发布:训练和微调嵌入模型
Hugging Face 发布了 Sentence Transformers v3,一个用于训练和微调嵌入模型(把文本转成向量)的 Python 库。这篇博客介绍了完整的训练流程:数据集可以从 Hugging Face Hub 或本地 CSV/JSON 等格式加载;损失函数、训练参数、评估器和 Trainer 组件都有说明。还支持多数据集联合训练。正文...
#Embedding#Fine-tuning#Tools#Hugging Face
精选理由
这篇只有标题级信息:Sentence Transformers v3 支持训练和微调嵌入模型,正文没有任何配方或评测。HKR-H/K/R 全不满足,且接近硬排除的零细节内容,所以重要性上限 39 分,归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R0
2024-05-24 · 星期五2024年5月24日
2024-05-22 · 星期三2024年5月22日
13:15
753d ago
OpenAI 博客· rssEN13:15 · 05·22
OpenAI 与新闻集团签下多年内容授权协议
OpenAI 和新闻集团(News Corp)宣布了一项多年全球合作,允许 OpenAI 在回答用户问题时展示《华尔街日报》《纽约邮报》《泰晤士报》等媒体的当前及历史文章,并拿这些内容来改进产品。新闻集团还会派编辑团队帮 OpenAI 把关内容质量。双方都没披露授权费是多少、是否允许拿这些新闻数据训练模型、以及具体在 ChatGPT 的哪个界面显示。简...
#OpenAI#News Corp#Partnership
精选理由
事件有行业共鸣,所以 HKR-R 通过。正文为空,没披露金额、授权范围、训练使用边界或产品路径,所以 HKR-H 和 HKR-K 不通过;这条留在 all 且低于 60。
一句话点评
OpenAI 与新闻集团签了多年授权,能拿《华尔街日报》等主流媒体的实时和存档内容来回答用户问题。这是 OpenAI 继《金融时报》、Axel Springer 之后又一家大牌内容合作,说明它正在用版权内容给 ChatGPT 做事实背书。但协议金额、是否独家、训练数据能否用都没披露。对从业者来说,信号是:高质量新闻源正在变成大模型差异化竞争的关键资产,但成本不低,小团队跟不起。
锐评
OpenAI 宣布与 News Corp 签署多年合作协议,但正文未披露金额、内容范围、训练权限和上线时间。我的判断很直接:这更像 OpenAI 在版权战线上的防御性采购,不是产品层面的新突破。 说真的,标题里的“global partnership”很像公关包装。新闻机构和模型公司签内容协议,关键从来不是“合作”两个字,关键是四个边界:能不能用于预训练,能不能用于 RAG 检索,能不能保留摘要权,用户跳转和分成怎么结。这里一项都没给。没有这些条款,外界没法判断这笔钱买到的是长期数据供给,还是只买到了展示层的合规外衣。 这条放到过去一年的版权谈判里看,就顺很多了。OpenAI此前已经和 Axel Springer、Financial Times 等出版机构签过授权;另一边,《纽约时报》在 2023 年底直接起诉 OpenAI 和微软。两条线同时存在,说明大模型公司对新闻内容的态度已经分层:愿意谈的就付费接入,不愿意谈的就准备打官司。News Corp 旗下有《华尔街日报》、道琼斯、纽约邮报,资产密度比普通媒体高得多,金融和商业内容的引用价值也高。OpenAI把这类高价值出版商一个个签下来,核心作用不是“内容更丰富”,而是把高风险原告名单尽量缩短。 我对这类协议一直有个保留:新闻内容对模型能力提升的边际价值,未必有媒体公司自己想得那么高。时效新闻对聊天产品有用,对基础模型预训练未必值天价,因为高质量代码、数学、合成数据、专业语料的替代性没那么低。我没看到这份协议是否包含训练权,如果只覆盖“显示、引用、归因、跳转”,那它更接近分发协议;如果覆盖持续训练,意义才会大一截。标题已给出“多年”,正文未披露排他性,这个缺口很关键。排他与否,决定它是防御成本,还是竞争护城河。 还有一个现实问题我不太买账:媒体公司喜欢把这类合作讲成“AI 与新闻共赢”,但用户入口一旦被 ChatGPT 这类产品拿走,出版商长期议价能力大概率还是走弱。Axel Springer 当时也签了协议,可媒体行业过去二十年已经见过太多“平台先分发、再抽走关系”的故事。News Corp 这次拿到的钱,短期能补收入;长期能不能守住品牌直达流量,标题没有给任何答案。 现在能下的结论只有一半。OpenAI又签下一家重量级出版商,这是事实。它买到的到底是训练燃料、检索许可,还是诉讼缓冲,正文没说。没有条款,这条消息先别按“内容生态大胜利”处理。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K0·R1
2024-05-21 · 星期二2024年5月21日
00:00
755d ago
Hugging Face 博客· rssEN00:00 · 05·21
Hugging Face 推出 Spaces Dev Mode,但正文是空的
Hugging Face 发布了一个叫 Spaces Dev Mode 的新功能,标题说为了改善开发者体验。但点进去页面返回 429 错误,正文一个字都没披露——没有功能细节、没有上线时间、没有价格、也没有支持什么硬件。目前能确认的只有产品名字和标题里那句目标。这不是一个能力解读,只是一个工具类产品的发布信号,信息缺口很大,等后续补全再判断值不值得跟进。
#Tools#Hugging Face#Product update
精选理由
标题确认了 Hugging Face Spaces 的 Dev Mode 更新,但正文为空,未披露功能范围、定价、硬件支持或上线条件。HKR 三项均不满足,属于被排除的占位式产品公告。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
2024-05-19 · 星期日2024年5月19日
23:30
756d ago
OpenAI 博客· rssEN23:30 · 05·19
ChatGPT 五个声音是怎么选出来的
OpenAI 发了一篇博客,讲 ChatGPT 五个声音(Breeze、Cove、Ember、Juniper、Sky)的选角过程。找了专业选角导演,2023 年 5 月发招募,一周收到 400 多份投稿,先筛到 14 人,再挑出 5 个。演员飞到旧金山录音,9 月上线。每个演员拿高于市场顶薪的报酬,但为了保护隐私不公布名字。正文没披露具体薪酬数字、用户...
#Audio#OpenAI#ChatGPT#Commentary
精选理由
HKR-H 靠标题的幕后角度过关。HKR-K 不通过,因为正文没披露任何筛选标准、样本量、合同条款或时间点。HKR-R 不通过,因为它没打到能力、成本或竞争神经;价值低,所以全选。
一句话点评
OpenAI 发了一篇博客,详细讲了 ChatGPT 五个语音(Breeze、Cove、Ember、Juniper、Sky)是怎么选出来的:找了专业配音导演、收了 400 多份试音、五个月流程、给演员高于市场价的报酬。核心目的是澄清 Sky 的声音不是模仿斯嘉丽·约翰逊,而是另一位专业演员的自然嗓音。但整篇没披露任何技术细节——比如语音合成用了什么模型、延迟多少、怎么处理多语言口音。更像公关...
锐评
OpenAI 只公开了 1 个标题谈 ChatGPT 语音来源,正文没给样本数、筛选标准、演员合同、上线时间。我先下判断:这条的核心不是“怎么选声线”,而是 OpenAI 需要把语音产品的决策流程重新讲一遍,给外界一个可引用版本。 时间点太敏感了。标题发布日期是 2024 年 5 月 19 日,刚好卡在 Sky 声音争议爆开之后。那几天的舆论焦点不是 TTS 质量,而是相似性、授权链条、内部决策留痕。OpenAI 这时发一篇“voices were chosen”,我很难把它看成常规幕后文章。说真的,这更像法务、PR、产品三方一起校口径后的解释入口。标题已经给出主题,正文却是空的,这一下就有点不对劲了:公司显然知道必须回应,但当下还没放出能承受审视的细节。 我对这种“流程说明先行”的叙事一直比较警觉。语音系统的争议从来不只在演员是不是签了字,还在相似性评估是谁做、用什么标准、出现外部异议后谁有停用权限。去年到今年,ElevenLabs、Meta、微软都在补语音水印、肖像与声音授权、合成内容标识这些治理环节;行业共识已经不是“我们有授权就行”,而是“你要能证明内部确实做过风险审查”。OpenAI 如果只是讲海选、试音、最终入选这种制作流程,这篇文章的信息量其实很有限。外部更关心的是三件事:一,候选声音与公众人物的相似性有没有被量化;二,谁签字放行;三,争议出现后多久下线。标题没回答,摘要也明确说正文未披露。 还有一点我不太买账。OpenAI 过去一年一直把多模态体验包装成“更自然的人机交互”,但声音一旦成为产品人格的一部分,它就不再只是 UI 组件。语音比文本更像品牌代言,也更像身份映射。你看去年 Character.AI、Meta AI、Pi 这类产品,大家都在试图把“声音”做成陪伴感和可信度的捷径,结果治理成本也一起上来了。OpenAI 这次如果只是补一篇品牌叙事稿,没把合同、审批、下线机制讲清楚,那它修复不了信任,只是在拖时间。 我还没查到正文,所以不装知道更多。现在能确认的只有:这是流程话题,不是模型规格更新;标题发布的时点带着强烈回应意味;关键治理信息仍然缺席。对做语音产品的人来说,这条提醒很直接:TTS 领先不等于语音产品成熟,授权链、相似性审查、撤回机制现在已经是功能的一部分。少一项,产品就会被公关反噬。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
2024-05-16 · 星期四2024年5月16日
15:00
759d ago
OpenAI 博客· rssEN15:00 · 05·16
ChatGPT 数据分析升级:直接连 Google Drive 和 OneDrive,还能改图表颜色
OpenAI 给 ChatGPT 的数据分析功能加了三个实用更新:一是可以直接从 Google Drive 和 OneDrive 拉文件,不用先下载再上传;二是表格和图表可以点开全屏看,边分析边更新,还能点某个区域追问;三是图表支持自定义颜色、悬停看数据,改好后能直接下载放到 PPT 里。这些功能跑在 GPT-4o 上,未来几周陆续推给 Plus、Te...
#Tools#OpenAI#ChatGPT#Product update
精选理由
这篇只有标题,正文是空的。标题说 OpenAI 要改进 ChatGPT 的数据分析,但改进什么、怎么改、什么时候上线、谁能用,一个字都没提。HKR 三项全挂,所以直接排除,不当作实质性产品更新处理。别被标题骗了,这还不是可执行的功能说明。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R0
13:30
759d ago
OpenAI 博客· rssEN13:30 · 05·16
OpenAI 与 Reddit 合作:ChatGPT 将能实时读取 Reddit 帖子,但合作金额和独家条款未披露
OpenAI 和 Reddit 正式宣布合作,核心是 OpenAI 接入 Reddit 的 Data API,让 ChatGPT 能实时获取 Reddit 上的结构化内容,尤其是热门话题下的讨论。作为交换,Reddit 会基于 OpenAI 的模型给社区开发 AI 功能,同时 OpenAI 成为 Reddit 的广告合作伙伴。但正文没披露合作金额、是否...
#OpenAI#Reddit#Partnership
精选理由
HKR 的 H 和 R 都成立:OpenAI 搭上 Reddit 本身就有话题性,而且戳中了数据授权和分发两条敏感神经。K 不成立是因为正文只给了合作名字,范围、价格、时间一概没有,信息量太低,只能放 low-band all。
一句话点评
OpenAI 和 Reddit 正式合作,ChatGPT 将能实时读取 Reddit 帖子,Reddit 则用 OpenAI 模型给社区加 AI 功能。好处是 ChatGPT 能拿到最新、最真实的人类讨论,比抓网页更结构化。但注意:Sam Altman 本人是 Reddit 股东,这笔交易有利益关联,OpenAI 强调由独立董事会批准。合作没披露具体金额,也没说数据是否独家。对开发者来说,R...
锐评
OpenAI 和 Reddit 已确认合作,但正文没给金额、范围、期限。我的判断偏保守:先把它看成一笔内容与分发资源交换的框架协议,别急着往“战略同盟”上抬。 理由很简单。Reddit 今年最清楚的动作,是把自家语料变成可收费资产。我记得 Reuters 2 月报过,Google 与 Reddit 的数据授权一年大约 6000 万美元;这笔钱当时就被很多人解读成 Reddit IPO 前给市场看的新收入故事。放到这个背景里,OpenAI 现在签进来,第一反应不是“论坛社区要深度接入 ChatGPT”,而是 OpenAI 也需要更持续、更新频率更高、带人类互动结构的数据源。Reddit 这种问答链路、投票、楼中楼争论,对齐和检索都好用,这个业内早就知道。 我对标题叙事有个明显保留:合作不等于数据全量授权。正文为空,所以训练权、实时 API 权、展示权、商业再分发权,一个都没披露。这里差别很大。要是像 Google 那类授权,重点在数据供给;要是把 Reddit 内容更深地接进 ChatGPT 或搜索产品,重点就在流量回传和品牌安全;要是广告合作,那又是另一套账。现在只有标题,三条路都不能排除。 还有个现实问题,很多人会故意跳过:Reddit 数据的价值,建立在社区活跃和搜索可见性上。过去一年各家模型厂都在追“新鲜语料”,但论坛数据也最容易带进垃圾帖、搬运帖、机器人灌水和版规噪声。OpenAI 如果拿的是高频更新接口,清洗和许可边界比买一批静态语料麻烦得多。说真的,这条新闻现在能确认的,不是 OpenAI 拿到了什么能力,而是 Reddit 又把自己往“AI 语料收费站”这个定位推近了一步。标题已经给出合作,正文没披露合同结构;在细节出来前,我不买任何一边关于“深度协同”的大词。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
00:00
760d ago
Hugging Face 博客· rssEN00:00 · 05·16
用 KV Cache 量化给大模型续命,长文本生成不再爆显存
Hugging Face 发了一篇博客,讲的是把 KV Cache(大模型生成时存中间计算结果的那块缓存)做量化压缩,从而让模型能生成长文本而不被显存卡死。正文没披露具体量化到多少 bit、省了多少显存、能多生成多少 token,也没说支持哪些模型。核心逻辑是:长文本生成时 KV Cache 会吃掉大量显存——以 Llama-2 7B 为例,一万 to...
#Inference-opt#Commentary
精选理由
标题说 KV cache 量化能延长生成长度,但正文是空的,没给任何具体数字:量化位宽、显存省了多少、生成长度延长了几倍、在什么模型上测的,全都没有。所以 H 和 R 成立——痛点真实、方向对路;但 K 不成立,因为关键信息全缺,按规则只能算方向性评论,不是可落地的结论。重要性给 35 合理,tier 排除也是对的:标题党嫌疑,技术可及性不达标。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
2024-05-14 · 星期二2024年5月14日
18:00
761d ago
● P1OpenAI 博客· rssEN18:00 · 05·14
OpenAI 首席科学家换人:Ilya Sutskever 离职,Jakub Pachocki 接任
OpenAI 在 2024 年 5 月 14 日发了一条简短公告,确认联合创始人兼首席科学家 Ilya Sutskever 将离开公司,由原研究总监 Jakub Pachocki 接任首席科学家。公告里只有 Sam Altman 给全公司的一封告别信和一段 Pachocki 的履历介绍,没有说明 Sutskever 具体哪天离职、交接期怎么安排,也没提...
#OpenAI#Ilya Sutskever#Jakub Pachocki#Personnel
精选理由
我会先打个折,因为正文是空的,只有标题能确认两个人事变动。Ilya 作为联合创始人兼首席科学家离职,本身就够重磅,接任者是谁也直接决定后续研究风格。但正文没披露交接时间、过渡安排和职责切分,这些缺口让判断只能停在标题层面。对从业者来说,真正该盯的是研究路线谁说了算,这点目前还没答案。
一句话点评
Ilya Sutskever 离开 OpenAI,接任首席科学家的是 Jakub Pachocki。Sam Altman 的告别信写得挺动情,但没提 Ilya 具体去做什么,只说有“个人意义重大的事”。
锐评
OpenAI 官方确认了 Ilya Sutskever 的离开,由 Jakub Pachocki 接任首席科学家。Sam Altman 在内部信里给了 Ilya 很高的评价,称他是“我们这一代最伟大的头脑之一”,但也明确表示 Ilya 是去忙自己觉得有意义的事了,具体项目一个字没提。这让人没法不联想到去年那场董事会风波,Ilya 当时是参与罢免 Sam 的关键人物,虽然后来又改口支持,但裂痕可能比公开说的要深。 接棒的 Jakub Pachocki 从 2017 年就在 OpenAI,主导过 GPT-4 和 OpenAI Five 的开发,背景是卡内基梅隆的理论计算机博士。公告强调他在大规模强化学习和深度学习优化上的研究,以及“重新聚焦公司愿景到扩展深度学习系统”上的作用。这基本是在说,OpenAI 的技术路线会继续沿着大力出奇迹的 scaling 方向走,不会因为 Ilya 的离开而转向。 不过,公告完全没提 Ilya 离开对 OpenAI 安全对齐团队的影响。Ilya 之前是联合领导安全对齐工作的核心,他走后这个方向由谁主导、资源会不会被重新分配,正文都没披露。这点先别太激动,等后续人事安排出来再看。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
00:00
762d ago
Hugging Face 博客· rssEN00:00 · 05·14
阿拉伯语大模型排行榜上线,但正文是空的
Hugging Face 联合阿联酋技术创新研究所(TII)推出了一个专门评估阿拉伯语大模型(LLM)的排行榜,叫 Open Arabic LLM Leaderboard。它用了 AlGhafa、ACVA 和 AceGPT 等基准数据集,覆盖阅读理解、情感分析、问答等任务,还翻译了 MMLU 和 EXAMS 来扩充测试范围。但正文只写了背景和数据集名字...
#Benchmarking#Benchmark
精选理由
全文只有标题,正文为空,连评测集、模型数量、分数都没披露,更别提可复现性。项目方向有意义,但当前信息量不足以支撑任何评分,按规则归为 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
2024-05-13 · 星期一2024年5月13日
10:00
763d ago
● P1OpenAI 博客· rssEN10:00 · 05·13
OpenAI 把 GPT-4o 和更多工具开放给免费用户了
OpenAI 宣布免费版 ChatGPT 也能用上最新的旗舰模型 GPT-4o,同时还会逐步解锁联网搜索、数据分析画图表、上传文件、聊照片、用 GPTs 商店和记忆功能。GPT-4o 在文字、语音和图片理解上都比前代更快,但免费用户有使用次数限制,用完了会自动切回 GPT-3.5。付费的 Plus 用户消息额度是免费用户的 5 倍,还能抢先体验新的实时...
#Tools#OpenAI#Product update
精选理由
这条消息分量很重,OpenAI 把 GPT-4o 塞进免费套餐,等于重新划了免费 AI 工具的天花板。我会先打个折,因为正文是空的,工具清单、配额、地区、上线节奏全都没披露,实际落地效果还得看后续细节。但光是这个信号就够从业者紧张一阵了,所以分数给到 90,没拉满是因为信息缺口太大。
一句话点评
OpenAI 把 GPT-4 级模型免费了,还附赠联网、数据分析、传文件,但免费版有次数限制,用超了会降级到 3.5。
锐评
OpenAI 这次更新最狠的一步是把 GPT-4o 塞进了免费套餐。以前 GPT-4 是付费墙后的核心卖点,现在直接向过亿周活用户开放,等于把自家高端模型的护城河填平了一截。免费用户能用的东西一下多了不少:可以传文件让它总结分析、拍照片聊内容、用 GPTs 商店里的定制机器人,还能让它联网查资料。但别高兴太早,公告说免费版有使用上限,具体多少条没说,只提了“取决于用量和需求”,到了上限会自动切回 GPT-3.5。Plus 用户的消息额度是免费版的 5 倍以上,团队和企业版更高。 另外两个动作也值得留意。一是发了 macOS 桌面客户端,快捷键呼出,能直接聊截图,Windows 版说年内出。二是预告了一个新的语音模式,能做实时视频对话,比如对着直播画面问规则,但只说了几周内先给 Plus 用户内测,没给正式上线时间。整体看,OpenAI 在把能力往下放,但高负载时的体验和实时视频功能的落地速度,这两点正文都没给出具体承诺,得等实际推了再看。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
00:00
763d ago
Hugging Face 博客· rssEN00:00 · 05·13
Hugging Face 发布 Transformers Agents 2.0:让模型学会调用工具干活
Hugging Face 正式推出 Transformers Agents 2.0,核心变化是新增两种能根据历史观察迭代执行任务的智能体类型,不再只是单次调用。官方称新框架性能很强,用 Llama-3-70B 驱动的智能体在 GAIA 排行榜上超过了 GPT-4 的方案。不过正文没披露具体 API 改动、支持哪些模型、以及是否改了底层的调用机制——目前...
#Agent#Tools#Hugging Face#Product update
精选理由
官方标题确认了 Transformers Agents 2.0,对关注 Agent 工具链的读者来说 H 和 R 有一定吸引力。但 RSS 正文为空,API、支持模型、调用机制改动全没披露,K 不成立,故事只能留在低 all 区间。
一句话点评
Hugging Face 发布 Transformers Agents 2.0,核心是让模型能根据历史观察迭代执行任务。亮点是 Llama-3-70B 驱动的 Agent 在 GAIA 排行榜上超过了 GPT-4 方案。代码更透明,支持社区共享 Agent。但正文没披露具体延迟和成本,实际跑起来未必轻量。
锐评
Hugging Face 这次只放出了“Transformers Agents 2.0”这个标题,功能、API、支持模型、发布条件正文都没披露。我的判断先摆在前面:在 agent 框架这条线上,版本号本身几乎没有信息量,调用机制才有。如果 2.0 只是把现有 tool use、code execution、planner 封成更顺手的接口,那是 DX 更新;如果它改了模型如何选择工具、如何处理多步状态、如何做错误恢复,那才配叫 2.0。 我一直觉得 Hugging Face 做 agent 容易掉进一个老问题:演示很好看,生产很难落。去年到今年,OpenAI 的 function calling、Assistants,再到 Anthropic 的 tool use,大家都在把“模型会不会调用工具”往“系统怎么保证调用稳定”上推。这个对比很关键,因为 agent 栈的门槛早就不是能不能发起一次 HTTP call,而是 schema 约束、重试策略、观察性、权限边界这些脏活。标题没给这些,我就不会把它当成重大发布。 还有一点我有点怀疑。Hugging Face 过去更擅长做开放生态入口,不太擅长替开发者吞掉全部运行时复杂度。Transformers、Inference Endpoints、Spaces 都证明了这家公司很会铺基础设施层和分发层,但 agent 产品要往前走,迟早得碰到 session memory、sandbox、tool auth、成本控制。LangChain、LlamaIndex 这两年挨了不少骂,原因也在这:抽象一旦太厚,调试就很痛。Agents 2.0 如果没有把中间状态暴露得更清楚,我看着还是会像 demo 框架。 目前只有标题信息,我还没查到 repo 变更、文档页、API 示例。说真的,这条新闻先别按“能力升级”处理,先按“命名升级”处理。等他们把 tool calling 协议、执行环境和失败回退策略放出来,再决定这是不是一次认真重构。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
2024-05-08 · 星期三2024年5月8日
00:00
768d ago
OpenAI 博客· rssEN00:00 · 05·08
OpenAI 发布《模型规范》
OpenAI 发了一篇博客,标题是《模型规范》,但正文只给了目录和框架,没有披露具体条款、适用模型、生效时间或执行方式。目前能确认的只有:这是一份描述模型行为准则的文件,分目标、规则和默认行为三层,比如“遵守法律”“不生成 NSFW 内容”“默认用户善意”。但怎么训练、怎么验证、是否强制,正文都没说。所以这更像一份政策草案,不是产品更新,别当新功能看。
#OpenAI#Policy
精选理由
目前只有标题和来源是确认的,所以 HKR-K 不成立:范围、具体规则和执行方式都缺失。但主题本身值得关注,因为 OpenAI 把模型行为写成规范,这对对齐和治理有影响。信息密度只够打 all 级别。
一句话点评
OpenAI 发布了《模型规范》初稿,相当于一份给 AI 的“行为守则”,明确模型在 API 和 ChatGPT 里该怎么做人。核心分三层:目标(帮用户、利人类、给 OpenAI 长脸)、规则(守法、不泄密、不搞 NSFW)、默认行为(假设用户善意、不确定就直说)。目前只是草案,还没落地到具体模型,正文也没披露训练数据或评估指标。亮点是公开了内部设计原则,但缺具体案例和冲突解决机制,比如“帮...
锐评
OpenAI 只放出了《Model Spec》这个标题,正文、适用模型、执行方式都没披露;在这些关键信息缺席前,把它读成“新能力上线”是过度解读。我现在的判断很简单:这更像一份公开版行为规范,先服务外部对齐叙事,再决定要不要落进产品。 我一直觉得 OpenAI 在这类文件上的动作,通常有两层目标。第一层是给开发者和监管者一个可引用的口径。2023 年他们发过 system message、preparedness framework、usage policy 一类材料,作用都不是直接提升模型,而是把“模型该怎么回答、边界在哪、出了事按什么原则解释”写成文本。标题里用的是 spec,不是 release、API update、system card,这个词本身就偏规范,不偏能力。第二层才是内部执行:有没有进训练数据、有没有进 inference-time policy、有没有审核链路。标题没给,正文也没有,这块现在不能猜。 我对这条宣传口径有个保留。OpenAI 很擅长把“对齐原则”写得比“执行细节”更完整。问题在于,模型行为不是靠 PDF 稳定下来的,而是靠 system prompt、reward model、拒答策略、工具权限、红队反馈一起收敛出来的。Anthropic 以前讲 Constitutional AI 时,至少把原则如何进入训练这件事讲得更清楚一些;Google 发 model cards 或 safety reports 时,也常会给适用范围和限制条件。OpenAI 这次如果最后只给原则,不给适用模型、优先级冲突、覆盖率、版本更新机制,那它对从业者的参考价值会很有限。 我还想追一个点:这份 spec 是不是给 GPT-4o 这类新模型准备的统一行为层。发布时间点靠近 2024 年 5 月的产品节奏,这个联想不奇怪,但我还没查到正文,不能下结论。要是它覆盖 ChatGPT 和 API 两条线,那它会影响很多 prompt 工程和 agent 设计;要是它只是公开说明书,实际系统提示词继续频繁改,那开发者拿到的还是一张静态地图,跑的是动态地形。 所以这条先别吹,也别骂。标题已经给出“OpenAI 在写模型行为规范”,正文未披露“规范如何执行”。对做应用的人来说,后者才决定这东西有没有操作价值。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K0·R1
2024-05-06 · 星期一2024年5月6日
2024-05-03 · 星期五2024年5月3日
00:00
773d ago
Hugging Face 博客· rssEN00:00 · 05·03
HuggingFace 把第三方模型性能排行榜搬过来了
HuggingFace 宣布引入 Artificial Analysis 的 LLM 性能排行榜,但正文只返回了 429 错误页面,没给出任何具体信息。目前不知道上线时间、评测指标、覆盖模型数量,也不清楚是否支持筛选或 API 调用。
#Benchmarking#Tools#Hugging Face#Artificial Analysis
精选理由
HKR三项全不达标:标题只确认了Hugging Face接入Artificial Analysis排行榜这一件事。正文为空,没给上线时间、评测维度、模型数量、筛选排序或API访问,信号太薄,分数低于40/排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
2024-04-29 · 星期一2024年4月29日
00:00
777d ago
Hugging Face 博客· rssEN00:00 · 04·29
StarCoder2-Instruct:完全开源透明的代码模型自对齐方案
Hugging Face 发了一篇博客,讲他们怎么用 StarCoder2-15B 自己教自己写代码,不用人工标注,也不用 GPT-4 那种大模型来蒸馏数据。核心做法是:先从开源代码库里挑出质量好的 Python 函数,让模型自己生成对应的指令和回答,再用执行结果来验证回答对不对。最终模型在 HumanEval 上拿了 72.6,甚至超过了 70B 参...
#Code#Alignment#Hugging Face#StarCoder2-Instruct
精选理由
HKR-H 和 HKR-R 成立:透明自对齐加宽松许可是代码模型读者的真钩子。HKR-K 不成立,因为 RSS 正文为空,模型尺寸、训练数据、基准成绩和许可文本都没披露,所以这条留在 all 里。
一句话点评
StarCoder2-15B-Instruct 完全用自己生成的数据做指令微调,没用人工标注也没用 GPT-4 蒸馏,HumanEval 72.6 分,超过了 CodeLlama-70B-Instruct 的 72.0。关键卖点是全透明、可商用许可,而且自产数据效果居然比用 GPT-4 数据还好。但注意:评测只覆盖 Python 代码生成,没提多语言、长上下文或真实工程场景;HumanEva...
锐评
Hugging Face 这次只明确了 StarCoder2-Instruct 的两个标签:fully transparent 和 permissive self-alignment。就这点信息,我的判断很直接:这条先看成开源方法论表态,不看成代码模型排名变化。 原因不复杂。代码模型这条线,大家过去一年已经被太多“instruction-tuned”“aligned”“developer-friendly”的标题教育过了。没有模型尺寸、SFT 样本来源、偏好数据构造、过滤规则、许可文本、评测集和推理参数,所谓“自对齐”到底是流程可复现,还是结果可复现,完全是两回事。标题给了透明和宽松许可,正文却没有披露这些关键条件,那我没法把它和 DeepSeek-Coder、CodeQwen1.5、Magicoder,或者更早一批 WizardCoder 的开源实践放在同一张表上比较。开源代码模型里,很多项目一开始讲数据合规和流程公开,最后卡死在数据清洗细节、合成数据比例、测试污染处理这几件事上。这里最敏感的也正是这几件事。 我对“fully transparent”这个说法会先打个问号。说真的,代码模型要做到全透明,门槛比自然语言模型更高。你至少得交代基础底模是不是 StarCoder2 某个具体尺寸,指令数据是人写、模型蒸馏还是测试用例反推,拒答和安全策略怎么加,训练脚本和超参放不放,评测时有没有 pass@k、temperature、execution-based setting 这些条件。我还没看到这些。如果最后只是公开一个偏好优化思路,或者放出少量合成指令数据,这离“全透明”还差得远。 宽松许可这点我反而愿意认真看,因为它碰的是部署摩擦,不只是学术姿态。Meta 的 Llama 系列、Mistral 的部分发布、以及很多代码数据集的商业限制,过去一年已经证明了一件事:模型能力差 3 到 5 个点,企业有时能忍;许可边界不清,法务直接拦。代码生成场景尤其这样,因为输出会进生产仓库,责任链比聊天机器人更短。Hugging Face 如果这次真把训练流程、数据处理和权重许可都做到了可商用、可复现,那它的价值不一定体现在榜单名次,可能体现在“团队敢不敢拿去改、拿去上内网”。 但我还是要泼点冷水。标题现在只证明了叙事方向,没证明结果。文章没给 HumanEval、MBPP、EvalPlus、MultiPL-E 这类基准成绩,也没给与 StarCoder2 base、DeepSeek-Coder 33B、CodeQwen1.5 7B/14B 的对比。我自己也没查到这篇对应的完整博客正文,所以这里不能替它补成绩。要是后面披露出来只是一个中小尺寸模型,靠自合成指令把 chat format 做顺,意义依然有,但那是“开源配方更透明”,不是“代码生成能力跃迁”。这两个结论,别混着看。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
2024-04-24 · 星期三2024年4月24日
00:00
782d ago
● P1OpenAI 博客· rssEN00:00 · 04·24
GPT-4 API 全面开放,旧版补全模型半年后下线
OpenAI 宣布 GPT-4 API 向所有付费开发者开放,同时给旧版 Completions API 模型判了死缓:2024 年 1 月 4 日起,ada、babbage、curie、davinci 等老模型将彻底停用,用户需要迁移到新的替代模型上。官方推荐大家转向 Chat Completions API,说现在 97% 的 GPT API 用量...
#Tools#OpenAI#GPT-4#Product update
精选理由
这是一次有分量的 OpenAI 平台更新,HKR 的 K 和 R 都很扎实:GPT-4 API 全面开放叠加 Completions 旧模型弃用,对开发者是立刻要面对的事。没给 p1 是因为正文是空的,开放范围、截止日期、受影响模型名单全没披露,实际影响还得等细节。
一句话点评
OpenAI 把 GPT-4 开放给所有付费用户了,同时宣布老款补全模型半年后退役,建议大家都切到 Chat Completions API。
锐评
这条公告的核心就两件事:GPT-4 不用排队申请了,以及老旧的 Completions API 模型要逐步下线。对开发者来说,GPT-4 的 8K 上下文版本现在付过钱的就能直接用,月底还会对新开发者开放,之后根据算力情况提速率限制。这算是个好消息,门槛降低了。 更值得留意的是模型退役计划。从 2024 年 1 月 4 日起,像 ada、babbage、curie、davinci 这些老款补全模型都会被替换成新模型,比如 davinci-002 或 gpt-3.5-turbo-instruct。OpenAI 给出的理由是,Chat Completions API 这种结构化的对话接口(能区分系统指令和用户输入,支持多轮对话)已经占了他们 API 用量的 97%,效果更好,还能降低提示词注入攻击的风险。所以,如果你还在用老接口,现在就得开始迁移了。 不过,正文没提这些新替换模型的定价和具体性能对比,也没说老模型退役后,依赖它们的应用会不会有兼容性问题。这点先别太激动,迁移成本和工作量得自己评估。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2024-04-23 · 星期二2024年4月23日
00:00
783d ago
Hugging Face 博客· rssEN00:00 · 04·23
Hugging Face 推出开放思维链排行榜
Hugging Face 发布了一个公开排行榜,专门比较各家大模型在“思维链”提示下的表现。它不直接比模型答对多少题,而是比“用了思维链比不用时准确率提升了多少”。目前评测任务包括 LogiQA 和 LSAT 两类逻辑推理题。动机是传统排行榜容易被训练数据污染——模型可能只是背过答案,而思维链能测出它是不是真的会推理。正文没披露具体模型排名、评测频率或...
#Reasoning#Benchmarking#Hugging Face#Benchmark
精选理由
HKR-H 勉强靠'开放 CoT 榜单'这个钩子过关。HKR-K 和 HKR-R 都失败,因为片段没给任何任务、协议、样本排名、参与模型或更新节奏,所以这条只能算低价值 all。
一句话点评
HuggingFace 联合 Logikon 和 Ai2 搞了个新榜单,不测模型最终答对多少,而是测“用思维链提示比不用能提升多少准确率”。目前只上了 LogiQA 和 LSAT 两类逻辑题,样本量偏小,且全是选择题。正文没披露参与模型的具体增益数字,也没说是否控制温度等生成参数。思路不错——抗数据污染,但验证力度还弱。
锐评
Hugging Face 这次只放出了一个 Open Chain of Thought Leaderboard 标题,正文未披露评测任务、参与模型、打分口径和更新频率;在这些关键信息缺席的条件下,这条新闻的含金量还很有限。我的判断很直接:如果评测协议、prompt、解析器和去污染规则不公开,这种 leaderboard 很容易测成“谁更会迎合裁判”,不是谁更会推理。 我一直觉得,chain-of-thought 榜单比一般能力榜更难做干净。原因不是名字新,而是它天然碰到两个老问题:第一,很多闭源模型对 CoT 有强策略限制,公开 API 返回的内容跟内部推理轨迹不是一回事;第二,只要打分依赖输出步骤,模型就会学会写“像推理”的文本。去年到今年,业内已经反复见过这种事:有些模型把答案前面铺一大段看似严谨的步骤,最终准确率并不稳定。GSM8K、MATH、甚至后来的 GPQA、MMLU-Pro 相关讨论里,大家已经越来越警惕“会写过程”和“真的推理”被混成一个指标。Hugging Face 如果想把这件事做成基础设施,至少要把 judge 设计、是否允许 self-consistency、是否限制 test-time compute 讲清楚。标题说 open,我第一反应不是“更透明了”,而是“你最好真的把 protocol 全开出来”。 我对“Open”这个词也有一点保留。开源社区很喜欢把 leaderboard 做成公共坐标系,这个方向我支持;Open LLM Leaderboard 当年确实帮不少开源模型获得了可见度。但 CoT 跟常规选择题榜单不一样,它更容易被 prompt engineering、answer extraction 和 contamination 放大。我还没查到这篇正文,所以不能断言它会踩坑;但如果它只公开分数,不公开样本、提示模板、解析代码,那这个 open 更像品牌名,不像方法学承诺。 还有个上下文不能省:2024 年这波“推理模型”叙事正在升温,很多团队都在把 test-time scaling、deliberate reasoning、tool use 混着讲。一个 CoT leaderboard 很容易被市场拿去当“推理能力排行榜”,这个我不太买账。没有任务拆分,你不知道它测的是数学、多跳问答、代码还是符号推理;没有成本指标,你也不知道高分是不是靠更长输出堆出来的。OpenAI 当时对隐藏 chain-of-thought 已经越来越谨慎,Anthropic 也更偏向展示结果和可控行为,而不是把内部推理全文吐给用户。顺着这个趋势看,公开 CoT 榜单的价值,不在于谁第一,而在于它能不能把“推理评测”从花哨样例拉回可复现实验。 所以我现在的态度很简单:这条先别吹。标题给了方向,正文没给证据。等 Hugging Face 把任务集、提示词、评分脚本、去重和污染检查放出来,这个榜单才配当行业参考;不然它更像一个会持续制造社媒截图的页面。
HKR 分解
hook knowledge resonance
打开信源
50
SCORE
H1·K0·R0

更多

频道

后台