ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-01

18 items · updated 3m ago
RSS live
2026-04-01 · 星期三2026年4月1日
18:51
72d ago
X · @Yuchenj_UW· x-apiMULTI18:51 · 04·01
泄露版 Claude Code 一天拿下 11 万 GitHub Star,把 OpenClaw 比下去了
一个泄露的 Claude Code 构建版本在一天内获得了超过 11 万 GitHub Star,发帖人称这已经是 Anthropic 历史上 Star 数最高的开源项目。正文没披露具体仓库地址、统计口径、对比 OpenClaw 的基线数据,也没说泄露是否真的加速了传播。值得关注的是:靠泄露渠道分发,实际采用速度是否真的比官方发布更快。
#Code#Tools#Anthropic#Open source
精选理由
标题很猛,但正文只有 RSS 片段,信息缺口太大:没有仓库地址、没有统计起止时间、没有 OpenClaw 的具体对比数据。HKR-H 和 HKR-R 成立,因为泄露+速度反差确实有话题性,也切中开发者工具采用这个敏感点。HKR-K 不成立,关键证据链断了,所以 hard-exclusion-6 把分数压在 40 以下。别被标题带偏,真正该盯的是泄露分发是否直接改写了开发者采用速度。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
15:28
72d ago
X · @Yuchenj_UW· x-apiMULTI15:28 · 04·01
Codex 和 Claude Code 比谁强?关键看谁给开发者更多额度刷新次数
作者认为,在 Codex 和 Claude Code 的编程工具之争里,决定胜负的不是模型本身多强,而是谁给开发者更多额度刷新次数——谁刷新快,谁就能在 token 经济里赢。正文没披露具体的刷新间隔、额度数量或套餐对比,所以这个判断目前还只是一个观点,没有数据支撑。
#Code#Tools#Codex#Claude Code
精选理由
HKR-H 和 HKR-R 通过:角度抓人,切中开发者对速率限制经济的真实痛点。HKR-K 不通过:正文没有提供任何数字、例子或可复现的测试,触发硬排除规则6(零来源评论),因此重要性上限为39。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
12:10
73d ago
MIT 科技评论· rssEN12:10 · 04·01
众包工人录家务视频,教人形机器人干活
一家叫 Micro1 的公司雇了数千名来自 50 多个国家的众包工人,让他们把 iPhone 绑在额头上,录下自己做家务的视频,卖给机器人公司训练人形机器人。工人里包括尼日利亚的医学生,报酬在当地算不错,但正文没披露具体时薪或总数据量。这种做法在隐私和知情同意上争议很大,而且工作本身又累又怪。
#Robotics#Benchmarking#Micro1#MIT Technology Review
精选理由
这是一篇两条新闻的汇总,不是深度报道。HKR-H 靠的是零工训练人形机器人这个少见角度;HKR-K/R 靠的是 50 多国、数千人这些具体数字,以及评测失真这个争议点,但正文没给任何指标或实验结果,所以放在 all 层级。
一句话点评
尼日利亚医学生下班后戴iPhone录家务视频,时薪在当地算高,但隐私和知情同意问题没解决。Micro1雇了50国数千人,数据卖给机器人公司。AI基准测试也翻车了:只测单任务,不测真实协作场景。正文没披露数据价格和具体用途。
锐评
Micro1 把数千名零工拉进 50 多个国家录制家务视频,这已经把机器人训练的数据链条,从云端标注推进到私人住宅。我的判断很直接:人形机器人眼下最缺的不是再多一个 VLA 论文,而是便宜、连续、可清洗的长尾操作数据。谁先把这套供给链做成,谁就先拿到一段时间差。 这事让我想到前几年 Scale AI、Appen、Remotasks 给大模型喂数据的阶段,只是这次更麻烦。文本标注暴露的是语言偏见和低薪问题。家务视频暴露的是住址、家庭结构、消费习惯、面部、儿童和同住者。正文只说“薪资在当地不错”,没给时薪、任务单价、采集协议、授权期限,也没说客户能否二次转售。我对“知情同意”这四个字有点怀疑:录制者能同意自己的数据被卖给机器人公司,不等于他能替同住家人、访客、邻居一并同意。 从技术面看,这条也说明一个不太好听的现实:很多人形公司的“通用操作”能力,离不开人先把世界演给它看。Figure、1X、Agility、Tesla Optimus 这一波都在追操作泛化,但公开视频大多是受控环境。家庭场景最难的地方不是抓取动作本身,是杂乱、遮挡、物体分布漂移,还有每个家庭都不一样的流程顺序。Micro1 这种模式的价值,不在单条视频,而在跨国家、跨户型、跨器具的分布覆盖。文章没披露数据规模、标注层级、是否同步采集深度或触觉,只能先把它看成“用廉价真人演示填补真实世界缺口”的方案。 我也不完全买“拍得多就能学得好”这套叙事。第一,iPhone 头戴视频天然有视角偏差,和机器人胸前、头部、腕部相机的观察位并不一致。第二,家务动作里很多关键变量是力控和接触状态,纯视频不够。第三,跨文化数据不自动等于高质量数据;厨具、收纳习惯、清洁流程差异很大,清洗成本会很高。我自己还没看到他们公开的数据卡、失败率或 downstream 提升数字。没有这些,先别把“数千人”直接换算成模型能力。 同一篇里谈的 benchmark 线索,我基本同意方向,但对提法保留意见。Angela Aristidou 说要做 Human–AI、情境特定评估,这个判断没错。现在很多榜单还是孤立题、短回合、单人使用假设,和企业里真实的多角色协作差很远。过去一年大家已经在往这个方向补:SWE-bench 逼近真实代码修复,METR、Anthropic、OpenAI 也都在谈长时任务、agent 失控链路和人机协作评测。问题是,文章没给这个新方法的指标、实验设计、基线模型、复现实验。 我担心的是另一头:一旦“情境特定”变成主口号,评测就很容易滑向定制咨询。每家企业都能说自己的流程独特,最后 nobody can compare anything。基准测试当然不能只考选择题,但也不能只剩案例研究。可用的路子应该是两层:底层保留可复现、跨模型可比的公共任务;上层再叠加行业工作流里的长周期、多角色、人机混合指标,比如交接损耗、回滚率、人工接管频次、完成时间和错误代价。没有这层公共底板,“更贴近现实”最后常常只是“更难被验证”。 说真的,这两条放在一起看很有意思。机器人这边,行业正在把真实世界重新切成可采购的数据单元。评测这边,大家又发现脱离真实工作流的分数越来越没用。一个在把现实搬进训练集,一个在要求把现实搬回评测集。训练和评测都开始向现场回流,这才是信号。标题里讲的是零工和 benchmark,我看到的是同一件事:AI 现在卡在“和世界怎么接线”,不再只是“参数再堆多大”。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R1
11:00
73d ago
● P1MIT 科技评论· rssEN11:00 · 04·01
在家训练人形机器人的零工:尼日利亚医学生头顶 iPhone 拍做家务
Micro1 这家公司雇了 50 多个国家的几千名零工,让他们把 iPhone 绑在头上,拍自己叠被子、洗碗、做饭的视频,再把这些真实动作数据卖给做人形机器人的公司。一个尼日利亚的医学生时薪 15 美元,在当地算高收入,但他觉得每天重复熨衣服很无聊。文章说 2025 年人形机器人拿到的投资超过 60 亿美元,机器人公司每年花在买这类数据上的钱超过 1 ...
#Robotics#Vision#Tools#Micro1
精选理由
这篇我会放进 featured。在家拍家务视频这个画面本身就够抓人,而且文章给出了规模、薪酬和支出的具体数字,不是空谈。更值得盯的是它把一条隐藏的数据管线摊开了:工人知道视频是给机器人训练用的,但正文没披露这些数据怎么存、跟谁共享、能不能删。这种治理上的模糊,比融资数字更说明行业现在还处在野蛮生长阶段。
一句话点评
人形机器人训练数据也搞起了众包,印度和尼日利亚的年轻人把手机绑头上录自己干家务,时薪15美元。
锐评
这条新闻讲的是人形机器人训练数据供应链正在变成一门跨国零工生意。美国公司 Micro1 在 50 多个国家雇了数千名合同工,让他们把 iPhone 绑在头上录自己叠衣服、洗碗、做饭的视频,再卖给机器人公司当训练素材。时薪 15 美元,在尼日利亚、印度这些地方算高收入,但工作内容枯燥,工人还得想办法在狭小出租屋里变出花样来拍。 关键数字:2025 年人形机器人领域投资超过 60 亿美元,Micro1 的 CEO 估计机器人公司每年花在买这类真实世界数据上的钱已经超过 1 亿美元。这说明行业确实在赌“动作版的大语言模型”这条路——用海量人类动作视频教会机器人怎么跟物理世界打交道,因为仿真模拟搞不定精细的抓取和操作。 正文没披露这些视频最终让机器人的任务成功率提升了多少,也没说不同家务场景的数据配比。另外,工人用化名接受采访,隐私和知情同意的问题只是提了一嘴,没有展开。这点先别太激动,数据质量到底行不行、会不会因为拍摄条件参差不齐反而引入噪声,目前还是笔糊涂账。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
10:37
73d ago
X · @op7418(歸藏)· x-apiZH10:37 · 04·01
CodePilot 上线“宠物助力”,号称完成度超 Claude Code
CodePilot 新功能“宠物助力”上线,官方只说了两件事:完成度比 Claude Code 高,以及想引导用户构建可成长的 Agent 工作流程(让模型进业务流程干活)。正文没披露具体机制、定价或上线时间,所以“完成度更高”这点先别太激动——没有实测或第三方验证。如果真能把 Agent 工作流做成可迭代的产品层,对开发者来说倒是省事。
#Agent#Code#Tools#CodePilot
精选理由
这则帖文只确认了一个功能名和作者自评“完成度高于 Claude Code”,但机制、可用范围、价格、发布时间全没披露。HKR 三项都不满足,且硬排除规则 6 适用——没有任何数据、示例或可复现的细节。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
04:01
73d ago
X · @Yuchenj_UW· x-apiMULTI04:01 · 04·01
Claude Code 源码泄露,作者说团队很淡定
Anthropic 的 Claude Code 代码被泄露到 GitHub,已经产生了 7 万个 fork(复制仓库),Python 和 Rust 版本都在流传。作者觉得团队态度挺 chill,因为泄露了就回不去了。读代码后他得出一个判断:做 AI 应用的“封装工程”(把模型接入产品、工具链、工作流)非常难,不是 trivial 的事。他预测更多 AI...
#Code#Tools#Anthropic#Claude Code
精选理由
HKR-H 和 HKR-R 成立:泄露加淡定态度有话题性,护城河之争对做代码智能体的从业者确实关键。HKR-K 不成立:全文偏评论,7 万 fork 未经证实,泄露细节、时间线、Anthropic 回应均未披露。
一句话点评
Anthropic 对 Claude Code 代码泄露的态度很淡定,没急着删帖或追责。正文没披露泄露细节和影响范围,这点先别太激动。
锐评
该帖称 Claude Code 泄露代码已扩散到 7 万个 forks,Anthropic 基本失去了回收工程细节的可能。先把话说死一点:如果这个数字属实,这条新闻的重点就不是“泄露”本身,而是代码代理产品的护城河被迫公开了一层。标题和摘要给了 7 万 forks、Python 与 Rust 版本流传这两个点,正文没披露泄露源头、时间线、提交范围、是否包含密钥或内部评测资产,所以很多判断现在只能停在工程层,不能上升到安全事件定级。 我对原帖“团队很 chill”这个说法有点怀疑。大规模代码一旦上 GitHub,尤其已经分叉到 7 万级,企业常见反应不是淡定,而是没法收口。删主仓没有意义,fork、镜像、打包二传会继续扩散。这个场景更像 Stable Diffusion 权重那类“发布后不可逆”,不是传统 SaaS 源码泄露后靠法务慢慢清场。Anthropic 如果真没激烈动作,原因未必是姿态从容,也可能是成本收益比已经不对了:追 fork 的法务成本,未必高于让竞争对手直接学到 harness 设计的损失。正文没有给官方回应,我不会替它补叙事。 原帖有一句倒是靠谱:harness engineering 很难。我基本同意,而且这恰好是过去一年很多外行低估的部分。大家老盯着基础模型分数,觉得代码产品就是“接个 Sonnet 或 GPT 再做个 IDE 插件”。实际把 agent 跑稳,难点常常在 harness:上下文裁剪、仓库索引、工具调用重试、测试沙箱、补丁回滚、失败恢复、权限边界、长任务检查点、评测回放。这些东西单点都不神秘,组合起来才是门槛。Cursor、Devin、Windsurf 这一波产品,用户体感差异有一大半就出在这里,不只出在底模上。Claude Code 如果连实现细节都被社区逐行研究,行业会更快收敛出一套“代码 agent 标准做法”。 我还想补一个文章里没有的上下文。2024 到 2025 年,代码助手赛道已经反复证明:分发和工作流黏性,短期内比自研模型更值钱。Cursor 早期并不是靠自有底模打出来的,更多是靠编辑器体验、补全速度、代码库理解和团队分发。我记得他们后面才逐步加大自训和后训练比重,具体比例我没核实。原帖把 Claude Code 泄露解读成“更多 wrapper 会先拿产品和 harness,再补模型”,这条判断我认一半。前半句对,后半句没那么轻松。原因很简单:2026 年的后训练成本,已经不是做个 SFT 就能补齐。你可以学到 Anthropic 的任务编排,但学不到它内部真实用户反馈、失败轨迹、私有 eval、工具使用日志。这些数据闭环才是代码 agent 继续拉开差距的地方。 所以,这次泄露会压缩谁的优势?我看主要压缩两类公司的优势。第一类是把“我们有很深的 agent orchestration know-how”当黑盒故事讲融资的团队。现在别人可以直接拆 Anthropic 的一部分实现,你再讲“秘诀在工程细节”,投资人会追问得更细。第二类是只会包一层模型 API、没做重型执行框架的小团队。社区把泄露代码吃透后,开源复刻和脚手架会冒得很快,这类公司会更难解释毛利和留存。 但我也不会把这条夸成 Anthropic 护城河崩了。仓库代码泄露,不等于能力复制。OpenAI 这些年也反复证明,接口外观、产品交互、甚至部分提示词被看见,都不代表你能复现真实线上质量。代码 agent 尤其如此:线上稳定性取决于模型版本、内部工具、评测门槛、遥测数据、人工调参节奏。摘要里只说 Python 和 Rust 版本在流传,没说是不是完整可运行仓库,也没说能不能接入 Anthropic 内部依赖。没有这些信息,我不会顺手下“Cursor 模式被坐实”这种结论。 我的直觉判断是,这事对行业最大的影响不是安全,而是教育。它会让更多团队看清,代码代理产品不是一个 prompt 套壳生意,而是一套很重的系统工程。它也会顺手抬高用户预期:既然 Anthropic 的做法都被摊开了,市场会更快要求其他产品拿出同等级的自动修复、测试闭环和长链路任务稳定性。谁接下来还在卖“接了强模型所以会写代码”,日子会更难过。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K0·R1
02:00
73d ago
OpenAI 博客· rssEN02:00 · 04·01
Gradient Labs 给每个银行客户配了一个 AI 客户经理
Gradient Labs 用 GPT-4.1 和 GPT-5.4 mini/nano 做银行客服 AI,号称能让每个客户都有专属 AI 客户经理。他们自己测的“轨迹准确率” GPT-4.1 是 97%,第二名只有 88%,在金融场景里差一点就是合规事故。延迟压到 500 毫秒,适合语音对话。客户满意度 98%,上线首日就能解决一半以上的复杂工单(比如...
#Agent#Gradient Labs#Product update
精选理由
HKR的H和R都过了,因为银行工作流这个钩子很直接,而且触及成本、就业、合规等敏感神经。但K挂了——页面只披露了模型名字和'10倍增长',没有准确率、规模或合规数据。这本质上是个供应商案例,结论就是'某客户用了OpenAI',所以按硬规则归为纯营销排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
01:54
73d ago
X · @op7418(歸藏)· x-apiZH01:54 · 04·01
OpenAI 新融资传闻高达1250亿美元
这条推文说OpenAI新一轮融资额度高达1250亿美元,注意是融资额,不是估值。推文没透露投资方、轮次、交易条款或消息来源,正文也没披露这些细节。这个数字大得离谱——作为参考,OpenAI上一轮估值才3000亿美元左右,1250亿融资额相当于直接拿走了近一半估值的现金。但消息源只是个人推文,没有官方或媒体背书,建议先观望具体条款和来源再下判断。
#OpenAI#Sam Altman#Funding#Commentary
精选理由
硬排除规则6适用:零信源内容。帖子只有一个情绪化标题和1250亿美元的融资数字,没有来源链接、领投方、轮次细节或条款。HKR的H和R满足,K不满足,因此重要性低于40,层级为excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
01:23
73d ago
X · @dotey(宝玉)· x-apiZH01:23 · 04·01
不开源的好处:代码烂没人骂、暗加防蒸馏、藏功能、迭代快
作者 dotey 列了四个不开源的实际好处:第一,代码写得烂也没人喷,比如一个 React 文件几千行,闭源了谁也不知道,反正能跑;第二,可以偷偷加防蒸馏、记录用户标识的逻辑,甚至故意搞个让第三方 prompt caching 失效的 bug,开源了会被抓包;第三,能藏功能,比如明天愚人节发布的 /buddy 功能其实早就开发好了,开源就藏不住;第四,...
#dotey#React#Commentary
精选理由
触发硬排除-零来源:列出四个论点,但未提供任何案例、数据或具名一手实例,因此重要性上限为 40。HKR-H 和 HKR-R 命中,但 HKR-K 不通过,因为没有新的事实负载。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
00:27
73d ago
X · @AnthropicAI· x-apiEN00:27 · 04·01
Anthropic 与澳大利亚政府签 AI 安全合作备忘录
Anthropic 宣布与澳大利亚政府签署了一份谅解备忘录,合作方向是 AI 安全研究,并支持澳大利亚的国家 AI 计划。消息确认了合作方和大致范围,但正文没披露协议期限、资金规模、具体研究议程或落地方式。真正的看点在于这份备忘录后续会不会转化为安全评测、政策工具或采购标准——目前信息还不够判断。
#Safety#Alignment#Anthropic#Australian Government
精选理由
这条归为HKR-R,因为政府AI安全合作可能影响合规和采购。HKR-H和HKR-K都不成立:它只是一份MOU公告,没有披露期限、资金、范围或交付机制,所以留在all层。
一句话点评
Anthropic 与澳大利亚政府签了 AI 安全研究谅解备忘录,方向是合作搞安全研究和支持澳方 AI 治理。这是继英美之后又一个国家级合作,说明 Anthropic 在走政府关系路线。但正文只有标题,没披露具体合作范围、资金或时间表,目前只能当意向书看。
锐评
Anthropic 只宣布与澳大利亚政府签署 1 份 MOU,正文未披露期限、资金、研究范围和交付机制。我对这条的判断很直接:先别把它读成“国家级 AI 安全能力落地”,现在更像一家前沿模型公司在关键司法辖区提前占位。 MOU 这个词本身就说明很多。它通常解决的是合作意向,不是采购承诺,也不是监管框架生效。没有预算、没有 timeline、没有评测口径,外界就没法判断这件事会落到哪一层:是几场闭门研讨会,还是把模型评测、事件上报、红队流程写进政府采购标准。差别很大。前者是 PR,后者才会改市场行为。 我一直觉得,Anthropic 这类公司过去一年在政府关系上的主线很清楚:把“安全”从研究标签,推成进入公共部门和受监管行业的通行证。英国 AI Safety Institute、美国政府自愿承诺、各国模型评测讨论,走的都是这条线。OpenAI、Google DeepMind 也都在跑,只是 Anthropic 更愿意把自己放在“安全合作方”这个位置上。好处很现实:一旦政府把第三方评测、模型文档、部署前审查写进采购流程,先参与起草的人天然占便宜。 我有个保留。标题说“支持 Australia’s National AI Plan”,但正文没说 Anthropic 到底提供研究、人、工具,还是政策建议。这个口径很容易把商业利益包装成公共利益。假如后续出现的是 Anthropic 评测框架被优先采纳,或者 Claude 相关标准进入政府采购清单,那这条合作就不只是安全研究,也是在塑造市场入口。我不是说这一定不好,但它绝不是中性的。 还有一层外部背景。澳大利亚这两年对平台、云和关键技术供应链的主权意识明显在抬,AI 政策也越来越像“风险治理 + 产业扶持”双线并行。Anthropic 现在插进去,价值不在澳大利亚本身市场有多大,而在它能不能把这里做成一个可复制样板:评测模板、事故报告格式、模型使用分级、政府部门采购条款。如果能复制到英国、加拿大、新加坡,这种 MOU 才有分量。 眼下信息很薄,所以判断要克制。标题已经给出合作方向,正文没给任何可执行细节。我现在不会高估它。后续若披露三样东西,这条才算升级:一是明确评测对象,比如 frontier model pre-deployment evaluations;二是谁来出钱、谁来验收;三是成果会不会进入政府 procurement 或 assurance 流程。没有这三样,它就是一份站位声明。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K0·R1
00:08
73d ago
少数派 · 直链· rssZH00:08 · 04·01
Claude Code 源码意外泄露、OpenAI 获 1220 亿美元融资
Anthropic 发 npm 包时忘了删 Source Map,导致 Claude Code 近 2000 个 TypeScript 文件、51.2 万行代码全部泄露,核心包括 4.6 万行的查询系统和 4 万行的插件工具系统。官方说不是安全入侵,没丢客户数据,但架构设计和验证机制被扒光,竞争对手能抄作业,攻击者也能找漏洞。OpenAI 那边融了 1...
#Code#Tools#Anthropic#OpenAI
精选理由
这是一条早报汇总,不是 Claude Code 泄露或 OpenAI 融资的独立报道。HKR-H 靠标题好奇心过关,但 HKR-K 和 HKR-R 都因为关键事实缺失而失败;硬排除规则(陈旧重发)把分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
00:00
73d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·01
Claude Code 怎么防你冒充它:8层纵深防御拆解
一篇对 Claude Code 源码泄露的分析,拆了6层防御设计。第一层是编译期死代码消除,把内部调试工具和模型注册表直接从二进制里删掉,外部版根本看不到。第二层是 Zig 层的 DRM 认证,在 HTTP 请求体里嵌入一个占位符,发送前由 Bun 的原生 HTTP 栈用哈希覆写,JS 层的拦截手段完全绕不过去。第三层是消息指纹,用用户消息的前几个字符...
#Safety#Tools#Claude Code#Commentary
精选理由
硬排除——零来源原则:正文为空,没有任何事实、例子或可复现的细节。HKR-H 勉强通过,因为标题角度有点意思;HKR-K 和 HKR-R 缺乏支撑,所以重要性上限卡在 40 以下,尽管 Claude Code 的安全话题本身有吸引力。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0

更多

频道

后台