ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-13

15 items · updated 3m ago
RSS live
2026-04-13 · 星期一2026年4月13日
23:00
60d ago
● P1最佳拍档· atomZH23:00 · 04·13
斯坦福论文:让 AI 自己写外挂代码,Meta-Harness 用完整历史记录教 coding agent 迭代优化
斯坦福、MIT 和 KRAFTON AI 搞了个叫 Meta-Harness 的系统,核心想法很简单:别让工程师手动调那层包裹在大模型外面的代码逻辑(harness),而是把这件事变成一个搜索问题,交给 coding agent 自己去翻历史记录、自己改代码。它跟现有文本优化方法最大的区别是不压缩反馈信息,所有候选代码、完整执行日志和评分都摊在文件系统...
#Agent#Code#Tools#Stanford
精选理由
这篇把 harness 优化从人工调参改成外循环搜索,让 coding agent 读文件历史、跑代码、看日志,不压缩反馈。我会先打个折,因为来源是 YouTube 解读而非原论文,但给出的数字够具体:TerminalBench-2 跑 20 轮要几百美元,在线文本分类 4 轮就顶别人 60 轮的效果。对做 agent 工程的人,这个思路比单纯改 prompt 更解渴,所以放在 featured 档。
一句话点评
斯坦福这篇论文让AI自己写外挂代码来优化模型表现,在三个任务上都赢了人工方案,但搜索一次要跑完整测试,成本不低。
锐评
这篇研究解决了一个很实际的问题:大模型外面那层负责存取信息、组织提示词的代码(harness),现在可以让AI自己迭代优化了。斯坦福和MIT的团队搞了个叫Meta-Harness的系统,核心思路是把优化变成一个搜索问题,让一个coding agent当“提议器”,翻看所有历史版本的代码、完整执行日志和评分,自己琢磨怎么改。它不做信息压缩,所有中间过程都留着,让agent按需查看。 效果挺直观。在线文本分类任务上,Meta-Harness平均精度75.9%,比之前最好的方法ACE高出7.7个百分点,而且只用了4轮搜索就追平了别的方法60轮的结果。在IMO数学题检索增强推理上,搜出来的harness方案直接搬到5个没见过的模型上,平均还能提4.7个百分点。在TerminalBench-2编程任务上,它超过了工程师手动调试出来的最强方案。 不过得注意几个限制。搜索成本不低,TerminalBench-2上跑了约20轮,总花费几百美元,主要是API钱。效果也高度依赖提议器这个coding agent本身的能力,如果它不行,搜出来的东西也好不了。另外,这套系统需要一个清晰可量化的评估函数,很多实际场景里这个条件并不满足。论文自己也坦诚说了这三点。整体看,思路比算法本身更有价值:与其费劲替AI压缩信息,不如把完整数据都给它,让它自己决定看什么。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
16:08
60d ago
X · @op7418(歸藏)· x-apiZH16:08 · 04·13
Gemini 用 SVG 画 logo 挺顺手,但别急着当生产力工具
一位用户说 Gemini 在“适当引导”下生成了 Codepilot 新 logo 的 SVG 部分,他再手动精修。正文没透露用了哪个 Gemini 版本、具体提示词、迭代了几次,也没给可复现的测试。这只是一个主观的使用分享,不是评测,效果好坏全看个人手艺和耐心。
#Code#Tools#Gemini#Codepilot
精选理由
HKR-H 通过,因为 SVG 画 logo 这个角度有意外感,设计类输出容易让人点进去看。HKR-K 和 HKR-R 不通过,因为正文只确认了 SVG 部分可用,没提 Gemini 版本、提示词、迭代次数,也没有对比其他模型,信息缺口太大,没法判断可复现性;这是一条个人展示帖,不是工作流、成本或竞品对比,从业者看完学不到可复用的东西。
一句话点评
Gemini 用 SVG 画 logo 确实顺手,直接生成矢量图省了设计师调路径的功夫。但正文没披露具体 prompt 和生成成功率,也没说复杂 logo 能否一次成型。目前更像玩具级演示,离替代专业工具还远。短评:SVG 生成是亮点,但别急着喊设计师失业。
锐评
发帖者展示了 1 个 Gemini 生成 logo SVG 的案例,但正文没给提示词、模型版本、迭代轮次,也没给失败样本。就这点材料,我不会把它读成“Gemini 会做设计”,我只会读成“Gemini 在有人盯稿时,能产出可继续编辑的矢量草稿”。这两件事差很远。 我一直觉得,SVG 生成这类演示最容易把人带偏。原因很简单:logo 不是“能画出来”就算过关,品牌设计看的是约束下的稳定性。你要它控制笔画粗细、负空间、对称关系、不同尺寸可读性、单色和反白版本,还要能连续改 5 到 10 轮不跑形。本文一个数字都没披露,所以我们根本不知道 Gemini 是首轮就给到可用稿,还是作者自己喂了很多轮才挑出这一张。标题给出了好结果,过程信息基本空白。 回到行业上下文,这条并不新鲜。过去一年,Claude、GPT-4o、Gemini 这几家在 SVG、HTML/CSS、图标草图这类“文本到结构化视觉”任务上都明显进步过。我自己见过不少开发者拿模型先出 logo 雏形,再进 Figma 或 Illustrator 精修。这个工作流成立,不等于模型有了成熟审美,更不等于它理解品牌系统。它擅长的是把“圆角、几何、极简、科技感、字母变体”这类可语言化约束,翻译成一份还能继续改的代码。这个能力对独立开发者很实用,对正式品牌团队还不够。 我对这条说法有个明确保留:作者用了“适当引导”四个字,但这恰好是关键变量。设计任务里,提示词本身就是一半手艺。谁来引导、引导了几轮、有没有给参考图、是否人工重写路径,这些都直接决定结果。少了这些条件,外部读者没法复现,也没法比较 Gemini 和 Claude Sonnet 4.5、GPT-4o 或专门的设计工具谁更稳。我还没查到成品链接里的完整迭代记录,至少在这篇正文里没有。 所以这条我更愿意把它放在“设计 coding assistant”而不是“AI 设计师”框里看。SVG 天然适合模型,因为它是文本、可解释、可局部修改,也容易让人产生“它懂设计”的错觉。说真的,模型在 logo 场景最强的地方,常常不是原创,而是把人的模糊审美压成一个可编辑起点。要验证它是不是“一把好手”,最低限度也得公开模型版本、提示词、迭代次数,再给 5 到 10 个不同风格任务的成功率。现在只有 1 个成品案例,我不买“能力结论”,我接受“个人工作流有效”。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
14:33
61d ago
量子位 · 公众号· rssZH14:33 · 04·13
马斯克版微信上线:支持中文、加密聊天、防截屏
标题说马斯克的类微信应用出现了,披露了三个功能:支持中文、加密聊天、防截屏。但正文是空的,所以没交代产品叫什么、在哪儿能下、加密方式是什么、防截屏怎么实现的。信息缺口很大,目前只能当个标题党看。
#Elon Musk#Product update
精选理由
HKR-H靠'马斯克版微信+防截屏'这个钩子过关。HKR-K和HKR-R都挂,因为正文只有标题:产品名、可用性、加密方法和AI相关性全没披露,所以分数低于40,直接排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
10:00
61d ago
● P1最佳拍档· atomZH10:00 · 04·13
谷歌CEO皮查伊:2027年是企业AI落地爆发年,搜索不会死,会变成替你干活的管家
谷歌CEO皮查伊在2026年4月的一次专访里,把家底和判断都摊开了。他说明年(2027年)会是企业AI agent workflow(让模型进业务流程干活)的爆发点,AI将从程序员提效工具变成非技术岗位的智能核心。关于搜索,他认为不会被聊天机器人取代,而是会进化成一个“Agentic Manager”,能直接帮你规划旅行、处理多线程任务,他自己已经在用...
#Agent#Inference-opt#Tools#Sundar Pichai
精选理由
这不是产品发布,而是高管在访谈里给出的判断和内部数据,信号密度很高。Pichai 把 2027 年定为 Agent 爆发点,配合千亿级资本开支和毫秒级延迟管控,让这个判断比一般预测更有分量。搜索演进和算力稀缺这两条线也直接关联从业者当下的决策。分数没给到 P1,因为信息来自二手转述而非一手访谈原文,但 H、K、R 三项都扎实成立。
一句话点评
皮查伊说2027是企业AI奇点年,但谷歌自己2010年就押注Waymo,这次判断更像在给内部变革定deadline。
锐评
皮查伊这次专访把谷歌的底牌摊得很开:2026年资本支出冲到1750-1850亿美元,同时直言就算想花4000亿也花不出去,因为晶圆、内存、电力审批全是瓶颈。这个“有钱没处花”的细节比任何技术承诺都实在,说明接下来两年行业拼的不是算法,是谁能抢到物理资源。他澄清了外界对谷歌“起大早赶晚集”的误解,承认当年LaMDA没发布是因为有害内容率太高、RLHF没跑通,安全标准卡住了产品化。这个解释成立,但也暴露了谷歌的惯性:体量越大,对风险的容忍度越低。 关于搜索,他给出的方向是“Agentic Manager”,让搜索直接替用户订机票酒店、跑多线程任务,内部已经在用Antigravity工具。这个愿景不新,但谷歌有搜索入口和用户数据,落地优势确实比纯模型公司大。不过正文没披露Antigravity的具体完成率和错误率,只说在推广到搜索大团队,实际效果还得等。 2027年企业AI奇点的判断,建立在“非工程领域全面转向Agent驱动”的假设上。他提到提示词门槛、代码库协作、数据权限这些障碍会在两年内解决,但没给出解决路径。这点先别太激动,企业内部系统的碎片化程度远超技术乐观派的想象,两年时间可能只够跑通几个标杆案例。量子计算、太空数据中心这些长线项目更像是给投资人看的期权故事,短期对业务没直接影响。整场对话信息密度很高,但所有判断都来自谷歌一号位,缺少第三方验证和具体数据支撑,适合作为理解谷歌战略的参考,不适合直接当行业预测用。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
07:00
61d ago
X · @op7418(歸藏)· x-apiZH07:00 · 04·13
Superconductor:一个 macOS 应用,把 Claude Code、Codex、Gemini CLI 等编码 Agent 塞进同一个窗口
Superconductor 是一个用 Rust 写的 macOS 应用,主打在一个软件里启动 Claude Code、Codex、Gemini CLI 等编码 Agent。正文没披露许可证、定价、沙箱隔离或集成细节。真正的看点不是“聚合器”这个标签,而是它怎么编排多个 Agent 以及如何隔离上下文——如果只是开几个终端窗口,那意义不大。目前只有 M...
#Agent#Code#Tools#Superconductor
精选理由
这条过了 HKR-H 和 HKR-R:一个 Mac 客户端同时启动多个编码 Agent 是明确的钩子,也是真实的工作流痛点。我保留 64 分并标 tier all,因为 HKR-K 很弱;文章只确认了 MacOS 和 Rust,价格、许可证、沙箱、上下文隔离全都没披露。
一句话点评
Superconductor 是一个新的 Agent 聚合软件,类似把多个 AI 助手塞进一个界面统一调度。目前正文没披露具体功能、支持哪些模型、是否开源,信息缺口很大。短评:又一个聚合器,没细节先别激动。
锐评
Superconductor 现已在 macOS 集成 Claude Code、Codex、Gemini CLI。只看标题,这还不是产品突破,更像一层桌面分发壳。文章没披露价格、许可证、沙箱机制、权限边界,也没说它是嵌入式调用、CLI 包装,还是远程会话转发;这些没给,判断上限就得收着。 我一直觉得,Agent 聚合器这条线最难的从来不是“多开”。iTerm、Raycast、Warp、VS Code 扩展,过去一年都在碰同一件事:把多个模型入口塞进一个工作台。做出一个统一面板不难,难的是上下文怎么切、凭证怎么管、文件系统权限怎么封。一个编码 Agent 读到错误目录,代价不是回答变差,是直接改坏仓库。Superconductor 现在只确认了 Rust 和 macOS,这说明作者在意本地性能和桌面体验;但安全模型没披露,我对它的“聚合”价值会先打折。 外部参照也很清楚。Claude Code、OpenAI Codex CLI、Gemini CLI 这类工具,本来就各自带有环境假设:终端权限、项目根目录、登录态、工具调用链都不同。谁来做统一调度,谁就得承担统一审计。去年不少 agent IDE 都卡在这一步,演示时像“一个入口管全部”,落地后还是每个 agent 一套独立上下文。我还没查到 Superconductor 是否支持 repo 级隔离、命令白名单、每 agent 独立 API key;正文没披露,这些反而是决定它能不能进团队环境的硬条件。 说真的,这条我不会按“又一个聚合器”处理,我会按“本地 agent 运行时”看。要是它后面只停在启动器层,护城河会很薄,Raycast 插件级别都能追上。要是它把会话路由、文件隔离、成本统计、失败回滚做扎实,才有机会从玩具跨到生产工具。现在信息太少,我先给保守判断:方向对,难点还没被证明。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
06:00
61d ago
OpenAI 博客· rssEN06:00 · 04·13
OpenAI 模型接入 Cloudflare Agent Cloud,企业可直接部署 GPT-5.4 和 Codex 干活
OpenAI 和 Cloudflare 合作,把 GPT-5.4 和 Codex 放进了 Cloudflare 的 Agent Cloud 平台。Agent Cloud 可以理解为一个让企业部署 AI 代理(agent)干活的环境,比如自动回客服、更新系统、生成报表。它跑在 Cloudflare Workers AI 上,也就是边缘计算平台,好处是延迟...
#Agent#OpenAI#Cloudflare#Product update
精选理由
唯一实质信息是GPT-5.4模型上线Cloudflare Agent Cloud,Codex agent可部署。但没披露定价、基准测试或客户案例,属于云厂商推广,按硬规则排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K1·R0
04:04
61d ago
新智元 · 公众号· rssZH04:04 · 04·13
南大团队给大模型打分:人类90,最强模型只有49
南京大学团队发布了一项评测,人类平均得分90,而表现最好的大模型只拿到49。正文没披露具体任务、模型名称、样本量和打分方式,所以这个41分的差距到底反映模型哪方面短板,目前还不好说。真正值得关注的是评测设计本身——如果任务设计合理,这个差距说明模型在某个能力上跟人类还有明显距离,但信息不够,没法下结论。
#Benchmarking#Reasoning#Nanjing University#Benchmark
精选理由
HKR-H 靠的是90比49这个悬殊分差,标题冲击力够强。HKR-R 成立是因为评测可信度是圈内真痛点。HKR-K 不成立:正文为零,任务、模型、样本量、评分规则一概缺失,触发硬排除——零信源,所以重要性上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
04:04
61d ago
新智元 · 公众号· rssZH04:04 · 04·13
港科大开源StarVLA:用乐高式拼法做视觉语言模型,复现成本降了
港科大开源了一个叫StarVLA的视觉-语言-动作(VLA)模型框架,主打模块化设计,像搭乐高一样把视觉、语言、动作模块拆开再组合。标题说复现成本大幅降低,但正文被微信屏蔽了,没披露具体降了多少、用了什么训练数据、代码在哪。如果真能低成本复现,对做机器人或具身智能的团队是个好消息,但这点先别太激动,等看到实际数字再说。
#Robotics#Multimodal#HKUST#StarVLA
精选理由
这篇只有标题:港科大+StarVLA名字有,复现成本降低是声称,但降幅、模块设计、数据、代码一概没有。评分被硬性排除规则封顶——零来源;VLA机器人研究也缺乏广泛从业者共鸣点。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
03:58
61d ago
机器之心 · 公众号· rssZH03:58 · 04·13
NUS、复旦、清华联合发 Latent Space 综述,标题自称最新最全
这篇综述由新国立、复旦、清华合作完成,主题是大模型的隐空间(Latent Space)。标题说它是最新最全的,但正文被微信屏蔽,看不到作者列表、分类框架和具体结论。目前能确认的只有合作方和主题,没法判断它到底覆盖了什么、有没有可复用的分类法。如果你需要引用,建议先找到完整版再下判断。
#National University of Singapore#Fudan University#Tsinghua University#Research release
精选理由
文章只确认了NUS、复旦、清华等机构联合出了一篇Latent Space综述,范围、分类、可复现标准都没披露。对普通AI读者来说像一篇专业回顾,没有入口,所以硬排除——技术可及性不达标。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
01:55
61d ago
X · @dotey(宝玉)· x-apiZH01:55 · 04·13
开发者抱怨:GitHub 刚发的技能,24 小时内就被别人在 ClawHub 抢注了
一位开发者称,自己昨天在 GitHub 上发布了一个名为 baoyu-diagram 的技能,今天就被另一个账号发布到了 ClawHub 上,导致他自己反而无法发布同名技能。帖子提到了技能名称、平台和 24 小时内的抢注时间,但没有说明 ClawHub 的处理结果或技能 slug 的归属规则。核心问题是平台的命名权流程,不是孤立的冲突。
#Tools#GitHub#ClawHub#steipete
精选理由
这是一个小型的平台治理事件:一名开发者称其baoyu-diagram技能从GitHub被搬运到ClawHub,不到24小时原作者就无法发布。HKR-H和HKR-R成立,但HKR-K不成立,因为正文没披露slug归属、申诉流程和平台处理结果。
一句话点评
这条推文正文为空,标题是催更两位开发者,但没提具体项目。信息缺口明显:不知道在催什么、进展如何、是否涉及AI工具。建议等原文补充或直接搜上下文,目前没法判断价值。
锐评
开发者称,另一账户在不到 24 小时内抢先把 baoyu-diagram 发布到 ClawHub,并直接卡住了原作者自己的发布入口。我的判断很直接:如果正文描述属实,ClawHub 现在处理的不是“技能分发”,而是一个没有讲清权属规则的名称注册系统。平台一旦默认“谁先占到 slug 谁赢”,搬运者的速度就会比作者的确认流程更快,社区内容库很快就会被抢注逻辑带偏。 这条最麻烦的地方,不是 baoyu-diagram 这一个名字,而是正文已经说同样问题影响了“几项”其他技能。数量正文没披露,处理结果也没披露,slug 到底按 GitHub 仓库地址、首次提交时间、平台首发时间,还是人工申诉归属,正文都没有。没有这几条,平台就没法证明自己在处理“所有权”,只是在处理“谁先提交表单”。我对这种设计一直不太买账,因为 AI 工具市场这两年已经反复演过:先做目录聚合,再冒出名称抢注,再补申诉通道,最后把运营工单堆成内容治理问题。Hugging Face Space 名称、GPT 商店里各种提示词包,早就出现过类似摩擦,只是载体不同。 我还想 push 一下这个叙事里的灰区。正文只是一条 X 帖子,没有平台回应,没有冲突截图外的规则文本,我还没查到 ClawHub 官方的 slug ownership policy,所以没法判断对方到底是恶意抢注,还是平台本来就允许“从 GitHub 导入同名技能但归属独立账户”。如果后者成立,问题更大:平台等于把“可验证作者身份”放在“可抢先上架”后面,这对任何开源技能作者都不友好。GitHub 仓库明明有更强的权属信号,像 commit 历史、仓库创建时间、maintainer 身份、release tag、甚至 DNS/README 验证,都能拿来做自动校验。 说真的,这类平台最后比的不是收录速度,是申诉延迟和回滚机制。正文没披露 ClawHub 的处理 SLA、争议期、冻结机制、保留名策略,也没披露 steipete 或 4shadowed 是否已经回复。没有这些信息,我不会把它直接定性成平台失职,但我会把它视为一个很具体的产品缺口:发布系统先做了增长入口,没把命名权流程补齐。对做 agent toolchain 的人,这比单个技能能不能上架更关键,因为一旦技能市场开始承载分发和收入,slug 就不只是名字,它就是流量入口和信用地址。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
00:40
61d ago
● P1X · @dotey(宝玉)· x-apiZH00:40 · 04·13
Sam Altman旧金山住宅48小时内遭两次袭击 警方逮捕枪击嫌疑人
Sam Altman 在俄罗斯山的房子又出事了。4 月 12 日凌晨 1 点 40 分,一辆本田轿车停在他家门口,副驾的人朝 Lombard Street 方向开了一枪后逃跑,监控拍到了车牌。当天下午 4 点 15 分,旧金山警方逮捕了 25 岁的 Amanda Tom 和 23 岁的 Muhamad Tarik Hussein,罪名是疏忽开枪。这距离...
#Sam Altman#OpenAI#San Francisco Police#Incident
精选理由
我会先打个折:正文没披露第二案的动机或与 OpenAI 业务的直接关联,所以不往产品、市场影响上硬扯。但同一地址两天内被烧又被开枪,时间、人名、指控都摆出来了,对关注行业动态的人是个值得知道的信号。先留在 featured,不升 p1,因为目前还只是社会案件层面,没有业务后果的实锤。
一句话点评
Sam Altman 旧金山家 48 小时内被搞了两次,第二次是凌晨开车开枪,警方抓了人。
锐评
Sam Altman 在旧金山俄罗斯山的住宅在 48 小时内连续遭遇两次袭击。第一次是凌晨 3 点 45 分,有人朝他房子扔燃烧弹;两天后的 4 月 12 日凌晨 1 点 40 分,又有一辆本田轿车停在他家门前,副驾的人朝 Lombard Street 方向开枪。警方已经逮捕了枪击案的嫌疑人。 目前公开信息主要来自 X 平台用户 @x-dotey 的帖子,没有警方通报或主流媒体的交叉核实,细节可能不全。正文没披露嫌疑人动机、是否与 Altman 的公开身份直接相关,也没说两次袭击是不是同一拨人干的。燃烧弹那次有没有人受伤、财产损失多大,同样没提。 这条新闻的冲击力在于目标人物的知名度和袭击的密集程度,但信息源单一,很多关键事实还缺着。先别急着下结论,等警方正式说法出来再看。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
00:00
61d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·13
Shopify 把后台全开放给 AI:一个“生成内核”框架的实战验证
Shopify 在 2026 年初做了一个激进决定:把后台的读写权限通过标准化协议开放给所有 AI Agent。商家对 Claude 说一句“帮我优化所有产品的 SEO”,AI 就能自动更新 32 条商品、重写图片描述、设置元数据。这背后是 Shopify 的战略选择:自己不造 AI 助手,而是搭一个开放协议层,让 ChatGPT、Gemini、Cop...
#Agent#Tools#Shopify#Commentary
精选理由
标题有钩子,但正文一个字都没有,信息源为零,按规则硬排除。H 和 R 都成立:开放后台给 AI 不是接个聊天助手,而是让模型进业务流程干活,这个方向值得盯。K 直接挂掉,因为没任何可验证的信息,重要性压到 34,tier 定为 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1

更多

频道

后台