ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-23

93 items · updated 3m ago
RSS live
2026-04-23 · 星期四2026年4月23日
23:54
50d ago
● P1彭博科技· rssEN23:54 · 04·23
AI 编程公司 Cognition 正在谈新一轮融资,估值冲到 250 亿美元
Cognition 这家做 AI 编程工具的公司,正在早期融资谈判里把估值叫到了 250 亿美元,比上一轮翻了一倍多。正文没披露具体投资人、融资金额和时间表,目前只有彭博的简短消息,而且原文因为反爬机制没抓到完整内容。估值涨得快,说明市场对 AI 写代码这个方向还在加注,但具体条款和业务数据都还没公开,这点先别太激动。
#Code#Cognition#Funding
精选理由
Bloomberg 给了一个具体的市场信号:Cognition 在谈 250 亿美元估值,对关注编程代理的人来说,热度、新事实和相关性都占全了。没给 P1 是因为这轮融资还没敲定,投资方、金额和时间正文都没披露,我会先打个折。真正该盯的是定价速度,不是“AI 编程”这个旧叙事。
一句话点评
Cognition 在谈新一轮融资,估值报到 250 亿美元。正文被付费墙挡了,具体条款和投资方都没披露。
锐评
Cognition 就是做 Devin 那家,主打 AI 写代码。250 亿这个估值数字很夸张,比很多老牌软件公司都高,说明市场还在往 AI 编程工具里砸大钱。但 Bloomberg 这篇正文被反爬了,我们看不到融资轮次、领投方、资金用途这些关键信息。估值本身也容易被当 PR 数字看——是投前还是投后、有没有对赌条款、收入倍数多少,这些才是判断泡沫程度的硬指标。目前只能确认谈判在进行,数字先打个折看。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
22:41
50d ago
● P1FT · 科技· rssEN22:41 · 04·23
Intel预测AI数据中心驱动营收激增,股价上涨20%
英特尔股价跳涨20%,原因是CEO预测AI数据中心业务会带来收入激增。CEO说过去一年的变化是“根本性的”,但正文没披露增长率、时间线或具体产品线。关键要看后续财报能否把AI数据中心的需求变成可验证的收入,而不是只靠管理层讲话。
#Inference-opt#Intel#Product update#Commentary
精选理由
股价涨20%这个钩子是真的,所以H和R都成立。K不成立是因为正文没披露营收增幅、时间范围和具体产品线——这是一个强市场信号,但还不是一个具体的AI产品或研究突破。
一句话点评
Intel 靠 AI 数据中心订单预期让股价一天涨了 20%,但 FT 这篇正文被付费墙挡了,具体营收数字和指引细节都没看到。
锐评
Intel 给出了一份比市场预期更乐观的业绩展望,核心驱动力是 AI 数据中心对芯片的需求。消息一出股价直接跳涨 20%,说明市场之前对 Intel 在 AI 算力这波浪潮里的位置有多悲观。不过现在能读到的信息很有限——FT 的报道全文需要订阅,我们只看到了标题和摘要。具体是哪些产品线在拉动、营收指引比分析师预期高出多少、毛利率会怎么走,这些关键数字正文都没披露。另外,Intel 的 AI 芯片(比如 Gaudi 系列)跟英伟达的差距还很大,这次预期上调是因为拿到了大客户的长期订单,还是只是行业整体扩产的溢出效应,也需要后续财报电话会才能确认。股价反应这么猛,先别太激动,等看到实际订单和交付数据再说。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K0·R1
21:33
50d ago
● P1X · @dotey(宝玉)· x-apiZH21:33 · 04·23
Anthropic 给 Claude 托管智能体加了记忆功能,用文件系统存经验,不用向量库
Anthropic 把记忆功能做进了 Claude 托管智能体,现在公测。智能体能把之前会话里学到的经验存成文件,下次干活直接读,不用每次从头教。实现方式很朴素:记忆就是文件系统上的文件,智能体用 bash 和代码能力直接读写,开发者也能通过 API 导出或回滚。权限上支持多智能体共享,可设只读或读写,并发访问不冲突,所有改动有审计日志。Rakuten...
#Agent#Memory#Tools#Anthropic
精选理由
Anthropic 给 Claude 托管智能体加了跨会话记忆,目前公测。亮点是没上向量数据库,直接用文件系统接 bash 和代码执行链路,权限、审计、回滚都给了。两个用户数字挺硬:Rakuten 出错率砍掉 97%,Wisedocs 提速 30%。不过范围还锁在托管智能体 beta 版,所以重要性给 83,放 featured。
一句话点评
Claude 托管智能体现在能记住跨会话的经验了,下次干活不用从头教。但正文没给具体技术细节和遗忘机制,先当功能预告看。
锐评
Anthropic 给 Claude 的托管智能体加了记忆功能,相当于你部署的 AI 助手能在多次对话里积累经验,下次处理类似任务时直接调用,不用每次都从零开始。这对需要长期协作的企业场景挺实用,比如客服、项目管理这类重复性高的工作。 目前还在公测,官方没披露记忆的存储方式、容量上限,也没说怎么防止记错或记混。这些直接决定实际可用性——如果记忆容易污染或膨胀,反而会拖累回答质量。另外,跨会话记忆的隐私和权限控制也没提,企业用户会比较关心数据隔离问题。 我会先打个折:功能方向对,但落地效果要看后续测试反馈。如果记忆机制能透明化,比如让用户查看和编辑 AI 记住了什么,信任度会高很多。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
21:17
50d ago
Dwarkesh Patel 访谈· atomEN21:17 · 04·23
王室婚礼八卦如何救了印刷术
正文没披露是哪场婚礼、什么时期、具体怎么救的,也没给出版机制或来源。标题只说了 Ada Palmer 讨论王室婚礼八卦让印刷术活下来这件事。对 AI 从业者来说,目前只有标题,信息缺口很大。
#Ada Palmer#Commentary
精选理由
标题有个奇怪的历史钩子,H 能过;但正文一个字都没有,K 直接挂零;而且跟 AI 产业毫无关联,R 也挂零。硬性排除规则“零来源”把分压在 40 以下,这个判断合理。
一句话点评
标题党,正文没内容,先别信。
锐评
标题说 Ada Palmer 讨论王室婚礼八卦救了印刷术,但正文是空的,没披露是哪场婚礼、什么时期、具体怎么救的,也没给出出版机制或来源。对 AI 从业者来说,目前只有标题,信息缺口很大,没法判断这个案例的论证质量或数据可靠性。如果后续有完整内容,值得关注的是:印刷术早期存活是否真的依赖低俗内容驱动需求,这跟今天 AI 应用靠娱乐、社交、八卦拉动用户增长的逻辑有点像。但这点先别太激动,等正文出来再判断。
HKR 分解
hook knowledge resonance
打开信源
18
SCORE
H1·K0·R0
21:10
50d ago
X · @Yuchenj_UW· x-apiMULTI21:10 · 04·23
所有 AI Agent 的记忆能力都还很差
UW 研究员 Yuchenj 吐槽现在的 Agent 记性太差,举了个例子:ChatGPT 把“记忆”理解成每条回复都喊用户名字。正文只给了 1 个段子和 1 条链接,没披露具体产品、机制、评测设置或结果。真正的瓶颈不是存不住状态,而是业界对“记忆”的定义本身就有问题。
#Agent#Memory#Commentary
精选理由
HKR 的 H 和 R 通过:观点有挑衅性,且切中 agent 可靠性的真实痛点。K 不通过:帖文只给了一个 ChatGPT 的 anecdote,没有机制、控制实验或数据支撑,所以这条只能算低价值的评论性内容。
一句话点评
短评:记忆是智能体的阿喀琉斯之踵,这篇点出了关键痛点但没给解法。 点评:作者直言当前所有智能体在记忆能力上“出奇地差”,这个判断基本符合行业共识。目前主流方案要么靠外挂数据库做检索式记忆,要么靠长上下文硬塞,前者丢失语境关联,后者成本高且容易“迷失在中间”。正文未披露具体评测基准或失败案例,信息缺口明显——比如是短期记忆(对话中忘事)还是长期记忆(跨会话遗忘)更差?也没提任何缓解方案(如M...
锐评
帖文拿 ChatGPT 1 个失败样例,去下结论说“今天所有 agent 都不擅长 memory”。这个判断太大,证据太薄。正文只有“每次都叫我名字”这 1 个现象,没给产品链接细节,没给触发条件,没给评测集,也没说明这里的 memory 指 profile、会话摘要、长期偏好,还是跨工具状态。定义没钉住,讨论就会飘。 我一直觉得,agent memory 这块被产品团队和研究团队混成了 3 件事:个性化、上下文压缩、可写可读的长期状态。ChatGPT 这类“记住你的名字和偏好”,更像 profile layer,不是很多人期待的 task memory。真正难的是第三种:模型要在第 N 次任务里,能把第 1 次任务留下的结构化状态正确取回,还要知道何时更新、何时遗忘、何时冲突消解。这里一旦没有 schema、权限边界、检索排序和写入策略,效果就会迅速塌掉。光让模型“记住用户”,很容易滑成廉价拟人化。 文章外的参照其实不少。去年到今年,OpenAI 的 Memory、Anthropic 的 Projects / artifacts 持久上下文、各类 agent 框架里的 memory store,大家都在试同一件事:把“上下文窗口不够”伪装成“我记得你”。我没看到哪家公开拿出一套很硬的长期记忆评测,至少这条帖文也没给。比较成熟的做法反而来自工程侧:把记忆拆成 KV、RAG、profile、workflow state、tool logs,再按任务类型路由。听起来不性感,但比“模型自己会记”靠谱得多。 我对这条最大的不满,是它把一个产品体验问题说成了能力总判决。说真的,今天 agent 的 memory 确实普遍不行,但“不行”主要卡在系统设计,不全是模型本身。标题已给出态度,正文没披露机制和数据;拿它当吐槽可以,拿它当行业判断还差得远。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
21:00
50d ago
TechCrunch AI· rssEN21:00 · 04·23
Bret Taylor 的客服 AI 公司 Sierra 收购了 YC 背景的法国初创 Fragment
Sierra 宣布收购法国 AI 初创 Fragment,后者帮企业把 AI 集成到工作流里。这是 Sierra 今年第三笔收购,之前还买了日本的 Opera Tech 和语音代理公司 Receptive AI。Fragment 的两位联合创始人会加入 Sierra 法国团队。收购金额没公开,PitchBook 估计 Fragment 种子轮融了约 2...
#Agent#Sierra#Bret Taylor#Fragment
精选理由
TechCrunch 的 RSS 只确认了 Sierra 收购 Fragment。HKR-H 和 HKR-R 通过,因为 Bret Taylor 和代理栈并购能吸引注意力,但 HKR-K 不通过:价格、团队去向、产品整合都没披露,所以这条保持全层级。
一句话点评
Sierra(Bret Taylor 的 AI 客服公司)收购了 YC 孵化的法国初创 Fragment,后者帮企业把 AI 集成到工作流里。这是 Sierra 第三次公开收购,之前已买下日本 Opera Tech 和语音公司 Receptive AI。Fragment 只融了约 200 万美元种子轮,团队两人加入 Sierra 法国办公室。交易金额未披露,Sierra 估值 100 亿美元...
锐评
Sierra 在 4 月 23 日宣布收购 Fragment,但正文只给出一条事实:收购发生了。价格未披露,团队去向未披露,产品整合路径也未披露。信息少成这样,我的判断会更保守一点:这类交易先别急着当成“版图扩张”,更像一次能力采购,甚至就是 acqui-hire。 我一直觉得,客服 agent 这条赛道现在最不缺“收购新闻”,最缺的是上线后能跑通的指标。Sierra 自己所在的位置很清楚:它卖的是企业客户服务 agent,不是通用模型,也不是底层 infra。这个层级的公司做收购,通常只会为三类东西掏钱。第一类是垂直能力,比如工单理解、知识检索、对话编排、质检。第二类是交付能力,比如更快接入 CRM、电话系统、后台工作流。第三类是团队,尤其是已经做过 production agent 的工程师。可这篇只有标题和一句摘要,连 Fragment 到底做哪一层都没写,所以现在没法把它往“产品线增强”还是“人才吸收”上硬归类。 行业上下文倒是很明确。过去一年,客服和前台 agent 公司都在往更窄、更可计费的场景收缩:不是比谁会聊天,而是比谁能接 Zendesk、Salesforce、Slack、Twilio、内部知识库,然后把解决率、转人工率、AHT 这些指标压出来。Sierra 的竞争对手也不是抽象的“大模型公司”,而是 Decagon、Ada、Intercom、Salesforce Agentforce 这一串已经贴着企业流程卖结果的玩家。放在这个背景里看,小收购只有在一种情况下才会变得重要:它把某个原本外包或薄弱的环节收回到自家栈里,直接改善部署速度或单位工单成本。 我对这条新闻最大的保留也在这里。TechCrunch 这条没有给 Fragment 的产品描述,没有客户名单,没有 ARR,没有 headcount。连最基本的“为什么买它”都没展开。没有这些信息,外界很容易把 Bret Taylor 的名气自动换算成交易的重要性,这个我不太买账。创始人光环能带来关注,不能替代整合结果。企业 agent 收购最后能不能成立,看的不是 press release,而是三件事:客户迁移是否平滑、模型/工具调用是否更稳、人工兜底成本是否下降。现在一项都没披露。 如果硬要拿过去一年的模式做参照,我更倾向把它放进“应用层 agent 公司开始补控制点”这条线上。很多公司最初靠模型封装和 prompt orchestration 起家,后面发现毛利、效果和续费都卡在更底层的细节:知识更新延迟、工具权限、状态管理、评测回路、语音链路、CRM 写回。于是就会自己做,或者直接买一个小团队补进去。我没查到 Fragment 的具体方向,所以不能断言 Sierra 买的是哪一块,但大概率逃不出这些控制点。 还有一个现实问题,标题里“YC-backed French startup”这个标签信息量其实不高。YC 说明它拿过一层早期背书,法国说明它可能有欧洲人才和客户资源,但这两个标签都不能直接推出产品价值。对 Sierra 来说,欧洲团队如果带来的是多语种客服、欧盟数据合规、跨时区部署经验,那是实打实的能力;如果只是一个很早期的小团队,那交易含义就会小很多。正文没给答案。 所以我对这条的态度很简单:先按小交易看,先按能力补丁看。等 Sierra 披露 Fragment 做什么、哪些客户会先用、是否并入现有客服 agent 工作流,再决定它是不是一笔有分量的收购。现在只有标题信息,离“行业信号”还差得远。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
21:00
50d ago
彭博科技· rssEN21:00 · 04·23
韩国芯片业年终奖可能高达90万美元,K型经济风险加剧
彭博报道,韩国芯片行业在乐观预测下,年终奖可能接近90万美元(约合人民币650万元)。这进一步加剧了人们对收入差距扩大的担忧。正文只披露了芯片繁荣、奖金预测和不平等担忧这三个事实,没有说明具体是哪些公司、什么岗位、发放时间或计算方式。真正的信号是:半导体上行周期是否只让少数高薪群体受益。
#Commentary
精选理由
标题里的90万美元奖金确实是个钩子,但正文信息严重不足:没披露奖金覆盖的公司、岗位、兑现时间和统计口径,所以K不通过。同时这条新闻跟AI从业者的日常工作没有直接关联,不涉及模型、产品、供应链信号,R也不通过。综合下来分数低于40,排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
20:53
50d ago
Hacker News 首页· rssEN20:53 · 04·23
Google 发布 TorchTPU:让 PyTorch 原生跑在 TPU 上,目标十万芯片集群
Google 正式推出 TorchTPU,让 PyTorch 模型可以直接在 TPU 上跑,不用再转成 TensorFlow 或 JAX。目标集群规模是十万块 TPU 芯片——这个数字说明 Google 瞄准的是超大规模训练场景,不是小打小闹。文章确认了性能、硬件可移植性和可靠性三个目标,但正文没披露具体实现方式、支持的 PyTorch 版本、是否开源...
#Code#Inference-opt#Tools#Google
精选理由
HKR-H 靠'原生 PyTorch 跑 TPU'加十万芯片集群这个钩子通过。HKR-K 和 HKR-R 不通过,因为正文只给了目标和规模,架构、版本、基准、开源状态都没披露,硬性排除云厂商推广的上限是 40 分,所以总分压在 36。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
20:28
50d ago
彭博科技· rssEN20:28 · 04·23
SAP 云业务增长超预期,靠的是把 AI 代理塞进服务
SAP 说云服务收入增长超过了分析师预期,原因是开始把 AI 代理集成到服务里。正文没披露具体增长率、收入数字、代理叫什么名字,也没说铺开范围。
#Agent#SAP#Product update
精选理由
正文只给了两个事实:SAP 云服务增长超预期,以及它在把 AI agents 集成进服务。没有增速、营收、产品名或上线范围,K 不成立;标题是标准财报覆盖,H 和 R 也不成立,所以排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
19:53
50d ago
● P1X · @dotey(宝玉)· x-apiZH19:53 · 04·23
Codex 接入 GPT-5.5,新增浏览器操控、文档生成和自动审查,从写代码工具转向干活智能体
Codex 现在能用 GPT-5.5 了,一口气加了五个能力。它能直接操控浏览器,自己点击页面、填表、截图看结果,走完整个流程再告诉你哪里有问题。文档方面,可以在 Microsoft Office 和 Google Drive 里直接生成表格、幻灯片和文档,应用内还加了文件预览器,改完就能看效果。电脑操控能力跟着 GPT-5.5 增强,能看屏幕、点击、...
#Agent#Code#Tools#OpenAI
精选理由
这次 Codex 更新干货不少,核心不是简单挂了个新模型,而是把定位从代码助手往能跑连续任务链的智能体上推。我会先打个折:正文是二手消息,没给定价、没讲推送范围,也没交代那个审查智能体的安全门槛到底设在哪,所以先别太激动。但五个升级里,浏览器和电脑操控、跨办公套件生成文档、自动审查这几项,确实让 Codex 的干活边界变宽了,值得从业者盯着后续落地细节。
一句话点评
Codex 接入 GPT-5.5 并一口气放出五个升级,从代码补全转向直接帮你干活。但正文是空的,具体能力、实测效果和限制都没说,先当个预告看。
锐评
这条消息的核心变化是 Codex 的角色定位在变:不再只是帮你写代码片段,而是想作为一个能独立执行任务的智能体,直接介入开发流程。接入 GPT-5.5 意味着底层的推理和规划能力可能更强,但具体强在哪,正文没给任何细节。五个能力升级也只提了个总数,没有列出具体是什么、解决了哪些旧版痛点。 从已知信息看,这更像一次方向性宣告。对从业者来说,值得关注的点是 OpenAI 在把模型能力产品化到具体工作流里,而不是只卷基准测试。但缺少实测数据、延迟指标和任务完成率,现在没法判断它到底能省多少事。如果后续有具体案例或对比测试,才值得认真评估。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
19:49
50d ago
X · @Yuchenj_UW· x-apiMULTI19:49 · 04·23
预训练还是蛋糕,RL只是樱桃
UW的Yuchenj用Spud和Mythos两个模型提醒大家:预训练依然很重要,RL只是蛋糕上的樱桃,不是蛋糕本身。正文没披露Spud和Mythos的具体设置、规模或效果,所以这点先别太激动——但观点本身值得留意,尤其是当行业都在追捧RL的时候。
#Commentary
精选理由
这是一篇只有两句话的观点帖,没有披露 Spud 和 Mythos 的类型、实验设置、指标或数据来源,因此适用硬排除-零来源规则,评分上限为 40。HKR-H 和 HKR-R 成立,但 HKR-K 不成立,因为正文中没有任何可验证的内容。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
19:38
50d ago
TechCrunch AI· rssEN19:38 · 04·23
Noscroll:一个替你刷手机的AI机器人
Noscroll 想让你把“刷手机”这件事外包出去:它用 AI 机器人帮你浏览社交、新闻和各种网络信息,然后只在有重要事情时给你发短信。口号是“没有信息流、没有脑腐、没有愤怒帖,只有信号”。创始人曾是 OpenSea 的 CTO,但正文没披露产品形态、定价、支持哪些平台,以及它怎么过滤信息——目前只是一个信息代理,不是戒断方案。
#Agent#Tools#Noscroll#Product update
精选理由
只有HKR-H明确通过:'AI替你刷手机'这个角度是个强钩子。HKR-K不通过,因为报道没给价格、平台或筛选机制;HKR-R对从业者群体偏弱,所以这条留在低价值区间,而不是直接排除。
一句话点评
Noscroll 是一个帮你刷社交和新闻的 AI 机器人,只在你关注的事情有更新时发短信通知你。创始人曾是 OpenSea 的 CTO,但产品目前只有网页和短信入口,没有 App,也没有披露用什么模型、怎么过滤噪音。想法挺实用,但信息缺口不小:正文没提延迟多高、是否支持自定义关键词、以及怎么保证不遗漏重要消息。
锐评
Noscroll 现在放出来的信息只有一句话:它想用 AI 机器人替用户读互联网内容,缓解 doomscrolling。这个定位本身没问题,但我对“治 doomscrolling”这套包装不太买账。正文没有产品形态,没有价格,没有支持哪些源,也没有说筛选和摘要机制怎么做。缺这几项,用户拿到的到底是 RSS 摘要器、聊天式新闻代理,还是带个性化排序的内容管家,判断会差很多。 我一直觉得,这类产品的竞争点从来不是“能不能总结网页”,而是“你替用户丢掉了什么”。2024 到 2025 年这一波信息代理产品已经把基础能力做得很便宜了:Perplexity 早就在做检索+摘要,Particle 在新闻聚合上走得更前,Arc 和 Browser Company 那套“代读网页”的思路也跑过一轮。模型层面更不用说,OpenAI、Anthropic、Google 这几家的主流模型都能把长文压成几十行摘要。Noscroll 如果只是把网页喂给现成模型,再吐出一段总结,门槛其实很低,低到很难解释为什么它能单独成立一个产品。 难点在机制,不在标题。一个真能减少 doomscrolling 的代理,至少要回答四个问题:第一,源头怎么选,白名单还是全网抓取;第二,排序按时间、相关性,还是按用户历史偏好;第三,摘要是否保留分歧和原始链接;第四,什么内容会被它主动压掉。文章正文没披露这四项里的任何一项,所以“帮你少刷”这句承诺现在还是空的。要是它按 engagement 或情绪强度筛,最后很容易从 doomscrolling 变成 outsourced doomscrolling:你不刷了,但代理还在替你挑最刺激的东西。 还有个更现实的问题:这类产品常把“节省时间”当卖点,最后却把责任链切断了。用户看到的是二手摘要,不是原文;模型如果漏掉限定条件、反讽语境、发布时间,判断就会偏。新闻和社交内容尤其危险,因为价值往往不在结论,而在谁说的、什么时候说的、被谁反驳过。这个问题不是 Noscroll 独有,但它如果真把“代你读网”做成核心卖点,就得把来源透明度做得比普通摘要器更狠。至少要有引用、时间戳、原文跳转和摘要置信边界。现在标题给了愿景,正文没给这些护栏。 所以我对这条的判断很简单:方向成立,叙事有点过,产品壁垒暂时看不见。它如果后面补出来的是跨平台采集、强引用溯源、用户可调的过滤规则,再加上低幻觉摘要链路,那还有讨论空间。要是只是“AI 帮你看完今天互联网发生了什么”,我寻思了一下,这更像 2026 年版的 smarter RSS,不像一个能单独定义新品类的东西。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
19:37
50d ago
Latent Space· rssEN19:37 · 04·23
AIE Europe 复盘 + Agent Labs 路线图:先借前沿模型跑通业务,再自己训练专属模型
这是一期 54 分钟的播客,来自 Latent Space 和 Unsupervised Learning 的联合特辑。核心论点是“agent lab”路径:先用前沿模型(比如 GPT、Claude)把业务跑起来,等积累够数据、工作量和用户行为后,再训练自己的模型来降本降延迟。播客还聊了 OpenClaw、技能(skills)作为 agent 的最小打...
#Agent#Code#Memory#Latent Space
精选理由
这是一期播客复盘,不是模型、产品或者论文发布,所以重要性压在60-71区间。但它的价值在于提炼了一条可执行的路径:先用前沿模型搭智能体,攒够数据再训练自己的模型。这点对想省推理成本、建护城河的团队有直接参考。正文没披露具体成本数字或训练样本量,所以判断只能挂在路径本身。
一句话点评
播客聊了一个实用路线:先用 GPT/Claude 把业务跑起来,攒够数据再训练自己的模型降本降延迟。
锐评
这期 54 分钟播客的核心论点是“agent lab”路径:先用前沿模型(GPT、Claude)跑通业务,等积累足够数据、工作量和用户行为后,再训练自研模型来降本降延迟。文中提到 Cursor、Cognition 已经让用户选择自家模型,说明这条路走得通。播客还讨论了 OpenClaw、skills(技能作为 agent 的最小打包格式)、非 NVIDIA 推理硬件、记忆与个性化等话题。但作为播客文字稿,缺少具体数字——比如自研模型相比前沿模型能降多少成本、延迟改善多少倍、需要多少数据量才值得切换。另外,来源是 Latent Space 和 Unsupervised Learning 的联合特辑,属于行业评论类内容,不是一手实验报告。对于从业者,值得关注的是“先跑业务再自研”这个务实策略,但具体落地门槛和收益还需更多数据验证。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
18:57
50d ago
NVIDIA 博客· rssEN18:57 · 04·23
OpenAI 发布 GPT-5.5,英伟达用自家芯片跑 Codex 并内部推广给上万员工
英伟达宣布超过 1 万名员工已在工程、法务、财务、销售和 HR 等部门使用基于 GPT-5.5 的 Codex。部署方式是企业级:每人一台云端虚拟机、SSH 访问、零数据留存、只读生产权限。英伟达还晒了两个基础设施指标:GB200 NVL72 相比上一代系统,每百万 token 成本降低 35 倍,每兆瓦每秒 token 数提升 50 倍。这不仅是模型...
#Agent#Code#Inference-opt#NVIDIA
精选理由
HKR 三项都过了,钩子具体、事实硬、痛点准。但本质还是 NVIDIA 给 OpenAI 做基础设施的案例宣传,属于云厂商推广和纯营销内容,所以硬上限 39 分,tier 定为 excluded。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R1
18:55
50d ago
● P1Hacker News 首页· rssEN18:55 · 04·23
Meta 计划裁员 10% 约 8000 人以支持 AI 投资
彭博社拿到的一份内部备忘录显示,Meta 计划从 5 月 20 日开始裁掉 10% 的员工,也就是 8000 人,另外还有 6000 个空缺岗位不招了。首席人力官在备忘录里把话说得很直白:这是为了让公司运转更高效,好腾出钱来填 AI 等其他投资的坑。Meta 在元宇宙上砸了几百亿美元基本打了水漂,现在又得猛追 AI,月初刚发了新模型 Muse Spar...
#Meta#Bloomberg#Janelle Gale#Incident
精选理由
Meta 裁 10% 不是普通的企业瘦身新闻,它把裁员和持续加码 AI 摆在一起说,等于明牌告诉大家钱和人往哪挪。H、K、R 三条都站得住,但消息源是彭博看到的内部备忘录,Meta 还没公开确认,所以放在 featured 高位而不是 p1。
一句话点评
Meta 用裁掉 8000 人、冻结 6000 个岗位来填 AI 投资的坑,省钱逻辑很直白,但别急着叫好,正文没披露具体省下多少钱、裁哪些部门。
锐评
Meta 这次裁员 10%,涉及约 8000 人,同时不补 6000 个空缺岗位,首席人力官在内部备忘录里直接说这是为了“抵消其他投资”。结合上下文,这个“其他投资”主要就是 AI 和之前烧了几百亿但没成的元宇宙。文章提到 Meta 刚在 4 月初发布了全新的 AI 产品 Muse Spark,说明公司正在把资源往 AI 方向猛拧。 不过,这篇报道的信息来自彭博看到的一份内部备忘录,TechCrunch 自己也说联系了 Meta 但还没收到回复。所以目前只有公司单方面的说法,没有外部验证。最关键的两点没写清楚:一是这轮裁员到底能省出多少钱,够不够填 AI 的窟窿;二是裁撤集中在哪些部门,是元宇宙残余团队还是其他业务线。如果裁的是核心研发岗,那所谓的“效率”可能反而拖慢产品节奏。这点先别太激动,等具体名单和财报数字出来再看。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
18:47
50d ago
r/LocalLLaMA· rssEN18:47 · 04·23
Qwen 3.6 27B 在 AI 评测中追平 Sonnet 4.6,但细节全无
Reddit 帖子称 Qwen 3.6 27B 在 Artificial Analysis 的“agency”指标上大幅提升,追平了 Sonnet 4.6。但正文被屏蔽,没有给出具体分数、评测方法、发布时间,也没说这是不是官方结果。目前只能当个传闻看——没有可复现的细节,结论站不住脚。
#Agent#Benchmarking#Artificial Analysis#Benchmark
精选理由
标题抛出一个有吸引力的对比——Qwen 3.6 27B 在 agent 指标上追平 Sonnet 4.6,但正文完全缺失,没有分数、测试设置、发布日期,也没说是官方结果。这触发了硬排除规则 6(零来源内容),重要性上限卡在 40 以下。真正该盯的是复现条件,目前只能当传闻看,不能当结论。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
18:46
50d ago
r/LocalLLaMA· rssEN18:46 · 04·23
Ling-2.6-1T 确认开源权重
Reddit 帖子标题说 Ling-2.6-1T 会开源权重,但正文被 Reddit 屏蔽(403),所以没有公布时间、许可证、参数细节或下载链接。关键缺口:不知道是完整权重、推理代码还是只有检查点。
#Open source#Product update
精选理由
目前只有标题一句话:Ling-2.6-1T 会开源权重。正文被 Reddit 封了,所以许可证、发布时间、开放范围(是全量权重还是只给检查点)全都不确定。H 和 R 成立,K 不成立,加上硬性排除规则(零信源)把分压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
18:35
50d ago
● P1X · @claudeai· x-apiEN18:35 · 04·23
Claude 新增十多个消费应用连接功能
Claude 官方发了一条产品更新,说现在能连接更多非工作类 App,列了 TripAdvisor、Booking.com、Resy、Instacart、Spotify、Audible、AllTrails、Thumbtack、TurboTax 等至少 10 个。正文没披露具体怎么连、能执行哪些操作、支持哪些地区、权限范围多大、什么时候推完。我会先打个折...
#Tools#Agent#Anthropic#Tripadvisor
精选理由
这是 Anthropic 官方产品更新,HKR 三项都踩中了。钩子是 Claude 从办公工具杀进生活消费场景,知识点是新增至少 10 个消费 App 连接器但操作细节和上线范围全都没说,关联点在于它把“助手能不能代办个人事务”这个平台级问题摆上了台面。分数维持 75,因为目前只是列了 App 名字,正文没给出可执行动作、权限边界、地区限制和发布时间,我会先打个折,等后续披露再考虑上调。
一句话点评
Claude 开始直接连你的 Spotify、Uber Eats 和报税软件了,但先别急着把生活全交给它——手机端还在测试,正文也没说清楚它读你数据到底有多深。
锐评
Anthropic 给 Claude 加上了十多个消费类应用的连接功能,包括 Spotify、Uber Eats、Tripadvisor、Booking、Resy 和 TurboTax 这些日常高频工具。这意味着你可以直接让 Claude 帮你放歌、订餐、找餐厅或者处理税务,不用再在几个 App 之间来回跳。 从产品思路上看,这是在把 AI 助手从“聊天工具”往“生活操作系统”推。但正文有几个关键信息没交代:一是连接后 Claude 能读取你多少历史数据,是只拿当前指令相关的,还是会把你的播放记录、消费账单全扫一遍;二是手机端明确标了“beta”,稳定性、权限控制都还没经过大规模验证。 另外,TurboTax 这种涉及敏感财务信息的应用也进了名单,Anthropic 在文章里没展开讲数据隔离和隐私保护的具体方案。这点对从业者来说比功能本身更值得盯——功能铺得快不稀奇,权限边界划得清不清才是后面会不会翻车的关键。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
18:16
50d ago
● P1Hacker News 首页· rssEN18:16 · 04·23
GPT-5.5 在漏洞挖掘上追平了没公开的 Mythos,而且人人都能用
安全公司 XBOW 用真实漏洞库测了 GPT-5.5,漏报率压到 10%,比 GPT-5 的 40% 和 Opus 4.6 的 18% 都低。更关键的是,GPT-5.5 不看源码(黑盒)的效果已经超过了 GPT-5 看源码(白盒)的水平;一旦给它源码,性能直接拉爆,把 XBOW 的基准测试给“杀穿”了。在模拟登录这类实操任务里,它登录成功的交互轮次只有...
#Agent#Code#Vision#XBOW
精选理由
我会先打个折:数据来自 XBOW 自家的漏洞基准,不是 OpenAI 官方发布,所以不能当定论。但信息量够硬——GPT-5.5 在黑盒条件下漏报率只有 10%,比 GPT-5 有源码时的 40% 低了一大截,也比 Opus 4.6 的 18% 强。视觉敏锐度 97.5%,登录目标系统需要的尝试次数直接砍半,说明模型在真实攻击链里的效率明显跳了一级。XBOW 把它类比成 Mythos 级别的能力,这点先别太激动,正文没披露测试环境是否隔离、样本量多大、有没有针对性微调。不过对做攻防和安全评估的人来说,这个信号足够盯紧了:模型在没看到源码的情况下已经能...
一句话点评
GPT-5.5 黑盒挖洞能力已超 GPT-5 白盒,漏报率压到 10%,但这是安全厂商自家基准,别直接当通用结论。
锐评
安全公司 XBOW 用真实漏洞库测了 GPT-5.5,漏报率从 GPT-5 的 40% 一路压到 10%,比 Opus 4.6 的 18% 也低一截。更关键的是,GPT-5.5 不看源码(黑盒)的效果已经超过了 GPT-5 看源码(白盒)的水平;一旦给它源码,性能直接拉爆,XBOW 说自己的基准被“杀穿”了。在模拟登录这类实操任务里,它的视觉准确率到了 97.5%,交互轮次也只有次优模型的一半左右。 不过得先打个折。这是 XBOW 自家的基准,漏洞库和测试流程没公开,没法复现。而且文章只给了漏报率,没提误报率——如果模型为了不漏报而疯狂报警,实际用起来会很吵。另外,XBOW 本身就是卖安全产品的,评测结果天然带推广属性,这点先别太激动。 还缺什么:没看到跟 Mythos 的直接对比数据,只是标题打了个比方;也没披露测试的漏洞总数和类型分布,不知道是偏 Web 还是偏二进制。如果后续有第三方用公开基准交叉验证,这个 10% 的漏报率才更有说服力。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
18:06
50d ago
● P1X · @OpenAI· x-apiEN18:06 · 04·23
OpenAI发布GPT-5.5模型,已在ChatGPT和API中可用
OpenAI 在 X 上宣布推出 GPT-5.5,已经接入 ChatGPT 和 Codex。官方说法是它面向实际工作和 agent 场景,能理解复杂目标、调用工具、自我检查,把更多任务从头跑到尾。我会先打个折:正文没披露参数量、价格、上下文窗口和任何基准测试结果,所以现在只能看到一句“新的智能形态”和“新的干活方式”,具体强在哪、贵不贵、跑多快都还不知道。
#Agent#Tools#Reasoning#OpenAI
精选理由
OpenAI 在 ChatGPT 和 Codex 上线 GPT-5.5,属于当天必须覆盖的发布。HKR 三项全中:新模型发布本身就有话题性,正文给出了 agent 工作流和工具调用的具体方向,对日常做 AI 应用的人有直接影响。我会先打个折——参数、价格、上下文窗口和基准分正文都没披露,所以重要性停在 92,不往上拉。真正值得盯的是落地链路,不是标题里的“新一类智能”。
一句话点评
OpenAI 发了 GPT-5.5,主要提升在干活效率上:写代码、操作软件、做研究时更少返工,而且速度没降。但官方还没给 API 具体上线时间,只说“很快”。
锐评
GPT-5.5 这次最大的变化不是单纯变聪明,而是干活更省步骤。官方说它在完成同样任务时用的 token 比前代少,在 Artificial Analysis 的编码指数上,达到顶尖水平但成本只有竞品的一半——这个数字挺实在,直接关系到用 API 的成本。在 Terminal-Bench 2.0 这种考命令行规划能力的测试上拿了 82.7%,比 GPT-5.4 高了 7 个多点,说明它在需要多步操作、调用工具的场景里确实更稳了。 不过得注意,这些评测大部分是 OpenAI 自己选的基准,像 Expert-SWE 还是内部测试集,外部没法复现。正文里引用了早期测试者的正面评价,但没给出负面反馈或失败案例,这点信息不对称。另外,GPT-5.5 Pro 的评测数据只给了 BrowseComp 和 FrontierMath 两项,其他格子全是空的,不知道是没测完还是结果不好看。API 的具体上线时间和定价也没公布,想接入的开发者还得再等等。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
17:48
50d ago
● P1Hacker News 首页· rssEN17:48 · 04·23
Anthropic 确认 Claude Code 质量下滑由三项改动导致
Anthropic 发了一篇事故复盘,解释了最近不少用户感觉 Claude Code 变笨、变健忘的原因。问题出在三次产品层的改动上,API 和模型本身没变。第一,3 月 4 日他们把默认的思考强度从“高”调成了“中”,想解决高思考模式下界面卡死的问题,结果用户普遍觉得模型变蠢了,4 月 7 日又改了回去。第二,3 月 26 日上线了一个缓存优化,本意...
#Code#Tools#Memory#Anthropic
精选理由
Anthropic 这份事后说明给了三个具体根因、时间点和修复版本,HKR 三项都站得住。比普通产品更新更有分量,因为它暴露了默认值、记忆处理和系统提示这些非模型层的改动也能把编码体验拉下来,但本质上还是一份事故报告,不是重大突破。
一句话点评
Anthropic 自己发公告认了 Claude Code 变笨,是三个技术改动叠加出的 bug,不是模型本身降智。
锐评
Anthropic 这次把 Claude Code 质量下滑的原因摊开说了,不是模型被偷偷降智,而是三个独立的技术改动撞在一起,造成了“越聊越傻”的体验。第一个改动在 3 月 4 日,他们把默认的推理强度从“高”调到了“中”,本意是解决高推理模式下界面卡死、延迟过高的问题,但代价是模型变笨了,4 月 7 日才改回来。第二个是 3 月 26 日上线的一个缓存优化,设计上是为了让闲置超过一小时的会话恢复时更省钱,结果 bug 导致后续每一轮对话都在清除之前的推理记录,模型就像失忆一样重复和乱选工具,4 月 10 日修复。第三个是 4 月 16 日加了一条系统提示让模型少说废话,结果跟其他提示词改动一叠加,反而拉低了代码质量,4 月 20 日回滚。 这三个问题各自影响不同时段、不同用户群,混在一起看起来就像大范围、不稳定的质量退化。Anthropic 说他们内部测试和评估一开始都没复现出来,排查起来很费劲。作为补偿,4 月 23 日起给所有订阅用户重置了用量额度。 公告没给出具体有多少用户受影响,也没说这些改动在内部上线前经过了哪些测试流程。他们承认了问题,但没解释为什么三个改动都能绕过质量监控直接上线。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
17:36
50d ago
Hacker News 首页· rssEN17:36 · 04·23
人们并不渴望自动化
The Verge 发了一期播客,标题就是“人们并不渴望自动化”。目前只有标题和链接,没有嘉宾、论点或具体案例。Hacker News 上 11 分、5 条评论,讨论热度不高。正文没披露任何 AI 产品或行业细节,目前只是一个观点钩子,不是可操作的情报。
#The Verge#Hacker News#Commentary
精选理由
HKR-H 靠反自动化的标题过关,HKR-R 靠自动化反弹的神经过关。HKR-K 不过,因为帖子只确认了一个 The Verge 播客链接;嘉宾、数据、例子、可验证的论点全没有,触发硬排除——零信源。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
17:30
50d ago
Hacker News 首页· rssEN17:30 · 04·23
Palantir 员工开始怀疑自己是不是坏人
Wired 发了一篇报道,说 Palantir 内部有员工开始质疑自己做的事是否道德。Hacker News 上这个帖子有 35 分、22 条评论,但正文只给了标题和链接,没披露员工人数、具体项目、时间线或内部证据。目前唯一能确认的信号是:故事焦点是员工自我怀疑,但信息缺口很大——不知道是少数人还是普遍情绪,也不知道具体是哪个项目或客户触发的。
#Palantir#Wired#Hacker News#Commentary
精选理由
HKR-H 落在内部员工伦理质疑这个钩子上,有真实张力。HKR-R 踩中国防合同和职业伦理的敏感神经。HKR-K 扣分是因为正文只给了标题和链接,员工数量、项目名称、内部文件、时间线一概没有,所以只能归到 all 层级。
一句话点评
Palantir 员工开始自问“我们是不是坏人”。标题抓人,但正文没披露具体事件或内部讨论细节,更像一个情绪引子。短评:道德焦虑也是流量密码,但缺事实支撑。
锐评
Wired 这条目前只给出一个信号:Palantir 员工开始怀疑自己在做的事,正文未披露人数、涉及项目、时间线和内部证据。我的判断是,这更像声誉压力外溢到员工层,而不是公司路线突然偏航。Palantir 从 Gotham 到国防、警务、移民执法,一直站在“高争议客户+高黏性软件”这条线上。今天才出现员工不适,不说明业务变了,说明外部政治环境、客户曝光度、以及员工代际容忍度一起变了。 我一直觉得,Palantir 的特殊处不在“它服务政府”,而在它把数据整合、分析工作流、决策支持,长期包装成一套贴身嵌入客户机构的操作系统。Snowden 时代、ICE 合同争议、警务预测项目的批评,市场上早有存档。现在再出现内部犹疑,我不意外。更像是生成式 AI 这两年把“模型做什么”推到台前后,连原本藏在数据层、任务编排层的公司,也被拉回伦理聚光灯下。Scale AI、Google Cloud、Microsoft 都遇到过员工或公众对军用、执法用途的反弹,Palantir 只是更难装成中性基础设施。 但我对标题叙事有点保留。媒体很爱把“部分员工反感”写成公司内部转向前夜,实际常常不是。Google 当年 Maven 抗议确实逼出合同调整,Amazon 和 Microsoft 面对类似争议时,商业主线并没被改写。Palantir 更不像会因内部舆论轻易收手的公司,它的客户结构、销售方式、创始人公开立场,都决定了这家公司把争议当成本项,不当异常项。标题已给出“员工在怀疑”,正文没披露“这些员工能否影响合同、产品边界或高层决策”。没有这三个条件,我不会把它读成实质性拐点。 我更关心两类后续细节。第一,员工疑虑指向哪类项目:军用 targeting、边境执法、警方情报,还是 AIP 这类新一代 AI 产品的部署。第二,公司是否出现可验证的组织反应:离职潮、内部信、合同审查机制、客户限制条款。没有这些,故事的力度主要停留在文化层,不在业务层。坦率讲,Palantir 一直靠“愿意做别人不愿做的单子”建立差异化;如果这点开始松,才是新闻。现在只有标题,我还看不到这一步。
HKR 分解
hook knowledge resonance
打开信源
59
SCORE
H1·K0·R1
16:40
50d ago
r/LocalLLaMA· rssEN16:40 · 04·23
Qwen3-TTS + qwen3.6-35B 搭语音助手,3周笔记全公开
作者用 Qwen3-TTS 语音合成和 qwen3.6-35B 大模型搭了一套语音助手流程,记录了3周经验。正文被 Reddit 屏蔽,没透露延迟、音质、硬件配置或提示词设计,只有模型名、用途和时间跨度是确定的。
#Agent#Audio#Commentary
精选理由
标题看着像一篇实操笔记,但正文拿不到,唯一能确认的就是模型名、场景和时间跨度。没有延迟、吞吐、语音质量这些硬指标,也没有硬件配置和提示词链路,信息量约等于零。硬排除规则6适用,分数上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
16:00
50d ago
TechCrunch AI· rssEN16:00 · 04·23
Era 融资 1100 万美元,给 AI 眼镜、戒指、挂件做操作系统
Era 拿了 1100 万美元,想做一个软件平台,专门给各种 AI 小硬件用——比如眼镜、戒指、挂件。它自己不造硬件,而是让其他人用它的平台来开发 AI 小工具。正文没披露投资方、产品细节和发布时间线,目前只有开发者套件和一些实验性作品,比如一个会讲法国趣闻的纪念品。1100 万在硬件平台赛道不算大钱,说明还处在早期验证阶段。
#Tools#Era#Funding#Product update
精选理由
这篇只有一个硬事实:Era 拿了1100万美元做AI硬件的软件平台。HKR-H 靠角度过关,但 HKR-K 和 HKR-R 都挂不住,因为正文没披露投资方、产品机制、发布时间或用户数据,所以整体只能算低关注度的全量推送。
一句话点评
Era 拿了 1100 万美元,想做 AI 硬件的“安卓”——自己不造设备,只做软件平台,让第三方用它的开发套件做出各种小玩意儿(比如一个会讲法国冷知识的纪念品)。想法不错,但 1100 万在硬件生态里不算多,而且正文没披露任何客户或出货量,目前还停留在艺术家玩票阶段。
锐评
Era 宣布融资 1100 万美元,方向是 AI gadgets 软件平台。先说判断:这笔钱如果真拿去做“多形态设备的共同软件层”,我觉得比再做一枚 AI 胸针靠谱。过去一年已经证明,AI 硬件最难的不是外形设计,是高频使用场景、续航、延迟、麦克风权限和手机协同。Humane AI Pin 基本把“先造硬件、再补体验”这条路踩穿了;Rabbit r1 也说明,靠一个新外壳包住云端 agent,不会自动变成新平台。 这条现在的信息其实很薄。正文只给出一句判断:眼镜、戒指、吊坠会出现多种形态。投资方、系统架构、SDK 形态、开发者接入方式、发布时间,正文都没披露。所以别把它读成“Era 已经拿到某种 AI OS 入场券”。目前能确认的只有融资额和方向,离产品是否成立还差一大截。 我自己对这类叙事一直有个保留:所谓“AI gadgets 平台”到底是在解决什么独占问题?如果它只是做一层语音唤醒、上下文路由、通知聚合,那手机 OS 已经占住了入口,Meta、Apple、Google 都能下场,独立公司会很难。反过来,如果它做的是低功耗常开、跨设备身份、私有记忆存储、端云切换,那门槛就高很多,但 1100 万美元也不算宽裕。一个像样的平台,至少要覆盖设备固件、移动端 companion、云端 agent、开发工具和隐私策略,钱烧得很快。 有意思的地方在于,市场现在对“AI 原生硬件”确实没死心。Meta Ray-Ban 过去一年把眼镜这条线重新拉回讨论桌,至少证明“可穿戴 + 语音/视觉助手”不是零需求。我没查到它最新销量,但我记得 2025 年市场一直在拿它当少数跑出留存的例子。问题是,Ray-Ban 之所以能跑,不只是模型能力变强,还因为它借了现成眼镜品类、品牌分发和手机生态。Era 如果没有类似分发杠杆,只讲“未来会有很多形态”,这个说法我不太买账。 所以我对 Era 的看法很简单:先把它当成一笔早期软件基础设施下注,不要当成 AI 终端大潮已经成形。后面要看三件很具体的东西:它支持哪些设备层能力,开发者为什么不用现成手机 API,以及它能不能拿到至少一个真实出货的硬件伙伴。拿不到这些,平台就只是 pitch deck 上的中间层。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
14:53
50d ago
r/LocalLLaMA· rssEN14:53 · 04·23
Reka Edge 2603 多模态支持已合入 llama.cpp
llama.cpp 合并了 Reka Edge 2603 的多模态支持,但正文被 Reddit 屏蔽(返回 403),目前只有标题能确认。没披露 PR 编号、支持哪些模态(看图?看视频?)、量化格式和运行门槛,信息缺口很大。如果你在等本地跑多模态模型,这点先别太激动,等 PR 详情出来再评估。
#Multimodal#Tools#Reka#llama.cpp
精选理由
标题确实有钩子——Reka Edge 2603 多模态支持进了 llama.cpp,但正文完全不可用,连 commit ID 都没有。HKR-H 靠合并声明本身过关,HKR-K 和 HKR-R 都因为信息缺失不成立。按硬排除规则 6,标题来源且无 commit、模态范围、量化或复现命令,重要性上限就是 35,tier 只能给 excluded。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
14:36
50d ago
FT · 科技· rssEN14:36 · 04·23
Peter Thiel 投资的 Stark 公司进军反无人机市场
Stark 这家由 Peter Thiel 支持的初创公司,开始做防御型无人机了。直接原因是伊朗战争后,各国对反无人机(UAV)的需求大增。正文没披露具体产品规格、客户名单、融资规模或交付时间。关键问题是:这波反无人机需求能不能转化成长期订单,还是只是短期热点。
#Robotics#Stark#Peter Thiel#Iran
精选理由
HKR-H 靠 Thiel 和防御型无人机这个组合能吸引点击,但 HKR-K 不通过,因为正文只说了扩张,没披露规格、客户、交付时间或 AI/自主机制。HKR-R 对 AI 从业者也不够直接,所以分数低于 40,作为低 AI 信号噪音排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
14:17
50d ago
r/LocalLLaMA· rssEN14:17 · 04·23
腾讯开源 Hy3 预览版:295B 参数 MoE,每次推理只激活 21B
腾讯放出了一个叫 Hy3 的预览版模型,号称是 295B 总参数的 MoE(混合专家模型),每次推理只激活 21B 参数——这意味着推理成本大概只有同尺寸稠密模型的十分之一。但正文只拿到了 Reddit 的 403 页面,架构、许可证、上下文长度、跑分、下载链接全都没披露。所以目前最关键的判断是:它到底是不是真开源?如果权重和许可证没公开,那这个“开源...
#Tencent#Reddit#Open source#Product update
精选理由
标题有真钩子——腾讯加一个 295B/21B 激活的 MoE 开源模型,踩中了开源模型竞争的神经。但抓取正文只有 403 拦截页,HKR-K 不通过,硬性排除零来源规则触发;在权重、许可证和基准成绩公开之前,分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
14:11
50d ago
FT · 科技· rssEN14:11 · 04·23
法国气象局报警:Polymarket 上有人赌巴黎气温,论坛用户称数据被改过
法国气象局发现 Polymarket 上有人针对巴黎气温数据下注,怀疑数据被篡改,已经报警。论坛用户也说读数被人动过手脚。这件事的核心问题是预言机的数据源可信度——如果原始数据可以被改,那链上结算就崩了。正文没披露赌注金额、篡改手法、具体时间点和警方进展,信息缺口比较大,暂时没法判断这事有多严重。
#Polymarket#Incident
精选理由
H 通过:气象局因 Polymarket 押注报警,这个切入角度确实少见。K 和 R 不通过:正文只确认了天气论坛和预测市场之间有争议,押注金额、篡改手法、时间窗口和警方进展都没披露,信息缺口太大;而且这件事更像预测市场纠纷,对 AI 从业者来说只是间接相关,不是直接痛点。所以分数低于 40,排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
14:00
50d ago
TechCrunch AI· rssEN14:00 · 04·23
Delve 又出事:另一家客户 Context AI 也遭安全事件
TechCrunch 确认,合规初创公司 Delve 曾为 Context AI 做安全认证,而 Context AI 上周刚披露了一起安全事件,导致网站托管巨头 Vercel 数据泄露。目前正文没披露事件规模、攻击路径、受影响数据,也没说 Delve 是否该直接负责。关键信息是客户关联,不是确凿的因果链。
#Agent#Safety#Delve#Context AI
精选理由
HKR-H 通过,因为'又一家客户'的钩子能抓住眼球;HKR-R 通过,因为第三方安全风险对 AI 买家是敏感话题;HKR-K 不通过:报道只确认了 Delve 的认证关系和第二起事件,没有攻击路径、影响范围、数据泄露或归责细节。
一句话点评
Delve 这家合规初创又出事了——它给 Context AI 做的安全认证没拦住数据泄露,还连累了托管巨头 Vercel。TechCrunch 确认了这层关系,但没披露具体泄露了多少条记录、涉及哪些客户。Delve 本身已陷入困境,这次事件等于在伤口上撒盐。对 AI 公司来说,选合规供应商时得多个心眼,认证报告好看不等于真能防漏。
锐评
TechCrunch 证实 Delve 为 Context AI 做过安全认证,当前只有 1 层客户关系被坐实。标题把“另一家 Delve 客户出事”和“Delve 有责任”贴得很近,这个写法我觉得有点过。正文只有 RSS 摘要,事件规模、入侵路径、受影响数据、认证时间点、Delve 的服务范围,全都未披露;没有这些条件,就没法判断是审计失效、控制执行失效,还是认证后环境早已漂移。 我一直觉得,AI 公司近一年最容易被混淆的就是“合规”和“安全”这两个词。SOC 2、ISO 27001、第三方审计,能证明某个时点存在流程和控制;它们从来不保证不会被攻破。2024 年到 2025 年好几起云厂商和 SaaS 事故都说明了这点:拿到认证,不等于没有令牌泄露、权限蔓延、供应链依赖暴露。我没看到本文给出 Delve 认证的具体标准,也没看到认证覆盖生产环境还是只覆盖组织流程,这个缺口很关键。 我对 Delve 的叙事也有保留。很多“自动化合规”创业公司把速度当卖点,几周出报告,接上若干 SaaS 就说控制闭环了。速度当然有市场,但安全认证如果被卖成了低摩擦通行证,客户就容易把“通过审计”误听成“系统够安全”。这次新闻先别急着判 Delve 有罪,也别替这类公司洗白。更合理的读法是:AI 创业公司会开始追问,认证供应商到底验证了什么,抽样深度多深,认证后有没有持续监测。标题已给出关联,正文没给责任边界。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
13:59
51d ago
r/LocalLLaMA· rssEN13:59 · 04·23
OpenAI 把隐私过滤器开源了,Apache 2.0 协议
OpenAI 把一个叫 Privacy Filter 的模型开源了,协议是 Apache 2.0,意味着可以商用。但正文只抓到了 Reddit 的 403 页面,没披露模型名字、权重下载地址、训练数据、评测结果和发布日期。所以目前能确认的只有许可证干净,其他信息一概缺失。
#Safety#Tools#OpenAI#Reddit
精选理由
HKR-H 和 HKR-R 成立:OpenAI 加 Apache 2.0 开源隐私过滤器,标题本身有吸引力,且对可部署的安全栈有实际参考价值。HKR-K 不成立:只有标题,权重地址、基座模型、评测、发布时间、使用限制都看不到,信息不足以支撑判断。
一句话点评
OpenAI 把隐私过滤器开源了,Apache 2.0 协议,权重可商用。但正文被 Reddit 屏蔽,没披露模型大小、过滤精度、训练数据。如果是轻量级分类器,本地部署成本低,适合自建敏感内容拦截。但没跑过基准测试前,先别当主力方案。
锐评
标题称 OpenAI 以 Apache 2.0 释放 Privacy Filter 权重,正文却只拿到 Reddit 403 页面。现在能确认的只有两点:对象叫 Privacy Filter,许可被写成 Apache 2.0。模型名、参数量、权重地址、训练语料、误杀率、漏检率、发布时间,正文未披露。 我对这条的第一反应是:这像一次防守性开源,不像能力前沿的主动外放。隐私过滤器这类组件离主模型更远,商业风险小,合规价值高,也更适合给企业做本地部署。过去一年里,开源社区已经有很多 PII redaction 和 moderation 小模型,常见做法是 token classification、span extraction,或者在小型 encoder 上做多标签分类。OpenAI 现在如果把这一层放出来,我会把它看成两件事:一是给“OpenAI 不开”的舆论降温,二是顺手把安全链路里的一个标准件变成生态入口。 我还是有个保留。Apache 2.0 只说明代码或权重许可宽松,不自动说明数据可追溯、评测可复现、商用限制为零。很多公司嘴上说 open-weight,落地时却不放训练配方、不放阈值建议,最后你拿到的是能跑不能审的黑盒。隐私过滤器又比聊天模型更怕这个,因为企业买的不是“能跑”,是误报和漏报的边界。我还没查到 OpenAI 以前是否公开过同类过滤模型的完整卡片;如果这次也没有 system card 或 datasheet,这条的含金量会打折。 说真的,这事一旦坐实,影响不在模型大小,而在谁敢把它塞进生产链路。能不能进邮件、客服、医疗转录、代码日志清洗,取决于三组信息:一是支持哪些 PII 类别,二是多语种表现,三是延迟和吞吐。标题一条都没给。现阶段我只能说,方向是对的,信息远远不够。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K0·R1
13:58
51d ago
Hacker News 首页· rssEN13:58 · 04·23
英国生物样本库数据反复泄露到GitHub,已发110次下架通知
英国生物样本库(UK Biobank)握有50万志愿者的基因、健康和生活数据,只允许2万名研究人员在严格协议下使用,禁止二次分享。但研究人员反复把参与者数据误传到公开的GitHub仓库。一个追踪页面显示,UK Biobank已向GitHub提交110份DMCA下架通知,涉及197个仓库和170名开发者,目标遍布至少14个国家。最早的通知在2025年7月...
#UK Biobank#GitHub#The Guardian#Incident
精选理由
HKR 的 H 和 K 都过了:重复泄露的钩子成立,数字和重识别例子也够具体。但 R 没过,因为这件事跟 AI 模型、产品、开源或政策发展没有直接关联,对 AI RADAR 受众的相关性低于 40。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K1·R0
13:00
51d ago
TechCrunch AI· rssEN13:00 · 04·23
天文学家也来抢GPU了:NASA新望远镜数据量暴增,AI找星系加剧显卡荒
天文学家开始用GPU跑AI模型,从海量太空数据里找星系目标——这给本来就紧张的全球GPU供应又添了一把火。NASA的南希·格雷斯·罗曼太空望远镜今年9月发射,预计整个生命周期传回20PB数据;智利的维拉·鲁宾天文台每晚产生20TB;詹姆斯·韦伯每天也有57GB。相比之下,哈勃一天才1-2GB。数据量暴涨,靠人眼看已经不可能了,所以天文学家转向GPU做加...
#Commentary#Incident
精选理由
标题抛出一个反直觉的钩子——天文学家也在加剧GPU紧张,但正文只有一句比喻,没有模型名、采购量、时间线,信息量撑不起40分以上,所以按硬排除规则卡在38分。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R1
11:50
51d ago
Hacker News 首页· rssEN11:50 · 04·23
博客评论区出现AI生成的连环垃圾评论,伪装成正常对话
博主Terence Eden发现三条伪装成互相回复的垃圾评论,第二条里藏了一个赌场链接。三条评论来自菲律宾同一个IP,每条间隔正好3分钟。他的WordPress用Antispam Bee插件每天能拦掉几百条垃圾评论(截图显示一天拦了272条),但这三条因为没填URL字段、链接也没加https://,绕过了检测。关键手法是伪造对话结构:每条评论都像AI写...
#Terence Eden#Antispam Bee#WordPress#Incident
精选理由
HKR-H 和 HKR-K 都成立:伪对话 spam 模式具体且可测试。HKR-R 不达标,因为对目标受众而言,这只是一个博客审核的轶事,不是 AI 产品、研究或工作流故事,所以分数低于 40,归入 excluded。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K1·R0
11:34
51d ago
● P1The Verge · AI· rssEN11:34 · 04·23
Microsoft 在 Word、Excel、PowerPoint 中推出 Copilot Agent Mode
微软这周把 Copilot 的 Agent Mode 推给了 Microsoft 365 Copilot 和 Premium 用户,不再是只回答问题的聊天框,而是能直接在文档、表格、幻灯片里执行操作。Copilot 办公副总裁 Sumit Chauhan 说,之前的基础模型不够强,没法可靠地控制应用界面。不过这篇报道没写具体能执行哪些操作、覆盖哪些地区...
#Agent#Tools#Microsoft#Sumit Chauhan
精选理由
微软把 Agent Mode 塞进 Word、Excel 和 PowerPoint,等于让 Copilot 从“陪你聊”变成“替你干”,这个转向比单纯升级模型更值得关注。高管自己承认早期模型能力不够,只能被动回答,现在才敢放代理进画布,说明技术门槛确实在降。但正文没提开放范围、定价和具体能执行哪些动作,所以我会先打个折——如果后续披露的动作列表很窄或者只限企业版,实际影响就没标题听起来那么大。
一句话点评
微软把Copilot的“自己干活”模式直接塞进Word、Excel和PPT默认界面了,个人版也能用,但别指望它替你背锅。
锐评
微软把Copilot的Agent Mode(让AI自己规划步骤、调用工具去完成一个任务,而不是你问一句它答一句)设成了Word、Excel、PPT的默认体验。这件事最直接的影响是,你打开办公软件,AI不再是等着你下指令的对话框,而是可以主动去搜你电脑里的文件、写公式、做幻灯片。The Verge管这叫“vibe working”,挺贴切——你给个大概方向,它先跑起来。 这次覆盖范围很广,Microsoft 365 Copilot和Premium订阅用户都能用,连个人和家庭版都支持,不是只给企业客户画饼。但文章没给出任何关于任务成功率、出错率或者用户实际省了多少时间的数据。这种“默认开启”的做法,意味着微软对自家模型的可靠性有了一定信心,但反过来,普通用户也可能被迫面对AI自作主张带来的混乱。 还缺两个关键信息:一是Agent Mode具体能调用哪些工具、权限边界在哪,比如它能不能直接发邮件或改共享文档;二是如果它搞砸了,用户怎么快速撤回或纠正。这些没讲清楚之前,这个功能更像一个高级的自动补全,离真正的“数字员工”还有距离。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
11:25
51d ago
FT · 科技· rssEN11:25 · 04·23
英国50万人医疗数据在中国网站出售
英国生物样本库(UK Biobank)发现,一份包含50万人医疗数据的信息被挂在中国网站上出售。阿里迅速删除了相关商品链接。50万这个数字说明数据量很大,但正文没披露卖家是谁、要价多少、数据是怎么泄露的,以及具体涉及哪些字段(比如基因、病史还是影像)。这点先别太激动,目前只能确认有人试图卖,不能确认数据真实或完整。
#UK Biobank#Alibaba#Incident#Safety/alignment
精选理由
HKR-H靠50万条医疗数据挂售这个事件钩子通过。HKR-K和HKR-R不通过,因为故事只确认了规模和下架动作,卖家、泄露路径、受影响字段以及任何直接的AI模型或产品关联都缺失,所以分数低于40,被排除。
一句话点评
英国生物样本库50万人医疗数据被挂在中国网站叫卖,包含基因、体检等敏感信息。FT报道但正文被付费墙挡住,没披露数据量、售价、卖家身份。HN讨论提到可能是旧数据或爬虫抓取,这点先别太激动。关键缺口:数据真实性未验证,泄露途径不明,是否涉及内部人员或第三方漏洞未知。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R0
11:09
51d ago
机器之心 · 公众号· rssZH11:09 · 04·23
DeepSeek 启动 Tile Kernels 和 DeepEP V2 更新
标题说 DeepSeek 最近更新变勤快了,提到了两个项目名:Tile Kernels 和 DeepEP V2。但正文只有微信验证页,没披露发布时间、更新频率、代码链接或具体技术改动。目前能确认的就这两个名字和“更新更频繁”这个说法。
#Inference-opt#Tools#DeepSeek#Product update
精选理由
这篇实际是标题党:正文无法访问,唯一能确认的事实是 DeepSeek 有两个项目名和一句“开始频繁更新”。HKR 里 H 靠项目名勉强成立,K 和 R 都失败,所以重要性上限被压在 40 以下,最终 34 合理。
一句话点评
DeepSeek 开源了 Tile Kernels 和 DeepEP V2,前者优化 GPU 计算效率,后者提升专家并行通信。Reddit 原文被屏蔽,具体细节只能看机器之心。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R0
11:00
51d ago
FT · 科技· rssEN11:00 · 04·23
碳移除市场能跟上AI的用电增长吗?
一家大型碳移除供应商的CEO说,买碳信用的客户已经不限于科技巨头了,文章标题把这事和AI boom挂钩。但正文被付费墙挡住,没披露供应商名字、需求增速、碳信用单价或合同量。核心问题其实是:AI拉高用电和碳排放之后,碳移除的供应端能不能跟上。这点先别太激动,因为全文没有给出任何可验证的数字,连这家供应商是谁都不知道。
#Commentary
精选理由
标题把碳移除需求和AI热潮挂钩,这个张力本身值得点开。但正文只有RSS摘要,没披露供应商名称、需求增速、信用价格和具体采购规模,信息缺口太大,无法判断市场是否真的在加速。AI用电和排放是行业真痛点,碳移除供给能否跟上直接影响企业碳中和成本,读者会关心。按硬排除规则6(关键信息缺失),这条只能标记为excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
10:04
51d ago
● P1FT · 科技· rssEN10:04 · 04·23
DeepSeek 首次寻求融资,估值冲到 200 亿美元,主要为了留住被挖角的研究员
DeepSeek 正在启动第一轮外部融资,目标估值约 200 亿美元。核心目的不是缺钱扩张,而是用更高的股权激励来对抗竞争对手对核心研究员的挖角。FT 的报道提到此前已有人员流失,但正文没披露具体融资金额、投资方名单和流失人数。这个估值放在还没拿过外部钱的 AI 公司里算很高,但信号很直白:人才争夺战里,光靠技术理想留不住人,得靠真金白银的股权。
#DeepSeek#Funding#Personnel
精选理由
我会先打个折:正文没披露融资规模、投资方和具体离职人数,所以估值数字本身先别太激动。真正值得盯的是人才防守这个角度——DeepSeek 把首次融资直接和阻止研究员跳槽挂钩,说明内部人才流失压力已经大到需要靠估值来筑墙。这点对从业者比估值更有信号意义,因为前沿模型竞争拼的就是那几十个核心研究员。
一句话点评
FT 这篇正文被付费墙挡住了,只看到标题。DeepSeek 想靠 200 亿美元估值来防止员工被挖,这个数字和动机先打个折看。
锐评
标题透露了两个关键信息:一是 DeepSeek 正在寻求一轮约 200 亿美元的估值,二是这轮融资的直接目的被描述为“阻止员工被挖角”。如果这个估值属实,说明资本市场对这家中国 AI 公司的技术能力和商业前景给出了很高的定价,但正文没披露具体投资人、融资轮次和资金用途,没法判断是战略融资还是纯财务投资。 把融资和“防挖人”直接挂钩,在 AI 圈并不常见。通常公司会通过提高薪酬、给期权或技术壁垒来留人,很少把整轮融资的叙事押在员工留存上。这背后可能意味着 DeepSeek 核心团队正面临非常激烈的人才争夺,尤其是来自字节、阿里等大厂的挖角压力。但正文没提供离职率、关键岗位流失情况或竞业条款细节,这个因果关系暂时只能当标题党看待。 还缺几个关键信息:200 亿估值对应的营收或用户数据是什么水平?这轮融资是纯现金还是附带资源置换?以及,DeepSeek 目前的开源模型商业化路径是否清晰,能不能撑起这个估值。这些 FT 正文可能都有,但付费墙挡住了,建议找原文核实。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
10:00
51d ago
OpenAI 博客· rssEN10:00 · 04·23
Codex 设置指南:个性化、防休眠、权限控制
OpenAI 发了一篇 Codex 的设置教程,主要讲三块:个性化(像 ChatGPT 一样调语气、加自定义指令)、防休眠(跑长任务时电脑别自动睡眠)、以及显示详细程度(默认模式少刷屏,编码模式会打出具体命令)。还提了可以拖个小头像到屏幕上,边干别的边看它跑。正文没披露支持哪些 Codex 版本、默认值是什么、权限边界在哪——所以如果你想知道“默认防休...
#Agent#Tools#OpenAI#Codex
精选理由
这是 OpenAI Codex 的文档级更新:文章确认了任务运行和工作流控制的三个设置类别——个性化、细节级别和权限。HKR-K 通过,但 HKR-H 和 HKR-R 较弱;支持的版本、默认值和权限边界未披露。
一句话点评
OpenAI 发了一篇 Codex 设置教程,教你怎么调个性化语气、防休眠、改显示详细度。纯操作指南,没提任何新功能或技术细节。适合刚上手的人看,老用户可以直接跳过。
锐评
OpenAI 这次只公布了 Codex 的 3 类设置,正文却没给支持版本、默认值、权限边界。信息量很有限,所以我先下一个直接判断:这条更像把 agent 产品做成“可治理软件”的补课,不是 Codex 能力突然上了一个台阶。 我这么看,原因很简单。对做 agent 的人来说,“个性化、细节级别、权限”这 3 个旋钮,决定的不是模型分数,决定的是系统能不能进团队流程。个性化影响提示词漂移和输出风格。细节级别影响 token 成本、日志可读性和审查负担。权限设置更硬,关系到读仓库、跑命令、调外部工具、写回结果这些动作能不能被约束。标题已经给出 3 类设置,正文没披露默认值,也没说权限是 allowlist、scope 还是逐步升级授权。我不想替它脑补,因为这里每一项都直接关系到企业敢不敢开。 这条让我想到 Anthropic 去年到今年那条线:Claude Code 之所以被工程团队认真对待,不只是模型写码强,而是它把 shell、文件、网络这些能力的边界讲得相对清楚。GitHub Copilot 往 agent 走时,也在拼命补审批流、仓库权限、审计痕迹。行业已经验证过一件事:代码 agent 的天花板不先卡在模型,而是先卡在权限模型和失败回滚。OpenAI 现在开始单独写 Codex settings,至少说明他们知道产品已经不是“给你一个会写代码的聊天框”那么简单。 但我对这条叙事还是有保留。只讲“可以配置权限”远远不够,关键是权限在什么粒度生效。是按任务生效,还是按工作区生效。是只限制工具调用,还是连上下文注入都限制。有没有默认拒绝。有没有执行前确认。有没有审计日志。RSS 摘要一个都没给。说实话,我对很多厂商写 agent 设置页都有点警觉,因为最容易被包装成“可控”的,恰好是最需要细节证明的部分。没有默认值,你就不知道产品到底偏保守还是偏激进。没有权限边界,你就不知道它是在做治理,还是只是在 UI 里加了几个开关。 还有一个上下文,文章里没有,但做平台的人会很在意:一旦设置项开始增多,产品就在从“单次交互”转向“可复用工作流”。这通常是好事,也通常带来新问题。设置越多,团队模板、项目级 preset、管理员策略、个人覆盖这些层级就会冒出来。Slack、GitHub Actions、Cursor 这类工具都走过这条路:先给个人开关,后面就得补组织治理。不然同一个 agent 在不同开发者机器上表现不一致,排障会非常痛苦。OpenAI 这次如果只是先把个人设置讲清,还算起步;如果它已经有团队级策略,但正文没写,那信息缺口就更大了。 我的推断很克制:OpenAI 在 Codex 上开始补“设置层”,说明他们想把 agent 从 demo 感产品,往长期驻留的工程工具推。这个方向我认。但在没有默认值、支持版本、权限粒度之前,我不会把它当成企业可用性的实质升级。标题给了框架,正文没给牙齿。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
10:00
51d ago
OpenAI 博客· rssEN10:00 · 04·23
Codex 插件和技能:让 AI 连工具、走流程
OpenAI 发了一篇 Academy 教程,讲 Codex 的两个功能:插件(plugins)让 AI 连上 Google Drive、邮箱等外部工具取数据;技能(skills)让 AI 按你团队固定的步骤干活,比如写周报、审品牌文案。操作上,点左上角选插件或技能库,调用时在对话里打 $ 加名字就行。正文没披露支持哪些具体工具、权限怎么设、要不要额外...
#Agent#Tools#Commentary
精选理由
正文像一份简略的产品文档:没披露支持的插件类型、配置流程、权限模型、价格或实测结果。标题里的“自动化任务”听起来厉害,但执行机制、工具接入方式、数据访问边界全没讲。对从业者来说,信息缺口太大,不值得作为新闻跟进。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R0
07:55
51d ago
r/LocalLLaMA· rssEN07:55 · 04·23
Qwen3.6-27B 被一个人说能写代码,但只测了一次
Reddit 用户把 Qwen3.6-27B 接进 opencode,完成了一个 Svelte 5 的编码任务。样本量只有 1,而且用户说它比付费的 OpenAI API 慢。正文没透露用了什么提示词、跑了多久、延迟多少,也没有可复现的评测。这不算基准测试,只是一次个人体验——在 OpenAI 反复出错之后换模型试了一把。
#Code#OpenAI#Commentary
精选理由
这是一条单人编码体验,不是可复现的评测。HKR-R落在成本替代问题上,但HKR-H和HKR-K不成立,因为标题钩子单薄,帖子又没交代提示词、环境、延迟和评分细节,所以只能给all,不能上featured。
一句话点评
标题说Qwen3.6能写代码,但正文被Reddit屏蔽了,看不到任何实测或数据。目前只有标题一个信息点,没有样本量、基准分数或对比模型,无法判断是真强还是标题党。建议等第三方跑分或开源后实测再下结论。
锐评
这条帖子只给出 1 次成功样本。我的判断很直接:它证明了本地 27B 模型已经能接住一部分日常编码流量,没证明 Qwen3.6-27B 在代码能力上追平了付费 OpenAI API。 正文只有四个关键信息:OpenAI 当晚第 5 次报错、Qwen3.6-27B 接进了 opencode、做了 1 个 Svelte 5 任务、作者主观判定“Perfect result”。提示词没给,仓库规模没给,工具调用有没有开没给,运行硬件没给,耗时只说“更慢”,慢多少也没给。材料到这一步,其实连最基本的复现都做不了。你没法区分这是模型真会写 Svelte 5,还是任务刚好落在模板分布里,也没法知道 opencode 在中间做了多少补偿。 我对这种帖子一直有点警觉,因为 coding 体验最容易被“服务可用性”偷换成“模型能力”。如果 OpenAI API 连续 5 次报错,那比较对象已经不是最强输出,而是“能不能先把活干完”。这对本地模型是实打实的机会。去年很多团队评估代码 agent 时,最后留下来的首要指标都不是 benchmark 分数,而是失败率、重试次数、平均完成时间。我自己没看到这条里任何一项。只有 N=1 的成功案例,离工程采购结论还差很远。 文章外的上下文也很重要。Qwen 系列过去一年在开源代码任务上一直进步很快,尤其是 14B、32B 这个量级,经常能在单轮补全和轻 agent 场景里打到“够用”。但“够用”跟“替代付费 API”是两回事。闭源 API 的优势从来不只是一条 benchmark 曲线,还包括延迟、并发、工具调用稳定性、长上下文回收、故障恢复。这条帖子自己都承认更慢,那它更像成本敏感场景下的备用线路,不是主线路已经切换完成。 我还不太买账“the next 12 months will be quite interesting”这种泛判断。说真的,接下来更具体的问题只有两个:第一,Qwen3.6-27B 在公开代码集上到底多少分,像 SWE-bench、Aider polyglot、或 repo-level agent 任务有没有结果;第二,本地部署在什么硬件上能把延迟压到团队可接受范围。标题给了“can code”,正文没披露这两件最关键的事。没有这些,结论只能收在一句:开源模型已经足够当备胎,有时还能把单子接住;离稳定替代 OpenAI API,还差一整套可复现证据。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K0·R1
04:10
51d ago
● P1新智元 · 公众号· rssZH04:10 · 04·23
踏石智航拿了4.55亿美金Pre-A轮,红杉和高瓴一起领投
踏石智航在4月16号宣布完成4.55亿美元Pre-A轮融资,红杉中国、高瓴创投和美团联合领投。这笔钱创下了国内具身智能单轮和Pre-A轮融资的纪录。公司说他们的AWE3.0四模态模型把没见过视角的任务成功率提升了3倍,执行抖动降低了约45%,A1机器人还拿了个一小时完成亚毫米线束组装的吉尼斯纪录。不过正文没披露估值和具体交易条款,模型、数据和实际部署能...
#Robotics#Multimodal#它石智航#Sequoia China
精选理由
这条我会先打个折,因为所有关键指标都是公司自己说的,正文没披露本轮估值和具体交割条件,外部验证也缺。但4.55亿美金这个数本身就够硬,红杉高瓴联手领投在具身智能里不常见,AWE3.0给的3倍成功率和45%抖动下降如果是真的挺省钱,A1那个吉尼斯纪录也说明在往工厂场景走。所以HKR三条都过,分数维持83,不升P1就是因为信息源单一,等第三方复现或估值细节出来再调。
一句话点评
正文被微信环境验证挡住了,实际内容没读到,标题里的4.55亿美金和红杉高瓴联手先打个折看。
锐评
这条新闻的标题信息量其实就一句话:红杉和高瓴罕见地一起投了4.55亿美金给一家做“大脑”的公司。但正文因为微信环境验证完全没加载出来,所以没法确认这个“大脑”具体指什么——是类脑芯片、大模型基础设施,还是某种新的计算架构,正文没披露。4.55亿美金这个数字放在AI赛道里算头部量级,能同时拉来红杉和高瓴,说明标的在商业化或技术壁垒上有让两家都认可的东西。不过目前能做的判断很有限,缺的信息太多:公司名字、产品形态、团队背景、估值逻辑,全都没有。这条先当个信号看,别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
04:10
51d ago
● P1新智元 · 公众号· rssZH04:10 · 04·23
浙大开源多智能体叙事系统 OpenStory:把孙悟空扔进大观园,几分钟后角色全跑光了
浙大放出了一个叫 OpenStory 的多智能体系统,专门用来跑开放剧情。他们搭了个 1:1 的《红楼梦》大观园沙盒,把孙悟空塞进去当变量。结果几分钟内,记忆模块就把“孙悟空滥杀无辜”这条信息广播了出去,恐惧直接压过了角色的日常行为逻辑。王熙凤被物理移除后,恐慌连锁反应让整个大观园变成了空城。这个实验暴露的是多智能体系统里记忆和共识链路有多脆。不过正文...
#Agent#Memory#Safety#Zhejiang University
精选理由
我会先打个折:正文没写用了什么模型、怎么评测、实验能不能复现,所以别急着把它当成熟系统看。但这个故事本身很直观——孙悟空 Agent 被放进《红楼梦》1:1 数字沙盒,系统用记忆模块向所有活跃角色广播“孙悟空滥杀无辜”,恐惧权重直接压过日常行为逻辑,王熙凤被物理移除后,其他 Agent 集体逃离,大观园变空城。真正值得盯的不是孙悟空有多强,而是记忆广播和共识链路太脆弱:一条消息就能让整个 Agent 社会崩掉,说明多 Agent 之间的信息传递和信任机制几乎没有韧性。对做 Agent 安全、多智能体协作的人来说,这是一个很具体的压力测试案例,暴露了...
一句话点评
标题很热闹,但正文被微信环境验证挡住了,实际技术细节和评测数据都没看到,先别太激动。
锐评
这条消息目前只能看个标题,正文因为微信的环境验证完全无法访问。标题里提到浙大开源了一个多智能体演化系统,用《红楼梦》和《西游记》的角色做了演示,听起来像是让不同小说里的 AI 角色在一个虚拟世界里互动、演化出剧情。这种跨作品角色扮演的玩法在学术 demo 里挺抓眼球,但正文没披露,我们不知道这个系统到底解决了什么技术问题——是让多个智能体更稳定地协作,还是单纯做了个有趣的交互实验。开源代码和论文链接也没法确认,没法判断它的泛化能力、资源消耗或者跟现有框架的对比。如果后续能拿到论文,我会重点看它的演化机制是规则驱动还是模型自主决策,以及有没有定量的稳定性或任务完成率指标。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
04:10
51d ago
● P1新智元 · 公众号· rssZH04:10 · 04·23
Anthropic 在私募二级市场报价冲到 1.05 万亿到 1.15 万亿美元,首次超过 OpenAI 的约 8800 亿美元
这个数字来自私募二级平台(比如 Forge Global)上的报价,不是新一轮融资估值。三个月前 Anthropic 的融资估值还是 3800 亿美元,现在二级市场直接翻了三倍左右。市场给出的理由是流通股少、Claude Code 和收入增长势头猛。但正文没披露实际成交量、具体收入数字,也没公司官方确认,所以这个万亿身价更像少数交易撑起来的价格,先别太当真。
#Code#Agent#Anthropic#OpenAI
精选理由
我会先打个折:这不是官方融资估值,而是私募二级平台的报价,成交量、收入规模和公司确认都没披露,所以别太激动。但信息本身有嚼头——它把 Anthropic 从三个月前 3800 亿的融资估值直接拉到万亿级别,背后是流通股少、Claude 产品势头和投资者情绪在起作用。对从业者来说,这更像一个市场温度计,而不是一张成绩单。
一句话点评
这条消息来自一篇被微信环境验证拦截的文章,正文内容完全没读到,标题里的“万亿美元估值”和“超越OpenAI”目前无法核实。
锐评
标题说 Anthropic 估值突破万亿美元并首次超过 OpenAI,但点进去只看到微信的“环境异常”验证页面,正文一个字都没披露。没有融资轮次、投资方、估值计算方式,也没有对比 OpenAI 最新估值的数据来源。这种标题很容易让人以为是里程碑,但信息缺口太大:是新一轮融资推高的估值,还是二级市场交易价格?对比的 OpenAI 估值又是哪个时间点的?这些关键事实全缺。在没看到可靠信源和具体数字前,这条只能当传闻看,别急着下判断。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
04:07
51d ago
● P1纽约时报中文网· rssZH04:07 · 04·23
Anthropic 造了个能找软件漏洞的模型 Mythos,现在只给美国用,连盟友都急了
Anthropic 发布了一个叫 Mythos 的模型,专门用来发现银行、电网和政府软件里的隐藏漏洞。公司说它太危险,不能公开,目前只跟美国 11 家科技公司和 40 多家关键基础设施机构共享,海外只有英国拿到了访问权。英国安全研究所的测试证实,Mythos 能完成以前任何 AI 都做不到的复杂网络攻击。欧盟、德国等盟友还没拿到模型,只能干着急;中国和...
#Safety#Code#Benchmarking#Anthropic
精选理由
这篇不是常规模型发布,更像一次准地缘政治的网络能力管制实验。Anthropic 把 Mythos 圈在极小范围,只给美国及英国部分机构用,还拉上 11 家合作方修漏洞,说明他们自己都怕这东西被滥用。正文没披露具体评测方法和基准分数,所以“比核弹还糟糕”这种说法先打个折,但 18 个月内类似能力扩散的预估值得盯紧。
一句话点评
Anthropic 造了个能自动找系统漏洞的模型 Mythos,但只给英美看,其他国家连评估资格都没有,这比模型本身更像地缘政治武器。
锐评
这条新闻的核心不是 Mythos 的技术有多强,而是它被当成战略资产在分配。Anthropic 自己说模型“太危险不能广泛发布”,但转头就点名了 11 家美国合作方,外加一个英国。英国安全研究所的独立评估证实了它的网络攻击能力确实前所未有,但正文没披露具体测试了哪些系统、成功率多高,也没说误报率。 加拿大财长把它比作霍尔木兹海峡被关,英国央行行长说它“撕开了整个网络风险世界”,这些措辞很重,但都来自没拿到模型的国家,更像在施压要权限。欧盟见了三次面还没谈拢怎么给模型,德国安全局长只能飞去旧金山聊,这本身就说明规则完全由一家公司单方面定。 对中国和俄罗斯来说,最扎心的不是模型本身,而是美国通过芯片管制和这种选择性分享,正在把 AI 领先变成一种可以卡脖子的基础设施霸权。正文没提 Mythos 的参数量、训练成本或推理延迟,也没说它发现的漏洞是零日还是已知漏洞的变种,这些信息缺口让“比核弹还糟糕”的判断暂时只能打对折。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
04:00
51d ago
FT · 科技· rssEN04:00 · 04·23
私募股权公司向 OpenAI 和 Anthropic 示好
标题说私募股权公司正在向 OpenAI 和 Anthropic 示好,但正文被付费墙挡住,没有披露具体是哪家私募、交易规模或结构。唯一确认的信息是目标公司是这两家 AI 公司;至于交易是二级股票、可转债还是新股,都没有说明。
#OpenAI#Anthropic#Funding#Commentary
精选理由
FT这条标题有H和R,因为私募同时盯上两家实验室,说明资本市场的玩法在变,大家会讨论。K不成立:没披露机构名称、规模、估值、是二级份额还是新一轮股权,所以这条归all,不上featured。
一句话点评
FT爆料私募向OpenAI和Anthropic示好,但全文被付费墙挡住,没披露具体哪家、多少钱、什么结构。
锐评
标题说私募在追OpenAI和Anthropic,但正文只有付费墙,连是哪家私募、交易是二级股票、可转债还是新股都没说。唯一确认的是目标公司。这类消息通常意味着AI头部公司估值还在涨,私募想上车。但信息缺口太大——没有金额、没有估值、没有交易结构,没法判断是战略投资还是财务套利。如果真是大额私募进场,可能说明这些公司离IPO还远,需要更多长期资本。但正文没披露任何细节,建议等FT出全文或找其他信源交叉验证。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
04:00
51d ago
FT · 科技· rssEN04:00 · 04·23
共和党高层要求党内避开一个3亿美元AI游说团体
一位资深共和党人正在推动党内与一个3亿美元规模的AI游说团体保持距离。文章被付费墙挡住,正文没披露这位议员的名字、游说团体的具体身份以及政策争议点。信号是党内对AI政策的立场分歧,但可见信息太少,没法深读。
#Policy#Commentary
精选理由
HKR-H靠标题的党内vs游说团体冲突和3亿美元金额通过。HKR-K和HKR-R都因为正文被墙,关键信息缺失,所以只能给all,不能上featured。
一句话点评
共和党高层呼吁党内抵制AI行业3000万美元的政治游说,认为这会削弱对大型科技公司的监管。正文被付费墙挡住,没披露具体是哪位高层、针对哪些AI公司、以及他主张的替代监管路径。这件事本身说明AI在华盛顿的游说规模已经大到让保守派内部开始分裂,但缺少细节就没法判断这是一次政治表态还是真有立法动作。
锐评
一名共和党高层推动党内避开一个3亿美元AI游说团体,这个动作先说明一件事:AI 在华盛顿已经不是“科技公司去游说政府”,而是党内各派开始争夺谁代表行业。标题给了金额和党内对抗,正文没披露该人士姓名、团体名称、政策分歧,也没给时间线;信息缺口很大,细判断现在做不了。 我对“3亿美元”这组数字很敏感。单看规模,它已经不像传统单议题倡议组织,更像要长期塑造立法口径、联邦采购、州级规则和竞选捐助的组合盘。回想 2023 到 2025 年,美国 AI 政策博弈大多还是公司 CEO 直接进国会听证,或几个大厂围着安全、版权、开源门槛各说各话。现在如果共和党内部都开始出现“别靠这个 AI 金主团”的公开劝阻,说明利益切口已经从“要不要监管”变成“谁来写监管”。 我也不太买账标题里可能暗含的道德戏码。党内人物反对某个游说团体,不等于他反对行业绑架政策;也可能只是反对这笔钱流向别的派系。没有正文,我没法判断这是鹰派安全路线、反大厂路线,还是单纯派系斗争。说实话,眼下最重要的信息反而缺了:这个3亿美元是承诺额、募资目标,还是已部署资金;差别非常大。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R0
04:00
51d ago
FT · 科技· rssEN04:00 · 04·23
量化先驱警告:别把交易全交给AI
量化投资先驱Martin Lueck公开表态,反对把交易决策完全交给AI。FT这篇报道标题很抓人,但正文被付费墙挡住了,没披露具体案例、模型、亏损金额或市场范围。目前能确认的只有FT把这事包装成一位量化老将的警告,但从业者想验证这个判断,缺证据。
#Martin Lueck#Financial Times#Commentary
精选理由
HKR-H靠反直觉标题过关:量化老兵说别把交易交给AI。HKR-K直接挂掉,因为付费墙后面的正文没给出任何案例、亏损数字、模型或市场信息,按硬性排除-零来源处理,所以tier=excluded,分数压在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
03:54
51d ago
彭博科技· rssEN03:54 · 04·23
特斯拉在华高级辅助驾驶再次跳票
特斯拉又推迟了在中国上线最先进辅助驾驶功能的时间。正文没披露具体是哪个功能、原定上线日期和新的时间表。真正信号是监管节奏,不是“又”字本身。
#Robotics#Safety#Tesla#Product update
精选理由
硬排除-老调重弹:又是一次推迟报道,没有新功能细节或时间表。HKR-H 靠特斯拉-中国-监管的钩子通过,但 HKR-K 因缺少具体信息不通过,重要性低于 39 分上限。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H1·K0·R0
03:22
51d ago
彭博科技· rssEN03:22 · 04·23
AI 热潮把中国光模块股票买成了最拥挤交易
投资者押注 AI 对光模块的需求会带动中国光学股继续跑赢大盘。正文只给了这个需求逻辑,没披露具体公司、涨幅、估值区间或时间窗口。关键要看订单能不能落地,别光信情绪。
#Inference-opt#Tools#Bloomberg#Commentary
精选理由
只有HKR-H命中:AI交易轮动到中国光学股这个钩子成立。HKR-K和HKR-R都落空,因为摘要没给公司名、股价变动、估值范围或订单数据,读者没法判断这波是基本面还是情绪先跑。
一句话点评
彭博报道称AI热潮正推动中国光学股成为热门交易,但正文被墙,实际内容不可见。无法确认具体是哪几只股票、涨幅多少、交易量变化。如果真是资金涌入光学赛道,逻辑可能是光模块、光芯片受益于算力基建需求。但这点先别太激动,来源受限,信息缺口大,建议等可读版本或找其他信源交叉验证。
锐评
Bloomberg 这条只给出一个事实:投资者正买入中国光学股,前提是 AI 光学需求继续上升。标题给了方向,正文未披露公司名单、股价涨幅、估值区间、订单周期。这种信息密度,只够支持“情绪在前”,不够支持“基本面已兑现”。 我对这类交易的直觉一直很简单:先看光模块代际,再看谁能吃到订单。过去一年市场反复围绕 800G、1.6T、CPO 轮动,A 股和港股里只要沾到数通光器件,估值就容易先抬。问题是,AI 集群扩容带来的是链路带宽需求,不是所有“光学”都会等比例受益。DSP、EML、硅光、封装良率、客户认证节奏,卡住任何一环,收入确认都会往后推。标题没给这些条件,我不会直接买“下一阶段龙头”这套说法。 外部参照也摆在那儿。2024 到 2025 年,美股里跟 AI 光互连最强绑定的,很多时候不是最会讲故事的公司,而是先拿到 hyperscaler 订单、并把 800G 出货做成财报数字的公司。我记得 Coherent、Lumentum、Credo、Marvell 都在不同阶段被资金拿来映射 AI 网络升级,但股价和订单兑现并不同步,指引一弱就回撤。中国光学股如果这次也被当成“AI 基建下一棒”,那先问两个问题:订单来自北美云厂,还是来自国内训练集群;ASP 和毛利率有没有跟着代际升级一起抬。标题没说,正文也没说。 我还想泼点冷水。中国光学链条的交易弹性很大,这没错;但弹性大,不等于护城河厚。很多公司历史上都吃过一轮高景气,再被价格竞争和客户切换打回去。AI 现在把需求曲线拉陡了,市场就容易把“短期缺货”当成“长期定价权”。这个说法我不太买账,除非后面能看到三类硬数据:一是 800G/1.6T 产品的季度出货;二是北美大客户或头部国内云厂的认证进度;三是毛利率在放量后没有被价格战打穿。现在只有标题信息,我最多承认这是一笔顺着 AI 互连瓶颈做的交易,不承认它已经是基本面共识。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R0
03:07
51d ago
r/LocalLLaMA· rssEN03:07 · 04·23
Qwen 3.6 27B 干活太主动,用户得手动叫停
Reddit 用户发帖说,他在用 Qwen 3.6 27B 重构旧项目时,模型自己不停地写代码、跑测试,他不得不打断好几次。用户还开玩笑说“前任因为偷懒被干掉了”,模型居然在日志里回了一句“他们觉得我太积极了”。帖子只有一张截图和一段描述,没有跑分、没有完整工具链配置,也没说具体用了什么 agent 框架。UI 上标的“Qwen 3.6-35B on ...
#Agent#Code#Tools#Qwen
精选理由
HKR-H 落在“不得不手动叫停”这个钩子上,HKR-R 落在代码 agent 的控制权是当前工作流的真实痛点。HKR-K 不成立:这只是一条 Reddit 个人体验加一张截图,没有基准、工具链、任务规模或可复现的设置,所以整体维持 58 分。
一句话点评
Qwen 3.6 27B 在 agent 任务上表现惊人,Reddit 用户称“从没见过这么愿意干活的模型”。但正文完全没披露测试场景、工具调用次数或成功率,也没说跟谁比。如果真能在本地跑 27B 模型完成多步 agent 流程,成本确实低,但这点先别太激动——缺验证。
锐评
这条我先不买账。Reddit 用户给出的核心事实只有一条:Qwen 3.6 27B 在旧项目重构里反复自行构建和执行,用户多次手动叫停。问题是,正文没有披露工具调用权限、自动批准规则、系统提示词、最大迭代步数、失败重试策略,也没有给出仓库规模、测试覆盖率、运行环境。少了这些,所谓“特别愿意干活”很难归因到模型本身。 我更倾向把它看成 agent runtime 和模型行为风格碰到了一起。很多本地 coding agent 一旦给到 shell、test、edit 三件套,再配上 auto-continue 或默认重试,模型就会显得“停不下来”。这不稀奇。去年到今年,社区里已经反复见过类似现象:同一个底模,放进 OpenHands、Aider、OpenCode、Continue 或 Cursor 风格循环里,主动性会差很多。我自己没跑过这条里的 opencode 配置,但从经验看,70% 的“自主性惊喜”都先该查 orchestration,不是先夸 base model。 还有个细节我很在意:作者自己说界面里显示的“Qwen 3.6-35B”只是没改名字。这一下就把可复现性继续往下拉了。连前端标签都错,量化版本、采样参数、上下文长度、工具模板有没有改,都成了悬案。标题给了 27B,正文截图却是 35B 名称残留,这种材料最多算使用者轶事,离能力判断还差很远。 说真的,Qwen 系列最近一年的风格确实常被社区描述成“愿意继续试”。我记得 Qwen 2.5-Coder 和后面的 Qwen3 几个变体,就常被拿来和 DeepSeek、Codestral、部分 Llama 微调版比较,社区反馈里经常提到它更爱补步骤、更少直接放弃。但那类印象一旦进了 agent 环,就会被放大成另一回事:你看到的不是“更会做”,而是“更愿意一直做”。这两者差很多。前者靠 benchmark 能测,后者强依赖 runtime 约束,甚至会把 token 和工具成本一路烧上去。 我对这条最大的不适,在于它把失控边缘行为讲成了优点。用户明确说,模型多次做了他没要求的事,还得手动打断。对个人试玩,这很好笑。对正式开发流,这就有点不对劲了。一个会持续 build、test、modify 的 agent,如果缺少审批门槛、文件白名单、回滚策略,产出的不是“勤奋”,而是额外的审计成本。Anthropic、OpenAI 这两年在 coding agent 产品里都反复加确认点,不是他们不会做全自动,而是默认全自动很容易把局部修复变成全局污染。 所以这条能留下来的信号,不是 Qwen 3.6 27B 已经在代码代理上压过同级模型,而是社区对“高行动倾向”开始更敏感了。这个方向我认同,但这篇贴子没有给出能站住脚的证据。要让我信,至少得补四样:一,完整 prompt 和工具权限;二,仓库类型与任务定义;三,成功率和回滚次数;四,和 Claude Sonnet、DeepSeek、同尺寸 Qwen 旧版在同一 agent 框架下的对照。现在只有标题信息加一张截图,最多说明它触发了一次很好玩的 agent loop,不够说明模型能力排序。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
02:59
51d ago
r/LocalLLaMA· rssEN02:59 · 04·23
RTX 3090 vs Intel Arc Pro B70:同机器跑 llama.cpp,B70 慢 71%
Reddit 用户在同一台机器上分别用 RTX 3090 和 Intel Arc Pro B70 跑 llama.cpp 基准测试。处理 512 token 的 prompt 时,B70 平均比 3090 慢 71.1%。生成阶段(128 token)B70 用 Vulkan 后端比 SYCL 后端慢 160%,但全文被截断,没给出完整的生成平均速度。...
#Inference-opt#Benchmarking#Tools#Nvidia
精选理由
一个 Reddit 用户的单来源跑分,HKR-K 过关是因为给了同机器实测数字:71.1% 和 160.0%。HKR-R 也过关,本地推理读者确实关心显卡和后端选择。但 HKR-H 偏弱,tg128 均值还被截断了,所以留在 all 层。
一句话点评
这篇帖子标题是 RTX 3090 和 Intel Arc Pro B70 在 llama.cpp 下的跑分对比,但正文被 Reddit 屏蔽了,实际内容为零。没有数据、没有结论,连图都加载不出来。所以这条信息目前只有标题有价值——它提示有人在做这个对比,但结果未知。如果你关心 Intel 独显跑大模型的性价比,可以自己去搜原帖或等后续更新。目前没法判断谁赢,也别信任何转述。
锐评
这组测试先把一个残酷事实摆明了:Arc Pro B70 在同机 pp512 里平均落后 RTX 3090 71.1%。我对这条的判断很简单,这不是一张卡“差一点没调好”,这是 Intel 在本地推理生态里还没把执行路径做平。你看表就知道,B70 用 Vulkan 时多数模型都在 3090 的四分之一附近,SYCL 有些模型能救回来,像 gemma-4-E2B-it 提升 50.3%,Qwen3.5-4B 提升 23.5%,但另一些反而更差,Qwen3.5-35B 和 Qwen3.6-35B 都慢了 49.7%。同一张卡,同一个 benchmark,后端切一下就从加速变减速,这不是“略有波动”,这是栈还没收敛。 我对这贴最大的保留也在这里:它不是一个干净的 apples-to-apples 对比。3090 跑的是主线 llama.cpp 的 Vulkan。B70 的 SYCL 跑的是 Docker 里的 Ubuntu 24.04,加的是 aicss-genai 的 fork。也就是说,比较里同时混进了 GPU、后端、代码分支、运行环境四个变量。这个条件下,结论只能写成“今天普通人按这套装法跑出来会这样”,不能写成“B70 硬件就是比 3090 慢 71.1%”。更何况 3090 这里都没上 CUDA。熟悉 llama.cpp 的人都知道,Nvidia 在这个项目上的主场一直不是 Vulkan。我自己没复跑,但如果把 3090 换成 CUDA 路径,差距大概率只会更大,不会更小。 这也是 Intel 这两年的老问题。它每次进本地 AI 讨论,卖点都容易落到显存容量、价格、某些模型能装下,少数 workload 还能打出好看的比值;一到通用开源栈,开发者先撞上的还是后端成熟度。去年到今年,不管是 oneAPI、SYCL,还是各类社区适配,Intel 都不是完全不能用,而是“你得先接受路径很多、结果很飘”。这对折腾党没问题,对想把机器变成稳定生产工具的人就很致命。3090 这种老卡到 2026 还在被拿来当基线,原因不神秘:不是它新,而是 CUDA 这套东西把可预期性做出来了。 还有一个标题里没讲透、正文也被截断的点:tg128 后半张表没给完,所以生成阶段的均值正文未披露。现在只能确认单个例子里,Qwen2.5-Coder-7B 的 B70 SYCL 比 B70 Vulkan 快 160.0%。这个数字看着猛,我反而更警觉。为什么 prompt processing 里多数模型只差个位数到 50%,到 generation 某个模型就能跳到 160%?是 kernel 选型差异,还是 batch、KV cache、quant 配置碰到了特别吃后端的点?帖子截断后没有条件说明,我不买“SYCL 已经全面翻身”这种讲法。 所以这条我会这样读:它证明的不是 B70 完全没戏,而是 Intel 还没拿到“默认可推荐”的资格。要让本地开发者改口,下一步需要的不是再发一组单点跑分,而是在主线 llama.cpp、统一环境、统一后端选项下,把 pp 和 tg 两段都稳定拉到能和 3090 Vulkan 接近,最好再公开完整命令、驱动版本、offload 层数。现在这贴已经有价值了,它把问题钉在软件栈,而不是继续把锅含糊地甩给硬件。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K1·R1
02:45
51d ago
Latent Space· rssEN02:45 · 04·23
AI 新闻:有品味的 Token 最大化
Latent Space 总结了 4 月 21-22 日的 AI 新闻,覆盖 12 个子版块和 544 个 Twitter 账号。重点包括:阿里发布 Qwen3.6-27B,一个密集型的开源模型,在编程评测上击败了更大的 Qwen3.5-397B-A17B,并且支持视觉语言推理,社区迅速适配了 vLLM、Ollama 等工具。OpenAI 低调开源了一...
#Agent#Code#Multimodal#Latent Space
精选理由
Latent Space 这期周报选了个好角度——算力和 token 的性价比。Qwen3.6-27B、OpenAI 隐私过滤、小米多模态、Google TPU 8t/8i 这些名字都出现了,但正文基本是会议流水账,没展开任何一条的具体数字或实测。H 和 R 理由充分,K 太薄,所以总分压在 62 这个偏低区间。
一句话点评
阿里Qwen3.6-27B用27B参数在编程评测上赢了自家397B大模型,本地跑得动,值得一试。
锐评
阿里开源了Qwen3.6-27B,一个纯密集模型(不是MoE),Apache 2.0协议。亮点是27B参数在SWE-bench Verified(77.2 vs 76.2)和Terminal-Bench(59.3 vs 52.5)上超过了自家397B的Qwen3.5,成本低得多。还支持看图、视频推理。社区反应快:vLLM、Ollama、llama.cpp当天就适配了,Unsloth说18GB显存就能跑GGUF版。早期用户反馈不错,尤其前端和图像任务。但注意:评测集可能偏编程,其他任务(如数学、长文)表现未知;正文没披露训练数据、推理速度或具体硬件需求,本地部署的实际延迟和精度还得自己测。另外,OpenAI低调开源了一个Privacy Filter,但细节太少,没法判断实用性。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
02:02
51d ago
X · @op7418(歸藏)· x-apiZH02:02 · 04·23
Codepilot 0.53.0 接入了 GPT Image 2.0 图像模型
Codepilot 0.53.0 更新后支持 GPT Image 2.0 图像模型,官方和三方渠道都能用。另外 Nano Banana 2 也可以通过三方调用了。正文没披露 API 参数、定价、速率限制或上线时间,关键看三方路由会不会改变成本和配额结构。
#Multimodal#Vision#Tools#Codepilot
精选理由
一个常规的工具兼容更新。HKR-K 靠一条具体新事实通过:Codepilot 0.53.0 新增 GPT Image 2.0,并提到官方和第三方接入都可用;但 HKR-H/R 偏弱,因为价格、限制和 API 细节都没披露,所以留在 all。
一句话点评
短评:Codepilot 0.53.0 接入了 GPT Image 2.0,但正文没披露具体效果和成本,先别太激动。 点评:Codepilot 0.53.0 更新后直接支持 GPT Image 2.0 图像模型,相当于在代码补全工具里塞了个画图入口。但正文是空的,来源只有一条 RSS 摘要,没说明调用方式、生成速度、定价或是否支持批量出图。GPT Image 2.0 本身画质和指令跟随比 ...
锐评
Codepilot 0.53.0 已接入 GPT Image 2.0,正文只给出“官方和三方都可以”这一个条件。我的判断很直接:这条先看分发层,不先看模型层。图像模型接进去不稀奇,稀奇的是同一前端同时给官方与第三方通路,还顺手把 Nano Banana 2 也挂上第三方。这种更新通常不是在卷产品定义,而是在卷可用性、配额弹性和结算路径。 我对这类“已支持某模型”的公告一向比较保守。原因很简单,文章没披露 API 参数,没披露价格,没披露速率限制,也没披露图像尺寸、编辑模式、批量任务、失败重试这些实际决定体验的东西。没有这些信息,你没法判断它只是把模型名加进下拉框,还是做了完整适配。图像产品里,这个差别很大。只支持单轮出图,和支持参考图编辑、局部重绘、一致性角色、多图条件输入,工程价值完全不是一个量级。 说真的,我更在意“第三方可用”这句。过去一年不少 AI IDE、聚合器、模型市场都在走这条路:同一个 UI,后面挂多家 provider,把官方 API、代理渠道、区域转售混在一起给用户选。这样做的好处很现实。第一是可用区更灵活,某家限流时能绕过去。第二是账单更好看,尤其是面对中小团队,月费产品比按 token 或按图计费更容易卖。第三是地域问题能被部分中间层吸收。我没看到 Codepilot 这次披露任何成本结构,所以现在还不能下结论说它一定更便宜;但只要第三方通路存在,价格和配额就不再只由模型原厂决定,这才是这条更新的交易含义。 外部参照也很清楚。2024 到 2025 年,代码工具和多模型前端普遍从“绑定单一模型”转向“绑定路由能力”。Cursor、OpenRouter、一批国内聚合平台都吃到过这个红利:用户表面上在挑模型,平台实际上在卖可得性和切换成本。我印象里,很多团队最后留下来的原因不是某个模型绝对更强,而是故障时还能切、超额时还能补、报销时还能统一走一张单。我没核实 Codepilot 现在的后端结构,但如果它也往这个方向走,那它在卖的就不是 GPT Image 2.0 本身,而是“你不用自己管接哪家”。 我也有个明确的保留意见:图像模型一旦走第三方,能力一致性经常出问题。安全过滤、参数暴露、种子控制、返回格式、生成时延,都会因为中间层再包一层而变化。很多聚合接入会把原厂特性压平,最后只剩“能出图”,高级编辑能力却被吃掉。Nano Banana 2 现在也能走第三方,听着方便,但如果第三方没把上下文图、风格保持、批处理接口对齐好,用户看到的只是“能调用”,不是“能稳定工作”。这类差异,标题从来不会告诉你。 所以这条我不会高估。标题已经给出两件事:Codepilot 0.53.0 支持 GPT Image 2.0,且官方与第三方都可接;正文没有给出四个关键事实:价格、限制、参数、质量对齐。没有这四项,它还只是渠道层更新,不足以证明 Codepilot 在图像工作流上形成了新优势。要让我改观,至少得看到一组可复现信息:同一 prompt 下官方与第三方的出图耗时、失败率、单图成本,外加是否支持编辑类接口。没有这些,先把它当接入面扩张,别急着当产品跃迁。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
00:31
51d ago
● P1彭博科技· rssEN00:31 · 04·23
软银打算用持有的 OpenAI 股份做抵押,借 100 亿美元
软银在谈一笔 100 亿美元的贷款,抵押品是它手里的 OpenAI 股票。这属于保证金贷款,不是普通的公司债,说明软银在拿已有股权加杠杆继续押注 AI。正文没披露贷款期限、利率、抵押率,也没说这笔钱具体要花在哪。我会先打个折:100 亿这个数不小,但关键要看银行愿意按 OpenAI 估值打几折放款,这点目前还不清楚。
#SoftBank#OpenAI#Funding#Commentary
精选理由
彭博给的是一个具体的融资信号,不是泛泛的“看好 AI”。软银要用 OpenAI 股份质押借 100 亿美元,这件事本身比金额更值得盯:它说明软银在继续加杠杆押注 AI,也间接给 OpenAI 的估值提供了一个压力测试场景。我会先打个折——正文没披露贷款条件,所以没法判断这笔钱是便宜还是贵、风险敞口多大。但质押融资这个动作,比单纯宣布再投一轮钱更能反映资本层面的真实判断。
一句话点评
软银想用还没上市的 OpenAI 股票做抵押去借 100 亿美元,正文被付费墙挡了,具体利率和质押率都没披露。
锐评
这条消息的核心是软银在玩一种很新的杠杆:拿一家还没 IPO、估值极高但收入模式仍在爬坡的公司的股权去借钱。100 亿美元不是小数目,说明软银要么极度看好 OpenAI 的后续融资和上市前景,要么自己现金流吃紧,需要快速腾挪。但风险也在这——OpenAI 的估值很大程度建立在未来收入预期上,一旦市场情绪转向,质押的股票可能面临追加担保的压力。Bloomberg 的原文被付费墙拦住了,我们看不到贷款的具体条件,比如利率、贷款方是谁、质押率打了几折。这些数字才是判断这笔交易是激进还是稳健的关键。另外,OpenAI 对这笔贷款的态度也没披露,他们是否知情或同意这种股权质押安排,会直接影响后续的股权结构稳定性。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
00:00
51d ago
● P1OpenAI 博客· rssEN00:00 · 04·23
OpenAI 启动 GPT-5.5 生物安全漏洞赏金计划
OpenAI 搞了一个针对 GPT-5.5 的生物安全漏洞悬赏计划,想找能一次性绕过五道生物安全题的通用越狱提示词。测试只能在 Codex Desktop 上进行,成功者可以拿到 2.5 万美元,部分突破也可能酌情给点小奖。申请从 2026 年 4 月 23 日开放到 6 月 22 日,测试窗口是 4 月 28 日到 7 月 27 日。不过正文没披露具...
#Safety#Alignment#Benchmarking#OpenAI
精选理由
OpenAI 给 GPT-5.5 开生物安全漏洞赏金,HKR 三项全中:钩子够尖锐,2.5 万美元封顶是实打实的数字,生物风险红队测试也确实是行业敏感点。分数停在 80,因为摘要没披露报名条件、评测协议、覆盖范围和截止时间,这些缺口让我没法给更高。
一句话点评
OpenAI 悬赏 2.5 万美元找能一次性绕过 GPT-5.5 五道生物安全题的“万能越狱提示词”,测试仅限 Codex Desktop 版。
锐评
OpenAI 这次不是自己关起门来测,而是花钱请外部安全研究员来找 GPT-5.5 在生物风险上的漏洞。规则很直接:你要找到一个“万能越狱提示词”,在一个干净的对话窗口里,一次性让模型答对全部五道生物安全问题,还不触发内容审核。赏金 2.5 万美元,只给第一个做到的人,部分成功也可能给点小奖。 这个挑战的难度在于“万能”和“不触发审核”。它不是在测模型知不知道危险知识,而是在测防护层有没有一个通用缺口。测试范围限定在 Codex Desktop 版,说明这个版本可能开放了更多执行能力,风险更高。申请需要签保密协议,所有发现都不公开,这很符合安全漏洞赏金的行规,但也意味着外界看不到具体漏洞细节。 正文没披露这五道题具体是什么、难度如何,也没说 GPT-5.5 在内部测试中已经扛住了多少攻击。所以这个赏金到底是真难拿,还是 OpenAI 想借外部力量快速补漏,现在不好判断。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
00:00
51d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·23
Claude Design 和 Google DESIGN.md 到底是想取代设计师还是想取代码农
文章核心判断:在小公司和简单项目上,设计师和码农的岗位正在合并,而当前所有主流 AI 设计工具(Claude Design、Google DESIGN.md、Stitch、Lovable、Bolt、v0、Cursor)都默认让懂一点设计的码农取代只懂设计的设计师。Claude Design 的入口是对话框加 HTML 预览,目标用户是“非设计师”;Go...
#Code#Tools#Google#Figma
精选理由
HKR-H 和 HKR-R 靠“岗位合并”这个钩子过关,但 HKR-K 彻底失败:全文只有论点,没有数据、测试、定价、规格或工作流细节。按硬规则“零来源直接排除”,重要性压不到 40 以上,tier 定为 excluded。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
00:00
51d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·23
团队共享 AI skill 的原则:不强制统一,让共识自己浮出来
文章讨论团队共享 AI skill(即喂给 AI 的认知资产)时遇到的矛盾:个人视角有价值但会互相打架,统一版本又维护不起。作者提出不追求“一份权威版本”,而是让每个人维护自己的 skill 集合,放到共享池里,允许重复和矛盾。AI 定期扫描所有人的 skill,发现高度重合的内容就提示作者,但不强制合并。团队再维护一份 baseline INDEX ...
#Memory#Tools#Commentary
精选理由
有个可讨论的治理角度——团队共享 AI 技能但不设中央审核层,所以 HKR-R 保留。但文章没给例子、数字、失败案例或可复现的流程,触发硬性排除(零来源),分数压在 40 以下。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R1

更多

频道

后台