ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-04-28

109 items · updated 3m ago
RSS live
2026-04-28 · 星期二2026年4月28日
23:59
45d ago
Hacker News 首页· rssEN23:59 · 04·28
Claude Code 系统提示词 bug 导致用户多花钱、托管 agent 直接罢工
GitHub 上一个 issue 报告,Claude Code 的系统提示词存在回归 bug:每次执行 Read 操作都会弹一次恶意软件提醒,导致子 agent 反复拒绝执行任务。这个 bug 在 v2.1.92 修过一次,但 v2.1.111 又复发了。用户说这既浪费 token(多花钱),也让托管 agent 直接卡死。正文没披露复现步骤、影响范围...
#Agent#Code#Tools#Anthropic
精选理由
HKR-H 和 HKR-R 都成立:Claude Code 出 bug,用户多花钱、agent 挂掉,都是可讨论的痛点。HKR-K 不成立,因为复现步骤、影响范围和修复状态都没披露,信息不够支撑深度判断,所以保持 all 级别。
一句话点评
Claude Code 的 bug 让每次读文件都弹恶意软件警告,子 agent 反复拒绝干活,白烧 token 还卡死流程。
锐评
Anthropic 的 Claude Code 出了个回归 bug:系统提示词里写死了“每次 Read 操作都要提醒用户注意恶意软件”,结果子 agent 每次读到文件就触发警告,然后拒绝执行后续任务。这 bug 在 v2.1.92 修过一次,到 v2.1.111 又复发了。用户说这既浪费 token(多花钱),也让托管 agent 直接卡死。 问题在于系统提示词是硬编码的,改一次没锁住,下次更新又带回来了。正文没披露复现步骤、影响范围(是只影响特定文件类型还是全局)、以及 Anthropic 是否已确认修复时间。如果是高频 Read 场景(比如代码审查、批量文件处理),token 浪费会很快累积。这点先别太激动,因为 issue 只有 40 个 HN 点赞和 10 条评论,可能只是边缘案例。但回归 bug 本身说明测试流程有漏洞,尤其是这种影响成本的提示词逻辑,应该加自动化回归测试。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K0·R1
23:17
45d ago
The Verge · AI· rssEN23:17 · 04·28
马斯克庭审首日表现:准备不足,更像在闹脾气
马斯克诉奥特曼案开庭首日,The Verge 记者旁听后的评价是:马斯克表现平淡、缺乏准备,整场证词更像在发泄个人情绪,而不是在陈述有力证据。他反复强调自己早期对 OpenAI 的贡献,但正文没有披露他拿出了什么新证据或完整庭审记录。目前看,这场官司的走向还远没到能下判断的时候。
#Safety#Elon Musk#Sam Altman#OpenAI
精选理由
HKR-H 和 HKR-R 通过,因为 Musk 告 Altman 是能吸引点击的治理纠纷。HKR-K 不通过:文章只加了观察,没有新证据、裁决或庭审细节。
一句话点评
马斯克出庭像在发泄情绪,没拿出新证据,这场官司还早。
锐评
The Verge 记者旁听首日庭审后评价:马斯克表现平淡、缺乏准备,更像在发泄个人情绪而非陈述有力证据。他反复强调自己早期对 OpenAI 的贡献,但正文没披露他拿出了什么新证据或完整庭审记录。目前看,这场官司的走向还远没到能下判断的时候。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
23:01
45d ago
最佳拍档· atomZH23:01 · 04·28
扩散模型是怎么工作的:斯坦福CME296第一课
这是一节斯坦公开课,讲扩散模型的核心流程:从纯噪声一步步去噪生成图像。标题里列了高斯分布、方差调度、ELBO和KL散度这些数学工具,但正文没披露推导细节、讲师是谁、课时多长,也没有代码或课件链接。适合想理解扩散模型原理框架的人先看标题入个门。
#Multimodal#Stanford#Commentary
精选理由
这篇只有扩散模型的课程标题和关键词列表,ELBO/KL散度这种数学推导对多数读者没有入口,也没有具体成果或可复现的代码链接,信息密度低,可读性差,所以不推荐。
一句话点评
斯坦福公开课,讲扩散模型从噪声一步步去噪生成图像,适合入门框架。
锐评
这是一节斯坦福CME296公开课,标题直指扩散模型核心流程:从纯噪声去噪生成图像。列了高斯分布、方差调度、ELBO和KL散度这些数学工具,但正文没披露推导细节、讲师是谁、课时多长,也没有代码或课件链接。适合想理解扩散模型原理框架的人先看标题入个门,但别指望看完就能上手训练。信息缺口明显:没有实际案例或实验数据支撑,数学推导深度未知。如果后续课程能补上具体实现和调参经验,价值会更高。
HKR 分解
hook knowledge resonance
打开信源
34
SCORE
H0·K0·R0
21:00
45d ago
彭博科技· rssEN21:00 · 04·28
三星家族一年财富翻倍至450亿美元,AI热潮是主因
彭博报道,三星家族财富在一年内从约225亿美元翻倍至450亿美元,主要得益于AI硬件需求推高三星股价。报道提到李健熙2020年去世后的遗产税压力,以及李在镕2021年行贿定罪,但未披露具体哪些AI业务贡献了增长。正文被屏蔽,无法获取更多细节。
#Samsung Electronics#Lee Kun-hee#Jay Y. Lee#Commentary
精选理由
HKR-H 和 HKR-K 靠 450 亿美元一年翻倍这个数字通过。AI 关联停留在财富效应层面;正文缺少三星 AI 收入、HBM 订单或芯片业务拆分,所以只是低价值的财经周边。
一句话点评
三星家族财富一年翻倍到450亿美元,全靠AI硬件需求推高股价。
锐评
彭博这篇报道的核心事实很直接:三星股价涨了,李家财富跟着翻倍。但正文被屏蔽,我们看不到具体哪些AI业务贡献了增长——是HBM内存、代工订单还是设备?这点先别太激动。 关键数字:一年内从225亿到450亿美元,翻倍速度确实惊人。但彭博没披露遗产税实际缴纳了多少,也没说李在镕行贿定罪后对控制权的影响。如果遗产税压力大,李家可能被迫减持,这会稀释股价涨幅的实际收益。 还缺什么:三星AI业务的具体营收拆分、HBM产能利用率、以及李在镕的法律风险是否已解除。正文没披露这些,读者只能当个财富故事看,没法判断可持续性。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K1·R0
20:50
45d ago
彭博科技· rssEN20:50 · 04·28
Kalshi执法负责人讨论预测市场内幕交易监管问题
Kalshi 执法主管 Robert Denault 在 Bloomberg Crypto 上聊了预测市场里的内幕交易指控。这个市场背后是华尔街投资的数十亿美元产业,但正文没披露具体案件数量或执法手段。
#Kalshi#Robert Denault#Bloomberg#Policy
精选理由
HKR 的 H 通过,但 K 和 R 不通过:正文没给案件数量、执法机制或 AI 产品关联。对 AI RADAR 来说这是偏离主线的金融监管话题,所以分数低于 40 且被排除。
一句话点评
Kalshi执法负责人谈预测市场内幕交易监管,称其监控系统已能识别可疑交易模式。但正文被Bloomberg paywall挡住,未披露具体监控手段、覆盖范围或历史案例。关键信息缺口:系统是规则引擎还是模型驱动?是否覆盖所有市场参与者?有没有抓到过实锤?如果只是声明式表态,参考价值有限。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
20:30
45d ago
The Verge · AI· rssEN20:30 · 04·28
泰勒·斯威夫特用商标围堵AI模仿者
泰勒·斯威夫特团队上周提交了两份商标申请,把两句录音里的短语注册成商标。目的是多一个法律工具来对付AI伪造的声音和形象。申请用的是专辑宣传音频,但正文没披露审查要多久、胜算有多大。
#Audio#Safety#Taylor Swift#TAS Rights Management
精选理由
文章只给了 2 项商标申请和短语来源,没披露审查周期和胜算依据。这是 AI 音频/IP 的增量事件,不是产品发布或监管落地,信息缺口明显,先别太激动。
一句话点评
泰勒·斯威夫特把录音里的两句短语注册成商标,用来告AI伪造声音和形象。
锐评
泰勒·斯威夫特团队上周提交了两份商标申请,把两句录音里的短语注册成商标,目的是多一个法律工具来对付AI伪造的声音和形象。申请用的是专辑宣传音频,但正文没披露审查要多久、胜算有多大。 这招挺聪明:商标比版权好维权,不用证明对方“复制”了你的作品,只要证明对方用了相似标识造成混淆就行。但商标注册本身要几个月到一年,而且必须证明这些短语在商业中已经具备“识别来源”的功能——光靠一句歌词可能不够。 目前看,这更像一个信号动作:告诉AI公司“我会追到底”。但实际威慑力取决于审查结果和法院对AI生成内容是否构成商标侵权的认定,这两点都还没落地。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
20:26
45d ago
Hacker News 首页· rssEN20:26 · 04·28
朋友和AI一起写了个SGI Indy模拟器,用Rust
这个项目叫iris,是一个用Rust写的SGI Indy工作站模拟器。亮点是标题说“朋友和他的AI兄弟们”一起写的——也就是作者用AI辅助生成了大量代码。目前GitHub上31颗星、2个issue,但正文没披露模拟精度、依赖库或测试覆盖,所以实际能跑多好还不清楚。如果是真的能模拟老硬件,对复古计算爱好者来说挺有意思,但这点先别太激动,得等更多验证。
#Code#techomancer#Hacker News#Open source
精选理由
H和R勉强过关:标题有怪异的钩子,也碰了AI写系统代码的能力点。K不通过,因为正文没披露任何模型、提示词、模拟精度或可复现测试,只有两个链接,信息量不够支撑判断。
一句话点评
AI 写了个老工作站模拟器,但精度和测试都没说,先别太激动。
锐评
标题说“朋友和他的AI兄弟们”用Rust写了个SGI Indy模拟器,这本身是个噱头——AI辅助生成复古硬件模拟代码,对复古计算圈有吸引力。但正文只给了GitHub链接,31颗星、2个issue,模拟精度、依赖库、测试覆盖全没披露。也就是说,目前只能确认项目存在,实际能不能跑、跑多快、指令集模拟完整度如何,全是未知数。如果真能模拟MIPS R4000和Indy的图形硬件,对怀旧玩家和系统研究都有价值,但这点先别太激动。作者没提用了什么AI模型、写了多少比例代码、有没有人工审查,信息缺口很大。建议等有人实际跑过、出个demo视频或测试报告再认真看。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H1·K0·R1
20:00
45d ago
Dwarkesh Patel 访谈· atomEN20:00 · 04·28
AI监管的威权主义问题
标题直接点出AI监管可能带来的威权主义风险,但正文完全空白,没有披露任何国家、政策条款或具体案例。从业者只能推测话题方向,无法判断问题机制——比如是监管被用来巩固权力、压制竞争,还是限制开源模型。信息缺口明显:缺国家、缺条款、缺案例。
#Safety#Policy#Commentary
精选理由
标题有判断但正文为空,属于硬性零来源:只有标题级主张,没有数据、案例或具名政策,因此分数上限卡在 39 以下。从业者只能确认议题方向,不能据此判断任何监管机制。
一句话点评
标题有观点,正文没内容,没法判断。
锐评
标题说AI监管有威权主义风险,但正文完全空白,没披露任何国家、政策条款或具体案例。从业者只能猜方向——是监管被用来巩固权力、压制竞争,还是限制开源模型?信息缺口明显:缺国家、缺条款、缺案例。这条只能当话题引子,没法做判断依据。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H1·K0·R1
20:00
45d ago
r/LocalLLaMA· rssEN20:00 · 04·28
Mistral 可能藏了个 128B 大模型,代号 Medium 3.5
Reddit 用户 tkon3 在 vLLM 的代码提交里发现了一行引用,指向一个叫 Mistral-Medium 3.5 的 128B 参数模型。目前只有这个线索——vLLM PR 41024——正文没披露架构、权重是否公开、发布时间,也没有任何跑分或复现测试。128B 参数属于中等偏大的规模,如果真发布,本地部署需要至少两张 A100 或一张 H1...
#Inference-opt#Mistral AI#vLLM#tkon3
精选理由
我会先打个折:正文就是个 RSS 片段,没参数结构、没权重、没发布时间、也没可复现的测试,所以这更像一条线索而不是一个结论。能让人盯住的点就一个——vLLM 的 PR 41024 里改了模型名,说明有人在适配这个尺寸的 Mistral-Medium 3.5。对从业者来说,128B 这个数字意味着本地部署的门槛和成本会是个大问题,但没见到权重和架构之前,这点先别太激动。整体信息量撑不起高分,放在 64 分合理。
一句话点评
一条代码提交引用,离真发布还差得远。
锐评
Reddit 用户 tkon3 在 vLLM 的代码提交(PR 41024)里发现了一行引用,指向一个叫 Mistral-Medium 3.5 的 128B 参数模型。目前只有这一个线索——正文没披露架构细节、权重是否公开、发布时间,也没有任何跑分或复现测试。128B 参数属于中等偏大的规模,如果真发布,本地部署需要至少两张 A100 或一张 H100,成本不低。这点先别太激动:vLLM 的 PR 可能只是预留命名空间,不代表模型已训练完成或即将开源。Mistral 之前有过 Medium 系列(如 2024 年的 Mistral Medium),但这次 3.5 版本号暗示可能是小版本升级。还缺什么:缺权重链接、缺基准测试、缺官方确认。在更多证据出现前,这更像一个占位符而非发布预告。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
19:37
45d ago
Product Hunt · AI· rssEN19:37 · 04·28
Tinfoil:一个声称对话完全私密的 AI 聊天和 API
Tinfoil 上线了一个 AI 聊天和 API,主打隐私:对话内容只有你和模型知道,其他人(包括 OpenAI?)都看不到。它用 NVIDIA GPU 的硬件安全功能做可验证的隐私保护,你可以自己检查对话是否真的端到端加密。听起来像本地 AI 但跑在云端。不过正文没披露具体用了什么加密方案、背后是什么模型、定价多少、API 有没有限流。隐私承诺很硬,...
#Tools#Tinfoil#Product update
精选理由
只有HKR-R通过:隐私角度有共鸣,但机制、模型来源和商业条款都缺失。这是一个低价值的产品更新,低于精选门槛。
一句话点评
用 NVIDIA 硬件加密跑云端 AI,号称对话只有你和模型知道,但没披露具体模型和定价。
锐评
Tinfoil 的核心卖点是隐私:对话内容用 NVIDIA GPU 的硬件安全功能加密,用户可自行验证是否端到端加密,相当于把本地 AI 的隐私感搬到云端。但正文没披露背后是什么模型、具体加密方案、定价和 API 限流情况。隐私承诺很硬,但验证门槛高——普通用户很难真的去检查加密实现。如果模型能力一般或价格偏高,这个卖点就只剩心理安慰。适合对数据主权极度敏感、愿意为隐私牺牲性能和便利的团队,但大规模商用前需要更多技术细节和第三方审计。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H0·K0·R1
19:19
45d ago
彭博科技· rssEN19:19 · 04·28
OpenAI 回击增长担忧:我们火力全开
OpenAI 周二回应了《华尔街日报》关于其多项内部目标未达标的报道,称消费者、企业客户和刚起步的广告业务需求依然强劲。不过正文没披露具体营收数字、目标差距或客户增长数据,所以这点先别太激动。
#OpenAI#The Wall Street Journal#Glasswing Ventures#Commentary
精选理由
OpenAI 跳出来说 WSJ 的报道是标题党,自己正全速运转,但通篇没给任何具体数据来反驳。我会先打个折——这种回应更像公关防守,不是用数字说话。对关注 AI 行业景气度的人来说,这条信息能当个情绪指标看,但别太激动,毕竟没实锤。
一句话点评
OpenAI 否认增长放缓,但正文被墙,没披露具体数字。
锐评
OpenAI 回应《华尔街日报》称其多项内部目标未达标,表示消费者、企业客户和刚起步的广告业务需求依然强劲。但正文被 Bloomberg 反爬墙拦截,实际未披露任何营收数字、目标差距或客户增长数据。来源是 Bloomberg 视频报道,原始信息来自 OpenAI 官方回应,但缺乏独立验证。关键信息缺口:具体营收、目标差距、客户增长数据均未提供。所以这条消息更像公关回应,实际增长情况仍需看后续财报或第三方数据。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
19:08
45d ago
Hacker News 首页· rssEN19:08 · 04·28
有人在 ChatGPT 和 Claude 里跑起了《毁灭战士》
作者做了一个 MCP 应用,让 ChatGPT 和 Claude 能直接在内嵌视图里运行《毁灭战士》。核心思路是:用 Cloudflare 的 doom-wasm 把游戏搬到浏览器,再通过一个 MCP 服务器暴露两个工具——一个创建游戏会话并返回签名 URL,另一个直接返回启动链接。最难的部分不是让游戏跑起来,而是处理不同 AI 客户端对 iframe...
#Code#Tools#ChatGPT#Claude
精选理由
H 靠 DOOM 进聊天机器人这个钩子勉强过关,但 K 和 R 都挂了——正文没给任何机制或复现步骤,HN 热度也极低,分数只能压在低价值区间。
一句话点评
让 ChatGPT 和 Claude 直接玩《毁灭战士》,靠 MCP 协议把游戏塞进 AI 聊天框。
锐评
作者用 Cloudflare 的 doom-wasm 把《毁灭战士》搬到浏览器,再写一个 MCP 服务器暴露两个工具:一个创建游戏会话并返回签名 URL,另一个直接给启动链接。最难的不是让游戏跑起来,而是处理不同 AI 客户端对 iframe、CSP 和 UI 渲染的限制——嵌套 iframe 被浏览器安全策略卡住,最后改成让游戏画布直接在宿主 iframe 里运行才解决。 关键点:游戏用 Freedoom Phase 1 作为默认内容,保证可再分发;签名 token 让浏览器路由不依赖服务端会话持久化。但正文没披露实际帧率、操作方式(键盘/鼠标?)以及在不同客户端上的兼容性列表。Hacker News 上只有 3 分和 1 条评论,热度不高。如果是真的能流畅玩,那 MCP 协议的应用边界又拓宽了,但这点先别太激动——目前更像一个技术 demo,离实用还有距离。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
18:57
45d ago
X · @Yuchenj_UW· x-apiMULTI18:57 · 04·28
Claude Code 挂了
Anthropic 的编程助手 Claude Code 当前不可用。正文只说了这一句,没交代故障开始时间、影响范围、是否已确认或恢复进度。整个硅谷都在围观这条状态。
#Code#Claude Code#Incident
精选理由
一条 X 帖子说 Claude Code 挂了,但没写影响范围、状态页确认、恢复时间。HKR 里 H 和 R 通过,K 不通过,所以只是个低价值的事故信号。
一句话点评
Claude Code 挂了,整个硅谷都在围观。
锐评
Anthropic 的编程助手 Claude Code 当前不可用。正文只说了这一句,没交代故障开始时间、影响范围、是否已确认或恢复进度。整个硅谷都在围观这条状态。 关键信息缺口:故障何时开始、波及多少用户、Anthropic 是否已定位原因、预计恢复时间。目前只有一条状态,没有官方说明或后续更新。 对从业者来说,这条消息本身信息量极低,更像一个社交事件——大家在看 Anthropic 如何应对突发故障。如果后续有 RCA 或恢复报告,才值得深入分析。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R1
18:55
45d ago
X · @dotey(宝玉)· x-apiZH18:55 · 04·28
ByteByteGo 一张图对比 MCP 和 Agent Skills,比 AI 画的精致但门槛还在
ByteByteGo 发了一张对比 MCP(模型上下文协议)和 Agent Skills(智能体技能)的示意图,画得比 AI 生成的图精致很多。但作者也承认:懂的人一看就明白,不懂的人看了图还是不懂。正文没有展开两者的具体机制差异,比如 MCP 怎么让模型调用外部工具、Agent Skills 怎么封装子任务,图里也没标注关键区别。如果你对这两个概念不...
#Agent#Tools#ByteByteGo#Commentary
精选理由
ByteByteGo 的图比 AI 画的精致,但正文只有一句评论,没讲 MCP 和 Agent Skills 到底差在哪、怎么选。这是低信息量的社交评论,给 45 分合理——有话题性但没干货,适合泛读。
一句话点评
图好看,但没解释MCP和Agent Skills到底差在哪。
锐评
ByteByteGo这张对比图确实比AI生成的精致,但作者自己承认:懂的人一看就明白,不懂的人看了还是不懂。正文没披露MCP(模型上下文协议,让模型调用外部工具)和Agent Skills(智能体技能,封装子任务让模型执行)的具体机制差异,图里也没标注关键区别。如果你对这两个概念不熟,光看图学不到东西。信息缺口明显:缺两者在工具调用方式、任务编排、状态管理上的对比。建议读者先补基础概念再看图,否则只是看个热闹。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
18:49
45d ago
TechCrunch AI· rssEN18:49 · 04·28
亚马逊在商品页上线AI语音问答,问产品问题它用嘴回答
亚马逊在商品页上线了一个叫“Join the chat”的功能,用户可以直接问产品问题,AI会生成一段语音回答你。相当于每个商品配了一个能说话的导购,不用自己翻详情页和评论了。比如你可以问“这个锅能进洗碗机吗”,AI会综合产品参数和用户反馈来回答。正文没披露用了哪家的语音模型、延迟多高、覆盖哪些品类和地区,也没说要不要额外收费。如果延迟控制得好,对懒得...
#Audio#Amazon#Product update
精选理由
这是亚马逊一个中等体量的产品更新:HKR-H 和 HKR-K 靠音频问答的交互形式和“Join the chat”这个新流程通过。正文没提覆盖品类、用了哪个语音模型、延迟多少、上线地区或定价,也没有转化数据,所以分数压在 60–71 区间。
一句话点评
亚马逊给商品页加了个AI语音问答,懒得看详情可以直接问。
锐评
亚马逊在商品页上线了“Join the chat”功能,用户问“这锅能进洗碗机吗”,AI会综合参数和用户评论生成一段语音回答。相当于每个商品配了个能说话的导购,对懒得翻详情页和评论的人挺实用。正文没披露用了哪家语音模型、延迟多高、覆盖哪些品类和地区,也没说是否额外收费。如果延迟控制得好,这功能对转化率可能有帮助,但语音回答的准确性和对差评的过滤机制才是关键——用户问“这锅容易粘吗”,AI如果只挑好评说,反而会降低信任。目前信息缺口较大,建议等实测或更多细节再判断实际效果。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
18:30
45d ago
r/LocalLLaMA· rssEN18:30 · 04·28
给 Gemma 3 最小模型加个思考 LoRA,270M 参数就能想问题
Reddit 用户 Firstbober 给 Gemma 3 的 270M 版本训练了一个 LoRA,让它能像大模型一样输出思考过程。训练配置很轻量:rank 24、最大长度 768、batch 1、梯度累积 2,用的是一块 RTX 3050 4GB 移动版显卡。关键技巧是格式控制——如果标签写错,loss 权重会放大 20 倍,逼模型学会正确格式。正...
#Reasoning#Fine-tuning#Firstbober#Gemma
精选理由
H/K/R 都达标,但这是 Reddit 个人发布的 LoRA,没有基准分数、基线对比或可复现的评测。对 LocalLLaMA 社区有吸引力,不值得上首页推荐。
一句话点评
270M 参数跑出思考链,4GB 显卡就能玩。
锐评
Reddit 用户 Firstboer 给 Gemma 3 270M 挂了个 LoRA,让它学会输出思考过程。训练配置极轻:rank 24、最大长度 768、batch 1、梯度累积 2,只用一块 RTX 3050 4GB 移动版显卡。关键技巧是格式控制——标签写错时 loss 权重放大 20 倍,逼模型死记正确格式。 这可能是目前最小的 thinking model,但正文没披露训练数据来源和规模,也没给基准测试结果。270M 参数能学到多少有效推理值得怀疑,格式控制强于推理能力。优点是门槛极低,4GB 显存就能跑,适合在边缘设备或低算力场景试水。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
18:28
45d ago
● P1彭博科技· rssEN18:28 · 04·28
Google 与美国国防部达成协议允许 AI 用于机密军事工作
谷歌和美国国防部达成了一项协议,让谷歌的 AI 系统能进入机密军事工作流程。五角大楼官员确认了这笔交易,但正文没披露具体用了哪些系统、合同金额有多大,也没说使用上有什么限制。这件事发生在研究人员持续抗议谷歌参与军事项目的背景下,我会先打个折——目前公开信息太少,没法判断这到底是一次性试点还是深度绑定。
#Safety#Google#US Defense Department#Pentagon
精选理由
这条消息本身够硬:Google 和五角大楼的机密军事 AI 合作被确认了。我会先打个折,因为正文没写具体系统、金额和使用限制,没法判断规模。但 H、K、R 三点都踩中了——冲突感强、事实新、跟从业者的职业伦理直接相关,所以放在 featured 里没问题。
一句话点评
Google 跟五角大楼签了份机密 AI 合同,条款是“任何合法用途”都能用,而且 Google 没有否决权。
锐评
这事最值得注意的不是 Google 又接政府单,而是合同里那句“任何合法用途”——这意味着 Google 交出的 AI 模型,军方拿去用在机密军事工作里,Google 自己没法喊停。2018 年员工因为 Project Maven 无人机项目闹过一波,当时 Google 承诺不搞武器 AI,还退出了竞标。现在这份协议等于把当年的红线往后挪了一大截。 报道来自 The Verge 和 Bloomberg,都提到这是一份机密合同,具体金额、模型范围、军方到底会怎么用,正文全都没披露。Google 对内只说“感到自豪”,没解释怎么跟之前的 AI 原则兼容。 缺的关键信息太多了:合同有没有排除致命自主武器?模型是直接部署还是只提供 API?有没有第三方审计?这些不搞清楚,光一句“合法用途”太空了,合法跟合理之间差着十万八千里。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R1
18:26
45d ago
● P1彭博科技· rssEN18:26 · 04·28
Musk 在诉讼中作证称起诉 OpenAI 欲阻止 Altman 掠夺
马斯克周二在法庭上说,他起诉 OpenAI 和两位联合创始人,是因为 Sam Altman 把公司从非营利转向营利的行为,已经让当初的公共使命变成了笑话。他的律师直接用了“嘲弄”这个词。目前公开的报道片段没有披露具体的索赔金额、审理法院或马斯克要求法院采取什么补救措施。
#Safety#Alignment#Elon Musk#OpenAI
精选理由
马斯克出庭作证本身就有话题性,他用的“looting”这个词把矛盾拉到了个人恩怨和机构变质上,对关注 AI 治理和安全的人是个强信号。不过正文没写索赔金额、具体庭审地点和救济请求,信息有缺口,所以重要性我给 80 分,放在 featured 里。这点先别太激动,后续看有没有判决或和解细节出来。
一句话点评
马斯克出庭作证,把起诉 OpenAI 的目的直接说成是阻止 Altman“掠夺”。这话很重,但法庭上怎么证明“掠夺”才是关键,目前报道没给出具体证据。
锐评
马斯克在法庭上亲自作证,把这场官司的核心定性为阻止 Sam Altman 对 OpenAI 的“掠夺”。这个用词很重,直接把商业纠纷上升到了道德指控。从报道看,他试图把自己塑造成一个想“拯救人类”的理想主义者,但庭审第一周并不顺利,他过去的推文和财务承诺都被对方拿来反复质询,让他处于防守位置。 这场审判目前更像是一场旧日恩怨的公开重演,双方都在争夺“初心”的解释权。报道里没有披露任何能直接证明“掠夺”行为的内部文件或财务数据,所以这个指控目前还停留在个人叙事层面。接下来要看 OpenAI 一方如何回应,以及是否有实质性的证据来支撑或反驳“掠夺”的说法。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
18:20
45d ago
彭博科技· rssEN18:20 · 04·28
AI 算力需求让美国电力设备市场三年翻 25 倍,2030 年冲到 650 亿美元
咨询公司 Wood Mackenzie 预测,到 2030 年美国数据中心发电设备年支出将从去年的 26 亿美元涨到 650 亿美元,翻了 25 倍。这个数字说明 AI 带来的电力需求不是小打小闹,而是实打实的硬件采购潮。但正文没披露具体买什么设备(变压器、燃气轮机还是电池储能)、谁在买(云厂商还是电力公司)、以及钱花在哪些州,所以这个 650 亿更像...
#Wood Mackenzie#Commentary
精选理由
Bloomberg加Wood Mackenzie给出了一个具体的AI基础设施数字,所以HKR三项都过。这条新闻落在60–71分区间,因为它只披露了总支出,没提买什么设备、谁在买、钱花在哪个区域,信息缺口明显。
一句话点评
AI 电力需求不是小打小闹,但 650 亿是预测上限,实际落地要打折。
锐评
Wood Mackenzie 预测美国数据中心发电设备年支出到 2030 年达 650 亿美元,是去年 26 亿的 25 倍。这个数字说明 AI 带来的电力需求是实打实的硬件采购潮,不是概念炒作。但正文没披露具体买什么设备(变压器、燃气轮机还是电池储能)、谁在买(云厂商还是电力公司)、以及钱花在哪些州,所以 650 亿更像乐观情景的上限。另外,预测来自一家咨询公司,不是官方数据,且原文被 Bloomberg 反爬墙拦截,无法核实更多细节。建议关注后续是否有设备商或电力公司的实际订单来验证这个增速。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
18:08
45d ago
Hacker News 首页· rssEN18:08 · 04·28
Waymo 开到波特兰了,但今天只是人工开车认路
Waymo 宣布进入波特兰,但今天开始只是人工驾驶车辆跑一遍城市,让自动驾驶系统熟悉当地路况。正文没披露车队规模、运营时间或何时开放给乘客。市长和反酒驾组织出来站台,强调自动驾驶能减少交通事故——Waymo 引用数据说在已运营城市减少了 13 倍重伤事故。目前能做的只有去官网注册等通知,离真正坐上无人车还有一段距离。
#Robotics#Waymo#Hacker News#Product update
精选理由
H 和 R 通过:Waymo 进入新城市吸引自动驾驶关注,HN 讨论活跃。K 不通过:正文只有 RSS 片段,未披露上线范围、车队规模、运营时间或是否载客,信息缺口明显。
一句话点评
Waymo 进波特兰,但今天只是人开车跑地图,离真正运营还远。
锐评
Waymo 宣布进入波特兰,但今天开始的只是人工驾驶车辆跑一遍城市,让自动驾驶系统熟悉当地路况。正文没披露车队规模、运营时间或何时开放给乘客。市长和反酒驾组织出来站台,强调自动驾驶能减少交通事故——Waymo 引用数据说在已运营城市减少了 13 倍重伤事故。目前能做的只有去官网注册等通知,离真正坐上无人车还有一段距离。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
17:52
45d ago
r/LocalLLaMA· rssEN17:52 · 04·28
Mistral Medium 要来了,128B 参数,但细节几乎为零
Reddit 上有人发帖说 Mistral Medium 正在路上,参数规模 128B。目前只拿它跟自家 Mistral-Small-4-119B-2603 比了一下,没提发布时间、许可证和跑分。关键悬念是:它是纯稠密模型,还是比 Mistral Small 更不稀疏的 MoE?正文没披露任何实测数据或成本信息,所以这点先别太激动。
#Inference-opt#Mistral#Commentary
精选理由
HKR 三项都勉强过关:128B 的传闻有话题性,参数可验证,且紧扣开源模型竞争。但信源仅一条 Reddit 帖子,没有发布时间、许可证、架构或基准数据,所以分数压在 60–71 区间。
一句话点评
128B 参数,但没跑分没成本,先别激动。
锐评
Reddit 帖子说 Mistral 正在搞一个 128B 参数的 Medium 模型,只跟自家 119B 的 Small 比了一下,没提发布时间、许可证和跑分。关键悬念是:它是纯稠密模型,还是比 Small 更不稀疏的 MoE?如果是稠密 128B,推理成本会比同规模 MoE 高不少,本地部署门槛也更高。正文没披露任何实测数据或成本信息,所以这点先别太激动。另外,Mistral 的 Medium 上次发布还是 2023 年,这次重出江湖是补位还是换代,得等更多细节。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K1·R1
17:41
45d ago
r/LocalLLaMA· rssEN17:41 · 04·28
llama.cpp 新增 Nemotron Nano 3 Omni 转换支持,一个模型搞定视频/音频/图像/文本
NVIDIA 的 Nemotron 3 Nano Omni 是一个多模态模型,能同时处理视频、音频、图像和文本,而且可以商用。llama.cpp 的 PR #22481 给它加上了模型转换支持,方便本地跑。训练时用了五个模型做数据,包括 Qwen3-VL-30B-A3B-Instruct、Qwen3.5-397B-A17B 和 gpt-oss-120b...
#Multimodal#Vision#Audio#ggml-org
精选理由
这是 llama.cpp 给 NVIDIA Nemotron 3 Nano Omni 加转换支持的 PR,模型本身统一了视频、音频、图像和文本理解,还允许商用。训练改进用了 Qwen3-VL-30B-A3B-Instruct 等 5 个模型,但正文没提具体效果提升多少。对本地部署玩家来说,llama.cpp 支持意味着能直接跑,挺实在。不过就是个工具链更新,不是模型首发,所以 H 不通过,K 和 R 都成立,总分 66 合理,没到 72 的精选线。
一句话点评
NVIDIA 的小模型能本地跑多模态了,但别急着激动,训练数据用了五个大模型,成本不低。
锐评
NVIDIA 的 Nemotron 3 Nano Omni 是一个能同时处理视频、音频、图像和文本的多模态小模型,而且可以商用。llama.cpp 的 PR #22481 给它加上了模型转换支持,意味着你可以在本地跑这个模型,不用依赖云端。训练时用了五个模型做数据,包括 Qwen3-VL-30B-A3B-Instruct、Qwen3.5-397B-A17B 和 gpt-oss-120b,说明数据生成成本不低,但模型本身参数规模小,推理成本应该可控。不过正文没披露模型参数量、推理延迟和具体精度,这点先别太激动。另外,来源是 Reddit 上的一个 PR 链接,正文被屏蔽了,信息主要靠标题和摘要,验证弱。如果真能本地流畅跑多模态,对边缘设备场景挺实用,但得等实测。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
17:22
45d ago
X · @dotey(宝玉)· x-apiZH17:22 · 04·28
让 ChatGPT 自己检查自己:一个提升输出质量的技巧
dotey 分享了一个 ChatGPT 使用技巧:利用会话内的 Agent 环境,让模型自己调用工具验证并迭代输出。以写画图提示词为例,先让 ChatGPT 自检、修改,再交给用户验收,结果通常更好。但原文没披露用了哪些工具、测试样本量或成功率,所以效果多好得自己试。
#Agent#Tools#dotey#ChatGPT
精选理由
HKR-K/R通过,因为它描述了一个具体的Agent自检工作流,并戳中了验收成本的痛点。HKR-H不通过;文章缺少具体工具、样本量或成功率,所以落在60–71的实用技巧区间。
一句话点评
让 ChatGPT 自己调用工具验证再迭代,写提示词效果更好。但没披露用了哪些工具、样本量,效果得自己试。
锐评
dotey 分享了一个实用技巧:利用 ChatGPT 会话内的 Agent 环境,让模型自己调用工具验证并迭代输出。以写画图提示词为例,先让 ChatGPT 自检、修改,再交给用户验收,结果通常更好。这个思路本质是把模型当“执行者+质检员”用,减少人工反复调参。但原文没披露用了哪些工具(比如是否调了代码解释器或浏览器)、测试样本量或成功率,所以效果多好得自己试。另外,这个技巧依赖会话内工具调用能力,如果模型工具调用不稳定或环境受限(比如免费版),可能效果打折。对 AI 从业者来说,这是一个低成本提升输出质量的 prompt 工程思路,但需要结合具体场景验证。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R1
16:23
45d ago
X · @dotey(宝玉)· x-apiZH16:23 · 04·28
开源项目试水AI生成UI,离Claude Design还有距离
作者试了一个开源项目,生成的是HTML雏形,交互和内容完整度都差一截;而Claude Design直接输出React组件,界面美观、交互流畅。正文没提项目名、提示词和复现环境,但作为开源起步已经不错,值得看看。
#Code#Tools#Claude Design#Open source
精选理由
HKR-R通过,因为AI生成UI的质量和交互完成度是产品与前端团队的真实痛点。HKR-H和K不通过:正文没披露项目名称、测试提示词和复现条件,信息缺口太大,只能算一条低信号的个人试用感受。
一句话点评
开源版Claude Design雏形,交互和完成度差一截,但起步不错。
锐评
作者对比了一个开源项目与Claude Design:后者直接输出React组件,界面美观、交互流畅;前者目前只生成HTML雏形,交互和内容完整度都差不少。正文没披露项目名、提示词和复现环境,信息缺口明显,没法直接复现或评估。但作为开源起步,能做到这个程度已经值得关注,尤其对想低成本搭建类似工具的人来说是个参考。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R1
16:17
45d ago
Hacker News 首页· rssEN16:17 · 04·28
Poolside 发布 Laguna XS.2 和 M.1 两款模型
poolside 放出了 Laguna 家族的头两个模型:M.1 和 XS.2。M.1 是个 225B 总参数、23B 激活的 MoE 模型,去年底完成预训练,在 SWE-bench Pro 上跑到 46.9%。XS.2 则小得多,33B 总参数、3B 激活,但 SWE-bench Pro 也有 44.5%,而且权重用 Apache 2.0 协议开源了...
#poolside#Product update
精选理由
HKR 三项全挂:这条 feed 只暴露了 poolside 两个模型名加 HN 互动数据,没有规格、定价、能力宣称或可复现的测试。0/3 的 HKR 分数直接把它归入 excluded。
一句话点评
Poolside 发了两个编程模型:Laguna M.1(225B参数,激活23B)和 XS.2(33B参数,激活3B,开源)。M.1 在 SWE-bench Pro 上 46.9%,XS.2 也有 44.5%,跟 Qwen3.5 差不多,但参数少很多,成本更低。不过 Terminal-Bench 2.0 上 XS.2 只有 30.1%,比 Qwen3.6 的 51.5% 差一截,说明复杂终...
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R0
16:15
45d ago
X · @dotey(宝玉)· x-apiZH16:15 · 04·28
GPT 5.5 后作者更爱用 Codex 和 ChatGPT:写作变强、能画图、暂时不限量
dotey 说 GPT 5.5 之后他更常用 Codex 和 ChatGPT 了,理由是 GPT 的写作能力明显提升,还能直接画图,而且目前没有 token 焦虑(即暂时不限量或价格可控)。不过正文没披露 GPT 5.5 的具体规格、token 上限或定价,所以“没有焦虑”这点先别太激动,可能只是个人体验或早期阶段。
#Code#Multimodal#dotey#OpenAI
精选理由
dotey 说 GPT 5.5 后更常用 Codex 和 ChatGPT,理由是写作变强、能画图、没有 Token 焦虑。但正文只有一条 RSS 片段,没披露 GPT 5.5 的上下文窗口、价格或参数规模,信息缺口很大。H 和 R 通过是因为它点出了 Token 成本这个真实痛点,对开发者有共鸣;K 不通过,因为这是一条个人印象,没有可验证的细节。
一句话点评
GPT 5.5 写作和画图变强,但“没 token 焦虑”可能只是早期体验。
锐评
dotey 说 GPT 5.5 之后他更常用 Codex 和 ChatGPT 了,理由是写作能力明显提升,还能直接画图,而且目前没有 token 焦虑(即暂时不限量或价格可控)。这听起来像一次体验分享,不是官方公告。关键信息缺口:正文没披露 GPT 5.5 的具体规格、token 上限或定价,所以“没有焦虑”这点先别太激动——可能只是个人体验或早期阶段,也可能是 OpenAI 暂时放宽了限制来推广新模型。如果真能做到写作+画图且不限量,那对日常使用是好事,但需要更多用户反馈和官方数据来验证。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H1·K0·R1
16:12
45d ago
r/LocalLLaMA· rssEN16:12 · 04·28
Nemotron-3-Nano-Omni-30B-A3B-Reasoning:英伟达新多模态模型,30B参数但只激活3B
Reddit 用户发现了一个叫 Nemotron-3-Nano-Omni-30B-A3B-Reasoning 的模型,名字很长但信息量不小:30B 是总参数量,A3B 指每次推理只激活 3B 参数(类似 Mixture of Experts 的省算力设计)。它能处理音频、图片、视频和文本,统一输出文本,属于多模态模型。帖子附了 NVIDIA BF16 ...
#Multimodal#Audio#Reasoning#NVIDIA
精选理由
来源是 Reddit 用户爆料,不是官方发布,正文也没给训练数据、基准分数或许可证,信息缺口明显。但 30B/A3B 的 MoE 规格和多模态支持(音频/图像/视频/文本)对本地部署党有吸引力,unsloth 的 GGUF 链接也降低了试玩门槛。综合看是个值得跟踪的线索,但别急着当正式产品,分数压在 68 合理。
一句话点评
NVIDIA 出了一个 30B 总参数、每次只激活 3B 的多模态推理模型,能看、能听、能读,但还没公开跑分和训练数据。
锐评
这个模型名字很长但信息量不小:30B 是总参数量,A3B 指每次推理只激活 3B 参数(类似 MoE 的省算力设计),对本地部署友好。它能处理音频、图片、视频和文本,统一输出文本,属于多模态模型。帖子附了 NVIDIA BF16 和 unsloth 的 GGUF 量化版本,说明社区已经在做本地化适配。 但正文被 Reddit 屏蔽了,所以关键信息全缺:没有 benchmark 分数、没有训练数据来源、没有许可证说明。名字带“Reasoning”但不知道是 CoT 还是别的推理机制。如果是真开源且推理能力不错,那对本地多模态场景是个好消息;但这点先别太激动,等跑分和许可证出来再说。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:11
45d ago
X · @dotey(宝玉)· x-apiZH16:11 · 04·28
上下文窗口塞太满,再强的模型也会变笨
dotey 实测发现,不管模型多强,上下文窗口占用太满输出质量都会下降。固定格式的文档写作,Sonnet 和 Opus 差别不大;但对写作要求高的任务,Opus 明显更好。正文没披露具体样本量、窗口大小和评分标准,结论偏经验分享。
#Memory#dotey#Sonnet#Opus
精选理由
只有 R 通过:上下文衰减和 Opus 的成本权衡是真实痛点。H 和 K 不通过,因为正文没给样本量、窗口长度和评分方法,信息缺口太大,只能算低价值段子。
一句话点评
上下文塞太满,再强的模型也会变笨。
锐评
dotey 实测发现,上下文窗口占用过高时,所有模型输出质量都会下降。固定格式写作(如填表格)Sonnet 和 Opus 差距不大,但高要求写作 Opus 明显更好。正文没披露样本量、窗口大小和评分标准,结论偏经验分享,可参考但别当严谨评测。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K0·R1
16:09
45d ago
TechCrunch AI· rssEN16:09 · 04·28
Lovable 的“氛围编程”App 上线 iOS 和 Android,手机也能写网页
Lovable 把它的 AI 无代码应用构建器搬到了手机上,现在 iOS 和 Android 都能下载。你对着手机说话或打字描述想法,AI 就能自动帮你生成网页应用,还能在电脑和手机之间同步进度,做完会推送通知。不过正文没披露背后用了什么模型、具体怎么收费、哪些地区能用、以及是否支持离线。另外苹果最近刚在 App Store 上对这类“氛围编程”App...
#Code#Lovable#Product update
精选理由
H和K都成立:Lovable上手机端是个具体的新动作,而且手机写代码生成网页这个角度有新鲜感。R不成立:正文没披露模型、定价、上线地区和工作流细节,从业者没法判断技术路线或性价比,只能当普通产品更新看。
一句话点评
Lovable 把无代码应用构建器搬到了手机上,对着手机说话就能生成网页应用,还支持电脑手机同步。
锐评
Lovable 把它的 AI 无代码应用构建器搬到了手机上,iOS 和 Android 都能用。你对着手机说话或打字描述想法,AI 就能自动生成网页应用,还能在电脑和手机之间同步进度,做完会推送通知。这相当于把“氛围编程”从桌面端带到了移动端,降低了随时随地的开发门槛。但正文没披露背后用了什么模型、具体怎么收费、哪些地区能用、以及是否支持离线。另外苹果最近刚在 App Store 上对这类“氛围编程”App 收紧审核,Lovable 能上架说明可能做了合规调整,这点值得关注。整体来看,产品方向对,但技术细节和商业化信息缺失,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
16:07
45d ago
Hacker News 首页· rssEN16:07 · 04·28
Anthropic 加入 Blender 开发基金,成为企业赞助方
Anthropic 以企业赞助方身份加入 Blender 开发基金,资金专门用于 Blender 核心开发,尤其是 Python API 的维护和改进——这个 API 让开发者和艺术家能自己写脚本扩展 Blender 功能。正文没披露赞助金额和期限,所以暂时没法判断这笔钱有多大。值得关注的是,Claude 会不会被整合进 Blender 工作流,比如用...
#Anthropic#Blender#Partnership#Funding
精选理由
Anthropic 加入 Blender 基金,级别是 Corporate Patron,但正文没给出资额、合作时长或技术整合细节。对从业者来说,真正该盯的是 Claude 能否进入 Blender 工作流,比如辅助建模或脚本生成,这点完全没提。所以这条消息更像一个信号,不是落地动作,暂时不值得上推荐位。
一句话点评
Anthropic 赞助 Blender,钱专门修 Python API,但没披露金额和期限。
锐评
Anthropic 以企业赞助方身份加入 Blender 开发基金,资金专门用于 Blender 核心开发,尤其是 Python API 的维护和改进——这个 API 让开发者和艺术家能自己写脚本扩展 Blender 功能。正文没披露赞助金额和期限,所以暂时没法判断这笔钱有多大。值得关注的是,Claude 会不会被整合进 Blender 工作流,比如用自然语言生成脚本或辅助建模,但官方声明只提了 API 维护,没提产品集成。Blender 是开源项目,赞助不买断控制权,Anthropic 更多是刷存在感、拉拢创作者社区。如果金额不大,这更像 PR 动作而非战略投资。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K1·R0
16:06
45d ago
Hacker News 首页· rssEN16:06 · 04·28
AI 在最大开源医疗记录软件中发现 38 个漏洞
安全公司 AISLE 用自家 AI 分析器扫描了开源电子病历系统 OpenEMR,一个季度就挖出 38 个 CVE 漏洞,比 2018 年人类团队花大功夫找到的 23 个还多。OpenEMR 覆盖全球超 10 万医疗机构、2 亿患者,影响面很大。最严重的一个是 CVSS 10.0 的 SQL 注入,出在患者 REST API 的排序参数上——没做任何校...
#Agent#Code#Safety#AISLE
精选理由
38 个 CVE 和满分漏洞确实有冲击力,但文章主要堆漏洞编号和 CVSS 分数,没讲清楚 AI 审计比传统人工审计强在哪、误报率多少。医疗软件覆盖面广(10 万机构、2 亿患者),风险真实,但信息缺口明显——比如审计工具叫什么、怎么验证的都没提。评分 68 合理,不往上调是因为细节不够硬。
一句话点评
AI 挖漏洞比人快,但别急着全信。
锐评
安全公司 AISLE 用自家 AI 分析器扫了开源电子病历系统 OpenEMR,一个季度挖出 38 个 CVE 漏洞,比 2018 年人类团队花大功夫找到的 23 个还多。OpenEMR 覆盖全球超 10 万医疗机构、2 亿患者,影响面很大。最严重的一个是 CVSS 10.0 的 SQL 注入,出在患者 REST API 的排序参数上——没做任何校验,如果数据库用户有 FILE 权限就能远程执行命令。 不过这是 AISLE 自家的工具,不是第三方独立评测,结果可能有水分。正文没披露 AI 分析器的误报率,也没说这些漏洞在真实环境里被利用的概率。如果是真的,AI 辅助挖洞确实能大幅降低人力成本,但安全行业更缺的是修漏洞的人,不是发现漏洞的工具。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:00
45d ago
● P1NVIDIA 博客· rssEN16:00 · 04·28
英伟达发布 Nemotron 3 Nano Omni 多模态模型,支持图文音视频处理
英伟达在 2026 年 4 月 28 日开源了 Nemotron 3 Nano Omni,一个能同时处理文字、图片、音频、视频、文档、图表和屏幕界面的多模态模型。它用了 30B-A3B 的混合专家架构(MoE),实际激活的参数量是 3B,配合 Conv3D 和 EVS 技术来处理音视频,上下文窗口拉到 256K。官方说在保持交互延迟不变的前提下,跑 A...
#Agent#Multimodal#Vision#NVIDIA
精选理由
NVIDIA 这次把视觉、语音、文字塞进一个 30B-A3B 的混合专家模型里,还开放了权重和训练技术。我会先打个折:9 倍效率提升是跟谁比、测什么任务,正文没细说,这点先别太激动。但 256K 上下文、Conv3D 和 EVS 这些配置,加上直接上 Hugging Face 和 OpenRouter,对想用开源方案搭多模态 agent 的团队确实省事。单信源,信息够用但不算独家,所以放在 featured 里。
一句话点评
英伟达把视觉、语音、文字塞进一个8B小模型,跑在单张消费级显卡上,处理长文档和视频的性价比很高,但实际效果还得看落地测试。
锐评
英伟达这次发布的 Nemotron 3 Nano Omni 是个 80 亿参数的小模型,主打多模态,能同时看懂图片、听懂语音、读文字,还能处理长达 128K token 的上下文,相当于一次能啃完一本《三体》。它最大的卖点是效率:官方说在视频和文档理解任务上,比同类模型快了 9 倍,而且可以在单张 RTX 4090 这类消费级显卡上跑,不用非得堆昂贵的服务器。这对想在自己电脑上跑多模态应用的开发者来说,门槛降了不少。 不过,这篇博客主要讲的是架构和性能指标,比如用了“多模态混合专家”结构来省计算量,但没给出具体的训练数据来源和规模,也没提在中文场景下的表现。9 倍的效率提升听起来很诱人,但对比的基准模型是谁、测试条件是什么,正文没有详细展开。另外,模型虽然开源了权重,但商用许可的具体条款需要自己去查。 总的来说,这是一个在端侧部署上很有野心的模型,适合做需要同时处理多种信息流的智能体,比如会议纪要整理、视频内容分析。但如果你关心的是绝对精度而不是成本和速度,那还得等第三方评测出来再下结论。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
15:58
45d ago
● P1Hacker News 首页· rssEN15:58 · 04·28
Warp 开源终端工具客户端代码
Warp 终端客户端正式开源,仓库托管在 GitHub(warpdotdev/warp),OpenAI 是创始赞助商。最大看点不是代码本身,而是他们用自家 Agent 编排平台 Oz 来管理社区贡献——让 GPT 模型(具体版本未披露)负责写代码,人类只负责定需求和验收。Warp 团队认为“写代码不再是瓶颈,瓶颈是人工评审”,所以把实现交给 Agent...
#Code#Tools#Warp#Open source
精选理由
Warp 开源是个中量级产品更新,HKR 的 H 和 R 通过,但 K 信息太薄:只有开源声明和 HN 热度,缺关键细节。不够上精选。
一句话点评
Warp 把客户端代码开源了,用 AGPL 协议,OpenAI 是创始赞助商。亮点是他们想用 AI 代理管开源社区,但正文没披露代理具体怎么审核代码、出错谁兜底。
锐评
Warp 这次开源不是单纯放代码,而是押注一种新的开发模式:让外部贡献者通过他们自家的 AI 编排平台 Oz 来管一群编码代理干活。逻辑是,代码实现交给代理,人只负责提需求和验收,理论上能突破内部团队的人力瓶颈。这个想法挺大胆,但正文只讲了愿景,没给任何数据——比如代理生成的代码一次通过率多少、社区贡献者实际参与门槛多高、AGPL 协议下企业用户会不会有合规顾虑。OpenAI 作为创始赞助商,用的是 GPT 模型,但也没说清楚模型调用成本谁承担、代理出错时的责任边界在哪。开源仓库刚上线,现在还看不到社区活跃度和代码质量,所以“更快做出更好的 Warp”这个说法,得等几个月看实际合并记录才能验证。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K0·R1
15:43
45d ago
r/LocalLLaMA· rssEN15:43 · 04·28
Lemonade OmniRouter:一个路由把四个本地模型串起来干活
这个项目用 181 行 Python 代码,把 sd.cpp(画图/修图)、kokoros(文字转语音)、whisper.cpp(语音转文字)和 llama.cpp(看图说话)四个本地引擎串成一个服务,接口兼容 OpenAI 的 tool call 格式。好处是用户不用自己拼多模型流程,坏处是正文没披露路由延迟和并发能力——如果每个引擎都跑在本地 NP...
#Tools#Multimodal#Audio#Lemonade
精选理由
H/K/R 全过,有具体的本地后端和 181 行 Python 示例。扣分在信息来源是 Reddit,权威性一般,且场景偏窄,所以分数卡在 60–71 的工具更新区间。
一句话点评
181行代码把四个本地模型串成一条服务,接口兼容OpenAI,但延迟和并发都没说。
锐评
Lemonade OmniRouter 用 181 行 Python 把 sd.cpp(画图/修图)、kokoros(文字转语音)、whisper.cpp(语音转文字)和 llama.cpp(看图说话)四个本地引擎串成一个服务,接口兼容 OpenAI 的 tool call 格式。好处是用户不用自己拼多模型流程,直接调一个接口就能让模型“画图→转语音”或“听语音→看图回答”。代码量极低,适合快速原型。但正文没披露路由延迟和并发能力——如果每个引擎都跑在本地 NPU/GPU 上,串行调用时总延迟可能是单模型的 4 倍,且没有说明是否支持异步或批处理。另外,四个引擎的依赖和硬件要求不同(比如 sd.cpp 需要 GPU 显存,whisper.cpp 在 CPU 上也能跑),实际部署时资源冲突和调度策略才是难点,这点文章没提。适合想低成本搭多模态 demo 的开发者,但生产环境需要自己补负载测试和容错逻辑。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
15:16
45d ago
r/LocalLLaMA· rssEN15:16 · 04·28
非程序员用 Qwen 3.6 35B 写代码:关键不是模型,是让它自己跑测试
一个 Reddit 用户说自己不是程序员,但用 Qwen 3.6 35B 写代码效果不错。他分享的窍门是:让模型写代码后自动运行测试,根据报错反复修改,直到通过。他拿这个流程做了三个项目:一个 Python Discord 机器人、一个 Docker 化的 MCP 服务器、一个每周菜单规划器。重点不是 Qwen 3.6 这个模型有多强,而是“写代码→跑...
#Code#Agent#Tools#Qwen
精选理由
H/K/R 都够,但这是一条 Reddit 个人经验帖,没有成功率、耗时或代码质量数据。亮点是测试闭环这个实操细节,不是模型本身。分数卡在 60–71 之间合理,上不了精选。
一句话点评
非程序员用 Qwen 3.6 35B 写代码,靠自动跑测试循环改错,做了三个项目。
锐评
这条帖子的价值不在模型本身,而在工作流:让模型写代码→自动跑测试→根据报错反复改,直到通过。作者不是程序员,用这个流程做出了 Python Discord 机器人、Docker 化的 MCP 服务器和每周菜单规划器。这说明 35B 级别的本地模型在“测试驱动”的闭环里已经能产出可用的项目,对非开发者是个实用信号。但正文被 Reddit 屏蔽,看不到具体报错类型、迭代次数和最终代码质量。关键缺口:测试覆盖率多高?复杂逻辑(如数据库操作、异步任务)能否处理?如果只是简单脚本拼接,这个流程的泛化能力有限。另外,Qwen 3.6 35B 的推理成本(显存占用、速度)和商用模型(如 Claude)的对比也没提。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
15:14
45d ago
r/LocalLLaMA· rssEN15:14 · 04·28
Poolside 发布 33B MoE 模型 Laguna XS.2,agent 能力接近 Qwen 3.5
Poolside 放出了 Laguna XS.2 的权重,33B 参数、A3B MoE 架构,Apache 2.0 许可。官方说它在 agent 任务上的表现跟 Qwen 3.5 35B A3B 差不多,但不如 Qwen 3.6。训练细节在博客里,正文没披露用了什么数据集。
#Agent#Code#Poolside#Qwen
精选理由
HKR-K和R都通过:33B A3B MoE、Apache 2许可、Hugging Face权重、与Qwen 3.5/3.6的对比都是硬信息。H不通过,标题平淡。正文没披露训练数据集和完整细节,所以分数压在60-71区间。
一句话点评
Poolside 开源了 33B 的 Laguna XS.2,agent 任务跟 Qwen 3.5 35B 差不多,但不如 Qwen 3.6。Apache 2.0 许可,权重已放。
锐评
Poolside 这次开源诚意足,33B 参数、A3B MoE 架构,Apache 2.0 许可直接上 Hugging Face。官方说 agent 任务跟 Qwen 3.5 35B A3B 持平,但不如 Qwen 3.6——这点先别太激动,毕竟 Qwen 3.6 还没开源,对比基准不透明。训练细节在博客里,但正文没披露用了什么数据集,也没说微调数据量。对于想跑本地 agent 或代码任务的团队,33B 的 MoE 推理成本低,值得一试。不过验证偏弱:只有官方自报的 agent 分数,缺第三方评测和具体任务拆解。如果真能接近 Qwen 3.5 的水平,那对本地部署是个好消息,但建议等社区跑分再下结论。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K1·R1
15:07
45d ago
● P1X · @claudeai· x-apiEN15:07 · 04·28
Claude 接入 Photoshop、Blender 和 Ableton 等创意工具
Claude 上线了 Blender 连接器,你可以在对话里让它帮你排查场景问题、写新工具,或者批量修改所有物体。正文没提这个功能是免费还是付费、支持哪些版本,也没说清楚 Claude 在 Blender 里的操作权限边界——它能改到什么程度、会不会误删东西,这些都得等实测才知道。
#Agent#Tools#Anthropic#Claude
精选理由
HKR 三项都过:Claude 接 Blender 是 Agent 往专业工具里伸了一只真能干活的手,不是概念图。正文没提版本、定价和上线范围,所以重要性停在 76,够 featured 但不到必写。我会先打个折——没看到实际跑起来的延迟和权限边界,这点先别太激动。
一句话点评
Claude 能直接操作 Photoshop、Blender 和 Ableton 了,不是生成内容,是替你点按钮、调参数。
锐评
Anthropic 给 Claude 装上了“创意连接器”,让它能直接操控 Photoshop、Blender、Ableton 这类专业软件。这跟之前让模型生成图片或音乐不一样——现在是模型去操作软件界面,帮你调图层、改节点、动音轨。对设计师和音乐人来说,省掉的是来回切换窗口和手动执行的步骤。 文章提到 Anthropic 同时给 Blender 基金会捐了一笔钱,目的是帮这个开源软件保持免费。这步棋挺聪明:先确保工具本身不被商业收购掐住脖子,再把自己的模型嵌进去。但正文没披露具体捐了多少,也没说连接器的延迟和错误率怎么样。创意工具对实时反馈要求很高,如果模型操作卡顿或者误触,体验会大打折扣。 现在还缺几个关键信息:连接器是本地运行还是走云端?支持哪些具体版本?对复杂工程文件(比如几百个图层的 PSD)的处理能力如何?这些直接决定它是真能进专业管线,还是只适合轻量演示。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
15:04
45d ago
Product Hunt · AI· rssEN15:04 · 04·28
ElevenLabs 推出客服与销售语音/聊天 Agent 模板
ElevenLabs 上线了预置的语音和聊天 Agent 模板,主打客服和销售场景。用户只需把模板指向自己的知识库或工作流,就能直接部署一个配置好的 Agent,不用从零搭建。正文没披露定价、底层模型、集成方式或具体上线时间,所以实际落地成本还不清楚。
#Agent#Audio#ElevenLabs#Product update
精选理由
小产品更新:HKR-K 靠产品存在和用例描述通过,但 HKR-H/R 偏弱。价格、模型、集成方式和上线时间都没说,所以分数压在 60 以下。
一句话点评
ElevenLabs 出 Agent 模板了,主打客服和销售,但定价和模型都没说。
锐评
ElevenLabs 把语音和聊天 Agent 做成了预置模板,用户只需指向自己的知识库或工作流就能部署,不用从零搭。场景明确:客服、AI销售、内部赋能。这对想快速试水语音 Agent 的团队来说,门槛确实降低了。但正文没披露定价、底层模型、集成方式或具体上线时间,所以实际落地成本还不清楚。如果按调用量计费,对高频客服场景可能不便宜;如果是固定月费,小团队才敢试。另外,模板的定制深度、能否对接现有CRM/工单系统,这些都没提。一句话:方向对,但信息缺口太大,先别急着上生产环境。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
14:35
45d ago
Hacker News 首页· rssEN14:35 · 04·28
Rocky:一个给数据仓库加分支、回放和列级血缘的Rust控制平面
Rocky是一个用Rust写的数据管道控制平面,不替代Databricks、Snowflake这些存储和计算引擎,而是在它们上面加一层治理层。核心功能包括:给SQL管道做分支(像Git一样)、SQL回放、编译时推导列级血缘、8字段审计、预算钩子,以及12种SQL方言的lint检查。亮点是把数据治理嵌进CI流程——从数据分类到脱敏检查都能自动化。项目刚发...
#Code#Tools#Rocky#Databricks
精选理由
Rocky 是一个数据与 SQL 治理工具,不是模型、智能体或重大 AI 产品发布。HKR 三项都通过,但属于小众开源工具,分数维持在 60–71 区间合理。
一句话点评
给数据管道加 Git 分支和回放,治理嵌进 CI,但刚发布,生态和稳定性待验证。
锐评
Rocky 用 Rust 写了一个数据管道控制平面,不替代 Databricks、Snowflake 等存储计算引擎,而是在上面加一层治理层。核心功能包括:给 SQL 管道做分支(像 Git 一样)、SQL 回放、编译时推导列级血缘、8 字段审计、预算钩子,以及 12 种 SQL 方言的 lint 检查。亮点是把数据治理嵌进 CI 流程——从数据分类到脱敏检查都能自动化。项目刚发布,正文没披露实际用户案例或性能基准,分支和回放功能在大型生产管道的稳定性、与现有调度器(如 Airflow)的集成成本都未知。如果团队正头疼数据血缘和审计合规,这个方向值得关注,但建议先在小范围试水。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
13:54
46d ago
● P1Ben's Bites· rssEN13:54 · 04·28
GPT-5.5 来了,价格翻倍但号称省 token,Cursor 跟 SpaceX 搞了个大单
OpenAI 发了 GPT-5.5,比上一代贵了一倍,单 token 价格甚至略高于 Claude Opus 4.7。但他们说新模型 token 效率提升了 40%,所以实际跑一个任务的成本没怎么变,Ramp 的测试也印证了这点。Ben 自己用下来觉得模型在“思考:低”模式下又快又聪明,已经把它设成默认了。另外 Claude 的托管代理记忆功能开始公测...
#Agent#Code#Memory#OpenAI
精选理由
这是一篇通讯汇总,不是一手发布,所以分数不会顶到 95 以上。但三条消息都够硬:GPT-5.5 的定价和效率数字能让人直接算账,Claude 记忆功能公测意味着外挂记忆开始进生产流程,Cursor 的收购选择权更是把编程工具的价值拉到一个新量级。我会先打个折,因为正文没展开技术细节,比如 40% 效率提升是在什么场景下测的、记忆功能有没有延迟数据,这些缺口让信息停留在“值得关注”而不是“可以立刻决策”的层面。整体对 AI 从业者来说,信息密度高、不水,给 89 分合理。
一句话点评
GPT-5.5 贵了一倍但 token 效率提升 40%,实际跑任务成本没怎么变,Ben 自己用下来觉得又快又聪明。
锐评
Ben 这期 newsletter 与其说是产品评测,不如说是一个 AI 投资人兼 builder 的自我定位。他聊 GPT-5.5 的方式很实在:价格翻倍,单 token 比 Claude Opus 4.7 还贵,但 OpenAI 说 token 效率提升了 40%,Ramp 的测试也印证了实际任务成本没怎么涨。Ben 自己把“思考:低”模式设成了默认,觉得又快又聪明——这个判断来自个人使用,不是跑分。 Claude 托管代理记忆功能开始公测,Cursor 跟 SpaceX/xAI 的交易里包含 2026 年 600 亿美元的购买选项,这两条正文只提了一嘴,没展开细节。 整篇真正花篇幅的是 Ben 对自己角色的反思:他卡在“非技术人觉得他技术、开发者不觉得”的中间地带,想带读者一起摸索怎么用 agent 干活,而不是卖课。这个视角对正在学用 AI 工具的从业者有用,但别指望从这里拿到模型对比的硬数据。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
13:26
46d ago
Hacker News 首页· rssEN13:26 · 04·28
OpenAI CEO 的身份验证公司官宣与 Bruno Mars 合作,结果搞错了人
Sam Altman 旗下做虹膜扫描身份验证的公司 Tools For Humanity,4月17日宣布与 Bruno Mars 巡演合作,推出“Concert Kit”工具让“验证过的人类”优先买票。5天后 Bruno Mars 团队和 Live Nation 联合否认,说根本没被接触过。TFH 后来改口,说实际合作对象是 Thirty Second...
#Safety#Tools For Humanity#OpenAI#Sam Altman
精选理由
HKR 三项都达标,但这本质上是 Sam Altman 关联公司的 PR 事故,不是 AI 产品、模型或安全更新。属于有趣但不值得上头条的新闻。
一句话点评
Sam Altman 的虹膜扫描公司官宣了假合作,把 Bruno Mars 和 Thirty Seconds to Mars 搞混了。
锐评
Tools For Humanity 4月17日宣布与 Bruno Mars 巡演合作,推出“Concert Kit”让“验证过的人类”优先买票。5天后 Bruno Mars 团队和 Live Nation 联合否认,说根本没被接触过。TFH 后来改口,说实际合作对象是 Thirty Seconds to Mars 2027 欧洲巡演——两个乐队名字里都有“Mars”,但差了二十多年资历。 这件事暴露了两个问题:一是 TFH 的对外沟通流程可能没做交叉验证,官宣前连合作方都没确认;二是“人类验证”这个卖点本身,如果连合作伙伴都能搞错,用户凭什么相信它能准确区分人和 AI?正文没披露 TFH 内部是否有人为此担责,也没说 Concert Kit 的具体用户量。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
13:19
46d ago
TechCrunch AI· rssEN13:19 · 04·28
脑机接口公司Neurable想把“读心术”授权给消费级穿戴设备
Neurable计划对外授权其非侵入式“读心”技术,说白了就是通过脑电波采集神经数据,用在耳机、头戴设备这类消费品上。CEO认为应用场景很广,但正文没披露授权价格、硬件规格和落地时间。这点先别太激动——技术成熟度和隐私处理方式都还是未知数。
#Neurable#Product update
精选理由
HKR-H和HKR-R成立:消费级“读心”可穿戴确实有话题性和隐私张力。HKR-K不成立:授权条款、硬件规格、上市时间和可复现的技术细节都没披露,信息量撑不起一个“值得跟进”的判断。
一句话点评
Neurable 要把脑电波“读心”技术授权给耳机、头戴设备厂商,但没披露价格、硬件规格和落地时间。
锐评
Neurable 做的是非侵入式脑机接口,说白了就是靠脑电波采集神经信号,然后授权给消费硬件厂商,比如耳机、头戴设备。CEO 画了个大饼,说应用场景很广,但正文没披露授权价格、硬件规格和落地时间。这点先别太激动——技术成熟度和隐私处理方式都还是未知数。非侵入式方案虽然比开颅安全,但信号精度和抗干扰能力一直是瓶颈,用在消费级产品上效果能打几折不好说。另外,神经数据属于敏感生物信息,Neurable 怎么处理隐私合规、用户能否关闭采集,正文一个字没提。如果真能低成本集成到现有耳机里,对注意力监测、冥想辅助这类场景是个新入口,但前提是信号质量别太拉胯。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R1
13:00
46d ago
TechCrunch AI· rssEN13:00 · 04·28
Red Hat 工程师给 OpenClaw AI 智能体套了个容器,企业部署更安全了
Red Hat 的 OpenClaw 维护者 Sally O'Malley 发布了一个叫 Tank OS 的开源工具,把 OpenClaw AI 智能体(可以理解成能自主干活的 AI 程序)装进容器里跑。容器相当于一个隔离沙箱,能让智能体在运行时不乱动宿主系统,尤其适合同时跑几十上百个智能体的企业场景。不过正文没披露具体的隔离机制、版本号或定价,想评估...
#Agent#Safety#Red Hat#OpenClaw
精选理由
HKR-K 和 HKR-R 通过:Tank OS 有明确的“容器化 agent 批量部署”事实,且切中企业级 agent 集群运维安全这个角度。正文没披露隔离机制、版本号和价格,所以分数压在 60–71 区间。
一句话点评
Red Hat 给 OpenClaw 智能体套了个容器沙箱,跑大批量时更安全。
锐评
Red Hat 的 OpenClaw 维护者 Sally O'Malley 发布了一个叫 Tank OS 的开源工具,把 OpenClaw AI 智能体(能自主干活的 AI 程序)装进容器里跑。容器相当于一个隔离沙箱,能让智能体在运行时不乱动宿主系统,尤其适合同时跑几十上百个智能体的企业场景。不过正文没披露具体的隔离机制、版本号或定价,想评估实际安全性还得等更多细节。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R1
12:56
46d ago
● P1量子位 · 公众号· rssZH12:56 · 04·28
小米开源MiMo-V2.5系列模型及Pro代理框架
小米把 MiMo-V2.5 系列的权重放出来了,包含 Pro Agent、多模态基座、TTS 和 ASR 几个模型。MiMo-V2.5-Pro 在 4.3 小时内连续调用了 672 次工具,在 SysY 基准上拿了满分 233 分,全程没让人接手,直接跑通了一个带 54 个应用的类 macOS 桌面。对从业者来说,值得关注的是它支持 100 万 tok...
#Agent#Code#Audio#Xiaomi
精选理由
HKR 三项全中:小米把 MiMo-V2.5 系列权重直接放出来,Agent 和代码任务的数字够具体,4 小时无接管跑出完整桌面是个强钩子。作为国产旗舰模型开源,属于当天必须写的那类消息。
一句话点评
小米把MiMo-V2.5系列全开源了,Pro版能同时操作54个应用不崩,浏览器真能自己冲浪,但正文没披露具体任务成功率。
锐评
小米这次把MiMo-V2.5系列模型和Pro代理框架都开源了,最抓眼球的是Pro版在演示里同时开了54个应用、浏览器能自主操作网页,没中断。这相当于让模型直接进桌面环境干活,不是只聊天。但得先打个折:文章来自量子位,原始公众号页面环境异常,我们没看到一手技术报告,所有性能数字都来自二手转述。 关键信息缺了不少。54个应用同时开,到底完成了什么任务?成功率多少?延迟多大?这些正文都没给。Pro代理框架听起来像是个桌面级agent workflow,但具体怎么调度、容错机制是什么,也没展开。开源是好事,但光有模型权重不够,配套的评测基准和复现步骤如果没跟上,社区很难验证。 对从业者来说,这条值得关注的是小米在端侧多模态代理上的工程尝试,但别急着对标GPT-4V或Claude Computer Use。先等一手技术报告,看看真实任务完成率和硬件需求再说。
HKR 分解
hook knowledge resonance
打开信源
98
SCORE
H1·K1·R1
12:56
46d ago
量子位 · 公众号· rssZH12:56 · 04·28
量子位招聘编辑和作者,三个AI方向全职岗位
量子位开放了三个内容岗位,分别覆盖AI基础设施、金融和产品方向,全部是北京中关村的坐班全职。岗位分编辑、资深作者和主编三个级别。正文没披露薪资范围,但提到截至2025年公众号订阅者超过240万、全平台用户700万。如果你在找AI媒体方向的工作,这是个直接的机会。
#QbitAI#Personnel
精选理由
HKR-K靠具体的招聘信息和用户数通过,但HKR-H和R都不达标。这是量子位自己的招聘广告,不是AI产品、模型、研究或行业事件,所以归入40分以下的噪音区。
一句话点评
量子位在招编辑作者,三个AI方向。正文被微信屏蔽了,看不到具体岗位要求和待遇。想投的可以直接去公众号找联系方式,但信息不全,建议先观望。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K0·R0
12:48
46d ago
彭博科技· rssEN12:48 · 04·28
英伟达供应商胜宏科技一季度营收增长28%,AI服务器PCB需求撑场
胜宏科技(Victory Giant)一季度营收同比增长28%,主要靠AI服务器用的PCB板(印刷电路板)拉动。28%这个增速在电子代工行业算不错,但正文没披露营收基数、利润率,也没说英伟达订单占多少比例,所以暂时没法判断这笔增长对利润的实际贡献。
#Nvidia#Victory Giant Technology#Commentary
精选理由
HKR-K通过:28%的销售增长是一个具体的AI服务器供应链信号。HKR-H和HKR-R较弱,因为正文未披露收入基数、利润率或英伟达订单占比,所以这条留在all层级。
一句话点评
英伟达供应商胜宏科技一季度营收增28%,靠AI服务器PCB板拉动,但利润和订单占比没披露。
锐评
胜宏科技一季度营收同比增长28%,主要靠AI服务器用的PCB板(印刷电路板)拉动。28%这个增速在电子代工行业算不错,说明AI硬件需求确实在往上游传导。但正文没披露营收基数、利润率,也没说英伟达订单占多少比例,所以暂时没法判断这笔增长对利润的实际贡献。另外,文章来自彭博,但正文被反爬墙拦截了,只有摘要和标题可用,信息缺口比较大。如果后续能补上毛利率变化和英伟达订单占比,才能判断胜宏是真正吃到了AI红利,还是靠低价冲量换来的营收。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R0
12:18
46d ago
r/LocalLLaMA· rssEN12:18 · 04·28
Qwen 3.6 27B 量化对比:Q4_K_M 用一半内存换 95% 的精度,本地部署首选
Reddit 用户实测了 Qwen 3.6 27B 的三种 GGUF 版本:BF16(原始精度)、Q4_K_M(4bit 量化)和 Q8_0(8bit 量化)。BF16 平均准确率 69.78%,Q4_K_M 和 Q8_0 分别掉到 66.54% 和 66.15%,差距不到 4 个百分点。但 Q4_K_M 峰值内存只要 28GB(BF16 是 54GB...
#Code#Reasoning#Tools#Qwen
精选理由
帖子有一个反直觉的量化结果(Q8_0 不如 Q4_K_M)和具体的本地运行指标,H/K/R 都通过。但来源是 Reddit 个人评测,基准细节有限,所以分数落在 60–71 区间。
一句话点评
Qwen 3.6 27B 量化到 Q4_K_M 后准确率只掉不到 4 个百分点,内存却从 54GB 降到 28GB,本地部署性价比很高。
锐评
Reddit 用户实测了 Qwen 3.6 27B 的三种 GGUF 版本:BF16(原始精度)、Q4_K_M(4bit 量化)和 Q8_0(8bit 量化)。BF16 平均准确率 69.78%,Q4_K_M 和 Q8_0 分别掉到 66.54% 和 66.15%,差距不到 4 个百分点。但 Q4_K_M 峰值内存只要 28GB(BF16 是 54GB),生成速度反而更快(22.5 tok/s vs 15.5),模型文件也从 53.8GB 缩到 16.8GB。Q8_0 表现有点尴尬:内存 42GB、速度 18 tok/s,准确率还略低于 Q4_K_M。 测试用了 HumanEval(代码)、HellaSwag(常识)和 BFCL(函数调用)三个基准,样本量不大(总共 664 条),且只跑了一次,没有多次取均值。正文没披露硬件配置和温度参数,量化对代码生成的影响(掉 5.5 个百分点)比常识推理和函数调用更明显。对于本地或 CPU 部署,Q4_K_M 确实是当前最实用的选择。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
12:00
46d ago
TechCrunch AI· rssEN12:00 · 04·28
Otter 新功能:一个搜索框查遍 Gmail、Notion、Jira 等 5 类企业工具
Otter 上线了企业搜索功能,用户可以把 Gmail、Google Drive、Notion、Jira、Salesforce 这 5 类账号连进来,跟已有的会议记录一起搜。说白了就是不用在几个应用之间来回切,一个搜索框搞定。后续还会支持 Outlook、Teams、SharePoint 和 Slack。不过正文没披露定价、权限控制细节和上线范围,所以...
#Tools#RAG#Otter#Google
精选理由
Otter 这次把搜索范围从会议记录扩展到 Gmail、Drive、Notion、Jira、Salesforce 五个常用工具,等于给企业用户一个统一搜索入口,省得在多个应用间来回切。痛点很明确——知识散落在不同系统里,找东西费劲。但正文没提价格、权限机制和上线范围,这点先别太激动:如果权限控制不到位,搜出来的结果可能不该看的人也能看到,合规风险不小。整体看是个务实的功能更新,但信息缺口让判断只能打七折。
一句话点评
Otter 把会议记录和 Gmail、Notion 等 5 个工具打通了,一个搜索框搞定跨应用查询。
锐评
Otter 这次做的是企业搜索,把 Gmail、Google Drive、Notion、Jira、Salesforce 这 5 类账号连进来,跟已有的会议记录一起搜。说白了就是不用在几个应用之间来回切,一个搜索框搞定。后续还会支持 Outlook、Teams、SharePoint 和 Slack。 对用户来说,这比单独搜每个工具方便,尤其适合开会后想找邮件里提到的附件或 Jira 里的任务。但正文没披露定价、权限控制细节和上线范围,所以企业采购前得自己问清楚:能不能按部门或项目隔离数据?管理员能不能控制谁搜什么?这些没讲,先别急着推全公司。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
11:56
46d ago
Hacker News 首页· rssEN11:56 · 04·28
微软开源语音 AI VibeVoice,GitHub 星数 4.3 万但技术细节几乎为零
微软在 GitHub 上发布了 VibeVoice 仓库,标题自称“开源前沿语音 AI”,目前拿到 4.3 万星和 4900 个 fork,热度很高。但正文只展示了仓库导航栏和页头,没有透露架构、许可证、训练数据或推理条件。星数可以作为关注度的参考,但实际能不能用、效果如何,得自己去翻代码和授权文件。目前信息缺口很大,建议先别急着下结论。
#Audio#Microsoft#GitHub#Open source
精选理由
HKR-H和HKR-R成立:微软开源语音仓库+43.9k star对从业者有吸引力。HKR-K不成立:正文缺许可证、架构、训练数据和推理细节,信息缺口明显。
一句话点评
微软开源语音 AI VibeVoice,4.3 万星但正文只露了仓库导航栏,架构、许可证、训练数据全没披露。星数只能说明关注度高,能不能用得自己翻代码。
锐评
微软在 GitHub 上扔了个 VibeVoice 仓库,标题自称“开源前沿语音 AI”,目前 4.3 万星、4900 fork,热度确实高。但正文只截到了仓库导航栏和页头,架构、许可证、训练数据、推理条件一概没披露。星数只能当关注度参考,实际能不能跑、效果如何,得自己去翻代码和授权文件。目前信息缺口很大——没提用了什么模型架构、训练数据规模、是否支持实时推理、延迟多少。建议先别急着下结论,等有人跑通再说。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
11:54
46d ago
X · @op7418(歸藏)· x-apiZH11:54 · 04·28
Codex 里做 PPT 现在能自动配图了,风格还挺多
作者优化了 Codex 里的 PPT Skills,现在生成 PPT 时会调用 GPT-Image-2 自动配图,支持人文纪实(类似胶片感)、信息图、流程图、对比图、关系图,还能把截图美化并调整比例。流程也改了:生成前会先问用户,不再直接跳过确认。正文没披露图片生成速度、成本或是否支持手动替换,这部分得自己试。
#Tools#Multimodal#Code#Codex
精选理由
正文没披露任何效果数据或用户反馈,就是一个个人工作流小改。亮点是 GPT-Image-2 调用和确认步骤,但没说明图片质量、生成速度或成本变化,信息缺口明显。
一句话点评
Codex 的 PPT 技能现在能自动配图了,但速度、成本、能否手动换图都没说。
锐评
作者在 Codex 里给 PPT Skills 加了个自动配图流程,调用 GPT-Image-2 生成图片,支持人文纪实(类似胶片感)、信息图、流程图、对比图、关系图,还能美化截图并调比例。生成前会先问用户,不再直接跳过确认。 亮点是图片风格有区分度,不是千篇一律的 AI 图。但正文没披露图片生成速度、每次调用成本、是否支持手动替换或编辑,这些对实际使用很关键。如果生成慢或贵,自动配图反而拖累效率。建议自己试一下再决定是否常用。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
11:29
46d ago
Hacker News 首页· rssEN11:29 · 04·28
新建燃气数据中心年排放量超过整个摩洛哥
WIRED 审查了 OpenAI、Meta、Microsoft、xAI 等公司关联的 11 个数据中心园区的燃气项目许可文件,发现这些项目每年可能排放超过 1.29 亿吨温室气体,比摩洛哥 2024 年全年排放还高。这些数据中心不走电网,自己建燃气发电(即“表后供电”),因为等电网接入太慢、公众又怕电费涨。正文没披露这些排放量具体怎么算的、基准国家选摩...
#Wired#Commentary
精选理由
HKR-H 和 HKR-R 通过:标题把 AI 数据中心的外部性能耗包装成可点击的对比。HKR-K 不通过:正文只有片段,没披露排放量、项目规模或方法论,信息不足以支撑判断。
一句话点评
OpenAI、Meta 等公司自建燃气发电站给数据中心供电,年排放1.29亿吨温室气体,比摩洛哥全国还高。
锐评
WIRED 审查了 OpenAI、Meta、Microsoft、xAI 等公司关联的 11 个数据中心园区的燃气项目许可文件,发现这些项目每年可能排放超过 1.29 亿吨温室气体,比摩洛哥 2024 年全年排放还高。这些数据中心不走电网,自己建燃气发电(即“表后供电”),因为等电网接入太慢、公众又怕电费涨。 关键数字:1.29 亿吨/年,相当于一个中等国家的排放量。但正文没披露这些排放量具体怎么算的、基准国家选摩洛哥是否刻意压低对比值,也没说这些项目是否包含碳捕集或抵消计划。对于 AI 从业者,这意味着算力选址的碳约束正在从政策讨论变成实际许可门槛——如果你在规划新集群,得把当地碳排放审批周期算进 timeline。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
11:24
46d ago
Hacker News 首页· rssEN11:24 · 04·28
Claude Code 写的代码,版权到底归谁?
Anthropic 意外泄露了 Claude Code 的 51 万行源码,结果发现这些代码大部分是 Claude 自己写的——那 Anthropic 自己还能主张版权吗?文章拆了三个关键点:第一,美国版权局和最高法院都确认,纯 AI 生成的内容不受版权保护,只有人类做了“有意义的创作决策”(比如选架构、改结构、决定删什么)才算数,光给一句 promp...
#Code#Commentary#Policy
精选理由
HKR-H 和 HKR-R 通过:Claude Code 代码权属是面向从业者的真实法律担忧。HKR-K 不通过:目前只有标题和 HN 上 37 分、35 条评论这些表层信息,没有法律结论或条款细节,无法支撑判断。
一句话点评
Anthropic 意外泄露了 Claude Code 的 51 万行源码,结果发现大部分是 Claude 自己写的——那 Anthropic 自己还能主张版权吗?
锐评
文章拆了三个关键点:第一,美国版权局和最高法院都确认,纯 AI 生成的内容不受版权保护,只有人类做了“有意义的创作决策”(比如选架构、改结构、决定删什么)才算数,光给一句 prompt 不够。第二,雇佣合同通常把工作成果自动归公司,但 AI 辅助写的东西算不算“工作成果”还没判例。第三,训练数据里如果混了 GPL 代码,AI 生成的代码可能“自带传染性”,你不知不觉就违反了开源协议。 文章用 Claude Code 泄露事件当引子,但核心是给所有用 AI 写代码的人提个醒:你写的代码可能根本不受版权保护,别人抄了你也告不了。正文没披露任何具体判例的判决书编号,也没给出“多少比例的人类修改才算够”的量化标准。如果你在商业产品里大量用 AI 生成代码,这篇文章的价值是让你意识到风险,但不会告诉你具体怎么合规。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
10:05
46d ago
Hacker News 首页· rssEN10:05 · 04·28
GitHub 发了一篇可用性更新,但正文几乎没透露任何细节
GitHub 博客发了一篇标题为“可用性更新”的文章,但正文只列出了导航菜单和页面结构,没有说明这次故障的范围、持续时间、影响了哪些产品以及如何修复。Hacker News 上有 67 个点赞和 29 条评论,说明社区在关注,但官方信息缺口很大。如果你想知道自己是否遇到了那次宕机、原因是什么,这篇博客给不了答案。
#GitHub#Hacker News#Incident
精选理由
GitHub 官方发了一条可用性更新,但正文几乎没内容——只有链接、67 个 Hacker News 分和 29 条评论。故障范围、持续多久、哪些服务受影响、怎么修的,全没写。对 AI 工程团队来说,这只能算一个待核实的依赖风险信号,不能直接当事故处理。
一句话点评
GitHub 发了篇故障更新,但正文只有导航菜单,没写任何实质内容。
锐评
标题说“可用性更新”,但正文只列了页面结构,没披露故障范围、持续时间、影响哪些产品以及修复措施。Hacker News 上 67 个点赞、29 条评论说明社区在关注,但官方信息缺口很大。如果你想知道自己是否遇到了那次宕机、原因是什么,这篇博客给不了答案。正文没披露任何故障细节,建议直接看 GitHub 状态页或等后续补充。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K0·R1
10:03
46d ago
X · @Khazix0918· x-apiZH10:03 · 04·28
内部AI工具三件套:Skill Hub、应用入口、一句话部署服务器
作者给公司全员做了内部分享,展示了三个自研AI工具。Skill Hub让员工上传、订阅和自动同步AI技能(Skill),解决版本混乱问题;应用入口统一存放内部应用,包括运营看板和小游戏;服务器部署助手把本地项目一键部署到公司服务器,非技术人员也能用。另外预告了一个免费AI热点监控网站AI Hot,但正文没披露上线时间。
#Agent#Code#Tools#AI Hot
精选理由
这是一条个人发的内部工具分享帖,工具本身具体(Skill Hub 支持上传/订阅/自动同步新版,部署助手一句指令上服务器),所以 HKR 三项都成立。但影响面窄:没有公开上线时间、没有代码、没有定价、没有可复现的部署方案,所以分数卡在 60–71 区间。正文没披露 AI Hot 监控网站何时免费公开,这点先别太激动。
一句话点评
三个内部工具,最实用的是服务器部署助手,非技术人员也能一键部署项目到公司服务器。
锐评
作者分享了三个自研AI工具:Skill Hub解决AI技能版本混乱问题,支持上传、订阅和自动同步;应用入口统一存放内部应用,包括运营看板和小游戏;服务器部署助手把本地项目一键部署到公司服务器,非技术人员也能用。另外预告了一个免费AI热点监控网站AI Hot,但正文没披露上线时间。 亮点是部署助手降低了部署门槛,让vibe coding产出的项目能真正分享使用。但这些都是内部工具,没有开源计划,外部无法验证实际效果。AI Hot网站功能描述比较模糊,只说“精选策略和监控流程”,具体怎么去噪、更新频率、覆盖哪些信源都没说。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
09:56
46d ago
r/LocalLLaMA· rssEN09:56 · 04·28
smolcluster:一个想把家里所有设备凑一起跑模型的工具
一个开发者在做 smolcluster,目标是把自己手头的电脑、Mac mini 全连起来做本地训练和推理。它从零用 Python 和原生 socket 实现了 FSDP、DP、MP、PP 这些分布式策略。演示里用三台 2024 款 16GB Mac mini 跑 GRPO,走同步参数服务器加 vllm-metal worker。效果先别太激动,16G...
#Inference-opt#Fine-tuning#Tools#smolcluster
精选理由
HKR 三项都过,但这是单个 Reddit 项目,只有实现笔记,没披露成熟度、基准测试或可复现日志,所以分数压在 60–71 区间。正文没提训练速度、收敛效果或稳定性,这点先别太激动。
一句话点评
把多台 Mac mini 串起来做分布式训练,想法不错,但 16GB 内存加同步参数服务器,性能瓶颈明显。
锐评
smolcluster 是一个开源项目,目标是把用户手头的多台设备(比如 Mac mini、PC)连起来做本地训练和推理。它从零用 Python 和原生 socket 实现了 FSDP、DP、MP、PP 等分布式策略,不依赖 MPI 或 NCCL。演示里用三台 2024 款 16GB Mac mini 跑 GRPO(一种强化学习微调方法),走同步参数服务器加 vllm-metal worker。 关键数字:三台 16GB 设备,内存总和 48GB,但同步参数服务器意味着每步都要等最慢的节点,通信开销大,实际可用算力远低于三倍。正文没披露训练速度、吞吐量或收敛效果,所以“能跑”和“跑得快”是两回事。 亮点是纯 Python 实现,降低了分布式训练的门槛,适合手头有多台闲置设备的个人开发者尝鲜。但 16GB 内存跑 GRPO 很容易 OOM,且同步模式在异构设备上效率低。如果后续支持异步或流水线并行,实用性会提升。目前更像一个技术验证,离生产级还有距离。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
09:53
46d ago
r/LocalLLaMA· rssEN09:53 · 04·28
RX 6900 XT 跑 Gemma 4 和 Qwen 3.5:Vulkan 比 ROCm 快一点
Reddit 用户 grumd 拿 RX 6900 XT 在 llama.cpp 上对比了 ROCm 6.4.2 和最新 Vulkan 的推理速度。跑 Gemma 4 E2B Q4_K 量化模型、batch 512 时,Vulkan 的预处理速度是 3950.71 tokens/秒,ROCm 是 3807.60,Vulkan 快约 4%。跑 Qwen ...
#Inference-opt#Benchmarking#AMD#llama.cpp
精选理由
单个 Reddit 用户的硬件跑分,覆盖的 GPU 和模型很窄,也没有其他来源交叉验证。对本地推理读者有参考价值,但不够格当头条。
一句话点评
Vulkan 在 RX 6900 XT 上跑 Gemma 4 比 ROCm 快 4%,但生成速度优势更明显。
锐评
Reddit 用户 grumd 实测 RX 6900 XT 在 llama.cpp 上跑 Gemma 4 E2B Q4_K 量化模型,batch 512 时 Vulkan 预处理速度 3950.71 tokens/秒,ROCm 是 3807.60,Vulkan 快约 4%。生成阶段差距更大:跑 Qwen 3.5 4B Q8_0 时,Vulkan 稳定在 88.5 tokens/秒,ROCm 只有 77.8,快了近 14%。这说明对 AMD 老卡(RDNA2 架构)来说,Vulkan 后端在生成场景下比官方 ROCm 更高效,可能因为 Vulkan 驱动优化更到位。不过测试只覆盖了单卡、两个模型和特定量化,没披露功耗和显存占用,也没对比更老的 ROCm 版本。如果你手头有 6900 XT 跑本地推理,可以优先切 Vulkan 后端,但大规模部署或混合精度场景仍需 ROCm 验证。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
09:00
46d ago
最佳拍档· atomZH09:00 · 04·28
Meta和微软同时优化近两万人:裁员、买断、AI基建投入,员工数据被用来训练模型
标题说Meta和微软合计优化近两万个岗位,涉及裁员、自愿买断计划和AI基础设施投入。正文没披露具体时间、哪些部门受影响、买断条件,也没说AI到底替代了哪些岗位。员工被当成AI训练数据这一点值得留意,但细节为零。
#Meta#Microsoft#Personnel#Commentary
精选理由
硬排除6适用:正文为空,只有标题级断言,没有来源、岗位、买断条款或AI替代机制。HKR-H/R通过,HKR-K不通过,所以重要性上限卡在40以下。
一句话点评
标题说裁两万人,但正文一个字都没有,先别信。
锐评
标题说Meta和微软合计优化近两万个岗位,涉及裁员、自愿买断和AI基建投入。但正文是空的,来源只有YouTube标题和RSS摘要,没有具体时间、部门、买断条件,也没说AI到底替代了哪些岗位。员工被当成AI训练数据这个点值得留意,但细节为零。如果是真的,两万人的规模说明大厂在用人上开始动真格,但没数据支撑前只能当传闻看。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H1·K0·R1
08:06
46d ago
r/LocalLLaMA· rssEN08:06 · 04·28
vLLM 负载不均:新 pod 空转,热 pod 排队,怎么破?
Reddit 用户反映,用 vLLM 生产栈自带的 KEDA 自动扩缩容(按等待请求数触发)时,突发 LLM 调用会打爆部分 pod。新 pod 虽然按规则扩容了,但因为没有请求转发机制,热 pod 继续排队,新 pod 却闲着。正文没披露集群规模、QPS 或网关配置,所以问题可能出在负载均衡层——KEDA 只管扩缩,不管把请求分给谁。目前社区建议要么...
#Inference-opt#vLLM#KEDA#Theboyscampus
精选理由
HKR-K/R 通过:KEDA 按等待请求数扩容,但新 pod 空闲,热 pod 队列未被重定向。一条 Reddit 求助帖,没有答案、QPS、网关或集群规模,价值偏低。
一句话点评
vLLM 自带的 KEDA 只管扩缩,不管请求分发,突发流量下热 pod 排队、新 pod 闲置。
锐评
问题很典型:KEDA 按等待请求数触发扩容,但新 pod 启动后没有负载均衡把请求分过去,导致热 pod 继续排队,新 pod 闲着。正文没披露集群规模、QPS 或网关配置,所以不清楚是缺 ingress 层(比如 Nginx/Envoy)还是用了简单的轮询策略。社区建议要么加一个真正的负载均衡器(如 Envoy 或 HAProxy),要么用 vLLM 的 router 组件做请求分发。这点先别太激动——KEDA 本身不是负载均衡器,它只负责扩缩容,问题出在架构上缺了一层。如果集群小(比如 2-3 个 pod),手动调一下 ingress 规则也能撑;大规模生产环境就得补网关。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R1
07:46
46d ago
r/LocalLLaMA· rssEN07:46 · 04·28
MoE vs Dense 模型首次直接对比,论文链接在此
Reddit 用户发帖称这是首次把 MoE(混合专家)和 Dense(传统密集)模型放在同等条件下直接比较,并附了一篇 arXiv 论文链接。但帖子正文没披露模型参数量、训练配置、跑过哪些基准测试、以及具体结论。想复现或评估结论可靠性的从业者得自己去读论文。
#Benchmarking#Reddit#LocalLLaMA#arXiv
精选理由
H 和 R 通过,但 K 不通过——这本质上是一条 Reddit 链接转发帖,没有可复现的设置或结果摘要。对从业者来说,标题有钩子,但正文等于没写,只能算低价值的研究线索,不触发硬排除。
一句话点评
MoE vs Dense 首次同条件对比,但帖子只扔了个论文链接,正文啥都没说。
锐评
Reddit 用户声称这是首次把 MoE(混合专家,多个小模型分工干活)和 Dense(传统大模型一个网络全包)放在同等条件下直接比较,并附了一篇 arXiv 论文链接。但帖子正文没披露模型参数量、训练配置、跑过哪些基准测试、以及具体结论——信息缺口很大,想复现或评估结论可靠性的从业者得自己去读论文。如果论文真的控制了参数量、计算量和数据量,那结果对架构选型有参考价值;但来源是 Reddit 个人帖,未经同行评审,结论要打折。缺的是:论文是否开源、基准测试覆盖哪些任务、以及 MoE 的专家数量和路由策略。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R1
07:41
46d ago
机器之心 · 公众号· rssZH07:41 · 04·28
openJiuwen 发布「协作工程」规范,把多智能体团队的工作流写成可复用的 SKILL 文件
openJiuwen 社区发布了一套叫 Coordination Engineering 的工程栈,核心是把多个智能体(agent)组队干活的方式标准化。它定义了一个 Team Skill 概念,用 SKILL.md、roles、workflow.md 等文件描述一个团队该怎么做任务,然后通过 teamskill-creator 工具,从一句自然语言描...
#Agent#Tools#Memory#openJiuwen
精选理由
HKR 三项都过:角度有钩子、文件级机制够具体、切中编排与复用的痛点。重要性没到 featured 是因为正文没披露实际采用数据、性能对比或大厂背书,目前更像一个社区规范提案,落地效果待验证。
一句话点评
把多智能体协作流程写成标准化文件,方便复用和分享。
锐评
openJiuwen 社区发布的 Coordination Engineering 工程栈,核心是把多个智能体组队干活的方式标准化。它定义了一个 Team Skill 概念,用 SKILL.md、roles、workflow.md 等文件描述团队任务,然后通过 teamskill-creator 工具,从一句自然语言描述就能生成整套配置。这套东西的好处是让多智能体协作不再是手写脚本,而是可复用、可分享的标准化文件。但正文没披露实际效果数据,比如相比手写流程能省多少时间、任务成功率提升多少。另外,它依赖 JiuwenClaw 框架,目前社区生态还不大,实际落地案例有限。如果真能降低多智能体编排门槛,对中小团队挺实用,但这点先别太激动,等更多 benchmark 或用户反馈出来再说。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
07:34
46d ago
r/LocalLLaMA· rssEN07:34 · 04·28
7900XT 跑 Qwen3.6 27B 做代码生成,显存吃了 18.6GB
Reddit 用户 Mordimer86 在 7900XT 上跑 Qwen3.6 27B 做 OpenCode 代码任务。他用 llama-server 加载 IQ4_XS 量化版 GGUF 模型,上下文开到 65536,K/V 缓存用 q8_0,显存占用约 18.6/20GB。帖子提到 Qwen3.6 35B MoE 版本能上更高量化,但发帖人觉得 ...
#Code#Inference-opt#Qwen#OpenCode
精选理由
这是一个 Reddit 用户的单条配置求助帖,不是基准测试、横向对比或产品更新。它提供了具体的本地推理设置和显存占用数据,对同款显卡用户有参考价值,但信息量有限,正文没披露实际推理速度或生成质量对比。
一句话点评
7900XT 跑 Qwen3.6 27B 做代码任务,显存吃紧但能跑。
锐评
Reddit 用户 Mordimer86 在 7900XT(20GB 显存)上跑 Qwen3.6 27B 做 OpenCode 代码任务,用 IQ4_XS 量化版 GGUF,上下文开到 65536,K/V 缓存用 q8_0,显存占用约 18.6/20GB,几乎占满。这个配置说明 27B 模型在消费级显卡上勉强能跑长上下文代码生成,但余量很小,跑复杂任务可能爆显存。帖子提到 35B MoE 版本能上更高量化,但作者偏好 27B——MoE 虽然参数多但激活量少,理论上更省显存,但实际效果没对比。 正文没披露具体生成速度(token/s)和代码质量,也没说 OpenCode 任务的具体类型(补全/生成/修复)。如果只是跑通 demo,参考价值有限;如果是实际开发场景,延迟和稳定性才是关键。建议关注后续是否有 benchmark 或实测数据。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H0·K1·R1
06:55
46d ago
r/LocalLLaMA· rssEN06:55 · 04·28
如何在笔记本上跑 Gemma 4 多模态?6GB 显存够用
Reddit 用户问怎么在笔记本上跑 Gemma 4 E4B 多模态模型,目标显存低于 6GB。llama.cpp 目前对这类模型的视觉和音频支持不完善,所以他的方案是:用 Unsloth 的 GGUF Q4 量化版做文本推理,再加一个全精度的 PyTorch 音频编码器,总显存占用约 5.5-6GB。正文没披露具体帧率或延迟,但至少证明 6GB 显存...
#Multimodal#Vision#Audio#Gemma
精选理由
这是一条Reddit上的实现笔记,不是模型或框架发布。有用信号是6GB显存路径和llama.cpp的缺口,适合放在所有频道但不用置顶。正文没披露音频编码器的具体延迟或精度损失,这点先别太激动。
一句话点评
6GB 显存就能跑 Gemma 4 多模态,但音频部分得自己搭编码器。
锐评
Reddit 用户分享了一个在笔记本上跑 Gemma 4 E4B 多模态模型的方案:用 Unsloth 的 GGUF Q4 量化版做文本推理,再外挂一个全精度的 PyTorch 音频编码器,总显存压在 5.5-6GB。这证明 6GB 显存确实能跑,但代价是视觉和音频支持不完整——llama.cpp 目前对这类模型的支持有缺口,用户得自己拼凑编码器。正文没披露具体帧率或延迟,所以实际体验可能打折扣。对想本地跑多模态的开发者来说,这个方案提供了一个低门槛入口,但音频部分的兼容性和性能还需要自己验证。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
06:27
46d ago
X · @op7418(歸藏)· x-apiZH06:27 · 04·28
OpenAI 一到周末就给 Codex 重置速率限制
有用户发现 OpenAI 的 Codex 产品每到周末就会重置速率限制,但推文没提具体是哪个套餐、哪个地区、重置逻辑是什么。如果这是免费或低档套餐的固定策略,那对周末赶活的开发者算个小福利——至少不用等额度恢复。不过正文没披露重置后额度是多少、是否影响付费用户,这点先别太激动。
#Code#OpenAI#Product update
精选理由
这是一条用户发的推文,不是 OpenAI 官方公告。H 和 R 勉强成立,因为确实戳中了重度用户和 coding agent 用户的痛点;但 K 不成立,正文没披露任何关键细节(额度、套餐、地区、重置逻辑),信息量极低,属于低价值的社交信号,没有硬伤但也不值得高优先级处理。
一句话点评
周末重置额度,对赶活的开发者算小福利,但具体规则没披露。
锐评
有用户发现 OpenAI 的 Codex 每到周末就重置速率限制,推文没提是哪个套餐、哪个地区、重置逻辑是什么。如果这是免费或低档套餐的固定策略,那对周末赶活的开发者算个小福利——至少不用等额度恢复。不过正文没披露重置后额度是多少、是否影响付费用户,这点先别太激动。另外,重置频率和额度上限直接影响开发者的实际使用体验,但信息缺口较大,无法判断这是临时 bug 还是有意设计。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H1·K0·R1
05:41
46d ago
新智元 · 公众号· rssZH05:41 · 04·28
易鑫用自研金融Agent跑通汽车贷款流程,黄仁勋说的100万亿市场有了一个落地样本
易鑫在汽车金融里上线了一套Agent系统,核心是他们自己训的30B参数模型XinMM-AM1,单卡推理每秒能跑370个token,延迟压在200毫秒以内,训练用了超过15万亿token。这套系统真正干活的地方是一个三层架构的Harness控制层,专门处理人工接管、策略合规、操作留痕和训练反馈。正文没披露具体业务指标和实际放款量,所以效果到底怎么样还不好...
#Agent#Multimodal#Safety#Yixin
精选理由
HKR-K和R都过了:模型规格和Harness治理细节对金融Agent落地有参考意义,K给了具体数字,R切中了合规痛点。H偏弱,标题蹭黄仁勋但正文没展开,主体也不是一线实验室,所以分数压在60-71区间。
一句话点评
易鑫用自研30B模型做汽车金融Agent,单卡推理370 token/s,延迟200ms以内,但没披露实际放款效果。
锐评
易鑫这套Agent系统核心是自研的30B参数模型XinMM-AM1,单卡推理每秒370个token,延迟压在200毫秒以内,训练用了超过15万亿token——这个数据量不小,但30B模型在金融场景里够不够用,得看具体业务复杂度。真正干活的是三层Harness控制层,专门处理人工接管、策略合规、操作留痕和训练反馈,这点比单纯堆模型更务实:金融Agent最难的不是推理快,而是出错后谁能兜底、怎么追溯。 正文没披露具体放款量和坏账率,所以“100万亿市场”更像黄仁勋画的大饼,易鑫只是在一个细分场景里先跑通了流程。如果后续能公开Agent替代了多少人工审核、审批通过率变化,才有参考价值。目前看,这套架构对做金融Agent的团队有启发,但效果还得等数据。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R1
05:38
46d ago
Latent Space· rssEN05:38 · 04·28
图像生成是通往AGI的必经之路
Latent Space 的周报认为,GPT-Image-2、Nano Banana 和 Grok Imagine 这类图像生成模型不是“副业”,而是实现 AGI 必须投入算力的核心工作。理由是:光靠文本、代码和结构化输出不够,多模态视觉生成(包括透明图)才能真正发挥“通用”中的“通用”二字。文章特别强调“图像生成 + Codex 循环”的价值——边写...
#Multimodal#Agent#Code#OpenAI
精选理由
这是一篇4月26-27日的AINews汇总,带有评论性质,不是一手发布。67.1%的分数和100万token上下文确实增加了信息量,但来源单一且是汇总文,所以没给到featured。
一句话点评
图像生成不是副业,是AGI必须砸算力的核心方向。
锐评
Latent Space 这篇周报的核心判断很直接:GPT-Image-2、Nano Banana、Grok Imagine 这类图像生成模型不是“做着玩的”,而是实现 AGI 必须投入算力的主干任务。理由是光靠文本、代码和结构化输出不够,多模态视觉生成(包括透明图)才能真正发挥“通用”中的“通用”。文章特别强调“图像生成 + Codex 循环”的价值——边写代码边生成素材,把开发闭环彻底打通。 但要注意,这篇文章是付费周报,观点性强,缺少具体成本或效率对比数据。比如“GPT-Image-2 + Codex”到底比纯文本编码快多少?没给数字。另外,文章引用的例子(乐高、教育图、信息图)都是展示性用例,没有说明在真实业务场景(如游戏资产管线、UI 批量生成)中的落地效果。 还缺什么:缺图像生成 vs 纯文本/代码在 AGI 路线上的算力分配对比,缺 GPT-Image-2 的 API 定价或推理成本,缺 Nano Banana 和 Grok Imagine 的具体评测基准。如果你在评估是否要把图像生成纳入核心路线,这篇可以作为论点参考,但决策还需要更硬的成本和效果数据。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
04:48
46d ago
r/LocalLLaMA· rssEN04:48 · 04·28
双卡3090跑Qwen3,功耗设到250W最划算
Reddit用户JC1DA实测了2张RTX 3090跑Qwen3.6-27B,用vLLM、TP=2、int4量化加fp8 KV缓存,喂了100条ShareGPT提示。结论是并发数为1时,功耗设到275W生成速度最快,但250W是功耗和速度的平衡点——再往上加电,速度提升就不明显了。正文没披露完整的功耗-速度曲线数值,所以没法精确算省了多少电。如果你自己...
#Inference-opt#Benchmarking#Qwen#vLLM
精选理由
一个 Reddit 用户实测 2×3090 跑 Qwen3.6-27B,发现 250W 是功耗和生成速度的折中点。配置列得挺全,但完整曲线没给,所以只能算个参考点,不是严谨评测。对想省电又不想太慢的本地玩家有参考价值,但别当权威结论。
一句话点评
实测2×3090跑Qwen3.6-27B,250W是功耗和速度的甜点。
锐评
Reddit用户JC1DA实测2张RTX 3090跑Qwen3.6-27B,用vLLM、TP=2、int4量化加fp8 KV缓存,喂了100条ShareGPT提示。结论很实用:并发数为1时,功耗设到275W生成速度最快,但250W是功耗和速度的平衡点——再往上加电,速度提升就不明显了。这意味着如果你自己搭推理服务,把功耗从默认的350W降到250W,能省近30%电,速度损失很小。不过正文没披露完整的功耗-速度曲线数值,所以没法精确算省了多少电。如果你自己跑,建议用类似方法测一下你的模型和卡,因为不同量化、批大小、并发数下甜点可能不同。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R1
04:32
46d ago
Hacker News 首页· rssEN04:32 · 04·28
旧金山:AI 之都,经济拖油瓶
《经济学人》给旧金山贴了个标签:全球 AI 之都,但经济表现却拖后腿。文章标题直接点出这个矛盾,但正文没披露具体的经济指标(比如 GDP 增速、就业率)、AI 公司数量,也没说跟谁比、怎么比的。所以这个“经济 laggard”到底有多差、差在哪,目前只能看个结论。HN 上 30 分、18 条评论,讨论热度一般。
#The Economist#Hacker News#San Francisco#Commentary
精选理由
H 和 R 过关:经济学人的标题自带反差,而且戳中 AI 从业者对旧金山的复杂情绪。K 不过关:正文只有一段摘要,没披露任何可验证的数据,比如 GDP 增速、AI 企业数量、对比城市是谁,所以分数压在 60–71 区间。
一句话点评
《经济学人》说旧金山是AI之都但经济拖后腿,正文没给具体数据,结论先打个折。
锐评
《经济学人》给旧金山贴了个标签:全球AI之都,但经济表现却拖后腿。标题直接点出这个矛盾,但正文没披露具体的经济指标(比如GDP增速、就业率)、AI公司数量,也没说跟谁比、怎么比的。所以这个“经济laggard”到底有多差、差在哪,目前只能看个结论。HN上30分、18条评论,讨论热度一般。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
04:00
46d ago
FT · 科技· rssEN04:00 · 04·28
美国数据中心大分裂:乡下人不想给AI盖电厂
美国农村社区正在抵制AI基础设施,跟白宫唱反调。正文被付费墙挡住,没披露具体地点、项目数量、用电需求或政策细节。
#White House#Financial Times#Policy
精选理由
FT来源有分量,HKR-H和HKR-R靠清晰的数据中心冲突过关。HKR-K不通过,因为RSS摘要里没有地点、项目数量、电力数据或政策机制,所以评分卡在中段全员可见。
一句话点评
美国农村社区跟白宫对着干,抵制AI数据中心建设。
锐评
FT这篇报道点出了一个关键矛盾:白宫在推AI基建,但农村社区不买账。正文被付费墙挡住,没披露具体地点、项目数量、用电需求或政策细节,信息量有限。但光看标题和摘要,这事值得关注——AI数据中心耗电、占地、噪音,农村居民直接受影响,而政策制定者往往忽略基层声音。如果这种抵制扩散,会拖慢美国AI基建落地速度。缺的是具体案例和规模数据,比如有多少项目被拒、涉及多少兆瓦电力。这点先别太激动,等全文出来再看细节。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
04:00
46d ago
AI 群聊日报· atomZH04:00 · 04·28
Claude Code Remote 连接故障、DeepSeek 不调用工具等多项问题
今天群聊信息量很大。Claude Code Remote 频繁 429 断连,有群友自己做了短线重连方案。猫仔复盘了用 AI 改编译器项目的教训:信息太多把 AI 淹了,50 多条需求只听进去不到 20%,0.5M 的 test case 编译出 10M 代码后报错信息又把 AI 刷傻。DeepSeek 在 OpenClaw 中完全不调用工具,群友直言...
#Code#Tools#Agent#Anthropic
精选理由
HKR-K/R通过,但这是群聊汇总,没有复现日志、影响范围或修复时间表。对从业者是实用信号,不够头条。
一句话点评
短评:群聊日报信息密度高,但来源匿名,每条消息需自行验证。 点评:这篇日报汇总了4月27日AI技术群聊的核心讨论,信息量很大但来源是匿名群友,每条消息的可靠性要打折扣。几个值得关注的点:opencode的subagent工作流用自然语言调度多任务并行,实测能跑一两天,效率提升明显,但这是个人经验,大规模复制需谨慎;Codex的“良性bug”让5小时额度用尽后任务仍继续运行,省钱但官方随时可...
锐评
这篇日报汇总了9条AI实践讨论,最有价值的是猫仔的编译器项目复盘:50多条需求AI只听进去不到20%,0.5M test case编译出10M代码后报错又把AI刷傻——这是典型的信息过载导致AI质量下降,正文没披露具体用了哪个模型和上下文窗口大小。Claude Code Remote 429断连问题,群友做了短线重连方案但没开源。DeepSeek在OpenClaw中完全不调用工具,群友直言“benchmark都是假的”,这点先别太激动——可能只是OpenClaw的tool prompt没适配DeepSeek。Anthropic“删库跑路”事件9秒删库,但正文没披露数据库配置和备份策略。一人AI SOC替代28人外包团队,技术上可行但商业化路径不清晰。整体来看,群聊日报的价值在于一线踩坑经验,但每条都缺原始链接和具体数据,无法独立验证。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
03:50
46d ago
r/LocalLLaMA· rssEN03:50 · 04·28
一个 Reddit 用户弃用本地大模型写代码:两轮 Docker 对话吃掉 25 万 token
Reddit 用户 /u/dtdisapointingresult 发帖说,他花了几周用 Qwen 27B 和 Gemma 4 31B 做 OS/Docker 任务,最后决定放弃本地大模型写代码。具体原因是两次 Docker 会话的输入 token 都飙到了 25 万,模型超时处理差,还得靠宿主机手动重试安装。帖子没透露硬件配置、量化设置和用的什么 a...
#Agent#Code#Tools#OpenRouter
精选理由
HKR三项全通过:一个具体的失败案例加上25万token的细节足够支撑。重要性压在60–71区间,因为这只是单个Reddit用户的经历,且帖文未披露硬件、量化配置和具体agent设置,信息缺口明显。
一句话点评
本地模型写代码,token 一多就崩,作者直接弃坑了。
锐评
Reddit 用户发帖说,用 Qwen 27B 和 Gemma 4 31B 做 OS/Docker 任务几周后,决定放弃本地大模型写代码。两次 Docker 会话输入 token 都飙到 25 万,模型超时处理差,还得靠宿主机手动重试安装。25 万 token 意味着上下文窗口几乎撑爆,对本地部署的推理速度和内存都是巨大考验。帖子没披露硬件配置、量化设置和用的什么 agent 应用,所以不能全怪模型——量化太低或 agent 框架本身就有 bug 也可能导致超时。 这条的价值在于:它暴露了本地模型做 agent 任务时的一个真实瓶颈——长上下文下的稳定性和超时处理。OpenRouter 等 API 服务可能更省心,但本地部署的性价比和可控性仍是很多人坚持的理由。缺的是具体硬件和量化信息,以及 agent 框架的对比测试。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
03:16
46d ago
r/LocalLLaMA· rssEN03:16 · 04·28
MiMo 2.5 号称不胡说,75% 无幻觉率,但没说是啥测试
Reddit 用户发帖说 MiMo 2.5 在某个未公开的测试集上达到 75% 和 68% 的无幻觉率,Pro 版只比 Opus 4.7 max 低 3 个点。模型是 316GB FP8 版本,体积不小。帖子没交代测试集是什么、样本量多少,所以这个数字先打个折。
#Benchmarking#Inference-opt#Beamsters#Open source
精选理由
这条信息来自一条 Reddit 帖子,来源单一,正文没披露评测集、样本量和复现实验设置,信息缺口明显。数字(75%、68%、3 分差距、316GB)有参考价值,但验证太弱,适合当社区讨论看,不适合当正式评测引用。
一句话点评
MiMo 2.5 号称无幻觉率 75%,但测试集和样本量都没说,先打个折。
锐评
Reddit 用户发帖称 MiMo 2.5 在某个未公开的测试集上达到 75% 和 68% 的无幻觉率,Pro 版只比 Opus 4.7 max 低 3 个点。模型是 316GB FP8 版本,体积不小。 关键问题是:帖子没交代测试集是什么、样本量多少,所以这个数字先打个折。如果测试集是自己挑的简单题,75% 含金量就低很多。316GB 的模型跑起来成本不低,这点先别太激动。 还缺什么:缺第三方复现、缺测试集细节、缺和同类模型的横向对比。正文没披露这些,建议等更多验证再下结论。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
02:45
46d ago
Hacker News 首页· rssEN02:45 · 04·28
等大模型输出太无聊?这个项目让你在等待时玩个小游戏
ftaip 在 GitHub 上开源了 waiting-game,核心思路很简单:用户等 LLM 返回结果时,与其让页面转圈,不如直接塞一个小游戏进去打发时间。项目目前在 HN 上有 7 个点赞和 4 条评论,热度不高。正文没有透露具体用什么框架、支持哪些模型,也没有说游戏是内置的还是可配置的。想法挺讨巧,但实现细节和实际效果都还看不到,这点先别太激动。
#Tools#ftaip#Hacker News#Open source
精选理由
我会先打个折:信息太少了,只有 RSS 摘要和 HN 上 7 分、4 条评论,连实现机制都没披露,所以别当成熟方案看。但它的点子值得提——把 LLM 返回前的等待时间变成小游戏,直接戳中 AI 应用里用户干等的烦躁感。这点先别太激动,毕竟没看到代码怎么落地、延迟能降多少,但思路本身对做产品的人有启发。
一句话点评
等 LLM 响应时塞个小游戏,想法讨巧但细节太少。
锐评
ftaip 在 GitHub 上开源了 waiting-game,核心思路是用户等 LLM 返回结果时,与其让页面转圈,不如直接塞一个小游戏进去打发时间。项目目前在 HN 上只有 7 个点赞和 4 条评论,热度不高。正文没披露具体用什么框架、支持哪些模型,也没说游戏是内置的还是可配置的。想法挺讨巧,但实现细节和实际效果都还看不到,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R1
01:54
46d ago
r/LocalLLaMA· rssEN01:54 · 04·28
给编程助手装上嘴:开源本地语音播报工具 Heard
Heard 是一个开源工具,能实时朗读 Claude Code、Codex 等编程助手的流式输出。它用 Python 守护进程加 macOS 应用实现,默认调用本地 Kokoro TTS,不需要 API Key 也不联网,协议是 Apache 2.0。可选 ElevenLabs 或 Anthropic Haiku 做语音模型。正文没披露延迟和音质数据,...
#Agent#Audio#Code#Heard
精选理由
HKR 三项都过:给编码 Agent 加本地语音层这个点算新,正文也给出了具体的架构事实。但范围小,没有延迟、采用率或工作流数据,所以留在 all 层级。
一句话点评
开源工具让编程助手开口说话,本地跑不联网,但延迟和音质未知。
锐评
Heard 是一个开源工具,能把 Claude Code、Codex 等编程助手的输出实时转成语音。默认用本地 Kokoro TTS,不需要 API Key 也不联网,协议 Apache 2.0。可选 ElevenLabs 或 Anthropic Haiku 做语音模型。 亮点是本地运行、零成本,适合不想把代码上下文传到云端的开发者。但正文没披露延迟和音质数据——Kokoro 在低端硬件上可能卡顿,这点先别太激动。另外只支持 macOS,Windows/Linux 用户得等。 缺的是性能基准和实际体验对比。如果延迟能控制在 200ms 内,对 coding agent 工作流是个实用补充;否则就是个玩具。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
01:54
46d ago
r/LocalLLaMA· rssEN01:54 · 04·28
搞了台 1.5TB 内存的 Mac Pro,准备跑大模型
Reddit 用户 habachilles 晒了一台 2019 款 Mac Pro,配置是 1.5TB 统一内存、128GB 显存(其实是共享内存)、28 核 CPU。他打算拿它跑 GLM 5.2,把专家模块卸载到显存里,正在问大家推荐跑什么 benchmark。帖子没提具体 GPU 型号、量化精度和实测结果,所以实际推理速度、能跑多大参数量的模型都还...
#Inference-opt#Benchmarking#habachilles#GLM
精选理由
HKR-H 和 HKR-R 成立:硬件配置本身就是个吸引点击的钩子,而且跟本地推理用户的痛点直接相关。HKR-K 弱是因为帖子只列了规格和计划,没给 GPU 型号、量化设置或 GLM 5.2 的跑分结果,信息量不足。
一句话点评
1.5TB 内存的 Mac Pro 跑 GLM 5.2,但没 GPU 型号和量化精度,先别太激动。
锐评
Reddit 用户 habachilles 晒了一台 2019 款 Mac Pro,配置 1.5TB 统一内存、128GB 显存(实际是共享内存)、28 核 CPU,打算跑 GLM 5.2 并把专家模块卸载到显存里。1.5TB 内存确实能装下超大模型,但关键信息缺失:帖子没提具体 GPU 型号、量化精度和实测结果。统一内存架构下,推理速度受内存带宽限制(2019 Mac Pro 带宽约 1.2TB/s),实际能跑多大参数量、每秒生成多少 token 都还是未知数。正文没披露 benchmark 结果和功耗,所以这条更像硬件晒单而非性能验证。如果后续有实测数据,对了解 Apple Silicon 之外的老 Mac Pro 在本地大模型上的表现才有参考价值。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
01:50
46d ago
● P1彭博科技· rssEN01:50 · 04·28
OpenAI未达成内部用户和销售增长目标
《华尔街日报》拿到内部消息,说 OpenAI 没完成自己设的新用户和销售额目标。公司内部开始担心在 AI 基础设施上砸的钱是不是太多了。不过这篇报道正文被 Bloomberg 的付费墙挡住了,具体目标数字、差了多少、时间范围和花了多少钱都没披露,所以没法判断缺口有多大。
#OpenAI#Wall Street Journal#Commentary
精选理由
我会先打个折,因为 WSJ 这篇正文没披露具体数字,缺口多大、哪个季度、花了多少钱全不清楚,所以信息密度其实偏薄。但选题本身够直接:OpenAI 自己定的增长目标没完成,内部已经在担心基础设施的高支出扛不住。对从业者来说,这不是公关稿里的增速放缓,而是实打实的成本焦虑——如果连 OpenAI 都踩刹车,整个行业靠烧钱换用户的逻辑就更值得怀疑了。这点先别太激动,等具体数据出来再下重注。
一句话点评
OpenAI 没达到自己定的用户和销售目标,连带着把甲骨文等关联股票拉下水。
锐评
这条消息的核心是 OpenAI 的实际增长跑输了内部预期,具体数字《华尔街日报》的报道里没披露,所以不知道差了多少。市场反应很直接,甲骨文这类靠 OpenAI 订单吃饭的公司股价跟着跌,说明投资人之前把预期打得太满。 不过得打个折:这是内部目标没达成,不是业务萎缩。正文没提是用户增长放缓、企业客户转化不行,还是单纯目标定太高。另外也没说这会不会影响 OpenAI 下一轮融资估值。 还缺两个关键信息:一是没达标的幅度有多大,二是 OpenAI 自己怎么解释原因。光看股价跌容易放大恐慌,先别急着下结论说 AI 需求见顶。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
01:14
46d ago
Hacker News 首页· rssEN01:14 · 04·28
AgentSwift:一个开源的 iOS 应用构建智能体
GitHub 上刚出现一个叫 AgentSwift 的项目,号称是开源的 iOS 构建智能体。不过目前仓库是 0 star、0 fork、0 issue,基本是个空壳。正文没披露架构、许可证、用哪个模型 API、以及运行环境要求,所以暂时没法判断它能不能用、好不好用。如果你在找 iOS 端的 AI 编程工具,这点先别太激动,等作者补上关键信息再说。
#Agent#Code#hpennington#GitHub
精选理由
H 靠标题的 iOS builder agent 钩子能过,但 K 和 R 都不过:仓库只有 0 star 和 0 fork,运行条件、模型 API、许可证全没写。这是一个低价值的开源线索,不值得推荐。
一句话点评
0 star 空壳项目,别激动。
锐评
AgentSwift 号称是开源的 iOS 构建智能体,但 GitHub 仓库目前 0 star、0 fork、0 issue,基本是个空壳。正文没披露架构、许可证、用哪个模型 API、以及运行环境要求,所以暂时没法判断它能不能用、好不好用。如果你在找 iOS 端的 AI 编程工具,这点先别太激动,等作者补上关键信息再说。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
00:32
46d ago
Hacker News 首页· rssEN00:32 · 04·28
Ted Nyman 出书讲 Git 高性能:从对象存储到 agent 循环里的延迟问题
Ted Nyman 发布了《High Performance Git》第一版,共 22 章加 3 个附录。书里从 Git 的底层数据模型讲起,覆盖对象、引用、包文件、部分克隆、协议 v2、reftable、诊断和修复。对 AI 团队来说,最尖锐的部分是 Git 在大仓库和 agent 循环下的延迟——当模型反复 clone、fetch、checkout...
#Code#Tools#Ted Nyman#Open source
精选理由
Ted Nyman 的《High Performance Git》第一版列出了 22 个章节和 3 个附录,覆盖 objects、refs、packfiles、partial clone、Protocol v2、reftable 以及诊断修复。对 AI 工程团队来说,真正值得盯的是 agent loop 下仓库规模变大后 Git 延迟可能成为瓶颈——比如频繁 clone 或 fetch 大仓库会拖慢 CI/CD 或 agent 的迭代速度。但正文没披露具体性能数据或对比基准,所以这点先别太激动。HKR-K 通过具体的 Git 性能层和目录细节通过,...
一句话点评
Git 在大仓库和 AI agent 循环下会变慢,这本书专治这个。
锐评
Ted Nyman 写了本《高性能 Git》,22 章加 3 个附录,从底层数据模型讲到诊断修复。对 AI 团队最扎心的是“Agent 循环”那章——当模型反复 clone、fetch、checkout,Git 延迟会直接卡住工作流。书里覆盖了部分克隆、协议 v2、reftable 这些提速手段,还给了配置手册和恢复方法。来源是个人技术书,权威性中等,但作者是资深工程师,内容偏实战。缺的是具体 benchmark 数据,比如“大仓库多大算大”“延迟能降多少”,正文没披露。如果是 monorepo 或跑 agent 的团队,值得翻翻 epilogue。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K1·R0
00:27
46d ago
彭博科技· rssEN00:27 · 04·28
爱德万测试股价跌7%,AI芯片测试设备产能吃紧
爱德万测试(Advantest)股价一度跌6.9%,原因是其AI芯片测试设备的业绩展望低于预期。公司给出的理由是产能紧张。正文没披露具体营收指引、订单规模或扩产时间表,所以这轮下跌更多是市场对供给瓶颈的担忧,而非需求端出了问题。
#Advantest
精选理由
Bloomberg 报道了 Advantest 股价跌6.9%和测试设备产能受限,所以 HKR-K/R 通过。HKR-H 弱是因为正文没披露营收指引、订单规模或扩产时间表,信息缺口明显。
一句话点评
爱德万测试因产能瓶颈导致业绩展望不及预期,股价一度跌6.9%。
锐评
爱德万测试(Advantest)股价一度跌6.9%,原因是其AI芯片测试设备的业绩展望低于预期,公司给出的理由是产能紧张。这轮下跌更多是市场对供给瓶颈的担忧,而非需求端出了问题。正文没披露具体营收指引、订单规模或扩产时间表,所以信息缺口明显:我们不知道产能缺口有多大、何时能缓解。如果只是短期瓶颈,股价可能过度反应;但如果是长期产能受限,则会影响后续订单交付。对于关注半导体设备供应链的从业者,这条新闻提示了测试环节的产能风险,但缺乏关键数据支撑判断,建议等待公司后续的扩产计划或客户订单披露。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
00:17
46d ago
彭博科技· rssEN00:17 · 04·28
马斯克诉奥特曼案陪审团选定,九人来自湾区
周一联邦法院选出了九名陪审员,全部来自旧金山湾区居民,预计将听取三周证词。正文没披露具体诉讼主张,但这场马斯克与奥特曼的官司本身已够吸睛。
#Elon Musk#OpenAI#Sam Altman#Policy
精选理由
H 和 R 靠马斯克告奥特曼这个法庭戏撑起来,K 只加了几个程序性事实(9名陪审员、湾区候选池、三周证词)。没有披露实质性诉请、救济方案或证据,所以分数压在60-71区间。
一句话点评
陪审团选出来了,全是湾区居民,但正文被墙了,具体告什么没看到。
锐评
联邦法院选出了九名陪审员,全部来自旧金山湾区,预计审理三周。马斯克告奥特曼,核心应该是 OpenAI 从非营利转向营利以及 AGI 控制权之争,但 Bloomberg 正文被反爬墙了,具体诉讼主张没披露。陪审团全在湾区——奥特曼和 OpenAI 的大本营,这点对马斯克不算利好。三周审理说明案情不简单,但没看到起诉书原文前,先别急着站队。缺信息:马斯克具体索赔金额、OpenAI 的答辩策略、法官是否已驳回部分诉求。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
00:07
46d ago
Hacker News 首页· rssEN00:07 · 04·28
生成式AI素食主义:主动关掉Copilot、Gemini和苹果智能
Sean Boots 在2026年3月发文,把自己定位成“生成式AI素食者”——不是完全不吃(比如他仍用算法推荐歌单和OCR),但主动关掉微软Copilot、谷歌Gemini和苹果智能,也不消费别人用AI生成的文章、图片或音乐。他解释生成式AI就是“接口极简(聊天框)、数据惊人(爬了全网文本和数百万本书)、数学靠Transformer预测下一个词”。正...
#Tools#Sean Boots#Microsoft#Google
精选理由
HKR-H 和 HKR-R 通过:标签有记忆点,拒绝姿态能引发从业者讨论。HKR-K 弱,因为文章只给出个人边界清单,没有新数据、机制或实验。
一句话点评
作者把自己定位成“生成式AI素食者”——不是完全不用AI,而是主动关掉Copilot、Gemini和苹果智能,也不消费AI生成的内容。
锐评
Sean Boots 这篇2026年3月的文章提出了一个有意思的立场:生成式AI素食者。他不是完全拒绝AI——仍用算法推荐歌单和OCR——但主动关掉微软Copilot、谷歌Gemini和苹果智能,也不看别人用AI生成的文章、图片或音乐。他把生成式AI拆成三层:接口极简(聊天框)、数据惊人(爬了全网文本和数百万本书)、数学靠Transformer预测下一个词。这个框架本身不新,但“素食者”这个类比比“抵制者”更精确——不是全盘否定,而是有选择地避开。文章没有披露他具体怎么在工作和生活中执行这套规则,比如是否影响团队协作或政府项目。如果你在思考个人或团队对AI的接受边界,这篇提供了一个温和但坚定的参考样本。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
00:04
46d ago
彭博科技· rssEN00:04 · 04·28
激进投资者Starboard Value入股Dynatrace,推动AI战略转变
Bloomberg 报道称 Starboard Value 已买入 Dynatrace 股份,后者盘后涨超 6%。Starboard 正在推动 Dynatrace 加码 AI 战略,但报道未披露持股规模或具体计划细节。
#Dynatrace#Starboard Value#Funding
精选理由
这是一条典型的激进投资者入股带动股价的消息,AI 只是作为公司转型背景被顺带提了一句。正文既没披露持股规模,也没给出任何 AI 产品计划或技术细节,对 AI 从业者来说信息量几乎为零。
一句话点评
激进投资者Starboard Value入股Dynatrace,后者股价应声上涨。Starboard通常推动被投公司改革,这次目标可能是让Dynatrace加速转向AI业务。正文被彭博墙了,没披露入股比例和具体改革方案。关键看Dynatrace现有AI产品(如Davis AI)能否被重新包装成增长故事,以及Starboard是否会要求裁员或分拆。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K0·R0
00:00
46d ago
● P1OpenAI 博客· rssEN00:00 · 04·28
OpenAI模型、Codex和托管代理接入AWS
OpenAI 和 AWS 扩大合作,把 GPT 模型(包括最新的 GPT-5.5)、代码助手 Codex 以及一个叫“Bedrock Managed Agents”的托管 Agent 服务放到了 AWS 上。企业可以在 AWS 环境里直接调用这些能力,不用再单独走 OpenAI 的 API,安全、合规、账单都走 AWS 那一套。Codex 目前每周有 ...
#Agent#Code#OpenAI#AWS
精选理由
触发了硬排除规则 cloud-vendor-promo:这是一条 AWS 上架/合作通知,没有披露定价、区域、模型清单或能力变化。H 和 R 通过,但排除规则把重要性上限卡在 39。
一句话点评
OpenAI 把模型和 Codex 搬上 AWS,最实在的变化是:企业不用为了用 GPT 而被迫迁到 Azure 了。但别急着激动,目前只是限量预览,实际交付和稳定性还没验证。
锐评
这次合作的核心是把 OpenAI 的模型、Codex 编程工具和所谓的“托管智能体”塞进 AWS 的 Bedrock 平台。说白了,就是让已经在 AWS 上跑业务的公司,可以直接在自己的云环境里调用 GPT 模型,不用再折腾数据搬家。这对 OpenAI 是补课——之前 Azure 独占期,很多企业因为不想离开 AWS 而选了 Anthropic,OpenAI 等于自己把客户往外推。现在微软松绑,OpenAI 立刻扑向 AWS,商业逻辑很直白。 值得留意的细节是“托管智能体”。按采访里的说法,这东西有点像把 Codex 的本地运行能力搬到企业级环境里,试图解决让模型进业务流程干活时碰到的安全和权限问题。但正文没披露具体的技术架构,也没给出延迟、并发或成本数据。限量预览意味着现在能用的客户很少,大规模跑起来会不会踩坑,还不知道。 另外,微软虽然放开了独占,但条款里写了“OpenAI 产品优先上 Azure,除非 Azure 不支持或选择不做”。这个例外条款有多宽,会不会在某些能力上卡一下,目前也没说清楚。所以整体判断是:方向对了,对 AWS 用户是实打实的好消息,但离“生产环境随便用”还有距离,先看限量预览的反馈再说。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K0·R1
00:00
46d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·28
开源模型推理采购指南:GLM-5.1、DeepSeek V4 Pro、Kimi K2.6 的 API、订阅和 Ollama Cloud 对比
yage.ai 对比了 GLM-5.1、DeepSeek V4 Pro 和 Kimi K2.6 三种买法:官方 API 按量付费、厂商包月订阅、Ollama Cloud 包月。轻量 agent 场景(每月 30M input + 6M output token)下,折扣期 DeepSeek API 只要 $18/月,但折扣 6 月到期后涨到 $73。重...
#Agent#Inference-opt#yage.ai#DeepSeek
精选理由
HKR三项都过,因为这是一篇实用的成本对比指南,有具体的省钱数字(5-20倍)和定价锚点($18/月、$80/月)。但来源yage.ai权威性有限,正文没给完整价格表、测试条件和延迟数据,所以分数压在60-71区间。
一句话点评
开源模型采购对比,轻量场景订阅划算,重度场景能省5-20倍。
锐评
yage.ai 这篇采购指南把 GLM-5.1、DeepSeek V4 Pro、Kimi K2.6 的三种买法(API 按量、厂商订阅、Ollama Cloud 包月)算得很清楚。轻量 agent 场景(每月 30M input + 6M output token)下,折扣期 DeepSeek API 只要 $18/月,但折扣 6 月到期后涨到 $73。重度场景(8 亿 token/月)纯 API 成本 $400-$1,601,而 z.ai Max 订阅 $80/月、Ollama Cloud Max $100/月,能省 5-20 倍。不过前提是你主要用同一家模型,跨模型用 Ollama 更灵活。隐私方面,Ollama 承诺不存数据、不训练,中国三家厂商政策模糊。正文没披露各订阅的实际 token 限额和延迟数据,重度用户需要实测。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
00:00
46d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·28
Manus 和 Cursor 凭什么值 20 亿和 600 亿美元
这篇文章说,Meta 花 20 亿美元买 Manus、Musk 给 Cursor 开 600 亿美元收购选项,不是冲动消费,而是买这两家团队的认知领先。Manus 做对了两件事:一是没让 AI 扮演产品经理、工程师这些人类角色(hat wearing),而是让每个 agent 保持完整能力、只在任务层面分工,这个思路后来被 OpenAI、Anthrop...
#Agent#Fine-tuning#Tools#Manus
精选理由
HKR-H和HKR-R通过:估值落差和agent护城河角度确实能聊。HKR-K不通过:没样本、没指标、没交易细节,属于低价值评论,正文信息量撑不起判断。
一句话点评
Meta 花 20 亿美元买 Manus,Musk 给 Cursor 开 600 亿美元收购选项,不是冲动消费,而是买这两家团队的认知领先。
锐评
这篇文章的核心判断是:Manus 和 Cursor 被高价收购,不是因为营销或运气,而是因为它们在技术路线上做出了领先行业的正确判断。 Manus 做对了两件事:一是没让 AI 扮演产品经理、工程师这些人类角色(hat wearing),而是让每个 agent 保持完整能力、只在任务层面分工,这个思路后来被 OpenAI、Anthropic、Cursor 等头部玩家采纳。二是把 AI 从“一次性任务工具”做成了“能生成可部署、可分发、自带智能的软件产品”,最早打通了创建+部署+智能注入的完整链路。8 个月做到 1 亿美元 ARR,处理 147 万亿 token,创建超 8000 万台虚拟计算机。 Cursor 则判断在编程场景下,依赖外部模型 API 在速度和成本上无法满足交互体验,必须自训模型。它把这件事做出来了,Composer 的体验验证了这个判断。 文章也回应了常见的“套壳”质疑:如果 Manus 真没核心技术,发改委不会动用五年来首次“禁止加撤销”来叫停 Meta 的收购。 不过原文没有披露对比评测的具体样本量、验证指标,也没有说明收购条款细节。这些信息缺口不影响核心论点,但读者可以留意。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1

更多

频道

后台