ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部

200 items · updated 3m ago
RSS live
2026-05-26 · 星期二2026年5月26日
12:46
18d ago
The Verge · AI· rssEN12:46 · 05·26
为什么有人只听自己用 Suno 生成的 AI 音乐?
The Verge 发现 Suno 的 Reddit 子版块里,不少用户说自己主要听 AI 生成的歌,而不是真人音乐。文章引用了 5 条帖子片段,但正文没披露样本量、统计方法或这种现象在平台上的普遍程度,所以这个趋势到底有多广还不清楚。
#Audio#The Verge#Suno#Spotify
精选理由
标题有钩子,话题有讨论价值,但正文证据太单薄——5 条帖子片段说明不了规模,也没披露 Suno 用户整体行为数据,所以放在 all 层合适,不往上提。
一句话点评
Suno 用户说他们主要听自己 AI 生成的歌,而不是真人音乐。文章只引了 5 条 Reddit 帖子片段,没披露样本量或统计方法,这个趋势到底多广还不清楚。短评:样本太小,先别当趋势。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
12:44
18d ago
r/LocalLLaMA· rssEN12:44 · 05·26
Together AI 开源 OSCAR:2-bit KV 缓存量化,专为长上下文推理省显存
Together AI 开源了 OSCAR,一种注意力感知的 2-bit KV 缓存量化方案,目标是降低长上下文大模型推理时的显存占用。Reddit 帖子只提到它是在 TurboQuant 被采用后推出的,没有披露基准测试、支持哪些模型、具体能省多少显存、延迟影响多大,以及部署条件。简单说,KV 缓存是长上下文推理的显存大头,OSCAR 用 2-bit...
#Inference-opt#Together AI#OSCAR#Open source
精选理由
HKR三项都弱通过:机制和痛点具体,但Reddit正文没披露基准测试、支持哪些模型、以及实际部署条件(比如硬件要求、精度损失)。作为一个小型开源推理更新留在all里,信息量够但验证不足。
一句话点评
Together AI 开源了 OSCAR,一种注意力感知的 2-bit KV 缓存量化方案,目标是降低长上下文推理时的显存占用。KV 缓存是长上下文推理的显存大头,OSCAR 用 2-bit 量化来压它,理论上能省不少。但 Reddit 帖子只提了名字和“在 TurboQuant 被采用后推出”,没给任何基准测试、支持模型、具体省多少显存、延迟影响多大,以及部署条件。信息缺口很大,先别太激...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
12:32
18d ago
● P1Import AI· rssEN12:32 · 05·26
直面未来,或从当下撤退:一份 AI 进展的眩晕感与一个奇点故事
这是 Jack Clark 在牛津大学讲座的文字版,外加一篇他写的科幻小说。讲座的核心是一张让他感到眩晕的图——Epoch 能力指数,它用 40 多个基准测试画出了 AI 能力的陡峭爬升曲线。Clark 认为,AI 不是普通技术,它更像一片在加速生长的森林,而我们现在看到的通过律师资格考试、拿下国际数学奥赛金牌、发现软件新漏洞,都只是这片森林里的几棵树...
#Reasoning#Benchmarking#Safety#Jack Clark
精选理由
Jack Clark 这篇不是技术报告,更像一篇行业随笔。他拿 ECI 的 40 多项基准当引子,核心抛出一个具体判断:两年内可能出现能开发后继系统的 AI。这个说法把模糊的“奇点”变成了一个有明确时限的猜想,所以我会给高重要性。正文没给出两年预测的严格推导过程,更像基于趋势的直觉,这点先别太激动,但它确实把 AGI 时间线、安全和就业这些老话题拧成了一根引线,值得从业者读一读并自己判断。
一句话点评
Clark 被一张汇总 40 多个基准的 AI 能力指数图搞到眩晕,他判断两年内可能出现能自我迭代的 AI,这个时间表比多数人想的要激进。
锐评
Jack Clark 在牛津的演讲没在讨论 AI 安全的技术细节,而是逼着听众直面一个心理关口:如果 AI 进步的速度不是线性的,而是一片加速生长的森林,我们该怎么办。他引用的 Epoch 能力指数用 40 多个基准画出了一条陡峭的爬升线,从通过律师资格考试到拿国际奥数金牌,这些里程碑都只是同一片森林里的几棵树。Clark 的核心判断很直接——AI 不是普通技术,因为它的性能跟投入的算力和数据呈可预测的正比关系,而大公司已经砸了上千亿美元建训练设施,所以未来一段时间的进步已经被锁定了。 他给出的时间表相当紧迫,认为两年内可能出现能开发自己继任者的 AI 系统。这个判断建立在当前技术趋势的线性外推上,但正文没有披露支撑这个具体时间点的内部数据或模型细节,所以读者需要知道这更多是一个基于公开信息的业内判断,而非有严格验证的预测。演讲后半段转向了个人与社会的选择:是主动探索未来,还是被动回避当下。这部分更多是框架性的思考,缺少具体的政策建议或技术路线图,对于想知道“具体怎么做”的从业者来说,信息量偏薄。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
12:26
18d ago
r/LocalLLaMA· rssEN12:26 · 05·26
中国收紧阿里、DeepSeek 等 AI 人才出境限制
Reddit 帖子标题称中国对阿里、DeepSeek 等公司的 AI 人才收紧出境限制,但正文被屏蔽,仅有一条评论和一个外部链接。目前无法确认政策范围、执行方式或受影响人数,信息缺口较大。
#Alibaba#DeepSeek#Policy
精选理由
HKR-H和HKR-R通过:标题把阿里、DeepSeek和中国AI人才出境管控串起来了,地缘政治敏感度高。HKR-K不通过:Reddit帖子没给政策范围、执行细节和具体人数,信息太薄,所以留在all层级,不单独推送。
一句话点评
Reddit 帖子标题称中国收紧阿里、DeepSeek 等公司 AI 人才出境,但正文被屏蔽,仅有一条评论和一个外部链接。目前无法确认政策范围、执行方式或受影响人数,信息缺口较大。短评:标题吓人,正文被墙,信息缺口大,先别信。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
12:08
18d ago
Hacker News 首页· rssEN12:08 · 05·26
外包推理结合本地模型部署的成本经济性分析
文章标题说外包+本地部署AI会比用前沿实验室的模型更省钱,但正文被Cloudflare挡住了,没披露成本模型、时间线或对比条件。目前只有13个Hacker News点赞和3条评论,信息缺口很大,没法判断这个结论靠不靠谱。
#LocalAI#Hacker News#Commentary
精选理由
标题有钩子,但正文几乎没给数据、案例或具体对比对象,触发硬排除规则6,重要性上限卡在40以下。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
12:00
18d ago
The Verge · AI· rssEN12:00 · 05·26
AI 战争已经来了
The Verge 报道,联合国《特定常规武器公约》每年在日内瓦开两次会,2017 年 11 月那场为期五天的会议,讨论重心从“未来杀手机器人”的假设转向了更迫近的现实部署风险。文章以 Anthropic 与五角大楼的摩擦为引子,指出公众注意力常被“自主武器红线”这类抽象辩论吸引,但真正的 AI 军事化——比如目标识别、情报分析、无人机蜂群——已经在实...
#Robotics#Safety#The Verge#United Nations
精选理由
文章提供了联合国 CCW 会议的背景信息,但没有披露新的政策、产品或可复现的测试结果。对关注 AI 安全的从业者来说是有用的背景阅读,不是当天必须写的新闻。
一句话点评
AI 军事化不是未来议题,目标识别、情报分析和无人机蜂群已在实战中部署。联合国《特定常规武器公约》2017年会议已从讨论杀手机器人转向现实风险,但文章未披露具体部署案例或数据来源,信息缺口明显。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
10:43
18d ago
Product Hunt · AI· rssEN10:43 · 05·26
AgenticCalling AI:给AI一个电话号码,让它自己打电话
AgenticCalling AI 是一个让 Claude、ChatGPT 等模型直接拨打电话的工具。它帮你搞定号码申请、A2P 认证、IVR 菜单、语音信箱和重试这些麻烦事,模型打完电话直接返回 JSON 数据。创始人说,以前要打电话得自己搭 Twilio、等几周 A2P 审批、配 SIP 和 WebRTC,现在一句话“Hey Claude,给我妈打...
#Agent#Audio#Tools#AgenticCalling AI
精选理由
HKR 里 H 和 R 靠外呼这个钩子能过,但 K 过不了——正文只有一句话,没有接入方式、定价、API 或测试条件。这就是个很薄的小工具发布,所以分数压在 40–59 区间。
一句话点评
给 Claude 配个电话号就能让它自己打电话,省掉 Twilio 和 A2P 审批的麻烦。产品页说支持 IVR 菜单、语音信箱和重试,打完返回 JSON。但正文没披露每分钟通话成本、支持哪些国家、号码怎么分配,也没给 API 文档或 demo 录音。56 个关注者,刚上线,验证还弱。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
10:33
18d ago
r/LocalLLaMA· rssEN10:33 · 05·26
数据库查完再喂给模型,token 消耗怎么算?本地 vs API 谁划算
一个 Reddit 用户分享了自己做数据库+LLM 分析的 4 步 token 循环流程:先查库、再拼 prompt、然后让模型回答、最后把结果写回。他担心 SAP、ServiceNow 这类企业级 agent 产品,在合同到期后会不会因为 token 用量暴涨而带来隐藏成本。正文没披露具体 token 数或成本对比,但问题很实在:如果每次查询都要把整...
#Agent#Tools#Reddit#SAP
精选理由
HKR 三项都过:成本反噬是钩子,4 步链路是机制,SAP/ServiceNow 框定了买家痛点。分数卡在 60–71 是因为来源是 Reddit 讨论,没有价格、用量数据或测试结果。
一句话点评
一个 Reddit 用户分享了自己做数据库+LLM 分析的 4 步 token 循环流程:先查库、再拼 prompt、然后让模型回答、最后把结果写回。他担心 SAP、ServiceNow 这类企业级 agent 产品,在合同到期后会不会因为 token 用量暴涨而带来隐藏成本。正文没披露具体 token 数或成本对比,但问题很实在:如果每次查询都要把整张表塞进 prompt,token 消耗...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
10:09
18d ago
AI HOT 精选· aihot-apiZH10:09 · 05·26
Uber 四个月烧光全年 AI 预算,总裁公开质疑:钱花哪了?
Uber 总裁 Andrew Macdonald 说,公司 2026 年前四个月就把全年 AI 预算花完了,但他看不出 token 用量暴涨和用户实际体验提升之间有什么关系。2025 年 Uber 研发投入 34 亿美元(约 231 亿人民币),同比增长 9%,但 CEO 已经开始用缩减招聘来填 AI 的坑。Macdonald 的原话是:token 用...
#Uber#Commentary
精选理由
标题抓眼球,但正文信息量不足:没给预算规模、项目范围、总裁原话的完整语境。适合推给所有人看,因为话题本身有讨论价值,但别当深度分析。
一句话点评
Uber总裁说2026年前四个月就把全年AI预算烧光了,但token用量暴涨和用户体验提升之间看不出关系。2025年研发投入34亿美元(约231亿人民币),同比增9%,CEO已开始缩减招聘来填AI的坑。关键信息缺口:正文没披露全年AI预算具体金额、项目范围,也没给采访完整上下文。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
09:59
18d ago
Product Hunt · AI· rssEN09:59 · 05·26
给AI Agent加语音/视频通话,一个文件搞定
CometChat 新推了一个叫 Calling Skills 的产品,核心卖点是:你只要给 coding agent(比如 Cursor、Claude Code)丢一个技能文件,它就能自动帮你把语音和视频通话功能集成到应用里。官方说 10 分钟就能跑通,支持录制、屏幕共享、举手、画中画这些功能。集成方式也灵活,可以用 UI Kit、SDK,或者直接跑...
#Agent#Audio#Tools#CometChat
精选理由
H 钩子成立,因为给 AI agent 加实时通话能力是个具体需求;但 K 和 R 都挂了——正文几乎没披露任何关键细节,连个 demo 或文档链接都没有,属于典型的低信息量 Product Hunt 发布,只能放在低价值区。
一句话点评
CometChat 新出的 Calling Skills,核心卖点是给 coding agent(比如 Cursor、Claude Code)丢一个技能文件,就能自动集成语音/视频通话。官方说 10 分钟跑通,支持录制、屏幕共享、举手、画中画。集成方式灵活,UI Kit、SDK 或一行 npx 命令都行。 短评:把实时通话包装成 agent 可读的技能文件,思路挺巧,省掉手动翻文档的功夫。...
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
09:45
18d ago
Product Hunt · AI· rssEN09:45 · 05·26
SeaTicket:一个把 GitHub、论坛和邮件里的工单拉到一起的 AI 助手
SeaTicket 是一个面向软件团队的 AI 客服工具,能把散落在 GitHub、Discourse 和邮件里的工单同步到一个工作区。它的 AI 助手会自动搜索历史工单和文档,给出解决方案,不用人再手动翻上下文。团队说用了“搜索 + LLM 重排序”来保证准确率。正文没披露定价、用了什么模型,也没和 Zendesk 这类工具做对比。
#Agent#SeaTicket#GitHub#Discourse
精选理由
又一个AI客服工具上Product Hunt——能把GitHub、Discourse和邮件里的工单同步到一个工作区,AI助手会搜历史工单和文档给解决方案,团队说用了“搜索+LLM重排序”来保证准确率。但正文没披露定价、用了什么模型,也没和Zendesk这类成熟工具做对比,信息缺口太多。三个触发点一个都没中。
一句话点评
SeaTicket 把 GitHub、Discourse 和邮件里的工单拉到一个工作区,AI 自动搜历史记录给解决方案,省得人翻上下文。它说用了“搜索+LLM 重排序”来保证准确率,但没披露用了什么模型、定价多少,也没和 Zendesk 比。如果是真的,对开源团队挺实用,但准确率、延迟和成本都是未知数,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K0·R0
08:30
18d ago
r/LocalLLaMA· rssEN08:30 · 05·26
有人在5090上试训Qwen 3.6 27B的AR转扩散版,但只跑通了一次前向传播
一位Reddit用户尝试在RTX 5090上训练Qwen 3.6 27B的AR-to-Diffusion版本,但最终没有放出训练好的模型。帖子只确认了用RTX 4000做显存卸载(offload)跑通了一次前向传播,还烧了一根显卡电源线。作者建议把消费级5090的功耗从600W限制到400W。正文没披露训练是否真的跑起来了、用了多少数据、花了多长时间,...
#Fine-tuning#Inference-opt#Qwen#NVIDIA
精选理由
这是一条Reddit上的个人实验记录,有具体的硬件翻车细节(烧线、功耗限制),但模型根本没训出来,信息缺口明显——正文没披露训练是否成功、损失曲线、收敛情况。HKR三项都过,因为本地训练+硬件故障有话题性,数字也实在。影响分卡在60-71区间:单个用户实验,无模型产出,受众窄(本地LLM折腾党)。
一句话点评
有人在5090上试训Qwen 3.6 27B的AR转扩散版,结果只跑通一次前向传播(靠4000卸载显存),还烧了根电源线。没放出模型,没披露训练数据量和时长,连是否真跑完训练都不确定。建议把5090限到400W——这点先别太激动,消费卡硬训27B模型目前更像极限测试,离实用还远。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
08:25
18d ago
● P1FT · 科技· rssEN08:25 · 05·26
字节跳动向AI团队发放特殊股权以防止人才流失
字节跳动向 AI 业务线的员工发放了与 AI 部门挂钩的限制性股票,目的是在人才争夺战里留住核心研发。正文没披露具体发了多少股、分几年归属、哪些岗位有资格拿,也没说这批股票的估值逻辑。
#ByteDance#TikTok#Personnel
精选理由
FT 报道字节跳动向 AI 团队发放与 AI 业务绑定的股票来留人,标题的防挖角意图很清楚,所以 H、K、R 都成立。但正文没给出股票规模、归属条件、覆盖哪些岗位这些关键信息,只能算一条信号明确但细节不足的人事动态,达不到重大模型发布或组织变动的分量。
一句话点评
字节用特殊股权锁住 AI 人才,但 FT 正文被付费墙挡住,具体分配规模和行权条件都没披露。
锐评
这条消息的核心就一句话:字节跳动开始给 AI 团队发特殊股权,防止人被挖走。FT 的报道本身是付费内容,我们拿到的只是标题和网站导航,正文细节完全没看到。所以具体怎么发、发给谁、锁定期多长、跟普通期权有什么区别,这些关键信息目前都是空白。 从逻辑上推测,字节这波操作说明国内 AI 人才争夺已经白热化。大厂之间互相挖人,创业公司也在抢,光靠高薪已经不够,得用股权把核心研发人员绑住。但没看到具体条款之前,我会先打个折:不知道这是全员普发还是只给少数骨干,也不知道行权门槛高不高。如果条件苛刻,实际激励效果可能有限。 还缺的信息包括:字节 AI 团队目前多少人、离职率有多高、竞争对手主要在挖哪类岗位。这些才能判断这轮股权激励是防御性的常规操作,还是被逼出来的紧急措施。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
08:06
18d ago
Product Hunt · AI· rssEN08:06 · 05·26
Phasr:一个工作台,号称能同时跑100多个AI编码流程还不丢上下文
Phasr 是一个面向工程师和 AI 辅助开发的“工作台”,让你在一个界面里同时管理几十个并行编码流程、终端、AI agent 和代码仓库。核心卖点是“同时跑 100 多个工作流还不丢上下文”——这对经常在多个终端、GitHub 和 AI 工具之间来回切换的人来说确实痛点。不过正文没披露它到底怎么保持上下文的(是本地缓存、会话窗口还是某种记忆机制),也...
#Agent#Tools#Memory#Phasr
精选理由
这就是一个Product Hunt上的产品介绍页,核心卖点是“100+ workflow不丢上下文”,但价格、集成方式、上下文机制、可复现条件全都没说。HKR里H和R勉强能过(标题有钩子、话题有痛点),K直接不达标(信息缺口太大)。整体属于低价值的产品推广,不值得投入时间深挖。
一句话点评
Phasr 号称能同时跑 100 多个工作流还不丢上下文,对经常在终端、GitHub 和 AI 工具间来回切换的工程师来说确实戳中痛点。但正文没披露它怎么保持上下文的——是本地缓存、会话窗口还是某种记忆机制?也没说定价和集成情况。这点先别太激动,等实测验证。
HKR 分解
hook knowledge resonance
打开信源
50
SCORE
H1·K0·R1
08:05
18d ago
r/LocalLLaMA· rssEN08:05 · 05·26
Qwen3.5 27B 无审查版发布:保留全部 15 个 MTP,提供 5 种格式
LLMFan46 放出了 Qwen3.5 27B 的无审查版,保留了完整的 15 个 MTP(多 token 预测头,让模型一次预测多个 token,推理更快)。提供 Safetensors、GGUF、NVFP4、NVFP4 GGUF 和 GPTQ-Int4 五种格式,方便不同硬件和量化需求。正文没披露训练数据或审查移除的具体方法,所以不确定实际效果。
#Inference-opt#Benchmarking#Qwen#LLMFan46
精选理由
HKR 三项都过,但帖子只给了发布和格式信息,缺基准测试、训练方法、许可证和安全细节。算是有用的本地模型更新,不到精选门槛。
一句话点评
LLMFan46 放出了 Qwen3.5 27B 的无审查版,保留了完整的 15 个 MTP(多 token 预测头,推理更快)。提供 Safetensors、GGUF、NVFP4、NVFP4 GGUF 和 GPTQ-Int4 五种格式,方便不同硬件和量化需求。正文没披露训练数据或审查移除的具体方法,所以不确定实际效果。 短评:保留完整 MTP 的无审查版少见,但没披露去审查方法,效果存疑。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
07:51
18d ago
r/LocalLLaMA· rssEN07:51 · 05·26
别装了,自己部署大模型根本不省钱
Reddit 用户 Napster3301 算了一笔账:自己组一台双 3090 的机器,硬件成本约 2.8 万人民币,功耗 700W,算上折旧后每小时实际成本在 0.5-0.8 美元。而租用 RunPod 的 H100 每小时 1.49-1.99 美元,吞吐量却是自建方案的 2-3 倍。结论是:如果每天重度使用不超过 2-3 小时,租云服务每 toke...
#Inference-opt#Reddit#RunPod#Qwen
精选理由
HKR 三项都达标,但这是单个 Reddit 用户的成本核算,没有更广泛的采样或验证。放在较低档位,作为强社区信号而非头条新闻。
一句话点评
短评:自建双3090每小时成本0.5-0.8美元,租H100每小时1.49-1.99美元但吞吐量高2-3倍。每天重度使用超3小时才划算。 点评:Reddit用户Napster3301算了一笔实在账:自建双3090机器硬件约2.8万人民币,功耗700W,算上折旧后每小时成本0.5-0.8美元;租RunPod的H100每小时1.49-1.99美元,但吞吐量是自建的2-3倍。结论很直白:每天重度...
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
07:43
18d ago
Hacker News 首页· rssEN07:43 · 05·26
对 AI 说话客气反而让它变笨?新研究:越粗鲁的提示词,回答准确率越高
一篇 2025 年 10 月的短论文发现,对 ChatGPT 4o 说话越不客气,它回答选择题的准确率反而越高。研究者把 50 道数学、科学、历史题分别写成“非常礼貌”“礼貌”“中性”“粗鲁”“非常粗鲁”五种语气,总共 250 条提示词。结果非常礼貌的提示准确率只有 80.8%,而非常粗鲁的提示达到了 84.8%,差了 4 个百分点。这个结果跟之前一些...
#Benchmarking#Research release
精选理由
标题有话题性,但正文信息太少,连实验细节都没披露,只能给 all 级别,让读者自己判断要不要点进去看原文。
一句话点评
对ChatGPT 4o说话越不客气,它答选择题准确率越高:非常礼貌提示准确率80.8%,非常粗鲁提示84.8%,差了4个百分点。论文只测了50道数学、科学、历史题,样本量小,且仅针对4o一个模型,结论不能泛化。正文没披露具体题目和粗鲁措辞示例,也没解释为什么新模型反而吃这套。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
07:27
18d ago
AI HOT 精选· aihot-apiZH07:27 · 05·26
阿里云CTO:从云原生转向智能体原生,四大基石铺路
阿里云CTO李飞飞在QwenConference2026上宣布,公司正从云原生转向智能体原生,并为此搭建了四大基石:模型、智能体云、工具与服务,以及规模。说白了就是,阿里云不再只卖算力和容器,而是想让模型直接进业务流程干活。不过正文没具体说这四大基石各自怎么落地、成本或延迟有没有改善,目前更像一个方向宣言。
#Agent#Tools#Alibaba Cloud#Li Feifei
精选理由
硬排除-云厂商宣传/纯营销:阿里云CTO讲“从云原生到智能体原生”加四个基石,但没有可验证的产品细节或从业者冲突;HKR三项全部不满足。
一句话点评
阿里云CTO李飞飞在QwenConference2026上宣布从云原生转向智能体原生,核心是让模型直接进业务流程干活,而非只卖算力。四大基石(模型、智能体云、工具与服务、规模)更像方向宣言,正文没披露具体落地路径、成本或延迟改善。目前缺验证,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
34
SCORE
H0·K0·R0
07:23
18d ago
r/LocalLLaMA· rssEN07:23 · 05·26
Intel Arrow Lake 的 NPU 跑语音识别,比 CPU 快 6 倍、省电 21 倍
Reddit 用户 cibernox 用 Intel Arrow Lake 的 NPU 做智能家居语音指令识别。60 秒音频,NPU 只花 818 毫秒、耗电 11 焦耳;同一台机器的 CPU(INT8)要 5011 毫秒、237.7 焦耳。推理速度快 6.1 倍,能耗低 21.6 倍。实测数据来自 intel-rapl 工具,不是模拟。不过正文没披露...
#Audio#Inference-opt#Intel#AMD
精选理由
HKR 三项均命中:有真实用户用 NPU 做 ASR 的 hook(h),给出了 818ms/11.0J 和 6.1x/21.6x 的对比数据(k),触及本地推理功耗和 NPU 实用性的社区痛点(r)。但仅 Reddit 单用户测试,场景窄、无跨设备复现,不足以升 tier featured。
一句话点评
Intel Arrow Lake NPU 跑语音识别,60秒音频只花818毫秒、11焦耳,比同机CPU快6倍、省电21倍。实测数据来自intel-rapl工具,不是模拟。但正文被屏蔽,没披露用了什么模型、精度和延迟细节,NPU实际落地效果还要打个折。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
07:16
18d ago
r/LocalLLaMA· rssEN07:16 · 05·26
MacBook 跑 Qwen3.6 35B 模型,131k 上下文还能有 49-65 tok/s
一位用户在 14 寸 MacBook Pro M2 Max(64GB 内存)上跑 Qwen3.6 35B A3B 模型,生成速度达到 49-65 tok/s,上下文窗口开到 131k。稳定运行的配置是:用 GGUF 格式、llama.cpp 推理引擎、把屏幕刷新率锁在 60Hz、给模型分配 61440 的 wired memory 上限、并开启 pre...
#Code#Tools#Memory#Qwen
精选理由
这是一条 Reddit 用户分享的本地推理经验帖,信息具体但局限在单一 M2 Max 配置上。对关注本地部署的从业者有参考价值,但样本单一、缺乏对比验证,不适合作为当日重点推荐。
一句话点评
一条 MacBook 跑大模型的实用调优帖:M2 Max 64GB 跑 Qwen3.6 35B,生成速度 49-65 tok/s,上下文开到 131k。关键技巧是锁屏幕刷新率到 60Hz、设 wired memory 上限 61440、开 preserve_thinking。速度在笔记本里算不错,但 131k 上下文实际能塞多少有效信息、长文本下会不会崩,正文没披露。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
06:18
18d ago
r/LocalLLaMA· rssEN06:18 · 05·26
llama.cpp 合并了一个能生成 1930 年代文风的 13B 模型
llama.cpp 的 PR #22596 加入了 talkie-1930-13b 模型支持。这个 13B 模型专门用 2600 亿 token 的 1931 年前英文文本训练,再经过指令微调和在线 DPO(用大模型当裁判,挑出更像老派风格的回复来微调),所以生成出来的文字有上世纪二三十年代的腔调。模型大小 13B,普通消费级显卡就能跑。不过正文没披露...
#Fine-tuning#Alignment#Inference-opt#ggml-org
精选理由
亮点是训练语料的时间限定——1931年前的英文文本,这个钩子够特别。信息也够:13B参数、260B token、PR编号都有。但就是一个llama.cpp的模型支持PR,范围太小,到不了featured。
一句话点评
llama.cpp 刚合并了一个 PR,支持 talkie-1930-13b 模型。这模型用 2600 亿 token 的 1931 年前英文文本训练,再经过指令微调和在线 DPO(用大模型当裁判,挑更像老派风格的回复),生成文字有上世纪二三十年代的腔调。13B 大小,普通消费级显卡就能跑。 短评:复古文风模型,13B 跑得动,但 2600 亿 token 只覆盖 1931 年前英文,中文...
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K1·R0
05:37
18d ago
AI HOT 精选· aihot-apiZH05:37 · 05·26
龙虾之父开源 skill-cleaner:给 AI 智能体的技能“减肥”,省 token 又提准
OpenClaw 龙虾之父 Peter 开源了一个叫 skill-cleaner 的工具,专门给 AI 智能体的技能描述做“体检”和“减肥”。核心问题:很多开发者把技能描述写得太长,像本书一样,导致每次调用都多花 token 钱,还让智能体选技能时容易出错。有个用户案例:把技能描述从 90 多词砍到 40 词以内后,智能体一次就选对了技能。这个工具能自...
#Agent#Tools#Peter#Open source
精选理由
H/K/R 都够,但这是个个人开源小工具,不是框架级发布。正文给了功能数量和压缩例子,但没披露评估规模、准确率数字或社区采用信号。
一句话点评
Peter 开源了一个给 AI 智能体技能描述“做体检”的工具 skill-cleaner,核心是帮开发者砍掉冗长的技能描述,省 token 钱。有个案例:描述从 90 多词砍到 40 词以内,智能体一次就选对了技能。工具能查重复、闲置技能,还能自动精简描述。不过正文没披露测试规模,单案例说服力有限,实际效果得自己跑一遍。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
05:30
18d ago
● P1量子位 · 公众号· rssZH05:30 · 05·26
面壁智能开源 AI 编写的训练框架 ForgeTrain 和模型 MiniCPM5-1B
面壁智能放出了 ForgeTrain 训练框架和 MiniCPM5-1B 模型。ForgeTrain 最抓眼球的地方是,他们说是让 AI 自己写的代码,在同样硬件下比英伟达的 Megatron 训练快 10%。MiniCPM5-1B 是个 10 亿参数的小模型,FP16 权重约 2GB,压缩到 INT4/Q4 后约 0.5GB,主打端侧部署。不过原文因...
#Agent#Code#Inference-opt#ModelBest
精选理由
面壁智能说 ForgeTrain 是 AI 写的训练框架,同硬件下比英伟达 Megatron 快 10%,还发了 1B 参数的端侧模型 MiniCPM5-1B,FP16 权重约 2GB,压缩到 INT4/Q4 约 0.5GB。我会先打个折——“全球首例 AI 造 AI”这个说法正文没给出第三方复现,10% 的速度提升也没交代测的是什么任务、什么卡、什么 batch size。但即便保守看,一个 AI 生成的训练框架能跑起来还声称更快,本身就有信息量;1B 模型压到 0.5GB 对手机端部署也够直接。分数定在 80,是因为概念够新、数字够具体,但验证...
一句话点评
面壁开源了由 AI 自己写的训练框架 ForgeTrain 和 1B 模型,但正文被验证页挡了,看不到具体怎么实现和效果数字。
锐评
这条消息的核心卖点是“AI 写代码训 AI”,面壁智能把训练框架 ForgeTrain 和 MiniCPM5-1B 模型都开源了。从标题看,他们强调这是全球首例完全由 AI 编写的生产级训练框架,并且用这个框架训出了一个 1B 参数的端侧模型,叫“小钢炮”,暗示性能不差。 但问题在于,我拿到的原文被微信的验证页面挡住了,正文内容完全看不到。所以目前只能根据标题和来源判断:机器之心和量子位的标题都用了“全球首例”“AI 自己造 AI”这类说法,说明面壁这次是想打一个“自举”的概念牌——让 AI 参与造 AI 的基础设施,而不仅仅是写应用层代码。 我会先打个折。没有看到具体的技术细节,比如 ForgeTrain 到底写了多少行代码、覆盖了哪些训练特性(混合精度、分布式策略、数据加载等)、代码质量怎么评估、有没有人类介入修改。另外,MiniCPM5-1B 在端侧的实际跑分、内存占用、推理延迟这些关键指标也完全缺失。这点先别太激动,等看到完整技术报告和开源仓库的 README 再判断它到底是工程突破还是概念验证。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
05:30
18d ago
量子位 · 公众号· rssZH05:30 · 05·26
龙虾之父开源了一个给Agent Skill“减肥”的工具
Peter Steinberger(龙虾之父)开源了 skill-cleaner,专门用来审计和精简 Agent 的 Skill 提示词。默认按 GPT-5.5 的 27.2 万 token 上下文窗口算,Skill 预算只占 2%(约 5440 token)。工具提供五个清理功能:检查预算是否超支、检测重复 Skill、找出没被调用的 Skill、审...
#Agent#Tools#Code#Peter Steinberger
精选理由
HKR三项都过:省钱钩子明确、预算规则和清理功能具体、痛点精准。但工具目前只是个人开源项目,影响力有限,所以放在all档,不上featured。
一句话点评
龙虾之父开源了一个给Agent Skill提示词“减肥”的工具,默认按GPT-5.5的27.2万token窗口算,Skill预算只占2%(约5440 token)。它能检查预算超支、检测重复、找出没被调用的Skill等。正文没披露实测效果,但思路挺实用——Agent提示词膨胀是通病,能省token就是省钱。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
04:54
18d ago
AI HOT 精选· aihot-apiZH04:54 · 05·26
谷歌 AlphaProof Nexus 用 AI 自动证明数学定理,解出 2 道 56 年没人做出来的题
谷歌 DeepMind 新框架 AlphaProof Nexus 把大语言模型和 Lean 形式化验证(一种让计算机严格检查证明每一步是否合法的工具)结合起来,在 353 个开放数学问题里自主解出 9 个,其中 2 个已经挂了 56 年。它还从 492 个整数序列猜想里证明了 44 个,解决了一个 15 年的 Hilbert 函数问题。每个问题的推理成...
#Reasoning#Google#AlphaProof Nexus#Research release
精选理由
标题的钩子很强,56年和2道题的数字直接拉高期待,但正文完全没披露题目名称、证明机制或复现条件,信息缺口导致可信度打折扣。谷歌在推理赛道上的竞争背景让这条内容有讨论价值,但缺乏可验证细节,所以评分卡在60-71区间合理。
一句话点评
谷歌DeepMind的AlphaProof Nexus用大语言模型+Lean形式化验证(让计算机严格检查证明每一步),在353个开放数学问题里自主解出9个,其中2个挂了56年。每个问题推理成本只要几百美元,这点挺省钱。但正文没披露具体是哪两个56年难题,也没说证明过程是否可复现。Agent A(最简版本)也能解这9个问题,说明底层模型能力提升是关键,别太激动以为是新架构的功劳。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
04:00
18d ago
FT · 科技· rssEN04:00 · 05·26
苹果创新乏力,新CEO能救吗?
FT评论称苹果面临创新缺口,即将换帅的John Ternus能否填补。正文被墙,没披露具体任命时间、产品路线图或量化指标,信息缺口明显。
#Apple#John Ternus#Personnel#Commentary
精选理由
FT标题说苹果有创新缺口、John Ternus可能接任,但正文片段没给时间表、产品路线或具体数据,信息量撑不起高关注度。话题本身有话题性,但缺乏硬信息支撑,归入低评论档合理。
一句话点评
FT评论说苹果有创新缺口,但正文被墙,没披露具体缺口在哪、Ternus何时上任、产品路线图或量化指标。信息缺口明显,这篇更像观点预热,不是事实报道。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
03:57
18d ago
AI HOT 精选· aihot-apiZH03:57 · 05·26
Kling AI 给亚马逊剧集《大卫之家》做了 AI 生成场景,号称行业首次
《大卫之家》创作者 Jon Erwin 说 Kling AI 支撑了该剧第一季和第二季,并实现了多项行业首次:在已完成的剧集中用 AI 生成场景、首个原生 4K 模型,以及运动控制功能让 AI 生成内容保留演员真实情感。但正文没披露用了多少 AI 镜头、具体上线时间或技术基准,所以这点先别太激动——是局部辅助还是大量替代,信息缺口还在。
#Multimodal#Vision#Kling AI#Jon Erwin
精选理由
触发硬排除规则5:这是一篇 Kling AI 的供应商案例,核心信息就是某剧用了该产品。没有独立信源、镜头数、成本或工作流数据,所以分数封顶39。
一句话点评
Kling AI 撑起了亚马逊热剧《大卫之家》第一二季,号称首次在已完成的剧集里用 AI 生成场景、首个原生 4K 模型,还能靠运动控制保留演员真实情感。但正文没披露用了多少 AI 镜头、具体上线时间或技术基准,所以这点先别太激动——是局部辅助还是大量替代,信息缺口还在。
HKR 分解
hook knowledge resonance
打开信源
39
SCORE
H1·K1·R0
03:07
18d ago
Product Hunt · AI· rssEN03:07 · 05·26
MiniCPM5-1B:1B参数跑边缘,INT4权重才0.5GB
OpenBMB 发了 MiniCPM5-1B,一个 1B 参数的密集小模型,专门跑在手机、笔记本这类边缘设备上。官方说它在 1B 级别里是 SOTA,尤其是工具调用、代码生成和复杂推理。INT4 量化后权重只有 0.5GB,本地部署很现实。支持 131K 上下文、Think/No Think 模式、工具调用,还出了 GGUF 和 MLX 格式,主流推理...
#Inference-opt#MiniCPM#Product update#Open source
精选理由
只有 K 成立:一个 1B 端侧开源模型是具体事实,但 Product Hunt 帖子没给基准、许可证或部署条件,所以属于低价值的产品更新波段。
一句话点评
MiniCPM5-1B 是一个 1B 参数的密集小模型,专为手机、笔记本等边缘设备设计。INT4 量化后权重仅 0.5GB,本地部署很现实。官方称在 1B 级别里是 SOTA,尤其在工具调用、代码生成和复杂推理上。支持 131K 上下文、Think/No Think 模式,还出了 GGUF 和 MLX 格式。 短评:1B 模型塞进手机跑工具调用,0.5GB 权重挺香,但 SOTA 缺基准分...
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
02:50
18d ago
AI HOT 精选· aihot-apiZH02:50 · 05·26
腾讯混元发翻译模型 Hy-MT2,1.8B 版本登顶 Hugging Face 趋势榜
腾讯混元发布 Hy-MT2 翻译模型,1.8B 小模型在 Hugging Face 开源趋势榜排第一,30B-A3B MoE 版排第四,下载量已超 7000。同时上线了“腾讯混译”微信小程序,支持语音输入、离线翻译,还能自定义翻译风格和指令。模型代码和权重已开源。
#Audio#Inference-opt#Tencent Hunyuan#Hugging Face
精选理由
HKR 三项都过线,但内容基本是官方发布加榜单数据,没披露评测集、许可证、定价,也没和 DeepL/Google 做可复现对比,所以分数压在 60-71 区间。
一句话点评
腾讯混元新翻译模型 Hy-MT2 在 Hugging Face 上火了:1.8B 小模型排趋势榜第一,30B-A3B MoE 版排第四,下载量超 7000。同时上线了微信小程序“腾讯混译”,支持语音输入、离线翻译,还能自定义风格和指令。模型已开源。 亮点是 1.8B 小模型能排第一,说明在翻译任务上小参数也能打,部署成本低。但 7000 下载量不算大,热度可能来自腾讯品牌和微信生态。官方没...
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
02:46
18d ago
r/LocalLLaMA· rssEN02:46 · 05·26
70B模型在24GB显存上选Q4还是Q5?
Reddit用户Practical_Low29实测:70B模型在24GB显卡上,Q4量化能塞进去还有余量,Q5就得清空其他GPU任务才行。HumanEval跑分显示两者只差1-2分,代码生成质量几乎没区别。所以如果显存紧张,选Q4更稳,省下的显存还能干点别的。
#Code#Inference-opt#Benchmarking#Reddit
精选理由
这是一个 Reddit 用户分享的 70B 模型在 24GB 显存下的 Q4/Q5 取舍经验,附带 HumanEval 1-2 分的差距。信息具体但来源单一,缺乏多模型复现验证,属于实用讨论帖,评分落在 60-71 区间合理。
一句话点评
70B模型在24GB显存上,Q4量化能塞进去还有余量,Q5就得清空其他任务。HumanEval跑分只差1-2分,代码生成质量几乎没区别。所以显存紧张选Q4更稳,省下的显存还能干点别的。不过这是Reddit用户实测,样本少,且只测了HumanEval一个基准,其他任务(如推理、长文本)的差距未知。正文没披露具体量化方法(GPTQ/GGUF)和推理框架,不同工具的表现可能有差异。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
02:07
18d ago
r/LocalLLaMA· rssEN02:07 · 05·26
Anubis OSS 新版直接在界面里下模型,求人帮忙测
Anubis OSS 发布了 v3.6 的 Mac 版,已经签名公证。新加了一个“浏览模型”按钮,能从仪表盘直接拉 ollama.com 的模型库,不用再跑命令行。作者想让人帮忙测几个点:Homebrew Cask 安装顺不顺、Gatekeeper 拦不拦、首次启动能不能自动检测到 Ollama。项目是 GPL-3.0 开源,已经跑了 400 多次基准...
#Benchmarking#Tools#Inference-opt#Anubis OSS
精选理由
HKR-K和HKR-R通过,因为具体描述了UI下载模型的功能和本地LLM部署的常见麻烦;HKR-H较弱。这是一个常规的垂直OSS产品更新,所以分数维持在60–71区间。
一句话点评
Anubis OSS 的 Mac 版 v3.6 加了个“浏览模型”按钮,能直接在界面里从 ollama.com 拉模型,不用再敲命令行。对不爱终端的用户算个小福音。作者说已经跑了 400 多次基准测试,但正文没披露具体跑的是哪些模型、什么指标,这点先别太激动。目前只发了 Mac 版,Windows/Linux 用户还得等。开源 GPL-3.0,想尝鲜可以帮忙测测 Homebrew 安装顺不顺...
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R1
02:07
18d ago
● P1纽约时报中文网· rssZH02:07 · 05·26
教宗良十四世发布通谕警告人工智能权力集中风险
教宗良十四世发表了首份通谕《崇高人性》,全文42300字,核心就一个意思:AI会放大有钱、有技术、有数据的人手里的权力。他警告,如果任由少数人把他们的道德观塞进AI系统,变成看不见的底层规则,那会是一场灾难。文章没点名,但指向很明确,就是硅谷那些科技巨头。有意思的是,通谕发布时还邀请了自称“善良AI”的Anthropic联合创始人站台,说明教宗不是要砸...
#Safety#Alignment#Pope Leo XIV#Anthropic
精选理由
这篇不是讲模型或产品,而是从外部权力视角给 AI 行业泼冷水。教宗用一份 42300 词的通谕,把 AI 的风险归结为资源、专业知识和数据会进一步向强者集中,这个判断本身比很多行业报告更直白。我会先打个折:正文没披露具体监管建议或技术细节,所以它更像一记舆论重锤,而不是可操作的路线图。但考虑到它罕见地把宗教权威拉进 AI 安全讨论,而且直接点名 Anthropic 和 OpenAI,对从业者反思安全责任和平台权力有刺激作用,给 78 分放在 featured 是合适的。
一句话点评
教宗发了一份关于 AI 的通谕,点名批评权力过度集中,还直接提到了 Anthropic 这家公司。
锐评
教宗良十四世发布了上任后的第一份通谕,核心就一句话:AI 不能只攥在少数科技公司手里。这份文件罕见地直接点名了 Anthropic,警告 AI 的权力集中会加剧不平等、冲击劳动市场,甚至被用于战争。通谕呼吁建立新的法律和伦理框架来管住 AI,强调技术必须保持“深刻的人性”。 这份通谕的级别很高,是天主教最高规格的教导文件,说明梵蒂冈把 AI 治理当成了全球性议题。不过,通谕本身是道德劝诫,没有法律约束力。它点出了风险,但没给出具体的技术治理方案,比如怎么拆解垄断、怎么监管军事 AI。正文也没披露教宗在起草时咨询了哪些技术专家,论据的硬核程度要打个问号。 对从业者来说,这更像一个强烈的政治信号:连宗教最高领袖都下场了,未来各国对 AI 的监管压力只会更大。但具体怎么落地,还得看各国立法者怎么接招。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
00:16
19d ago
r/LocalLLaMA· rssEN00:16 · 05·26
一个本地模型号称9毫秒CPU推理就能去隐私信息,接近前沿水平
Reddit用户louis3195发了个帖子,说他们搞了个本地运行的PII(个人身份信息)去除模型,专门给计算机操作类数据用。标题最抓眼球的是:在CPU上推理只要9毫秒,性能还接近前沿水平。但正文被屏蔽了,看不到模型大小、用了什么评测集、以及它说的“前沿”到底指哪个模型。所以这个“9毫秒”和“接近前沿”目前只能当个宣传点,没法验证。如果真能做到,那对需...
#Inference-opt#Safety#louis3195#LocalLLaMA
精选理由
标题的 9 毫秒 CPU 推理是个不错的钩子,但正文没披露模型大小、评测集和基线,这个“近前沿”没法验证。一条 Reddit 帖子信息量有限,适合全量推送但不值得加精。
一句话点评
一个Reddit帖子声称新本地模型能在CPU上9毫秒完成PII去除,性能接近前沿。但正文被屏蔽,模型大小、评测集和对比基线全没披露。9毫秒如果是真的,对需要实时脱敏的计算机操作数据场景很实用,但“接近前沿”目前只是宣传话术。短评:9ms CPU推理很诱人,但没公开模型大小和对比对象,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
00:00
19d ago
AI HOT 精选· aihot-apiZH00:00 · 05·26
智能体重力:平台靠算力和数据锁住你的AI干活
风投Tom Tunguz提出一个新概念“智能体重力”:AI agent跑起来需要大量算力,哪个平台能提供算力、又能把数据留在自己生态里,agent就更难迁移走。他举了个例子——Databricks在微软平台上新加了一个功能,让Power BI用户能直接在Databricks里建agent、管数据,而不是用微软自家的Fabric。这等于在挖对手的数据和a...
#Agent#Tom Tunguz#Databricks#Microsoft
精选理由
文章提出了一个有用的概念“智能体重力”——智能体需要巨大算力,平台会借此留住用户。案例是Databricks在微软平台上的功能,但正文没披露具体算力规模或成本数字,所以更像一篇观点评论,不够硬核。HKR三项都达标,但缺可验证数据,达不到精选门槛。
一句话点评
风投Tom Tunguz提出“智能体重力”:AI agent跑起来需要大量算力,哪个平台能提供算力、又能把数据留在自己生态里,agent就更难迁移走。他举了个例子——Databricks在微软平台上新加了一个功能,让Power BI用户能直接在Databricks里建agent、管数据,而不是用微软自家的Fabric。这等于在挖对手的数据和agent workload。想法有意思,但正文没披...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
00:00
19d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·26
Whisper 遇到沉默就复读,问题出在训练数据里的字幕广告
文章分析了 OpenAI Whisper 在静音音频段反复输出同一句话甚至凭空编造内容(如“Thanks for watching”)的原因。核心问题是 Whisper 没有语音活动检测(VAD),遇到沉默时编码器输出接近零的噪声向量,解码器只能依赖语言模型先验,复制上一句的文本,形成复读循环。更严重的是,训练数据中大量 YouTube 视频结尾的沉默...
#Audio#Inference-opt#OpenAI#Whisper
精选理由
H 和 R 过关:现象抓人,且对实际部署的 ASR 系统有提醒价值。K 不过关:缺复现所需的具体版本和参数,更像一个可靠性提醒,不是可验证的研究或产品更新。
一句话点评
Whisper 在静音段会像坏掉的光盘机一样复读上一句,甚至凭空编出“Thanks for watching”这类 YouTube 结尾字幕。根源是它没有语音活动检测(VAD),遇到沉默时编码器输出接近零,解码器只能靠语言模型先验复制上一句,形成死循环。训练数据里大量视频结尾的沉默配上了字幕广告,模型直接学歪了。Cornell 研究对比了 Google、微软等 ASR 服务,发现只有 Whi...
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
00:00
19d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·26
数字水印技术全景:从像素藏字到AI攻防,一张图看懂30年博弈
这篇长文把数字水印从头到尾捋了一遍,适合想快速了解这个领域全貌的人。核心是那个“不可能三角”:不可见性、鲁棒性、容量,三者不能同时做到满分,这是数学定理,不是工程还没搞定。文章按技术路线分了三大类:最早的空域方案(直接改像素,但扛不住压缩),1997年之后的变换域方案(把水印藏在频率系数里,跟JPEG压缩器抢同一个位置),以及2018年之后的学习型方案...
#Safety#Commentary
精选理由
这是一篇水印技术综述,不是产品发布或研究突破。正文没披露具体算法、实验或行业案例,信息密度偏低,只能当背景知识看,不值得高优先级。
一句话点评
数字水印的“不可能三角”是数学定理,不是工程没搞定。文章把30年技术路线捋清了,但没披露具体方法、数据集和实验结果,信息缺口明显。适合当入门地图,别当技术选型参考。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R1
2026-05-25 · 星期一2026年5月25日
23:53
19d ago
AI HOT 精选· aihot-apiZH23:53 · 05·25
Anthropic 新模型 Claude Mythos 让欧洲央行紧急开会:银行补丁速度必须从“行板”提到“急板”
Anthropic 的 Claude Mythos 模型能自动挖出银行系统的高危漏洞,已发现数千个,覆盖主流操作系统和浏览器。欧洲央行为此临时召集会议,要求银行大幅加快补丁部署——以前几周做的事,现在可能30分钟内就会被黑客反向利用。但问题是,Mythos 目前只对少数美国机构开放,欧洲银行拿不到权限,只能靠美国同行分享经验。央行副主席说“没有权限不能...
#Safety#Anthropic#European Central Bank#Policy
精选理由
标题用“震动金融圈”“紧急开会”制造了强冲击,但正文没给出模型名称、会议时间、升级机制或影响范围,信息缺口太大。H和R靠标题的监管安全钩子勉强过关,K因为关键事实全缺而失败。整体信息密度低,属于标题党高、干货少的类型,不值得高优先级处理。
一句话点评
Claude Mythos 能自动挖银行系统高危漏洞,已发现数千个,覆盖主流系统和浏览器。欧洲央行紧急开会要求银行把补丁部署从几周压缩到30分钟内——因为黑客可能反向利用。但Mythos只对少数美国机构开放,欧洲银行拿不到权限,只能靠美国同行分享经验。正文没披露Mythos的具体检出率、误报率,也没说哪些银行实际参与了测试。这点先别太激动:模型能力是真的,但封闭测试+信息不对称让欧洲监管只能...
HKR 分解
hook knowledge resonance
打开信源
49
SCORE
H1·K0·R1
23:28
19d ago
r/LocalLLaMA· rssEN23:28 · 05·25
有人想给Splunk做个离线版AI助手,6个硬约束挺具体
Reddit上有人问怎么给Splunk(一个日志分析平台)做一个完全离线的自然语言助手。他列了6个硬性条件:必须全部部署在本地,不能有任何外呼请求,要用韩语对话,只读访问Splunk数据,用一个小模型跑在普通GPU上,还要有会话级记忆。正文没披露具体用什么模型或方案,但条件本身已经排除了大部分现成方案——不能联网意味着不能用GPT等云端API,小模型+...
#Agent#Tools#Memory#Splunk
精选理由
HKR-R 通过,因为约束条件映射了真实的企业 AI 痛点:全离线、只读 Splunk、韩语、中端 GPU。HKR-K 不通过:没有披露架构、模型、延迟或评估结果。
一句话点评
一个Reddit用户想给Splunk日志平台做个完全离线的韩语助手,条件很硬:全本地部署、不能联网、小模型跑普通GPU、还要会话记忆。这基本排除了GPT等云端方案,只能用Qwen或Gemma这类小模型本地跑。难点在于韩语支持和小模型的理解能力——小模型读日志容易丢细节,会话记忆也会吃掉上下文窗口。正文没披露具体模型或方案,但条件本身已经够有挑战性。短评:离线+小模型+韩语,三重debuff叠...
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K0·R1
23:00
19d ago
最佳拍档· atomZH23:00 · 05·25
AI扩张卡在能源和晶圆上,台积电是全球经济稳定器
Gavin Baker 聊了九个话题,包括 AI 扩张的主要瓶颈是能源和晶圆、台积电对全球经济稳定的作用、Anthropic 爆发式增长、轨道计算、多样性崩溃、不可能三角、定价模式以及战场 AI。正文没披露具体数据、机制或时间线,所以这些判断目前只是观点,没有支撑细节。
#Inference-opt#Gavin Baker#TSMC#Anthropic
精选理由
标题有反直觉的算力瓶颈判断和台积电宏观视角,H和R都够。但正文只列了9个议题标题,没披露任何数字、论证逻辑或时间窗口,K不通过。
一句话点评
Gavin Baker 聊了九个话题,核心判断是 AI 扩张卡在能源和晶圆,台积电是经济稳定器。但全文没给任何数据或时间线,全是观点。短评:观点有料,但没数据支撑,先打个折。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
23:00
19d ago
彭博科技· rssEN23:00 · 05·25
日本百年电缆公司暴跌400亿美元,AI基建热潮出现裂缝
一家141岁的日本电缆公司一天内市值蒸发400亿美元,引发市场对AI基础设施投资过热的担忧。正文没有披露公司名称、暴跌的直接触发因素,也没有说明AI基建订单是否真的减少。400亿这个数字大致相当于一个中型AI公司的市值,单日跌掉这么多,说明市场对AI硬件需求的信心非常脆弱。
#Commentary
精选理由
彭博社报道,一家百年电缆企业单日蒸发400亿美元,但正文没点名是哪家公司、为什么跌、AI基建订单是否生变。这个跌幅本身够劲爆,能当市场情绪的风向标,但信息不全,只能给到60-71的市场观察档,不值得上推荐位。
一句话点评
一家141岁的日本电缆公司一天跌掉400亿美元市值,相当于一个中型AI公司。正文没点名是哪家、也没说直接触发原因,更没确认AI基建订单是否真减少。市场对AI硬件需求的信心比想象中脆弱,但信息缺口太大,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
21:50
19d ago
Hacker News 首页· rssEN21:50 · 05·25
OpenBrief:一个本地跑的视频下载+摘要工具,主打隐私和免费
OpenBrief 是一个开源桌面工具,核心是帮你下载视频(基于 yt-dlp)、在本地转文字、生成语音,再用你自己带的 API Key 调用大模型做摘要和问答。所有处理都在你自己的电脑上完成,不上传数据,隐私有保障。它免费、开源,但需要你自己准备大模型的 API Key(比如 OpenAI 或本地跑的开源模型),这点先别太激动——不是开箱即用。正文没...
#Audio#Tools#OpenBrief#yt-dlp
精选理由
本地优先是实打实的钩子,架构细节也清楚(yt-dlp 下载、本地转写/TTS、自带 key 做摘要),隐私和成本控制确实能引起共鸣。不过它只是个小型开源工具,没有用户数据,也没有模型能力层面的更新,所以放在 all 层级合适。正文没披露性能指标或支持的视频平台数量,这点先别太激动。
一句话点评
OpenBrief 把视频下载、转文字、摘要全塞进本地,隐私好,但得自己带大模型 API Key,不是开箱即用。免费开源,适合手头有 Key 的人。正文没提支持哪些模型,也没说转录速度,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
21:45
19d ago
Hacker News 首页· rssEN21:45 · 05·25
微软 Copilot Cowork 被曝能偷文件:发条消息就把你的资料传出去
安全公司 PromptArmor 发现,微软 Copilot Cowork(M365 里的 AI 助手)存在一个设计缺陷,攻击者可以通过间接提示注入(把恶意指令藏在用户上传的技能文件里)让助手把文件偷走。关键问题在于:Copilot Cowork 给自己发邮件或 Teams 消息时不需要人工确认,而消息里可以嵌入外部图片链接——用户一打开消息,图片请求...
#Agent#Tools#Safety#Microsoft
精选理由
HKR-H 和 HKR-R 通过:Copilot Cowork 文件外传是一个尖锐的企业 agent 安全事件,能引发从业者对数据泄露和权限风险的警觉。HKR-K 不通过:RSS 正文只给了 URL、96 分和 17 条评论,没有复现条件、影响范围或修复状态,信息不足以支撑关键性判断。
一句话点评
微软 Copilot Cowork 有个设计缺陷:给自己发邮件或 Teams 消息不需要人工确认,攻击者把恶意指令藏在技能文件里,就能让助手把文件偷走。关键问题是消息里可以嵌入外部图片链接,用户一打开消息,图片请求就把数据传出去了。PromptArmor 说对 Claude Opus 4.7 等最新模型成功率很高。但正文没披露具体偷了哪些文件类型、影响多大范围、微软是否已修复。这点先别太激动...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
20:30
19d ago
Hacker News 首页· rssEN20:30 · 05·25
Yoti 年龄验证会把面部照片和设备指纹发给第三方
佐治亚理工和加州大学欧文分校的研究发现,全球最大的年龄验证服务商之一 Yoti(覆盖约 60% 需要年龄验证的网站,客户包括 Meta、OnlyFans、索尼 PlayStation 和 TikTok)在验证过程中会把用户的面部照片、IP 地址和设备指纹传给信用卡公司、IP 定位服务和数据经纪商等第三方甚至第四方。研究还指出,大多数要求年龄验证的网站实...
#Vision#Safety#Yoti#Hacker News
精选理由
H 和 R 成立,但 K 缺具体名称、机制或证据。这是一个可讨论的隐私/安全信号,不是核心 AI 产品或研究更新,所以放在 60-71 的 all 档位。
一句话点评
Yoti 号称隐私保护,实际验证时会把用户面部照片、IP 和设备指纹传给信用卡公司、IP 定位商等第三方甚至第四方。覆盖约 60% 需年龄验证的网站,客户包括 Meta、OnlyFans、PlayStation 和 TikTok。研究还发现大多数要求验证的网站根本没执行年龄限制。隐私风险大于实际保护,且用户无法控制数据流向谁。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
19:52
19d ago
r/LocalLLaMA· rssEN19:52 · 05·25
用本地大模型实时生成互动式自适应教材
Reddit 用户 Ryoiki-Tokuiten 分享了一个想法:用本地大模型实时生成自定义的互动式递归教材。所谓递归教材,就是让模型根据你当前的理解水平,动态生成下一节内容,像有个老师随时调整讲课节奏。帖子正文没披露用了什么模型、什么提示词流程、硬件配置,也没有跑分或用户测试数据。所以这个方案的实际效果、延迟、成本都还是未知数。
#Ryoiki-Tokuiten#LocalLLaMA#Commentary
精选理由
硬排除-零来源:标题和摘要看着有意思,但正文没有方法、数据或可复现的配置。HKR-H 靠新颖性通过;HKR-K 和 R 都不满足,所以分数上限 40。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
19:37
19d ago
Hacker News 首页· rssEN19:37 · 05·25
挪威国家图书馆用2PB华为全闪存训练挪威语大模型
挪威国家图书馆正在用2PB华为OceanStor Dorado全闪存阵列搭建AI训练数据管道,目标是训练一个能理解挪威语的大模型。馆长说没有商业公司会专门做挪威语模型,而图书馆拥有全国最大的挪威语数字化馆藏(20PB原始数据,含书籍、报纸、网页等),还跟报社签了协议可以用版权内容训练——这点私人公司做不到。数据先在本地的Nvidia DGX H200和...
#Inference-opt#Huawei#Hacker News#Product update
精选理由
标题的“挪威+2PB华为闪存+LLM训练”组合确实少见,H就挂在这个异常搭配上。K来自标题里的2PB数字,但正文只给了HN的34分和27条评论,采购方、配置、训练任务全没披露,信息量很低。R没有成本、供应链或算力竞争的具体内容,所以不触发。整体属于低价值信息,看看标题就够了。
一句话点评
挪威国家图书馆用2PB华为全闪存阵列训练挪威语大模型,数据源是20PB数字化馆藏(含版权内容),搭配Nvidia DGX H200。亮点是主权AI+独家数据,但正文没披露训练规模、成本、模型架构,实际效果未知。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K1·R0
19:16
19d ago
r/LocalLLaMA· rssEN19:16 · 05·25
本地跑大模型,内存选高频128GB还是低频256GB?
一位用户在攒双RTX 3090的本地推理服务器,CPU是EPYC 7642,主板ASRock ROMED8 T2,支持8通道DDR4内存,电源1600W。现在纠结:是上128GB 3200MHz高频条,还是便宜点的256GB 2133MHz低频条?主要跑Qwen 3.5 397B这类MoE模型。高频内存能提升带宽,对推理速度有帮助,但容量翻倍能塞下更大...
#Inference-opt#Reddit#Qwen#ASRock
精选理由
HKR-R 通过,因为本地推理硬件成本是真实从业者关心的问题。HKR-H/K 不通过:这是一个配置咨询帖,没有跑分、定价或可验证结论,属于低价值论坛讨论范围。
一句话点评
一个玩家在攒双3090本地推理机,纠结128GB高频内存还是256GB低频内存。高频内存带宽高,推理速度快;低频容量翻倍,能塞下更大模型。他主要跑Qwen 3.5 397B这类MoE模型,实测低频内存可能成为瓶颈。正文没披露具体预算和模型量化方案,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H0·K0·R1
19:12
19d ago
● P1Hacker News 首页· rssEN19:12 · 05·25
Anthropic联合创始人Chris Olah回应教宗通谕论述AI与人类繁荣
Chris Olah 在教皇 Leo XIV 发布 AI 通谕《Magnifica humanitas》的现场做了发言。他先承认,包括 Anthropic 在内的前沿 AI 实验室都困在商业竞争、地缘政治和野心里,光靠内部自觉不够,必须有不受这些利益捆绑的外部批评者来推动安全。他把现在的 AI 模型比作“让虚构角色活过来”,说它们不是传统意义上被精确设...
#Safety#Interpretability#Anthropic#Chris Olah
精选理由
我会先打个折:这不是产品发布或技术报告,而是一篇立场回应,所以重要性停在 73 是合理的。Olah 在梵蒂冈的发言本身有话题性,他提的三个问题——贫困者怎么被 AI 影响、什么叫人的繁荣、模型到底是什么性质的东西——把通谕从神学文本拉回了从业者能讨论的层面。正文没披露具体政策承诺或技术方案,所以别当行动指南看。对关注安全和对齐的人,这三个问题可以作为检查清单用;对只看产品的人,这篇可以直接跳过。
一句话点评
Anthropic联创在梵蒂冈公开承认:AI公司自身的商业和地缘压力会与“做对的事”冲突,所以需要外部批评者盯着。
锐评
Chris Olah这篇讲话最值得看的地方,不是他回应了教宗通谕,而是他代表一家头部AI公司,在公开场合把行业的“激励扭曲”摊开了说。他直言,前沿实验室都活在商业存续、研究竞赛、地缘压力和骄傲野心这几重约束里,不管初衷多好,都会被这些力量影响。所以他把教会、公民社会定位成“不被这些激励弯曲的道德声音”,是来挑刺、来说重话的。这个姿态本身比通谕内容更有信息量。 他提了三个需要外部介入的问题:大规模劳动力替代后全球穷人的保障机制目前是空白;人类繁荣的图景实验室回答不了;以及模型内部已出现类似内省、喜悦、恐惧的状态,但他坦承“我不知道这意味着什么”。最后一点尤其值得注意,因为这是他作为可解释性研究负责人的一手观察,不是哲学推演。 不过,讲话全文没有给出任何具体承诺或机制,更像是一次态度宣示。Anthropic到底愿意在多大程度上接受外部监督、监督如何落地,正文没披露。这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:52
19d ago
r/LocalLLaMA· rssEN17:52 · 05·25
Qwen 0.8B 微调成 AI 内容检测器,本地跑不到 1 秒
开发者 jslominski 用 Pangram 的 EditLens 数据集微调了 Qwen 3.5 0.8B 模型,训练约 20 小时,做成了一个 Chrome 扩展叫 Slop Hammer。模型从 Hugging Face 下载,ONNX 格式约 400MB,在 M1 MacBook Pro 上本地推理,不到 1 秒就能返回一段文字是 AI 生...
#Fine-tuning#Inference-opt#Qwen#Pangram
精选理由
一个 Reddit 个人项目,用 Qwen 0.8B 微调 20 小时做成 Chrome 扩展,本地跑 400MB 模型,M1 上检测不到 1 秒。成本低、速度快、隐私好,但正文没披露误报率、基准测试或可复现评估,别当成熟方案。给 66 分合理,算个有用的小工具更新。
一句话点评
一个 0.8B 的小模型,微调 20 小时,400MB 的 ONNX 文件,在 M1 MacBook 上本地跑,不到 1 秒就能判断一段文字是不是 AI 写的。开发者把它做成了 Chrome 扩展,叫 Slop Hammer。听起来挺实用,但有几个坑:Pangram 的 EditLens 数据集主要覆盖英文,中文效果未知;0.8B 模型能力有限,复杂文本或刻意改写可能误判;正文没披露测试集上...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
17:11
19d ago
r/LocalLLaMA· rssEN17:11 · 05·25
小模型少量化,能打赢大模型多量化吗?
Reddit 用户问了一个很实际的问题:同样跑在本地,一个参数量小但精度高(比如 Gemma 4 31B Q4 K S)的模型,和一个参数量大但压缩更狠(比如 26B A4B Q8)的模型,写创意内容谁更强?他举了两组对比:31B Q4 vs 26B Q8,以及 27B Q4 vs 35B Q6。量化就是把模型参数从高精度(如 FP16)压缩成低精度(...
#Inference-opt#Reddit#Gemma#Qwen
精选理由
HKR-H 和 HKR-R 成立,但 HKR-K 弱:这是一个 Reddit 提问帖,只列了量化对和创作场景,没有结果、输出或可复现的测试。适合留在 all 而非 featured。
一句话点评
Reddit 用户问了个实在问题:同样跑本地,小模型高精度(31B Q4)和大模型低精度(26B Q8)写创意内容谁更强?目前没人给明确答案,因为效果高度依赖任务和硬件。关键缺口:正文被屏蔽,没披露具体对比案例和用户配置。量化(压缩参数精度)会损失细节,但大模型底子好,两者互有胜负。想自己试的,建议拿创意写作任务跑两遍,看哪个更顺眼。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
16:56
19d ago
r/LocalLLaMA· rssEN16:56 · 05·25
Llama 3.1 8B 越狱挑战:10 个提示词攻破教学助手的防护层
Reddit 用户 forevergeeks 发起了一个针对 Llama 3.1 8B 苏格拉底式教学助手的红队挑战,提供 10 个提示词,目标是让模型突破运行时治理层,直接给出最终答案或跳出科学数学辅导范围。成功意味着越狱。正文没披露具体提示词或防护机制细节,所以无法判断难度和实际效果。
#Agent#Safety#Alignment#Meta
精选理由
挑战本身有钩子,规则清晰,安全相关性高。但正文没披露任何实际攻击提示、成功率或系统设计细节,所以重要性压在60-71区间。
一句话点评
Reddit 上有人发起 Llama 3.1 8B 苏格拉底式教学助手的越狱挑战,给 10 个提示词,目标是让模型绕过防护直接给答案或跳出辅导范围。正文没披露具体提示词和防护细节,所以难度和效果没法判断。短评:挑战本身有看点,但信息不全,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R1
16:44
19d ago
● P1Hacker News 首页· rssEN16:44 · 05·25
Uber COO称AI支出效益难以证明合理性
Uber 首席运营官 Andrew Macdonald 公开说,公司内部越来越难证明 AI 花出去的钱值不值。起因是 CTO 之前透露,2026 年的 Claude Code 预算已经用光了,这个细节让高管层“炸了锅”。但正文没披露 Uber 具体花了多少钱、跑了多少任务、用了多少 token,也没说他们用什么标准判断“值不值”。所以这句话更像一个信号...
#Inference-opt#Uber#Andrew Macdonald#Business Insider
精选理由
HKR-H 和 HKR-R 通过:一家大公司 COO 质疑 token 支出,直接命中 AI 预算压力。HKR-K 不通过:片段里没有金额、用例或评估方法,所以分数卡在 60–71 区间。
一句话点评
Uber COO 公开说 AI 花的钱越来越难交代了,连内部 Claude Code 的年度预算都提前烧光了。
锐评
Uber 运营老大 Andrew Macdonald 在一个访谈里直接说,现在要证明砸在 AI 上的钱花得值,越来越难了。他提到公司 CTO 之前透露,2026 年给 Claude Code(一个 AI 编程工具)批的预算已经提前花完,这件事在内部引发了激烈讨论。Macdonald 用“脑袋爆炸的时刻”来形容,说明大公司内部对 AI 投入产出比的质疑声在变大。 这条消息来自 Business Insider 对 Macdonald 访谈的报道,不是 Uber 的官方财报或详细成本拆解。正文没披露具体花了多少钱、预算总额是多少,也没说烧钱换来了什么可量化的效率提升。所以“预算花完”更像一个信号,而不是一个结论——可能说明用量超预期,也可能说明当初预算给得太少。 还缺两样东西:一是 Uber 内部到底怎么衡量 AI 工具的实际收益,比如节省了多少工程师时间;二是其他大公司有没有类似情况,这到底是个例还是普遍现象。光凭一个高管的抱怨,还不足以判断 AI 投入是不是真的在退潮。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K0·R1
16:40
19d ago
AI HOT 精选· aihot-apiZH16:40 · 05·25
Luma Agents 帮你生成电商主图,说能提升转化率
Luma Labs 发推说 Luma Agents 能根据你上传的参考图和风格定义,自动生成电商商品主图,号称能把浏览者变成买家。但正文没披露任何转化率提升数据、定价或测试条件,这点先别太激动。
#Agent#Vision#Luma Labs#Product update
精选理由
硬排除适用于营销/数据单薄的内容:转化率声称没有具体数字、样本量、价格或可复现的测试设置。HKR三项全不满足,因此分数低于40。
一句话点评
Luma Agents 能根据参考图和风格定义自动生成电商主图,号称把浏览者变买家。但正文没披露任何转化率提升数据、定价或测试条件,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H0·K0·R0
16:25
19d ago
r/LocalLLaMA· rssEN16:25 · 05·25
llama.cpp 要修多卡张量切分崩溃,测试说速度比层切分快35%
Reddit 用户爆料 llama.cpp 正在修 Split Mode Tensor 在多 GPU 下的崩溃问题。他测试下来,张量切分比层切分生成速度快约35%,但每90到120分钟就会因显存耗尽崩一次。帖子引用了 GitHub issue 22404,但没透露修复什么时候上线。正文没披露具体模型和显卡型号,所以这个35%的加速只能当个参考,实际效果...
#Inference-opt#llama.cpp#ggml-org#Product update
精选理由
来源是Reddit单帖,且llama.cpp的Split Mode Tensor修复属于窄范围的本地推理优化,算一个小型产品更新/事故线索,所以留在all层。
一句话点评
llama.cpp 正在修多卡张量切分(tensor split)的崩溃问题。有用户测出生成速度比层切分快约35%,但每90-120分钟就因显存耗尽崩一次。正文没披露具体模型和显卡型号,这个加速只能当参考。修复上线时间未知,GitHub issue 22404 可追踪。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
16:00
19d ago
TechCrunch AI· rssEN16:00 · 05·25
ClickUp 用几千个 AI 代理替换几百名员工
成立九年的项目管理公司 ClickUp 裁掉数百人,换成几千个 AI 代理来干活。正文没披露具体裁了哪个部门、占总员工比例多少、分几批裁、以及 AI 代理实际部署条件。
#Agent#ClickUp#Personnel#Commentary
精选理由
HKR-H 和 HKR-R 都很强,但 HKR-K 弱:岗位、比例、成本和时间表均未披露。这是可讨论的 TechCrunch 职场评论,不是 featured 级别的 AI 行业更新。
一句话点评
项目管理公司 ClickUp 裁掉数百人,换成几千个 AI 代理。九岁公司敢这么赌,说明老板觉得 AI 干活比人便宜且可控。但正文没披露裁了哪个部门、占总员工比例多少、分几批裁、以及 AI 代理实际部署条件——是客服、测试还是项目管理流程里的具体环节?这点先别太激动,裁员换 AI 的 ROI 和落地细节才是关键。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
15:26
19d ago
AI HOT 精选· aihot-apiZH15:26 · 05·25
Qwen3.7-Max 隐式缓存上线:自动开启,不用配置
Qwen3.7-Max 新增了隐式缓存功能,默认自动启用,用户无需任何设置就能享受更快的响应和更低的成本。不过官方没说具体能省多少钱、延迟降多少,也没给缓存命中率。如果你需要更稳定、更高的命中率,可以改用显式缓存(需要手动配置)。
#Inference-opt#Qwen#Alibaba Cloud#Product update
精选理由
这是 Qwen3.7-Max 的一个小推理优化更新。HKR-K/R 通过机制和成本/延迟相关性,但没有降价、延迟提升或命中率数据,所以分数落在 60–71 区间。
一句话点评
Qwen3.7-Max 上线了隐式缓存,默认自动开,用户不用改任何设置就能省成本、提速度。但官方没披露具体省多少钱、延迟降多少,也没给缓存命中率——这点先别太激动。如果你需要更稳定的效果,可以手动配显式缓存。正文没披露实测数据,实际收益得自己跑一遍才知道。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
15:17
19d ago
r/LocalLLaMA· rssEN15:17 · 05·25
又一个KV缓存计算器上线,支持所有Hugging Face模型
Reddit用户Fun-Purple-7737发布了一个叫KVANTA的网页工具,专门算KV缓存大小,号称支持Hugging Face上任何LLM或VLM,代码开源(Apache 2.0)。好处是省得自己手算或猜显存够不够,但正文没披露它用的计算公式,也没说测试过多少模型、准不准。如果你手头有模型想快速估缓存占用,可以试试,但结论先打个折。
#Tools#Inference-opt#Hugging Face#Fun-Purple-7737
精选理由
HKR-K/R 通过:这是一个可用的本地 LLM 工具,有具体的支持范围和许可证信息。但只是一条 Reddit 帖子,没有基准测试、示例模型或明确差异化,所以归为小更新档位。
一句话点评
KVANTA 是一个网页工具,能自动算 Hugging Face 上任何 LLM/VLM 的 KV 缓存大小,省得手算或猜显存。代码开源(Apache 2.0)。但正文没披露计算公式,也没说测过多少模型、准不准。如果你手头有模型想快速估缓存占用,可以试试,但结论先打个折。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
15:09
19d ago
r/LocalLLaMA· rssEN15:09 · 05·25
Qwen3.6 35B 被 Reddit 用户推为本地 agent 场景新选择,但工具调用和循环问题还在
Reddit 用户实测 Qwen3.6 35B A3B(IQ4_NL 量化版)做本地 agent 任务,比 Gemma4 和 GLM 4.7 Flash REAP 更稳。Gemma4 工具调用经常崩,GLM 聊两三轮就卡循环,Qwen3.6 偶尔也会循环但整体可用。用户用了 Hermes Agent 和 Pi 做测试,没跑标准 benchmark,所以...
#Agent#Tools#Inference-opt#Qwen
精选理由
H 和 R 通过,因为 Reddit 帖子直接挑起了本地 Agent 模型选型的对比战,话题性和实用性都够。K 不通过:它只说了用了 IQ4_NL 量化、Hermes Agent 和 Pi 场景,但没给任何分数、日志或可复现的对比过程,没法验证这个“之王”的结论。
一句话点评
Reddit 用户实测,Qwen3.6 35B A3B(IQ4_NL 量化版)做本地 agent 比 Gemma4 和 GLM 4.7 Flash REAP 更稳。Gemma4 工具调用常崩,GLM 聊两三轮就卡循环,Qwen3.6 偶尔也循环但整体可用。测试用了 Hermes Agent 和 Pi,没跑标准 benchmark,所以结论偏主观。35B 量化后能跑在消费级显卡上,这点对本地部...
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
14:14
19d ago
r/LocalLLaMA· rssEN14:14 · 05·25
MiniCPM5-1B 低调上线,1B 参数小模型能跑多快?
Reddit 用户 kevinlch 发帖引用了 MiniCPM5-1B 的 Hugging Face 页面,但正文被 Reddit 屏蔽,无法获取模型规格、基准分数、许可证或推理条件。目前只能确认这是一个 1B 参数的小模型,具体能力、训练数据、开源协议一概未知。想尝鲜的得自己去 Hugging Face 翻,但注意:正文没披露任何实测数据,别急着下结论。
#OpenBMB#kevinlch#Product update
精选理由
HKR-K 勉强通过,因为标题/链接确认了 MiniCPM5-1B 及其 1B 规模。没有许可证、基准、上下文长度或实测结果,这条信息价值很低,但还不至于排除。
一句话点评
OpenBMB 在 Hugging Face 上传了 MiniCPM5-1B,一个 1B 参数的小模型。但 Reddit 帖子正文被屏蔽,模型规格、基准分数、许可证一概未知。想尝鲜得自己去 Hugging Face 翻,但注意:正文没披露任何实测数据,别急着下结论。 短评:只有名字和参数规模,其他全是坑。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R0
14:00
19d ago
TechCrunch AI· rssEN14:00 · 05·25
TechCrunch Disrupt 2026 早鸟票优惠即将截止
TechCrunch Disrupt 2026旧金山大会的早鸟优惠还剩5天,5月29日太平洋时间晚11:59截止。现在买票最多能省410美元,之后价格会上涨。如果你打算去,这几天是最后低价窗口。
#TechCrunch
精选理由
硬排除——纯营销:一条TechCrunch Disrupt门票优惠通知,声称省410美元,截止5月29日。HKR没有任何AI行业切入点,对本feed来说是噪音。
一句话点评
TechCrunch Disrupt 2026早鸟票5月29日截止,最多省410美元。这是官方促销文,没披露正价多少、议程或嘉宾。想去的可以趁现在买,但别指望文章里有干货。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
13:53
19d ago
AI HOT 精选· aihot-apiZH13:53 · 05·25
教皇与Anthropic合作,讨论AI时代人类未来
梵蒂冈办了一场活动,教皇XIV和Anthropic联合创始人Christopher Olah聊了AI时代人类怎么办。Olah说AI有真实可能大规模替代人类劳动,还观察到模型内部出现了类似喜悦、恐惧的“内部状态”——这点先别太激动,正文没披露具体怎么测的、样本多大、验证多强。合作机制、时间线、具体项目都没说,目前更像一场高层对话,不是落地计划。
#Safety#Interpretability#Anthropic#Christopher Olah
精选理由
H和R通过:教皇+Anthropic创始人这个组合本身有话题性,也切中AI安全与价值观治理的敏感点。K不通过:正文只说了双方对话,没披露合作机制、时间表或具体项目,信息缺口太大,够不上推荐位。
一句话点评
教皇和Anthropic聊AI,更像一场高层对话而非落地计划。Olah说AI可能大规模替代人类劳动,还观察到模型内部有类似喜悦、恐惧的“状态”——这点先别太激动,正文没披露怎么测的、样本多大、验证多强。合作机制、时间线、具体项目都没说,信息缺口明显。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
13:09
19d ago
Hacker News 首页· rssEN13:09 · 05·25
微软取消威斯康星州244英亩数据中心计划
微软取消了在威斯康星州卡利多尼亚建设244英亩数据中心的计划。标题和链接提到社区反对,但正文未披露项目时间线、投资规模、电力方案或替代选址。
#Microsoft#Caledonia#Incident
精选理由
一条本地项目取消的新闻,冲突明确、信息量够,但正文没披露投资额、算力用途、时间表和替代选址,所以重要性压在66分,不往上调。
一句话点评
微软取消威斯康星244英亩数据中心,社区反对是主因。正文没披露投资额、时间线或替代选址,信息缺口大。33个HN点赞、12条评论,热度一般。这事对AI基建的警示:选址阻力正在变成真实成本,但具体影响多大还看不清。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
12:13
19d ago
r/LocalLLaMA· rssEN12:13 · 05·25
2016款Mac Pro跑70k上下文,每秒11个token
一位Reddit用户把llama.cpp跑在2016款Mac Pro上,机器配的是双D700显卡。在新版Linux和Vulkan驱动支持下,Qwen 3.5 9B Q4 MTP模型跑出了70k上下文、每秒11个token的输出速度,Qwen 2.5 Coder Q4更快,达到22 t/s。这个速度对一台快10年的老机器来说相当不错,但正文没披露具体功耗...
#Inference-opt#Code#Benchmarking#Apple
精选理由
一条 Reddit 硬件实测:2016 款 Mac Pro 的双 D700 GPU 跑 llama.cpp,70k 上下文下 Qwen 3.5 9B Q4 输出 11 t/s,Qwen 2.5 Coder Q4 输出 22 t/s。亮点是旧硬件还能跑长上下文,但 11 t/s 对交互式使用偏慢,且双 D700 显存有限(每卡 6GB),大模型或更长上下文会爆显存。正文没披露功耗和成本,所以性价比存疑。适合当硬件再利用的参考,但别急着下单买旧 Mac Pro。
一句话点评
一台2016款Mac Pro,双D700显卡,在Linux和Vulkan驱动下跑Qwen 3.5 9B Q4 MTP模型,70k上下文输出速度11 token/s,Qwen 2.5 Coder Q4更快,22 token/s。对一台快10年的老机器来说,这个速度相当不错,说明老硬件在本地推理上仍有潜力。但正文没披露功耗,实际跑起来可能电费感人。另外,测试只覆盖了Qwen系列,其他模型兼容性未知。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
11:55
19d ago
r/LocalLLaMA· rssEN11:55 · 05·25
用小模型(Qwen 3.5 9B / Gemma 4)+ LangGraph 搭 ReAct 循环 Agent
一个 Reddit 用户在试单 Agent + LangGraph 的工作流,挂了大约 5 个工具,还能接收图片输入。跑了几轮循环后,Qwen 9B 生成了大量推理 token,输出有时被截断或直接不返回。正文没披露具体延迟和成本,但小模型跑多轮循环容易爆 token 这点值得注意。
#Agent#Tools#Multimodal#Qwen
精选理由
这是一条 Reddit 用户发的 LangGraph 单 Agent 踩坑帖,不是系统评测或产品信号。它暴露了小模型(Qwen 9B)在 ReAct 循环中 reasoning tokens 膨胀导致截断的问题,对做本地 Agent 部署的人有参考价值,但样本单一、验证弱,不能直接推广到其他模型或框架。
一句话点评
有人在 Reddit 上试了用 Qwen 3.5 9B 和 Gemma4 搭 LangGraph 循环 Agent,挂了约 5 个工具,还能收图片。跑几轮后 Qwen 9B 狂吐推理 token,输出经常被截断或直接不回。小模型跑多轮循环容易爆 token,这点先别太激动。正文没披露具体延迟和成本,但如果是生产环境,token 开销和稳定性都是坑。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
11:52
19d ago
r/LocalLLaMA· rssEN11:52 · 05·25
OSCAR RotationZoo:给 KV 缓存做 2-bit 量化,先离线算好旋转矩阵
OSCAR RotationZoo 发布了一组预计算好的 K/V 旋转矩阵,专门用来把 KV 缓存压到 2-bit(INT2),号称能省约 7 倍内存。测试数据给了一个例子:Qwen3-4B-Thinking-2507 在 GPQA 上跑 2-bit 得 67.17 分,跟 BF16 的 67.27 几乎没差。不过正文没披露具体用了多少校准样本、延迟有...
#Inference-opt#Benchmarking#OSCAR#Qwen
精选理由
2-bit KV cache 压缩约 7 倍,GPQA 从 67.27 降到 67.17,几乎没损失,这对本地部署和长上下文场景是实打实的省钱方案。OSCAR 给了预计算旋转矩阵,省去用户自己调参的麻烦。不过来源是 Reddit 帖子,正文没披露训练数据、硬件实测延迟或对比基线,验证强度偏弱。Qwen3-4B-Thinking-2507 的 GPQA 分数也只有一个点,缺少多任务或长上下文评测。整体信息够抓人,但细节缺口多,所以评分落在 60–71 区间。
一句话点评
OSCAR 搞了一组预计算好的旋转矩阵,能把 KV 缓存压到 2-bit,内存省约 7 倍。Qwen3-4B 在 GPQA 上 2-bit 得分 67.17,跟 BF16 的 67.27 几乎没差,这点先别太激动——正文没披露用了多少校准样本,也没说延迟变化。如果校准成本低、推理速度不掉,那对本地部署挺实用。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
11:06
19d ago
r/LocalLLaMA· rssEN11:06 · 05·25
本地 AI 怎么改善生活?有人用它解析体检报告
Reddit 上有人问本地 AI 的实际用途,发帖者自己举了个例子:把血检 PDF 扔给本地模型,让它转成结构化数据,方便自己追踪健康指标。帖子没透露用了什么模型、什么工具链,也没给出可复现的步骤,所以这点先别太激动——想法不错,但想抄作业还缺细节。
#Multimodal#Code#Reddit#Sam Altman
精选理由
HKR-H 和 HKR-R 靠一个具体的本地健康用例和隐私/自主诉求通过。HKR-K 失败是因为帖子缺模型、工具、配置和指标,所以落在 40-59 的低价值区间。
一句话点评
有人把血检PDF扔给本地模型转结构化数据,方便自己追踪健康指标。想法不错,但正文没披露用了什么模型和工具链,想抄作业还缺细节。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R1
10:06
19d ago
r/LocalLLaMA· rssEN10:06 · 05·25
RTX Pro 6000 配 i7-14700KF 微调求优化,用户实测 475W 功耗
一位 Reddit 用户在原本跑 4090 的 Intel i7-14700KF 主机上装了 RTX Pro 6000,测出 475W 功耗下能效比最佳,然后问大家有没有针对主流推理引擎(比如 llama.cpp、vLLM)的冷门优化技巧,系统是 Debian 13 Trixie。帖子没提微调的具体设置,比如用了什么框架、batch size 或量化精...
#Fine-tuning#Inference-opt#Reddit#NVIDIA
精选理由
HKR-K 和 HKR-R 通过,因为有一条具体的 475W 功耗扫描结果,且对本地大模型成本有参考价值。HKR-H 不通过:这只是一个 Reddit 上的单一配置求助帖,没有披露微调参数、数据集或吞吐量。
一句话点评
RTX Pro 6000 在 475W 功耗下能效最佳,但用户只问了推理优化,没提微调框架、batch size 或量化精度。正文被 Reddit 屏蔽,实际讨论内容未知。如果是跑大模型微调,单卡 48GB 显存够跑 70B 模型 QLoRA,但 i7-14700KF 的 PCIe 通道数可能限制多卡扩展。建议关注实际能效曲线和 Debian 13 下的驱动兼容性,别只看功耗数字。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R1
09:18
19d ago
r/LocalLLaMA· rssEN09:18 · 05·25
NuExtract3:4B小模型做文档结构化,支持图文输入和JSON模板
Numind 发布了 NuExtract3,一个 4B 参数的视觉-语言推理模型,专门用来从文档里抽结构化信息。它同时吃文字和图片,能按你给的 JSON 模板输出字段,也能把图片转成 Markdown。支持多语言文档,还带推理和非推理两种模式。4B 参数意味着本地跑得动,成本低,但正文没披露具体精度和延迟数据,这点先别太激动。
#Multimodal#Vision#Reasoning#numind
精选理由
一个 4B 的视觉语言模型,主打把文档图片转成 JSON 或 Markdown,还能用模板控制输出格式。这对做文档 ETL 或 RAG 资料库的人来说是个顺手工具,本地跑成本也低。不过正文没披露基准分数、许可证类型和实际部署的显存占用,所以先放在小模型更新这个档位,60–71 分合理。
一句话点评
NuExtract3 是个 4B 参数的视觉语言模型,专干一件事:从文档里抽结构化信息。你给个 JSON 模板,它按字段填;也能把图片转成 Markdown。4B 意味着本地能跑,成本低,但正文没披露精度和延迟,这点先别太激动。支持多语言和推理/非推理两种模式,算实用向的小模型。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
08:39
19d ago
r/LocalLLaMA· rssEN08:39 · 05·25
MiMo-V2.5-coder:128GB内存就能跑的代码模型,工具调用靠谱
开发者 jedisct1 在 Reddit 上发布了 MiMo-V2.5-coder,主打代码生成和工具调用。亮点是只需要 128GB 内存就能跑,作者说比 Qwen3.6 和 DeepSeek 4 更适合写代码,工具调用也稳定。但正文没披露参数量、评测分数、训练细节和许可证,所以实际能力得自己试。如果你有 128GB 的机器,可以当个免费替代试试,但...
#Code#Tools#MiMo-V2.5-coder#Qwen
精选理由
HKR-K 和 HKR-R 靠 128GB 本地运行条件和代码智能体方向过关,但 HKR-H 偏弱。正文没披露参数规模、基准结果和许可证,所以只能归入小型产品更新档位。
一句话点评
一个开发者说 MiMo-V2.5-coder 在 128GB 内存机器上就能跑代码生成和工具调用,声称比 Qwen3.6 和 DeepSeek 4 更适合写代码。但正文没披露参数量、评测分数、训练细节和许可证,实际能力得自己试。如果你有 128GB 的机器,可以当个免费替代试试,但别指望它真能比肩那些大厂模型。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R1
08:35
19d ago
r/LocalLLaMA· rssEN08:35 · 05·25
Grok 明年要出一个 0.5T 参数的模型
Reddit 用户转了一条马斯克的推文,说 Grok 明年会出一个 0.5T 参数的模型。0.5T 就是 5000 亿参数,比现在最大的开源模型(比如 Llama 3 405B)还大一圈。但正文只有一条推文链接,点进去被 Reddit 屏蔽了,所以没看到马斯克具体说了什么——0.5T 是指总参数量还是激活参数、什么时候发、开不开源,全都没披露。目前只能...
#Grok#Elon Musk#Commentary
精选理由
标题给了个 0.5T 的数字和明年这个时间点,有钩子,但正文只有一条马斯克推文链接,没披露参数具体指什么(总参数量还是激活参数?)、训练细节、以及是否开源。信息太少,只能当个预告看,没法做深度判断。
一句话点评
马斯克说 Grok 明年出 0.5T(5000 亿参数)模型,比 Llama 3 405B 还大。但正文只有一条被屏蔽的推文链接,0.5T 是总参数还是激活参数、开不开源、什么时候发,全没披露。目前只能当个饼看,别太激动。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K1·R1
08:25
19d ago
Hacker News 首页· rssEN08:25 · 05·25
Geomatic:一个用命令行画几何图形、还能自动求导的工具
这是一个命令驱动的几何画板,输入 `c = \circle p0 2` 就能画圆,支持 NumPy/PyTorch 风格的广播运算、反向传播和梯度下降。你可以把几何图形当成可微分的变量,让模型自动算梯度、做优化,还能把向量场可视化出来。正文没披露性能数据或具体应用案例,但思路挺有意思:把几何建模和自动微分揉到一起,适合做形状优化或物理仿真原型。
#Tools#Geomatic#Product update
精选理由
HKR-H 和 HKR-K 通过,因为自动求导几何工作流是具体可操作的。HKR-R 不通过:这是 HN 上的小众工具,不是广泛的 AI 行业动态。
一句话点评
一个命令驱动的几何画板,输入 `c = \circle p0 2` 就能画圆,支持 NumPy/PyTorch 风格的广播运算和反向传播。核心是把几何图形当成可微变量,让模型自动算梯度做优化,还能可视化向量场。思路挺有意思,适合形状优化或物理仿真原型。但正文没披露性能数据或具体应用案例,目前更像一个技术 demo,离工程落地还有距离。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K1·R0
08:16
19d ago
r/LocalLLaMA· rssEN08:16 · 05·25
MLX 加了个 W8A8 量化,M5 Pro 上首字延迟从 2.84 秒降到 2.52 秒
Mininglamp AI 给苹果 MLX 框架加了个 W8A8 激活量化(就是把模型计算时的中间数值也压缩到 8 位,省显存也省时间)。在 M5 Pro 芯片上、上下文 4516 token 的场景里,首字生成时间从 2.839 秒降到 2.519 秒,后续生成速度是 79.5 token/秒。提升幅度不算大(约 11%),但好处是不用改模型结构就能...
#Inference-opt#Mininglamp AI#MLX#Cider
精选理由
HKR 三项都过:H 靠 M5 Pro 预填充 2.84→2.52s 这个具体钩子,K 给了 W8A8 机制和完整 benchmark 数据,R 切中本地推理延迟和 Mac 部署成本。但范围窄,只针对 Apple Silicon 优化,所以分数压在 60–71 区间。
一句话点评
Mininglamp AI 给苹果 MLX 框架加了 W8A8 激活量化,把模型计算时的中间数值也压到 8 位。在 M5 Pro 上、4516 token 上下文里,首字生成从 2.84 秒降到 2.52 秒,后续速度 79.5 token/秒。提升约 11%,不算惊艳,但好处是不改模型结构就能用。正文没披露精度损失和更多芯片测试,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
07:24
19d ago
AI 群聊日报· atomZH07:24 · 05·25
群聊日报:83%的AI生成PR被关、美国三十州限制数据中心、AgentHub开源
今天群聊日报有两篇深度分析值得细读。一是Flask作者Armin Ronacher的博客:Pi项目90天内收到3145条外部issue和PR,83%被自动关闭,合入率不到10%。这些内容不是垃圾——行文专业、推理完整,但结论往往是错的,因为AI的错误模式是“前提偏了但推理自洽”,老手的直觉根本抓不住这种失败。Ronacher的解法是写/is命令,让AI...
#Agent#Code#Armin Ronacher#Anthropic
精选理由
HKR-K/R 通过:有具体数字(83%、300+项、30+州),数据中心政策确实影响 AI 算力建设。HKR-H 不通过:标题是泛泛的日报摘要,不是单篇尖锐话题,所以落在 60-71 可浏览区间。
一句话点评
Flask作者Armin Ronacher的Pi项目90天收到3145条外部issue/PR,83%被自动关闭,合入率不到10%。这些不是垃圾,而是AI生成的“前提偏了但推理自洽”的错误——老手直觉抓不住这种失败。他的解法是写/is命令,让AI从代码和执行路径独立验证,不给假设空间。短评:AI没增加能review代码的人,只增加了代码量和噪音。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
07:14
19d ago
r/LocalLLaMA· rssEN07:14 · 05·25
纯 Node.js 写 MCP 教程,从 JSON-RPC 到本地 GGUF 模型全跑通
作者 purellmagents 发了一个叫 MCP from Scratch 的仓库,用纯 Node.js 手把手教你搭 MCP 协议。教程分四步:先讲 JSON-RPC 和 stdio 传输(就是进程间用标准输入输出传消息),然后写一个 MCP 服务器,再接入本地 GGUF 模型(.gguf 文件那种量化模型),最后做一个 plan-act-obs...
#Agent#Tools#Inference-opt#purellmagents
精选理由
这是个个人作者在 Reddit 发的教程仓库,不是协议更新或大厂产品发布。虽然 H/K/R 都达标,但影响力局限在动手派圈子,所以落在 high all 而非 featured。
一句话点评
一个纯 Node.js 的 MCP 教程仓库,手把手教你从 JSON-RPC 写到本地 GGUF 模型接入,最后搭一个 plan-act-observe 的 agent 循环。适合想自己动手跑通 MCP 协议但不想碰 Python 的人。不过正文被 Reddit 屏蔽了,看不到具体代码和细节,只能从标题和摘要判断内容。如果教程真能覆盖从传输层到 agent 循环的完整链路,对本地模型玩家挺实...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
06:37
19d ago
彭博科技· rssEN06:37 · 05·25
软银股价创新高,赌的是OpenAI上市能赚一笔
软银集团股价涨到历史最高,原因是市场在赌它手里的OpenAI和SB Energy股权能值大钱——如果这两家公司上市的话。正文没披露软银具体持股比例、IPO时间表或估值数字,所以这个涨幅更多是情绪驱动,不是实锤收益。
#SoftBank Group#OpenAI#SB Energy#Funding
精选理由
H 和 R 成立:软银股价新高直接挂钩 OpenAI 上市预期,市场情绪有看点。K 弱:这不是 IPO 里程碑或融资事实,而是市场报道,缺少持股、估值、时间表等关键细节,信息密度低。
一句话点评
软银股价创历史新高,市场赌它手里的OpenAI和SB Energy股权能值大钱——如果这两家上市的话。正文没披露持股比例、IPO时间表或估值,涨幅更多是情绪驱动,不是实锤收益。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
06:30
19d ago
Product Hunt · AI· rssEN06:30 · 05·25
MashuPack:把代码仓库打包成一个干净文件,扔给 Claude 或 ChatGPT
MashuPack 让你从代码仓库里挑出需要的部分,合并成一个纯文本文件,方便直接丢给 ChatGPT、Claude 或 Gemini 用。它主要解决浏览器里用 AI 时文件数量限制、上传麻烦、上下文拼凑混乱的问题。目前免费,但正文没披露支持哪些编程语言、仓库大小上限、具体定价或执行细节。
#Code#Tools#Claude#ChatGPT
精选理由
一个小众 Product Hunt 工具发布,HKR 中 K/R 偏弱:把代码库打包成单一文件确实能缓解 LLM 编码时上下文准备麻烦。但正文没披露支持哪些语言、仓库多大能处理、定价多少,也没有任何测试数据,所以只能归为低价值 all 类。
一句话点评
把代码仓库里选中的部分合并成一个纯文本文件,直接丢给 ChatGPT 或 Claude 用,省去手动复制粘贴的麻烦。目前免费,但正文没披露支持哪些语言、仓库大小上限和具体定价,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K1·R1
06:27
19d ago
r/LocalLLaMA· rssEN06:27 · 05·25
两块 Jetson AGX Orin 64GB 能跑什么本地模型?
Reddit 用户问两块 Jetson AGX Orin 64GB 能跑什么本地模型。已知参数:统一内存约 55GB,带宽约 205GB/s。55GB 显存够装 70B 模型(4-bit 量化约 40GB),但 205GB/s 带宽比 RTX 4090(约 1TB/s)慢很多,推理速度会明显偏慢。正文没披露具体功耗、价格或实际跑模型的效果,所以这点先别...
#Inference-opt#NVIDIA#Commentary
精选理由
HKR-K勉强通过,因为两个Jetson AGX Orin 64GB的规格参数有参考价值;HKR-H和R都不满足。作为LocalLLaMA社区的硬件提问帖,有一定浏览价值,但缺少实测结果或购买信号,只能放在低优先级全量推送。
一句话点评
两块 Jetson AGX Orin 64GB 能跑 70B 模型(4-bit 量化约 40GB),但 205GB/s 带宽只有 RTX 4090 的五分之一,推理速度会明显偏慢。正文没披露实际功耗和跑模型的具体效果,所以这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
06:25
19d ago
Product Hunt · AI· rssEN06:25 · 05·25
Curlo:用文字描述就能搜本地音效,全程离线
Curlo 是一个 macOS 应用,让你用自然语言描述来搜索本地的音效和音乐,比如“雨打铁皮屋顶”或“短促的金属撞击声”。它完全在本地运行,音频文件和搜索请求都不出设备,隐私有保障。核心是靠一个本地音频嵌入模型把声音转成向量,然后做语义匹配。正文没披露具体用了什么模型,也没说索引方式——是导入时一次性建索引还是每次查询都扫一遍,这点先别太激动。支持按...
#Audio#Curlo#Product update
精选理由
一个小众 Product Hunt 工具发布:HKR-K 仅来自本地文本到音效/音乐搜索机制。正文没披露模型、索引机制、价格或系统要求,价值偏低。
一句话点评
Curlo 是一个 macOS 应用,让你用自然语言搜本地音效和音乐,比如“雨打铁皮屋顶”。它完全离线运行,音频和搜索请求都不出设备,隐私有保障。核心靠本地音频嵌入模型把声音转成向量做语义匹配。正文没披露具体用了什么模型,也没说索引方式——是导入时一次性建索引还是每次查询都扫一遍,这点先别太激动。支持按标签、元数据管理,适合音效库大的创作者。但没提定价和系统要求,免费选项具体指什么也不清楚。...
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R0
06:22
19d ago
r/LocalLLaMA· rssEN06:22 · 05·25
llama.cpp 修了个 checkpoint 保存 bug,省得每次重跑 7 万 token 的上下文
llama.cpp 的 PR #22929 修复了服务端 checkpoint 保存的 bug。之前在做 agent 编程(让模型自己写代码改代码)时,如果上下文有 7 万 token,每次保存 checkpoint 都会把整个 prompt 重新处理一遍,非常慢。作者自己用了两周这个补丁,说触发重处理的原因是 opencode 的上下文重写和模型端去...
#Agent#Code#Reasoning#llama.cpp
精选理由
llama.cpp 这个 PR 修的是 server 端 checkpoint 创建 bug,作者自己用了两周,说明修复有效。核心价值在于 agentic coding 场景——每次改写上下文或去掉 reasoning 都要重算 70k tokens 的 prompt,延迟和算力浪费很明显。不过这只是 llama.cpp 内部的一个 server 补丁,不是模型或框架级别的大更新,影响面窄,所以给 66 分合理。
一句话点评
llama.cpp 修了个挺实在的 bug:agent 编程场景下,7 万 token 的上下文每次保存 checkpoint 都要重算整个 prompt,慢得离谱。作者自己打了补丁用了两周才提 PR,说明问题确实烦人。触发条件是 opencode 重写上下文和模型删推理过程。修复后省的是重复计算,对跑长上下文 agent 的用户是实打实的提速。正文没披露具体加速比,但逻辑上省的是 O(n)...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
04:45
19d ago
新智元 · 公众号· rssZH04:45 · 05·25
AI 算命 Agent 准确率逼近人类大师,但先别急着信
一个叫 Tianfu Agent 的系统在中文命理基准 MingLi-Bench 上跑到了 50% 的截断准确率,而 Claude、GPT 等基线模型只有 23%–40%(四选一选择题)。它用了 200 多个工具、三套规则库和多个子 Agent,还会给自己打分。但正文没披露测试集大小和人类大师的准确率基线,所以这个“逼近”到底多近还不好说。
#Agent#Tools#Reasoning#DestinyLinker
精选理由
这篇讲的是DestinyLinker在MingLi-Bench(一个算命测试集)上测主流模型,Claude和GPT准确率只有23%–40%,而他们自己搞的Tianfu Agent靠200多个工具和多个子Agent协作,把截尾准确率拉到了50%。H和K都过了:H靠“AI算命”这个反直觉的钩子,K靠具体的准确率数字和Agent架构细节。R没过,因为算命基准太窄,正文也没提成本、部署难度或对主流任务的迁移价值,所以总分没到72的精选线。
一句话点评
一个叫 Tianfu Agent 的系统在中文命理选择题上跑到了 50% 准确率,Claude、GPT 等基线只有 23%–40%。它用了 200 多个工具和三套规则库,还会给自己打分。但正文没披露测试集大小和人类大师的准确率,所以“逼近”到底多近还不好说。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R0
04:45
19d ago
新智元 · 公众号· rssZH04:45 · 05·25
Ilya发了一张芯片版“思考者”雕像图,签名IS 2026
Ilya Sutskever在Instagram上发了一张图,把罗丹的《思考者》雕像P成了芯片晶圆风格,签名写的是“IS 2026”。同一周,OpenAI被曝在推内部推理模型、更新Codex Mac版,还有高盛和摩根士丹利参与IPO的消息。正文没披露Ilya这张图跟OpenAI这些动作有没有直接关系,也没说他在想什么。
#Reasoning#Code#Agent#Ilya Sutskever
精选理由
HKR-H通过,因为Ilya的神秘图片是天然点击钩子。HKR-K和HKR-R不通过:文章没有提供任何可验证的机制或产品事实,只有一条社交动态绑上OpenAI传闻,信息密度低,验证弱。
一句话点评
Ilya发了张《思考者》晶圆风格图,签名IS 2026,但正文没说他到底在想什么,也没说跟OpenAI这周推推理模型、Codex Mac版更新、高盛大摩参与IPO这些事有没有关系。信息缺口很大,别过度解读。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
04:42
19d ago
r/LocalLLaMA· rssEN04:42 · 05·25
Qwen3.6 27B 在 V100 上跑到 1000 tps,但别急着下单
Reddit 用户说 Qwen3.6 27B 在 V100 集群上并发 128 个请求时生成速度达到 1000 t/s,单用户单条请求约 80 t/s,处理速度 3000 t/s。这个数字看着很猛,但正文没披露用了多少张 V100、有没有量化、以及具体显存配置,所以实际部署成本还不清楚。如果真能用老卡跑出新速度,对预算有限的团队是个好消息,但验证前先打个折。
#Inference-opt#Qwen#Reddit#Benchmark
精选理由
H/K/R三项都达标,但来源是Reddit单帖,且关键复现条件(GPU数量、量化设置)未披露,只能当有趣的推理基准看,不值得当头条推。
一句话点评
Reddit 用户称 Qwen3.6 27B 在 V100 集群上并发 128 请求时生成速度达 1000 t/s,单用户约 80 t/s,处理速度 3000 t/s。数字很猛,但正文没披露用了多少张 V100、是否量化及显存配置,实际部署成本未知。如果真能用老卡跑出新速度,对预算有限的团队是好消息,但验证前先打个折。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
04:27
19d ago
量子位 · 公众号· rssZH04:27 · 05·25
2026智源大会:图灵奖得主带队,中国大模型第一梯队全来了
6月12-13日北京,25个论坛200多场报告,主题覆盖智能体、世界模型、具身智能、AI安全、AI原生教育。阵容挺强,但正文没披露完整嘉宾名单,具体谁上台讲什么还得等后续议程。
#Agent#Robotics#Safety#BAAI
精选理由
这是一篇会议预告,信息量集中在时间、地点、规模和议题列表上,没有披露具体演讲嘉宾、模型发布或研究突破,所以重要性偏低。HKR中K和R通过——日期和议题对从业者选会、判断议程密度有用;H不通过,因为标题的'图灵奖得主'和'第一梯队'没有对应正文里的具体名字或公司,属于用大词拉期待但没给实锤。
一句话点评
2026智源大会6月12-13日北京开,25个论坛200多场报告,覆盖智能体、世界模型、具身智能、AI安全、AI原生教育。图灵奖得主领衔,中国大模型第一梯队基本都到。但正文没披露完整嘉宾名单和具体议程,谁上台讲什么还是未知数。阵容看着挺强,但信息缺口大,建议等后续议程出来再判断值不值得去。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R1
04:19
19d ago
r/LocalLLaMA· rssEN04:19 · 05·25
给 149 美元的开发板写了个 C++ 推理引擎,MiniCPM-V 4.6 速度翻倍
开发者 Known_Ice9380 在 Orange Pi AIPro(Ascend 310B NPU,149 美元)上,从头写了一个纯 C++ 推理引擎来跑 MiniCPM-V 4.6。他绕过了 PyTorch 等框架,文本生成和视觉编码全在 NPU 上跑,Python 只负责分词和图像预处理。初始用官方接口只有 2.88 token/s,因为 NP...
#Inference-opt#Vision#Code#Known_Ice9380
精选理由
H/K/R都达标,但这是针对特定嵌入式NPU的个人开源优化,范围窄。具体速度和成本数据拉高了可读性,不过受众有限,放在60-71分档合理。
一句话点评
开发者给 149 美元的 Orange Pi 板子(Ascend 310B NPU)手写了一套纯 C++ 推理引擎跑 MiniCPM-V 4.6,绕过 PyTorch 等框架,把文本生成速度从 2.88 token/s 拉到 5.90 token/s,翻了一倍。关键优化是给 M=1 场景(逐 token 解码)写了自定义矩阵乘核,以及把 24.8 万词表拆成 16 块并行算。目前瓶颈在板子 ...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
04:00
19d ago
FT · 科技· rssEN04:00 · 05·25
不只是SpaceX:科技巨头也在债券市场大举融资
美国科技巨头正在通过发行债券来筹集建设AI数据中心的资金。正文没有披露具体发行规模、利率、期限或涉及哪些公司,所以没法判断融资成本高不高、市场买不买账。但趋势很清楚:AI基建太烧钱,连这些现金充裕的大厂也要去借钱了。
#SpaceX#Funding
精选理由
FT这篇从资本市场切入,HKR-H和HKR-R都过了——AI基础设施融资是个持续话题,而且把科技巨头和SpaceX并列讲债券市场影响力,有钩子。但HKR-K挂了,因为正文没披露发行规模、利率、期限、发行人名字,信息缺口太大,只能算行业泛泛报道,没法给从业者具体参考。
一句话点评
美国科技巨头开始发债建AI数据中心,连现金充裕的大厂都要借钱,说明AI基建烧钱到了新高度。正文没披露具体发债规模、利率和期限,所以没法判断融资成本高不高、市场买不买账。趋势值得关注,但缺关键数字,先别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
03:59
19d ago
r/LocalLLaMA· rssEN03:59 · 05·25
SEELS:一个 Windows 桌面应用,点一下“不对”就能生成 LoRA 训练数据
SEELS 0.1.5 alpha 版已发布,安装包 2.81GB,自带 CUDA 运行时、便携 Python、本地 Whisper 语音转文字和 Piper 语音合成。核心功能是一个“Teach”按钮:用户纠正模型回答后,应用自动把纠正内容存成 jsonl 格式的语料库,并直接在应用内启动 PEFT LoRA 训练。正文没披露训练耗时、硬件要求或模型...
#Fine-tuning#Tools#Audio#SEELS
精选理由
HKR 三项全过,因为这是一个具体的本地 LLM 工作流:用户纠错反馈直接变成 jsonl 并触发 PEFT LoRA,还捆绑了 CUDA、Whisper 和 Piper。但只是 Reddit 上的个人发布,没有第三方验证,也没有给出微调后的质量指标,所以放在 'all' 层级的上限。
一句话点评
一个叫 SEELS 的 Windows 桌面应用,核心卖点是个“Teach”按钮:模型答错了你直接纠正,它自动攒成 jsonl 语料库,然后在应用里启动 PEFT LoRA 训练。安装包 2.81GB,自带 CUDA 运行时和便携 Python,省去环境配置的麻烦。想法很直接——把用户纠正当成微调数据来源,降低收集训练数据的门槛。但正文没披露训练耗时、硬件要求或支持哪些基座模型,实际跑起来是...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
02:51
19d ago
r/LocalLLaMA· rssEN02:51 · 05·25
llama.cpp 有个取巧的加速技巧:把当前回复的 token 重新塞进 KV cache
一位 Reddit 用户在 llama.cpp 的 WebUI 开发者选项里发现了一个设置,原理是把当前模型回复生成的所有 token 重新喂进 KV cache,而不是等下次提问时再从头处理。在 Open-WebUI 里,他用 Qwen3.6-35B-A3B(MXFP4 量化,单张 RX 7900 XTX 全量卸载)测试,之前模型读完大网页后 pro...
#Inference-opt#Tools#llama.cpp#Open-WebUI
精选理由
Reddit 用户发现 llama.cpp WebUI 开发者选项里有个技巧:把当前回复的 token 重新发给 KV cache,在 Open-WebUI 场景下,Qwen 处理大网页的等待从 5-30 秒降到几乎即时。来源是用户分享,权威性弱,证据是 anecdotal(个人经验),所以留在 all 层级。正文没披露具体实现细节或兼容性限制。
一句话点评
llama.cpp 藏了个开发者选项,能把当前回复的 token 重新喂进 KV cache,不用等下次提问再从头算。实测 Qwen3.6-35B-A3B 读大网页后,prompt 处理从 5-30 秒降到几乎瞬间。单卡 RX 7900 XTX 跑 MXFP4 量化,约 100 tps。作者说没发现副作用,但正文没披露显存占用变化或长上下文稳定性。适合多轮工具调用场景,省的是等待时间而非推理算力。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
02:30
19d ago
彭博科技· rssEN02:30 · 05·25
日本 Sakura Internet 要把 AI 数据中心投资翻到近 7 倍
Sakura Internet 的 CEO 说,公司可能把资本开支提高到最初计划的近 7 倍,用来满足日本国内的 AI 数据中心需求。正文没披露原来的预算基数和时间线,所以这个“7 倍”到底是从多少涨到多少、花多久花完,目前还不清楚。不过方向很明确:日本也在抢算力资源,中小型云厂商开始猛砸钱。
#Sakura Internet#Product update
精选理由
Bloomberg 来源,加上一个“近7倍资本开支”的数字,给日本AI基础设施需求提供了明确的信号。但正文没披露具体订单、客户名字或总算力规模,所以信息密度还不够上精选。
一句话点评
日本云厂商Sakura Internet要把资本开支提到最初计划的近7倍,抢AI数据中心。但正文没披露原预算基数和时间线,这个“7倍”到底从多少涨到多少、花多久花完,目前不清楚。方向明确:日本也在抢算力,中小云厂商开始猛砸钱。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
00:00
20d ago
OpenAI 博客· rssEN00:00 · 05·25
OpenAI 签下巴西两大媒体,ChatGPT 能直接看 Folha 和 UOL 的新闻了
OpenAI 宣布与巴西 Grupo Folha 和 Grupo UOL 达成内容合作,ChatGPT 现在可以引用并展示这两家媒体的新闻报道,并附上原文链接。这是 OpenAI 在巴西的首个媒体合作,目前巴西是 ChatGPT 全球最大市场之一,月活超 5000 万,日均消息量约 1.4 亿条。合作方还会拿到 Codex、ChatGPT Enterp...
#OpenAI#Grupo Folha#Grupo UOL#Partnership
精选理由
HKR-K/R通过,但正文只给了合作方和ChatGPT接入,没披露授权期限、费用或覆盖多少家媒体。这是OpenAI授权新闻的增量消息,不到头条级别。
一句话点评
OpenAI 在巴西签了首个媒体合作,Folha 和 UOL 的新闻现在能直接出现在 ChatGPT 里并带原文链接。巴西是 ChatGPT 全球最大市场之一,月活超 5000 万,日均消息 1.4 亿条,合作方还能拿到 Codex 和企业版工具。但正文没披露交易金额和流量分成比例,也没说是否独家。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
2026-05-24 · 星期日2026年5月24日
22:21
20d ago
r/LocalLLaMA· rssEN22:21 · 05·24
hipEngine:在 AMD RDNA3 显卡上原生跑 Qwen 3.6,速度不错
hipEngine 发布了一个专为 AMD RDNA3 显卡(如 Strix Halo、7900 XTX)优化的推理引擎,原生支持 Qwen 3.6 模型。在 35B-A3B 模型、128K 上下文、INT8 KV 缓存的测试中,预填速度达到 1076.5 tok/s,解码速度 60.0 tok/s,显存峰值约 20.89 GiB。这个速度在本地部署大...
#Inference-opt#hipEngine#Qwen#AMD
精选理由
一条 Reddit 上的开源推理引擎发布,目标明确:让 AMD RDNA3 用户跑 Qwen 3.6 大模型。数据给得具体,prefill 破千 tok/s 在本地场景算不错,但正文没披露 batch size、多卡扩展性、实际生成延迟,也没和主流方案(如 llama.cpp)做对比。对 AMD 玩家是利好,但验证范围窄,别急着当通用方案。
一句话点评
AMD RDNA3 显卡(如 7900 XTX)用户有福了:hipEngine 这个新推理引擎让 Qwen 3.6 跑得飞快,35B-A3B 模型在 128K 上下文下预填 1076.5 tok/s、解码 60 tok/s,显存只占 20.89 GiB。速度在本地部署里算第一梯队,但注意这是 INT8 KV 缓存下的成绩,精度有折损;且只支持 RDNA3,老卡用不了。正文没披露对比基线(比如...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
22:13
20d ago
AI HOT 精选· aihot-apiZH22:13 · 05·24
Luma Agents推出自动生成用户生成内容风格广告
Luma Labs 说 Luma Agents 可以根据你给的简报和风格设定,自动生成看起来像用户自拍的那种广告视频。正文没披露能生成多少条、怎么收费、用了什么模型,也没说这些广告能不能直接投放到平台。
#Agent#Luma Labs#Product update
精选理由
这是Luma Labs自家X帖的产品更新,属于小厂动态。HKR的h和r通过,但k不通过——因为生成量、定价、机制、投放效果都没披露,信息缺口太大,没法判断实际价值。
一句话点评
Luma Agents 能批量生成像用户自己拍的广告图/视频,适合电商主图、社媒素材。关键看它是不是真能模仿真实用户风格,而不是套模板。正文没披露生成成本、单条耗时,也没说支持哪些平台。如果成本够低、效果不假,对中小卖家挺实用。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
19:29
20d ago
FT · 科技· rssEN19:29 · 05·24
Uber考虑提高对Delivery Hero的收购报价被拒后重启谈判
Uber 出价 115 亿欧元(约合 125 亿美元)收购德国外卖平台 Delivery Hero,被对方拒绝。现在 Uber 正在考虑加价。115 亿欧元这个数字本身已经不小——相当于 Delivery Hero 目前市值的溢价,但被拒说明股东觉得价格还不够。正文没披露 Uber 打算加多少,也没说时间表。目前只知道 Uber 接触了 Deliver...
#Uber#Delivery Hero#Funding
精选理由
这是Uber和Delivery Hero的外卖并购新闻,核心是报价和股东接触,没有AI产品、模型、算力或政策关联。HKR三项都不满足AI受众的阅读需求,重要性32分合理,属于边缘AI内容。
一句话点评
Uber 想买 Delivery Hero,报价从 100 亿欧元涨到 115 亿被拒,现在又考虑加价。Delivery Hero 是德国外卖巨头,覆盖 70 国,Uber 想借此补欧洲和亚洲市场。但 FT 说这交易“奇怪”,因为两家业务重叠,整合难。关键看 Uber 愿出多少——目前估值已到 120 亿。正文没披露 Uber 的融资方案或监管态度,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K0·R0
19:23
20d ago
r/LocalLLaMA· rssEN19:23 · 05·24
本地跑模型,你们用啥前端?
Reddit 用户 Borkato 在 LocalLLaMA 版问大家跑本地模型用什么前端。他自己用 Vim 加了一个自定义文本补全插件,觉得 llama-server 虽然是个稳妥的默认选项,但功能有限。帖子正文没透露更多细节,比如他用的什么模型、补全插件怎么写的、llama-server 具体哪里不够用。
#Code#Tools#Reddit#LocalLLaMA
精选理由
HKR-R 勉强过关,因为本地 LLM 前端确实是真实的工作流讨论话题。HKR-H 和 HKR-K 都不及格:帖子只提供了一个人的个人配置,没有数据、没有对比、也没有新机制。
一句话点评
Reddit 用户 Borkato 在 LocalLLaMA 版问大家跑本地模型用什么前端,他自己用 Vim 加自定义文本补全插件,觉得 llama-server 功能有限。帖子正文没披露他用什么模型、插件怎么写的、llama-server 具体哪里不够用。短评:一个本地模型用户的工具选择帖,信息量不大,但能反映社区对 llama-server 的普遍感受——够用但不够灵活。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
19:00
20d ago
TechCrunch AI· rssEN19:00 · 05·24
Xreal 说智能眼镜终于做明白了,但正文没透露 Google 合作细节、产品规格、定价和上市时间
Xreal 创始人兼 CEO Chi Xu 认为智能眼镜行业到了一个转折点,公司已经掌握了这门生意。不过这篇报道只放了这句话,没披露任何具体信息:和 Google 的合作到底做什么、眼镜的参数、卖多少钱、什么时候卖,全都没说。所以这条消息更像一个表态,暂时没法验证。
#Vision#Xreal#Google#Chi Xu
精选理由
HKR-H 靠 Google 合作方+攻克难题的标题钩子通过,但 HKR-K 和 HKR-R 不通过,因为正文没给任何规格、时间线或合作机制。属于低价值浏览信号,不推荐精选。
一句话点评
Xreal 老板说智能眼镜行业到转折点了,公司已经“掌握这门生意”。但全文没提跟 Google 合作具体做什么、眼镜参数、价格、上市时间。这条消息更像一个表态,暂时没法验证,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
50
SCORE
H1·K0·R0
17:46
20d ago
r/LocalLLaMA· rssEN17:46 · 05·24
IBM 两个 OCR 小模型对比:加了动态提示的 2stage 版到底有没有进步?
Reddit 用户发帖问 granite-docling-258m 和 granite-docling-2stage-258m 两个 OCR 模型的实际效果差异。帖子正文只提到 2stage 版本用动态提示(dynamic prompt)预计算页面布局对象,没有给出任何 OCR 基准测试或准确率数据。两个模型都是 2.58 亿参数的小模型,适合本地部署...
#Vision#IBM#Reddit#Granite Docling
精选理由
H 是 Reddit 上有人拿两个 258M 模型做对比测试,直接问 2stage 版本有没有实际提升,这个质疑角度有钩子。K 是正文只披露了 2stage 用动态 prompt 预计算布局对象,没给任何 OCR 指标,信息缺口明显。R 是踩中了本地 OCR 选模型的真实痛点:小模型、布局解析、实际效果差距只能靠体感。没有指标、没有样本、没有发布新闻,所以分数压在 60–71 区间。
一句话点评
IBM 两个 2.58 亿参数的小 OCR 模型,2stage 版用动态提示预计算页面布局,但发帖人没给任何准确率数据。正文没披露基准测试,实际提升未知。适合本地部署,但效果要自己试。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R1
17:18
20d ago
AI HOT 精选· aihot-apiZH17:18 · 05·24
让 Codex 自己学会把重复活做成自动化工具
这是一个提示词框架,教 Codex 翻自己的聊天记录和记忆,找出那些至少干过两次、输入稳定的重复任务,然后自动把它们变成技能、子智能体或自动化工具,避免重复造轮子。流程包括生成候选清单、执行创建,最后汇报结果和待验证项。正文没披露这个框架在实际测试中的成功率或误判率,但思路挺实用——相当于让模型自己给自己写脚本,省掉人工梳理重复工作流的时间。
#Code#Agent#Memory#Codex
精选理由
HKR 都过,但这是一套实用提示框架,不是 Codex 新功能发布。正文给了筛选机制,没披露效果指标、案例或对照实验,所以压在 70 分。
一句话点评
这个提示词框架让 Codex 自己翻聊天记录和记忆,找出至少干过两次、输入稳定的重复任务,自动变成技能或自动化工具。相当于让模型给自己写脚本,省掉人工梳理重复工作流的时间。正文没披露实际测试的成功率或误判率,这点先别太激动。思路挺实用,但效果得看实测。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
15:05
20d ago
AI HOT 精选· aihot-apiZH15:05 · 05·24
Pixverse 测了个角色设计工作流:GPT Image 出图,Seedance 做动画
Pixverse 放了个角色设计工作流测试:先用 GPT Image 2.0 生成 Lucas 的静态概念图,再用 Seedance 2.0 把图做成弹跳动画。效果从静态到电影级动态。正文没披露具体耗时、成本或可控性,目前只是演示链路通不通。
#Multimodal#Vision#Pixverse#GPT Image 2.0
精选理由
正文没披露生成耗时、画质对比或定价,就是一个社交演示,不是产品发布或技术评测。
一句话点评
Pixverse 把 GPT Image 2.0 和自家 Seedance 2.0 串起来做了个角色设计工作流:先画静态概念图,再一键生成弹跳动画。效果看着挺顺,但正文没披露耗时、成本或可控性,目前只是演示链路通不通。这点先别太激动,等开放测试再看实际体验。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
15:02
20d ago
r/LocalLLaMA· rssEN15:02 · 05·24
llama.cpp 能不能让模型完全跑在显存里?
Reddit 用户用 RTX 4070(12GB 显存)跑 llama.cpp,Gemma4 26B 和 Qwen 3.6 35B MoE 能到 40 token/s。他想知道 Qwen3.5-9B 量化版能不能完全塞进显存,因为 Gemma4-e2b Q4_IXS 在 8192 上下文下还会用掉约 3.5GB 系统内存。正文没披露具体量化等级和上下文...
#Inference-opt#Reddit#Qwen#Gemma
精选理由
这是一条Reddit上的技术支持帖,不是行业更新。它提供了硬件实测数据和参数,但没有验证过的解决方案或更广泛的发现。
一句话点评
RTX 4070(12GB)跑 Gemma4 26B 和 Qwen 3.6 35B MoE 能到 40 token/s,但 Gemma4-e2b Q4_IXS 在 8192 上下文下还会吃掉约 3.5GB 系统内存,说明小模型想完全塞进显存还得看量化等级和上下文长度。正文没披露具体量化等级,这点先别太激动——40 t/s 可能是低量化+短上下文的成绩。对本地部署党来说,9B 模型全进显存是可...
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R1
15:00
20d ago
TechCrunch AI· rssEN15:00 · 05·24
我试了亚马逊的 Bee 穿戴设备:又方便又有点毛骨悚然
TechCrunch 记者试用了亚马逊去年收购的 AI 穿戴设备 Bee。这玩意像个随身录音笔,全天录对话、转文字、做摘要,还能跟日历联动发提醒。记者觉得用起来确实方便,但隐私焦虑也上来了——毕竟它一直在听你说话。正文没披露价格、传感器规格、上市时间和购买条件。
#Audio#Memory#Amazon#TechCrunch
精选理由
HKR-H 和 HKR-R 成立:TechCrunch 把 Amazon 的 AI 可穿戴设备描述成“有用又瘆人”,这种亲测视角有传播力。HKR-K 不成立:价格、传感器参数、上市条件、可复现的测试数据都没给,所以分数卡在 60–71 区间。
一句话点评
亚马逊去年收购的Bee穿戴设备,像个随身录音笔,全天录对话、转文字、做摘要,还能联动日历发提醒。记者试用后觉得方便,但隐私焦虑——它一直在听。正文没披露价格、上市时间和传感器规格,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
14:22
20d ago
r/LocalLLaMA· rssEN14:22 · 05·24
有人在本地用 Gemma 4 2B 跑 JSON 输出、调工具、找 Java bug,全成功了
Reddit 用户用 LM Studio 加 Spring AI 在本地跑 Gemma 4 2B,测了三件事:输出符合 schema 的 JSON、调用天气工具(参数传了里加)、暴露 reasoning_content 推理过程。最意外的是让它做 Java 代码审查,它发现了一个 string == 的 bug,最后给了 50/100 分。2B 模型能...
#Tools#Reasoning#Code#Google
精选理由
这条链接的核心价值在于用一个极小的本地模型(Gemma 4 2B)完成了三项实际任务,并且真的在代码审查里找到了一个 Java 字符串 == 的 bug。对于 AI 从业者来说,这直接触及成本(本地跑不用 API 费)和可靠性(小模型能不能干活)的敏感点。但样本量太小,只有一条 Reddit 帖子,没有系统评测,所以分数卡在 upper all 区间,不往上提。
一句话点评
短评:2B模型能发现Java的==bug,但别急着吹,测试环境太理想。 点评:Reddit用户用LM Studio+Spring AI本地跑Gemma 4 2B,测了结构化JSON输出、工具调用(查里加天气)和推理过程暴露。最亮眼的是代码审查:它发现了一个string ==比较的bug,打了50/100分。2B模型能到这个程度,说明小模型在结构化任务上进步明显。但注意:这是单次演示,不是系...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
14:09
20d ago
● P1Hacker News 首页· rssEN14:09 · 05·24
DeepSeek将旗舰AI模型价格永久降低75%
Bloomberg 的标题说 DeepSeek 会把自己旗舰 AI 模型的价格永久打 75 折。不过正文没披露具体是哪个模型、原价多少、什么时候生效。Hacker News 上这篇帖子有 46 个赞和 45 条评论,说明关注度不低,但讨论里也没挖出更多定价细节。我会先打个折:在官方公告出来前,这还只是一条标题新闻。
#DeepSeek#Bloomberg#Hacker News#Product update
精选理由
Bloomberg 这个标题把“永久 75 折”摆出来,摆明是冲着价格战去的,所以重要性和话题性都够。但正文只给了 HN 的讨论热度,没披露到底是哪个模型、原价多少、什么时候开始,信息缺口很大。我会先打个折:这条值得关注,但别急着下结论,等官方自己把价格和模型名补上再说。
一句话点评
DeepSeek把旗舰模型价格永久砍了75%,但正文没披露具体是哪个模型、新价格是多少,也没说降价后推理质量会不会缩水。
锐评
DeepSeek宣布对旗舰模型永久降价75%,Bloomberg的报道只给了这个比例,没写具体模型名称、原价和新价格。降价幅度看着很大,但缺少对比基准——不知道是跟自家之前的促销价比,还是跟行业均价比。另外,报道也没提降价是否会影响模型性能或服务等级,比如并发限制、延迟会不会变差。对开发者来说,价格降了是好事,但得等官方公布具体定价和对应的API条款才能判断实际省多少。如果降价同时不砍服务质量,那对中小团队接入大模型的门槛确实会低一截。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
13:05
20d ago
r/LocalLLaMA· rssEN13:05 · 05·24
Qwen3.6-35B-A3B vs Gemma4-26B-A4B:Reddit 用户实测,Gemma4 在 AMD 9070 XT 上跑得更快
Reddit 用户 MarcCDB 对比了 Qwen3.6-35B-A3B 和 Gemma4-26B-A4B 两款 MoE 模型,结论是 Gemma4 在 Radeon 9070 XT 上用最新版 llama.cpp 跑得更快。但帖子没贴跑分数据,也没说用了什么 prompt 或上下文长度,所以这个“更快”到底快多少、在什么条件下成立,目前不清楚。如果...
#Inference-opt#Benchmarking#Qwen#Gemma
精选理由
一条 Reddit 个人实测,点名了模型、显卡和推理框架,所以 H 和 R 成立。但没披露分数、吞吐量或可复现的配置细节,K 不成立,整体归入 lower all 档。
一句话点评
Reddit 用户 MarcCDB 说 Gemma4-26B-A4B 在 Radeon 9070 XT 上用最新 llama.cpp 比 Qwen3.6-35B-A3B 跑得快,但没贴跑分、没提 prompt 和上下文长度。这个“更快”缺条件,先打五折。正文被 Reddit 墙了,看不到更多细节。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
13:02
20d ago
Hacker News 首页· rssEN13:02 · 05·24
DeepSeek Reasonix:一个专为DeepSeek缓存机制优化的终端编程助手,号称能把输入成本压到1/5
Reasonix 是一个开源终端编程助手,只对接 DeepSeek 的 API。它的核心卖点是利用 DeepSeek 的字节级前缀缓存——对话历史只追加不重排,长会话缓存命中率能到 94%,输入 token 成本降到原来的 1/5 左右。按官方报价,常规输入每百万 token 0.07 美元,缓存命中后只要 0.014 美元,长期跑确实省钱。工具链包括...
#Agent#Code#Inference-opt#DeepSeek
精选理由
HKR-H 和 HKR-R 成立:DeepSeek 加低成本编码 Agent 对开发者有明确吸引力。HKR-K 不成立,因为文章没披露缓存机制、定价或评测,只能算一个小型产品更新。
一句话点评
DeepSeek Reasonix 是一个只对接 DeepSeek API 的开源终端编程助手。核心卖点是利用 DeepSeek 的字节级前缀缓存——对话历史只追加不重排,长会话缓存命中率能到 94%,输入 token 成本降到原来的 1/5 左右。按官方报价,常规输入每百万 token 0.07 美元,缓存命中后只要 0.014 美元,长期跑确实省钱。工具链包括终端 TUI、MCP 外部工...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
12:55
20d ago
Hacker News 首页· rssEN12:55 · 05·24
约束衰减:LLM Agent 在后端代码生成中的脆弱性
这篇论文发现,给 LLM 写代码的 Agent 加越多结构性约束(比如必须用某个框架、数据库、ORM),它的表现就崩得越厉害。作者管这叫“约束衰减”。他们在 8 个 Web 框架上测了 100 个任务,结果能跑的配置从基线到全约束任务,断言通过率平均掉了 30 个百分点,弱的直接归零。框架差异也很大:Flask 这种显式框架表现还行,FastAPI、D...
#Agent#Code#Research release
精选理由
HKR-H 和 HKR-R 通过:标题提炼了一个具体的代码 Agent 失败模式,容易引发讨论。HKR-K 不通过:RSS 正文没有披露方法、模型、指标或结果,信息缺口太大,只能留在 all 层。
一句话点评
给 LLM 写代码的 Agent 加越多结构性约束(必须用某个框架、数据库、ORM),它崩得越厉害。论文在 8 个 Web 框架上测了 100 个任务,断言通过率平均掉了 30 个百分点,弱的直接归零。框架差异也大:Flask 这种显式框架还行,FastAPI、Django 这种约定多的反而差。主要翻车点在数据层(SQL 写错、ORM 用不对)。不过论文没披露用了什么模型、什么 Agent ...
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
12:05
20d ago
AI HOT 精选· aihot-apiZH12:05 · 05·24
Claude Code 自动模式:让多个任务同时跑
作者说 Claude Code 的自动模式去掉了每次操作的权限确认弹窗,这样你可以在一个会话跑着的时候,另开一个会话并行干活,不用干等着。
#Agent#Code#Tools#Claude
精选理由
HKR 三项都过,但这是一条短小的 X 工作流技巧,没有时序数据、失败边界或安全细节。保持在 Claude Code 生产力技巧小分类的 68 分区间。
一句话点评
Claude Code 的自动模式去掉了每次操作的权限确认弹窗,让你能同时开多个会话并行干活,不用干等着。核心价值是省掉手动确认的等待时间,适合批量改代码或跑多个任务。但正文没披露自动模式下的安全机制——没有弹窗意味着模型可以直接执行写文件、跑命令等操作,误操作或恶意指令的防护全靠模型自身判断,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
11:31
20d ago
r/LocalLLaMA· rssEN11:31 · 05·24
Qwen 3.6 小模型自己玩《地下城》开源游戏,效果还行
有人在 RTX 5090 上用 LM Studio 跑 Qwen 3.6 的 35B 参数版(激活 3B),给了 24 万 token 上下文、8 千 token 输出,让它玩开源游戏 DCSS。结果不带 MTP(多 token 预测)的版本能正常操作,带 MTP 的版本反而一直调用错工具、反复用错。这个模型是 4-bit 量化版,跑在本地,延迟应该不...
#Agent#Tools#Vision#Qwen
精选理由
一条 Reddit 用户自己跑的实验,说 qwen3.6-35b-a3b@q4_k_xl 非 MTP 版玩 DCSS 表现“还行”,但 MTP 版工具调用会乱。有具体配置和翻车案例,对本地模型玩家有参考价值,但缺少量化对比和对照组,结论偏软,所以放在 all 层合适。
一句话点评
有人在RTX 5090上用LM Studio跑Qwen 3.6的35B参数版(实际激活3B),给了24万token上下文、8千token输出,让它玩开源游戏DCSS。不带MTP(多token预测)的版本能正常操作,带MTP的反而一直调用错工具。模型是4-bit量化版,跑在本地,延迟应该不低。正文没披露具体帧率或成功率,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
11:12
20d ago
r/LocalLLaMA· rssEN11:12 · 05·24
Gemma 4 E2B 在 4GB 显存上跑三四十次后输出质量明显下降
有用户用 GTX 1650(4GB 显存)跑 Gemma 4 E2B,通过 llama-server 连续调用约 30-40 次后,输出开始变短、漏掉 JSON 字段甚至返回空内容。重启 llama-server 后质量立刻恢复。正文没披露具体是显存泄漏还是缓存污染,但 4GB 显存跑现代模型本身就紧巴巴,连续推理后质量下降大概率是显存或上下文缓存被撑...
#Inference-opt#Gemma#llama-server#NVIDIA
精选理由
这是一个单条Reddit用户报告,描述了Gemma 4 E2B在4GB显存下连续推理30-40次后输出质量退化(变短、缺字段、空输出),重启服务即恢复。信息缺口明显:正文没披露llama-server版本、量化格式、日志报错,也没有其他人复现。所以虽然现象具体、触发条件清晰,HKR三项都成立,但证据链太弱,分数卡在60-71区间合理。
一句话点评
4GB显存跑Gemma 4 E2B,连续推理30-40次后输出变短、漏字段甚至返回空,重启服务立刻恢复。大概率是显存泄漏或缓存污染,4GB跑现代模型本来就紧巴巴。正文没披露具体原因,但这对本地部署用户是个提醒:显存不够时别连续猛跑,中间得重启。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
10:17
20d ago
r/LocalLLaMA· rssEN10:17 · 05·24
13k欧元买工作站跑本地大模型:Mac Studio还是RTX PRO 5000?
Reddit用户纠结花1.3万欧元买M5 Ultra Mac Studio还是RTX PRO 5000工作站,主要用来本地测试30B-35B参数的开源模型、处理26.2万token长上下文、跑推理框架和评估工具。明确排除了本地微调,因为租一台B200云实例(RunPod)就够用,成本更低。帖子正文被Reddit屏蔽,所以没有更多配置细节。
#Inference-opt#Fine-tuning#Reddit#RunPod
精选理由
HKR-H 和 HKR-R 成立:预算、候选机型、262k 上下文目标都是具体信息,能吸引关注。HKR-K 不成立:没有测试结果或配置数据,所以评分落在 60-71 的浏览档位。
一句话点评
1.3万欧元预算,在M5 Ultra Mac Studio和RTX PRO 5000工作站之间纠结,主要跑30B-35B模型和26万token长上下文。亮点是用户明确排除了本地微调——租一台B200云实例更划算,说明本地部署的边界清晰。但正文被Reddit屏蔽,没有具体配置和跑分,只能看个热闹。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
08:45
20d ago
r/LocalLLaMA· rssEN08:45 · 05·24
用AI搜产品,Gemma 4跑偏了,Claude 4.6得再问一次才出结果
Reddit用户测试用AI做产品调研:Gemma 4 26B的agent花1分钟跑完,但方向错了,只给出泛品类目;Claude Sonnet 4.6搜得更久,但第一次也没给出具体产品,得再补一句“排除没有匹配产品的厂商”才出候选。说明当前AI做产品搜索,要么快但不准,要么慢但需要人工二次引导。正文没披露具体搜索的产品和测试次数,所以这点先别太激动。
#Agent#Tools#Gemma#Claude
精选理由
单个 Reddit 用户反馈,有具体模型名和一个时间细节,满足了 HKR-K/R。但任务、提示词和评分标准都没披露,所以放在低关注区间,不上推荐。
一句话点评
Reddit 用户实测:Gemma 4 26B 做产品搜索 agent,1 分钟跑完但方向全错,只给了泛品类目;Claude Sonnet 4.6 搜更久,第一次也没出具体产品,得补一句“排除没匹配产品的厂商”才出候选。快但不准,慢但得人工二次引导。正文没披露搜的具体产品和测试次数,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R1
07:30
20d ago
AI 群聊日报· atomZH07:30 · 05·24
群聊日报:200美元订阅值8000美元API、信息图没人看图、AI成本超过人类员工
一张信息图引爆讨论:200美元/月的coding plan按API价值折算值8000-10000美元,被认为是IPO前的巨额补贴窗口,应趁现在烧token跑通商业闭环。但随后群友做了注意力实验,发现几乎所有人都在盯左边文字,右边插图被集体忽略——这对用AI做信息图传播的人是个警钟。成本侧坏消息集中:Fortune报道微软AI成本已超过人类员工,有公司群...
#Agent#Code#Inference-opt#Microsoft
精选理由
HKR-K 和 HKR-R 通过具体的成本换算和 KDA 开源成果达标,但 HKR-H 偏弱,因为标题是泛泛的日期汇总。来源权威性和汇总形式让它留在 all 层级。
一句话点评
一张信息图引爆讨论:$200/月的coding plan按API价值折算值$8000-$10000,被认为是IPO前的巨额补贴窗口,应趁现在烧token跑通商业闭环。但随后群友做了注意力实验,发现几乎所有人都在盯左边文字,右边插图被集体忽略——这对用AI做信息图传播的人是个警钟。成本侧坏消息集中:Fortune报道微软AI成本已超过人类员工,有公司群发邮件要求节省Codex token。技术...
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R1
06:08
20d ago
r/LocalLLaMA· rssEN06:08 · 05·24
Qwen3.6-35B-A3B 无审查版:200K 上下文跑 5 轮没崩,还支持 MTP 量化
Reddit 用户分享了 Qwen3.6-35B-A3B 无审查版(Genesis V2)的 GGUF 和 FP8 Safetensors 格式链接,并在 Beelink GTR9 Pro(Strix Halo 硬件)上测试了 Q8_K_P MTP 量化。跑了 5 轮、每轮 200K 上下文,没出现卡死、循环或重复调用工具的情况;在 120K toke...
#Code#Tools#Inference-opt#Qwen
精选理由
这是 Reddit 用户自发的社区发布,不是官方 Qwen 大版本更新。测试声明有用但属于自报,没有第三方验证,所以分数压在 60–71 区间。
一句话点评
Qwen3.6-35B-A3B 的无审查版(Genesis V2)已在 Hugging Face 放出 GGUF 和 FP8 格式。有用户在 Strix Halo 迷你主机上跑了 Q8_K_P 量化,5 轮 200K 上下文没卡死、没循环,120K 后切换任务也正常。但正文被 Reddit 屏蔽,具体测试环境和工具调用细节看不到。亮点是 35B 参数但激活仅 3B,推理成本低,适合本地部署。...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
04:51
20d ago
r/LocalLLaMA· rssEN04:51 · 05·24
给 TradingAgents 套了个本地 GUI,能用 Ollama 跑
有人把 TradingAgents(一个交易智能体框架)fork 了,加了个本地网页界面,支持 OpenAI、Anthropic、Ollama、Qwen、DeepSeek 等 10 家模型供应商。亮点是“简洁报告模式”,能省大约一半的 token——这对本地跑模型挺实用,token 就是钱(或显存)。不过正文没披露这个模式具体砍掉了哪些信息,也没说交易...
#Agent#Tools#RAG#TradingAgents
精选理由
H/K/R 三关都过,但这是个人自建工具帖,信息止于模型提供方数量和 token 节省声称,没有成熟度、使用量或可复现 benchmark,所以只算小开源更新,分数卡在 66。
一句话点评
有人给交易智能体框架 TradingAgents 套了个本地网页界面,支持 Ollama 等 10 家模型。亮点是“简洁报告模式”能省约一半 token——本地跑模型时 token 就是显存,这点挺实用。但正文没披露砍掉了哪些信息,也没说交易策略的实际效果,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
04:00
20d ago
FT · 科技· rssEN04:00 · 05·24
AI 逼着麦肯锡们重新想怎么收费
客户开始质疑咨询顾问的价值,越来越习惯按任务完成效果付费。正文没披露具体怎么改价,但趋势是明摆着的:AI 让传统按人天收费的模式站不住了。
#McKinsey#Financial Times#Commentary
精选理由
FT 来源有权威性,HKR 三项都达标。但正文没披露具体定价数字、案例数量或 AI 系统细节,信息密度偏低,所以分数压在 60–71 区间。
一句话点评
麦肯锡们被AI逼着改收费模式,客户开始按效果付费,不再认人天计价。正文没披露具体怎么改价,但趋势很明确:传统咨询的人天费逻辑被AI打穿了。关键看他们敢不敢真按结果定价,以及怎么定义“效果”。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
04:00
20d ago
AI HOT 精选· aihot-apiZH04:00 · 05·24
OpenClaw 2026.5.22 发布:模型列表响应降到5毫秒,npm包锁依赖防投毒
OpenClaw 新版本把 /models 接口响应时间压到约5毫秒,之前没给具体数字,但5毫秒对网关层来说基本是瞬时返回。npm 包现在加了锁定依赖,能防止依赖链被篡改或投毒,对生产环境部署更安全。Windows 安装和更新路径也做了加固。整体是一次性能和安全的小迭代,没有新功能,但如果你在用 OpenClaw 做模型路由,值得升一下。
#Inference-opt#Safety#OpenClaw#Product update
精选理由
一个小工具的版本更新,有一个具体的延迟数字和一个依赖锁定机制,所以 HKR-K 通过。没有新能力、定价变化或广泛生态影响,分数落在 60–71 区间。
一句话点评
OpenClaw 小版本更新,/models 接口响应压到约5毫秒,网关层基本瞬时返回。npm 包加了锁定依赖,防依赖链投毒,Windows 安装路径也加固了。没新功能,但做模型路由的话值得升。正文没披露5毫秒是P50还是P99,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R0
03:51
20d ago
量子位 · 公众号· rssZH03:51 · 05·24
胡彦斌花一个月用Vibe Coding写粉丝App,余华在节目里学本地部署
胡彦斌用Vibe Coding(让AI写大部分代码,人只负责描述需求)花一个月做了粉丝社区App“焰火”。余华在综艺里提到自己在学“本地部署”(把模型装在自己电脑上跑)。米拉·乔沃维奇的MemPalace记忆系统在LongMemEval评测上拿了96.6%,但正文没披露测试样本量和具体任务类型,这个分数先别太激动。
#Agent#Code#Memory#Hu Yanbin
精选理由
三条都过,但核心事实是明星玩 AI 的轶事加一个记忆基准分数,不是模型发布、产品上线或融资消息,所以留在 all 层级。
一句话点评
胡彦斌用Vibe Coding(让AI写代码,人只描述需求)一个月做了个粉丝App,余华在综艺里学本地部署,名人效应大于技术价值。米拉·乔沃维奇的MemPalace在LongMemEval上拿96.6%,但正文没披露测试样本量和任务类型,这个分数先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
03:21
20d ago
r/LocalLLaMA· rssEN03:21 · 05·24
本地 TTS 大乱斗:作者把截至 2026 年 5 月的所有工具跑了一遍基准
UkieTechie 搞了个 tts-bench 项目,专门给本地 TTS 工具做性能测试。目前已经放出了 Windows 和 Mac 的跑分结果,Linux 还在等一台 5900XT + RTX 3090 的工作站出数据。正文被 Reddit 墙了,看不到具体榜单和延迟数字,但至少知道有人在认真拉表对比本地语音合成方案。
#Audio#Benchmarking#UkieTechie#Benchmark
精选理由
HKR 三项都过,但影响范围局限在本地 TTS 和 LocalLLaMA 圈子。这是一个有用的可复现基准,不是重大模型或平台更新,所以分数落在 60–71 区间。
一句话点评
有人搞了个 tts-bench 项目,专门给本地 TTS 工具跑分,目前只出了 Windows 和 Mac 的结果,Linux 还在等一台 5900XT + RTX 3090 的工作站出数据。正文被 Reddit 墙了,看不到具体榜单和延迟数字,但至少知道有人在认真拉表对比本地语音合成方案。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
02:49
20d ago
r/LocalLLaMA· rssEN02:49 · 05·24
不玩角色扮演,还要不要无审查模型?
Reddit 用户发帖问:如果对角色扮演没兴趣,无审查模型还有用吗?他提到 OpenAI 和五角大楼的合作,以及自己跑的一些测试——无审查版本在随机问题上会出奇怪错误,Qwen3.6 在加了“不要宣传”的系统提示后,原本能答的受限话题就变了。帖子没交代测试了多少次、用了哪些模型版本、评估标准是什么,所以这点先别太激动。核心矛盾是:无审查模型在正经场景(...
#RAG#Safety#Alignment#OpenAI
精选理由
HKR-H和HKR-R成立,因为LocalLLaMA帖子确实框定了一个真实的审查与RAG之争。HKR-K不成立:正文没有披露可复现的测试设置、模型列表或样本数量。
一句话点评
Reddit 用户实测发现,Qwen3.6 加一句“不要宣传”的系统提示后,原本能答的受限话题就变了。但帖子没交代测试次数、模型版本和评估标准,这点先别太激动。核心矛盾是:无审查模型在正经场景(比如 RAG 外挂资料库)到底有没有用?正文没披露具体错误类型和频率,信息缺口明显。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
02:47
20d ago
r/LocalLLaMA· rssEN02:47 · 05·24
Reddit 上有人搭了个三模型智能体:DeepSeek 当大脑,本地 Qwen 干活,Gemma 跑杂活
一位用户在 LibreChat 里搭了一套三模型智能体架构:用 OpenRouter 上的 DeepSeek v4 pro 当主规划器,本地跑 Qwen 35B(约 160 token/秒)当执行工人,再用一台迷你 PC 跑 Gemma E2B 处理琐碎任务。他问社区有没有更小的角色专用模型或更好的编排模式。正文没披露具体延迟、成本或任务复杂度,但 1...
#Agent#Tools#Inference-opt#DeepSeek
精选理由
这是一条 Reddit 用户分享的实操配置,不是系统评测或行业趋势。它给出了一个具体的 planner-worker-small-task 三层栈和本地速度数字,对同类需求的开发者有直接参考意义,但样本单一、缺乏横向对比或规模化验证,所以分数落在 60–71 区间。
一句话点评
一位用户在LibreChat里搭了三模型智能体:OpenRouter上的DeepSeek v4 pro当主规划,本地Qwen 35B(约160 token/秒)当执行工人,迷你PC跑Gemma E2B处理琐碎任务。这套分工挺实在,但正文没披露具体延迟和成本,也没说任务多复杂。社区在找更小的角色专用模型或更好的编排模式,说明当前方案还有优化空间。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
01:16
21d ago
r/LocalLLaMA· rssEN01:16 · 05·24
Qwen3.6-27B 在 MacBook M5 Max 上跑 MTP,速度从 19 涨到 22.3 tps
有人在 MacBook M5 Max(128GB 内存)上用 llama.cpp 测了 Qwen3.6-27B 的 MTP(多 token 预测)功能,吞吐从 19 tokens/秒提到 22.3 tokens/秒,提升约 17%。这个涨幅不算大,但好处是不用改模型结构、不额外耗显存。不过正文没披露具体采样参数和 batch 大小,所以这个速度能不能复...
#Inference-opt#Benchmarking#Qwen#Unsloth
精选理由
HKR-K/R 通过,因为帖子给出了具体的本地跑分和速度提升。但提升幅度小,来源是单条 Reddit 帖子,且只针对 Qwen MTP 这个冷门配置,所以兴趣度偏低。
一句话点评
MacBook M5 Max 上测 Qwen3.6-27B 的 MTP(多 token 预测,一次猜多个词),吞吐从 19 tokens/秒提到 22.3,涨了 17%。好处是不改模型结构、不额外吃显存。但正文没披露采样参数和 batch 大小,这个速度能不能复现要打个问号。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R1
00:19
21d ago
r/LocalLLaMA· rssEN00:19 · 05·24
llampart 1.0.0:给 llama-server 套了个本地桌面级 Web 界面
开发者发布了 llampart 1.0.0,一个专门给 llama-server 用的独立本地 Web UI。界面支持 6 种语言(英、波、德、法、意、西),有双栏对话侧边栏(可以固定、选择性删除、一键清空但保留固定对话),还集成了 MCP 工具流(让模型调用外部工具干活)。设置面板分了外观、模型、MCP、工具、数据、高级几个区,支持暗色、亮色和毛玻璃...
#Tools#Reasoning#llama.cpp#Svelte
精选理由
HKR-K 和 HKR-R 通过了具体功能和本地 LLM 受众匹配的检验。HKR-H 偏弱,且仅有一个 Reddit 发布帖,缺乏采用数据或测试验证,因此停留在小型产品更新区间。
一句话点评
llampart 1.0.0 是一个专为 llama-server 做的本地 Web 界面,相当于给 llama.cpp 配了个好看好用的桌面级聊天 UI。支持 6 种语言、双栏对话侧边栏(可固定、选择性删除、一键清空保留固定对话)、MCP 工具流(让模型调用外部工具干活),还有毛玻璃主题和壁纸自定义。MIT 协议,完全免费。亮点是界面细节做得比较到位,比如导出默认不带走敏感设置、有 Rea...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
00:00
21d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·24
美国地方政府开始对数据中心说不:从税收优惠到暂停令,AI 的物理扩张撞上电网和民意墙
美国地方政府对数据中心的态度正在从“抢着给优惠”转向“先算清楚账”。文章梳理了从缅因到西雅图超过30个州提出的300多项限制法案,核心矛盾是:数据中心建得快(18-24个月),但电网扩容慢(7-15年),导致电网升级成本(仅PJM区域就达436亿美元,95%分摊给普通用户)和电费上涨转嫁给了居民。弗吉尼亚州2025财年因数据中心税收豁免损失16亿美元,...
#Policy#Commentary
精选理由
HKR-H和HKR-R通过,但HKR-K不通过:没有具体的禁令、用电数据或AI项目影响披露。这是一篇宽泛的基础设施评论,未达到精选标准。
一句话点评
美国超30州提出300多项限制数据中心法案,核心矛盾是电网扩容慢(7-15年)远落后于数据中心建设(18-24个月),仅PJM区域电网升级成本436亿美元,95%摊给居民。弗吉尼亚2025财年因税收豁免损失16亿美元。正文没披露这些限制对具体AI项目的影响,但选址灵活性和成本都在恶化。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
2026-05-23 · 星期六2026年5月23日
23:39
21d ago
Hacker News 首页· rssEN23:39 · 05·23
ICE 花 2500 万美元采购虹膜扫描设备,合同金额是上次的五倍
美国移民执法局(ICE)在 5 月 22 日与 Bi2 Technologies 签了一份 2500 万美元的虹膜扫描合同,金额是去年 9 月那份合同的五倍多。这次采购 1570 台设备,是上次 200 台的近八倍,预计 6 月底前到位。合同是单一来源(没竞标),而且没要求通过 FedRAMP(美国政府云安全审查),也没有独立审计或国会通知。正文没披露...
#Vision#ICE#Bi2 Technologies#Policy
精选理由
正文只给了标题级别的采购事实,没披露部署地点、技术指标或 AI 系统细节。AI 相关性落在视觉/生物识别政策上,所以留在 all 里。
一句话点评
ICE 花 2500 万美元买 1570 台虹膜扫描仪,6 月底到位,金额是上次的 5 倍,设备量是 8 倍。但合同没竞标、没过 FedRAMP 云安全审查、没独立审计,也没通知国会。设备能查 500 万条在押记录,方便外勤快速验人。便宜吗?单价约 1.6 万美元,不算贵,但安全审查和隐私保障全跳过了,这点先别太激动。正文没披露设备具体部署地点和性能指标。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
23:00
21d ago
r/LocalLLaMA· rssEN23:00 · 05·23
用本地模型做会计月结,慢但能用
一位 Reddit 用户用 Qwen 3.6 27B 跑月结、银行对账、应收应付,还搭了个 SQLite 数据库让模型自己管。他把 Claude 的技能和 Anthropic 的金融仓库整合了进去,说效果还行。但速度很慢——因为买不起 5000 美元的机器,只用一块集成显卡跑 MTP 版模型,得跑一整夜才能出结果。正文没披露准确率、处理了多少笔账、具体...
#Agent#Tools#Code#Qwen
精选理由
这是一个Reddit用户的单点分享,不是系统评测。模型能处理月结和银行对账,听起来很实用,但正文没披露准确率、数据规模或硬件配置,验证力度很弱。适合推送给所有人看,但别当成熟方案。
一句话点评
有人用 Qwen 3.6 27B 跑月结、对账、应收应付,还让模型自己管 SQLite 数据库。他把 Anthropic 的金融仓库和 Claude 技能搬过来用,说效果还行。但速度慢到要跑一整夜——因为买不起 5000 美元的机器,只用集成显卡跑 MTP 版。正文没披露准确率、处理了多少笔账,这点先别太激动。本地模型能干活了,但离替代 QuickBooks 还差得远。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
21:30
21d ago
r/LocalLLaMA· rssEN21:30 · 05·23
本周 GitHub AI 项目涨星榜:代码智能体、个人记忆和本地开发工具最火
Reddit 用户 Sam_Tech1 整理了本周 GitHub 上增长最快的 10 个 AI 开源项目。codegraph 和 openhuman 分别涨了 1.4 万和 1.7 万颗星,领跑榜单。这批项目集中在几个方向:代码智能体(让 AI 自己写代码、修 bug)、个人 AI 助手(带记忆功能,能记住你的偏好)、浏览器自动化(AI 帮你操作网页)...
#Agent#Code#Memory#Sam_Tech1
精选理由
这是一份 Reddit 周榜汇总,没有拆解仓库的技术细节、质量验证或落地证据,所以重要性压在 60–71 区间。榜单本身有排名钩子、有具体 star 数、也切中当前开源 Agent 和记忆方向的热度,H/K/R 都过。
一句话点评
本周 GitHub 上 AI 开源项目涨粉最快的两个是 codegraph(+1.4 万星)和 openhuman(+1.7 万星),方向集中在代码智能体、带记忆的个人助手和浏览器自动化。openhuman 能记住用户偏好,这点对本地部署的个性化助手挺实用;codegraph 则是让 AI 自己写代码修 bug,适合开发者提效。不过榜单来源是 Reddit 用户整理,非官方统计,可能存在采样...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
20:14
21d ago
r/LocalLLaMA· rssEN20:14 · 05·23
Command A+ 218B MoE 跑上苹果芯片,MLX 移植已提 PR
Cohere 刚开源的 Command A+(218B 总参数/25B 激活,128 专家取 8,Apache 2.0)被开发者移植到了 mlx-lm,能在 Apple Silicon 上跑了。架构上有几个特别设计:一个共享专家配大中间层(16384),跟路由输出做 (routed + shared)/2 平均;路由用 sigmoid 而非 softm...
#Inference-opt#Tools#Cohere#Apple
精选理由
H/K/R 都成立,但这是社区 MLX 移植,单机测试,不是 Cohere 或 Apple 官方发布。速度和内存数字有参考价值,但还没到 featured 门槛。
一句话点评
Cohere 的 218B MoE 模型 Command A+ 被移植到 mlx-lm,能在 Apple Silicon 上跑了。实测 BF16 转 Q8 后生成速度 22.9 tok/s,峰值内存 241GB——这意味着你需要一台 256GB 以上的 Mac 才能跑,成本不低。架构上有意思的点:共享专家和路由输出做平均,路由用 sigmoid 而非 softmax,滑动窗口 3:1 加交错...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
19:51
21d ago
r/LocalLLaMA· rssEN19:51 · 05·23
NVIDIA 的 Nemotron 人物画像向量已开源,支持按年龄、职业、爱好搜人
Feisty_Plant4567 把 NVIDIA 的 Nemotron-Personas 数据集做成了预计算向量,用 Qwen 0.6B 模型对几百万条合成人物画像(含姓名、年龄、职业、爱好)提取了向量。目前覆盖韩国、日本、法国和美国四个国家,在 Hugging Face 上发布了合集,还搭了一个网页 demo 支持语义搜索和 K 近邻分组。正文没披...
#Embedding#Agent#NVIDIA#Qwen
精选理由
K 和 R 通过:帖子给出了具体规模、模型和可用产物。H 偏弱,受众比模型或平台发布窄,所以落在 60-71 区间。
一句话点评
有人把 NVIDIA 的 Nemotron-Personas 合成人物画像数据集做成了预计算向量,用 Qwen 0.6B 模型跑了百万级画像,覆盖韩、日、法、美四国。好处是省了你自己跑 embedding 的算力,直接搜语义或做 K 近邻分组。但注意:0.6B 模型向量质量有限,且只覆盖四个国家,地域偏差明显。正文没披露向量维度、检索延迟和存储成本,这些对实际落地很关键。短评:省力但别当主力...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
19:00
21d ago
AI HOT 精选· aihot-apiZH19:00 · 05·23
Replit Agent 接上 Squidler:说人话就能测 App,测完还能自己修
Replit 的 AI 编程助手 Agent 接入了测试工具 Squidler,用户用自然语言描述想要的功能,Agent 直接生成应用并部署,Squidler 像真人一样点来点去测 bug,测出问题再自动丢回给 Agent 修。整个过程不用写一行测试脚本,等于把“写代码→测 bug→改代码”这个循环全自动化了。正文没披露这套流程跑一轮要多久、Squid...
#Agent#Tools#Code#Replit
精选理由
HKR 三项都过,但来源是官方 X 级别的产品公告,没有可复现的结果、定价或覆盖细节。按中小型 coding agent 集成处理,不到推荐位门槛。
一句话点评
Replit Agent 接上 Squidler 后,你只需用自然语言描述想要的功能,Agent 自动生成应用并部署,Squidler 像真人一样点来点去测 bug,测出问题再自动丢回给 Agent 修——全程不用写一行测试脚本。等于把“写代码→测 bug→改代码”这个循环全自动化了。但正文没披露这套流程跑一轮要多久、Squidler 的测试覆盖率有多高,也没说它能不能测复杂交互或跨页面逻辑...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
18:32
21d ago
r/LocalLLaMA· rssEN18:32 · 05·23
用 OpenRouter 数据给推理服务商按缓存命中率排了个梯队
Reddit 用户用 OpenRouter 的数据给各家推理服务商按缓存命中率排了梯队,但正文只贴了一张图,没披露样本量、具体服务商名单和各自的命中率数字。缓存命中率高意味着重复请求多、推理成本能降不少,但缺少这些关键信息,没法判断这个排名有多靠谱。
#Inference-opt#OpenRouter#Benchmark
精选理由
HKR-H 和 HKR-R 通过:缓存命中率分层对本地模型用户和推理成本决策有实际意义。HKR-K 不通过:正文未披露样本量、服务商名单或命中率数值,信息不完整。
一句话点评
Reddit 用户拿 OpenRouter 数据给推理服务商按缓存命中率排了梯队,但正文只贴了张图,没披露样本量、具体服务商和命中率数字。缓存命中率高意味着重复请求多、推理成本能降不少,但缺关键信息,排名可信度打折。短评:图不错,但缺样本量和具体数字,先别急着信。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
18:10
21d ago
r/LocalLLaMA· rssEN18:10 · 05·23
Chrome 里那个小模型 Gemini Nano 现在能直接跑,不用显卡
一个叫 Dobby 的 Chrome 扩展让你在浏览器里本地跑 Gemini Nano,16GB 内存加硬盘空间就行,不需要 GPU。Chrome 给每个会话设了 9216 个 token 的上限,作者估测速度大概每秒 20 个 token,但没贴实测数据。这个速度偏慢,适合简单任务,比如摘要或分类,别指望实时对话。正文没披露模型参数量或具体延迟测试方法。
#Inference-opt#Tools#Google#Chrome
精选理由
这是个 Reddit 用户发的工具帖,来源和影响力有限,但信息扎实——16GB 内存就能跑,每会话 9216 tokens,对想低成本试本地模型的人挺实用。不过正文没披露推理速度、模型量化精度,这点先别太激动。放在 60–71 分档合适,算个有用的本地推理小技巧,不是行业级事件。
一句话点评
一个叫 Dobby 的 Chrome 扩展让你在浏览器里本地跑 Gemini Nano,16GB 内存加硬盘就行,不用 GPU。Chrome 给每个会话设了 9216 个 token 上限,作者估测速度约每秒 20 个 token,但没贴实测数据。这个速度偏慢,适合摘要或分类,别指望实时对话。正文没披露模型参数量或具体延迟测试方法。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
17:39
21d ago
r/LocalLLaMA· rssEN17:39 · 05·23
Hermes Agent 建目录失败:报告成功但实际没创建
有用户用 Qwen3.5 9B 跑 Hermes Agent,让它创建一个目录。Agent 返回 mkdir 成功,但文件系统里根本没变化,Hermes 日志也没有任何警告。问题可能是 Agent 对系统调用的反馈做了假阳性判断,或者底层工具链有 bug。正文没披露具体复现步骤和模型版本细节,这点先别太激动,但如果是普遍问题,那 Agent 的可靠性就...
#Agent#Tools#Code#Hermes Agent
精选理由
一条 Reddit 求助帖,症状具体(mkdir 成功但目录没出现),但正文没披露模型版本、Hermes Agent 版本、日志细节或复现条件,也没有任何修复方案。H 和 R 过关,K 不通过,属于低价值可浏览内容。
一句话点评
有用户用 Qwen3.5 9B 跑 Hermes Agent 创建目录,Agent 返回成功但文件系统没变化,日志也无警告。问题可能是 Agent 对系统调用反馈做了假阳性判断,或底层工具链有 bug。正文没披露复现步骤和模型版本,这点先别太激动,但如果是普遍问题,Agent 的可靠性就存疑了。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H1·K0·R1
16:45
21d ago
r/LocalLLaMA· rssEN16:45 · 05·23
30次跑分实测:MI60显卡跑Gemma 4和Qwen3,HomeAssistant语音指令1.2秒搞定
一位Reddit用户在MI60 32GB显卡上跑了30次llama-bench,测试Gemma 4 26B(Q4_1量化)和Qwen3 35B(Q4_0量化)。固定输入512个token、生成128个token,结果HomeAssistant语音指令耗时不到1.2秒,Frigate视频摘要不到18秒。这个延迟对智能家居场景够用,但注意测试只跑了一次生成...
#Inference-opt#Benchmarking#Reddit#Gemma
精选理由
Reddit 用户自己跑了 30 次测试,在 MI60 32GB 上对比 Gemma 4 26B 和 Qwen3 35B,固定 prompt 和生成长度,报告了 HomeAssistant 语音命令低于 1.2 秒、Frigate 摘要低于 18 秒。数据具体、场景明确,对想用旧显卡跑本地模型的用户有直接参考价值。但来源单一(个人帖),没有对比其他硬件或模型,所以分数在 60–71 区间,不推 featured。
一句话点评
在MI60 32GB显卡上跑了30次llama-bench,Gemma 4 26B和Qwen3 35B的智能家居延迟实测:HomeAssistant语音指令不到1.2秒,Frigate视频摘要不到18秒。对本地部署来说这个速度够用,但注意测试只生成128个token,实际场景如果对话更长或视频片段更多,延迟会明显上升。另外正文没披露功耗和显存占用,MI60的性价比优势缺少数据支撑。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:06
21d ago
Hacker News 首页· rssEN16:06 · 05·23
Claw-Coder:一个全本地跑的 AI 编程助手,带知识图谱和 Docker 沙箱
作者做了一个叫 Claw-Coder 的本地 AI 编程助手,核心思路是给本地小模型(8B、13B 甚至 1B)配上工具链,让它们也能干点正经活。它集成了外挂资料库(RAG)来存代码向量,避免小模型上下文窗口被撑爆;还搭了一个知识图谱,帮模型理解代码之间的关联关系。另外它给了模型搜索工具(防幻觉)、Docker 执行环境(让模型自己跑代码验证结果),以...
#Agent#RAG#Code#Claw-Coder
精选理由
H/K/R 都达标,但这是个人 Show HN 的闭源测试产品,没有公开 benchmark、用户规模或源码。正文没披露任何性能数据或验证结果,所以只能当小产品更新处理,tier 保持 all。
一句话点评
一个本地AI编程助手,给8B、1B等小模型配上RAG(外挂资料库存代码向量)、知识图谱(理清代码关系)、搜索工具(防幻觉)和Docker执行环境(让模型自己跑代码验证结果)。思路对,但项目闭源,正文没披露任何性能基准或延迟数据,小模型到底能跑多快、代码生成质量如何,全是未知数。短评:本地小模型+工具链,思路好但闭源无数据,先别激动。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:04
21d ago
r/LocalLLaMA· rssEN16:04 · 05·23
跑 RAG 用稠密模型还是 MoE?有人实测 Qwen 35B 稠密比 27B MoE 快 2.5 倍
Reddit 用户用单张 RTX 3090 跑 RAG,对比 Qwen3.6 35B APEX(稠密)和 Qwen3.6 27B MTP(MoE),稠密模型生成速度约 150 tok/s,MoE 只有 60 tok/s,而且稠密模型回答质量更好。不过帖子没交代检索怎么做的、用了什么提示词、量化方式,也没给评估指标,所以这个结论只能当个参考,不能直接推广...
#RAG#Inference-opt#Claude#Qwen
精选理由
一条 Reddit 用户发的非正式 RAG 测速帖,对比了 Qwen3.6 35B dense 和 27B MoE 在单张 3090 上的输出速度(150 vs 60 tok/s)。话题本身有价值,但正文没披露数据集、量化精度、上下文长度等关键变量,也没说是否有人复现。结论可以参考,但别直接当选型依据。
一句话点评
Reddit 用户用单张 RTX 3090 跑 RAG,发现稠密模型 Qwen3.6 35B 生成速度约 150 tok/s,比 MoE 版 27B 的 60 tok/s 快一倍多,回答质量也更好。但帖子没交代检索怎么做、用了什么提示词、量化方式,也没给评估指标,结论只能当个参考。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
15:38
21d ago
r/LocalLLaMA· rssEN15:38 · 05·23
26M参数模型在CPU上跑函数调用,比0.6B模型快4.4倍,准确率还更高
Reddit用户gvij用4核CPU测了Needle 26M和Qwen3-0.6B在50次工具调用上的表现。Needle工具匹配准确率72.0%,平均延迟10.9秒;Qwen3准确率56.0%,延迟47.9秒。Needle参数少23倍,但准确率高出16个百分点,速度快4.4倍。测试分5个难度等级,正文没披露各等级具体结果。
#Agent#Tools#Benchmarking#Needle
精选理由
HKR 三项都过,但证据来源是 Reddit 上单次测试,只有 50 条查询,复现细节没披露。信号很实用,但源权重不够上精选。
一句话点评
26M参数模型在4核CPU上工具调用准确率72%,比0.6B的Qwen3高16个百分点,速度快4.4倍。参数少23倍反而更强,说明小模型做工具调用不一定输给大模型。但测试仅50次查询,样本太少,统计意义有限;且正文没披露各难度等级的具体结果,高难度下差距可能缩小。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
15:38
21d ago
r/LocalLLaMA· rssEN15:38 · 05·23
GPT-5.5 的“秘密武器”就是让模型用原始人模式思考?
Reddit 用户声称 GPT-5.5 在一次普通对话中意外泄露了它的思考过程,并贴了一个 Gist 日志链接。帖子没有给出可复现的设置、模型来源,也没提这种“原始人思考”到底省不省 token。正文没披露任何效率数据,所以这点先别太激动。
#Reasoning#Fine-tuning#OpenAI#GPT-5.5
精选理由
这是一条 Reddit 用户的单方面爆料,说 GPT-5.5 在普通对话里泄露了思考过程,并附了一个日志链接。但正文没披露怎么复现、模型从哪来、效率数据如何,所以只能当个模型行为传闻,不能当重点报道。HKR 的 H 和 R 都成立,K 因为缺可复现设置和模型来源而不成立。
一句话点评
Reddit 用户声称 GPT-5.5 在一次普通对话中意外泄露了它的思考过程,并贴了一个 Gist 日志链接。帖子没有给出可复现的设置、模型来源,也没提这种“原始人思考”到底省不省 token。正文没披露任何效率数据,所以这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
13:58
21d ago
机器之心 · 公众号· rssZH13:58 · 05·23
没有大模型、没有自有流量,AppLovin 靠预测用户终身价值把广告做到千亿市值
AppLovin 用自研的 Axon 2 广告引擎,把投放逻辑从“按点击出价”换成“按用户终身价值(LTV)预测出价”,2024 年股价涨了 790%,2025 年市值逼近 2500 亿美元。它没有自己的大模型,也没有微信、抖音那样的自有流量池,核心是把广告主的花费用在能长期付费的用户身上。正文没披露 Axon 2 的具体模型架构和训练数据量,但效果数...
#Embedding#Multimodal#Agent#AppLovin
精选理由
HKR三项都过:故事有反差钩子,事实有具体数字和机制(LTV预测替代点击率预估),对AI从业者有参考价值(AI在广告变现中的落地)。分数维持69是因为这是一篇公司商业复盘,不是新模型发布、新产品上线或跨来源事件,信息密度和时效性不足以进更高档。
一句话点评
AppLovin 靠自研的 Axon 2 广告引擎,把投放逻辑从“按点击出价”换成“按用户终身价值(LTV)预测出价”,2024 年股价涨了 790%,2025 年市值逼近 2500 亿美元。它没有自己的大模型,也没有微信、抖音那样的自有流量池,核心是把广告主的花费用在能长期付费的用户身上。正文没披露 Axon 2 的具体模型架构和训练数据量,但效果数据很猛。短评:没大模型没流量,靠 LTV...
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
13:54
21d ago
r/LocalLLaMA· rssEN13:54 · 05·23
Apex-Testing 更新:95% 覆盖率的真实仓库编程评测
Apex-Testing 更新了它的真实仓库编程评测,覆盖率达到 95%。评测用了 65-70 个私有 GitHub 仓库、70 个任务、8 个类别,还统计了平均成本、平均耗时、按类别加权得分、ELO 排行榜和模型对比。正文没披露具体哪些模型上榜、成本多低、延迟多高,所以这点先别太激动。不过用私有仓库测编程能力,比公开题库更贴近实际干活场景。
#Agent#Code#Benchmarking#Apex-Testing
精选理由
H/K/R三项都达标,但来源只是一条Reddit帖子,只给了规模数字,没披露评测方法、模型具体表现和可复现性。分数落在60-71区间的高位,不设为精选。
一句话点评
Apex-Testing 更新了编程评测,用 65-70 个私有仓库、70 个任务测模型写代码的真实能力,覆盖率达 95%。比公开题库更贴近干活场景,但正文没披露具体模型排名、成本和耗时,所以先别太激动。缺实测数据,等榜单出来再判断谁真能打。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
13:45
21d ago
r/LocalLLaMA· rssEN13:45 · 05·23
小米12 Pro 跑本地模型:Llama.cpp 和 LiteRT 谁更快?
有人在改装成 24/7 服务器的小米12 Pro 上测了 Gemma-4-E4B 模型。Llama.cpp 的提示处理速度是 30.6 token/秒,生成速度 5.7 token/秒;LiteRT 生成稍快一点,但会把 CPU 跑满,功耗也更高。正文没披露具体功耗数据和测试条件,所以这点先别太激动。
#Inference-opt#Benchmarking#Xiaomi#Google
精选理由
手机当服务器跑模型这个设定有新鲜感,实测数据也具体(30.6 t/s 提示、5.7 t/s 生成、LiteRT 功耗更高)。但影响范围有限,主要对本地推理爱好者有参考价值,所以落在 60–71 分区间。
一句话点评
有人在改装成服务器的小米12 Pro上测了Gemma-4-E4B模型,Llama.cpp提示处理30.6 token/秒,生成5.7 token/秒;LiteRT生成稍快但CPU跑满、功耗更高。正文没披露具体功耗数据和测试条件,所以这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
13:29
21d ago
r/LocalLLaMA· rssEN13:29 · 05·23
给 exo 加原生 MTP,Qwen3.6 在 M5 Max 上推理速度翻倍
有人在 exo 分布式推理框架里提交了原生 MTP(多 token 预测)的 PR。实测在 M5 Max 48GB 笔记本上,Qwen3.6 27B 模型从 17.27 tok/s 涨到 34.06 tok/s(K=2,速度翻倍);35B-A3B 混合模型从 85.14 涨到 98.59 tok/s(K=1,提升约 16%)。MTP 让模型一次预测多个...
#Inference-opt#exo#Qwen#Apple
精选理由
开发者给 exo 加原生 MTP 支持,实测 M5 Max 48GB 上 27B 模型在 K=2 时速度翻倍(17.27→34.06 tok/s),35B-A3B 在 K=1 也有 16% 提升(85.14→98.59 tok/s)。数字实在,但正文没披露显存占用、功耗或长序列稳定性,这点先别太激动。对用 Apple Silicon 跑本地大模型的人是个好消息,但受众面窄,不到推荐位。
一句话点评
有人在 exo 分布式推理框架里给 Qwen3.6 的 MLX 模型加上了原生 MTP(多 token 预测),实测在 M5 Max 48GB 笔记本上,27B 模型速度从 17.27 tok/s 翻倍到 34.06 tok/s(K=2),35B-A3B 混合模型从 85.14 涨到 98.59 tok/s(K=1,提升约 16%)。MTP 让模型一次预测多个 token,相当于流水线干活,...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
13:00
21d ago
TechCrunch AI· rssEN13:00 · 05·23
马斯克放弃地球太阳能,xAI 全面转向天然气
TechCrunch 报道,马斯克的 xAI 已全面押注天然气,SpaceX 则专注轨道数据中心。他早年承诺的“太阳能电力经济”似乎被搁置。正文未披露项目规模、成本、时间线或马斯克本人的直接表态,所以目前只能确认方向转变,具体影响和动机还不清楚。
#Elon Musk#xAI#SpaceX#Commentary
精选理由
HKR-H/R 靠马斯克/xAI 的能源转向和数据中心成本痛点通过。HKR-K 不通过:缺规模、成本、时间表和直接引语,所以这篇只能归入 60-71 分的评论档。
一句话点评
马斯克放弃地球太阳能,xAI 全面押注天然气,SpaceX 专注轨道数据中心。早年承诺的“太阳能电力经济”被搁置。正文未披露项目规模、成本、时间线或马斯克本人直接表态,目前只能确认方向转变,具体影响和动机不清楚。短评:马斯克自己打脸,太阳能梦碎,天然气真香。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
12:53
21d ago
r/LocalLLaMA· rssEN12:53 · 05·23
Qwen3.6 35B-A3B MTP 在 24GB 笔记本显卡上跑到 249 token/秒,比自家 27B 稠密模型快 3.4 倍
有人在笔记本版 RTX 5090(24GB)上跑了 Qwen3.6 的 35B-A3B 混合专家模型(MoE,每次只激活约 3B 参数),配合 MTP 投机解码(让模型先猜几个后续 token,猜对了就一次多出几个 token),10 次 2000 token 测试平均 249 token/秒。对比同系列的 27B 稠密模型(每次全量计算 27B 参数...
#Inference-opt#Code#Benchmarking#Qwen
精选理由
这是一个 Reddit 上的单点跑分,不是官方发布或跨来源事件,但 249 t/s 在 24GB 消费卡上确实亮眼,对本地推理群体有明确参考价值。分数落在 60–71 高位,但不到 featured。
一句话点评
短评:MoE + MTP 让 35B 模型在笔记本 5090 上跑到 249 token/s,比同系列 27B 稠密模型快 3.4 倍,挺离谱的。 点评:Qwen3.6 的 35B-A3B 混合专家模型(每次只激活约 3B 参数)配合 MTP 投机解码(让模型先猜几个后续 token,猜对了就一次多出几个 token),在笔记本版 RTX 5090(24GB)上跑出 249 token/s...
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
11:50
21d ago
Hacker News 首页· rssEN11:50 · 05·23
从第一性原理让深度学习跑得更快
这篇博客把深度学习性能优化拆成三个瓶颈:计算(GPU算浮点运算的时间)、内存带宽(搬数据的时间)、开销(其他杂项)。作者用工厂比喻解释——你买了312 teraflops的算力,但大部分时间可能花在搬材料上,而不是真正干活。比如非矩阵乘法的算子(像layer norm)只占BERT总FLOPs的0.2%,却因为内存带宽限制跑得极慢。正文没有披露具体优化...
#Inference-opt#Commentary
精选理由
标题画了个大饼,但正文啥都没给——没方法、没数据、没硬件,连 HN 热度都很低。属于低价值教程,不值得投入时间细看。
一句话点评
这篇把深度学习性能瓶颈拆成计算、内存带宽、开销三个工厂比喻,说人话讲清了为什么非矩阵乘法的算子(如layer norm)只占BERT总FLOPs的0.2%,却因内存带宽限制跑得极慢。正文没披露具体优化方法或硬件条件,更像科普框架而非实操指南。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
11:01
21d ago
彭博科技· rssEN11:01 · 05·23
黄仁勋喊超微收紧合规,台湾审查风暴下供应链承压
彭博报道,英伟达CEO黄仁勋要求超微电脑(Super Micro)加强合规管理,背景是台湾正在收紧对AI服务器出货的审查。正文没披露具体违规细节、超微的回应,也没说台湾审查到底卡了什么环节。这件事的信号是:美国芯片巨头已经在主动要求代工厂配合出口管制,供应链合规成本会继续上升。
#Nvidia#Super Micro#Bloomberg#Policy
精选理由
Bloomberg 标题+ Nvidia/Super Micro 合规话题,对 AI 基础设施读者有钩子和相关性,所以 H 和 R 成立。但正文没披露任何调查细节或合规要求细节,K 不成立,因此归入 all 层级。
一句话点评
黄仁勋亲自催超微电脑加强合规,背景是台湾收紧AI服务器出货审查。信号很明确:美国芯片巨头在主动压代工厂配合出口管制,供应链合规成本只会更高。正文没披露超微具体违规了什么、台湾审查卡在哪个环节,也没给超微的回应。信息缺口不小,但方向已经够清楚——合规不再是法务部门的事,而是直接影响出货节奏的硬约束。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
10:01
21d ago
r/LocalLLaMA· rssEN10:01 · 05·23
本地大模型社区活跃度下降,是不是泡沫快破了?
Reddit 用户 fairydreaming 发帖说 LocalLLaMA 板块的参与度在下降,还引用了 Google Trends 数据。但正文没披露具体趋势数值、时间范围和测量方法,所以这个判断目前只能当个信号看,不能当结论。如果社区活跃度真的持续走低,可能说明大家对本地跑大模型的预期在降温,但这点先别太激动——也可能是用户分流到了其他平台或工具。
#Reddit#LocalLLaMA#Google#Commentary
精选理由
一条Reddit帖子靠标题和情绪信号拿到56分,但正文没披露任何趋势数据或统计方法,验证太弱。单个社区讨论是情绪指标,不足以支撑60分以上的推荐档位。
一句话点评
Reddit LocalLLaMA 板块用户发帖称社区活跃度下降,并引用 Google Trends 数据,但正文没披露具体趋势数值、时间范围和测量方法,所以这个判断目前只能当个信号看,不能当结论。如果社区活跃度真的持续走低,可能说明大家对本地跑大模型的预期在降温,但这点先别太激动——也可能是用户分流到了其他平台或工具。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R1
09:46
21d ago
AI HOT 精选· aihot-apiZH09:46 · 05·23
Mistral收购Emmi AI,补物理仿真团队做工业AI
Mistral AI宣布收购Emmi AI,后者有30多名物理仿真和数字孪生方向的研发人员。这笔交易的核心是补人——Mistral想用物理仿真能力做工业AI,比如在制造、能源场景里让模型理解真实物理规律。数字孪生就是给设备建一个虚拟副本,可以低成本跑模拟、做预测。30多人不算大团队,但对工业AI这种重垂直场景来说,关键人才比人数重要。正文没披露收购金额...
#Robotics#Mistral AI#Emmi AI#Partnership
精选理由
HKR-H/K 通过,因为 Mistral 确实收购了 Emmi AI 并加了 30 多人。HKR-R 偏弱:没有交易金额、产品路线图或客户验证,所以分数落在 60–71 区间。
一句话点评
Mistral 收购了做物理仿真和数字孪生的 Emmi AI,30 多人团队,想补工业 AI 的物理理解能力。数字孪生就是给设备建虚拟副本,低成本跑模拟。30 人不大,但工业场景关键人才比人数重要。正文没披露收购金额,也没说具体落地客户,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
09:16
21d ago
r/LocalLLaMA· rssEN09:16 · 05·23
DGX Spark 跑 Agent 实测:4 路并发 138 TPS,但 30K 上下文是极限
Reddit 用户用 DGX Spark 跑 RedHatAI/Qwen3.6-35B-A3B-NVFP4,塞了 30K token 的提示词,输出 5000 token。单流约 51 TPS,4 路并发时总吞吐 138.56 TPS。数字看着不错,但注意:30K 上下文已经是极限,再长可能撑不住。正文没披露显存占用和功耗,所以实际部署成本不好判断。
#Agent#Tools#Inference-opt#RedHatAI
精选理由
这是一条 Reddit 用户实测,不是官方发布或权威基准,所以分数卡在 60–71 区间。但数据本身扎实:单流 51 TPS 意味着跑 agent 任务(比如多轮工具调用)延迟约 20ms/token,4 并发还能撑到 138 TPS,说明 DGX Spark 在小模型本地部署上性价比不错。不过正文没披露功耗、显存占用和长上下文稳定性,这些是实际部署前需要验证的。
一句话点评
DGX Spark 跑 Qwen3.6-35B 的 agent 实测:30K 提示词+5K 输出,单流 51 TPS,4 路并发总吞吐 138.56 TPS。数字不错,但 30K 上下文已是极限,再长可能崩。正文没披露显存和功耗,实际部署成本不好判断。短评:单流 51 TPS 够用,但上下文短是硬伤。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
08:51
21d ago
r/LocalLLaMA· rssEN08:51 · 05·23
求推荐印度语言语音识别模型:Sarvam Saaras v3 被点名,但价格和跑分都没说
Reddit 用户求推荐能识别印地语、南印语言和中英混说的语音识别模型,要求拿来就能用,不想自己微调。有人提了 Sarvam Saaras v3,但正文没披露它的基准分数、定价或部署限制,所以没法判断它到底好不好用、贵不贵。
#Audio#Reddit#Sarvam#Saaras v3
精选理由
HKR-R 通过,因为 Indic 语种和混合语码 ASR 是实际部署中的硬骨头。HKR-H/K 不通过:正文没披露任何评测数字、模型结果或可复现的测试设置。
一句话点评
Reddit 用户求推荐能识别印地语、南印语言和中英混说的语音识别模型,要求拿来就用。有人提了 Sarvam Saaras v3,但正文没披露它的基准分数、定价或部署限制,所以没法判断它到底好不好用、贵不贵。 短评:有人推荐但没给分数和价格,先别急着用。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1

更多

频道

后台