ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-05-24

46 items · updated 3m ago
RSS live
2026-05-24 · 星期日2026年5月24日
22:21
19d ago
r/LocalLLaMA· rssEN22:21 · 05·24
hipEngine:在 AMD RDNA3 显卡上原生跑 Qwen 3.6,速度不错
hipEngine 发布了一个专为 AMD RDNA3 显卡(如 Strix Halo、7900 XTX)优化的推理引擎,原生支持 Qwen 3.6 模型。在 35B-A3B 模型、128K 上下文、INT8 KV 缓存的测试中,预填速度达到 1076.5 tok/s,解码速度 60.0 tok/s,显存峰值约 20.89 GiB。这个速度在本地部署大...
#Inference-opt#hipEngine#Qwen#AMD
精选理由
一条 Reddit 上的开源推理引擎发布,目标明确:让 AMD RDNA3 用户跑 Qwen 3.6 大模型。数据给得具体,prefill 破千 tok/s 在本地场景算不错,但正文没披露 batch size、多卡扩展性、实际生成延迟,也没和主流方案(如 llama.cpp)做对比。对 AMD 玩家是利好,但验证范围窄,别急着当通用方案。
一句话点评
AMD RDNA3 显卡(如 7900 XTX)用户有福了:hipEngine 这个新推理引擎让 Qwen 3.6 跑得飞快,35B-A3B 模型在 128K 上下文下预填 1076.5 tok/s、解码 60 tok/s,显存只占 20.89 GiB。速度在本地部署里算第一梯队,但注意这是 INT8 KV 缓存下的成绩,精度有折损;且只支持 RDNA3,老卡用不了。正文没披露对比基线(比如...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
22:13
19d ago
持续报道 · 19dAI HOT 精选· aihot-apiZH22:13 · 05·24
Luma Agents推出自动生成用户生成内容风格广告
Luma Labs 说 Luma Agents 可以根据你给的简报和风格设定,自动生成看起来像用户自拍的那种广告视频。正文没披露能生成多少条、怎么收费、用了什么模型,也没说这些广告能不能直接投放到平台。
#Agent#Luma Labs#Product update
精选理由
这是Luma Labs自家X帖的产品更新,属于小厂动态。HKR的h和r通过,但k不通过——因为生成量、定价、机制、投放效果都没披露,信息缺口太大,没法判断实际价值。
一句话点评
Luma Agents 能批量生成像用户自己拍的广告图/视频,适合电商主图、社媒素材。关键看它是不是真能模仿真实用户风格,而不是套模板。正文没披露生成成本、单条耗时,也没说支持哪些平台。如果成本够低、效果不假,对中小卖家挺实用。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
19:29
19d ago
FT · 科技· rssEN19:29 · 05·24
Uber考虑提高对Delivery Hero的收购报价被拒后重启谈判
Uber 出价 115 亿欧元(约合 125 亿美元)收购德国外卖平台 Delivery Hero,被对方拒绝。现在 Uber 正在考虑加价。115 亿欧元这个数字本身已经不小——相当于 Delivery Hero 目前市值的溢价,但被拒说明股东觉得价格还不够。正文没披露 Uber 打算加多少,也没说时间表。目前只知道 Uber 接触了 Deliver...
#Uber#Delivery Hero#Funding
精选理由
这是Uber和Delivery Hero的外卖并购新闻,核心是报价和股东接触,没有AI产品、模型、算力或政策关联。HKR三项都不满足AI受众的阅读需求,重要性32分合理,属于边缘AI内容。
一句话点评
Uber 想买 Delivery Hero,报价从 100 亿欧元涨到 115 亿被拒,现在又考虑加价。Delivery Hero 是德国外卖巨头,覆盖 70 国,Uber 想借此补欧洲和亚洲市场。但 FT 说这交易“奇怪”,因为两家业务重叠,整合难。关键看 Uber 愿出多少——目前估值已到 120 亿。正文没披露 Uber 的融资方案或监管态度,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K0·R0
19:23
19d ago
r/LocalLLaMA· rssEN19:23 · 05·24
本地跑模型,你们用啥前端?
Reddit 用户 Borkato 在 LocalLLaMA 版问大家跑本地模型用什么前端。他自己用 Vim 加了一个自定义文本补全插件,觉得 llama-server 虽然是个稳妥的默认选项,但功能有限。帖子正文没透露更多细节,比如他用的什么模型、补全插件怎么写的、llama-server 具体哪里不够用。
#Code#Tools#Reddit#LocalLLaMA
精选理由
HKR-R 勉强过关,因为本地 LLM 前端确实是真实的工作流讨论话题。HKR-H 和 HKR-K 都不及格:帖子只提供了一个人的个人配置,没有数据、没有对比、也没有新机制。
一句话点评
Reddit 用户 Borkato 在 LocalLLaMA 版问大家跑本地模型用什么前端,他自己用 Vim 加自定义文本补全插件,觉得 llama-server 功能有限。帖子正文没披露他用什么模型、插件怎么写的、llama-server 具体哪里不够用。短评:一个本地模型用户的工具选择帖,信息量不大,但能反映社区对 llama-server 的普遍感受——够用但不够灵活。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
19:00
19d ago
TechCrunch AI· rssEN19:00 · 05·24
Xreal 说智能眼镜终于做明白了,但正文没透露 Google 合作细节、产品规格、定价和上市时间
Xreal 创始人兼 CEO Chi Xu 认为智能眼镜行业到了一个转折点,公司已经掌握了这门生意。不过这篇报道只放了这句话,没披露任何具体信息:和 Google 的合作到底做什么、眼镜的参数、卖多少钱、什么时候卖,全都没说。所以这条消息更像一个表态,暂时没法验证。
#Vision#Xreal#Google#Chi Xu
精选理由
HKR-H 靠 Google 合作方+攻克难题的标题钩子通过,但 HKR-K 和 HKR-R 不通过,因为正文没给任何规格、时间线或合作机制。属于低价值浏览信号,不推荐精选。
一句话点评
Xreal 老板说智能眼镜行业到转折点了,公司已经“掌握这门生意”。但全文没提跟 Google 合作具体做什么、眼镜参数、价格、上市时间。这条消息更像一个表态,暂时没法验证,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
50
SCORE
H1·K0·R0
17:46
19d ago
r/LocalLLaMA· rssEN17:46 · 05·24
IBM 两个 OCR 小模型对比:加了动态提示的 2stage 版到底有没有进步?
Reddit 用户发帖问 granite-docling-258m 和 granite-docling-2stage-258m 两个 OCR 模型的实际效果差异。帖子正文只提到 2stage 版本用动态提示(dynamic prompt)预计算页面布局对象,没有给出任何 OCR 基准测试或准确率数据。两个模型都是 2.58 亿参数的小模型,适合本地部署...
#Vision#IBM#Reddit#Granite Docling
精选理由
H 是 Reddit 上有人拿两个 258M 模型做对比测试,直接问 2stage 版本有没有实际提升,这个质疑角度有钩子。K 是正文只披露了 2stage 用动态 prompt 预计算布局对象,没给任何 OCR 指标,信息缺口明显。R 是踩中了本地 OCR 选模型的真实痛点:小模型、布局解析、实际效果差距只能靠体感。没有指标、没有样本、没有发布新闻,所以分数压在 60–71 区间。
一句话点评
IBM 两个 2.58 亿参数的小 OCR 模型,2stage 版用动态提示预计算页面布局,但发帖人没给任何准确率数据。正文没披露基准测试,实际提升未知。适合本地部署,但效果要自己试。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R1
17:18
19d ago
AI HOT 精选· aihot-apiZH17:18 · 05·24
让 Codex 自己学会把重复活做成自动化工具
这是一个提示词框架,教 Codex 翻自己的聊天记录和记忆,找出那些至少干过两次、输入稳定的重复任务,然后自动把它们变成技能、子智能体或自动化工具,避免重复造轮子。流程包括生成候选清单、执行创建,最后汇报结果和待验证项。正文没披露这个框架在实际测试中的成功率或误判率,但思路挺实用——相当于让模型自己给自己写脚本,省掉人工梳理重复工作流的时间。
#Code#Agent#Memory#Codex
精选理由
HKR 都过,但这是一套实用提示框架,不是 Codex 新功能发布。正文给了筛选机制,没披露效果指标、案例或对照实验,所以压在 70 分。
一句话点评
这个提示词框架让 Codex 自己翻聊天记录和记忆,找出至少干过两次、输入稳定的重复任务,自动变成技能或自动化工具。相当于让模型给自己写脚本,省掉人工梳理重复工作流的时间。正文没披露实际测试的成功率或误判率,这点先别太激动。思路挺实用,但效果得看实测。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
15:05
19d ago
AI HOT 精选· aihot-apiZH15:05 · 05·24
Pixverse 测了个角色设计工作流:GPT Image 出图,Seedance 做动画
Pixverse 放了个角色设计工作流测试:先用 GPT Image 2.0 生成 Lucas 的静态概念图,再用 Seedance 2.0 把图做成弹跳动画。效果从静态到电影级动态。正文没披露具体耗时、成本或可控性,目前只是演示链路通不通。
#Multimodal#Vision#Pixverse#GPT Image 2.0
精选理由
正文没披露生成耗时、画质对比或定价,就是一个社交演示,不是产品发布或技术评测。
一句话点评
Pixverse 把 GPT Image 2.0 和自家 Seedance 2.0 串起来做了个角色设计工作流:先画静态概念图,再一键生成弹跳动画。效果看着挺顺,但正文没披露耗时、成本或可控性,目前只是演示链路通不通。这点先别太激动,等开放测试再看实际体验。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
15:02
19d ago
r/LocalLLaMA· rssEN15:02 · 05·24
llama.cpp 能不能让模型完全跑在显存里?
Reddit 用户用 RTX 4070(12GB 显存)跑 llama.cpp,Gemma4 26B 和 Qwen 3.6 35B MoE 能到 40 token/s。他想知道 Qwen3.5-9B 量化版能不能完全塞进显存,因为 Gemma4-e2b Q4_IXS 在 8192 上下文下还会用掉约 3.5GB 系统内存。正文没披露具体量化等级和上下文...
#Inference-opt#Reddit#Qwen#Gemma
精选理由
这是一条Reddit上的技术支持帖,不是行业更新。它提供了硬件实测数据和参数,但没有验证过的解决方案或更广泛的发现。
一句话点评
RTX 4070(12GB)跑 Gemma4 26B 和 Qwen 3.6 35B MoE 能到 40 token/s,但 Gemma4-e2b Q4_IXS 在 8192 上下文下还会吃掉约 3.5GB 系统内存,说明小模型想完全塞进显存还得看量化等级和上下文长度。正文没披露具体量化等级,这点先别太激动——40 t/s 可能是低量化+短上下文的成绩。对本地部署党来说,9B 模型全进显存是可...
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R1
15:00
19d ago
TechCrunch AI· rssEN15:00 · 05·24
我试了亚马逊的 Bee 穿戴设备:又方便又有点毛骨悚然
TechCrunch 记者试用了亚马逊去年收购的 AI 穿戴设备 Bee。这玩意像个随身录音笔,全天录对话、转文字、做摘要,还能跟日历联动发提醒。记者觉得用起来确实方便,但隐私焦虑也上来了——毕竟它一直在听你说话。正文没披露价格、传感器规格、上市时间和购买条件。
#Audio#Memory#Amazon#TechCrunch
精选理由
HKR-H 和 HKR-R 成立:TechCrunch 把 Amazon 的 AI 可穿戴设备描述成“有用又瘆人”,这种亲测视角有传播力。HKR-K 不成立:价格、传感器参数、上市条件、可复现的测试数据都没给,所以分数卡在 60–71 区间。
一句话点评
亚马逊去年收购的Bee穿戴设备,像个随身录音笔,全天录对话、转文字、做摘要,还能联动日历发提醒。记者试用后觉得方便,但隐私焦虑——它一直在听。正文没披露价格、上市时间和传感器规格,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
14:22
19d ago
r/LocalLLaMA· rssEN14:22 · 05·24
有人在本地用 Gemma 4 2B 跑 JSON 输出、调工具、找 Java bug,全成功了
Reddit 用户用 LM Studio 加 Spring AI 在本地跑 Gemma 4 2B,测了三件事:输出符合 schema 的 JSON、调用天气工具(参数传了里加)、暴露 reasoning_content 推理过程。最意外的是让它做 Java 代码审查,它发现了一个 string == 的 bug,最后给了 50/100 分。2B 模型能...
#Tools#Reasoning#Code#Google
精选理由
这条链接的核心价值在于用一个极小的本地模型(Gemma 4 2B)完成了三项实际任务,并且真的在代码审查里找到了一个 Java 字符串 == 的 bug。对于 AI 从业者来说,这直接触及成本(本地跑不用 API 费)和可靠性(小模型能不能干活)的敏感点。但样本量太小,只有一条 Reddit 帖子,没有系统评测,所以分数卡在 upper all 区间,不往上提。
一句话点评
短评:2B模型能发现Java的==bug,但别急着吹,测试环境太理想。 点评:Reddit用户用LM Studio+Spring AI本地跑Gemma 4 2B,测了结构化JSON输出、工具调用(查里加天气)和推理过程暴露。最亮眼的是代码审查:它发现了一个string ==比较的bug,打了50/100分。2B模型能到这个程度,说明小模型在结构化任务上进步明显。但注意:这是单次演示,不是系...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
14:09
19d ago
● P1Hacker News 首页· rssEN14:09 · 05·24
DeepSeek将旗舰AI模型价格永久降低75%
Bloomberg 的标题说 DeepSeek 会把自己旗舰 AI 模型的价格永久打 75 折。不过正文没披露具体是哪个模型、原价多少、什么时候生效。Hacker News 上这篇帖子有 46 个赞和 45 条评论,说明关注度不低,但讨论里也没挖出更多定价细节。我会先打个折:在官方公告出来前,这还只是一条标题新闻。
#DeepSeek#Bloomberg#Hacker News#Product update
精选理由
Bloomberg 这个标题把“永久 75 折”摆出来,摆明是冲着价格战去的,所以重要性和话题性都够。但正文只给了 HN 的讨论热度,没披露到底是哪个模型、原价多少、什么时候开始,信息缺口很大。我会先打个折:这条值得关注,但别急着下结论,等官方自己把价格和模型名补上再说。
一句话点评
DeepSeek把旗舰模型价格永久砍了75%,但正文没披露具体是哪个模型、新价格是多少,也没说降价后推理质量会不会缩水。
锐评
DeepSeek宣布对旗舰模型永久降价75%,Bloomberg的报道只给了这个比例,没写具体模型名称、原价和新价格。降价幅度看着很大,但缺少对比基准——不知道是跟自家之前的促销价比,还是跟行业均价比。另外,报道也没提降价是否会影响模型性能或服务等级,比如并发限制、延迟会不会变差。对开发者来说,价格降了是好事,但得等官方公布具体定价和对应的API条款才能判断实际省多少。如果降价同时不砍服务质量,那对中小团队接入大模型的门槛确实会低一截。
HKR 分解
hook knowledge resonance
打开信源
89
SCORE
H1·K1·R1
13:05
20d ago
r/LocalLLaMA· rssEN13:05 · 05·24
Qwen3.6-35B-A3B vs Gemma4-26B-A4B:Reddit 用户实测,Gemma4 在 AMD 9070 XT 上跑得更快
Reddit 用户 MarcCDB 对比了 Qwen3.6-35B-A3B 和 Gemma4-26B-A4B 两款 MoE 模型,结论是 Gemma4 在 Radeon 9070 XT 上用最新版 llama.cpp 跑得更快。但帖子没贴跑分数据,也没说用了什么 prompt 或上下文长度,所以这个“更快”到底快多少、在什么条件下成立,目前不清楚。如果...
#Inference-opt#Benchmarking#Qwen#Gemma
精选理由
一条 Reddit 个人实测,点名了模型、显卡和推理框架,所以 H 和 R 成立。但没披露分数、吞吐量或可复现的配置细节,K 不成立,整体归入 lower all 档。
一句话点评
Reddit 用户 MarcCDB 说 Gemma4-26B-A4B 在 Radeon 9070 XT 上用最新 llama.cpp 比 Qwen3.6-35B-A3B 跑得快,但没贴跑分、没提 prompt 和上下文长度。这个“更快”缺条件,先打五折。正文被 Reddit 墙了,看不到更多细节。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
13:02
20d ago
Hacker News 首页· rssEN13:02 · 05·24
DeepSeek Reasonix:一个专为DeepSeek缓存机制优化的终端编程助手,号称能把输入成本压到1/5
Reasonix 是一个开源终端编程助手,只对接 DeepSeek 的 API。它的核心卖点是利用 DeepSeek 的字节级前缀缓存——对话历史只追加不重排,长会话缓存命中率能到 94%,输入 token 成本降到原来的 1/5 左右。按官方报价,常规输入每百万 token 0.07 美元,缓存命中后只要 0.014 美元,长期跑确实省钱。工具链包括...
#Agent#Code#Inference-opt#DeepSeek
精选理由
HKR-H 和 HKR-R 成立:DeepSeek 加低成本编码 Agent 对开发者有明确吸引力。HKR-K 不成立,因为文章没披露缓存机制、定价或评测,只能算一个小型产品更新。
一句话点评
DeepSeek Reasonix 是一个只对接 DeepSeek API 的开源终端编程助手。核心卖点是利用 DeepSeek 的字节级前缀缓存——对话历史只追加不重排,长会话缓存命中率能到 94%,输入 token 成本降到原来的 1/5 左右。按官方报价,常规输入每百万 token 0.07 美元,缓存命中后只要 0.014 美元,长期跑确实省钱。工具链包括终端 TUI、MCP 外部工...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
12:55
20d ago
Hacker News 首页· rssEN12:55 · 05·24
约束衰减:LLM Agent 在后端代码生成中的脆弱性
这篇论文发现,给 LLM 写代码的 Agent 加越多结构性约束(比如必须用某个框架、数据库、ORM),它的表现就崩得越厉害。作者管这叫“约束衰减”。他们在 8 个 Web 框架上测了 100 个任务,结果能跑的配置从基线到全约束任务,断言通过率平均掉了 30 个百分点,弱的直接归零。框架差异也很大:Flask 这种显式框架表现还行,FastAPI、D...
#Agent#Code#Research release
精选理由
HKR-H 和 HKR-R 通过:标题提炼了一个具体的代码 Agent 失败模式,容易引发讨论。HKR-K 不通过:RSS 正文没有披露方法、模型、指标或结果,信息缺口太大,只能留在 all 层。
一句话点评
给 LLM 写代码的 Agent 加越多结构性约束(必须用某个框架、数据库、ORM),它崩得越厉害。论文在 8 个 Web 框架上测了 100 个任务,断言通过率平均掉了 30 个百分点,弱的直接归零。框架差异也大:Flask 这种显式框架还行,FastAPI、Django 这种约定多的反而差。主要翻车点在数据层(SQL 写错、ORM 用不对)。不过论文没披露用了什么模型、什么 Agent ...
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
12:05
20d ago
AI HOT 精选· aihot-apiZH12:05 · 05·24
Claude Code 自动模式:让多个任务同时跑
作者说 Claude Code 的自动模式去掉了每次操作的权限确认弹窗,这样你可以在一个会话跑着的时候,另开一个会话并行干活,不用干等着。
#Agent#Code#Tools#Claude
精选理由
HKR 三项都过,但这是一条短小的 X 工作流技巧,没有时序数据、失败边界或安全细节。保持在 Claude Code 生产力技巧小分类的 68 分区间。
一句话点评
Claude Code 的自动模式去掉了每次操作的权限确认弹窗,让你能同时开多个会话并行干活,不用干等着。核心价值是省掉手动确认的等待时间,适合批量改代码或跑多个任务。但正文没披露自动模式下的安全机制——没有弹窗意味着模型可以直接执行写文件、跑命令等操作,误操作或恶意指令的防护全靠模型自身判断,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
11:31
20d ago
r/LocalLLaMA· rssEN11:31 · 05·24
Qwen 3.6 小模型自己玩《地下城》开源游戏,效果还行
有人在 RTX 5090 上用 LM Studio 跑 Qwen 3.6 的 35B 参数版(激活 3B),给了 24 万 token 上下文、8 千 token 输出,让它玩开源游戏 DCSS。结果不带 MTP(多 token 预测)的版本能正常操作,带 MTP 的版本反而一直调用错工具、反复用错。这个模型是 4-bit 量化版,跑在本地,延迟应该不...
#Agent#Tools#Vision#Qwen
精选理由
一条 Reddit 用户自己跑的实验,说 qwen3.6-35b-a3b@q4_k_xl 非 MTP 版玩 DCSS 表现“还行”,但 MTP 版工具调用会乱。有具体配置和翻车案例,对本地模型玩家有参考价值,但缺少量化对比和对照组,结论偏软,所以放在 all 层合适。
一句话点评
有人在RTX 5090上用LM Studio跑Qwen 3.6的35B参数版(实际激活3B),给了24万token上下文、8千token输出,让它玩开源游戏DCSS。不带MTP(多token预测)的版本能正常操作,带MTP的反而一直调用错工具。模型是4-bit量化版,跑在本地,延迟应该不低。正文没披露具体帧率或成功率,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
11:12
20d ago
r/LocalLLaMA· rssEN11:12 · 05·24
Gemma 4 E2B 在 4GB 显存上跑三四十次后输出质量明显下降
有用户用 GTX 1650(4GB 显存)跑 Gemma 4 E2B,通过 llama-server 连续调用约 30-40 次后,输出开始变短、漏掉 JSON 字段甚至返回空内容。重启 llama-server 后质量立刻恢复。正文没披露具体是显存泄漏还是缓存污染,但 4GB 显存跑现代模型本身就紧巴巴,连续推理后质量下降大概率是显存或上下文缓存被撑...
#Inference-opt#Gemma#llama-server#NVIDIA
精选理由
这是一个单条Reddit用户报告,描述了Gemma 4 E2B在4GB显存下连续推理30-40次后输出质量退化(变短、缺字段、空输出),重启服务即恢复。信息缺口明显:正文没披露llama-server版本、量化格式、日志报错,也没有其他人复现。所以虽然现象具体、触发条件清晰,HKR三项都成立,但证据链太弱,分数卡在60-71区间合理。
一句话点评
4GB显存跑Gemma 4 E2B,连续推理30-40次后输出变短、漏字段甚至返回空,重启服务立刻恢复。大概率是显存泄漏或缓存污染,4GB跑现代模型本来就紧巴巴。正文没披露具体原因,但这对本地部署用户是个提醒:显存不够时别连续猛跑,中间得重启。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
10:17
20d ago
r/LocalLLaMA· rssEN10:17 · 05·24
13k欧元买工作站跑本地大模型:Mac Studio还是RTX PRO 5000?
Reddit用户纠结花1.3万欧元买M5 Ultra Mac Studio还是RTX PRO 5000工作站,主要用来本地测试30B-35B参数的开源模型、处理26.2万token长上下文、跑推理框架和评估工具。明确排除了本地微调,因为租一台B200云实例(RunPod)就够用,成本更低。帖子正文被Reddit屏蔽,所以没有更多配置细节。
#Inference-opt#Fine-tuning#Reddit#RunPod
精选理由
HKR-H 和 HKR-R 成立:预算、候选机型、262k 上下文目标都是具体信息,能吸引关注。HKR-K 不成立:没有测试结果或配置数据,所以评分落在 60-71 的浏览档位。
一句话点评
1.3万欧元预算,在M5 Ultra Mac Studio和RTX PRO 5000工作站之间纠结,主要跑30B-35B模型和26万token长上下文。亮点是用户明确排除了本地微调——租一台B200云实例更划算,说明本地部署的边界清晰。但正文被Reddit屏蔽,没有具体配置和跑分,只能看个热闹。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
08:45
20d ago
r/LocalLLaMA· rssEN08:45 · 05·24
用AI搜产品,Gemma 4跑偏了,Claude 4.6得再问一次才出结果
Reddit用户测试用AI做产品调研:Gemma 4 26B的agent花1分钟跑完,但方向错了,只给出泛品类目;Claude Sonnet 4.6搜得更久,但第一次也没给出具体产品,得再补一句“排除没有匹配产品的厂商”才出候选。说明当前AI做产品搜索,要么快但不准,要么慢但需要人工二次引导。正文没披露具体搜索的产品和测试次数,所以这点先别太激动。
#Agent#Tools#Gemma#Claude
精选理由
单个 Reddit 用户反馈,有具体模型名和一个时间细节,满足了 HKR-K/R。但任务、提示词和评分标准都没披露,所以放在低关注区间,不上推荐。
一句话点评
Reddit 用户实测:Gemma 4 26B 做产品搜索 agent,1 分钟跑完但方向全错,只给了泛品类目;Claude Sonnet 4.6 搜更久,第一次也没出具体产品,得补一句“排除没匹配产品的厂商”才出候选。快但不准,慢但得人工二次引导。正文没披露搜的具体产品和测试次数,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R1
07:30
20d ago
AI 群聊日报· atomZH07:30 · 05·24
群聊日报:200美元订阅值8000美元API、信息图没人看图、AI成本超过人类员工
一张信息图引爆讨论:200美元/月的coding plan按API价值折算值8000-10000美元,被认为是IPO前的巨额补贴窗口,应趁现在烧token跑通商业闭环。但随后群友做了注意力实验,发现几乎所有人都在盯左边文字,右边插图被集体忽略——这对用AI做信息图传播的人是个警钟。成本侧坏消息集中:Fortune报道微软AI成本已超过人类员工,有公司群...
#Agent#Code#Inference-opt#Microsoft
精选理由
HKR-K 和 HKR-R 通过具体的成本换算和 KDA 开源成果达标,但 HKR-H 偏弱,因为标题是泛泛的日期汇总。来源权威性和汇总形式让它留在 all 层级。
一句话点评
一张信息图引爆讨论:$200/月的coding plan按API价值折算值$8000-$10000,被认为是IPO前的巨额补贴窗口,应趁现在烧token跑通商业闭环。但随后群友做了注意力实验,发现几乎所有人都在盯左边文字,右边插图被集体忽略——这对用AI做信息图传播的人是个警钟。成本侧坏消息集中:Fortune报道微软AI成本已超过人类员工,有公司群发邮件要求节省Codex token。技术...
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R1
06:08
20d ago
r/LocalLLaMA· rssEN06:08 · 05·24
Qwen3.6-35B-A3B 无审查版:200K 上下文跑 5 轮没崩,还支持 MTP 量化
Reddit 用户分享了 Qwen3.6-35B-A3B 无审查版(Genesis V2)的 GGUF 和 FP8 Safetensors 格式链接,并在 Beelink GTR9 Pro(Strix Halo 硬件)上测试了 Q8_K_P MTP 量化。跑了 5 轮、每轮 200K 上下文,没出现卡死、循环或重复调用工具的情况;在 120K toke...
#Code#Tools#Inference-opt#Qwen
精选理由
这是 Reddit 用户自发的社区发布,不是官方 Qwen 大版本更新。测试声明有用但属于自报,没有第三方验证,所以分数压在 60–71 区间。
一句话点评
Qwen3.6-35B-A3B 的无审查版(Genesis V2)已在 Hugging Face 放出 GGUF 和 FP8 格式。有用户在 Strix Halo 迷你主机上跑了 Q8_K_P 量化,5 轮 200K 上下文没卡死、没循环,120K 后切换任务也正常。但正文被 Reddit 屏蔽,具体测试环境和工具调用细节看不到。亮点是 35B 参数但激活仅 3B,推理成本低,适合本地部署。...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
04:51
20d ago
r/LocalLLaMA· rssEN04:51 · 05·24
给 TradingAgents 套了个本地 GUI,能用 Ollama 跑
有人把 TradingAgents(一个交易智能体框架)fork 了,加了个本地网页界面,支持 OpenAI、Anthropic、Ollama、Qwen、DeepSeek 等 10 家模型供应商。亮点是“简洁报告模式”,能省大约一半的 token——这对本地跑模型挺实用,token 就是钱(或显存)。不过正文没披露这个模式具体砍掉了哪些信息,也没说交易...
#Agent#Tools#RAG#TradingAgents
精选理由
H/K/R 三关都过,但这是个人自建工具帖,信息止于模型提供方数量和 token 节省声称,没有成熟度、使用量或可复现 benchmark,所以只算小开源更新,分数卡在 66。
一句话点评
有人给交易智能体框架 TradingAgents 套了个本地网页界面,支持 Ollama 等 10 家模型。亮点是“简洁报告模式”能省约一半 token——本地跑模型时 token 就是显存,这点挺实用。但正文没披露砍掉了哪些信息,也没说交易策略的实际效果,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
04:00
20d ago
FT · 科技· rssEN04:00 · 05·24
AI 逼着麦肯锡们重新想怎么收费
客户开始质疑咨询顾问的价值,越来越习惯按任务完成效果付费。正文没披露具体怎么改价,但趋势是明摆着的:AI 让传统按人天收费的模式站不住了。
#McKinsey#Financial Times#Commentary
精选理由
FT 来源有权威性,HKR 三项都达标。但正文没披露具体定价数字、案例数量或 AI 系统细节,信息密度偏低,所以分数压在 60–71 区间。
一句话点评
麦肯锡们被AI逼着改收费模式,客户开始按效果付费,不再认人天计价。正文没披露具体怎么改价,但趋势很明确:传统咨询的人天费逻辑被AI打穿了。关键看他们敢不敢真按结果定价,以及怎么定义“效果”。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
04:00
20d ago
AI HOT 精选· aihot-apiZH04:00 · 05·24
OpenClaw 2026.5.22 发布:模型列表响应降到5毫秒,npm包锁依赖防投毒
OpenClaw 新版本把 /models 接口响应时间压到约5毫秒,之前没给具体数字,但5毫秒对网关层来说基本是瞬时返回。npm 包现在加了锁定依赖,能防止依赖链被篡改或投毒,对生产环境部署更安全。Windows 安装和更新路径也做了加固。整体是一次性能和安全的小迭代,没有新功能,但如果你在用 OpenClaw 做模型路由,值得升一下。
#Inference-opt#Safety#OpenClaw#Product update
精选理由
一个小工具的版本更新,有一个具体的延迟数字和一个依赖锁定机制,所以 HKR-K 通过。没有新能力、定价变化或广泛生态影响,分数落在 60–71 区间。
一句话点评
OpenClaw 小版本更新,/models 接口响应压到约5毫秒,网关层基本瞬时返回。npm 包加了锁定依赖,防依赖链投毒,Windows 安装路径也加固了。没新功能,但做模型路由的话值得升。正文没披露5毫秒是P50还是P99,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R0
03:51
20d ago
量子位 · 公众号· rssZH03:51 · 05·24
胡彦斌花一个月用Vibe Coding写粉丝App,余华在节目里学本地部署
胡彦斌用Vibe Coding(让AI写大部分代码,人只负责描述需求)花一个月做了粉丝社区App“焰火”。余华在综艺里提到自己在学“本地部署”(把模型装在自己电脑上跑)。米拉·乔沃维奇的MemPalace记忆系统在LongMemEval评测上拿了96.6%,但正文没披露测试样本量和具体任务类型,这个分数先别太激动。
#Agent#Code#Memory#Hu Yanbin
精选理由
三条都过,但核心事实是明星玩 AI 的轶事加一个记忆基准分数,不是模型发布、产品上线或融资消息,所以留在 all 层级。
一句话点评
胡彦斌用Vibe Coding(让AI写代码,人只描述需求)一个月做了个粉丝App,余华在综艺里学本地部署,名人效应大于技术价值。米拉·乔沃维奇的MemPalace在LongMemEval上拿96.6%,但正文没披露测试样本量和任务类型,这个分数先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
03:21
20d ago
r/LocalLLaMA· rssEN03:21 · 05·24
本地 TTS 大乱斗:作者把截至 2026 年 5 月的所有工具跑了一遍基准
UkieTechie 搞了个 tts-bench 项目,专门给本地 TTS 工具做性能测试。目前已经放出了 Windows 和 Mac 的跑分结果,Linux 还在等一台 5900XT + RTX 3090 的工作站出数据。正文被 Reddit 墙了,看不到具体榜单和延迟数字,但至少知道有人在认真拉表对比本地语音合成方案。
#Audio#Benchmarking#UkieTechie#Benchmark
精选理由
HKR 三项都过,但影响范围局限在本地 TTS 和 LocalLLaMA 圈子。这是一个有用的可复现基准,不是重大模型或平台更新,所以分数落在 60–71 区间。
一句话点评
有人搞了个 tts-bench 项目,专门给本地 TTS 工具跑分,目前只出了 Windows 和 Mac 的结果,Linux 还在等一台 5900XT + RTX 3090 的工作站出数据。正文被 Reddit 墙了,看不到具体榜单和延迟数字,但至少知道有人在认真拉表对比本地语音合成方案。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
02:49
20d ago
r/LocalLLaMA· rssEN02:49 · 05·24
不玩角色扮演,还要不要无审查模型?
Reddit 用户发帖问:如果对角色扮演没兴趣,无审查模型还有用吗?他提到 OpenAI 和五角大楼的合作,以及自己跑的一些测试——无审查版本在随机问题上会出奇怪错误,Qwen3.6 在加了“不要宣传”的系统提示后,原本能答的受限话题就变了。帖子没交代测试了多少次、用了哪些模型版本、评估标准是什么,所以这点先别太激动。核心矛盾是:无审查模型在正经场景(...
#RAG#Safety#Alignment#OpenAI
精选理由
HKR-H和HKR-R成立,因为LocalLLaMA帖子确实框定了一个真实的审查与RAG之争。HKR-K不成立:正文没有披露可复现的测试设置、模型列表或样本数量。
一句话点评
Reddit 用户实测发现,Qwen3.6 加一句“不要宣传”的系统提示后,原本能答的受限话题就变了。但帖子没交代测试次数、模型版本和评估标准,这点先别太激动。核心矛盾是:无审查模型在正经场景(比如 RAG 外挂资料库)到底有没有用?正文没披露具体错误类型和频率,信息缺口明显。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
02:47
20d ago
r/LocalLLaMA· rssEN02:47 · 05·24
Reddit 上有人搭了个三模型智能体:DeepSeek 当大脑,本地 Qwen 干活,Gemma 跑杂活
一位用户在 LibreChat 里搭了一套三模型智能体架构:用 OpenRouter 上的 DeepSeek v4 pro 当主规划器,本地跑 Qwen 35B(约 160 token/秒)当执行工人,再用一台迷你 PC 跑 Gemma E2B 处理琐碎任务。他问社区有没有更小的角色专用模型或更好的编排模式。正文没披露具体延迟、成本或任务复杂度,但 1...
#Agent#Tools#Inference-opt#DeepSeek
精选理由
这是一条 Reddit 用户分享的实操配置,不是系统评测或行业趋势。它给出了一个具体的 planner-worker-small-task 三层栈和本地速度数字,对同类需求的开发者有直接参考意义,但样本单一、缺乏横向对比或规模化验证,所以分数落在 60–71 区间。
一句话点评
一位用户在LibreChat里搭了三模型智能体:OpenRouter上的DeepSeek v4 pro当主规划,本地Qwen 35B(约160 token/秒)当执行工人,迷你PC跑Gemma E2B处理琐碎任务。这套分工挺实在,但正文没披露具体延迟和成本,也没说任务多复杂。社区在找更小的角色专用模型或更好的编排模式,说明当前方案还有优化空间。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
01:16
20d ago
r/LocalLLaMA· rssEN01:16 · 05·24
Qwen3.6-27B 在 MacBook M5 Max 上跑 MTP,速度从 19 涨到 22.3 tps
有人在 MacBook M5 Max(128GB 内存)上用 llama.cpp 测了 Qwen3.6-27B 的 MTP(多 token 预测)功能,吞吐从 19 tokens/秒提到 22.3 tokens/秒,提升约 17%。这个涨幅不算大,但好处是不用改模型结构、不额外耗显存。不过正文没披露具体采样参数和 batch 大小,所以这个速度能不能复...
#Inference-opt#Benchmarking#Qwen#Unsloth
精选理由
HKR-K/R 通过,因为帖子给出了具体的本地跑分和速度提升。但提升幅度小,来源是单条 Reddit 帖子,且只针对 Qwen MTP 这个冷门配置,所以兴趣度偏低。
一句话点评
MacBook M5 Max 上测 Qwen3.6-27B 的 MTP(多 token 预测,一次猜多个词),吞吐从 19 tokens/秒提到 22.3,涨了 17%。好处是不改模型结构、不额外吃显存。但正文没披露采样参数和 batch 大小,这个速度能不能复现要打个问号。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R1
00:19
20d ago
r/LocalLLaMA· rssEN00:19 · 05·24
llampart 1.0.0:给 llama-server 套了个本地桌面级 Web 界面
开发者发布了 llampart 1.0.0,一个专门给 llama-server 用的独立本地 Web UI。界面支持 6 种语言(英、波、德、法、意、西),有双栏对话侧边栏(可以固定、选择性删除、一键清空但保留固定对话),还集成了 MCP 工具流(让模型调用外部工具干活)。设置面板分了外观、模型、MCP、工具、数据、高级几个区,支持暗色、亮色和毛玻璃...
#Tools#Reasoning#llama.cpp#Svelte
精选理由
HKR-K 和 HKR-R 通过了具体功能和本地 LLM 受众匹配的检验。HKR-H 偏弱,且仅有一个 Reddit 发布帖,缺乏采用数据或测试验证,因此停留在小型产品更新区间。
一句话点评
llampart 1.0.0 是一个专为 llama-server 做的本地 Web 界面,相当于给 llama.cpp 配了个好看好用的桌面级聊天 UI。支持 6 种语言、双栏对话侧边栏(可固定、选择性删除、一键清空保留固定对话)、MCP 工具流(让模型调用外部工具干活),还有毛玻璃主题和壁纸自定义。MIT 协议,完全免费。亮点是界面细节做得比较到位,比如导出默认不带走敏感设置、有 Rea...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
00:00
20d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·24
美国地方政府开始对数据中心说不:从税收优惠到暂停令,AI 的物理扩张撞上电网和民意墙
美国地方政府对数据中心的态度正在从“抢着给优惠”转向“先算清楚账”。文章梳理了从缅因到西雅图超过30个州提出的300多项限制法案,核心矛盾是:数据中心建得快(18-24个月),但电网扩容慢(7-15年),导致电网升级成本(仅PJM区域就达436亿美元,95%分摊给普通用户)和电费上涨转嫁给了居民。弗吉尼亚州2025财年因数据中心税收豁免损失16亿美元,...
#Policy#Commentary
精选理由
HKR-H和HKR-R通过,但HKR-K不通过:没有具体的禁令、用电数据或AI项目影响披露。这是一篇宽泛的基础设施评论,未达到精选标准。
一句话点评
美国超30州提出300多项限制数据中心法案,核心矛盾是电网扩容慢(7-15年)远落后于数据中心建设(18-24个月),仅PJM区域电网升级成本436亿美元,95%摊给居民。弗吉尼亚2025财年因税收豁免损失16亿美元。正文没披露这些限制对具体AI项目的影响,但选址灵活性和成本都在恶化。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1

更多

频道

后台