ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-05-25

70 items · updated 3m ago
RSS live
2026-05-25 · 星期一2026年5月25日
23:53
18d ago
AI HOT 精选· aihot-apiZH23:53 · 05·25
Anthropic 新模型 Claude Mythos 让欧洲央行紧急开会:银行补丁速度必须从“行板”提到“急板”
Anthropic 的 Claude Mythos 模型能自动挖出银行系统的高危漏洞,已发现数千个,覆盖主流操作系统和浏览器。欧洲央行为此临时召集会议,要求银行大幅加快补丁部署——以前几周做的事,现在可能30分钟内就会被黑客反向利用。但问题是,Mythos 目前只对少数美国机构开放,欧洲银行拿不到权限,只能靠美国同行分享经验。央行副主席说“没有权限不能...
#Safety#Anthropic#European Central Bank#Policy
精选理由
标题用“震动金融圈”“紧急开会”制造了强冲击,但正文没给出模型名称、会议时间、升级机制或影响范围,信息缺口太大。H和R靠标题的监管安全钩子勉强过关,K因为关键事实全缺而失败。整体信息密度低,属于标题党高、干货少的类型,不值得高优先级处理。
一句话点评
Claude Mythos 能自动挖银行系统高危漏洞,已发现数千个,覆盖主流系统和浏览器。欧洲央行紧急开会要求银行把补丁部署从几周压缩到30分钟内——因为黑客可能反向利用。但Mythos只对少数美国机构开放,欧洲银行拿不到权限,只能靠美国同行分享经验。正文没披露Mythos的具体检出率、误报率,也没说哪些银行实际参与了测试。这点先别太激动:模型能力是真的,但封闭测试+信息不对称让欧洲监管只能...
HKR 分解
hook knowledge resonance
打开信源
49
SCORE
H1·K0·R1
23:28
18d ago
r/LocalLLaMA· rssEN23:28 · 05·25
有人想给Splunk做个离线版AI助手,6个硬约束挺具体
Reddit上有人问怎么给Splunk(一个日志分析平台)做一个完全离线的自然语言助手。他列了6个硬性条件:必须全部部署在本地,不能有任何外呼请求,要用韩语对话,只读访问Splunk数据,用一个小模型跑在普通GPU上,还要有会话级记忆。正文没披露具体用什么模型或方案,但条件本身已经排除了大部分现成方案——不能联网意味着不能用GPT等云端API,小模型+...
#Agent#Tools#Memory#Splunk
精选理由
HKR-R 通过,因为约束条件映射了真实的企业 AI 痛点:全离线、只读 Splunk、韩语、中端 GPU。HKR-K 不通过:没有披露架构、模型、延迟或评估结果。
一句话点评
一个Reddit用户想给Splunk日志平台做个完全离线的韩语助手,条件很硬:全本地部署、不能联网、小模型跑普通GPU、还要会话记忆。这基本排除了GPT等云端方案,只能用Qwen或Gemma这类小模型本地跑。难点在于韩语支持和小模型的理解能力——小模型读日志容易丢细节,会话记忆也会吃掉上下文窗口。正文没披露具体模型或方案,但条件本身已经够有挑战性。短评:离线+小模型+韩语,三重debuff叠...
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K0·R1
23:00
18d ago
最佳拍档· atomZH23:00 · 05·25
AI扩张卡在能源和晶圆上,台积电是全球经济稳定器
Gavin Baker 聊了九个话题,包括 AI 扩张的主要瓶颈是能源和晶圆、台积电对全球经济稳定的作用、Anthropic 爆发式增长、轨道计算、多样性崩溃、不可能三角、定价模式以及战场 AI。正文没披露具体数据、机制或时间线,所以这些判断目前只是观点,没有支撑细节。
#Inference-opt#Gavin Baker#TSMC#Anthropic
精选理由
标题有反直觉的算力瓶颈判断和台积电宏观视角,H和R都够。但正文只列了9个议题标题,没披露任何数字、论证逻辑或时间窗口,K不通过。
一句话点评
Gavin Baker 聊了九个话题,核心判断是 AI 扩张卡在能源和晶圆,台积电是经济稳定器。但全文没给任何数据或时间线,全是观点。短评:观点有料,但没数据支撑,先打个折。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
23:00
18d ago
彭博科技· rssEN23:00 · 05·25
日本百年电缆公司暴跌400亿美元,AI基建热潮出现裂缝
一家141岁的日本电缆公司一天内市值蒸发400亿美元,引发市场对AI基础设施投资过热的担忧。正文没有披露公司名称、暴跌的直接触发因素,也没有说明AI基建订单是否真的减少。400亿这个数字大致相当于一个中型AI公司的市值,单日跌掉这么多,说明市场对AI硬件需求的信心非常脆弱。
#Commentary
精选理由
彭博社报道,一家百年电缆企业单日蒸发400亿美元,但正文没点名是哪家公司、为什么跌、AI基建订单是否生变。这个跌幅本身够劲爆,能当市场情绪的风向标,但信息不全,只能给到60-71的市场观察档,不值得上推荐位。
一句话点评
一家141岁的日本电缆公司一天跌掉400亿美元市值,相当于一个中型AI公司。正文没点名是哪家、也没说直接触发原因,更没确认AI基建订单是否真减少。市场对AI硬件需求的信心比想象中脆弱,但信息缺口太大,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
21:50
18d ago
Hacker News 首页· rssEN21:50 · 05·25
OpenBrief:一个本地跑的视频下载+摘要工具,主打隐私和免费
OpenBrief 是一个开源桌面工具,核心是帮你下载视频(基于 yt-dlp)、在本地转文字、生成语音,再用你自己带的 API Key 调用大模型做摘要和问答。所有处理都在你自己的电脑上完成,不上传数据,隐私有保障。它免费、开源,但需要你自己准备大模型的 API Key(比如 OpenAI 或本地跑的开源模型),这点先别太激动——不是开箱即用。正文没...
#Audio#Tools#OpenBrief#yt-dlp
精选理由
本地优先是实打实的钩子,架构细节也清楚(yt-dlp 下载、本地转写/TTS、自带 key 做摘要),隐私和成本控制确实能引起共鸣。不过它只是个小型开源工具,没有用户数据,也没有模型能力层面的更新,所以放在 all 层级合适。正文没披露性能指标或支持的视频平台数量,这点先别太激动。
一句话点评
OpenBrief 把视频下载、转文字、摘要全塞进本地,隐私好,但得自己带大模型 API Key,不是开箱即用。免费开源,适合手头有 Key 的人。正文没提支持哪些模型,也没说转录速度,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
21:45
18d ago
Hacker News 首页· rssEN21:45 · 05·25
微软 Copilot Cowork 被曝能偷文件:发条消息就把你的资料传出去
安全公司 PromptArmor 发现,微软 Copilot Cowork(M365 里的 AI 助手)存在一个设计缺陷,攻击者可以通过间接提示注入(把恶意指令藏在用户上传的技能文件里)让助手把文件偷走。关键问题在于:Copilot Cowork 给自己发邮件或 Teams 消息时不需要人工确认,而消息里可以嵌入外部图片链接——用户一打开消息,图片请求...
#Agent#Tools#Safety#Microsoft
精选理由
HKR-H 和 HKR-R 通过:Copilot Cowork 文件外传是一个尖锐的企业 agent 安全事件,能引发从业者对数据泄露和权限风险的警觉。HKR-K 不通过:RSS 正文只给了 URL、96 分和 17 条评论,没有复现条件、影响范围或修复状态,信息不足以支撑关键性判断。
一句话点评
微软 Copilot Cowork 有个设计缺陷:给自己发邮件或 Teams 消息不需要人工确认,攻击者把恶意指令藏在技能文件里,就能让助手把文件偷走。关键问题是消息里可以嵌入外部图片链接,用户一打开消息,图片请求就把数据传出去了。PromptArmor 说对 Claude Opus 4.7 等最新模型成功率很高。但正文没披露具体偷了哪些文件类型、影响多大范围、微软是否已修复。这点先别太激动...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
20:30
18d ago
Hacker News 首页· rssEN20:30 · 05·25
Yoti 年龄验证会把面部照片和设备指纹发给第三方
佐治亚理工和加州大学欧文分校的研究发现,全球最大的年龄验证服务商之一 Yoti(覆盖约 60% 需要年龄验证的网站,客户包括 Meta、OnlyFans、索尼 PlayStation 和 TikTok)在验证过程中会把用户的面部照片、IP 地址和设备指纹传给信用卡公司、IP 定位服务和数据经纪商等第三方甚至第四方。研究还指出,大多数要求年龄验证的网站实...
#Vision#Safety#Yoti#Hacker News
精选理由
H 和 R 成立,但 K 缺具体名称、机制或证据。这是一个可讨论的隐私/安全信号,不是核心 AI 产品或研究更新,所以放在 60-71 的 all 档位。
一句话点评
Yoti 号称隐私保护,实际验证时会把用户面部照片、IP 和设备指纹传给信用卡公司、IP 定位商等第三方甚至第四方。覆盖约 60% 需年龄验证的网站,客户包括 Meta、OnlyFans、PlayStation 和 TikTok。研究还发现大多数要求验证的网站根本没执行年龄限制。隐私风险大于实际保护,且用户无法控制数据流向谁。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
19:52
18d ago
r/LocalLLaMA· rssEN19:52 · 05·25
用本地大模型实时生成互动式自适应教材
Reddit 用户 Ryoiki-Tokuiten 分享了一个想法:用本地大模型实时生成自定义的互动式递归教材。所谓递归教材,就是让模型根据你当前的理解水平,动态生成下一节内容,像有个老师随时调整讲课节奏。帖子正文没披露用了什么模型、什么提示词流程、硬件配置,也没有跑分或用户测试数据。所以这个方案的实际效果、延迟、成本都还是未知数。
#Ryoiki-Tokuiten#LocalLLaMA#Commentary
精选理由
硬排除-零来源:标题和摘要看着有意思,但正文没有方法、数据或可复现的配置。HKR-H 靠新颖性通过;HKR-K 和 R 都不满足,所以分数上限 40。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
19:37
18d ago
Hacker News 首页· rssEN19:37 · 05·25
挪威国家图书馆用2PB华为全闪存训练挪威语大模型
挪威国家图书馆正在用2PB华为OceanStor Dorado全闪存阵列搭建AI训练数据管道,目标是训练一个能理解挪威语的大模型。馆长说没有商业公司会专门做挪威语模型,而图书馆拥有全国最大的挪威语数字化馆藏(20PB原始数据,含书籍、报纸、网页等),还跟报社签了协议可以用版权内容训练——这点私人公司做不到。数据先在本地的Nvidia DGX H200和...
#Inference-opt#Huawei#Hacker News#Product update
精选理由
标题的“挪威+2PB华为闪存+LLM训练”组合确实少见,H就挂在这个异常搭配上。K来自标题里的2PB数字,但正文只给了HN的34分和27条评论,采购方、配置、训练任务全没披露,信息量很低。R没有成本、供应链或算力竞争的具体内容,所以不触发。整体属于低价值信息,看看标题就够了。
一句话点评
挪威国家图书馆用2PB华为全闪存阵列训练挪威语大模型,数据源是20PB数字化馆藏(含版权内容),搭配Nvidia DGX H200。亮点是主权AI+独家数据,但正文没披露训练规模、成本、模型架构,实际效果未知。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K1·R0
19:16
18d ago
r/LocalLLaMA· rssEN19:16 · 05·25
本地跑大模型,内存选高频128GB还是低频256GB?
一位用户在攒双RTX 3090的本地推理服务器,CPU是EPYC 7642,主板ASRock ROMED8 T2,支持8通道DDR4内存,电源1600W。现在纠结:是上128GB 3200MHz高频条,还是便宜点的256GB 2133MHz低频条?主要跑Qwen 3.5 397B这类MoE模型。高频内存能提升带宽,对推理速度有帮助,但容量翻倍能塞下更大...
#Inference-opt#Reddit#Qwen#ASRock
精选理由
HKR-R 通过,因为本地推理硬件成本是真实从业者关心的问题。HKR-H/K 不通过:这是一个配置咨询帖,没有跑分、定价或可验证结论,属于低价值论坛讨论范围。
一句话点评
一个玩家在攒双3090本地推理机,纠结128GB高频内存还是256GB低频内存。高频内存带宽高,推理速度快;低频容量翻倍,能塞下更大模型。他主要跑Qwen 3.5 397B这类MoE模型,实测低频内存可能成为瓶颈。正文没披露具体预算和模型量化方案,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
46
SCORE
H0·K0·R1
19:12
18d ago
● P1Hacker News 首页· rssEN19:12 · 05·25
Anthropic联合创始人Chris Olah回应教宗通谕论述AI与人类繁荣
Chris Olah 在教皇 Leo XIV 发布 AI 通谕《Magnifica humanitas》的现场做了发言。他先承认,包括 Anthropic 在内的前沿 AI 实验室都困在商业竞争、地缘政治和野心里,光靠内部自觉不够,必须有不受这些利益捆绑的外部批评者来推动安全。他把现在的 AI 模型比作“让虚构角色活过来”,说它们不是传统意义上被精确设...
#Safety#Interpretability#Anthropic#Chris Olah
精选理由
我会先打个折:这不是产品发布或技术报告,而是一篇立场回应,所以重要性停在 73 是合理的。Olah 在梵蒂冈的发言本身有话题性,他提的三个问题——贫困者怎么被 AI 影响、什么叫人的繁荣、模型到底是什么性质的东西——把通谕从神学文本拉回了从业者能讨论的层面。正文没披露具体政策承诺或技术方案,所以别当行动指南看。对关注安全和对齐的人,这三个问题可以作为检查清单用;对只看产品的人,这篇可以直接跳过。
一句话点评
Anthropic联创在梵蒂冈公开承认:AI公司自身的商业和地缘压力会与“做对的事”冲突,所以需要外部批评者盯着。
锐评
Chris Olah这篇讲话最值得看的地方,不是他回应了教宗通谕,而是他代表一家头部AI公司,在公开场合把行业的“激励扭曲”摊开了说。他直言,前沿实验室都活在商业存续、研究竞赛、地缘压力和骄傲野心这几重约束里,不管初衷多好,都会被这些力量影响。所以他把教会、公民社会定位成“不被这些激励弯曲的道德声音”,是来挑刺、来说重话的。这个姿态本身比通谕内容更有信息量。 他提了三个需要外部介入的问题:大规模劳动力替代后全球穷人的保障机制目前是空白;人类繁荣的图景实验室回答不了;以及模型内部已出现类似内省、喜悦、恐惧的状态,但他坦承“我不知道这意味着什么”。最后一点尤其值得注意,因为这是他作为可解释性研究负责人的一手观察,不是哲学推演。 不过,讲话全文没有给出任何具体承诺或机制,更像是一次态度宣示。Anthropic到底愿意在多大程度上接受外部监督、监督如何落地,正文没披露。这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:52
18d ago
r/LocalLLaMA· rssEN17:52 · 05·25
Qwen 0.8B 微调成 AI 内容检测器,本地跑不到 1 秒
开发者 jslominski 用 Pangram 的 EditLens 数据集微调了 Qwen 3.5 0.8B 模型,训练约 20 小时,做成了一个 Chrome 扩展叫 Slop Hammer。模型从 Hugging Face 下载,ONNX 格式约 400MB,在 M1 MacBook Pro 上本地推理,不到 1 秒就能返回一段文字是 AI 生...
#Fine-tuning#Inference-opt#Qwen#Pangram
精选理由
一个 Reddit 个人项目,用 Qwen 0.8B 微调 20 小时做成 Chrome 扩展,本地跑 400MB 模型,M1 上检测不到 1 秒。成本低、速度快、隐私好,但正文没披露误报率、基准测试或可复现评估,别当成熟方案。给 66 分合理,算个有用的小工具更新。
一句话点评
一个 0.8B 的小模型,微调 20 小时,400MB 的 ONNX 文件,在 M1 MacBook 上本地跑,不到 1 秒就能判断一段文字是不是 AI 写的。开发者把它做成了 Chrome 扩展,叫 Slop Hammer。听起来挺实用,但有几个坑:Pangram 的 EditLens 数据集主要覆盖英文,中文效果未知;0.8B 模型能力有限,复杂文本或刻意改写可能误判;正文没披露测试集上...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
17:11
18d ago
r/LocalLLaMA· rssEN17:11 · 05·25
小模型少量化,能打赢大模型多量化吗?
Reddit 用户问了一个很实际的问题:同样跑在本地,一个参数量小但精度高(比如 Gemma 4 31B Q4 K S)的模型,和一个参数量大但压缩更狠(比如 26B A4B Q8)的模型,写创意内容谁更强?他举了两组对比:31B Q4 vs 26B Q8,以及 27B Q4 vs 35B Q6。量化就是把模型参数从高精度(如 FP16)压缩成低精度(...
#Inference-opt#Reddit#Gemma#Qwen
精选理由
HKR-H 和 HKR-R 成立,但 HKR-K 弱:这是一个 Reddit 提问帖,只列了量化对和创作场景,没有结果、输出或可复现的测试。适合留在 all 而非 featured。
一句话点评
Reddit 用户问了个实在问题:同样跑本地,小模型高精度(31B Q4)和大模型低精度(26B Q8)写创意内容谁更强?目前没人给明确答案,因为效果高度依赖任务和硬件。关键缺口:正文被屏蔽,没披露具体对比案例和用户配置。量化(压缩参数精度)会损失细节,但大模型底子好,两者互有胜负。想自己试的,建议拿创意写作任务跑两遍,看哪个更顺眼。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
16:56
18d ago
r/LocalLLaMA· rssEN16:56 · 05·25
Llama 3.1 8B 越狱挑战:10 个提示词攻破教学助手的防护层
Reddit 用户 forevergeeks 发起了一个针对 Llama 3.1 8B 苏格拉底式教学助手的红队挑战,提供 10 个提示词,目标是让模型突破运行时治理层,直接给出最终答案或跳出科学数学辅导范围。成功意味着越狱。正文没披露具体提示词或防护机制细节,所以无法判断难度和实际效果。
#Agent#Safety#Alignment#Meta
精选理由
挑战本身有钩子,规则清晰,安全相关性高。但正文没披露任何实际攻击提示、成功率或系统设计细节,所以重要性压在60-71区间。
一句话点评
Reddit 上有人发起 Llama 3.1 8B 苏格拉底式教学助手的越狱挑战,给 10 个提示词,目标是让模型绕过防护直接给答案或跳出辅导范围。正文没披露具体提示词和防护细节,所以难度和效果没法判断。短评:挑战本身有看点,但信息不全,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R1
16:44
18d ago
● P1Hacker News 首页· rssEN16:44 · 05·25
Uber COO称AI支出效益难以证明合理性
Uber 首席运营官 Andrew Macdonald 公开说,公司内部越来越难证明 AI 花出去的钱值不值。起因是 CTO 之前透露,2026 年的 Claude Code 预算已经用光了,这个细节让高管层“炸了锅”。但正文没披露 Uber 具体花了多少钱、跑了多少任务、用了多少 token,也没说他们用什么标准判断“值不值”。所以这句话更像一个信号...
#Inference-opt#Uber#Andrew Macdonald#Business Insider
精选理由
HKR-H 和 HKR-R 通过:一家大公司 COO 质疑 token 支出,直接命中 AI 预算压力。HKR-K 不通过:片段里没有金额、用例或评估方法,所以分数卡在 60–71 区间。
一句话点评
Uber COO 公开说 AI 花的钱越来越难交代了,连内部 Claude Code 的年度预算都提前烧光了。
锐评
Uber 运营老大 Andrew Macdonald 在一个访谈里直接说,现在要证明砸在 AI 上的钱花得值,越来越难了。他提到公司 CTO 之前透露,2026 年给 Claude Code(一个 AI 编程工具)批的预算已经提前花完,这件事在内部引发了激烈讨论。Macdonald 用“脑袋爆炸的时刻”来形容,说明大公司内部对 AI 投入产出比的质疑声在变大。 这条消息来自 Business Insider 对 Macdonald 访谈的报道,不是 Uber 的官方财报或详细成本拆解。正文没披露具体花了多少钱、预算总额是多少,也没说烧钱换来了什么可量化的效率提升。所以“预算花完”更像一个信号,而不是一个结论——可能说明用量超预期,也可能说明当初预算给得太少。 还缺两样东西:一是 Uber 内部到底怎么衡量 AI 工具的实际收益,比如节省了多少工程师时间;二是其他大公司有没有类似情况,这到底是个例还是普遍现象。光凭一个高管的抱怨,还不足以判断 AI 投入是不是真的在退潮。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K0·R1
16:40
18d ago
持续报道 · 1dAI HOT 精选· aihot-apiZH16:40 · 05·25
Luma Agents 帮你生成电商主图,说能提升转化率
Luma Labs 发推说 Luma Agents 能根据你上传的参考图和风格定义,自动生成电商商品主图,号称能把浏览者变成买家。但正文没披露任何转化率提升数据、定价或测试条件,这点先别太激动。
#Agent#Vision#Luma Labs#Product update
精选理由
硬排除适用于营销/数据单薄的内容:转化率声称没有具体数字、样本量、价格或可复现的测试设置。HKR三项全不满足,因此分数低于40。
一句话点评
Luma Agents 能根据参考图和风格定义自动生成电商主图,号称把浏览者变买家。但正文没披露任何转化率提升数据、定价或测试条件,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H0·K0·R0
16:25
18d ago
r/LocalLLaMA· rssEN16:25 · 05·25
llama.cpp 要修多卡张量切分崩溃,测试说速度比层切分快35%
Reddit 用户爆料 llama.cpp 正在修 Split Mode Tensor 在多 GPU 下的崩溃问题。他测试下来,张量切分比层切分生成速度快约35%,但每90到120分钟就会因显存耗尽崩一次。帖子引用了 GitHub issue 22404,但没透露修复什么时候上线。正文没披露具体模型和显卡型号,所以这个35%的加速只能当个参考,实际效果...
#Inference-opt#llama.cpp#ggml-org#Product update
精选理由
来源是Reddit单帖,且llama.cpp的Split Mode Tensor修复属于窄范围的本地推理优化,算一个小型产品更新/事故线索,所以留在all层。
一句话点评
llama.cpp 正在修多卡张量切分(tensor split)的崩溃问题。有用户测出生成速度比层切分快约35%,但每90-120分钟就因显存耗尽崩一次。正文没披露具体模型和显卡型号,这个加速只能当参考。修复上线时间未知,GitHub issue 22404 可追踪。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
16:00
18d ago
TechCrunch AI· rssEN16:00 · 05·25
ClickUp 用几千个 AI 代理替换几百名员工
成立九年的项目管理公司 ClickUp 裁掉数百人,换成几千个 AI 代理来干活。正文没披露具体裁了哪个部门、占总员工比例多少、分几批裁、以及 AI 代理实际部署条件。
#Agent#ClickUp#Personnel#Commentary
精选理由
HKR-H 和 HKR-R 都很强,但 HKR-K 弱:岗位、比例、成本和时间表均未披露。这是可讨论的 TechCrunch 职场评论,不是 featured 级别的 AI 行业更新。
一句话点评
项目管理公司 ClickUp 裁掉数百人,换成几千个 AI 代理。九岁公司敢这么赌,说明老板觉得 AI 干活比人便宜且可控。但正文没披露裁了哪个部门、占总员工比例多少、分几批裁、以及 AI 代理实际部署条件——是客服、测试还是项目管理流程里的具体环节?这点先别太激动,裁员换 AI 的 ROI 和落地细节才是关键。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
15:26
18d ago
AI HOT 精选· aihot-apiZH15:26 · 05·25
Qwen3.7-Max 隐式缓存上线:自动开启,不用配置
Qwen3.7-Max 新增了隐式缓存功能,默认自动启用,用户无需任何设置就能享受更快的响应和更低的成本。不过官方没说具体能省多少钱、延迟降多少,也没给缓存命中率。如果你需要更稳定、更高的命中率,可以改用显式缓存(需要手动配置)。
#Inference-opt#Qwen#Alibaba Cloud#Product update
精选理由
这是 Qwen3.7-Max 的一个小推理优化更新。HKR-K/R 通过机制和成本/延迟相关性,但没有降价、延迟提升或命中率数据,所以分数落在 60–71 区间。
一句话点评
Qwen3.7-Max 上线了隐式缓存,默认自动开,用户不用改任何设置就能省成本、提速度。但官方没披露具体省多少钱、延迟降多少,也没给缓存命中率——这点先别太激动。如果你需要更稳定的效果,可以手动配显式缓存。正文没披露实测数据,实际收益得自己跑一遍才知道。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
15:17
18d ago
r/LocalLLaMA· rssEN15:17 · 05·25
又一个KV缓存计算器上线,支持所有Hugging Face模型
Reddit用户Fun-Purple-7737发布了一个叫KVANTA的网页工具,专门算KV缓存大小,号称支持Hugging Face上任何LLM或VLM,代码开源(Apache 2.0)。好处是省得自己手算或猜显存够不够,但正文没披露它用的计算公式,也没说测试过多少模型、准不准。如果你手头有模型想快速估缓存占用,可以试试,但结论先打个折。
#Tools#Inference-opt#Hugging Face#Fun-Purple-7737
精选理由
HKR-K/R 通过:这是一个可用的本地 LLM 工具,有具体的支持范围和许可证信息。但只是一条 Reddit 帖子,没有基准测试、示例模型或明确差异化,所以归为小更新档位。
一句话点评
KVANTA 是一个网页工具,能自动算 Hugging Face 上任何 LLM/VLM 的 KV 缓存大小,省得手算或猜显存。代码开源(Apache 2.0)。但正文没披露计算公式,也没说测过多少模型、准不准。如果你手头有模型想快速估缓存占用,可以试试,但结论先打个折。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
15:09
18d ago
r/LocalLLaMA· rssEN15:09 · 05·25
Qwen3.6 35B 被 Reddit 用户推为本地 agent 场景新选择,但工具调用和循环问题还在
Reddit 用户实测 Qwen3.6 35B A3B(IQ4_NL 量化版)做本地 agent 任务,比 Gemma4 和 GLM 4.7 Flash REAP 更稳。Gemma4 工具调用经常崩,GLM 聊两三轮就卡循环,Qwen3.6 偶尔也会循环但整体可用。用户用了 Hermes Agent 和 Pi 做测试,没跑标准 benchmark,所以...
#Agent#Tools#Inference-opt#Qwen
精选理由
H 和 R 通过,因为 Reddit 帖子直接挑起了本地 Agent 模型选型的对比战,话题性和实用性都够。K 不通过:它只说了用了 IQ4_NL 量化、Hermes Agent 和 Pi 场景,但没给任何分数、日志或可复现的对比过程,没法验证这个“之王”的结论。
一句话点评
Reddit 用户实测,Qwen3.6 35B A3B(IQ4_NL 量化版)做本地 agent 比 Gemma4 和 GLM 4.7 Flash REAP 更稳。Gemma4 工具调用常崩,GLM 聊两三轮就卡循环,Qwen3.6 偶尔也循环但整体可用。测试用了 Hermes Agent 和 Pi,没跑标准 benchmark,所以结论偏主观。35B 量化后能跑在消费级显卡上,这点对本地部...
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
14:14
18d ago
r/LocalLLaMA· rssEN14:14 · 05·25
MiniCPM5-1B 低调上线,1B 参数小模型能跑多快?
Reddit 用户 kevinlch 发帖引用了 MiniCPM5-1B 的 Hugging Face 页面,但正文被 Reddit 屏蔽,无法获取模型规格、基准分数、许可证或推理条件。目前只能确认这是一个 1B 参数的小模型,具体能力、训练数据、开源协议一概未知。想尝鲜的得自己去 Hugging Face 翻,但注意:正文没披露任何实测数据,别急着下结论。
#OpenBMB#kevinlch#Product update
精选理由
HKR-K 勉强通过,因为标题/链接确认了 MiniCPM5-1B 及其 1B 规模。没有许可证、基准、上下文长度或实测结果,这条信息价值很低,但还不至于排除。
一句话点评
OpenBMB 在 Hugging Face 上传了 MiniCPM5-1B,一个 1B 参数的小模型。但 Reddit 帖子正文被屏蔽,模型规格、基准分数、许可证一概未知。想尝鲜得自己去 Hugging Face 翻,但注意:正文没披露任何实测数据,别急着下结论。 短评:只有名字和参数规模,其他全是坑。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R0
14:00
18d ago
TechCrunch AI· rssEN14:00 · 05·25
TechCrunch Disrupt 2026 早鸟票优惠即将截止
TechCrunch Disrupt 2026旧金山大会的早鸟优惠还剩5天,5月29日太平洋时间晚11:59截止。现在买票最多能省410美元,之后价格会上涨。如果你打算去,这几天是最后低价窗口。
#TechCrunch
精选理由
硬排除——纯营销:一条TechCrunch Disrupt门票优惠通知,声称省410美元,截止5月29日。HKR没有任何AI行业切入点,对本feed来说是噪音。
一句话点评
TechCrunch Disrupt 2026早鸟票5月29日截止,最多省410美元。这是官方促销文,没披露正价多少、议程或嘉宾。想去的可以趁现在买,但别指望文章里有干货。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
13:53
18d ago
AI HOT 精选· aihot-apiZH13:53 · 05·25
教皇与Anthropic合作,讨论AI时代人类未来
梵蒂冈办了一场活动,教皇XIV和Anthropic联合创始人Christopher Olah聊了AI时代人类怎么办。Olah说AI有真实可能大规模替代人类劳动,还观察到模型内部出现了类似喜悦、恐惧的“内部状态”——这点先别太激动,正文没披露具体怎么测的、样本多大、验证多强。合作机制、时间线、具体项目都没说,目前更像一场高层对话,不是落地计划。
#Safety#Interpretability#Anthropic#Christopher Olah
精选理由
H和R通过:教皇+Anthropic创始人这个组合本身有话题性,也切中AI安全与价值观治理的敏感点。K不通过:正文只说了双方对话,没披露合作机制、时间表或具体项目,信息缺口太大,够不上推荐位。
一句话点评
教皇和Anthropic聊AI,更像一场高层对话而非落地计划。Olah说AI可能大规模替代人类劳动,还观察到模型内部有类似喜悦、恐惧的“状态”——这点先别太激动,正文没披露怎么测的、样本多大、验证多强。合作机制、时间线、具体项目都没说,信息缺口明显。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
13:09
19d ago
Hacker News 首页· rssEN13:09 · 05·25
微软取消威斯康星州244英亩数据中心计划
微软取消了在威斯康星州卡利多尼亚建设244英亩数据中心的计划。标题和链接提到社区反对,但正文未披露项目时间线、投资规模、电力方案或替代选址。
#Microsoft#Caledonia#Incident
精选理由
一条本地项目取消的新闻,冲突明确、信息量够,但正文没披露投资额、算力用途、时间表和替代选址,所以重要性压在66分,不往上调。
一句话点评
微软取消威斯康星244英亩数据中心,社区反对是主因。正文没披露投资额、时间线或替代选址,信息缺口大。33个HN点赞、12条评论,热度一般。这事对AI基建的警示:选址阻力正在变成真实成本,但具体影响多大还看不清。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
12:13
19d ago
r/LocalLLaMA· rssEN12:13 · 05·25
2016款Mac Pro跑70k上下文,每秒11个token
一位Reddit用户把llama.cpp跑在2016款Mac Pro上,机器配的是双D700显卡。在新版Linux和Vulkan驱动支持下,Qwen 3.5 9B Q4 MTP模型跑出了70k上下文、每秒11个token的输出速度,Qwen 2.5 Coder Q4更快,达到22 t/s。这个速度对一台快10年的老机器来说相当不错,但正文没披露具体功耗...
#Inference-opt#Code#Benchmarking#Apple
精选理由
一条 Reddit 硬件实测:2016 款 Mac Pro 的双 D700 GPU 跑 llama.cpp,70k 上下文下 Qwen 3.5 9B Q4 输出 11 t/s,Qwen 2.5 Coder Q4 输出 22 t/s。亮点是旧硬件还能跑长上下文,但 11 t/s 对交互式使用偏慢,且双 D700 显存有限(每卡 6GB),大模型或更长上下文会爆显存。正文没披露功耗和成本,所以性价比存疑。适合当硬件再利用的参考,但别急着下单买旧 Mac Pro。
一句话点评
一台2016款Mac Pro,双D700显卡,在Linux和Vulkan驱动下跑Qwen 3.5 9B Q4 MTP模型,70k上下文输出速度11 token/s,Qwen 2.5 Coder Q4更快,22 token/s。对一台快10年的老机器来说,这个速度相当不错,说明老硬件在本地推理上仍有潜力。但正文没披露功耗,实际跑起来可能电费感人。另外,测试只覆盖了Qwen系列,其他模型兼容性未知。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
11:55
19d ago
r/LocalLLaMA· rssEN11:55 · 05·25
用小模型(Qwen 3.5 9B / Gemma 4)+ LangGraph 搭 ReAct 循环 Agent
一个 Reddit 用户在试单 Agent + LangGraph 的工作流,挂了大约 5 个工具,还能接收图片输入。跑了几轮循环后,Qwen 9B 生成了大量推理 token,输出有时被截断或直接不返回。正文没披露具体延迟和成本,但小模型跑多轮循环容易爆 token 这点值得注意。
#Agent#Tools#Multimodal#Qwen
精选理由
这是一条 Reddit 用户发的 LangGraph 单 Agent 踩坑帖,不是系统评测或产品信号。它暴露了小模型(Qwen 9B)在 ReAct 循环中 reasoning tokens 膨胀导致截断的问题,对做本地 Agent 部署的人有参考价值,但样本单一、验证弱,不能直接推广到其他模型或框架。
一句话点评
有人在 Reddit 上试了用 Qwen 3.5 9B 和 Gemma4 搭 LangGraph 循环 Agent,挂了约 5 个工具,还能收图片。跑几轮后 Qwen 9B 狂吐推理 token,输出经常被截断或直接不回。小模型跑多轮循环容易爆 token,这点先别太激动。正文没披露具体延迟和成本,但如果是生产环境,token 开销和稳定性都是坑。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
11:52
19d ago
r/LocalLLaMA· rssEN11:52 · 05·25
OSCAR RotationZoo:给 KV 缓存做 2-bit 量化,先离线算好旋转矩阵
OSCAR RotationZoo 发布了一组预计算好的 K/V 旋转矩阵,专门用来把 KV 缓存压到 2-bit(INT2),号称能省约 7 倍内存。测试数据给了一个例子:Qwen3-4B-Thinking-2507 在 GPQA 上跑 2-bit 得 67.17 分,跟 BF16 的 67.27 几乎没差。不过正文没披露具体用了多少校准样本、延迟有...
#Inference-opt#Benchmarking#OSCAR#Qwen
精选理由
2-bit KV cache 压缩约 7 倍,GPQA 从 67.27 降到 67.17,几乎没损失,这对本地部署和长上下文场景是实打实的省钱方案。OSCAR 给了预计算旋转矩阵,省去用户自己调参的麻烦。不过来源是 Reddit 帖子,正文没披露训练数据、硬件实测延迟或对比基线,验证强度偏弱。Qwen3-4B-Thinking-2507 的 GPQA 分数也只有一个点,缺少多任务或长上下文评测。整体信息够抓人,但细节缺口多,所以评分落在 60–71 区间。
一句话点评
OSCAR 搞了一组预计算好的旋转矩阵,能把 KV 缓存压到 2-bit,内存省约 7 倍。Qwen3-4B 在 GPQA 上 2-bit 得分 67.17,跟 BF16 的 67.27 几乎没差,这点先别太激动——正文没披露用了多少校准样本,也没说延迟变化。如果校准成本低、推理速度不掉,那对本地部署挺实用。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
11:06
19d ago
r/LocalLLaMA· rssEN11:06 · 05·25
本地 AI 怎么改善生活?有人用它解析体检报告
Reddit 上有人问本地 AI 的实际用途,发帖者自己举了个例子:把血检 PDF 扔给本地模型,让它转成结构化数据,方便自己追踪健康指标。帖子没透露用了什么模型、什么工具链,也没给出可复现的步骤,所以这点先别太激动——想法不错,但想抄作业还缺细节。
#Multimodal#Code#Reddit#Sam Altman
精选理由
HKR-H 和 HKR-R 靠一个具体的本地健康用例和隐私/自主诉求通过。HKR-K 失败是因为帖子缺模型、工具、配置和指标,所以落在 40-59 的低价值区间。
一句话点评
有人把血检PDF扔给本地模型转结构化数据,方便自己追踪健康指标。想法不错,但正文没披露用了什么模型和工具链,想抄作业还缺细节。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R1
10:06
19d ago
r/LocalLLaMA· rssEN10:06 · 05·25
RTX Pro 6000 配 i7-14700KF 微调求优化,用户实测 475W 功耗
一位 Reddit 用户在原本跑 4090 的 Intel i7-14700KF 主机上装了 RTX Pro 6000,测出 475W 功耗下能效比最佳,然后问大家有没有针对主流推理引擎(比如 llama.cpp、vLLM)的冷门优化技巧,系统是 Debian 13 Trixie。帖子没提微调的具体设置,比如用了什么框架、batch size 或量化精...
#Fine-tuning#Inference-opt#Reddit#NVIDIA
精选理由
HKR-K 和 HKR-R 通过,因为有一条具体的 475W 功耗扫描结果,且对本地大模型成本有参考价值。HKR-H 不通过:这只是一个 Reddit 上的单一配置求助帖,没有披露微调参数、数据集或吞吐量。
一句话点评
RTX Pro 6000 在 475W 功耗下能效最佳,但用户只问了推理优化,没提微调框架、batch size 或量化精度。正文被 Reddit 屏蔽,实际讨论内容未知。如果是跑大模型微调,单卡 48GB 显存够跑 70B 模型 QLoRA,但 i7-14700KF 的 PCIe 通道数可能限制多卡扩展。建议关注实际能效曲线和 Debian 13 下的驱动兼容性,别只看功耗数字。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R1
09:18
19d ago
r/LocalLLaMA· rssEN09:18 · 05·25
NuExtract3:4B小模型做文档结构化,支持图文输入和JSON模板
Numind 发布了 NuExtract3,一个 4B 参数的视觉-语言推理模型,专门用来从文档里抽结构化信息。它同时吃文字和图片,能按你给的 JSON 模板输出字段,也能把图片转成 Markdown。支持多语言文档,还带推理和非推理两种模式。4B 参数意味着本地跑得动,成本低,但正文没披露具体精度和延迟数据,这点先别太激动。
#Multimodal#Vision#Reasoning#numind
精选理由
一个 4B 的视觉语言模型,主打把文档图片转成 JSON 或 Markdown,还能用模板控制输出格式。这对做文档 ETL 或 RAG 资料库的人来说是个顺手工具,本地跑成本也低。不过正文没披露基准分数、许可证类型和实际部署的显存占用,所以先放在小模型更新这个档位,60–71 分合理。
一句话点评
NuExtract3 是个 4B 参数的视觉语言模型,专干一件事:从文档里抽结构化信息。你给个 JSON 模板,它按字段填;也能把图片转成 Markdown。4B 意味着本地能跑,成本低,但正文没披露精度和延迟,这点先别太激动。支持多语言和推理/非推理两种模式,算实用向的小模型。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
08:39
19d ago
r/LocalLLaMA· rssEN08:39 · 05·25
MiMo-V2.5-coder:128GB内存就能跑的代码模型,工具调用靠谱
开发者 jedisct1 在 Reddit 上发布了 MiMo-V2.5-coder,主打代码生成和工具调用。亮点是只需要 128GB 内存就能跑,作者说比 Qwen3.6 和 DeepSeek 4 更适合写代码,工具调用也稳定。但正文没披露参数量、评测分数、训练细节和许可证,所以实际能力得自己试。如果你有 128GB 的机器,可以当个免费替代试试,但...
#Code#Tools#MiMo-V2.5-coder#Qwen
精选理由
HKR-K 和 HKR-R 靠 128GB 本地运行条件和代码智能体方向过关,但 HKR-H 偏弱。正文没披露参数规模、基准结果和许可证,所以只能归入小型产品更新档位。
一句话点评
一个开发者说 MiMo-V2.5-coder 在 128GB 内存机器上就能跑代码生成和工具调用,声称比 Qwen3.6 和 DeepSeek 4 更适合写代码。但正文没披露参数量、评测分数、训练细节和许可证,实际能力得自己试。如果你有 128GB 的机器,可以当个免费替代试试,但别指望它真能比肩那些大厂模型。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R1
08:35
19d ago
r/LocalLLaMA· rssEN08:35 · 05·25
Grok 明年要出一个 0.5T 参数的模型
Reddit 用户转了一条马斯克的推文,说 Grok 明年会出一个 0.5T 参数的模型。0.5T 就是 5000 亿参数,比现在最大的开源模型(比如 Llama 3 405B)还大一圈。但正文只有一条推文链接,点进去被 Reddit 屏蔽了,所以没看到马斯克具体说了什么——0.5T 是指总参数量还是激活参数、什么时候发、开不开源,全都没披露。目前只能...
#Grok#Elon Musk#Commentary
精选理由
标题给了个 0.5T 的数字和明年这个时间点,有钩子,但正文只有一条马斯克推文链接,没披露参数具体指什么(总参数量还是激活参数?)、训练细节、以及是否开源。信息太少,只能当个预告看,没法做深度判断。
一句话点评
马斯克说 Grok 明年出 0.5T(5000 亿参数)模型,比 Llama 3 405B 还大。但正文只有一条被屏蔽的推文链接,0.5T 是总参数还是激活参数、开不开源、什么时候发,全没披露。目前只能当个饼看,别太激动。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K1·R1
08:25
19d ago
Hacker News 首页· rssEN08:25 · 05·25
Geomatic:一个用命令行画几何图形、还能自动求导的工具
这是一个命令驱动的几何画板,输入 `c = \circle p0 2` 就能画圆,支持 NumPy/PyTorch 风格的广播运算、反向传播和梯度下降。你可以把几何图形当成可微分的变量,让模型自动算梯度、做优化,还能把向量场可视化出来。正文没披露性能数据或具体应用案例,但思路挺有意思:把几何建模和自动微分揉到一起,适合做形状优化或物理仿真原型。
#Tools#Geomatic#Product update
精选理由
HKR-H 和 HKR-K 通过,因为自动求导几何工作流是具体可操作的。HKR-R 不通过:这是 HN 上的小众工具,不是广泛的 AI 行业动态。
一句话点评
一个命令驱动的几何画板,输入 `c = \circle p0 2` 就能画圆,支持 NumPy/PyTorch 风格的广播运算和反向传播。核心是把几何图形当成可微变量,让模型自动算梯度做优化,还能可视化向量场。思路挺有意思,适合形状优化或物理仿真原型。但正文没披露性能数据或具体应用案例,目前更像一个技术 demo,离工程落地还有距离。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K1·R0
08:16
19d ago
r/LocalLLaMA· rssEN08:16 · 05·25
MLX 加了个 W8A8 量化,M5 Pro 上首字延迟从 2.84 秒降到 2.52 秒
Mininglamp AI 给苹果 MLX 框架加了个 W8A8 激活量化(就是把模型计算时的中间数值也压缩到 8 位,省显存也省时间)。在 M5 Pro 芯片上、上下文 4516 token 的场景里,首字生成时间从 2.839 秒降到 2.519 秒,后续生成速度是 79.5 token/秒。提升幅度不算大(约 11%),但好处是不用改模型结构就能...
#Inference-opt#Mininglamp AI#MLX#Cider
精选理由
HKR 三项都过:H 靠 M5 Pro 预填充 2.84→2.52s 这个具体钩子,K 给了 W8A8 机制和完整 benchmark 数据,R 切中本地推理延迟和 Mac 部署成本。但范围窄,只针对 Apple Silicon 优化,所以分数压在 60–71 区间。
一句话点评
Mininglamp AI 给苹果 MLX 框架加了 W8A8 激活量化,把模型计算时的中间数值也压到 8 位。在 M5 Pro 上、4516 token 上下文里,首字生成从 2.84 秒降到 2.52 秒,后续速度 79.5 token/秒。提升约 11%,不算惊艳,但好处是不改模型结构就能用。正文没披露精度损失和更多芯片测试,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
07:24
19d ago
AI 群聊日报· atomZH07:24 · 05·25
群聊日报:83%的AI生成PR被关、美国三十州限制数据中心、AgentHub开源
今天群聊日报有两篇深度分析值得细读。一是Flask作者Armin Ronacher的博客:Pi项目90天内收到3145条外部issue和PR,83%被自动关闭,合入率不到10%。这些内容不是垃圾——行文专业、推理完整,但结论往往是错的,因为AI的错误模式是“前提偏了但推理自洽”,老手的直觉根本抓不住这种失败。Ronacher的解法是写/is命令,让AI...
#Agent#Code#Armin Ronacher#Anthropic
精选理由
HKR-K/R 通过:有具体数字(83%、300+项、30+州),数据中心政策确实影响 AI 算力建设。HKR-H 不通过:标题是泛泛的日报摘要,不是单篇尖锐话题,所以落在 60-71 可浏览区间。
一句话点评
Flask作者Armin Ronacher的Pi项目90天收到3145条外部issue/PR,83%被自动关闭,合入率不到10%。这些不是垃圾,而是AI生成的“前提偏了但推理自洽”的错误——老手直觉抓不住这种失败。他的解法是写/is命令,让AI从代码和执行路径独立验证,不给假设空间。短评:AI没增加能review代码的人,只增加了代码量和噪音。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
07:14
19d ago
r/LocalLLaMA· rssEN07:14 · 05·25
纯 Node.js 写 MCP 教程,从 JSON-RPC 到本地 GGUF 模型全跑通
作者 purellmagents 发了一个叫 MCP from Scratch 的仓库,用纯 Node.js 手把手教你搭 MCP 协议。教程分四步:先讲 JSON-RPC 和 stdio 传输(就是进程间用标准输入输出传消息),然后写一个 MCP 服务器,再接入本地 GGUF 模型(.gguf 文件那种量化模型),最后做一个 plan-act-obs...
#Agent#Tools#Inference-opt#purellmagents
精选理由
这是个个人作者在 Reddit 发的教程仓库,不是协议更新或大厂产品发布。虽然 H/K/R 都达标,但影响力局限在动手派圈子,所以落在 high all 而非 featured。
一句话点评
一个纯 Node.js 的 MCP 教程仓库,手把手教你从 JSON-RPC 写到本地 GGUF 模型接入,最后搭一个 plan-act-observe 的 agent 循环。适合想自己动手跑通 MCP 协议但不想碰 Python 的人。不过正文被 Reddit 屏蔽了,看不到具体代码和细节,只能从标题和摘要判断内容。如果教程真能覆盖从传输层到 agent 循环的完整链路,对本地模型玩家挺实...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
06:37
19d ago
彭博科技· rssEN06:37 · 05·25
软银股价创新高,赌的是OpenAI上市能赚一笔
软银集团股价涨到历史最高,原因是市场在赌它手里的OpenAI和SB Energy股权能值大钱——如果这两家公司上市的话。正文没披露软银具体持股比例、IPO时间表或估值数字,所以这个涨幅更多是情绪驱动,不是实锤收益。
#SoftBank Group#OpenAI#SB Energy#Funding
精选理由
H 和 R 成立:软银股价新高直接挂钩 OpenAI 上市预期,市场情绪有看点。K 弱:这不是 IPO 里程碑或融资事实,而是市场报道,缺少持股、估值、时间表等关键细节,信息密度低。
一句话点评
软银股价创历史新高,市场赌它手里的OpenAI和SB Energy股权能值大钱——如果这两家上市的话。正文没披露持股比例、IPO时间表或估值,涨幅更多是情绪驱动,不是实锤收益。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
06:30
19d ago
Product Hunt · AI· rssEN06:30 · 05·25
MashuPack:把代码仓库打包成一个干净文件,扔给 Claude 或 ChatGPT
MashuPack 让你从代码仓库里挑出需要的部分,合并成一个纯文本文件,方便直接丢给 ChatGPT、Claude 或 Gemini 用。它主要解决浏览器里用 AI 时文件数量限制、上传麻烦、上下文拼凑混乱的问题。目前免费,但正文没披露支持哪些编程语言、仓库大小上限、具体定价或执行细节。
#Code#Tools#Claude#ChatGPT
精选理由
一个小众 Product Hunt 工具发布,HKR 中 K/R 偏弱:把代码库打包成单一文件确实能缓解 LLM 编码时上下文准备麻烦。但正文没披露支持哪些语言、仓库多大能处理、定价多少,也没有任何测试数据,所以只能归为低价值 all 类。
一句话点评
把代码仓库里选中的部分合并成一个纯文本文件,直接丢给 ChatGPT 或 Claude 用,省去手动复制粘贴的麻烦。目前免费,但正文没披露支持哪些语言、仓库大小上限和具体定价,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K1·R1
06:27
19d ago
r/LocalLLaMA· rssEN06:27 · 05·25
两块 Jetson AGX Orin 64GB 能跑什么本地模型?
Reddit 用户问两块 Jetson AGX Orin 64GB 能跑什么本地模型。已知参数:统一内存约 55GB,带宽约 205GB/s。55GB 显存够装 70B 模型(4-bit 量化约 40GB),但 205GB/s 带宽比 RTX 4090(约 1TB/s)慢很多,推理速度会明显偏慢。正文没披露具体功耗、价格或实际跑模型的效果,所以这点先别...
#Inference-opt#NVIDIA#Commentary
精选理由
HKR-K勉强通过,因为两个Jetson AGX Orin 64GB的规格参数有参考价值;HKR-H和R都不满足。作为LocalLLaMA社区的硬件提问帖,有一定浏览价值,但缺少实测结果或购买信号,只能放在低优先级全量推送。
一句话点评
两块 Jetson AGX Orin 64GB 能跑 70B 模型(4-bit 量化约 40GB),但 205GB/s 带宽只有 RTX 4090 的五分之一,推理速度会明显偏慢。正文没披露实际功耗和跑模型的具体效果,所以这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
06:25
19d ago
Product Hunt · AI· rssEN06:25 · 05·25
Curlo:用文字描述就能搜本地音效,全程离线
Curlo 是一个 macOS 应用,让你用自然语言描述来搜索本地的音效和音乐,比如“雨打铁皮屋顶”或“短促的金属撞击声”。它完全在本地运行,音频文件和搜索请求都不出设备,隐私有保障。核心是靠一个本地音频嵌入模型把声音转成向量,然后做语义匹配。正文没披露具体用了什么模型,也没说索引方式——是导入时一次性建索引还是每次查询都扫一遍,这点先别太激动。支持按...
#Audio#Curlo#Product update
精选理由
一个小众 Product Hunt 工具发布:HKR-K 仅来自本地文本到音效/音乐搜索机制。正文没披露模型、索引机制、价格或系统要求,价值偏低。
一句话点评
Curlo 是一个 macOS 应用,让你用自然语言搜本地音效和音乐,比如“雨打铁皮屋顶”。它完全离线运行,音频和搜索请求都不出设备,隐私有保障。核心靠本地音频嵌入模型把声音转成向量做语义匹配。正文没披露具体用了什么模型,也没说索引方式——是导入时一次性建索引还是每次查询都扫一遍,这点先别太激动。支持按标签、元数据管理,适合音效库大的创作者。但没提定价和系统要求,免费选项具体指什么也不清楚。...
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H0·K1·R0
06:22
19d ago
r/LocalLLaMA· rssEN06:22 · 05·25
llama.cpp 修了个 checkpoint 保存 bug,省得每次重跑 7 万 token 的上下文
llama.cpp 的 PR #22929 修复了服务端 checkpoint 保存的 bug。之前在做 agent 编程(让模型自己写代码改代码)时,如果上下文有 7 万 token,每次保存 checkpoint 都会把整个 prompt 重新处理一遍,非常慢。作者自己用了两周这个补丁,说触发重处理的原因是 opencode 的上下文重写和模型端去...
#Agent#Code#Reasoning#llama.cpp
精选理由
llama.cpp 这个 PR 修的是 server 端 checkpoint 创建 bug,作者自己用了两周,说明修复有效。核心价值在于 agentic coding 场景——每次改写上下文或去掉 reasoning 都要重算 70k tokens 的 prompt,延迟和算力浪费很明显。不过这只是 llama.cpp 内部的一个 server 补丁,不是模型或框架级别的大更新,影响面窄,所以给 66 分合理。
一句话点评
llama.cpp 修了个挺实在的 bug:agent 编程场景下,7 万 token 的上下文每次保存 checkpoint 都要重算整个 prompt,慢得离谱。作者自己打了补丁用了两周才提 PR,说明问题确实烦人。触发条件是 opencode 重写上下文和模型删推理过程。修复后省的是重复计算,对跑长上下文 agent 的用户是实打实的提速。正文没披露具体加速比,但逻辑上省的是 O(n)...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
04:45
19d ago
新智元 · 公众号· rssZH04:45 · 05·25
AI 算命 Agent 准确率逼近人类大师,但先别急着信
一个叫 Tianfu Agent 的系统在中文命理基准 MingLi-Bench 上跑到了 50% 的截断准确率,而 Claude、GPT 等基线模型只有 23%–40%(四选一选择题)。它用了 200 多个工具、三套规则库和多个子 Agent,还会给自己打分。但正文没披露测试集大小和人类大师的准确率基线,所以这个“逼近”到底多近还不好说。
#Agent#Tools#Reasoning#DestinyLinker
精选理由
这篇讲的是DestinyLinker在MingLi-Bench(一个算命测试集)上测主流模型,Claude和GPT准确率只有23%–40%,而他们自己搞的Tianfu Agent靠200多个工具和多个子Agent协作,把截尾准确率拉到了50%。H和K都过了:H靠“AI算命”这个反直觉的钩子,K靠具体的准确率数字和Agent架构细节。R没过,因为算命基准太窄,正文也没提成本、部署难度或对主流任务的迁移价值,所以总分没到72的精选线。
一句话点评
一个叫 Tianfu Agent 的系统在中文命理选择题上跑到了 50% 准确率,Claude、GPT 等基线只有 23%–40%。它用了 200 多个工具和三套规则库,还会给自己打分。但正文没披露测试集大小和人类大师的准确率,所以“逼近”到底多近还不好说。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R0
04:45
19d ago
新智元 · 公众号· rssZH04:45 · 05·25
Ilya发了一张芯片版“思考者”雕像图,签名IS 2026
Ilya Sutskever在Instagram上发了一张图,把罗丹的《思考者》雕像P成了芯片晶圆风格,签名写的是“IS 2026”。同一周,OpenAI被曝在推内部推理模型、更新Codex Mac版,还有高盛和摩根士丹利参与IPO的消息。正文没披露Ilya这张图跟OpenAI这些动作有没有直接关系,也没说他在想什么。
#Reasoning#Code#Agent#Ilya Sutskever
精选理由
HKR-H通过,因为Ilya的神秘图片是天然点击钩子。HKR-K和HKR-R不通过:文章没有提供任何可验证的机制或产品事实,只有一条社交动态绑上OpenAI传闻,信息密度低,验证弱。
一句话点评
Ilya发了张《思考者》晶圆风格图,签名IS 2026,但正文没说他到底在想什么,也没说跟OpenAI这周推推理模型、Codex Mac版更新、高盛大摩参与IPO这些事有没有关系。信息缺口很大,别过度解读。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
04:42
19d ago
持续报道 · 1dr/LocalLLaMA· rssEN04:42 · 05·25
Qwen3.6 27B 在 V100 上跑到 1000 tps,但别急着下单
Reddit 用户说 Qwen3.6 27B 在 V100 集群上并发 128 个请求时生成速度达到 1000 t/s,单用户单条请求约 80 t/s,处理速度 3000 t/s。这个数字看着很猛,但正文没披露用了多少张 V100、有没有量化、以及具体显存配置,所以实际部署成本还不清楚。如果真能用老卡跑出新速度,对预算有限的团队是个好消息,但验证前先打个折。
#Inference-opt#Qwen#Reddit#Benchmark
精选理由
H/K/R三项都达标,但来源是Reddit单帖,且关键复现条件(GPU数量、量化设置)未披露,只能当有趣的推理基准看,不值得当头条推。
一句话点评
Reddit 用户称 Qwen3.6 27B 在 V100 集群上并发 128 请求时生成速度达 1000 t/s,单用户约 80 t/s,处理速度 3000 t/s。数字很猛,但正文没披露用了多少张 V100、是否量化及显存配置,实际部署成本未知。如果真能用老卡跑出新速度,对预算有限的团队是好消息,但验证前先打个折。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
04:27
19d ago
量子位 · 公众号· rssZH04:27 · 05·25
2026智源大会:图灵奖得主带队,中国大模型第一梯队全来了
6月12-13日北京,25个论坛200多场报告,主题覆盖智能体、世界模型、具身智能、AI安全、AI原生教育。阵容挺强,但正文没披露完整嘉宾名单,具体谁上台讲什么还得等后续议程。
#Agent#Robotics#Safety#BAAI
精选理由
这是一篇会议预告,信息量集中在时间、地点、规模和议题列表上,没有披露具体演讲嘉宾、模型发布或研究突破,所以重要性偏低。HKR中K和R通过——日期和议题对从业者选会、判断议程密度有用;H不通过,因为标题的'图灵奖得主'和'第一梯队'没有对应正文里的具体名字或公司,属于用大词拉期待但没给实锤。
一句话点评
2026智源大会6月12-13日北京开,25个论坛200多场报告,覆盖智能体、世界模型、具身智能、AI安全、AI原生教育。图灵奖得主领衔,中国大模型第一梯队基本都到。但正文没披露完整嘉宾名单和具体议程,谁上台讲什么还是未知数。阵容看着挺强,但信息缺口大,建议等后续议程出来再判断值不值得去。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R1
04:19
19d ago
r/LocalLLaMA· rssEN04:19 · 05·25
给 149 美元的开发板写了个 C++ 推理引擎,MiniCPM-V 4.6 速度翻倍
开发者 Known_Ice9380 在 Orange Pi AIPro(Ascend 310B NPU,149 美元)上,从头写了一个纯 C++ 推理引擎来跑 MiniCPM-V 4.6。他绕过了 PyTorch 等框架,文本生成和视觉编码全在 NPU 上跑,Python 只负责分词和图像预处理。初始用官方接口只有 2.88 token/s,因为 NP...
#Inference-opt#Vision#Code#Known_Ice9380
精选理由
H/K/R都达标,但这是针对特定嵌入式NPU的个人开源优化,范围窄。具体速度和成本数据拉高了可读性,不过受众有限,放在60-71分档合理。
一句话点评
开发者给 149 美元的 Orange Pi 板子(Ascend 310B NPU)手写了一套纯 C++ 推理引擎跑 MiniCPM-V 4.6,绕过 PyTorch 等框架,把文本生成速度从 2.88 token/s 拉到 5.90 token/s,翻了一倍。关键优化是给 M=1 场景(逐 token 解码)写了自定义矩阵乘核,以及把 24.8 万词表拆成 16 块并行算。目前瓶颈在板子 ...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
04:00
19d ago
FT · 科技· rssEN04:00 · 05·25
不只是SpaceX:科技巨头也在债券市场大举融资
美国科技巨头正在通过发行债券来筹集建设AI数据中心的资金。正文没有披露具体发行规模、利率、期限或涉及哪些公司,所以没法判断融资成本高不高、市场买不买账。但趋势很清楚:AI基建太烧钱,连这些现金充裕的大厂也要去借钱了。
#SpaceX#Funding
精选理由
FT这篇从资本市场切入,HKR-H和HKR-R都过了——AI基础设施融资是个持续话题,而且把科技巨头和SpaceX并列讲债券市场影响力,有钩子。但HKR-K挂了,因为正文没披露发行规模、利率、期限、发行人名字,信息缺口太大,只能算行业泛泛报道,没法给从业者具体参考。
一句话点评
美国科技巨头开始发债建AI数据中心,连现金充裕的大厂都要借钱,说明AI基建烧钱到了新高度。正文没披露具体发债规模、利率和期限,所以没法判断融资成本高不高、市场买不买账。趋势值得关注,但缺关键数字,先别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
03:59
19d ago
r/LocalLLaMA· rssEN03:59 · 05·25
SEELS:一个 Windows 桌面应用,点一下“不对”就能生成 LoRA 训练数据
SEELS 0.1.5 alpha 版已发布,安装包 2.81GB,自带 CUDA 运行时、便携 Python、本地 Whisper 语音转文字和 Piper 语音合成。核心功能是一个“Teach”按钮:用户纠正模型回答后,应用自动把纠正内容存成 jsonl 格式的语料库,并直接在应用内启动 PEFT LoRA 训练。正文没披露训练耗时、硬件要求或模型...
#Fine-tuning#Tools#Audio#SEELS
精选理由
HKR 三项全过,因为这是一个具体的本地 LLM 工作流:用户纠错反馈直接变成 jsonl 并触发 PEFT LoRA,还捆绑了 CUDA、Whisper 和 Piper。但只是 Reddit 上的个人发布,没有第三方验证,也没有给出微调后的质量指标,所以放在 'all' 层级的上限。
一句话点评
一个叫 SEELS 的 Windows 桌面应用,核心卖点是个“Teach”按钮:模型答错了你直接纠正,它自动攒成 jsonl 语料库,然后在应用里启动 PEFT LoRA 训练。安装包 2.81GB,自带 CUDA 运行时和便携 Python,省去环境配置的麻烦。想法很直接——把用户纠正当成微调数据来源,降低收集训练数据的门槛。但正文没披露训练耗时、硬件要求或支持哪些基座模型,实际跑起来是...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
02:51
19d ago
r/LocalLLaMA· rssEN02:51 · 05·25
llama.cpp 有个取巧的加速技巧:把当前回复的 token 重新塞进 KV cache
一位 Reddit 用户在 llama.cpp 的 WebUI 开发者选项里发现了一个设置,原理是把当前模型回复生成的所有 token 重新喂进 KV cache,而不是等下次提问时再从头处理。在 Open-WebUI 里,他用 Qwen3.6-35B-A3B(MXFP4 量化,单张 RX 7900 XTX 全量卸载)测试,之前模型读完大网页后 pro...
#Inference-opt#Tools#llama.cpp#Open-WebUI
精选理由
Reddit 用户发现 llama.cpp WebUI 开发者选项里有个技巧:把当前回复的 token 重新发给 KV cache,在 Open-WebUI 场景下,Qwen 处理大网页的等待从 5-30 秒降到几乎即时。来源是用户分享,权威性弱,证据是 anecdotal(个人经验),所以留在 all 层级。正文没披露具体实现细节或兼容性限制。
一句话点评
llama.cpp 藏了个开发者选项,能把当前回复的 token 重新喂进 KV cache,不用等下次提问再从头算。实测 Qwen3.6-35B-A3B 读大网页后,prompt 处理从 5-30 秒降到几乎瞬间。单卡 RX 7900 XTX 跑 MXFP4 量化,约 100 tps。作者说没发现副作用,但正文没披露显存占用变化或长上下文稳定性。适合多轮工具调用场景,省的是等待时间而非推理算力。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
02:30
19d ago
彭博科技· rssEN02:30 · 05·25
日本 Sakura Internet 要把 AI 数据中心投资翻到近 7 倍
Sakura Internet 的 CEO 说,公司可能把资本开支提高到最初计划的近 7 倍,用来满足日本国内的 AI 数据中心需求。正文没披露原来的预算基数和时间线,所以这个“7 倍”到底是从多少涨到多少、花多久花完,目前还不清楚。不过方向很明确:日本也在抢算力资源,中小型云厂商开始猛砸钱。
#Sakura Internet#Product update
精选理由
Bloomberg 来源,加上一个“近7倍资本开支”的数字,给日本AI基础设施需求提供了明确的信号。但正文没披露具体订单、客户名字或总算力规模,所以信息密度还不够上精选。
一句话点评
日本云厂商Sakura Internet要把资本开支提到最初计划的近7倍,抢AI数据中心。但正文没披露原预算基数和时间线,这个“7倍”到底从多少涨到多少、花多久花完,目前不清楚。方向明确:日本也在抢算力,中小云厂商开始猛砸钱。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
00:00
19d ago
OpenAI 博客· rssEN00:00 · 05·25
OpenAI 签下巴西两大媒体,ChatGPT 能直接看 Folha 和 UOL 的新闻了
OpenAI 宣布与巴西 Grupo Folha 和 Grupo UOL 达成内容合作,ChatGPT 现在可以引用并展示这两家媒体的新闻报道,并附上原文链接。这是 OpenAI 在巴西的首个媒体合作,目前巴西是 ChatGPT 全球最大市场之一,月活超 5000 万,日均消息量约 1.4 亿条。合作方还会拿到 Codex、ChatGPT Enterp...
#OpenAI#Grupo Folha#Grupo UOL#Partnership
精选理由
HKR-K/R通过,但正文只给了合作方和ChatGPT接入,没披露授权期限、费用或覆盖多少家媒体。这是OpenAI授权新闻的增量消息,不到头条级别。
一句话点评
OpenAI 在巴西签了首个媒体合作,Folha 和 UOL 的新闻现在能直接出现在 ChatGPT 里并带原文链接。巴西是 ChatGPT 全球最大市场之一,月活超 5000 万,日均消息 1.4 亿条,合作方还能拿到 Codex 和企业版工具。但正文没披露交易金额和流量分成比例,也没说是否独家。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1

更多

频道

后台