全部 · 2026-05-01

▸ 50 items · updated 3m ago

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-01 · 星期五2026年5月1日

23:57

87d ago

r/LocalLLaMA· rssEN23:57 · 05·01

LocalLLaMA 新规一周：自动删帖多了，用户举报少了

Reddit 社区 LocalLLaMA 版主复盘了新规实施一周的效果。核心变化是给“自推帖”（Rule 4）设了最低 karma 门槛，现在 Automod 自动处理了更多违规帖，用户举报量也明显下降。正文没披露具体数字，所以效果有多显著只能看个趋势。对社区运营者来说，这个机制成本低、好复制，但门槛设多高才不误伤正常分享，版主没说。

#LocalLLaMA#Reddit#Policy

一句话点评

社区运营低成本控帖，但门槛设多高才不误伤正常分享，正文没披露。

锐评

Reddit 的 LocalLLaMA 版主复盘了新规实施一周的效果。核心变化是给“自推帖”设了最低 karma 门槛，Automod 自动处理了更多违规帖，用户举报量明显下降。正文没披露具体数字，所以效果有多显著只能看个趋势。对社区运营者来说，这个机制成本低、好复制，但门槛设多高才不误伤正常分享，版主没说。另外，正文被 Reddit 屏蔽了，实际细节只能靠版主摘要推测，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

23:31

87d ago

FEATUREDr/LocalLLaMA· rssEN23:31 · 05·01

Qwen-3.6-27B量化版本本地代码编写实测体验

Reddit 用户 Demonicated 用 Qwen-3.6-27B 的 Q8 量化版（Unsloth 版本）配合本地 VSCode 和 RTX 6000 Pro 显卡当主力写代码工具，跑了大约一天。模型通过 LM Studio 加载，没用任何 API 额度。关键技巧是：先让模型输出一个 Plan 轮次，再开始写代码。正文没披露任何跑分或延迟数据，...

#Code#Tools#Agent#Qwen

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

一个开发者用 Qwen-3.6-27B 在本地跑完整编程流程，但 Reddit 原文被屏蔽，具体体验细节和失败案例都没看到。

锐评

这条消息来自 Reddit 用户分享，说把 Qwen-3.6-27B 的 q8 量化版接进 VSCode，用 RTX 6000 Pro 显卡当日常编程助手。标题里用了“badass”这种词，说明体验不错，但正文被 Reddit 的网络策略挡了，我们拿不到任何实际使用细节。能确认的只有硬件配置：RTX 6000 Pro 有 48GB 显存，跑 27B 模型的 q8 量化版大概占 27GB 左右，单卡确实能装下，推理速度应该够用。但模型在补全、重构、debug 这些具体任务上表现怎么样，有没有幻觉翻车，延迟多少，都没数据。这条分享的价值在于验证了“本地跑中等尺寸模型做编程”这条路在硬件上可行，但缺了最重要的实测部分。如果后续有完整的对比测试或录屏，才值得认真看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:19

87d ago

r/LocalLLaMA· rssEN23:19 · 05·01

Anthropic 分析：6% 的 Claude 对话是问“我该怎么做”

Anthropic 内部统计显示，约 6% 的 Claude 使用场景是个人指导——用户问“下一步该做什么”。Reddit 帖子借这个数据主张本地模型更合适，但原文没披露样本量和方法论，这个比例到底有多可靠还不清楚。

#Safety#Anthropic#Claude#Research release

一句话点评

Anthropic 说 Claude 有 6% 的用量是问“下一步该做什么”，但样本和方法都没说，先别太当真。

锐评

Anthropic 内部统计显示，约 6% 的 Claude 使用场景是个人指导——用户问“下一步该做什么”。Reddit 帖子借这个数据主张本地模型更合适，但原文没披露样本量和方法论，这个比例到底有多可靠还不清楚。如果这个数字属实，说明用户确实在把大模型当人生顾问用，但 6% 不算高，可能只是长尾需求。帖子主张本地模型更安全，但没讨论本地模型在推理能力和知识广度上的折衷。正文被屏蔽，无法核实原始数据来源和统计口径，建议谨慎引用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:15

87d ago

r/LocalLLaMA· rssEN23:15 · 05·01

4080 Super 跑本地模型比 RTX 6000 Pro 快 10 倍？一个用户测的，先别太激动

Reddit 用户拿 4080 Super 和 RTX 6000 Pro 在 LM Studio 里跑 Qwen 3.6 27B 模型，4080 Super 用 Q2 量化（精度低）跑出约 6 token/秒，首 token 延迟 60 秒；RTX 6000 Pro 用 Q8 XL（精度高）跑到 67 token/秒，首 token 延迟约 1 秒。差...

#Inference-opt#NVIDIA#Qwen#LM Studio

一句话点评

4080 Super 跑 Q2 量化才 6 token/秒，首字等 60 秒，基本没法用。

锐评

Reddit 用户拿 4080 Super 和 RTX 6000 Pro 在 LM Studio 里跑 Qwen 3.6 27B 模型，结果差 10 倍。4080 Super 用 Q2 量化（精度很低）跑出约 6 token/秒，首 token 延迟 60 秒，基本没法交互；RTX 6000 Pro 用 Q8 XL（精度高）跑到 67 token/秒，首 token 延迟约 1 秒。但这是单用户测试，正文没披露驱动版本、显存占用和完整设置，而且 4080 Super 的 Q2 量化本身就会严重损失模型能力，拿这个比 RTX 6000 Pro 的 Q8 不太公平。如果是真的，RTX 6000 Pro 的推理效率确实强，但价格也摆在那。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:06

87d ago

FEATUREDTechCrunch AI· rssEN23:06 · 05·01

Replit 创始人聊 Cursor 收购传闻、跟苹果较劲，以及他为什么不想卖公司

Replit 的 CEO Amjad Masad 在 StrictlyVC 活动上回应了几个尖锐问题。首先是竞争对手 Cursor 被传要以 600 亿美元卖给 SpaceX，他怎么看。Masad 没直接评价这个价格，但明确表示自己不想卖 Replit，更想独立发展。文章还提到 Replit 的收入从 2024 年全年的 280 万美元，猛增到现在年化...

#Code#Agent#Replit#Amjad Masad

精选理由

精选 · 重要度 75 · 吸引力 + 知识量 + 共鸣

一句话点评

Replit 老板说不想卖公司，但收入从一年 280 万美元冲到年化十亿，这个增速比“不想卖”更值得看。

锐评

Replit 的 CEO Amjad Masad 在活动上被问到竞争对手 Cursor 可能以 600 亿美元卖给 SpaceX 的事，他直接说自己更想独立发展。这个表态听听就好，真正值得关注的是文章里提到的收入数字：2024 年全年才 280 万美元，现在年化收入目标已经奔着十亿美元去了。这个增速非常夸张，说明他们让非程序员用自然语言写代码、把模型直接跑在浏览器里的路子，确实切中了一大块需求。不过文章没展开讲这个收入是怎么算的，是一次性订阅还是持续服务费，也没提利润情况。另外关于“和苹果打架”的部分，正文里基本没披露具体细节，只知道标题提了一嘴。如果真想判断 Replit 能不能扛住不卖，还得看它现在的现金流能不能撑住这个增速，以及苹果那边的监管风险到底有多大。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:01

87d ago

最佳拍档· atomZH23:01 · 05·01

AI编码模型对比：GPT-5.5、Opus 4.7、DeepSeek V4谁更划算？

视频标题对比了GPT-5.5、Opus 4.7和DeepSeek V4在编码任务上的表现，还提到SemiAnalysis的分析和基准测试的猫腻。但正文是空的，所以没披露具体任务成本、基准设置或SemiAnalysis的结论。想看详细对比得等视频内容出来。

#Code#Benchmarking#SemiAnalysis#DeepSeek

一句话点评

标题党，正文空，先别信。

锐评

视频标题拿 GPT-5.5、Opus 4.7 和 DeepSeek V4 比编码，还扯上 SemiAnalysis 的分析和“基准测试的猫腻”。但正文一个字没有，来源只有 RSS 摘要。所以具体比了什么任务、总成本怎么算、基准到底怎么作弊，全没披露。SemiAnalysis 的结论也看不到。标题看着热闹，实际信息缺口很大。想看真对比得等视频内容出来，现在只能当个预告片看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

22:42

87d ago

r/LocalLLaMA· rssEN22:42 · 05·01

NVIDIA 的 50 倍性能宣传被指偷换概念：72 卡对比 8 卡

Reddit 用户指出 NVIDIA 和 SemiAnalysis 在对比 NVL72 与 8 卡 Hopper 时，宣称 50 倍性能提升。但 NVL72 用了 72 张 GPU，按 30 tps 算，9 倍卡数只换来约 2.5 倍实际收益。问题出在比较基准，不是峰值倍数本身。

#Inference-opt#Benchmarking#NVIDIA#SemiAnalysis

一句话点评

NVL72 的 50 倍性能宣传，9 倍卡数只换来约 2.5 倍实际收益，基准选得巧。

锐评

Reddit 用户扒了 NVIDIA 和 SemiAnalysis 的对比图：NVL72 号称比 8 卡 Hopper 快 50 倍，但 NVL72 用了 72 张 GPU，卡数是 9 倍。按 30 tps 算，实际收益只有约 2.5 倍。问题出在比较基准——不是峰值倍数本身，而是拿 8 卡小集群去比 72 卡大集群，卡数差异被包装成架构优势。正文没披露具体测试模型、精度和延迟设置，这些变量会显著影响倍数。如果是真的，这波营销水分不小，从业者看这类对比时得先问一句：卡数对等了吗？

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:31

87d ago

彭博科技· rssEN20:31 · 05·01

Mac Mini 涨价到 799 美元，苹果说 AI 太火把货买光了

苹果把 Mac Mini 起步价提到了 799 美元，标题说是 AI 热潮导致供应紧张。但正文只展示了 Bloomberg 页面框架，没透露之前卖多少钱、配置变了没、发货要等多久。涨价幅度和具体原因都缺细节，这点先别太激动。

#Apple#Bloomberg#Product update

一句话点评

苹果 Mac Mini 涨价到 799 美元，标题说是 AI 热潮导致供应紧张，但正文没披露原价、配置和发货时间，信息缺口大。

锐评

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:56

87d ago

Hacker News 首页· rssEN19:56 · 05·01

Destiny：给 Claude Code 加个算命插件，输入生日输出每日运势

一个叫 Destiny 的开源项目给 Claude Code 做了个插件，在聊天框里敲 /destiny 加上出生日期，就能生成一份每日运势解读。背后逻辑是 Python 脚本先算出生星盘、日柱、卦象和五行关系，然后让 Claude 把这些数据写成一段通顺的运势文字。项目在 GitHub 上拿了 18 个 star，只有 1 条评论，热度不高。技术上看...

#Code#Tools#Claude#Product update

一句话点评

一个给 Claude Code 算每日运势的开源插件，18 个 star，热度很低。

锐评

Destiny 是一个 Claude Code 插件，输入 /destiny 加出生日期，Python 脚本先算出星盘、日柱、卦象和五行，再让 Claude 写成运势文字。项目只有 18 个 star、1 条评论，基本没人关注。技术上看，它把传统命理计算规则写成了 Python 逻辑，然后让大模型做润色，思路不复杂。但正文没披露 Claude 的 prompt 设计、成本或延迟数据，也没说运势的准确率怎么验证——这点先别太激动，本质上就是个玩具级 demo。如果你在玩 Claude Code 插件开发，可以看看它的代码结构；想当真用来看运势，不如直接问 Claude。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

18:37

88d ago

Hacker News 首页· rssEN18:37 · 05·01

Flock 销售演示时调用了儿童体操房的监控，市政府知情后续约

404 Media 报道，美国佐治亚州 Dunwoody 市的居民通过公开记录请求发现，安防公司 Flock 的销售人员在向其他警察局做产品演示时，调用了本市多个敏感场所的监控画面，包括儿童体操房、游乐场、学校、犹太社区中心和游泳池。Flock 承认了这些访问，但辩称这是“演示合作伙伴计划”的一部分，且已获得授权。居民愤怒，但市政府在知情后仍然续签了合...

#Vision#Flock#404 Media#Incident

一句话点评

Flock 销售为演示监控产品，调用了儿童体操房、学校、泳池等敏感场所的摄像头，市政府知情后仍续签合同。

锐评

这不是黑客攻击，是授权滥用。Flock 销售人员为向其他警局演示产品，通过“演示合作伙伴计划”调取了 Dunwoody 市多个敏感场所的实时监控画面，包括儿童体操房、游乐场、学校和犹太社区中心。居民通过公开记录请求拿到访问日志才曝光此事。Flock 承认访问存在，但辩称已获授权，并强调自己“比其他公司透明”——因为至少留下了日志。但问题在于：市政府在居民抗议后，仍然续签了合同。正文没有披露续签金额、合同年限，也没有说明 Flock 内部是否有权限管控机制来防止销售人员随意调取敏感摄像头。这件事的核心不是技术漏洞，而是商业流程和监管缺位：一个销售为了签单，可以拿市民孩子的实时画面当 demo。如果这是真的，那说明监控系统的权限设计完全没考虑“最小必要”原则。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:35

88d ago

r/LocalLLaMA· rssEN18:35 · 05·01

4-5 万预算组本地推理机：DGX Spark 还是魔改 A100？

Reddit 用户 ghgi_ 在纠结 4-5 千美元（约 4-5 万人民币）的本地推理/训练配置。选项一是华硕 DGX Spark，1TB 存储，报价 3600-4000 美元；选项二是把 A100 80GB SXM4 魔改成 PCIe 接口，总价 5000-5200 美元。核心取舍是：A100 方案有 80GB 显存，但魔改有带宽损失和适配风险；D...

#Inference-opt#Fine-tuning#Reddit#LocalLLaMA

一句话点评

4-5千美元预算，选华硕DGX Spark还是魔改A100 80GB？核心是显存容量与稳定性的取舍。

锐评

Reddit用户ghgi_在纠结4-5千美元（约4-5万人民币）的本地AI配置。选项一：华硕DGX Spark，1TB存储，报价3600-4000美元，但显存未知（大概率低于64GB），适合跑中小模型推理。选项二：把A100 80GB SXM4魔改成PCIe接口，总价5000-5200美元，显存80GB能跑大模型，但魔改有带宽损失（SXM4原生带宽约900GB/s，PCIe 4.0 x16仅约32GB/s，损失超90%），且适配主板有风险，可能点不亮或降速。关键数字：80GB显存能跑70B模型量化版，但魔改后延迟高、验证弱——正文没披露魔改方案的具体带宽测试结果和兼容性列表。如果用户主要跑推理且能接受风险，A100方案性价比高；如果求稳或需要训练，DGX Spark更省心。另外，用户提到“一年内省下云服务费”，这点先别太激动——得算上电费、散热和魔改失败的成本。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

17:43

88d ago

Hacker News 首页· rssEN17:43 · 05·01

Adam 发布 AI CAD 助手，能看懂零件树并自动改参数

Adam 推出了一个叫 CAD Harness 的测试版插件，支持 Onshape 和 Autodesk Fusion。它能读取零件的特征树，然后用 FeatureScript 和 Python 帮你改名字、倒圆角、调参数。作者还提了一嘴内部 CAD 基准测试，说 GPT 5.5 和 Opus 4.7 有跑分，但没公开具体分数，这点先别太激动。安装方式...

#Agent#Code#Benchmarking#Adam

一句话点评

CAD 插件能读特征树改参数，但内部跑分没公开，别急着信。

锐评

Adam 出了个 CAD Harness 测试版插件，支持 Onshape 和 Autodesk Fusion。它能读取零件的特征树，然后用 FeatureScript 和 Python 帮你改名字、倒圆角、调参数——相当于给 CAD 软件装了个 AI 助手，不用手动点菜单。安装方式挺友好，一条命令或拖文件夹就行，还带免费版。作者提了一嘴内部 CAD 基准测试，说 GPT 5.5 和 Opus 4.7 有跑分，但没公开具体分数和测试方法。这点先别太激动，没数据就没法判断它比手动操作快多少、准多少。正文也没披露支持哪些特征类型、复杂装配体能不能用、API 调用延迟多高。如果是小零件还行，大项目可能够呛。整体看，方向对——把 AI 塞进专业工具流程里干活。但验证太弱，建议等公开评测或自己试了再下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:28

88d ago

Hacker News 首页· rssEN17:28 · 05·01

AWS 中东数据中心遭无人机袭击，修复拖数月，停止向客户计费

AWS 在中东的数据中心被无人机击中，维修已经拖了好几个月，亚马逊干脆暂停了对当地云客户的计费。正文没披露具体涉及哪些区域、多少客户、哪些服务受影响，也没说恢复时间。对 AWS 来说，这不仅是硬件损失，还意味着中东地区的云服务长期不可用，客户可能被迫迁移到其他云厂商。

#AWS#Amazon#Incident

一句话点评

AWS 中东数据中心被无人机击中，维修拖了几个月，直接停收云服务费。

锐评

AWS 在中东的数据中心遭无人机袭击，维修拖了几个月，亚马逊干脆暂停对当地云客户计费。这比硬件损失更严重：云服务长期不可用，客户可能被迫迁移到其他云厂商，比如 Azure 或 Google Cloud。正文没披露具体涉及哪些区域、多少客户、哪些服务受影响，也没说恢复时间。对 AWS 来说，这不仅是物理损坏，更是信任和市场份额的流失。如果是真的，中东云市场格局可能因此松动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:25

88d ago

Hacker News 首页· rssEN17:25 · 05·01

Flock 车牌摄像头反复告诉警察一个没 warrant 的人有 warrant

Flock 的车牌识别摄像头系统多次误报一名男子有逮捕令，而实际上他并没有。这条 Hacker News 帖子有 56 分和 26 条评论，但正文没披露误报次数、具体地点、识别方法以及警方如何回应。这类系统依赖车牌数据库匹配，一旦数据出错或过时，就会反复抓错人。

#Vision#Safety#Flock#Incident

一句话点评

车牌识别系统反复把没 warrant 的人标记为有 warrant，数据源脏了。

锐评

Flock 的车牌摄像头系统多次误报一名男子有逮捕令，实际没有。问题出在车牌数据库匹配：一旦数据出错或过时，系统就会反复抓错人。Hacker News 帖子有 56 分和 26 条评论，但正文没披露误报次数、具体地点、识别方法以及警方如何回应。这类系统依赖静态数据库比对，缺乏实时校验机制，误报率可能不低。如果是真的，说明公共安全 AI 落地时数据治理和人工复核环节还很薄弱。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:11

88d ago

Product Hunt · AI· rssEN17:11 · 05·01

Intuned Agent：让AI帮你写浏览器自动化脚本，还能自己维护

Intuned Agent 是一个浏览器自动化平台，开发者只需用自然语言描述需求（比如抓取数据、填表单），AI 就会生成可上线的 Playwright 代码，并在真实网站上验证后部署。平台自带登录态管理、反检测代理和监控，脚本还能随着网站变化自动更新。目前有免费选项，付费计划打五折。不过正文没披露用了什么模型、定价细节、上线日期或任何基准测试，所以实际...

#Agent#Tools#Intuned#Product Hunt

一句话点评

用自然语言描述需求，AI 自动生成可上线的浏览器自动化脚本，还自带反检测和监控。

锐评

Intuned Agent 的核心卖点是“用自然语言写 Playwright 代码”，开发者只需说“抓取某网站数据”或“自动填表单”，AI 就能生成可直接部署的脚本，并在真实网站上验证后才上线。平台还内置了登录态管理、反检测代理和监控，脚本能随网站变化自动更新，省去了手动维护的麻烦。目前有免费选项，付费计划打五折。不过正文没披露用了什么模型、定价细节、上线日期或任何基准测试，所以实际效果和成本都未知。自然语言生成代码的准确率、复杂场景下的成功率、以及“自动更新”的可靠性，都是关键信息缺口。对于需要大量浏览器自动化的团队，这个工具可能省下不少人力，但建议先拿小任务试水，别直接上生产环境。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

17:00

88d ago

FEATURED彭博科技· rssEN17:00 · 05·01

核能 AI 初创 Fermi 一个客户都没签到，联合创始人被赶下台

Fermi 画了一张大饼：在得州北部圈地建核电站，专供 AI 数据中心。但公司至今没签下任何客户，前 CEO 正为公司的控制权打官司。报道没披露具体发电规模、土地面积和客户名字，所以这饼到底多大、多真，目前还说不清。

#Fermi#Incident#Personnel

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

圈地建核电站专供 AI 数据中心，听着很猛，但一个客户都没签下来，创始人还被踢出局了。

锐评

Fermi 的故事听起来像一份还没落地的商业计划书。他们在得州北部圈地，想靠自建核电站给 AI 数据中心供电，这个模式本身成本极高、周期极长。结果公司至今客户名单是零，前 CEO 还因为控制权打起了官司。报道没披露发电规模、土地面积和任何潜在客户的名字，所以这饼到底多大、多真，目前完全说不清。对 AI 从业者来说，这条新闻的价值不在技术，而在提醒：别把“专供 AI”当成万能招牌。数据中心确实缺电，但客户要的是稳定、便宜、现在就能用的电，不是几年后可能投产的核电站。Fermi 连一个意向书都没拿到，说明市场对这套说辞并不买账。还缺两个关键信息：一是公司到底融了多少钱、烧了多少，二是被踢走的创始人手里还有多少股权。这些直接决定这场内斗会闹多大。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:59

88d ago

Hacker News 首页· rssEN16:59 · 05·01

Gay Jailbreak 技术：用性取向话题绕过模型安全护栏

Hacker News 上出现了一个叫“The Gay Jailbreak”的越狱方法，拿到 90 分和 31 条评论。正文只给了 GitHub 仓库链接，没有披露具体怎么操作、针对哪些模型、以及复现步骤。从名字推测，可能是利用模型在性取向话题上的敏感度或偏见来绕过安全限制。信息缺口很大：不知道成功率、是否需要特殊 prompt 模板、以及是否已被主流...

#Safety#Alignment#Hacker News#GitHub

一句话点评

名字吸睛，但正文没披露任何技术细节，先别激动。

锐评

Hacker News 上出现了一个叫“The Gay Jailbreak”的越狱方法，拿到 90 分和 31 条评论。名字很吸睛，但正文只给了一个 GitHub 仓库链接，没有披露具体怎么操作、针对哪些模型、以及复现步骤。从名字推测，可能是利用模型在性取向话题上的敏感度或偏见来绕过安全限制。信息缺口很大：不知道成功率、是否需要特殊 prompt 模板、以及是否已被主流模型修复。如果是真的，这算一种社会工程式越狱，但缺乏验证前只能当概念讨论。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

16:56

88d ago

● P1彭博科技· rssEN16:56 · 05·01

Meta收购机器人AI公司Assured Robot Intelligence推进人形机器人

Meta 买下了一家叫 Assured Robot Intelligence 的初创公司，这家公司专门给机器人做 AI 模型，Meta 想用它的技术推进自己的人形机器人项目。收购价格、团队规模和产品时间表正文都没提，所以这笔交易到底有多大分量还不好说。

#Robotics#Meta Platforms#Assured Robot Intelligence#Partnership

精选理由

精选 · 重要度 86 · 吸引力 + 共鸣

一句话点评

Meta 买了一家机器人 AI 公司，但没公布花了多少钱、团队多少人，目前更像在搭基础软件层，离造出人形机器人还远。

锐评

Meta 收购了 Assured Robot Intelligence，一家做机器人 AI 的小公司，目标是把自家 AI 模型塞进人形机器人里。这事不意外，Meta 之前已经组了硬件团队，这次补的是软件和算法。但两篇报道都没说收购金额、团队规模，也没讲清楚这家公司的技术到底强在哪。Bloomberg 提到 Meta 想先做底层 AI 平台，再让其他厂商去造硬件，TechCrunch 也确认了这一点。这个思路和 Meta 在 VR 头显上的打法一样：我出软件和标准，你们造设备。不过机器人比头显复杂得多，从仿真到真机部署的坑一个都不少。现在还缺 Meta 自己的机器人硬件路线图，以及他们打算怎么和已经跑在前面的 Figure、特斯拉竞争。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:52

88d ago

Hacker News 首页· rssEN16:52 · 05·01

DeepSeek V4 发布：接近第一梯队，价格只有几分之一

DeepSeek 发布了 V4 系列的两个预览模型：Pro 和 Flash。Pro 有 1.6 万亿总参数（激活 490 亿），Flash 是 2840 亿总参数（激活 130 亿），都支持 100 万 token 上下文，采用 MoE 架构，MIT 开源协议。Pro 是目前最大的开源模型。价格非常低：Flash 输入 0.14 美元/百万 token...

#Benchmarking#Simon Willison#DeepSeek#Commentary

一句话点评

DeepSeek V4 预览版来了，Pro 和 Flash 两个 MoE 模型，价格低到离谱，性能接近第一梯队。

锐评

DeepSeek V4 系列两个预览模型：Pro 总参数 1.6 万亿（激活 490 亿），Flash 总参数 2840 亿（激活 130 亿），都支持 100 万 token 上下文，MIT 协议开源。Pro 是目前最大的开源模型，比 Kimi K2.6（1.1T）和 GLM-5.1（754B）都大。价格是最大亮点：Flash 输入仅 0.14 美元/百万 token，比 GPT-5.4 Nano 还便宜；Pro 输入 1.74 美元/百万 token，远低于 Gemini 3.1 Pro 的 2 美元和 Claude Sonnet 4.6 的 3 美元。DeepSeek 自研效率优化让长上下文场景下 FLOPs 和 KV 缓存大幅降低，这是低价的核心原因。自报基准显示 Pro 接近 GPT-5.4 和 Gemini-3.1-Pro，但落后约 3-6 个月。注意：基准是自报的，第三方验证还没出来；Flash 模型 160GB，Pro 模型 865GB，本地跑需要量化或流式加载，实际推理速度未知。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:42

88d ago

FEATUREDHacker News 首页· rssEN16:42 · 05·01

Spotify 推出验证徽章区分人类艺人与 AI 音乐

Spotify 开始给符合“真实性标准”的艺人打上绿色对勾和“Verified by Spotify”标识，帮用户分辨账号背后是真人还是 AI。验证条件包括关联社交账号、稳定的听众数据、有周边或演出信息等，官方说听众常搜的艺人里超过 99% 都会拿到这个标，覆盖几十万人。但正文没披露具体审核流程、申诉机制，也没说怎么处理那些不用巡演和周边的小众独立音乐...

#Audio#Spotify#Product update

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

Spotify 给真人艺术家上了个“已验证”徽章，用来和 AI 生成的音乐做区分，但官方没把话说死，未来也可能给 AI 艺人发认证。

锐评

这事说白了就是 Spotify 在给用户打标签：告诉你哪些歌是活人做的。现在平台上 AI 生成的音乐越来越多，听众确实需要一个快速分辨的方法。这个“Verified by Spotify”徽章目前只给人类艺术家，但 Spotify 的发言人明确说了，不排除以后也给 AI 音乐人发认证——等于先划条线，但随时准备擦掉重画。文章没披露具体的验证流程，比如是人工审核还是靠上传资料自证，也没说怎么防止有人拿 AI 做的曲子冒充真人去申请。这点挺关键的，如果验证门槛很低，徽章的可信度就会打折。另外，这个功能对已经泛滥的 AI 背景音乐、白噪音类内容有多大约束力，正文也没提。整体看，这是个信号大于实质的动作。它承认了 AI 音乐已经是平台生态的一部分，但还没想好怎么管，先用一个徽章稳住听众情绪。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:25

88d ago

彭博科技· rssEN16:25 · 05·01

Roblox 要拿 AI 引擎跟 Unity、Unreal 抢生意

Roblox 宣布将推出一款新的 AI 游戏引擎软件，直接对标 Unity 和 Epic 的 Unreal Engine。目前这两家引擎支撑了市面上大多数大制作游戏。但正文没披露这个 AI 引擎的具体功能、定价和发布时间。关键悬念是：Roblox 是想走出自家平台编辑器，去抢通用游戏引擎的市场，还是只是给现有生态加个 AI 插件。

#Tools#Roblox#Unity#Epic Games

一句话点评

Roblox 要拿 AI 引擎跟 Unity、Unreal 抢市场，但正文没披露具体功能、定价和发布时间。

锐评

Roblox 宣布推出一款 AI 游戏引擎，直接对标 Unity 和 Unreal Engine。目前这两家引擎支撑了市面上大多数大制作游戏，但正文没披露这个 AI 引擎的具体功能、定价和发布时间。关键悬念是：Roblox 是想走出自家平台编辑器，去抢通用游戏引擎的市场，还是只是给现有生态加个 AI 插件。如果是前者，那意味着 Roblox 要跟 Epic 和 Unity 正面硬刚，但后者更可能——先让自家创作者用 AI 提效，再考虑外扩。信息缺口很明显：没有技术细节、没有定价、没有发布时间表，甚至连是独立产品还是平台内嵌都没说清。这点先别太激动，等后续披露。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:22

88d ago

Product Hunt · AI· rssEN16:22 · 05·01

WOZCODE：给 Claude Code 装个省钱层，号称省一半 token 费

WOZCODE 是一个 Claude Code 的中间层插件，装两条命令就能用。它号称能把 token 消耗砍掉最多 50%，也就是你每次让 Claude 写代码、改代码花的钱直接打对折。原理没说太细，正文只提了“减少 token、更快完成任务、提升 agent 表现”，没披露具体怎么压 token 的——是压缩上下文、缓存中间结果、还是改 promp...

#Code#Tools#WOZCODE#Anthropic

一句话点评

Claude Code 中间层插件，号称省 50% token，但原理没说清。

锐评

WOZCODE 是 Claude Code 的一个中间层插件，装两条命令就能用。它号称能把 token 消耗砍掉最多 50%，也就是你每次让 Claude 写代码、改代码花的钱直接打对折。如果真能省一半，对于高频用 Claude Code 的开发者来说挺省钱。但正文没披露具体怎么压 token 的——是压缩上下文、缓存中间结果、还是改 prompt 策略？这些都没说。另外 50% 的节省基准是什么也没交代：是跟裸用 Claude Code 比，还是跟某种优化配置比？这点先别太激动。目前信息缺口主要在原理透明度和测试场景上，建议等更多实测数据再决定是否接入。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:17

88d ago

Hacker News 首页· rssEN16:17 · 05·01

美国警察用车牌识别器跟踪约会对象，至少14起

美国司法研究所（IJ）报道，警察至少14次用自动车牌识别器（ALPR）跟踪自己的恋爱对象。ALPR原本是装在警车上或路边的摄像头，自动扫过路过的车牌并记录时间地点。报道说警察利用这个系统查目标车辆的行踪，但正文没披露具体发生在哪些城市、哪个警局、用了什么设备，也没说这些案例是怎么被发现的。14起这个数字来自IJ自己的调查，不是官方统计，所以实际可能更多。

#Vision#Institute for Justice#Hacker News#Incident

一句话点评

警察用自动扫车牌的摄像头查约会对象，至少14次，但这是IJ自己查的，不是官方数据。

锐评

美国司法研究所（IJ）报道，警察至少14次用自动车牌识别器（ALPR）跟踪自己的恋爱对象。ALPR就是装在警车或路边的摄像头，自动扫车牌并记录时间地点。14起这个数字来自IJ自己的调查，不是官方统计，所以实际可能更多。正文没披露具体发生在哪些城市、哪个警局、用了什么设备，也没说这些案例是怎么被发现的。这点先别太激动，因为缺乏官方验证和细节。如果是真的，说明执法部门内部滥用监控工具的问题比公开知道的严重。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:08

88d ago

Hacker News 首页· rssEN16:08 · 05·01

Uber 四个月烧光 2026 全年 AI 预算，全砸在 Claude Code 上

Uber 在 2026 年前四个月就把全年 AI 预算花光了，主要用在 Claude Code 和 Cursor 这两个 AI 编程工具上。CTO 透露，工程师每月人均 API 费用在 500 到 2000 美元之间，因为太好用，大家根本停不下来。目前 95% 的 Uber 工程师每月都会用 AI 工具，70% 的提交代码由 AI 生成。Cursor ...

#Code#Uber#Claude Code#Product update

一句话点评

Uber 四个月烧光全年 AI 预算，工程师人均月费最高 2000 美元，好用但贵到离谱。

锐评

Uber 在 2026 年前四个月就把全年 AI 预算花光了，主要烧在 Claude Code 和 Cursor 两个 AI 编程工具上。CTO 透露，工程师每月人均 API 费用在 500 到 2000 美元之间，因为太好用，大家根本停不下来。目前 95% 的 Uber 工程师每月都会用 AI 工具，70% 的提交代码由 AI 生成。关键数字：人均月费 500-2000 美元，70% 代码由 AI 生成。但正文没披露全年预算总额、工程师总数，也没说具体怎么算的 ROI。来源是 Briefs Finance 的报道，原始信息来自 Uber CTO 的公开表态，可信度中等。还缺什么：没提 Uber 后续怎么控制成本——是涨价、限流还是继续烧？也没对比其他公司（比如 Meta、Google）的 AI 编程投入。这点先别太激动，70% 代码由 AI 生成可能包含大量自动补全和模板代码，不是全部从零写。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

14:53

88d ago

FEATUREDr/LocalLLaMA· rssEN14:53 · 05·01

PFlash：在 RTX 3090 上跑 128K 上下文，预填充比 llama.cpp 快 10 倍

PFlash 让 Qwen3.6-27B 的 Q4_K_M 量化模型在单张 RTX 3090 上处理 12.8 万 token 的输入时，首 token 延迟从 llama.cpp 冷启动的 248.4 秒压到 24.8 秒。做法是用一个 Qwen3-0.6B 小模型当“打分员”，挑出最重要的 5% 文本片段喂给大模型，省掉了大量无关计算。整个方案用 ...

#Inference-opt#Tools#Code#Luce-Org

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

单卡3090跑27B模型，12.8万token输入首字延迟从4分钟压到25秒，但只测了单针大海捞针，多针和复杂任务没公开。

锐评

这条值得看，因为它解决了一个很实际的痛点：用消费级显卡跑长上下文模型，等首字等到睡着。PFlash 的做法是让一个 0.6B 的小模型先快速读一遍全文，给每个片段打分，只把最重要的 5% 喂给大模型，相当于请了个实习生帮你划重点。结果很直观，llama.cpp 冷启动要 248 秒，它只要 24.8 秒，快了十倍。但兴奋之前得先打个折。作者自己说了，目前只在单针大海捞针任务上验证过，从 32K 到 128K 都能找到。多针检索和 RULER 这类更复杂的测试结果没放出来，正文也没提。这意味着我们还不知道它在真实场景里会不会漏掉关键信息，毕竟只留 5% 的文本，万一扔掉了重要的上下文，回答质量会直接崩。另外，方案是用 C++/CUDA 写的，不依赖 Python 和 PyTorch，这对想集成到现有推理框架的人来说是个好消息。但没看到跟其他加速方案比如 vLLM 的对比，也没说小模型打分本身要花多少时间，这些信息缺口让 10 倍这个数字得先打个问号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:08

88d ago

彭博科技· rssEN14:08 · 05·01

科技圈下一个“iPhone时刻”在哪？彭博聊 OpenAI 会不会自己造手机

彭博播客讨论 OpenAI 是否打算推出一款智能手机或类似硬件设备。文章提到了记者 Mark Gurman，但没有披露任何规格、发布时间或商业计划。有用的信号是 AI 设备形态本身，而不是“iPhone时刻”这个类比。正文没披露 OpenAI 的硬件团队规模、供应链或量产时间表，所以这点先别太激动。

#OpenAI#Bloomberg#Mark Gurman#Commentary

一句话点评

彭博播客聊OpenAI做手机，但没规格没时间表，当行业信号看就好。

锐评

彭博播客讨论OpenAI是否要做智能手机或类似硬件，引用了记者Mark Gurman，但正文没披露任何规格、发布时间或商业计划。有用的信号是AI设备形态本身——大模型公司开始认真考虑硬件入口，而不是“iPhone时刻”这个类比。这点先别太激动：正文没披露OpenAI的硬件团队规模、供应链或量产时间表，信息缺口很大。如果只是播客闲聊，那这条的价值就是提醒你关注AI硬件赛道，而不是OpenAI的具体产品。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:25

88d ago

The Verge · AI· rssEN13:25 · 05·01

基督教内容创作者把AI生成的圣经视频外包给Fiverr上的零工

The Verge报道，一些基督教内容创作者在Fiverr上雇零工制作AI生成的圣经视频，需求很高。文章提到了TikTok、YouTube、Instagram和Facebook等平台，但没有披露具体价格、制作数量或相关账号。

#Multimodal#Vision#The Verge#Fiverr

一句话点评

基督教内容创作者在Fiverr上雇人用AI批量生成圣经视频，本质是AI流水线宗教内容。

锐评

The Verge报道了一个新现象：基督教内容创作者把圣经视频制作外包给Fiverr上的零工，后者用AI工具批量生成。文章提到了TikTok、YouTube等平台，但正文没披露具体价格、制作数量或相关账号，信息缺口很大。这件事值得关注的点在于：AI降低了宗教内容的生产门槛，但质量堪忧（原文用了'slop'）。如果这类视频靠算法推荐获得大量播放，可能影响信徒对教义的理解。不过，没有播放量或账号数据，我们无法判断规模。缺什么：缺具体案例——谁在买、谁在做、视频长什么样、平台是否推荐。目前只能当趋势看，别急着下结论。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:19

88d ago

● P1FT · 科技· rssEN13:19 · 05·01

五角大楼与英伟达、微软、亚马逊签署军事AI合同

美国国防部与英伟达、微软和亚马逊签署了新的军事AI合同。此前五角大楼与Anthropic因Claude的使用发生过冲突。正文没披露合同金额、部署范围和具体模型细节，所以暂时没法判断这笔单子的实际规模和技术方向。

#Pentagon#Nvidia#Microsoft#Partnership

精选理由

精选 · 重要度 96 · 吸引力 + 知识量 + 共鸣

一句话点评

五角大楼一口气签了四家，把商用 AI 搬进军方保密网。但 Anthropic 没在名单里，原因没明说。

锐评

五角大楼跟英伟达、微软、亚马逊签了新合同，要把大模型和算力部署到军方的保密网络里。这等于让前线人员能在隔离环境里直接用上商用 AI 的能力，不用再走“拔网线、拷数据”的老路。根据报道，OpenAI 和 Google 也拿到了同类合同，但 Anthropic 被排除在外——各家媒体都没解释具体原因，是安全审查没过，还是商业条款没谈拢，目前只能靠猜。合同金额和具体交付时间都没披露，所以没法判断这是真金白银的大单，还是先占个坑的试点。另外，军方对模型的可控性要求极高，这些商用模型在断网环境里怎么更新、怎么防止幻觉误判，报道里一个字都没提。这点先别太激动，等看到实际部署规模和效果再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:57

88d ago

FEATUREDr/LocalLLaMA· rssEN12:57 · 05·01

OpenAI 隐私过滤器与 GLiNER 在 600 条 PII 样本上的实测对比

Reddit 上有用户拿 OpenAI 的隐私过滤器（privacy-filter）和 GLiNER large-v2.1 在 600 条含个人身份信息（PII）的样本上跑了一轮。纯 CPU 推理速度，OpenAI 模型每秒处理 2.8 条，GLiNER 是 1.1 条，前者快了一倍多。英文边界识别的宏观 F1 分数，OpenAI 模型 0.498，G...

#Safety#Benchmarking#Inference-opt#OpenAI

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

OpenAI隐私过滤器在600条PII样本上跑分赢了GLiNER，但严格匹配下F1直接掉到0.155，这个坑得先看清楚。

锐评

这条对比测试挺实在，但结论得拆开看。OpenAI的隐私过滤器在CPU上每秒处理2.8条，比GLiNER的1.1条快了一倍多，英文边界识别的宏观F1是0.498对0.416，表面看确实领先。问题出在分词器偏移上：一旦要求严格匹配边界，OpenAI模型的F1直接跌到0.155，说明它经常把PII的起止位置标歪了。这在生产环境里很要命，比如你用它自动脱敏，结果漏掉半截邮箱或身份证号，等于白干。测试样本只有600条，规模偏小，而且正文没披露具体覆盖了哪些PII类型、有没有中文或混合语言场景。纯CPU推理的对比也只给了吞吐量，没提内存占用和延迟抖动。GLiNER作为开源方案，虽然慢一点，但边界更稳，部署上也没那么多限制。这点先别太激动，如果真要选型，建议拿自己业务数据跑一遍严格匹配的F1，别只看宽松指标。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:34

88d ago

FEATUREDr/LocalLLaMA· rssEN12:34 · 05·01

Reddit 实测 MiMo-V2.5-Pro：开源模型里跑桌游《血染钟楼》最稳的一个

Reddit 用户 cjami 拿小米的 MiMo-V2.5-Pro 在《血染钟楼》里做了自主对局测试。模型扮演好人阵营时胜率 88%，扮演坏人时胜率掉到 48%，说明它更擅长合作推理，搞欺骗和伪装还差点意思。每局平均输出 18.3 万 token，成本 0.99 美元，工具调用出错率只有 0.4%，这个错误率很低，说明模型能稳定按规则调用游戏功能。对...

#Agent#Reasoning#Tools#Xiaomi

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

小米新模型在《血染钟楼》里当好人胜率88%，当坏人只有48%，会合作但不太会骗人。

锐评

这个测试挺有意思，不是跑分，而是让模型真的去玩一局《血染钟楼》。好人阵营88%的胜率说明 MiMo-V2.5-Pro 在需要合作推理、拼凑信息的场景里表现很稳。但坏人胜率掉到48%，基本跟瞎蒙差不多，说明它在伪装、误导、有策略地撒谎这些事上还不太行。每局平均输出18.3万 token，成本0.99美元，工具调用出错率只有0.4%，这个错误率确实低，说明模型能老老实实按规则调用游戏功能，不会乱来。对比 Kimi K2.6 每局要跑58万 token、花2.65美元、一局拖10到15小时，MiMo 在效率和成本上优势明显。不过要冷静一下：这只是一个用户在单一游戏里的测试，样本量、对局配置、对手策略都没披露。模型是不是真的“最强开源”，还得看更多场景和更多人的复现结果。另外，正文被 Reddit 屏蔽了，具体测试细节我没法核实，这点先打个折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:33

88d ago

r/LocalLLaMA· rssEN12:33 · 05·01

Gemma 4 出了一个 31B 的 DFlash 版，但还没人跑过

z-lab 在 Hugging Face 上发布了 gemma-4-31B-it-DFlash，模型大小 31B 参数。目前只有 llama.cpp 的一个 PR（#22105）在对接，等合并后才能跑。正文没披露量化方式、推理速度或任何跑分，所以暂时没法判断它比原版 Gemma 4 快多少或省多少显存。如果你手头有 24GB 以上显存，可以关注这个 P...

#Inference-opt#z-lab#Hugging Face#llama.cpp

一句话点评

31B的Gemma 4量化版，但还没跑起来，先别激动。

锐评

z-lab 放出了一个叫 gemma-4-31B-it-DFlash 的模型，参数 31B，应该是 Gemma 4 的某种量化或蒸馏版。目前只有 llama.cpp 的一个 PR（#22105）在对接，等合并后才能跑。正文没披露量化方式、推理速度或任何跑分，所以暂时没法判断它比原版 Gemma 4 快多少或省多少显存。如果你手头有 24GB 以上显存，可以关注这个 PR 的进展，但别急着下结论——没数据前，这只是一个“可能有用”的包。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

12:15

88d ago

r/LocalLLaMA· rssEN12:15 · 05·01

Qwen3.6-27B 跑了个 SVG 闭环：自己画图、自己看、自己改

Reddit 用户 dondiegorivera 用 Qwen3.6-27B 搭了一个 SVG 生成闭环：模型先按 Agno 规范写 SVG 代码，Pi 作为编程智能体执行渲染，生成的 PNG 图片再送回 Qwen 视觉版做质量评估，最后经过两轮裁判打分。整个流程代码已开源在 GitHub。不过正文没披露跑了多少次、成功率多少、单次耗时多长，所以这个闭...

#Vision#Agent#Code#Qwen

一句话点评

用Qwen自己写SVG、自己渲染、自己打分，闭环思路不错，但没披露成功率，先别太激动。

锐评

Reddit用户dondiegorivera让Qwen3.6-27B自己写SVG代码（按Agno规范），Pi作为编程智能体执行渲染，生成的PNG再送回Qwen视觉版做质量评估，最后两轮裁判打分。整个流程代码已开源在GitHub。亮点是闭环：模型自己出图、自己审图，省了人工标注成本。但正文没披露跑了多少次、成功率多少、单次耗时多长，所以这个闭环到底稳不稳、快不快，目前是盲区。另外，6个SVG提示词样本量太小，结论泛化性存疑。如果后续能补上成功率、延迟和失败案例，这个思路对自动化视觉生成工作流挺有参考价值。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:10

88d ago

MIT 科技评论· rssEN12:10 · 05·01

MIT科技评论本周盘点：基督教手机网络、大模型调试工具、美国科学经费危机

Goodfire 发布新工具 Silico，用“机械可解释性”技术把大模型内部的神经元和路径画出来，训练时可以直接调参数，减少模型乱说话或输出不想看的内容。正文没披露支持多大的模型。另外，马斯克承认 xAI 用 OpenAI 的模型蒸馏训练了 Grok——蒸馏是行业常规操作，但法律上灰色。中国开源模型路线也在崛起，DeepSeek R1 用极低成本追上...

#Interpretability#Fine-tuning#Safety#MIT Technology Review

一句话点评

Goodfire 的 Silico 工具能画大模型内部神经元图，训练时直接调参数，减少模型乱说话。马斯克承认 xAI 用 OpenAI 模型蒸馏训练 Grok，行业常规但法律灰色。

锐评

Goodfire 的 Silico 工具把大模型内部的黑箱画成神经元和路径图，训练时可以直接调参数来减少模型输出不想看的内容。这相当于给模型装了个可视化调试器，让训练从炼金术变成更像传统软件工程。但正文没披露 Silico 支持多大的模型，也没说效果在多大参数规模上验证过——小模型上能画清楚，不代表千亿参数模型也能用。另外，马斯克承认 xAI 用 OpenAI 的模型蒸馏训练了 Grok。蒸馏是行业常规操作，用大模型输出当训练数据教小模型，成本低但法律上灰色。中国开源路线也在崛起，DeepSeek R1 用极低成本追上闭源模型，说明蒸馏和开源结合可能改变竞争格局。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:01

88d ago

FEATUREDr/LocalLLaMA· rssEN12:01 · 05·01

研究称大模型更“丧”，小模型反而更“快乐”

Reddit 上有人分享了一份所谓的“AI 幸福感指数”，用 500 段对话去测模型的情绪倾向。结果 Claude Haiku 4.5 的负面回复只占 5%，而 Gemini 3.1 Pro 高达 55%。不过帖子自己也说了，测试集故意塞了很多刁钻的负面对话，不代表日常使用场景。另外，原帖链接点进去直接报 403 错误，看不到原始数据和具体方法，所以这...

#Benchmarking#Safety#Claude#Grok

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Reddit 帖子自称测了 500 段对话，说大模型更“丧”，小模型更“乐呵”，但原链接直接 403，数据和方法都看不到，先打个折。

锐评

这条帖子说 Claude Haiku 4.5 负面回复只占 5%，而 Gemini 3.1 Pro 高达 55%，结论是“大模型更 miserable”。但得先泼盆冷水：原帖链接点进去直接报 403 错误，原始数据、测试方法、样本分布全看不到，连“幸福感指数”怎么算的都不知道。帖子自己也承认，测试集故意塞了很多刁钻的负面对话，不代表日常使用场景。也就是说，这个 55% 更像是在压力测试下的反应，不是模型平时就这么丧。另外，只测了 500 段对话，样本量很小，换个 prompt 或换批对话，排名可能就变了。而且“负面回复”怎么定义的也没说——是语气冲、拒绝回答，还是直接说“我不开心”？这些细节缺了，数字就没法当真。这条信息最多当个谈资，别拿来判断模型好坏。真要对比情绪倾向，得看公开数据集、可复现的方法，以及正常对话场景下的表现。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:54

88d ago

r/LocalLLaMA· rssEN11:54 · 05·01

7900 XTX 多卡跑推理，现在能用了？

Reddit 用户 ziphnor 问 7900 XTX 多卡推理的最新支持情况。二手价只有 RTX 3090 的 50–60%，单卡 24GB 显存、带宽也差不多，但没有 NVLink。对比方案是双 RTX 5060 Ti 16GB。核心问题是 vLLM 现在支不支持 tensor parallelism（把模型切到多张卡上并行跑）。正文没披露具体测...

#Inference-opt#AMD#NVIDIA#vLLM

一句话点评

7900 XTX 多卡跑推理，性价比高但软件支持是硬伤。

锐评

Reddit 用户 ziphnor 在问 7900 XTX 多卡推理的最新支持情况。核心卖点是二手价只有 RTX 3090 的 50–60%，单卡 24GB 显存、带宽也差不多，但没有 NVLink。对比方案是双 RTX 5060 Ti 16GB。关键问题是 vLLM 现在支不支持 tensor parallelism（把模型切到多张卡上并行跑）。正文没披露具体测试结果，只说被 Reddit 屏蔽了。如果是真的，这方案挺省钱，但软件生态和社区验证还很弱，买之前最好先确认 vLLM 的兼容性。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

11:49

88d ago

r/LocalLLaMA· rssEN11:49 · 05·01

8GB显存跑35B模型：DFlash投机解码在RTX 2080 SUPER上实测

Reddit用户jwestra在8GB显存的RTX 2080 SUPER上，用llama.cpp的PR #22105跑通了Qwen3.5-35B-A3B的DFlash投机解码。目标模型24.44 GiB，靠MoE专家CPU卸载硬塞进去；草稿模型仅267.8 MiB。基线速度约26.8 tok/s，开启DFlash后冲到35.6–35.8 tok/s，草...

#Inference-opt#Qwen#NVIDIA#llama.cpp

一句话点评

8GB显存跑35B模型，靠投机解码提速33%，但MoE卸载CPU会拖慢交互。

锐评

Reddit用户jwestra在8GB RTX 2080 SUPER上，用llama.cpp的PR #22105跑通了Qwen3.5-35B-A3B的DFlash投机解码。目标模型24.44 GiB，靠MoE专家CPU卸载硬塞进显存；草稿模型仅267.8 MiB。基线速度约26.8 tok/s，开启DFlash后冲到35.6–35.8 tok/s，草稿长度设为6、专家数34，接受率高达99.302%。关键看点是：8GB卡跑35B模型，投机解码确实提速33%，但MoE专家卸载到CPU意味着每次推理都要跨PCIe搬运，实际交互延迟可能比纯GPU方案高不少。正文没披露每分钟通话成本、支持哪些国家号码、API调用方式以及调用次数限制——这些才是决定“能不能当电话用”的核心。另外，99.3%的接受率说明草稿模型几乎完美匹配目标，但这是否依赖特定MoE路由模式，换模型或任务后还能不能保持，也需要更多测试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:32

88d ago

Hacker News 首页· rssEN11:32 · 05·01

两个网站放一起比颜值，用 Cloudflare 跑 AI 打分

一个叫 Site Mogging 的工具，把两个网站截图丢给 Cloudflare 的浏览器和 Workers AI，让模型给它们的外观打分（类似“颜值对决”）。作者说 Google Gemma 4b 做视觉识别够用，但没公布评分标准、成本或可复现的例子。目前展示的案例是 goodreads.com 得了 4.3 分，readstead.com 得了 ...

#Vision#Multimodal#Cloudflare#Google

一句话点评

两个网站截图丢给Cloudflare的浏览器和AI，让模型给颜值打分。

锐评

这个工具把网站视觉对比做成“颜值对决”，用Cloudflare的浏览器截图+Workers AI跑视觉评分。作者说Google Gemma 4b做识别够用，但没公布评分标准、单次成本或可复现的案例。目前展示的goodreads.com得4.3分，readstead.com得8.1分——分数差距大但没解释为什么。正文没披露模型是否只看截图布局、色彩还是包含内容语义，也没说测试集大小或人工验证一致性。对于想快速评估竞品首页视觉的用户，这个思路挺直接，但分数可信度目前全靠作者自说自话。如果后续能公开评分维度（比如对比度、信息密度、品牌感）和成本数据，会更有参考价值。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

11:18

88d ago

FEATUREDThe Verge · AI· rssEN11:18 · 05·01

微软在 Word 里塞了个法律 AI 助手，想让律师放心把合同交给它审

微软发布了一个叫 Legal Agent 的 Word 插件，专门帮法律团队审合同。它会按你预设的规则手册（playbook）逐条检查条款，还能直接处理文档里的修订痕迹。这个功能来自微软收购的 Robin AI 团队。不过正文没披露具体定价和推送范围，所以实际用起来贵不贵、什么时候能用上还不清楚。

#Agent#Tools#Microsoft#Sumit Chauhan

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

微软在 Word 里塞了个法律合同审查助手，能按你定的规则逐条挑刺，但正文没提价格和什么时候能用上，先别急着报预算。

锐评

微软把收购来的 Robin AI 团队做成了一个 Word 插件，叫 Legal Agent，专门帮律师或法务审合同。它的工作方式不是泛泛地总结文档，而是让你先设定一套规则手册（playbook），然后让模型按手册逐条检查条款，还能直接处理文档里的修订痕迹。这个思路比通用聊天机器人更贴近真实法律工作流——律师确实需要对照清单逐项过合同，而不是让 AI 自由发挥给意见。不过，这篇发布稿缺了两个关键信息：一是定价，法律行业的 AI 工具通常不便宜，如果按 token 或按文档计费，实际成本可能很高；二是推送范围，没说是面向所有 Microsoft 365 用户，还是只给大企业版。另外，法律场景对准确率要求极高，正文也没给出任何错误率或人工复核比例的数据。如果漏掉一条关键条款，责任算谁的，这点也没提。总的来说，方向对，但落地效果还得等实际用户反馈和定价出来再判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:08

88d ago

Hacker News 首页· rssEN11:08 · 05·01

Apple Support 应用更新意外夹带 Claude.md 文件

开发者 Aaron 发现苹果今天推送的 Apple Support 应用 v5.13 更新包内包含了 Claude.md 文件，截图显示这些文件涉及 actor-based providers、MessageGroup 容器等工程细节。苹果在几小时后紧急发布了 v5.13.1 修复版。正文没有披露这些文件的具体内容、版本号或复现步骤，也不清楚是开发流程...

#Code#Apple#Claude#Incident

一句话点评

苹果把 Claude 的配置文件直接打包进了 App，几小时后紧急修复。

锐评

开发者 Aaron 发现 Apple Support v5.13 更新包里夹带了 Claude.md 文件，截图显示涉及 actor-based providers、MessageGroup 容器等工程细节。苹果在几小时后推送 v5.13.1 紧急移除。这件事本身不算严重——更像是 CI/CD 流程里忘了清理临时文件，但暴露了两个信号：一是苹果内部确实在用 Claude Code 辅助开发，而且已经深度嵌入到编译和打包环节；二是这种“把 AI 工具配置一起发出去”的失误，说明人工审核环节可能被压缩了。正文没披露文件具体内容、版本号或复现步骤，所以无法判断这些配置是否包含敏感信息。如果是真的，那苹果的 AI 工具链已经和第三方开发者站在同一条起跑线上了。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

10:28

88d ago

● P1Hacker News 首页· rssEN10:28 · 05·01

OpenAI在批评Anthropic限制Mythos后也限制Cyber访问

OpenAI 刚嘲讽完 Anthropic 对网络安全工具 Mythos 搞“恐惧营销”、只给少数人用，转头就宣布自己的同类工具 GPT-5.5 Cyber 也只开放给“关键网络防御者”。Cyber 能干渗透测试、找漏洞、逆向恶意软件这些活，说白了就是一套帮企业查缺补漏的工具包，但 OpenAI 也怕它落到坏人手里。申请页面要填资质和用途，正文没披露具...

#Safety#OpenAI#Anthropic#TechCrunch

精选理由

精选 · 重要度 86 · 吸引力 + 共鸣

一句话点评

Sam Altman 刚骂完 Anthropic 搞饥饿营销，转头就给自家安全工具 Cyber 也上了同款门禁，这波打脸来得挺快。

锐评

OpenAI 嘴上说 Anthropic 限制 Mythos 是“恐惧营销”，身体却很诚实——GPT-5.5 Cyber 也只开放给“关键网络防御人员”申请使用。TechCrunch 这篇报道点出了这个矛盾，但没给出 OpenAI 内部对“双标”的回应。 Cyber 能做的事包括渗透测试、漏洞发现和恶意软件逆向，听起来确实是把双刃剑。OpenAI 设了申请门槛，要求提交身份和用途说明，但正文没披露审核标准是什么、多久能通过、会不会像 Mythos 那样被未授权组织绕过去。 Altman 在 X 上说几天内开始推送，但没提什么时候向更广泛的用户开放，也没解释为什么自家工具的限制就不是“恐惧营销”。这点先别太激动，等看到实际审核机制和误拒率再说。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

10:25

88d ago

Hacker News 首页· rssEN10:25 · 05·01

Loopsy：让终端和AI Agent在不同机器上互相通信

Loopsy 是一个跨机器通信工具，能在不同设备间传文件、跑远程命令、让 AI 编程助手跨设备干活。作者用 Cloudflare Worker 做中转，在手机上连回本地电脑继续用 Claude 写代码。端到端加密还没做完，iOS 应用还在审核。适合需要在多台机器间无缝切换 AI 工作流的场景，但安全性和移动端体验都还没到位。

#Agent#Code#Tools#Loopsy

一句话点评

一个让AI agent跨设备通信的开源工具，但加密和移动端都还没到位。

锐评

Loopsy 是一个开源工具，让终端和 AI agent 在不同机器之间直接通信——传文件、跑远程命令、让 Claude 在手机上继续写代码。作者用 Cloudflare Worker 做中转，省了自己搭服务器的成本，但端到端加密还没做完，iOS 应用还在审核。核心场景是“跨设备 AI 工作流”：你在台式机上让 Claude 写代码，出门后掏出手机连回本地电脑继续干活。这个需求真实，但正文没披露延迟数据——通过 Cloudflare 中转的实时性如何，直接决定了能不能流畅跑 agent。安全方面要打折：没有 E2E 加密，意味着中转节点能看到所有通信内容，不适合传敏感代码或凭证。移动端体验也还没验证，iOS 应用还在审核，Android 和 Web 端情况未说明。如果是真的挺省钱：用 Cloudflare Worker 做中转，比自建 VPN 或 SSH 隧道门槛低得多。但安全性和移动端体验都还没到位，建议等加密和 iOS 上线后再试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:01

88d ago

最佳拍档· atomZH09:01 · 05·01

硅谷21家顶级VC为何集体错过Anthropic

标题说21家硅谷顶级VC错过了Anthropic，提到了Anj Midha、亚马逊AWS和AI的4C卡口，但正文是空的，没披露具体原因、24个月的创业地狱细节，也没讲人类不对齐的威胁证据。

#Alignment#Safety#Anthropic#Anj Midha

一句话点评

标题很猛，但正文是空的，等于看了个标题党。

锐评

标题说21家硅谷顶级VC错过了Anthropic，还提到Anj Midha、亚马逊AWS和AI的4C卡口，但正文完全空白，连摘要都没给。这意味着所有关键信息——为什么错过、24个月创业地狱具体指什么、人类不对齐的威胁证据——全部缺失。目前能确认的只有Anthropic早期融资确实被多数VC跳过，后来AWS投了40亿美元。但标题里的“4C卡口”和“认知鸿沟”没有出处，无法判断是真实框架还是营销话术。建议等完整内容出来再判断，现在只能当个标题看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

09:00

88d ago

FEATUREDMIT 科技评论· rssEN09:00 · 05·01

特朗普把 NSF 的 22 名科学顾问全炒了，美国科研又挨一记重拳

美国国家科学基金会（NSF）的整个监督委员会——国家科学委员会，上周五被特朗普政府一锅端，22 名科学家全部收到解雇邮件。NSF 是联邦资助基础研究的大户，2024 年花了 93.9 亿美元，但这笔钱只占联邦总支出的 0.1%。委员会原本负责审批大额开支和制定政策，比如给巨型望远镜项目拨款、设立新的技术投资部门。现在委员会没了，NSF 的主任位置也从去...

#National Science Foundation#Donald Trump#Keivan Stassun#Policy

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

NSF 的监督委员会被一锅端，22 名科学家全被解雇。NSF 2024 年花了 93.9 亿美元，只占联邦总支出 0.1%，但管着基础研究的大头。

锐评

美国国家科学基金会（NSF）的整个监督委员会——国家科学委员会，上周五被特朗普政府全部解雇，22 名科学家同时收到解雇邮件。NSF 是联邦资助基础研究的大户，2024 年花了 93.9 亿美元，但这笔钱只占联邦总支出的 0.1%。委员会原本负责审批大额开支和制定政策，比如给巨型望远镜项目拨款、设立新的技术投资部门。现在委员会没了，NSF 的主任位置也从去年 4 月一直空着，特朗普提名的人选没有科学背景。这件事的直接后果是 NSF 失去了核心治理层，大项目审批和预算监督会卡住。更值得留意的是，政府此前已经要求 NSF 砍掉 57% 的预算，员工也少了 40%。虽然 AI 和量子计算还被列在 2027 年的“前沿计划”里，但以目前的人手和预算趋势，这些方向能拿到多少钱要打个大问号。正文没披露解雇的具体法律依据，也没说后续会不会重新任命委员会成员。如果这个监督真空持续下去，NSF 的长期项目——尤其是需要多年稳定投入的基础研究——会最先受影响。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:29

88d ago

Hacker News 首页· rssEN08:29 · 05·01

Grok 4.3 上线，百万上下文，输入每百万 token 1.25 美元

xAI 在文档里悄悄上线了 Grok 4.3，不是大版本迭代，更像一次常规更新。模型支持 100 万 token 上下文窗口，输入价格每百万 token 1.25 美元，输出 2.5 美元，缓存输入只要 0.2 美元——如果命中缓存，成本能降到原来的六分之一，挺省钱。支持函数调用、结构化输出和推理（模型会先想再答）。目前部署在美东和欧洲两个区域，每分钟...

#xAI#Grok#Hacker News#Product update

一句话点评

xAI 悄悄上线了 Grok 4.3，不是大版本，但 100 万 token 上下文和极低的缓存价格值得关注。

锐评

xAI 在文档里低调上线了 Grok 4.3，没有大张旗鼓的发布，更像一次常规更新。核心亮点是 100 万 token 的上下文窗口，输入价格每百万 token 1.25 美元，输出 2.5 美元，缓存输入只要 0.2 美元——如果命中缓存，成本能降到原来的六分之一，挺省钱。模型还支持函数调用、结构化输出和推理（模型会先想再答），目前部署在美东和欧洲两个区域。不过，这条消息来自 xAI 自己的文档，没有独立第三方评测，也没有和 GPT-4o、Claude 3.5 等竞品的直接对比。正文没披露 Grok 4.3 在推理、编码等关键任务上的具体表现，也没说训练数据、模型大小或发布时间。所以，价格和上下文长度看着不错，但实际能力还得等实测。如果是真的，这个定价对长文档处理场景很有吸引力。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

08:14

88d ago

Hacker News 首页· rssEN08:14 · 05·01

AI 代理在 Google Kubernetes Engine 里揪出一个 WireGuard 并发 bug

#Agent#Tools#Lovable#Google Kubernetes Engine

一句话点评

Lovable 用 AI 代理查日志，发现 GKE 网络组件 anetd 每六小时崩一次，原因是 WireGuard 集成代码有并发读写 map 的 panic。关掉加密后崩溃停了，但部分节点 MTU 没从 1420 改回 1500，导致跨节点访问 Valkey 时丢包。最终靠全量重启节点解决。

锐评

Lovable 的工程师用 AI 代理查日志，发现 GKE 的 anetd 组件（负责网络层）每六小时崩一次，原因是 WireGuard 集成代码里有并发读写 map 的 panic。关掉节点间加密后崩溃停了，但新问题来了：部分节点 MTU 没从 1420 字节改回 1500 字节，导致跨节点访问 Valkey 内存数据库时丢包。最终靠全量重启节点解决。关键数字：120 次重启/6 天（约每小时一次），峰值每秒创建 50+ 沙箱。来源限制：这是 Lovable 自述，正文没披露复现步骤、影响范围或 Google 是否已修复。还缺什么：没说明 AI 代理具体用了什么模型或工具链，也没提 Google 是否确认了 bug 并计划修复。这点先别太激动——用 AI 查日志不新鲜，真正有价值的是他们暴露了 GKE 生产环境里一个罕见的并发 bug。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

07:47

88d ago

r/LocalLLaMA· rssEN07:47 · 05·01

一个本地大模型玩家的折腾实录：从M3 Ultra换到RTX Pro 6000

Reddit用户No_Run8812分享了自己搭建本地大模型的过程，从M3 Ultra 96GB换到RTX Pro 6000，试了Qwen、DeepSeek、Gemma和MiniMax，目前最喜欢MiniMax M2.7 230B/A10B。但有个实际痛点：一台16GB内存的MacBook Pro反而比512GB的机器更稳定。正文没披露具体的不稳定原因...

#Inference-opt#No_Run8812#Qwen#DeepSeek

一句话点评

一台16GB内存的MacBook Pro比512GB的机器还稳，这有点反常识。

锐评

Reddit用户No_Run8812分享了自己搭建本地大模型的折腾经历：从M3 Ultra 96GB换到RTX Pro 6000，试了Qwen、DeepSeek、Gemma和MiniMax，目前最喜欢MiniMax M2.7 230B/A10B。但有个实际痛点：一台16GB内存的MacBook Pro反而比512GB的机器更稳定。正文没披露具体的不稳定原因，可能是驱动、内存带宽或散热问题。这个案例说明，本地跑大模型不是堆显存就完事，系统整体稳定性、软件栈兼容性同样关键。对于想自己搭机的从业者，值得参考的是：高端硬件不一定带来稳定体验，小内存设备反而可能因为负载低、散热好而更可靠。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:38

88d ago

r/LocalLLaMA· rssEN07:38 · 05·01

H100 一小时一千美元，GPU 租赁价格飙了

Reddit 用户说上周 Mithril 平台上的 H100、H200 和 B200 好几次超过 1000 美元/小时。Vast 那边 B200 以下的服务器 GPU 都缺货，Runpod 反而便宜些。帖子没披露采样次数、具体时间段，也没说供应紧张的原因。

#Fine-tuning#Reddit#Mithril#Runpod

一句话点评

H100 一度超 1000 美元/小时，但样本和原因都没说清。

锐评

Reddit 用户爆料 Mithril 平台上的 H100、H200 和 B200 上周多次超过 1000 美元/小时，Vast 那边 B200 以下的服务器 GPU 都缺货，Runpod 反而便宜些。这个价格比常规租赁贵了好几倍，如果是短期峰值，对预算敏感的小团队影响很大。但帖子没披露采样次数和具体时间段，也没说供应紧张的原因——是临时需求暴增还是平台故意抬价？正文被屏蔽了，信息缺口明显。如果是真实行情，说明高端 GPU 租赁市场波动剧烈，长期训练或大批量推理得提前锁价或分散供应商。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:00

88d ago

● P1r/LocalLLaMA· rssEN07:00 · 05·01

用户完成16节点DGX Spark集群搭建及性能测试

Reddit 用户 Kurcide 晒出了他搭的 16 节点 DGX Spark 集群。每台机器用一根 QSFP56 线连到 FS N8510 交换机，单链路跑到 100–111 Gbps，总带宽约 200 Gbps，所有节点都跑满了线速。这次测试的重点是统一内存：8 个节点合起来成功加载了 434GB 的 GLM-5.1-NVFP4 模型，接下来他还...

#Inference-opt#Kurcide#Nvidia#DeepSeek

精选理由

精选 · 重要度 86 · 吸引力 + 知识量 + 共鸣

一句话点评

有人真把16台DGX Spark组了个集群，但正文被Reddit墙了，看不到实测数据和跑什么模型。

锐评

这条消息来自Reddit r/LocalLLaMA，一个用户晒出了16台DGX Spark（也就是NVIDIA那台巴掌大的AI小主机）组集群的照片，问大家该跑点什么。但文章正文被网络屏蔽，我们拿不到任何性能测试、组网方式或实际跑模型的延迟数据。 DGX Spark单台标称算力约170 TFLOPS（FP16），16台理论峰值能到2.7 PFLOPS，但互联带宽是最大瓶颈——Spark之间走的是ConnectX-7网卡加以太网，不是NVLink，跨节点通信延迟会吃掉不少有效算力。用户没披露用的是RoCE还是普通以太网，也没说内存池化方案，这些直接决定集群是“真能用”还是“看着热闹”。我会先打个折：这更像发烧友的硬件实验，不是生产级部署。想判断实际价值，需要看到大模型推理的token生成速度、训练微调的有效吞吐，以及跟单台DGX Station或几块RTX 6000 Ada的性价比对比。这些正文都没给，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:13

88d ago

r/LocalLLaMA· rssEN06:13 · 05·01

有人把 Claude Opus 4.6/4.7 的 8700 条对话做成了微调数据集

Reddit 用户分享了一个用 Claude Opus 4.6/4.7 生成的合成微调数据集，包含 8706 条带推理过程的对话，总 token 数约 1700 万，其中 39.7% 是多轮对话。作者明确说没有人工审核过数据质量，而且特别提到要压制模型的安全拒绝行为——这点先别太激动，因为压制安全信号可能让模型更容易输出有害内容，实际风险要看具体过滤策...

#Fine-tuning#Reasoning#Safety#Anthropic

一句话点评

8.7k条Opus对话，没人工审过，安全拒绝被刻意压制。

锐评

Reddit用户AldebaranBefore放出了一个用Claude Opus 4.6/4.7生成的合成微调数据集，共8706条对话，含推理过程，总token约1700万，其中39.7%是多轮。作者明确说没有人工审核质量，而且特别提到要压制模型的安全拒绝行为——这点先别太激动，因为压制安全信号可能让模型更容易输出有害内容，实际风险要看具体过滤策略，但正文没披露。数据集本身规模中等（1700万token对微调来说不算大），且来源单一（仅Opus），泛化能力存疑。对做开源微调的人来说，省了用API采样的成本，但质量风险自担。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:06

88d ago

r/LocalLLaMA· rssEN06:06 · 05·01

Radeon 9060 XT 16GB 跑 Gemma4 24B 量化版，速度 25.9 token/秒

Reddit 用户实测，用 Radeon 9060 XT 16GB 显卡（通过 eGPU 外接，主机是 AMD 7840HS、32GB 内存）跑 Gemma4 24B 的 A4B IQ4 量化模型，推理速度达到 25.9 token/秒。上下文窗口开到 128K，batch 512、ubatch 256。这个速度对本地跑 24B 模型来说算不错了，但 ...

#Inference-opt#Code#Reddit#AMD

一句话点评

16GB显存跑24B模型，25.9 token/s，速度不错但上下文128K可能撑不住。

锐评

Reddit用户实测，Radeon 9060 XT 16GB通过eGPU外接，跑Gemma4 24B的A4B量化版，推理速度25.9 token/s。这个速度对本地部署来说算流畅了，每秒能吐二十多个字，日常对话够用。关键限制是显存只有16GB，虽然开了128K上下文窗口，但实际跑长文本大概率会爆显存或降速，正文没披露实测长上下文时的表现。另外这是A4B模型（4位激活量化），精度有折损，不是满血版。配置上用了AMD 7840HS主机和32GB内存，eGPU外接会有一点带宽损耗，但结果仍算不错。对想低成本本地跑大模型的人来说，这是个参考：一张中端卡加外接方案就能跑24B模型，但别指望长上下文和满精度。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

全部 · 2026-05-01

更多

频道

后台