全部 · 2026-05-30

▸ 50 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-30 · 星期六2026年5月30日

23:47

58d ago

Product Hunt · AI· rssEN23:47 · 05·30

Typeahead：Mac 全局 AI 自动补全，本地运行、离线可用

Typeahead 是一个 Mac 应用，能在系统里所有输入框里给你做 AI 自动补全——你打字时它会在光标处弹出建议，帮你写得更快。它用的是本地 AI 模型，所以完全离线工作，你的文字不会上传。这点对隐私敏感的用户挺友好。不过正文没披露具体用了什么模型、多大参数量，也没说定价和正式上线日期。目前 Product Hunt 上 270 票、2 条评价，...

#Tools#Typeahead#Product update

一句话点评

Typeahead 在 Mac 所有输入框里做 AI 自动补全，打字时弹出建议，本地模型离线运行，数据不上传，隐私友好。但正文没披露具体模型、参数量、定价和上线日期，Product Hunt 上 270 票、2 条评价，验证很弱。短评：本地离线补全挺省心，但模型和效果未知，先别太激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

52

SCORE

H0·K1·R0

22:55

58d ago

r/LocalLLaMA· rssEN22:55 · 05·30

Best Buy 线下清仓：5060 Ti 16GB 卖 300 美元，5070 Ti 16GB 卖 700 美元

Reddit 用户爆料 Best Buy 实体店清仓价：5060 Ti 16GB 只要 300 美元（约 2100 元），5070 Ti 16GB 卖 700 美元（约 4900 元）。16GB 显存对本地跑大模型很实用，这个价格比正常零售便宜不少。不过得去店里碰运气，线上库存还有但价格可能不同，而且正文没披露具体门店和数量，能不能买到看当地情况。

#Inference-opt#Best Buy#Nvidia#Product update

一句话点评

Best Buy 实体店清仓，5060 Ti 16GB 只要 300 美元（约 2100 元），5070 Ti 16GB 卖 700 美元（约 4900 元）。16GB 显存对本地跑大模型很实用，这个价格比正常零售便宜不少。不过得去店里碰运气，线上库存还有但价格可能不同，而且正文没披露具体门店和数量，能不能买到看当地情况。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

55

SCORE

H1·K1·R1

21:09

58d ago

FEATUREDr/LocalLLaMA· rssEN21:09 · 05·30

我花 6400 美元搭了一台本地大模型服务器，一年下来比用 API 便宜了 700 多

作者晒了一台自组的本地大模型服务器，总花费 6406.45 美元，核心配置是 4 张 AMD MI100 显卡，主要跑 Qwen3.6 27B 模型。这台机器每天处理约 2040 万个输入 token 和 132 万个输出 token。他拿 OpenRouter 的 API 价格算了一笔账：第一年本地总成本（含电费）是 2992.72 美元，而调用同等...

#Inference-opt#Qwen#OpenRouter#Z.AI

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

自组 4 卡 MI100 跑 Qwen 27B，第一年比用 API 便宜 700 多刀，但正文被 Reddit 屏蔽了，看不到具体配置和折旧算法。

锐评

作者算了一笔本地大模型服务器的经济账：花 6406 美元攒了台 4 张 AMD MI100 显卡的机器，主要跑 Qwen3.6 27B，每天吞吐量约 2040 万输入 token 加 132 万输出 token。拿 OpenRouter 的 API 价格对比，第一年本地总成本 2992 美元，比纯用 API 的 3701 美元省了 700 多。这个数字看着还行，但得打个折——Reddit 原文被屏蔽了，我们看不到电费单价、硬件折旧年限、MI100 的二手行情这些关键假设。MI100 是 2020 年的老卡，32GB 显存，跑 27B 模型得靠多卡并行，实际推理延迟和并发能力都没披露。另外，本地维护的人工成本、机器闲置时的电费、模型更新换代的迁移成本，这些隐性开销也没法核实。如果只是个人重度使用，这个方案确实比按月付 API 费划算，但前提是你得会折腾驱动和推理框架，MI100 在 ROCm 下的兼容性坑不少。想抄作业的话，先确认自己的日均 token 量能不能跑满这个利用率，否则回本周期会拉长很多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

21:05

58d ago

Hacker News 首页· rssEN21:05 · 05·30

Rotary GPU：显存不够也能跑大MoE模型，8GB笔记本实测21 tokens/s

这篇论文没搞新架构，而是解决一个实际问题：大模型训练好之后，能不能在普通硬件上跑起来？作者用一台RTX 4060（8GB显存）的笔记本，跑了一个Qwen3.6-35B-A3B类的MoE模型（混合专家模型，每次只激活一部分参数），生成了2048个token，显存占用约6.3GB，解码速度21 tokens/s。这个速度不算快，但能在8GB卡上跑35B级模...

#Inference-opt#Research release

一句话点评

一篇论文用RTX 4060（8GB显存）笔记本跑35B级MoE模型，生成2048个token，显存占用6.3GB，解码速度21 tokens/s。速度不算快，但能在8GB卡上跑35B模型这点挺省钱。不过这是单作者论文，方法基于作者之前专利，验证规模小，只测了一个模型和一个场景，没披露精度损失或对比基线。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

63

SCORE

H1·K0·R1

21:02

58d ago

FEATUREDAI HOT 精选· aihot-apiZH21:02 · 05·30

Simon Willison 把 Python 网页应用直接跑在了浏览器里，不再需要后端服务器

Simon Willison 用 Pyodide（把 Python 编译成浏览器能跑的 WebAssembly）加上 Service Worker，让 Python 的 ASGI 网页应用完全在浏览器里运行。他让 Claude Opus 4.8 帮忙写了代码，做了两个能用的演示：一个基础 FastAPI 例子，另一个是他自己的 Datasette 1....

#Code#Tools#Simon Willison#Claude

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

Simon Willison 用 Pyodide 把 Python 网页应用搬进浏览器里跑，不再需要后端服务器，Datasette 都能完整运行。

锐评

Simon Willison 把 Python 的 ASGI 网页应用（比如 FastAPI 和他自己的 Datasette）完全塞进了浏览器。做法是用 Pyodide 把 Python 编译成 WebAssembly，再配合 Service Worker 拦截浏览器请求，直接在本地跑 Python 后端逻辑。这比四年前他做的 Datasette Lite 更进一步：旧方案用 Web Worker 模拟，页面里的 JavaScript 脚本跑不起来，很多插件会挂；新方案用 Service Worker 走完整的 ASGI 协议，脚本能正常执行，兼容性好得多。代码是让 Claude Opus 4.8 帮忙写的，他给了两个能跑的演示：一个基础 FastAPI 例子，一个 Datasette 1.0a31 完整版。这说明方案不是针对某个应用的特例，对遵循 ASGI 标准的 Python 应用都适用。不过正文没提性能开销和首屏加载时间。Pyodide 本身初始化就不快，加上 Service Worker 拦截所有请求，实际延迟和内存占用会是多少，目前没有数据。另外，这种方案只适合处理同源请求，跨域场景和需要真实后端数据库的应用还是得老老实实搭服务器。他说等自己搞明白原理后会升级 Datasette Lite，到时候可以看看实际体验到底怎么样。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

20:36

58d ago

r/LocalLLaMA· rssEN20:36 · 05·30

M1 Max 笔记本跑 Qwen 3.6 35B MoE，纯本地不插电写代码

Reddit 用户发帖说在 M1 Max 上用 Zoo Code 跑通了 Qwen 3.6 35B MoE 模型，完全本地运行、靠电池供电就能当编程助手。帖子标题很兴奋，但正文被屏蔽了，所以没披露用了什么量化、占多少内存、每秒能吐几个 token、以及电池能撑多久。35B MoE 的激活参数量大概在 10B 左右，M1 Max 有 64GB 统一内存，...

#Code#Inference-opt#Qwen#Zoo Code

一句话点评

M1 Max 跑 Qwen 3.6 35B MoE 本地编程助手，听起来很香，但正文被屏蔽了，关键信息全缺：用了什么量化、内存占用多少、生成速度多快、电池能撑多久。35B MoE 激活参数约 10B，M1 Max 有 64GB 统一内存，跑得动不意外，但实际体验和续航才是重点。短评：标题很兴奋，但正文被屏蔽，量化、速度、续航全没披露，先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

62

SCORE

H1·K0·R1

19:14

58d ago

r/LocalLLaMA· rssEN19:14 · 05·30

给AI加长期记忆，什么功能最管用？

Reddit用户dangerous_inference分享了一个叫“瞬态自动记忆”的功能，能让助手在几个月测试中保持连贯对话。正文没披露具体怎么实现、怎么存、怎么检索，也没给评测指标。

#Memory#Reddit#LocalLLaMA#dangerous_inference

一句话点评

Reddit 用户 dangerous_inference 说搞了个“瞬态自动记忆”功能，让助手在几个月测试里保持对话连贯。但正文没披露怎么存、怎么检索、用了什么评测指标，连实现细节都没给。目前只能当个概念听，别急着抄。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

43

SCORE

H0·K0·R1

19:02

59d ago

Hacker News 首页· rssEN19:02 · 05·30

四大会计师事务所之一的安永，发了一份满是幻觉引用的网络安全报告

GPTZero 调查发现，安永加拿大在 2025 年发布的一份关于会员积分系统网络安全的报告，里面 27 条引用里超过一半是编的，链接打不开，标题对不上真实文章。报告本身也被 AI 检测工具判定有 72% 可能是 AI 写的。GPTZero 说这是“氛围引用”的典型——作者用大模型生成文本和参考文献，但没核实。这事麻烦在于，这类报告会被媒体、博客和 A...

#Ernst & Young#GPTZero#Hacker News#Incident

一句话点评

安永加拿大一份2025年网络安全报告被GPTZero查出27条引用里超一半是编的，链接打不开，标题对不上。报告本身也被AI检测工具判定72%可能是AI写的。GPTZero管这叫“氛围引用”——作者用大模型生成文本和参考文献但不核实。麻烦在于这类报告会被媒体和AI搜索当事实引用，污染下游数据。安永没回应。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

18:55

59d ago

FEATUREDAI HOT 精选· aihot-apiZH18:55 · 05·30

软银被曝计划在法国砸 750 亿欧元建 AI 数据中心

消息来自《论坛报》和《金融时报》，软银自己还没官宣。750 亿欧元这个数字很大——作为对比，法国之前公布的“法国 2030”计划里给整个 AI 的预算大约是 25 亿欧元。这笔钱主要投向 AI 数据中心，也就是给大模型训练和推理提供算力的基础设施。不过正文没披露具体建多少座、选址在哪、分几期投入，也没说软银是独资还是拉上当地伙伴一起干。我会先打个折：这...

#SoftBank#La Tribune#Financial Times#Funding

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

软银要在法国砸750亿欧元建AI数据中心，但消息来自媒体爆料，软银自己还没官宣，数字先打个折看。

锐评

这条消息目前还停留在“据报道”阶段，源头是《论坛报》和《金融时报》，软银官方没有确认。750亿欧元这个数字非常夸张——法国政府之前整个“法国2030”计划拨给AI的总预算才25亿欧元左右，一下子多出几十倍的体量，如果属实，会直接改变欧洲算力格局。钱主要投向AI数据中心，也就是给大模型训练和推理提供算力的基础设施。但正文没披露具体建多少座、选址在哪、分几期投入、软银是独资还是拉当地伙伴一起干，这些关键信息全是空白。另外，750亿是承诺投资还是实际到位资金也没说清，这种超大额投资通常分多年、附带条件，落地过程中变数很多。在软银正式公告出来之前，这条消息更适合当信号看，别急着当事实用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

18:43

59d ago

r/LocalLLaMA· rssEN18:43 · 05·30

本地个人助手加记忆后体验如何？一个用户试了四种记忆机制

一位Reddit用户用Qwen 3.5/3.6 27B搭了本地自主智能体，加了四种记忆机制：一个叫memory.md的长期笔记文件、每日摘要、自我反思、以及重要事件追踪。正文被屏蔽了，没披露具体效果和延迟数据，但思路是让助手记住用户偏好和长期对话上下文，而不是每次从零开始。对做本地助手的开发者来说，这套记忆分层设计值得参考，但实际体验提升多大、跑起来卡...

#Agent#Memory#Tools#Qwen

一句话点评

一位Reddit用户用Qwen 3.5/3.6 27B搭了本地自主智能体，加了四种记忆机制：长期笔记文件memory.md、每日摘要、自我反思、重要事件追踪。思路是让助手记住用户偏好和长期对话上下文，而不是每次从零开始。正文被屏蔽，没披露具体效果和延迟数据，但记忆分层设计对做本地助手的开发者有参考价值。实际体验提升多大、跑起来卡不卡，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H0·K1·R1

18:39

59d ago

● P1FT · 科技· rssEN18:39 · 05·30

SoftBank承诺750亿欧元在法国建设欧洲最大AI设施

软银说要砸750亿欧元在法国建一个欧洲最大的AI设施。不过目前能看到的正文只有FT的403安全验证页面，具体建多大、什么时候建成、跟谁合作、用什么技术方案，这些关键信息全都没披露。这个数字本身挺唬人的，但正文没给任何细节，先别太激动。

#SoftBank#Financial Times#Funding

精选理由

精选 · 重要度 96 · 吸引力 + 知识量 + 共鸣

一句话点评

750亿欧元是个大饼，目前只是意向，钱还没到账。法国想借机搞AI主权，但正文没披露具体落地时间表和约束条款，先别太激动。

锐评

孙正义这次画了个超级大饼：承诺在法国砸750亿欧元建数据中心，号称欧洲最大AI设施。数字看着吓人，但这是多年累计投资额，不是一次性到账。FT另一篇报道点出了关键——这个项目绑着“AI主权”的旗号，但具体怎么绑、法国政府给了什么优惠、软银自己出多少还是拉基金一起投，正文都没写清楚。对从业者来说，如果真能落地，意味着欧洲多了一大块算力供给，可能拉低推理和训练成本。但软银过往在WeWork等项目的执行记录，让人不得不打折看待这个承诺。目前连选址、电力供应、芯片来源这些硬指标都没披露，更像是一份政治合作备忘录而非工程计划。还缺什么：分阶段投资节点、软银自有资金比例、法国政府的补贴或税收优惠细节、以及建成后的算力定价模式。这些信息不出来，750亿就只是个数字。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

96

SCORE

H1·K1·R1

18:18

59d ago

r/LocalLLaMA· rssEN18:18 · 05·30

Parallax：用可学习投影替代数值求解，让线性注意力追上FlashAttention

Parallax把之前Local Linear Attention（LLA）里用数值求解器算KV协方差那步，换成了一个类似query的投影层，让模型自己学怎么从KV里提取协方差信息。作者在0.6B和1.7B参数规模上做了预训练验证，困惑度有改善，下游任务也跟着涨。更实际的是，他们写了一个解码推理的kernel，在多种batch size和上下文长度下速...

#Inference-opt#Benchmarking#Research release#Benchmark

一句话点评

Parallax 把 Local Linear Attention 里用数值求解器算协方差的步骤，换成一个类似 query 的投影层让模型自己学，省掉了求解器开销。0.6B 和 1.7B 模型预训练后困惑度下降，下游任务也涨了。更实用的是他们写的解码 kernel 在多种 batch size 和上下文长度下速度持平甚至超过 FlashAttention 2/3。不过正文没披露 kernel...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

63

SCORE

H0·K1·R1

17:52

59d ago

FEATUREDAI HOT 精选· aihot-apiZH17:52 · 05·30

NVIDIA 用 DynoSim 给推理部署做模拟器，一次能跑几千种配置，速度是实时的 1500 倍

NVIDIA 给自家推理服务框架 Dynamo 配了个仿真工具 DynoSim，用 Rust 写成。它把部署测试变成“先在虚拟时间线上模拟、再挑最好的上真机”的流程，不用一个个试。测试里它能跑到实时速度的 1500 倍，一次筛几千种配置。正文没披露具体硬件环境、支持哪些模型和实测延迟数据，所以这个 1500 倍先打个折看——快是真的快，但省多少时间还得...

#Inference-opt#NVIDIA#Product update

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

NVIDIA 给自家推理框架 Dynamo 出了个仿真工具，号称能跑到实时 1500 倍，但正文没给硬件环境和实测延迟，这数字先打个折看。

锐评

NVIDIA 给 Dynamo 推理服务框架配了个叫 DynoSim 的仿真工具，用 Rust 写成。它的思路是把部署测试从“一个个试”变成“先在虚拟时间线上模拟、再挑最好的上真机”，一次能筛几千种配置。测试里它跑到实时速度的 1500 倍，这个数字说明模拟本身很快，但正文没披露跑在什么硬件上、支持哪些模型、以及最终上真机后的延迟和吞吐到底省了多少。所以 1500 倍更像一个上限参考，实际能省多少部署调参时间还得看具体场景。另外，仿真保真度也没给量化指标——如果模拟和真实表现偏差大，筛出来的“最佳配置”可能还得返工。对做推理部署优化的团队来说，这个工具如果能接入自己的模型和流量模式，价值会更大，但目前公开信息里看不到开放程度和接入方式。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

17:49

59d ago

r/LocalLLaMA· rssEN17:49 · 05·30

英伟达把Qwen 35B模型压到4位，显存省3倍，跑分几乎没掉

英伟达放出了一个NVFP4量化版的Qwen3.6-35B-A3B模型，专门给vLLM推理用。量化就是把模型权重从16位压缩到4位，磁盘和显存占用直接降到原来的三分之一左右。关键是跑分没怎么缩水——MMLU Pro、GPQA Diamond、AIME 2025、MMMU PRO这几个基准上跟BF16版本几乎持平。对于想省显存又不想牺牲太多性能的人来说，这...

#Inference-opt#Benchmarking#NVIDIA#Qwen

一句话点评

英伟达把Qwen3.6-35B-A3B的权重从16位压到4位，显存和磁盘占用降到原来的三分之一，跑分却几乎没掉——MMLU Pro、GPQA Diamond这些基准跟BF16版持平。对本地部署来说，省显存又不牺牲性能，挺实用。但注意：这是NVFP4格式，目前只支持vLLM推理，其他框架用不了；量化后的实际推理速度、长文本表现和部署稳定性，正文都没披露。另外，跑分持平不代表所有场景都无损，尤其...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

17:44

59d ago

AI HOT 精选· aihot-apiZH17:44 · 05·30

NVIDIA 六月发 ARM 笔记本芯片 N1X，整合 Blackwell GPU 和 AI 单元

NVIDIA、微软和 Arm 同时发了个台北音乐中心的坐标，暗示 6 月 1 日有发布会，主角很可能是与联发科合作的 ARM 笔记本芯片 N1X。这颗芯片把 CPU、Blackwell 架构的 GPU 和 AI 单元全塞进去了，目标是让轻薄本跑出接近 RTX 4070 的图形性能。如果真能做到，NVIDIA 就不只是卖显卡了，而是直接跟 Intel、A...

#Inference-opt#NVIDIA#Microsoft#Arm

一句话点评

NVIDIA 跟联发科合搞的 ARM 笔记本芯片 N1X 要来了，6 月 1 日台北发布。核心卖点是塞进 Blackwell GPU 和 AI 单元，号称轻薄本能跑出接近 RTX 4070 的图形性能——如果真能做到，等于把桌面独显塞进笔记本，功耗和散热是最大悬念。目前只有预告坐标，没跑分、没功耗数据、没量产时间。NVIDIA 想从卖显卡变成卖整机方案，直接打 Intel、AMD 和高通。值...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

16:37

59d ago

r/LocalLLaMA· rssEN16:37 · 05·30

DGX Spark 和 4 张 3090 比微调，哪个更划算？

一个学生用户纠结买 DGX Spark 还是组 4 张 RTX 3090 来微调大模型。帖子没透露速度、显存或功耗数据，只说了研究方向是机械可解释性，预算有限，担心家里电费扛不住，也怕 3090 太老容易坏。所以目前没法直接比性能，只能看出 Spark 省电省心但贵，4x 3090 便宜但电老虎且硬件风险高。

#Fine-tuning#Interpretability#NVIDIA#kidfromtheast

一句话点评

一个学生纠结买DGX Spark还是组4张3090微调模型，但帖子没给速度、显存或功耗数据，只说了研究方向是机械可解释性、预算有限、怕电费高、怕3090太老坏掉。所以没法直接比性能，只能看出Spark省电省心但贵，4x3090便宜但电老虎且硬件风险高。短评：没数据，只能比电费和赌人品。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

45

SCORE

H1·K0·R1

16:30

59d ago

FEATUREDAI HOT 精选· aihot-apiZH16:30 · 05·30

GitHub Copilot 改按 token 收费，开发者直接骂“开玩笑吧”

GitHub Copilot 把计费方式从订阅制改成了按 token 算钱，开发者社区炸了。token 就是模型处理文本的最小单位，用多少收多少，但正文没披露具体单价、生效时间，也没说免费额度还在不在。我会先打个折——如果单价定得高，写代码时每补一行都可能肉疼，这对重度用户影响不小。

#Code#GitHub#GitHub Copilot#Microsoft

精选理由

精选 · 重要度 75 · 吸引力 + 知识量 + 共鸣

一句话点评

GitHub Copilot 从订阅改按 token 收费，但正文没公布单价和生效时间，先别急着骂——如果定价合理，轻度用户可能反而省钱。

锐评

这条新闻的核心是 GitHub Copilot 把收费模式从固定月费改成了按 token 计费，token 就是模型读代码时切出来的最小文本单元，用多少收多少。开发者社区炸锅了，但 TechCrunch 这篇报道其实信息量很薄——没写每千 token 多少钱、什么时候开始执行、现有的免费额度还保留不保留。这些关键数字不公布，讨论就只能是情绪宣泄。对重度用户来说，如果单价定得高，写代码时每补一行都可能肉疼，成本可能远超现在的月费。但对偶尔用的人，按量付费反而可能比订阅划算。微软这步棋大概率是想把成本压力转嫁给高频用户，同时用低价吸引更多轻度开发者进来。现在最缺的是官方定价表和过渡方案。另外也没说企业版和个人版是不是同一套费率，以及 token 计算是按输入还是输出算，这些都会直接影响账单。建议等微软正式公告出来再判断到底坑不坑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

75

SCORE

H1·K1·R1

16:30

59d ago

TechCrunch AI· rssEN16:30 · 05·30

GitHub Copilot 改按 token 收费，开发者炸了：'开什么玩笑'

GitHub Copilot 要改成按 token 计费，开发者普遍不满。TechCrunch 报道只引了一句评论，没披露具体价格、用量额度或生效日期，所以目前只能确认收费模式变了，但到底贵多少、怎么算还不清楚。

#Code#GitHub#Microsoft#TechCrunch

一句话点评

GitHub Copilot 要改成按 token 计费，开发者炸了。TechCrunch 报道只引了一句“What a joke”，没披露具体价格、用量额度或生效日期。目前只能确认收费模式变了，但到底贵多少、怎么算还不清楚。短评：只说了要改，没给数字，先别急着骂。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

16:12

59d ago

r/LocalLLaMA· rssEN16:12 · 05·30

为什么思考过程吐的 token 比最终回答还多？

Reddit 用户 iMakeSense 想用本地大模型给 1000 条数据打标签，结果模型只返回了约 100 条。问题出在思考痕迹（thinking trace）里把输入 token 和大量推理文本都输出了，导致 token 消耗远超预期。帖子没透露具体用的哪个模型，也没解释为什么最终输出会少那么多——可能是思考过程截断了，也可能是模型没按要求执行。

#Reasoning#Embedding#Reddit#LocalLLaMA

一句话点评

用本地模型给1000条数据打标签，结果只返回了约100条，token却烧掉一大半——因为思考痕迹把输入和推理过程全输出了。帖子没说是哪个模型，也没解释为什么输出少那么多，可能是思考截断或指令没执行。如果模型把推理过程当最终输出，那token预算得翻几倍，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

15:59

59d ago

TechCrunch AI· rssEN15:59 · 05·30

Meta 被曝正在做 AI 挂坠

TechCrunch 援引消息称 Meta 在开发一款 AI 挂坠，但正文只说了公司在大手笔押注 AI 硬件，没披露规格、价格、发布时间、传感器、模型或交互方式。目前信息缺口很大，没法判断它跟 Rabbit R1、Humane AI Pin 有什么实质区别。

#Meta#Product update

一句话点评

Meta 被曝在搞 AI 挂坠，但正文只说了“公司在押注 AI 硬件”，规格、价格、发布时间、传感器、模型、交互方式全没提。目前信息缺口太大，没法判断它跟 Rabbit R1、Humane AI Pin 有什么实质区别。短评：消息源只说了Meta在做AI挂坠，其他一概没披露，先别激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

66

SCORE

H1·K0·R1

15:40

59d ago

AI HOT 精选· aihot-apiZH15:40 · 05·30

美国企业开始给AI用量设上限，因为太贵了

华尔街日报报道，美国公司发现AI用多了成本扛不住，开始限制用量、搞分层审批来控制开支。正文没披露具体涨了多少、哪些公司、限制比例，但方向很清楚：之前是能上AI就上，现在得算账了。

#The Wall Street Journal#Commentary

一句话点评

美国企业开始给AI用量设上限、搞分层审批，因为运行成本涨太快了。正文没披露具体涨了多少、哪些公司、限制比例，但方向很清楚：之前是能上AI就上，现在得算账了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

15:30

59d ago

● P1TechCrunch AI· rssEN15:30 · 05·30

TechCrunch 测试谷歌 AI 助手 Gemini Spark 日常工作应用

TechCrunch 的编辑实测了谷歌新推出的 Gemini Spark，把它当成一个全天候 AI 助手来用，主要干了整理邮件摘要和规划本地活动这两件事。体验下来觉得确实能帮上忙，但文章没搞懂谷歌为什么要把这个功能单独做成一个产品，而不是直接塞进现有的 Gemini 里。正文没披露这东西什么时候正式上线、要不要另外收费。

#Agent#Tools#Google#TechCrunch

精选理由

精选 · 重要度 90 · 吸引力 + 知识量 + 共鸣

一句话点评

谷歌把 Gemini 做成了一个 24 小时在线的 AI 助手 Spark，实测体验两极分化：有用，但也让人后背发凉。

锐评

谷歌发布的 Gemini Spark 是一个常驻后台的 AI 助手，主打 24/7 全天候待命。从几家媒体的实测标题看，评价非常分裂。TechCrunch 觉得它“实际上挺有用”，但 The Verge 的编辑直接说这是“最令人印象深刻也最可怕的 AI 体验”。这种恐惧感可能源于它持续在线的特性，让人感觉被时刻注视。目前 TechCrunch 的正文是空的，我们看不到具体的使用场景和性能数据，比如它到底能自动完成哪些任务、响应延迟多高、会不会频繁出错。The Verge 的另一篇标题提到“AI 变得越好，越暴露一个空洞的承诺”，暗示 Spark 虽然能力变强，但可能没解决根本的信任或价值问题。这条新闻值得关注，但先别急着下结论。我们需要等详细的评测出来，看它到底是真能帮人省时间的工具，还是一个让人更焦虑的监控器。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

90

SCORE

H1·K1·R1

15:09

59d ago

AI HOT 精选· aihot-apiZH15:09 · 05·30

OpenAI 送开源维护者半年 Pro，价值 1200 美元，有项目链接就能领

OpenAI 给开源项目维护者发福利：免费领 6 个月 ChatGPT Pro（价值 1200 美元），申请没有硬性 GitHub Star 数要求，只要有项目链接就行。正文还聊了 AI 工具分类：一类是“agent 型”（比如 Claude Code、Codex），能自己跑；另一类是“实习生型”（比如 Cursor），需要人做决策、培养判断力，但缺点...

#Agent#Code#Tools#OpenAI

一句话点评

OpenAI 给开源项目维护者送 6 个月 ChatGPT Pro（价值 1200 美元），申请不卡 GitHub Star 数，有项目链接就行。正文还聊了 AI 工具分类：一类是“agent 型”（如 Claude Code、Codex），能自己跑；另一类是“实习生型”（如 Cursor），需要人做决策、培养判断力，但缺点是需要人在场。作者推荐了网易 UU 远程工具，称免费两年、4K 14...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

14:49

59d ago

TechCrunch AI· rssEN14:49 · 05·30

三位顶级VC吐槽AI投资：19岁创始人已经拿A轮了

一位VC半开玩笑地说，如果你22岁在旧金山做AI，邮箱里可能已经躺着一份种子轮投资意向书；如果你才19岁，那说明你真的很厉害，可能已经拿到A轮了。正文没披露另外两位VC的具体观点，但光这一句就够说明AI投资有多疯狂——年龄越小、估值越高，市场已经卷到看创始人身份证了。

#TechCrunch#Funding#Commentary

一句话点评

一位VC半开玩笑说，22岁在旧金山做AI，邮箱里可能已躺着一份种子轮投资意向书；19岁的话，可能已经拿到A轮了。年龄越小、估值越高，市场已经卷到看创始人身份证了。正文只披露了这一位VC的引语，另外两位的观点没写，信息缺口明显。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

13:51

59d ago

r/LocalLLaMA· rssEN13:51 · 05·30

本地跑语音对话：STT→大模型→TTS 三模型串联

Reddit 用户用 Ubuntu + RTX 3090 跑 Qwen 3.6 27B Q4（llama.cpp），想把语音识别、大模型、语音合成串成一条流水线。正文没披露具体用哪款 STT 和 TTS 模型，所以实际延迟和效果未知。三模型串联意味着显存和推理时间都会叠加，3090 的 24GB 显存跑 27B Q4 已经占了大半，再加两个模型可能得用...

#Audio#Agent#Tools#Qwen

一句话点评

RTX 3090 用户想把语音识别、大模型、语音合成串成一条流水线，但正文没披露具体用哪款 STT 和 TTS 模型，所以实际延迟和效果未知。三模型串联意味着显存和推理时间都会叠加，3090 的 24GB 显存跑 Qwen 3.6 27B Q4 已经占了大半，再加两个模型可能得用更小的量化或轻量模型。这点先别太激动，除非他愿意牺牲质量换速度。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

42

SCORE

H0·K0·R1

13:36

59d ago

r/LocalLLaMA· rssEN13:36 · 05·30

llama-swap 处理并发请求时卡住，第二个请求得等第一个跑完

有用户在 Reddit 反馈，用 llama-swap 跑 Qwen3.6-35B-A3B 模型时，直接连 llama-server 能同时处理 2 个请求，但经过 llama-swap 转发后第二个请求就得排队等第一个结束。配置里 concurrencyLimit 默认是 10，按理说够用，但实际没生效。正文没披露 llama-swap 版本和具体日...

#Inference-opt#Tools#Qwen#llama-swap

一句话点评

llama-swap 转发后并发失效，concurrencyLimit 设了 10 但实际只跑单线程。用户直连 llama-server 能同时处理 2 个请求，过一层代理反而排队。正文没披露 llama-swap 版本和具体配置，可能是旧版 bug 或参数没生效。如果只是转发层卡住，那这个工具在高并发场景下暂时不靠谱。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

45

SCORE

H0·K0·R1

13:33

59d ago

r/LocalLLaMA· rssEN13:33 · 05·30

RTX 5090 跑 Qwen3.5-4B 只有 250 TPS，GPU 利用率才一半

Reddit 用户用 RTX 5090 跑 Qwen3.5-4B，llama.cpp 跑在 Docker 里，解码速度只有 200–250 TPS，GPU 利用率才 50% 左右。设置已经用了 Q4_K_S 量化、32K 上下文、batch size 4096 和 flash attention，但速度还是上不去。这个 TPS 对于 4B 小模型来说偏...

#Inference-opt#Reddit#Qwen#llama.cpp

一句话点评

RTX 5090跑4B小模型只有200-250 TPS，GPU利用率才50%，明显没喂饱。问题可能出在Docker on Windows的虚拟化开销，或者llama.cpp的调度没跟上新架构。正文没披露CPU内存带宽和电源设置，这两点常是瓶颈。如果是纯推理瓶颈，这速度对4B模型算偏低，但如果是交互场景（比如聊天）其实够用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

56

SCORE

H1·K1·R1

13:00

59d ago

FEATUREDAI HOT 精选· aihot-apiZH13:00 · 05·30

有人用 AI 生成假黑人形象，在 TikTok 上卖 Shein 的廉价货

The Verge 记者发现，TikTok、Facebook 和 Instagram 上出现了一批用 AI 生成的“黑人创作者”账号，比如一个叫“Aliyah”的虚构人物，假装是手工匠人，实际在卖 Shein 上 9 美元批来的皮带扣，转手标价 40 美元。这些账号靠 AI 头像和编造的身份故事，利用人们对黑人手工品牌的支持心理来赚差价，本质上就是数字...

#Multimodal#TikTok#Facebook#Instagram

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

用 AI 生成的黑人形象卖 Shein 倒货，9 美元皮带扣转手 40 美元，骗的是支持少数族裔手工品牌的善意。

锐评

The Verge 记者挖出一批 TikTok、Facebook 和 Instagram 上的账号，用 AI 生成的黑人形象假装手工匠人，实际在卖 Shein 上批发的廉价商品。一个叫“Aliyah”的虚构账号，把 9 美元的皮带扣标价 40 美元，靠编造的身份故事赚差价。这本质是数字时代的“黑脸”骗术，利用人们对黑人手工品牌的支持心理来牟利。文章没披露这类账号的总量、销售额或平台处理进度，也没说明 AI 生成形象的具体工具。目前看到的只是个案调查，规模有多大还不清楚。平台对这类虚假身份的审核机制明显没跟上，这点先别太激动，但值得盯着后续平台会不会出规则。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

13:00

59d ago

FEATUREDThe Verge · AI· rssEN13:00 · 05·30

TikTok 上有人用 AI 生成的黑人女性卖 Shein 批发货，视频里哭着求观众多停 13 秒

The Verge 挖出一批 TikTok 账号，用 AI 生成一个叫 Aliyah 的浅肤色黑人女性，穿西部牛仔装，对着镜头哭诉手工皮带扣卖不出去，求观众“哪怕停 13 秒”救救她的生意。实际上 Aliyah 不存在，皮带扣也不是手工做的——不同视频里出现一模一样的扣子，明显是批量生产的 dropshipping 货，源头大概率是 Shein 这类平...

#Multimodal#The Verge#TikTok#Shein

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

用 AI 生成的假黑人女性哭诉卖货，本质是种族身份欺诈加 dropshipping 套路，13 秒停留话术是平台算法漏洞的精准利用。

锐评

这条新闻最值得警惕的不是 AI 造假本身，而是造假者把种族身份当成了流量工具。Aliyah 这个角色被设计成浅肤色黑人女性，穿西部牛仔装，对着镜头哭诉“白人女性更愿意停留 13 秒”——这是在刻意调用观众对黑人小生意主的同情心，同时用种族对比制造争议、拉高互动数据。The Verge 挖出不同视频里出现一模一样的皮带扣，说明货根本不是手工做的，大概率是从 Shein 这类平台批发的 dropshipping 商品。正文没披露这些账号具体跑了多少单、赚了多少钱，也没说 TikTok 是否已经下架相关账号。从报道看，这类操作横跨 TikTok、Facebook、Instagram 三个平台，说明不是个案，而是一套可复制的流水线。还缺两个关键信息：一是平台对 AI 生成内容的标注规则有没有被绕过，二是消费者被骗后有没有退款渠道。如果平台连“这是真人还是 AI”都不强制标注，那这类骗局只会越来越多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

12:31

59d ago

r/LocalLLaMA· rssEN12:31 · 05·30

两张 4060 Ti 跑 Qwen3.6，125 tok/s，硬件不到 1000 美元

Reddit 用户 Chuyito 实测，两张 4060 Ti（共 32GB 显存）跑 Qwen3.6 的 q4xl 量化版，达到 125 tok/s，整机硬件成本不到 1000 美元，功耗约 300W。这个速度对本地部署来说相当快，成本也低。他还问 CUDA 13.3 能不能把同一套配置推到 150 tok/s，但正文没披露可复现的 benchmar...

#Inference-opt#Qwen#NVIDIA#Chuyito

一句话点评

两张 4060 Ti 跑 Qwen3.6 量化版到 125 tok/s，整机不到 1000 美元，本地部署性价比很高。但这是单次用户自测，没公开复现设置，速度可能受 prompt 长度、批大小影响。CUDA 13.3 能否推到 150 tok/s 只是猜测，别太当真。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

67

SCORE

H1·K1·R1

12:17

59d ago

FEATUREDHacker News 首页· rssEN12:17 · 05·30

美国企业因AI成本上升开始限制使用量

华尔街日报报道，随着AI使用成本飙升，美国公司开始限制用量。文章标题说“企业开始配给AI”，但正文被付费墙挡住，没披露具体哪些公司、花了多少钱、怎么限量的。信息缺口：不知道是限制调用次数、按部门分配预算，还是直接砍项目。

#Inference-opt#The Wall Street Journal#Hacker News#Commentary

精选理由

精选 · 重要度 82 · 吸引力 + 共鸣

一句话点评

AI 账单来了，美国公司开始给员工设用量上限。省钱是真疼，但正文没给具体涨了多少。

锐评

这条新闻说的不是 AI 不好用，而是用不起了。WSJ 报道，美国企业因为 AI 成本飙升，开始对内部使用进行配给，也就是限制谁可以用、能用多少。这跟过去两年“全员上 AI”的画风完全不同，说明财务部门开始算账了——模型调用、API 费用、算力消耗这些隐性成本，在规模化推广时会被迅速放大。文章没披露具体的成本涨幅数字，也没说限制的是哪种模型或场景，所以没法判断是通用大模型太贵，还是企业自己没做优化。但信号很明确：AI 在企业里正从“战略投资”变成需要审批的日常开销。如果你所在的公司还没感受到账单压力，可能只是用量还没到临界点。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

82

SCORE

H1·K0·R1

11:59

59d ago

FEATUREDAI HOT 精选· aihot-apiZH11:59 · 05·30

新加坡防务论坛上，专家警告 AI 失控的风险已经超过核武器

在新加坡的香格里拉对话会上，有安全专家提出，AI 给战略稳定带来的威胁现在比核武器更大。核心论据是 AI 会大幅压缩决策时间——人还没反应过来，系统可能已经给出一个看似确定的判断，逼着决策者在几秒内做选择，容易导致误判和冲突升级。文章没有披露具体的演讲者名单和量化对比数据，所以这个“超过核武器”的结论更像是一种警示性排序，而不是有严格指标支撑的评估。

#Safety#Policy#Safety/alignment

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

标题说“AI风险超过核武器”，但正文没给量化对比，更像论坛上的警示排序，别当定论看。

锐评

这条新闻的核心判断来自新加坡香格里拉对话会上的安全专家发言，不是一份有数据支撑的研究报告。专家认为AI对战略稳定的威胁已经超过核武器，主要理由是AI会大幅压缩决策时间——人还没反应过来，系统可能已经给出一个看似确定的判断，逼着决策者在几秒内做选择，容易导致误判和冲突升级。这个逻辑本身说得通，但“超过核武器”这个结论目前还缺量化对比。正文没披露具体是哪些专家、用了什么指标来比较AI和核武器的风险等级，也没说明这个排序是基于发生概率、破坏规模还是可控程度。所以这条新闻的价值在于它反映了一个趋势：在防务圈子里，AI已经被当成头号风险来讨论，而不只是技术圈的话题。至于它是不是真的比核武器更危险，还得看后续有没有更扎实的评估出来。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

11:30

59d ago

FEATUREDAI HOT 精选· aihot-apiZH11:30 · 05·30

Google 把两个新图像模型 Nano Banana Pro 和 Nano Banana 2 挂上了 Gemini API

Google AI Developers 发推说 Nano Banana Pro（对应 gemini-3-pro-image）和 Nano Banana 2（对应 gemini-3.1-flash-image）已经正式发布，可以直接通过 Gemini API 调用。推文里贴了一些社区示例展示效果，但正文没披露定价、跑分、单次生成耗时或调用频率上限，想上...

#Multimodal#Vision#Tools#Google AI Developers

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

Google 发了两个新图像模型，Pro 和 Flash 版，但正文没给定价、速度和并发限制，想上生产先问清楚成本。

锐评

Google 把两个图像生成模型挂上了 Gemini API，Pro 版走 gemini-3-pro-image，Flash 版走 gemini-3.1-flash-image，现在就能直接调用。推文贴了些社区示例，看起来效果不错，但官方没放任何硬指标——没跑分、没单次生成耗时、没并发上限，也没提价格。对想接生产的人来说，这些比示例图重要得多。Flash 版按命名惯例应该是轻量低价路线，Pro 版可能质量更高但更慢更贵，不过这都是猜的，正文一个字没提。建议先拿自己的场景跑几组对比，别光看社区精选图就下单。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

11:04

59d ago

AI HOT 精选· aihot-apiZH11:04 · 05·30

阶跃星辰发了个开源多模态模型，但正文只说了四个字

阶跃星辰在 X 上发帖称发布了一款开源多模态模型，配文只有“小即是美”。正文没披露模型名称、参数量、权重许可证、发布物或基准测试结果，信息缺口很大，目前无法判断模型大小、能力或开源诚意。

#Multimodal#StepFun#Open source#Product update

一句话点评

阶跃星辰发帖说开源了一个多模态模型，配文只有“小即是美”。但正文没披露模型名称、参数量、权重许可证、发布物或基准测试结果，信息缺口很大，目前无法判断模型大小、能力或开源诚意。短评：标题党，信息太少，先别激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

32

SCORE

H0·K0·R0

10:30

59d ago

Hacker News 首页· rssEN10:30 · 05·30

教皇利奥一世首道通谕炮轰“技术救世主义”

《经济学人》报道，教皇利奥一世发布上任后首道通谕，核心是批评“技术救世主义”——即把AI等技术当成解决一切问题的万能药。正文没披露通谕具体引用了哪些技术或案例，也没给出教廷的替代立场。目前这条消息在Hacker News上只有12个点赞和3条评论，讨论热度不高。

#Leo#The Economist#Hacker News#Commentary

一句话点评

教皇Leo一世发通谕批“技术救世主义”，说别把AI当万能药。消息源只有《经济学人》一篇报道，正文没披露通谕具体引用了哪些技术或案例，也没给教廷的替代立场。目前HN上仅12赞3评论，讨论热度很低，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

42

SCORE

H1·K0·R0

10:23

59d ago

r/LocalLLaMA· rssEN10:23 · 05·30

Fulloch V2：16GB显存跑全本地语音助手，能控制智能家居和记笔记

Fulloch V2 是一个完全本地的语音助手项目，16GB 显存就能跑。它用 Qwen3.5-9B 做对话模型（量化到 Q5_K_M 省显存），Qwen3-1.7B 做语音识别和语音合成，外加 bge 向量模型做语音语义搜索。功能上能控制 Home Assistant 智能家居，也能读写 Obsidian 笔记。支持语音打断、自定义唤醒词，Linux...

#Agent#Audio#Embedding#Fulloch

一句话点评

16GB显存就能跑全本地语音助手，控制智能家居和记笔记，挺实用。但正文被墙，没看到延迟和打断成功率，这两点对体验很关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

10:17

59d ago

彭博科技· rssEN10:17 · 05·30

Anthropic 把禁止接入的平台名单砍了一半，因为被骂了

Anthropic 把禁止第三方平台调用其模型的名单砍了一半，原因是遭到了反对。但正文只返回了 Bloomberg 的机器人验证页面，没有披露名单具体包含哪些平台、反对来自谁、以及执行条件。信息缺口：名单范围、反对来源、受影响平台、执行条件均未公开。

#Anthropic#Bloomberg#Policy

一句话点评

Anthropic 把禁止第三方平台调用其模型的名单砍了一半，原因是遭到了反对。但正文被 Bloomberg 的机器人验证页挡住了，没披露名单具体包含哪些平台、反对来自谁、以及执行条件。信息缺口：名单范围、反对来源、受影响平台、执行条件均未公开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

09:56

59d ago

r/LocalLLaMA· rssEN09:56 · 05·30

Pantheon-Reasoning-27B：一个能边推理边角色扮演的模型，基于Qwen 3.6，无审查

Gryphe 放出了 Pantheon-Reasoning-27B，一个基于 Qwen 3.6 的 27B 稠密模型，主打推理型角色扮演，且无审查。训练数据里约 28% 是自家 Pantheon 数据，21% 是 Opus-4.6-Reasoning-24k（用大模型生成的推理样本），16% 是 WorldSim（世界模拟），16% 是文字冒险，16%...

#Reasoning#Fine-tuning#Code#Gryphe

一句话点评

Gryphe 基于 Qwen 3.6 微调的 27B 稠密模型，主打推理型角色扮演，无审查。训练数据里 28% 自家 Pantheon 数据、21% 大模型生成的推理样本，其余是文字冒险和通用角色扮演。多轮对话保留思考标签，适合需要角色持续推理的场景。但正文没披露具体评测分数，角色扮演的“推理”效果和普通 RP 模型差多少还不清楚。27B 参数在消费级显卡上能跑，但推理速度会慢。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

67

SCORE

H1·K1·R1

09:40

59d ago

r/LocalLLaMA· rssEN09:40 · 05·30

用嘴哼一声就能生成音效，这个开源项目把拟声变成声音

VTS 让你输入一段人声模仿（比如“嗖——”）再加一段文字描述，就能生成对应的音效文件。项目已开源，GitHub 上有代码和 demo，但正文没披露模型参数量、用了多少训练数据、以及生成质量怎么评估。如果效果靠谱，做游戏或短视频的人可以省掉翻音效库的时间。

#Audio#Multimodal#GitHub#Danny-1257

一句话点评

VTS 让你对着麦克风“嗖——”一声，再加句文字描述，就能生成音效文件。做游戏或短视频的人可以省掉翻音效库的时间。但正文没披露模型参数量、训练数据规模，也没给生成质量评估。如果效果靠谱，这算一条低成本音效生成路径，但验证还不够。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

66

SCORE

H1·K1·R0

09:03

59d ago

r/LocalLLaMA· rssEN09:03 · 05·30

Vidai Community 发布：一个 Rust 二进制文件搞定 LLM 调用的成本归属、护栏和多供应商路由

Vidai Community 发布了一个 25 MB 的 Rust 二进制文件，能在每次 LLM 调用时做成本归属、预算截断、护栏检查和多供应商路由。官方测试单节点吞吐量 21,803 RPS，中位额外延迟仅 1.95 毫秒——延迟很低，适合生产环境。不过正文没披露具体支持哪些供应商、护栏规则怎么配置，也没说预算截断是硬限制还是软提醒。

#Tools#Safety#Inference-opt#Vidai

一句话点评

Vidai 把成本归属、护栏检查、多供应商路由打包成一个 25 MB 的 Rust 二进制，单节点吞吐 21,803 RPS，额外延迟中位数仅 1.95 毫秒——这个延迟几乎不影响生产调用。但正文没披露支持哪些供应商、护栏规则怎么配，也没说预算截断是硬限制还是软提醒。如果配置灵活，这算一个轻量级网关方案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

08:32

59d ago

Hacker News 首页· rssEN08:32 · 05·30

Rsync 3.4.3 翻车：36 个提交全是 Claude 写的，增量备份直接挂了

用户升级 rsync 3.4.3 后，依赖 --compare-dest 参数的增量备份全部失效，降回 3.4.1 就正常。去 GitHub 翻源码发现，3.4.1 之后 36 个提交的署名都是“tridge and claude”，changelog 里却只字未提 AI 参与。目前已知一个 GitHub issue（#915）在讨论，但正文没披露具体...

#Code#Rsync#Claude#Commentary

一句话点评

Rsync 3.4.3 的 36 个提交署名都是“tridge and claude”，changelog 只字不提 AI 参与。用户升级后增量备份直接挂掉，降回 3.4.1 就正常。目前只有一个 GitHub issue（#915）在讨论，正文没披露这些提交是否经过人工 review、改动范围多大。如果是真的，等于一个核心系统工具在用户不知情的情况下被 AI 批量改代码，且没做回归测试。这...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

63

SCORE

H1·K0·R1

08:12

59d ago

FEATUREDr/LocalLLaMA· rssEN08:12 · 05·30

把一块 RTX Pro 6000 塞进 2016 年的戴尔 R730 服务器，跑 65 万 token 上下文

作者想把一块最新的 RTX Pro 6000 Blackwell 显卡装进一台 2016 年的戴尔 PowerEdge R730 服务器里，目标是搭一台能跑 65 万 token 上下文的本地 AI 盒子。过程不顺利：先要切掉风扇导流罩才能把卡塞进去，接着用双 riser 卡解决供电，然后系统卡在 PCIe BAR 分配上，根本认不到全部显存。后面就是...

#Inference-opt#NVIDIA#Dell#Commentary

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

把一张2026年的显卡塞进2016年的服务器，主要卡在PCIe BAR分配上，系统认不全显存，正文没披露最终是否跑通了65万token上下文。

锐评

这篇帖子记录了一次硬核折腾：作者想把NVIDIA RTX Pro 6000 Blackwell装进一台老旧的戴尔R730服务器，目标是在本地跑65万token上下文的大模型。过程很真实，先切风扇导流罩，再用双riser卡解决供电，但真正的麻烦是PCIe BAR分配——老平台无法给新显卡分配足够的地址空间，导致系统认不全显存。作者尝试了ACPI/DSDT检查、调整MMIO aperture、测试Linux内核的PCIe启动参数，但正文被Reddit安全策略拦截，后续细节和最终结果都没披露。这条信息对想用旧服务器搭AI盒子的人有参考价值：它点出了老平台的主要瓶颈不是供电或物理尺寸，而是PCIe资源分配。但关键信息缺失严重——到底跑没跑起来？65万token上下文是实测还是理论值？延迟和稳定性怎么样？这些都没说。如果你手头有类似设备，可以先检查主板的MMIO上限，别急着买卡。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

07:36

59d ago

r/LocalLLaMA· rssEN07:36 · 05·30

Shadow AI：一个纯本地的 Windows 语音助手，自带记忆和提醒，但得自己掏 Gemini 的 API 钱

一个叫 Shadow AI 的开源项目，让你在 Windows 上跟 AI 语音聊天，支持多语言、连续对话，还能联网搜索（用的 SearXNG）、记事情、设提醒，甚至能连 Google 日历。所有东西都跑在你自己的电脑上（127.0.0.1），数据不出门。但注意，它不包模型费用——你得自己搞一个 Gemini API key 塞进去，相当于你买了个车但...

#Audio#Tools#Memory#Shadow AI

一句话点评

Shadow AI 是个 Windows 本地语音助手，开源，但模型得自己带——插个 Gemini API key 才能用。支持多语言连续对话、联网搜索、记提醒、连 Google 日历，全跑在本地 127.0.0.1，数据不出门。好处是隐私可控，坏处是 Gemini 按量收费，长期用成本不低。正文没披露延迟和语音识别精度，这点先别太激动。如果是轻度尝鲜或隐私敏感场景，值得一试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

07:25

59d ago

AI HOT 精选· aihot-apiZH07:25 · 05·30

最后一次技术面试

Steve Yegge 发了一篇长文，说传统技术面试已经走到头了。他在 Amazon 当过 Bar Raiser（面试把关人），在 Google 干过招聘委员会，结论是：面试评分跟实际工作表现几乎没关系，同一个候选人两个面试官能给出“强烈推荐”和“直接拒”两种结果，Google 内部统计也证实了这一点。文章正文没披露具体替代方案，只说要彻底换一套评估人...

#Steve Yegge#Medium#Hacker News#Commentary

一句话点评

Steve Yegge（前Amazon Bar Raiser、Google招聘委员会成员）发文判死刑：传统技术面试评分跟实际工作表现几乎没关系，同一个候选人两个面试官能给出“强烈推荐”和“直接拒”两种结果。Google内部统计也证实了这一点。正文没披露具体替代方案，只说要彻底换一套评估人的方式。短评：面试圈最敢说的人之一盖章了，但替代方案没给，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

64

SCORE

H1·K0·R1

07:11

59d ago

r/LocalLLaMA· rssEN07:11 · 05·30

两台电脑（5090+4080）能联网一起跑本地大模型吗？

Reddit 用户有两台 PC，一台 RTX 5090 + 64GB DDR5，另一台 RTX 4080 + 192GB DDR5，想通过局域网把两张显卡合起来跑本地大模型。他问有没有像 LM Studio 那样一键就能用的工具，如果没有，为什么没人做。正文没披露具体推理框架、网络配置或实测延迟，所以没法判断实际效率。目前主流方案是 vLLM 或 ll...

#Inference-opt#Tools#LM Studio#JanAI

一句话点评

两台PC（5090+4080）想合起来跑本地大模型，但没找到一键工具。目前主流方案是vLLM或llama.cpp做分布式推理，但网络延迟会吃掉不少性能，尤其跨机传输中间层数据比单卡慢很多。正文没披露网络配置和实测延迟，所以没法判断实际效率。用户想要LM Studio那种开箱即用体验，但分布式推理的调试门槛高、收益不确定，确实没人愿意做成傻瓜产品。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

45

SCORE

H1·K0·R1

07:00

59d ago

FEATURED新智元 · 公众号· rssZH07:00 · 05·30

Anthropic 内部流出一份 Claude 流畅度评分表，最高 11 分，优秀人类能拿 7.5

这份评分表把用户跟 Claude 的对话拆成 11 个可观察的行为指标来打分，满分 11 分。背后的研究用了 9830 组匿名多轮对话，发现高质量对话里 85.7% 都出现了“反复修改追问”这个动作。正文没披露具体评分细则和实验设计细节，目前只能看到评分框架，所以这个 7.5 分到底怎么算出来的还不清楚，先别太激动。

#Benchmarking#Tools#Safety#Anthropic

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

Anthropic 搞了个给用户打分的 Claude 流畅度评分表，满分 11 分，说“优秀人类”能拿 7.5 分。但正文没披露评分细则，这个分数怎么算出来的还不清楚，先别太激动。

锐评

Anthropic 把用户跟 Claude 的对话拆成 11 个可观察的行为指标来打分，比如会不会反复修改追问、有没有把 AI 当同事协作。背后的研究用了 9830 组匿名多轮对话，发现高质量对话里 85.7% 都出现了“反复修改追问”这个动作，说明跟模型来回打磨是出好结果的关键习惯。但这条新闻的信息缺口很大。正文只给了评分框架的轮廓，没披露具体每项指标怎么量化、权重怎么分配，也没说 7.5 分这个“优秀线”是从哪批样本里划出来的。是内部员工的平均分，还是那 9830 组对话的统计结果？不知道。另外，评分表目前覆盖 Chat、Cowork 和 Claude Code 三种场景，但不同场景下“好对话”的标准应该不一样，文章没解释怎么统一打分。我会先打个折：这更像一个还在打磨的内部实验，不是马上要推给用户的产品功能。它有意思的地方在于把“人怎么用 AI”这件事量化了，但离一个靠谱的评分系统还差实验设计、样本分布和跨场景一致性这些关键信息。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

07:00

59d ago

FEATURED新智元 · 公众号· rssZH07:00 · 05·30

Opus 4.8 算了一夜，把 1170 亿人的投胎概率做成了模拟器

这篇文章的正文被微信环境异常页挡住了，实际内容没抓到。从标题和已有英文摘要看，沃顿商学院教授 Ethan Mollick 用 Claude Opus 4.8 生成了一个叫“历史之幕”的网站，把人类历史上约 1170 亿次出生做成加权随机模拟，跑了 4000 轮蒙特卡洛来估算你投胎到不同地区和时代的概率。但具体怎么算的、模型代码怎么写的、有没有幻觉或偏差...

#Agent#Code#Reasoning#Anthropic

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

沃顿教授用 Claude Opus 4.8 跑了个“投胎模拟器”，算尽 1170 亿次出生，但正文被微信环境异常页挡了，具体实现细节和代码质量全看不到。

锐评

这条新闻的噱头很足，但信息缺口也很大。Ethan Mollick 让 Claude Opus 4.8 直接生成一个网站，把人类历史上约 1170 亿次出生做成加权随机模拟，跑了 4000 轮蒙特卡洛来估算你投胎到不同地区和时代的概率。这本质上是一次模型长链条代码生成和前端部署能力的展示，说明 Opus 4.8 能独立完成从数据建模到网页上线的完整任务。但正文被微信环境异常页挡住了，我们看不到任何实际代码、模型提示词或运行日志。4000 轮蒙特卡洛这个数字本身不说明精度，因为没披露权重怎么设的、历史人口数据从哪来、模型有没有在计算中产生幻觉或偏差。我会先打个折：这更像一个教学演示项目，而不是严谨的人口学模拟。还缺的是：模型生成代码的一次通过率、有没有人工介入修改、以及运行成本。如果 Mollick 后续公开了完整对话记录和代码仓库，这条新闻的价值才能坐实。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

06:51

59d ago

AI 群聊日报· atomZH06:51 · 05·30

群聊日报：Dynamic Workflow 实测“快但敷衍”，Opus 4.8 秒杀旧任务但爱反问

群友实测 Dynamic Workflow，十分钟跑完但只做了最简单的部分，token 消耗大，结论是“吸收思想，不是无脑用”。Opus 4.8 解决了 4.7 搞不定的逆向任务，但会为 trivial 选择停下来反问，骂一顿就好。AI 短剧分析指出制作成本降到 30 万以下，但利润全被渠道抽走，创作者没有议价能力。

#Agent#Code#Tools#Oh My OpenCode

一句话点评

群友实测 Dynamic Workflow：十分钟跑完但只做了最简单的部分，token 消耗大，结论是“吸收思想，不是无脑用”。Opus 4.8 解决了 4.7 搞不定的逆向任务，但会为 trivial 选择停下来反问，骂一顿就好。AI 短剧分析指出制作成本降到 30 万以下，但利润全被渠道抽走，创作者没有议价能力。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

58

SCORE

H0·K1·R0

04:56

59d ago

r/LocalLLaMA· rssEN04:56 · 05·30

MOSS TTS 1.5 语音克隆效果不错，有人觉得比 Fish Audio 好用

Reddit 用户分享了 OpenMOSS-Team 的 MOSS-TTS-v1.5 在线演示，说语音克隆质量很好，自己更喜欢它而不是 Fish Audio S2 Pro，原因是 Fish Audio 不让商用。正文没披露训练数据量、克隆所需音频时长或延迟数据，所以没法判断实际门槛和成本。

#Audio#OpenMOSS-Team#Fish Audio#Long Cat DiT

一句话点评

OpenMOSS 刚放出的 MOSS-TTS-v1.5 语音克隆效果不错，Reddit 用户说比 Fish Audio S2 Pro 还好听，而且后者不让商用。但正文没披露克隆需要几秒音频、延迟多少、训练数据量多大，所以实际门槛和成本未知。如果是零样本克隆且延迟低，那确实值得关注。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

04:48

59d ago

FEATURED彭博科技· rssEN04:48 · 05·30

MiniMax 启动国内上市准备，招股书里把 DeepSeek 列为对手

MiniMax 已经向监管提交了文件，开始筹备在国内上市。招股书里点名 DeepSeek 是本土竞争对手。不过正文被 Bloomberg 的反爬机制挡住了，没拿到具体内容，所以估值、募资规模、上市板块和时间表这些关键信息目前都看不到。

#MiniMax#DeepSeek#Funding

精选理由

精选 · 重要度 84 · 吸引力 + 知识量 + 共鸣

一句话点评

MiniMax 启动国内上市流程，招股书点名 DeepSeek 为对手，但估值、募资额、板块全被 Bloomberg 反爬挡了，正文没拿到。

锐评

MiniMax 已经向监管交了材料，开始筹备国内 IPO，招股书里直接把 DeepSeek 列为本土竞争对手，说明它想讲一个“中国 AI 大模型第一梯队”的资本故事。但这条消息目前只有一个标题和摘要，Bloomberg 正文被反爬机制拦了，所以估值、募资规模、上市板块、时间表这些关键数字全看不到。我会先打个折：招股书点名对手是常规操作，不代表业务上真能对标。MiniMax 的语音和视频生成产品在 C 端有存在感，但跟 DeepSeek 这种靠开源模型和极低推理成本打出声量的路线不太一样。它到底拿什么数据说服二级市场，现在还缺招股书里的营收结构、客户集中度和研发投入占比。这点先别太激动，等招股书细节出来再看它是不是真能撑起一个 AI 上市标的。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

84

SCORE

H1·K1·R1

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户