ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-05-30

58 items · updated 3m ago
RSS live
2026-05-30 · 星期六2026年5月30日
23:47
13d ago
Product Hunt · AI· rssEN23:47 · 05·30
Typeahead:Mac 全局 AI 自动补全,本地运行、离线可用
Typeahead 是一个 Mac 应用,能在系统里所有输入框里给你做 AI 自动补全——你打字时它会在光标处弹出建议,帮你写得更快。它用的是本地 AI 模型,所以完全离线工作,你的文字不会上传。这点对隐私敏感的用户挺友好。不过正文没披露具体用了什么模型、多大参数量,也没说定价和正式上线日期。目前 Product Hunt 上 270 票、2 条评价,...
#Tools#Typeahead#Product update
精选理由
一个 Product Hunt 级别的小工具发布。HKR-K 通过是因为 Mac 全局 AI 自动补全这个功能点可测试,但 H 和 R 都很弱:正文没披露模型、定价、隐私和离线细节,信息缺口大,先别太激动。
一句话点评
Typeahead 在 Mac 所有输入框里做 AI 自动补全,打字时弹出建议,本地模型离线运行,数据不上传,隐私友好。但正文没披露具体模型、参数量、定价和上线日期,Product Hunt 上 270 票、2 条评价,验证很弱。短评:本地离线补全挺省心,但模型和效果未知,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H0·K1·R0
22:55
13d ago
r/LocalLLaMA· rssEN22:55 · 05·30
Best Buy 线下清仓:5060 Ti 16GB 卖 300 美元,5070 Ti 16GB 卖 700 美元
Reddit 用户爆料 Best Buy 实体店清仓价:5060 Ti 16GB 只要 300 美元(约 2100 元),5070 Ti 16GB 卖 700 美元(约 4900 元)。16GB 显存对本地跑大模型很实用,这个价格比正常零售便宜不少。不过得去店里碰运气,线上库存还有但价格可能不同,而且正文没披露具体门店和数量,能不能买到看当地情况。
#Inference-opt#Best Buy#Nvidia#Product update
精选理由
H/K/R 三项都过:价格、SKU、店内条件都很具体,显存成本对 LocalLLaMA 用户是硬需求。但来源只有一个 Reddit 帖子,且是店内清仓,时效和地域限制明显,所以落在 40–59 分区间。
一句话点评
Best Buy 实体店清仓,5060 Ti 16GB 只要 300 美元(约 2100 元),5070 Ti 16GB 卖 700 美元(约 4900 元)。16GB 显存对本地跑大模型很实用,这个价格比正常零售便宜不少。不过得去店里碰运气,线上库存还有但价格可能不同,而且正文没披露具体门店和数量,能不能买到看当地情况。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K1·R1
21:05
13d ago
Hacker News 首页· rssEN21:05 · 05·30
Rotary GPU:显存不够也能跑大MoE模型,8GB笔记本实测21 tokens/s
这篇论文没搞新架构,而是解决一个实际问题:大模型训练好之后,能不能在普通硬件上跑起来?作者用一台RTX 4060(8GB显存)的笔记本,跑了一个Qwen3.6-35B-A3B类的MoE模型(混合专家模型,每次只激活一部分参数),生成了2048个token,显存占用约6.3GB,解码速度21 tokens/s。这个速度不算快,但能在8GB卡上跑35B级模...
#Inference-opt#Research release
精选理由
H 和 R 都成立:标题本身就是一个点击钩子,本地跑大 MoE 对应的是显存不够的现实痛点。K 不成立,因为 RSS 正文信息量几乎为零,只有标题、arXiv 链接、评分和评论数,没有方法、显存占用或推理速度等可验证细节,所以这条只能留在 all 里,等更多信息出来再判断。
一句话点评
一篇论文用RTX 4060(8GB显存)笔记本跑35B级MoE模型,生成2048个token,显存占用6.3GB,解码速度21 tokens/s。速度不算快,但能在8GB卡上跑35B模型这点挺省钱。不过这是单作者论文,方法基于作者之前专利,验证规模小,只测了一个模型和一个场景,没披露精度损失或对比基线。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
20:36
13d ago
r/LocalLLaMA· rssEN20:36 · 05·30
M1 Max 笔记本跑 Qwen 3.6 35B MoE,纯本地不插电写代码
Reddit 用户发帖说在 M1 Max 上用 Zoo Code 跑通了 Qwen 3.6 35B MoE 模型,完全本地运行、靠电池供电就能当编程助手。帖子标题很兴奋,但正文被屏蔽了,所以没披露用了什么量化、占多少内存、每秒能吐几个 token、以及电池能撑多久。35B MoE 的激活参数量大概在 10B 左右,M1 Max 有 64GB 统一内存,...
#Code#Inference-opt#Qwen#Zoo Code
精选理由
HKR-H 和 HKR-R 成立,但 HKR-K 不成立:这只是一个 Reddit 用户的个人体验,标题信息量大于正文,没有可复现的指标。归入 all 层级,不上推荐位。
一句话点评
M1 Max 跑 Qwen 3.6 35B MoE 本地编程助手,听起来很香,但正文被屏蔽了,关键信息全缺:用了什么量化、内存占用多少、生成速度多快、电池能撑多久。35B MoE 激活参数约 10B,M1 Max 有 64GB 统一内存,跑得动不意外,但实际体验和续航才是重点。短评:标题很兴奋,但正文被屏蔽,量化、速度、续航全没披露,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
19:14
13d ago
r/LocalLLaMA· rssEN19:14 · 05·30
给AI加长期记忆,什么功能最管用?
Reddit用户dangerous_inference分享了一个叫“瞬态自动记忆”的功能,能让助手在几个月测试中保持连贯对话。正文没披露具体怎么实现、怎么存、怎么检索,也没给评测指标。
#Memory#Reddit#LocalLLaMA#dangerous_inference
精选理由
Reddit 用户 dangerous_inference 在 LocalLLaMA 版发帖问大家自定义记忆系统里哪些功能改进最大,顺便提了一嘴自己的 transient auto-memory 能让助手记住几个月测试内容。正文没披露实现机制、存储结构、检索条件或评测指标,所以知识价值很低。但可靠性这条戳中了自建记忆系统的常见坑——长期记忆容易丢、容易混,所以对正在搭这类系统的开发者有共鸣价值。整体信息密度低,不值得高优先级推送。
一句话点评
Reddit 用户 dangerous_inference 说搞了个“瞬态自动记忆”功能,让助手在几个月测试里保持对话连贯。但正文没披露怎么存、怎么检索、用了什么评测指标,连实现细节都没给。目前只能当个概念听,别急着抄。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K0·R1
19:02
13d ago
Hacker News 首页· rssEN19:02 · 05·30
四大会计师事务所之一的安永,发了一份满是幻觉引用的网络安全报告
GPTZero 调查发现,安永加拿大在 2025 年发布的一份关于会员积分系统网络安全的报告,里面 27 条引用里超过一半是编的,链接打不开,标题对不上真实文章。报告本身也被 AI 检测工具判定有 72% 可能是 AI 写的。GPTZero 说这是“氛围引用”的典型——作者用大模型生成文本和参考文献,但没核实。这事麻烦在于,这类报告会被媒体、博客和 A...
#Ernst & Young#GPTZero#Hacker News#Incident
精选理由
H 和 R 两条通过:安永的网络安全报告被指幻觉,这个企业信任反差够大,从业者会关心大模型在严肃场景下的可靠性。K 不通过:正文只有标题、HN 分数和评论数,没有幻觉样例,也没有核查方法,信息缺口太大,上不了推荐位。
一句话点评
安永加拿大一份2025年网络安全报告被GPTZero查出27条引用里超一半是编的,链接打不开,标题对不上。报告本身也被AI检测工具判定72%可能是AI写的。GPTZero管这叫“氛围引用”——作者用大模型生成文本和参考文献但不核实。麻烦在于这类报告会被媒体和AI搜索当事实引用,污染下游数据。安永没回应。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
18:43
13d ago
r/LocalLLaMA· rssEN18:43 · 05·30
本地个人助手加记忆后体验如何?一个用户试了四种记忆机制
一位Reddit用户用Qwen 3.5/3.6 27B搭了本地自主智能体,加了四种记忆机制:一个叫memory.md的长期笔记文件、每日摘要、自我反思、以及重要事件追踪。正文被屏蔽了,没披露具体效果和延迟数据,但思路是让助手记住用户偏好和长期对话上下文,而不是每次从零开始。对做本地助手的开发者来说,这套记忆分层设计值得参考,但实际体验提升多大、跑起来卡...
#Agent#Memory#Tools#Qwen
精选理由
Reddit 用户分享用 Qwen 3.5/3.6 27B 跑本地自治 Agent,加了四种记忆:memory.md(长期笔记)、日总结(每日压缩)、自反思(自我修正)、重大事件跟踪(关键节点)。方案具体,但正文没披露记忆容量、检索延迟或成功率,属于经验帖而非可复现评测。对做本地 Agent 的人有参考价值,但验证弱,所以分数压在 60–71 区间。
一句话点评
一位Reddit用户用Qwen 3.5/3.6 27B搭了本地自主智能体,加了四种记忆机制:长期笔记文件memory.md、每日摘要、自我反思、重要事件追踪。思路是让助手记住用户偏好和长期对话上下文,而不是每次从零开始。正文被屏蔽,没披露具体效果和延迟数据,但记忆分层设计对做本地助手的开发者有参考价值。实际体验提升多大、跑起来卡不卡,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
18:39
13d ago
● P1FT · 科技· rssEN18:39 · 05·30
SoftBank承诺750亿欧元在法国建设欧洲最大AI设施
软银说要砸750亿欧元在法国建一个欧洲最大的AI设施。不过目前能看到的正文只有FT的403安全验证页面,具体建多大、什么时候建成、跟谁合作、用什么技术方案,这些关键信息全都没披露。这个数字本身挺唬人的,但正文没给任何细节,先别太激动。
#SoftBank#Financial Times#Funding
精选理由
标题信息量不小,但正文被付费墙挡死了,实际内容为零。软银 750 亿欧元的数字很大,说明资本在算力基建上还在加码,法国被选为落脚点也值得关注。不过我会先打个折——没看到具体规划、合作伙伴或落地时间,这些都还是空白,所以重要性给到 82 已经算给面子了,再高就虚了。
一句话点评
750亿欧元是个大饼,目前只是意向,钱还没到账。法国想借机搞AI主权,但正文没披露具体落地时间表和约束条款,先别太激动。
锐评
孙正义这次画了个超级大饼:承诺在法国砸750亿欧元建数据中心,号称欧洲最大AI设施。数字看着吓人,但这是多年累计投资额,不是一次性到账。FT另一篇报道点出了关键——这个项目绑着“AI主权”的旗号,但具体怎么绑、法国政府给了什么优惠、软银自己出多少还是拉基金一起投,正文都没写清楚。 对从业者来说,如果真能落地,意味着欧洲多了一大块算力供给,可能拉低推理和训练成本。但软银过往在WeWork等项目的执行记录,让人不得不打折看待这个承诺。目前连选址、电力供应、芯片来源这些硬指标都没披露,更像是一份政治合作备忘录而非工程计划。 还缺什么:分阶段投资节点、软银自有资金比例、法国政府的补贴或税收优惠细节、以及建成后的算力定价模式。这些信息不出来,750亿就只是个数字。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
18:18
13d ago
r/LocalLLaMA· rssEN18:18 · 05·30
Parallax:用可学习投影替代数值求解,让线性注意力追上FlashAttention
Parallax把之前Local Linear Attention(LLA)里用数值求解器算KV协方差那步,换成了一个类似query的投影层,让模型自己学怎么从KV里提取协方差信息。作者在0.6B和1.7B参数规模上做了预训练验证,困惑度有改善,下游任务也跟着涨。更实际的是,他们写了一个解码推理的kernel,在多种batch size和上下文长度下速...
#Inference-opt#Benchmarking#Research release#Benchmark
精选理由
正文只给了困惑度下降这个结论,没披露具体降了多少、在什么任务上测的,也没说训练成本省了多少。信息量偏少,所以兴趣分不高。
一句话点评
Parallax 把 Local Linear Attention 里用数值求解器算协方差的步骤,换成一个类似 query 的投影层让模型自己学,省掉了求解器开销。0.6B 和 1.7B 模型预训练后困惑度下降,下游任务也涨了。更实用的是他们写的解码 kernel 在多种 batch size 和上下文长度下速度持平甚至超过 FlashAttention 2/3。不过正文没披露 kernel...
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R1
17:49
13d ago
r/LocalLLaMA· rssEN17:49 · 05·30
英伟达把Qwen 35B模型压到4位,显存省3倍,跑分几乎没掉
英伟达放出了一个NVFP4量化版的Qwen3.6-35B-A3B模型,专门给vLLM推理用。量化就是把模型权重从16位压缩到4位,磁盘和显存占用直接降到原来的三分之一左右。关键是跑分没怎么缩水——MMLU Pro、GPQA Diamond、AIME 2025、MMMU PRO这几个基准上跟BF16版本几乎持平。对于想省显存又不想牺牲太多性能的人来说,这...
#Inference-opt#Benchmarking#NVIDIA#Qwen
精选理由
这是一次量化权重发布,不是新模型或能力升级。NVFP4 把 35B 模型压到 4 位,显存和磁盘需求降了约 3 倍,对本地推理用户是实打实的利好。但正文没披露精度损失或实际推理速度对比,这点先别太激动。信息够用但单一,所以分数落在 60–71 区间。
一句话点评
英伟达把Qwen3.6-35B-A3B的权重从16位压到4位,显存和磁盘占用降到原来的三分之一,跑分却几乎没掉——MMLU Pro、GPQA Diamond这些基准跟BF16版持平。对本地部署来说,省显存又不牺牲性能,挺实用。但注意:这是NVFP4格式,目前只支持vLLM推理,其他框架用不了;量化后的实际推理速度、长文本表现和部署稳定性,正文都没披露。另外,跑分持平不代表所有场景都无损,尤其...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
16:37
13d ago
r/LocalLLaMA· rssEN16:37 · 05·30
DGX Spark 和 4 张 3090 比微调,哪个更划算?
一个学生用户纠结买 DGX Spark 还是组 4 张 RTX 3090 来微调大模型。帖子没透露速度、显存或功耗数据,只说了研究方向是机械可解释性,预算有限,担心家里电费扛不住,也怕 3090 太老容易坏。所以目前没法直接比性能,只能看出 Spark 省电省心但贵,4x 3090 便宜但电老虎且硬件风险高。
#Fine-tuning#Interpretability#NVIDIA#kidfromtheast
精选理由
HKR-H 和 HKR-R 勉强过关,但 HKR-K 不达标。这是一条 Reddit 咨询帖,没有跑分、定价或功耗数据,属于低价值讨论。
一句话点评
一个学生纠结买DGX Spark还是组4张3090微调模型,但帖子没给速度、显存或功耗数据,只说了研究方向是机械可解释性、预算有限、怕电费高、怕3090太老坏掉。所以没法直接比性能,只能看出Spark省电省心但贵,4x3090便宜但电老虎且硬件风险高。短评:没数据,只能比电费和赌人品。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
16:30
13d ago
● P1TechCrunch AI· rssEN16:30 · 05·30
GitHub Copilot 改为按 token 计费模式
GitHub Copilot 要改成按 token 计费,开发者普遍不满。TechCrunch 报道只引了一句评论,没披露具体价格、用量额度或生效日期,所以目前只能确认收费模式变了,但到底贵多少、怎么算还不清楚。
#Code#GitHub#Microsoft#TechCrunch
精选理由
H 和 R 通过:Copilot 改计费直接影响开发者成本,且已有明显反弹。K 不通过:RSS 正文只有一句评论,缺价格、额度和时间,不值得上头条。
一句话点评
Copilot 从按人头收费改成按 token 用量收费,开发者直接炸了。
锐评
GitHub Copilot 把计费模式从固定月费改成按 token 消耗算钱,开发者社区反应激烈,标题直接用了“开玩笑吧”。这事的核心矛盾在于:写代码时模型自动补全产生的 token 量很难预估,用户怕账单失控。目前两篇报道都只给了标题和情绪,正文没披露具体单价、免费额度或 token 计算规则,也没看到 GitHub 官方的完整解释。我会先打个折——如果单价定得低、有硬上限,可能实际支出变化不大;但如果按对话模型那种按量计费直接套到代码补全上,高频用户的成本会明显上涨。还缺三个关键信息:每千 token 的价格、是否保留免费层、以及 IDE 内补全和聊天分别怎么算 token。这些没出来之前,开发者骂得有理,但结论别下太早。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K0·R1
16:12
13d ago
r/LocalLLaMA· rssEN16:12 · 05·30
为什么思考过程吐的 token 比最终回答还多?
Reddit 用户 iMakeSense 想用本地大模型给 1000 条数据打标签,结果模型只返回了约 100 条。问题出在思考痕迹(thinking trace)里把输入 token 和大量推理文本都输出了,导致 token 消耗远超预期。帖子没透露具体用的哪个模型,也没解释为什么最终输出会少那么多——可能是思考过程截断了,也可能是模型没按要求执行。
#Reasoning#Embedding#Reddit#LocalLLaMA
精选理由
H和R成立:思考输出比回答长是本地模型用户的真实痛点,反直觉且能引发共鸣。K不成立:帖子没披露模型名、token数、设置参数,信息缺口太大,没法验证或复现,所以留在all层级。
一句话点评
用本地模型给1000条数据打标签,结果只返回了约100条,token却烧掉一大半——因为思考痕迹把输入和推理过程全输出了。帖子没说是哪个模型,也没解释为什么输出少那么多,可能是思考截断或指令没执行。如果模型把推理过程当最终输出,那token预算得翻几倍,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
15:59
13d ago
TechCrunch AI· rssEN15:59 · 05·30
Meta 被曝正在做 AI 挂坠
TechCrunch 援引消息称 Meta 在开发一款 AI 挂坠,但正文只说了公司在大手笔押注 AI 硬件,没披露规格、价格、发布时间、传感器、模型或交互方式。目前信息缺口很大,没法判断它跟 Rabbit R1、Humane AI Pin 有什么实质区别。
#Meta#Product update
精选理由
H 和 R 过关,因为 Meta 的 AI 吊坠是个有画面感的硬件传闻,能吸引点击和讨论。K 不过关:没参数、没价格、没发布时间、没交互方式,信息缺口太大。当一条薄传闻处理,不值得上推荐位。
一句话点评
Meta 被曝在搞 AI 挂坠,但正文只说了“公司在押注 AI 硬件”,规格、价格、发布时间、传感器、模型、交互方式全没提。目前信息缺口太大,没法判断它跟 Rabbit R1、Humane AI Pin 有什么实质区别。 短评:消息源只说了Meta在做AI挂坠,其他一概没披露,先别激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
15:30
13d ago
● P1TechCrunch AI· rssEN15:30 · 05·30
谷歌推出Gemini Spark 24/7 AI助手产品
TechCrunch 的编辑实测了谷歌新推出的 Gemini Spark,把它当成一个全天候 AI 助手来用,主要干了整理邮件摘要和规划本地活动这两件事。体验下来觉得确实能帮上忙,但文章没搞懂谷歌为什么要把这个功能单独做成一个产品,而不是直接塞进现有的 Gemini 里。正文没披露这东西什么时候正式上线、要不要另外收费。
#Agent#Tools#Google#TechCrunch
精选理由
我会先打个折:正文没披露价格和发布时间,所以不能当产品发布看。但亮点在于,这是一篇上手实测,不是通稿。编辑用“actually pretty useful”收尾,说明 Gemini Spark 在收件箱摘要和本地活动规划这两个场景里跑通了,没翻车。对做 agent 的人来说,这种“替你干活”的体感比跑分重要。信息缺口明显,但反转叙事和具体场景撑住了 featured 的分数。
一句话点评
谷歌把 Gemini 做成了一个 24 小时在线的 AI 助手 Spark,实测体验两极分化:有用,但也让人后背发凉。
锐评
谷歌发布的 Gemini Spark 是一个常驻后台的 AI 助手,主打 24/7 全天候待命。从几家媒体的实测标题看,评价非常分裂。TechCrunch 觉得它“实际上挺有用”,但 The Verge 的编辑直接说这是“最令人印象深刻也最可怕的 AI 体验”。这种恐惧感可能源于它持续在线的特性,让人感觉被时刻注视。 目前 TechCrunch 的正文是空的,我们看不到具体的使用场景和性能数据,比如它到底能自动完成哪些任务、响应延迟多高、会不会频繁出错。The Verge 的另一篇标题提到“AI 变得越好,越暴露一个空洞的承诺”,暗示 Spark 虽然能力变强,但可能没解决根本的信任或价值问题。 这条新闻值得关注,但先别急着下结论。我们需要等详细的评测出来,看它到底是真能帮人省时间的工具,还是一个让人更焦虑的监控器。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
15:09
13d ago
AI HOT 精选· aihot-apiZH15:09 · 05·30
OpenAI 送开源维护者半年 Pro,价值 1200 美元,有项目链接就能领
OpenAI 给开源项目维护者发福利:免费领 6 个月 ChatGPT Pro(价值 1200 美元),申请没有硬性 GitHub Star 数要求,只要有项目链接就行。正文还聊了 AI 工具分类:一类是“agent 型”(比如 Claude Code、Codex),能自己跑;另一类是“实习生型”(比如 Cursor),需要人做决策、培养判断力,但缺点...
#Agent#Code#Tools#OpenAI
精选理由
H/K/R都过:1200美元和6个月是明确钩子,申请条件具体(无Star门槛、有项目链接即可)。但只是社区小福利,不是ChatGPT能力或平台更新,所以落在60–71的all档。
一句话点评
OpenAI 给开源项目维护者送 6 个月 ChatGPT Pro(价值 1200 美元),申请不卡 GitHub Star 数,有项目链接就行。正文还聊了 AI 工具分类:一类是“agent 型”(如 Claude Code、Codex),能自己跑;另一类是“实习生型”(如 Cursor),需要人做决策、培养判断力,但缺点是需要人在场。作者推荐了网易 UU 远程工具,称免费两年、4K 14...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
14:49
13d ago
TechCrunch AI· rssEN14:49 · 05·30
三位顶级VC吐槽AI投资:19岁创始人已经拿A轮了
一位VC半开玩笑地说,如果你22岁在旧金山做AI,邮箱里可能已经躺着一份种子轮投资意向书;如果你才19岁,那说明你真的很厉害,可能已经拿到A轮了。正文没披露另外两位VC的具体观点,但光这一句就够说明AI投资有多疯狂——年龄越小、估值越高,市场已经卷到看创始人身份证了。
#TechCrunch#Funding#Commentary
精选理由
HKR三项都靠“22岁种子轮/19岁A轮”这个细节和VC狂热角度撑住了,但RSS摘要没披露是哪三位VC、具体访谈内容、以及任何交易案例,信息缺口明显,所以分数卡在60–71之间。
一句话点评
一位VC半开玩笑说,22岁在旧金山做AI,邮箱里可能已躺着一份种子轮投资意向书;19岁的话,可能已经拿到A轮了。年龄越小、估值越高,市场已经卷到看创始人身份证了。正文只披露了这一位VC的引语,另外两位的观点没写,信息缺口明显。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
13:51
13d ago
r/LocalLLaMA· rssEN13:51 · 05·30
本地跑语音对话:STT→大模型→TTS 三模型串联
Reddit 用户用 Ubuntu + RTX 3090 跑 Qwen 3.6 27B Q4(llama.cpp),想把语音识别、大模型、语音合成串成一条流水线。正文没披露具体用哪款 STT 和 TTS 模型,所以实际延迟和效果未知。三模型串联意味着显存和推理时间都会叠加,3090 的 24GB 显存跑 27B Q4 已经占了大半,再加两个模型可能得用...
#Audio#Agent#Tools#Qwen
精选理由
HKR-R 勉强成立:本地 STT-LLM-TTS 管线怎么串是实际开发者的常见卡点。HKR-H 和 HKR-K 都不成立,因为这是个求助帖,不是实测方案或发布,所以只算低权重的社区信号。
一句话点评
RTX 3090 用户想把语音识别、大模型、语音合成串成一条流水线,但正文没披露具体用哪款 STT 和 TTS 模型,所以实际延迟和效果未知。三模型串联意味着显存和推理时间都会叠加,3090 的 24GB 显存跑 Qwen 3.6 27B Q4 已经占了大半,再加两个模型可能得用更小的量化或轻量模型。这点先别太激动,除非他愿意牺牲质量换速度。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
13:36
14d ago
r/LocalLLaMA· rssEN13:36 · 05·30
llama-swap 处理并发请求时卡住,第二个请求得等第一个跑完
有用户在 Reddit 反馈,用 llama-swap 跑 Qwen3.6-35B-A3B 模型时,直接连 llama-server 能同时处理 2 个请求,但经过 llama-swap 转发后第二个请求就得排队等第一个结束。配置里 concurrencyLimit 默认是 10,按理说够用,但实际没生效。正文没披露 llama-swap 版本和具体日...
#Inference-opt#Tools#Qwen#llama-swap
精选理由
Reddit 用户发现 llama-swap 转发请求时会串行排队,即使后端 llama-server 本身能并行处理 2 个请求。配置里 concurrencyLimit 默认是 10,但实际效果是第二个请求得等第一个跑完。这点先别太激动——帖子只是报了个现象,没给原因也没给修法。对跑本地模型的团队来说,吞吐上不去是实打实的痛点,所以 R 通过,但 H 和 K 不通过,归入低带宽 all。
一句话点评
llama-swap 转发后并发失效,concurrencyLimit 设了 10 但实际只跑单线程。用户直连 llama-server 能同时处理 2 个请求,过一层代理反而排队。正文没披露 llama-swap 版本和具体配置,可能是旧版 bug 或参数没生效。如果只是转发层卡住,那这个工具在高并发场景下暂时不靠谱。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R1
13:33
14d ago
r/LocalLLaMA· rssEN13:33 · 05·30
RTX 5090 跑 Qwen3.5-4B 只有 250 TPS,GPU 利用率才一半
Reddit 用户用 RTX 5090 跑 Qwen3.5-4B,llama.cpp 跑在 Docker 里,解码速度只有 200–250 TPS,GPU 利用率才 50% 左右。设置已经用了 Q4_K_S 量化、32K 上下文、batch size 4096 和 flash attention,但速度还是上不去。这个 TPS 对于 4B 小模型来说偏...
#Inference-opt#Reddit#Qwen#llama.cpp
精选理由
这是一个 Reddit 用户的单点故障排查帖,有具体数字和配置,对本地推理从业者有用,但正文没披露根因、修复方案或对比基准,信息缺口明显,所以归入 40-59 低价值区间。
一句话点评
RTX 5090跑4B小模型只有200-250 TPS,GPU利用率才50%,明显没喂饱。问题可能出在Docker on Windows的虚拟化开销,或者llama.cpp的调度没跟上新架构。正文没披露CPU内存带宽和电源设置,这两点常是瓶颈。如果是纯推理瓶颈,这速度对4B模型算偏低,但如果是交互场景(比如聊天)其实够用。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K1·R1
12:31
14d ago
r/LocalLLaMA· rssEN12:31 · 05·30
两张 4060 Ti 跑 Qwen3.6,125 tok/s,硬件不到 1000 美元
Reddit 用户 Chuyito 实测,两张 4060 Ti(共 32GB 显存)跑 Qwen3.6 的 q4xl 量化版,达到 125 tok/s,整机硬件成本不到 1000 美元,功耗约 300W。这个速度对本地部署来说相当快,成本也低。他还问 CUDA 13.3 能不能把同一套配置推到 150 tok/s,但正文没披露可复现的 benchmar...
#Inference-opt#Qwen#NVIDIA#Chuyito
精选理由
单条 Reddit 帖子,来源弱,没贴脚本、token 设置、温度等细节,也没有其他用户复现验证,所以分数压在 60–71 区间。不过 125 tok/s 这个数字本身对本地推理玩家有吸引力,硬件配置也具体,HKR 三项都够格。
一句话点评
两张 4060 Ti 跑 Qwen3.6 量化版到 125 tok/s,整机不到 1000 美元,本地部署性价比很高。但这是单次用户自测,没公开复现设置,速度可能受 prompt 长度、批大小影响。CUDA 13.3 能否推到 150 tok/s 只是猜测,别太当真。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
11:04
14d ago
AI HOT 精选· aihot-apiZH11:04 · 05·30
阶跃星辰发了个开源多模态模型,但正文只说了四个字
阶跃星辰在 X 上发帖称发布了一款开源多模态模型,配文只有“小即是美”。正文没披露模型名称、参数量、权重许可证、发布物或基准测试结果,信息缺口很大,目前无法判断模型大小、能力或开源诚意。
#Multimodal#StepFun#Open source#Product update
精选理由
HKR三项全挂:帖子只有一句口号和发布类别,没有模型名称、参数量、许可证或基准。按0/3规则,直接排除,分数上限40。
一句话点评
阶跃星辰发帖说开源了一个多模态模型,配文只有“小即是美”。但正文没披露模型名称、参数量、权重许可证、发布物或基准测试结果,信息缺口很大,目前无法判断模型大小、能力或开源诚意。短评:标题党,信息太少,先别激动。
HKR 分解
hook knowledge resonance
打开信源
32
SCORE
H0·K0·R0
10:30
14d ago
Hacker News 首页· rssEN10:30 · 05·30
教皇利奥一世首道通谕炮轰“技术救世主义”
《经济学人》报道,教皇利奥一世发布上任后首道通谕,核心是批评“技术救世主义”——即把AI等技术当成解决一切问题的万能药。正文没披露通谕具体引用了哪些技术或案例,也没给出教廷的替代立场。目前这条消息在Hacker News上只有12个点赞和3条评论,讨论热度不高。
#Leo#The Economist#Hacker News#Commentary
精选理由
标题有钩子,但正文信息量几乎为零:没有通谕原文、没有具体论点、没有发布日期。HN 12 分和 3 条评论说明社区兴趣极低。对 AI 从业者来说,这条链接的价值约等于一条新闻标题,不值得跟进。
一句话点评
教皇Leo一世发通谕批“技术救世主义”,说别把AI当万能药。消息源只有《经济学人》一篇报道,正文没披露通谕具体引用了哪些技术或案例,也没给教廷的替代立场。目前HN上仅12赞3评论,讨论热度很低,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
10:23
14d ago
r/LocalLLaMA· rssEN10:23 · 05·30
Fulloch V2:16GB显存跑全本地语音助手,能控制智能家居和记笔记
Fulloch V2 是一个完全本地的语音助手项目,16GB 显存就能跑。它用 Qwen3.5-9B 做对话模型(量化到 Q5_K_M 省显存),Qwen3-1.7B 做语音识别和语音合成,外加 bge 向量模型做语音语义搜索。功能上能控制 Home Assistant 智能家居,也能读写 Obsidian 笔记。支持语音打断、自定义唤醒词,Linux...
#Agent#Audio#Embedding#Fulloch
精选理由
这是个 Reddit 级别的项目更新,受众是 LocalLLaMA 那批人。模型、VRAM、集成方式都写清楚了,但没看到第三方验证或跑分,所以分数卡在 60–71 的高位。正文没披露延迟数据或唤醒词训练成本,这点先别太激动。
一句话点评
16GB显存就能跑全本地语音助手,控制智能家居和记笔记,挺实用。但正文被墙,没看到延迟和打断成功率,这两点对体验很关键。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
10:17
14d ago
彭博科技· rssEN10:17 · 05·30
Anthropic 把禁止接入的平台名单砍了一半,因为被骂了
Anthropic 把禁止第三方平台调用其模型的名单砍了一半,原因是遭到了反对。但正文只返回了 Bloomberg 的机器人验证页面,没有披露名单具体包含哪些平台、反对来自谁、以及执行条件。信息缺口:名单范围、反对来源、受影响平台、执行条件均未公开。
#Anthropic#Bloomberg#Policy
精选理由
标题有钩子——Anthropic 被反弹后把未授权平台名单砍了一半,冲突和让步都有了。但正文只有 Bloomberg 的 403 机器人验证页,名单范围、反弹来源、执行条件全没披露。信息缺口太大,只能给 68 分。如果后续补上具体平台和规则,分数能往上走。
一句话点评
Anthropic 把禁止第三方平台调用其模型的名单砍了一半,原因是遭到了反对。但正文被 Bloomberg 的机器人验证页挡住了,没披露名单具体包含哪些平台、反对来自谁、以及执行条件。信息缺口:名单范围、反对来源、受影响平台、执行条件均未公开。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
09:56
14d ago
r/LocalLLaMA· rssEN09:56 · 05·30
Pantheon-Reasoning-27B:一个能边推理边角色扮演的模型,基于Qwen 3.6,无审查
Gryphe 放出了 Pantheon-Reasoning-27B,一个基于 Qwen 3.6 的 27B 稠密模型,主打推理型角色扮演,且无审查。训练数据里约 28% 是自家 Pantheon 数据,21% 是 Opus-4.6-Reasoning-24k(用大模型生成的推理样本),16% 是 WorldSim(世界模拟),16% 是文字冒险,16%...
#Reasoning#Fine-tuning#Code#Gryphe
精选理由
这是一个在 Reddit/Hugging Face 上发布的单一微调模型,影响力在 LocalLLaMA 社区级别。数据配比和保留多轮 thinking tags 提供了额外信号,但不足以提升到 featured 级别。
一句话点评
Gryphe 基于 Qwen 3.6 微调的 27B 稠密模型,主打推理型角色扮演,无审查。训练数据里 28% 自家 Pantheon 数据、21% 大模型生成的推理样本,其余是文字冒险和通用角色扮演。多轮对话保留思考标签,适合需要角色持续推理的场景。但正文没披露具体评测分数,角色扮演的“推理”效果和普通 RP 模型差多少还不清楚。27B 参数在消费级显卡上能跑,但推理速度会慢。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
09:40
14d ago
r/LocalLLaMA· rssEN09:40 · 05·30
用嘴哼一声就能生成音效,这个开源项目把拟声变成声音
VTS 让你输入一段人声模仿(比如“嗖——”)再加一段文字描述,就能生成对应的音效文件。项目已开源,GitHub 上有代码和 demo,但正文没披露模型参数量、用了多少训练数据、以及生成质量怎么评估。如果效果靠谱,做游戏或短视频的人可以省掉翻音效库的时间。
#Audio#Multimodal#GitHub#Danny-1257
精选理由
H 和 K 通过,因为人声转音效的交互方式少见且有可测试的 GitHub 仓库。R 偏弱,缺少模型规模、数据和评测指标,只能算一个小众开源工具。
一句话点评
VTS 让你对着麦克风“嗖——”一声,再加句文字描述,就能生成音效文件。做游戏或短视频的人可以省掉翻音效库的时间。但正文没披露模型参数量、训练数据规模,也没给生成质量评估。如果效果靠谱,这算一条低成本音效生成路径,但验证还不够。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R0
09:03
14d ago
r/LocalLLaMA· rssEN09:03 · 05·30
Vidai Community 发布:一个 Rust 二进制文件搞定 LLM 调用的成本归属、护栏和多供应商路由
Vidai Community 发布了一个 25 MB 的 Rust 二进制文件,能在每次 LLM 调用时做成本归属、预算截断、护栏检查和多供应商路由。官方测试单节点吞吐量 21,803 RPS,中位额外延迟仅 1.95 毫秒——延迟很低,适合生产环境。不过正文没披露具体支持哪些供应商、护栏规则怎么配置,也没说预算截断是硬限制还是软提醒。
#Tools#Safety#Inference-opt#Vidai
精选理由
Vidai Community 发布了一个 25 MB 的 Rust 二进制,放在每次 LLM 调用路径里做成本归因、预算截断、护栏和多提供商路由。单节点验证 21,803 RPS,中位开销 1.95 ms,性能数字很漂亮,说明开销极低、吞吐够高。但正文没披露它跟已有方案(比如 LangSmith、Helicone)的具体对比,也没说护栏规则怎么写、路由策略怎么配,实际落地门槛未知。项目本身不算主流,来源权威性一般,所以分数压在 60–71 的产品更新区间。
一句话点评
Vidai 把成本归属、护栏检查、多供应商路由打包成一个 25 MB 的 Rust 二进制,单节点吞吐 21,803 RPS,额外延迟中位数仅 1.95 毫秒——这个延迟几乎不影响生产调用。但正文没披露支持哪些供应商、护栏规则怎么配,也没说预算截断是硬限制还是软提醒。如果配置灵活,这算一个轻量级网关方案。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
08:32
14d ago
Hacker News 首页· rssEN08:32 · 05·30
Rsync 3.4.3 翻车:36 个提交全是 Claude 写的,增量备份直接挂了
用户升级 rsync 3.4.3 后,依赖 --compare-dest 参数的增量备份全部失效,降回 3.4.1 就正常。去 GitHub 翻源码发现,3.4.1 之后 36 个提交的署名都是“tridge and claude”,changelog 里却只字未提 AI 参与。目前已知一个 GitHub issue(#915)在讨论,但正文没披露具体...
#Code#Rsync#Claude#Commentary
精选理由
H 和 R 过关:Rsync 加 Claude 的组合有话题性,也戳中开源社区对 AI 代码的信任焦虑。K 不过关:正文没给提交证据、审查细节和版本范围,所以只能放在较低的 all 档。
一句话点评
Rsync 3.4.3 的 36 个提交署名都是“tridge and claude”,changelog 只字不提 AI 参与。用户升级后增量备份直接挂掉,降回 3.4.1 就正常。目前只有一个 GitHub issue(#915)在讨论,正文没披露这些提交是否经过人工 review、改动范围多大。如果是真的,等于一个核心系统工具在用户不知情的情况下被 AI 批量改代码,且没做回归测试。这...
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
07:36
14d ago
r/LocalLLaMA· rssEN07:36 · 05·30
Shadow AI:一个纯本地的 Windows 语音助手,自带记忆和提醒,但得自己掏 Gemini 的 API 钱
一个叫 Shadow AI 的开源项目,让你在 Windows 上跟 AI 语音聊天,支持多语言、连续对话,还能联网搜索(用的 SearXNG)、记事情、设提醒,甚至能连 Google 日历。所有东西都跑在你自己的电脑上(127.0.0.1),数据不出门。但注意,它不包模型费用——你得自己搞一个 Gemini API key 塞进去,相当于你买了个车但...
#Audio#Tools#Memory#Shadow AI
精选理由
H/K/R 都过了:开源 Windows 语音助手有明确的“可试”钩子和具体机制。分数留在 60–71 是因为它只是一个 Reddit 上的个人项目,没有采用数据、性能测试或安全验证。
一句话点评
Shadow AI 是个 Windows 本地语音助手,开源,但模型得自己带——插个 Gemini API key 才能用。支持多语言连续对话、联网搜索、记提醒、连 Google 日历,全跑在本地 127.0.0.1,数据不出门。好处是隐私可控,坏处是 Gemini 按量收费,长期用成本不低。正文没披露延迟和语音识别精度,这点先别太激动。如果是轻度尝鲜或隐私敏感场景,值得一试。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
07:11
14d ago
r/LocalLLaMA· rssEN07:11 · 05·30
两台电脑(5090+4080)能联网一起跑本地大模型吗?
Reddit 用户有两台 PC,一台 RTX 5090 + 64GB DDR5,另一台 RTX 4080 + 192GB DDR5,想通过局域网把两张显卡合起来跑本地大模型。他问有没有像 LM Studio 那样一键就能用的工具,如果没有,为什么没人做。正文没披露具体推理框架、网络配置或实测延迟,所以没法判断实际效率。目前主流方案是 vLLM 或 ll...
#Inference-opt#Tools#LM Studio#JanAI
精选理由
HKR-H 和 HKR-R 成立:5090+4080 跨机联网推理是本地推理的真实痛点,能引发共鸣。HKR-K 不成立:正文没有披露任何推理框架、基准测试、延迟或可复现方案,信息量不足,无法作为可靠参考。
一句话点评
两台PC(5090+4080)想合起来跑本地大模型,但没找到一键工具。目前主流方案是vLLM或llama.cpp做分布式推理,但网络延迟会吃掉不少性能,尤其跨机传输中间层数据比单卡慢很多。正文没披露网络配置和实测延迟,所以没法判断实际效率。用户想要LM Studio那种开箱即用体验,但分布式推理的调试门槛高、收益不确定,确实没人愿意做成傻瓜产品。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
06:51
14d ago
AI 群聊日报· atomZH06:51 · 05·30
群聊日报汇总Dynamic Workflow测试和Opus反馈
群友实测 Dynamic Workflow,十分钟跑完但只做了最简单的部分,token 消耗大,结论是“吸收思想,不是无脑用”。Opus 4.8 解决了 4.7 搞不定的逆向任务,但会为 trivial 选择停下来反问,骂一顿就好。AI 短剧分析指出制作成本降到 30 万以下,但利润全被渠道抽走,创作者没有议价能力。
#Agent#Code#Tools#Oh My OpenCode
精选理由
低价值汇总,没到硬排除线:HKR-K 靠“十几次实测”勉强过线,HKR-H 和 HKR-R 被日报格式和缺失配置拖累,落在 40–59 的高位。
一句话点评
群友实测 Dynamic Workflow:十分钟跑完但只做了最简单的部分,token 消耗大,结论是“吸收思想,不是无脑用”。Opus 4.8 解决了 4.7 搞不定的逆向任务,但会为 trivial 选择停下来反问,骂一顿就好。AI 短剧分析指出制作成本降到 30 万以下,但利润全被渠道抽走,创作者没有议价能力。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R0
04:56
14d ago
r/LocalLLaMA· rssEN04:56 · 05·30
MOSS TTS 1.5 语音克隆效果不错,有人觉得比 Fish Audio 好用
Reddit 用户分享了 OpenMOSS-Team 的 MOSS-TTS-v1.5 在线演示,说语音克隆质量很好,自己更喜欢它而不是 Fish Audio S2 Pro,原因是 Fish Audio 不让商用。正文没披露训练数据量、克隆所需音频时长或延迟数据,所以没法判断实际门槛和成本。
#Audio#OpenMOSS-Team#Fish Audio#Long Cat DiT
精选理由
HKR 三项刚好过线,但证据仅来自一条 Reddit 用户的主观体验,没有基准测试、许可证原文或模型卡细节。这符合 60–71 分区间:一个小众社区的工具发现,值得关注但信息有限。
一句话点评
OpenMOSS 刚放出的 MOSS-TTS-v1.5 语音克隆效果不错,Reddit 用户说比 Fish Audio S2 Pro 还好听,而且后者不让商用。但正文没披露克隆需要几秒音频、延迟多少、训练数据量多大,所以实际门槛和成本未知。如果是零样本克隆且延迟低,那确实值得关注。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
03:07
14d ago
Hacker News 首页· rssEN03:07 · 05·30
VT Code:一个开源的终端编程助手,用 Rust 写的
VT Code 是一个开源的终端编程助手,用 Rust 写的,主打 LLM 原生代码理解和 shell 安全。支持多个模型供应商,能自动切换,上下文管理也做了优化。不过项目页没提具体支持哪些模型、工具权限怎么设、安装步骤也没有,想试的话得自己去翻代码。
#Agent#Code#Tools#GitHub
精选理由
一个很小的开源编程 Agent 发布:HKR-H 和 HKR-R 过关,但 HKR-K 不通过,因为正文缺少模型、权限、安装和评测细节。HN 上只有 7 分和 4 条评论,属于普通产品更新的低端。
一句话点评
VT Code 是一个用 Rust 写的开源终端编程助手,主打 LLM 原生代码理解和 shell 安全。支持多模型供应商和自动切换,上下文管理也做了优化。但项目页没提具体支持哪些模型、工具权限怎么设、安装步骤也没有,想试得自己翻代码。短评:Rust 写的终端编程助手,主打 shell 安全,但模型列表和安装步骤都没给。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H1·K0·R1
02:08
14d ago
r/LocalLLaMA· rssEN02:08 · 05·30
八家厂商的 DGX Spark 克隆机对比图来了
Reddit 用户 rexyuan 把 NVIDIA DGX Spark 和戴尔、惠普、联想、微星、技嘉、宏碁、华硕的同类小主机放在一张表里比尺寸和重量。图里没写芯片型号、价格和上市时间,所以目前只能看谁更小更轻,没法比性能。
#Inference-opt#NVIDIA#Dell#HP
精选理由
信息量就一张表格加几张图,除了尺寸重量没别的硬参数。没有芯片、价格、供货或性能数据,只能当个硬件八卦看看,不值得当新闻推。
一句话点评
Reddit 用户把 8 家厂商的 DGX Spark 克隆小主机摆在一起比尺寸和重量,图里没写芯片、价格和上市时间。目前只能看谁更小更轻,没法比性能。短评:尺寸对比图,性能未知。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K1·R0
01:57
14d ago
Latent Space· rssEN01:57 · 05·30
Claude 4.8 小步更新,多轮 RL 训练有个隐蔽 bug,开源模型追上闭源只差四个月
Latent Space 这期 AI 新闻覆盖了 5 月 28-29 日的内容。Claude Opus 4.8 上线后评测反馈不一:多个独立测试认为提升“有但不大”,比如 CursorBench 显示效率更高但效果略差于 4.7,文档解析在表格/布局上有小进步但内容忠实度反而退步。好消息是 4.8 在编程时没那么“过度自主”,更愿意配合人。Anthro...
#Agent#Code#Benchmarking#Latent Space
精选理由
HKR-K 通过,因为汇总明确交代了来源范围和覆盖板块。HKR-H 和 HKR-R 不通过:没有单一新闻事件、可验证的论断或足够强的从业者痛点来支撑精选。
一句话点评
Claude Opus 4.8 上线后评测分化:多个独立测试认为提升“有但不大”,比如 CursorBench 显示效率更高但效果略差于 4.7,文档解析在表格/布局上有小进步但内容忠实度反而退步。好消息是 4.8 在编程时没那么“过度自主”,更愿意配合人。Anthropic 还支持了对话中途改系统指令且不破坏缓存,对长会话省钱有用。但价格仍是硬伤——有开发者因为 API 太贵而倾向 GPT...
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
00:44
14d ago
r/LocalLLaMA· rssEN00:44 · 05·30
跑本地大模型选显卡,带宽不是唯一指标
Reddit 用户 Ok_Top9254 对比了本地跑大模型常用的 GPU 和整机规格,核心观点是内存带宽不能只看峰值。他举例说,两张 P100 显卡(二手约 200 美元)加起来有 32GB 显存和 700GB/s 带宽,但实际跑模型时,预填充(prefill)阶段的性能在常见的 1000 token 生成测试里被低估了。正文没披露具体测试数据和对比...
#Inference-opt#Multimodal#Benchmarking#Reddit
精选理由
这是一条Reddit用户做的GPU规格对比帖,核心信息是双P100二手卡只要200美元左右就能拿到32GB显存和700GB/s带宽,对预算有限的本地LLM玩家来说是个很实在的参考。帖子没有跑分或实测,只是列规格表加个人判断,所以分数压在60-71区间合理。正文没披露具体跑模型的速度或能跑多大参数量的模型,这点先别太激动,但成本数字确实挺省钱。
一句话点评
Reddit 用户实测对比本地跑大模型的 GPU 规格,核心观点:别只看峰值带宽。两张二手 P100(约 200 美元)凑出 32GB 显存和 700GB/s 带宽,但预填充阶段性能在常见 1000 token 测试里被低估。正文没披露具体测试数据和对比型号,结论需谨慎参考。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
00:36
14d ago
AI HOT 精选· aihot-apiZH00:36 · 05·30
阿里云和Qwen拿下欧足联六年合同,给足球比赛当AI后台
阿里云和Qwen成了欧足联(UEFA)的独家AI、云计算和电商合作伙伴,从2027/28赛季一直签到2032/33赛季,还覆盖2028年欧洲杯。合作内容是用Qwen大模型和阿里云基础设施来搞赛事运营、球迷互动、媒体内容和沉浸式观赛。蔡崇信说会投入全栈AI和电商能力。合同期六年,说明阿里云在体育行业拿了个长期大单,但正文没披露具体金额和落地场景细节,比如...
#Multimodal#Tools#Alibaba Cloud#Qwen
精选理由
正文只确认了阿里云和Qwen成为欧足联多年独家AI、云计算与电商合作伙伴,覆盖2027/2028至2032/2033赛季及EURO 2028,但未披露任何AI能力、部署方式或可验证的落地效果,属于纯营销公告,因此重要性上限为39。
一句话点评
阿里云签下欧足联六年长约,从2027/28赛季到2032/33赛季,覆盖2028年欧洲杯。合作内容是用Qwen大模型和阿里云基础设施搞赛事运营、球迷互动和沉浸式观赛。这是阿里云在体育行业拿下的长期大单,但正文没披露具体金额和落地场景细节,比如Qwen具体用在哪个环节、球迷互动怎么做。合同期长说明双方信任度高,但没金额就不好判断投入规模。短评:阿里云拿下欧足联六年AI大单,但没披露金额和具体落...
HKR 分解
hook knowledge resonance
打开信源
39
SCORE
H1·K1·R0
00:00
14d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·30
LLM 推理到底怎么跑:跟着 SGLang Omni 团队走一遍设计决策
SGLang Omni 团队公开了一篇罕见的内部设计文档,把顶级推理系统团队从问题定义到架构选择的完整决策链路摊开了。文章先讲标准 LLM 推理的基础:自回归 decode、prefill 和 decode 的区别(prefill 是 compute-bound,瓶颈在算力;decode 是 memory-bound,瓶颈在显存带宽)、continuo...
#Inference-opt#SGLang Omni#Commentary
精选理由
SGLang Omni 团队这篇讲解有技术干货:3个多阶段解码挑战和架构取舍。但正文没有披露性能数字或可复现的测试结果,HKR-K和R过关,H偏弱。评分68,属于教程类文章的正常区间。
一句话点评
SGLang Omni 团队公开了内部设计文档,把推理系统从问题定义到架构选择的决策链路全摊开了。文章从标准 LLM 推理讲起,解释 prefill 和 decode 的区别、KV cache 和调度器的作用,然后重点分析语音输出带来的新挑战:Thinker 和 Talker 是两条独立的 decode loop,节奏和计算特性完全不同,不能塞进同一个调度循环。对非系统背景的读者友好,每个判...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R1

更多

频道

后台