全部 · 2026-05-17

▸ 50 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2340 24 25 26 27 28293031

2026-05-17 · 星期日2026年5月17日

23:07

71d ago

r/LocalLLaMA· rssEN23:07 · 05·17

AIPointer 接入 Ollama，找本地视觉模型用户当小白鼠

AIPointer 开发者正在给 v1.2.0 版本内置 Ollama 支持，计划下周发布。现在找 beta 测试者，要求 M 系列 Mac、RTX 3090/4090/5090、AMD ROCm 或 16GB 显存以上的显卡，帮忙反馈首 token 延迟（TTFT）、模型量化方式、硬件配置和工具调用失败的情况。正文没披露具体支持哪些视觉模型，也没说是...

#Vision#Tools#Agent#AIPointer

一句话点评

AIPointer 要内置 Ollama 了，下周发 v1.2.0。现在找 beta 测试者，要求 M 系列 Mac、RTX 3090/4090/5090 或 16GB 以上显存。主要测首 token 延迟、量化方式和工具调用失败情况。正文没披露具体支持哪些视觉模型，也没说是否支持 Qwen 等常见本地模型。如果你手头有这些硬件，可以试试，但别指望开箱即用——beta 阶段工具调用可能翻车。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

22:57

71d ago

FEATUREDr/LocalLLaMA· rssEN22:57 · 05·17

vLLM 在混插 Blackwell/Ada 显卡集群上跑长上下文预填充，速度比 llama.cpp 快 4 到 6 倍

作者用 7 张混插显卡（RTX PRO 6000、PRO 5000、两张 5090 和三张改显存的 4090）测了三个推理引擎处理长上下文的效率。在 Qwen3.5-397B-A17B 模型上塞进 7.5 万 token 的上下文，vLLM 首 token 延迟 9.8 秒，预填充速度 7683 token/秒；llama.cpp 要 57.2 秒，速...

#Inference-opt#Benchmarking#vLLM#SGLang

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

混插显卡跑大模型推理，vLLM 比 llama.cpp 快 4-6 倍，SGLang 遇到非最新卡直接崩溃。

锐评

这篇来自 Reddit 的民间测试很实在，用 7 张混插的消费级和专业卡（包括改过显存的 4090）跑长上下文预填充，结论很明确：在混卡环境下，vLLM 是唯一能打且打得好的。它靠软件模拟 FP4 格式兼容老卡，还能手动分配每张卡算多少层网络，把快卡和慢卡的负载调平，避免一张卡拖慢全队。具体到数字，在 3970 亿参数的大模型上塞进 7.5 万 token 的上下文，vLLM 首 token 延迟 9.8 秒，预填充速度 7683 token/秒；llama.cpp 要 57.2 秒，速度只有 1319 token/秒，差距确实大。SGLang 在纯新卡上表现接近 vLLM，但混入一张旧卡就崩溃，因为它强制要求硬件支持 FP4，没有软件降级方案。需要注意，这是个人玩家的单次测试，没披露并发、解码阶段表现和功耗，而且用了 4-bit 量化权重，精度损失对实际任务的影响没提。如果你也是混卡组机器跑大模型，这个结果可以参考，但别直接当成通用结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

22:22

71d ago

FEATUREDr/LocalLLaMA· rssEN22:22 · 05·17

骁龙 8 Elite 跑混合专家模型实测：CPU 推理反而比 NPU 快

一位 Reddit 用户用 24GB 内存的荣耀 Magic 7 Pro（骁龙 8 Elite）跑了几个混合专家（MoE）模型。在 Q4 量化下，LFM2-24b-a2b 跑到约 24 token/秒，Gemma 约 11 token/秒。比较意外的是，他这套配置里 CPU 推理速度比 NPU 和 GPU 都快，正文没披露具体用的什么推理框架和功耗数据...

#Inference-opt#Benchmarking#Qualcomm#Honor

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

骁龙 8 Elite 跑 MoE 模型，CPU 推理居然比 NPU 和 GPU 都快，这点先别太激动，正文没披露用的什么推理框架和功耗数据。

锐评

这条帖子最值得看的是实测速度：24GB 内存的荣耀 Magic 7 Pro 上，LFM2-24b-a2b 这个混合专家模型（MoE，把任务分给不同小专家处理，省算力）在 Q4 量化后跑到约 24 token/秒，Gemma 约 11 token/秒。对手机端来说，24 token/秒已经能用了，不是那种等半天才蹦一个字的体验。但有个反直觉的结果：这套配置里 CPU 推理比 NPU 和 GPU 都快。这不太正常，通常 NPU 应该更擅长跑模型。问题在于发帖人没交代用了什么推理框架、有没有针对骁龙的 NPU 做适配，也没测功耗和发热。如果只是拿通用框架跑了一下，那 NPU 跑不过 CPU 只能说明软件没跟上硬件，不代表芯片本身不行。还缺几个关键信息：模型加载占了多少内存、持续跑几分钟后会不会降频、不同量化精度的速度差异。这些没测，就没法判断这配置到底能不能当日常助手用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

21:59

71d ago

r/LocalLLaMA· rssEN21:59 · 05·17

2 张 3090 跑 MiniMax M2.7，128K 上下文，速度还行但不算快

Reddit 用户 wombweed 用 2 张 3090、256GB DDR4 内存和二手 10900X CPU，跑起了 MiniMax M2.7 模型（Q8_0 量化，128K 上下文，KV 缓存未量化）。提示处理速度约 50 tokens/秒，生成速度约 10 tokens/秒——对编码 agent 工作流来说够用，但不算快。作者特意选了 Q8_...

#Code#Inference-opt#MiniMax#wombweed

一句话点评

Reddit 用户用 2 张 3090 加 256GB 内存跑起了 MiniMax M2.7 模型，Q8_0 量化下 128K 上下文，提示处理约 50 tokens/秒，生成约 10 tokens/秒。作者说对编码 agent 工作流够用，但速度确实慢——比高端卡差一个数量级。亮点是用了 CPU 分担 MoE 专家层（--cpu-moe），把 GPU 显存省给 KV 缓存。不过正文没披露具...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

21:36

71d ago

r/LocalLLaMA· rssEN21:36 · 05·17

Qwen3.5-122B 用 WebGL 实时渲染人脸，效果接近照片

Reddit 用户发帖展示 Qwen3.5-122B-A10B 模型（UD-Q3_K_XL 量化版）生成的 WebGL 实时人脸渲染，画面接近照片级。但帖子正文被屏蔽，没透露具体 prompt、运行环境或帧率，所以不清楚实际延迟和硬件门槛。如果是真的，说明大模型写 WebGL 代码的能力又进了一步，但这点先别太激动——缺少可复现的细节。

#Code#Vision#Qwen#Reddit

一句话点评

Qwen3.5-122B 的量化版号称能直接写 WebGL 代码，实时渲染出接近照片级的人脸。帖子正文被屏蔽，没透露 prompt、运行环境或帧率，所以不清楚实际延迟和硬件门槛。如果是真的，说明大模型写图形代码的能力又进了一步，但这点先别太激动——缺少可复现的细节。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

45

SCORE

H1·K0·R0

21:17

71d ago

r/LocalLLaMA· rssEN21:17 · 05·17

7900 XTX 跑 Qwen3.6-27B，开 MTP 投机解码从 22 tok/s 翻倍到 50 tok/s

一位用户在 7900 XTX 上用 llama.cpp Vulkan 跑 Qwen3.6-27B（Q4_K_M 量化），64K 上下文，开启 MTP 投机解码后首轮生成速度 22.6 tok/s；换成 q8 缓存把模型塞进显存后，生成速度直接翻倍到 50 tok/s。正文没披露具体显存占用和功耗，但 50 tok/s 对本地 27B 模型来说已经很快，...

#Inference-opt#Reasoning#Qwen#llama.cpp

一句话点评

7900 XTX 跑 Qwen3.6-27B，开 MTP 投机解码首轮 22.6 tok/s，换 q8 缓存塞满显存后翻倍到 50 tok/s。50 tok/s 对本地 27B 模型算很快了，但这是单用户单卡数据，没披露显存占用和功耗，实际部署成本未知。MTP 加速效果明显，但依赖模型和量化精度，通用性待验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

20:57

71d ago

r/LocalLLaMA· rssEN20:57 · 05·17

12GB显存跑本地安全模型，选7B还是硬上32B？

Reddit用户想用RTX 5070（12GB显存）跑本地大模型做网络安全，包括代码分析、逆向工程、写PoC脚本、总结威胁报告。他纠结几个点：7B-14B模型速度快，但32B模型部分卸载到系统内存（32GB DDR5）值不值得；量化选Q4还是Q5；上下文长度32k够不够，还是需要128k（比如Qwen2.5）。另外担心模型因为内容涉及漏洞或恶意软件而拒...

#Code#Tools#Reddit#Ollama

一句话点评

RTX 5070（12GB显存）跑安全分析，7B-14B模型最稳，32B模型卸载到系统内存（32GB DDR5）会明显变慢，不划算。量化选Q4_K_M，速度和质量平衡好。32k上下文够用，128k（如Qwen2.5）显存扛不住。模型拒答漏洞/恶意软件问题常见，正文没提具体哪些模型不拒，建议试Mistral或Llama 3.1的abliterated版。短评：12GB显存跑安全分析，7B-14...

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

42

SCORE

H0·K0·R1

20:19

71d ago

r/LocalLLaMA· rssEN20:19 · 05·17

把视觉模块嫁接到纯文本模型上，一个 Reddit 用户自己动手改了 llama.cpp 的代码

一位 Reddit 用户把 Pixtral-Large 的视觉模块（mmproj）挂到了 Behemoth-X 文本模型上，然后改了 llama.cpp 里 Pixtral 处理图片结束的 token，从 [IMG_END] 换成了换行符。这么做的原因是：原版代码在文本模型处理图片时会出现 turn-loss 问题（模型把图片后的第一句话当成下一轮对话...

#Multimodal#Vision#Audio#Mistral

一句话点评

有人把 Pixtral-Large 的视觉模块嫁接到 Behemoth-X 纯文本模型上，改了 llama.cpp 里图片结束 token 为换行符，解决了图片后第一句话被当成下一轮对话的 turn-loss 问题。这相当于给文本模型加了个眼睛，成本低（只换模块不改训练），但正文没披露视觉对齐效果和推理速度。短评：低成本嫁接视觉，但效果和速度未知。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

19:49

71d ago

r/LocalLLaMA· rssEN19:49 · 05·17

M5 Mac、DGX Spark、Strix Halo、RTX 6000 跑本地大模型，谁快？

Reddit 用户 Signal_Ad657 花了三天，用统一测试脚本跑了四套本地 AI 硬件。RTX 6000 内存带宽约 1800 GB/s，M5 约 600 GB/s，DGX Spark 和 Strix Halo 都在 256 GB/s 左右。带宽直接决定大模型推理速度，RTX 6000 领先 M5 三倍，领先后两者七倍。不过正文没披露具体跑的是...

#Inference-opt#Benchmarking#Signal_Ad657#NVIDIA

一句话点评

RTX 6000 带宽 1800 GB/s，是 M5 的三倍、DGX Spark 和 Strix Halo 的七倍，跑大模型推理快很多。但这是 Reddit 用户自测，没披露具体模型和量化精度，参考价值打折。如果是真的，买 DGX Spark 前得想清楚：便宜但带宽只有 256 GB/s，跑大模型会慢。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

69

SCORE

H1·K1·R1

19:46

71d ago

TechCrunch AI· rssEN19:46 · 05·17

马斯克诉OpenAI案：信任成了核心问题

马斯克和OpenAI的律师本周做了结案陈词，陪审团要决定OpenAI在转型为营利组织的过程中是否违规。但庭审最后几天的一个大主题是：OpenAI CEO Sam Altman到底值不值得信任。比如马斯克的律师拿Altman在国会作证时的说法追问真假。TechCrunch记者指出，马斯克自己也没少说误导性的话，而且信任问题不只针对Altman——所有AI...

#Safety#Elon Musk#OpenAI#Sam Altman

一句话点评

马斯克诉OpenAI案结案陈词，陪审团要判OpenAI转营利是否违规。庭审最后几天焦点变成：Altman值不值得信任？马斯克律师拿他国会证词追问真假。但记者指出马斯克自己也说过不少误导话，而且信任问题不只针对Altman——所有AI公司都面临。正文没披露陪审团倾向或判决时间。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

66

SCORE

H1·K0·R1

19:36

71d ago

FT · 科技· rssEN19:36 · 05·17

阳狮22亿美元收购数据公司LiveRamp，给AI营销补数据弹药

阳狮集团（Publicis）宣布以22亿美元收购美国数据公司LiveRamp，官方口径是“深化AI营销”。22亿美元买的是数据打通能力——LiveRamp的核心是把线上浏览、线下购买、电视广告等不同来源的用户ID串起来，让广告主知道同一个人的跨屏行为。这对AI营销的实际意义是：模型需要喂“谁看了什么、买了什么”的关联数据，LiveRamp正好提供这种清...

#Publicis#LiveRamp#Funding

一句话点评

阳狮22亿美元买LiveRamp，核心是拿用户ID打通能力喂AI营销模型。但正文被墙，交易结构、交割时间、具体怎么跟AI结合都没披露。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

65

SCORE

H1·K1·R0

18:55

72d ago

Product Hunt · AI· rssEN18:55 · 05·17

Haystack：帮你筛出真正需要人看的 PR

Haystack 是一个挂在 GitHub 上的 PR 审查工具，专门应对 AI 写代码后 PR 数量暴增的问题。它会分析每个 PR 的代码差异、上下文、AI 代理的执行轨迹、意图和验证证据，然后自动分类：安全的直接放行，有问题的打回修改，只有需要人工判断的才推给开发者。正文没披露具体的审查机制、支持哪些仓库、集成方式和定价。

#Code#Tools#Haystack#Product update

一句话点评

短评：AI写代码后PR暴增，Haystack自动筛出需要人看的，省时间。但正文没披露审查准确率、支持哪些仓库、定价，先别太激动。点评：Haystack挂在GitHub上，分析PR的代码差异、上下文、AI代理执行轨迹和验证证据，然后自动分类：安全的直接放行，有问题的打回修改，只有需要人工判断的才推给开发者。思路很直接——AI写代码后PR数量暴增，人工一个个看效率太低，Haystack相当于...

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

45

SCORE

H0·K0·R1

18:18

72d ago

r/LocalLLaMA· rssEN18:18 · 05·17

一个开发者从 Composer 2/Kimi 2.6 换到 Qwen3.6:35b-a3b，说能撑住 60 小时周工作量

一位 Reddit 用户分享，他把 Composer 2 和 Kimi 2.6 换成了 Qwen3.6:35b-a3b，用来处理 50 万到 70 万行代码的企业级项目。他说这个模型能支撑他每周 60 小时的开发工作流，而且通过 OpenRouter 调用，算上缓存等优化后，每百万 token 成本大约 0.08 美元。这个价格比很多闭源模型便宜不少，...

#Code#Vision#Agent#Qwen

一句话点评

一位开发者用 Qwen3.6:35b-a3b 替代 Composer 2 和 Kimi 2.6，处理 50-70 万行代码的企业项目，每周工作 60 小时。通过 OpenRouter 调用，算上缓存后每百万 token 成本约 0.08 美元，比多数闭源模型便宜。但这是个人分享，缺乏系统评测，且正文被屏蔽，无法验证具体效果和稳定性。如果是真的，对预算有限的团队挺省钱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

67

SCORE

H1·K1·R1

18:15

72d ago

r/LocalLLaMA· rssEN18:15 · 05·17

Qwen3.6 27B 打不过旧版 Coder？用户实测翻车

一位 Reddit 用户在 96GB Strix Halo 机器上用 llama.cpp 跑 Qwen3.6 27B Dense Q8，结果在 opencode 和合成测试里输给了旧版 Qwen-Coder-Next Q5。用户没贴具体分数、测试提示词和可复现日志，所以没法判断是量化损失、测试集偏差还是模型本身退步。如果是真的，那新模型在代码任务上可能...

#Code#Benchmarking#Inference-opt#Qwen

一句话点评

一位用户在96GB Strix Halo机器上跑Qwen3.6 27B Q8，发现代码能力不如旧版Qwen-Coder-Next Q5。没贴分数、提示词和日志，所以没法判断是量化损失、测试集偏差还是模型真退步。如果是真的，新模型在代码任务上可能没进步甚至倒车，但证据太弱，先别急着下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

17:29

72d ago

Hacker News 首页· rssEN17:29 · 05·17

欧盟考虑限制政府用美国云服务处理敏感数据

欧盟正在讨论出台规则，限制成员国政府用美国云服务商（比如微软Azure、谷歌云、AWS）处理敏感数据。正文没披露具体覆盖哪些机构、什么算敏感数据、以及执行时间表。目前只有CNBC的报道，没有正式提案文本。作者认为这事早该做，但很多成员国已经深度绑定美国云，比如荷兰刚把政府ID服务公司卖给美国企业，欧盟层面强制立法可能是唯一出路。评论里有人指出，就算数据...

#European Union#Policy

一句话点评

欧盟想限制成员国政府用微软Azure、谷歌云、AWS处理敏感数据，但正文没披露具体覆盖哪些机构、什么算敏感数据、执行时间表。目前只有CNBC的报道，没有正式提案文本。作者认为早该做，但很多成员国已深度绑定美国云，比如荷兰刚把政府ID服务公司卖给美国企业，欧盟层面强制立法可能是唯一出路。评论指出，微软在欧盟的数据中心已受当地法律管辖，限制未必能提升安全，反而可能推高成本。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

56

SCORE

H1·K0·R1

16:38

72d ago

r/LocalLLaMA· rssEN16:38 · 05·17

本地模型做会议记录够用吗？一个 Reddit 帖子的提问

一个 Reddit 用户说 Bluedot 能搞定会议录制、转录、摘要、待办和搜索，还提到 Claude MCP 可以用自然语言查历史会议。但帖子只问了本地模型能不能做到同样的事，正文没披露用了什么本地模型、准确率多少、延迟多高、跑在什么硬件上，也没说部署条件。所以这个问题目前没有答案，只是抛出了一个需求。

#Memory#Tools#Bluedot#Commentary

一句话点评

用户问本地模型能否替代Bluedot做会议记忆，但正文没披露用了什么模型、准确率、延迟或硬件。问题本身有价值，但信息缺口太大，没法判断可行性。Bluedot的转录+摘要+搜索功能对本地模型来说，瓶颈通常在长上下文和实时性，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

58

SCORE

H1·K0·R1

16:33

72d ago

AI HOT 精选· aihot-apiZH16:33 · 05·17

开源工具把微信读书数据变成26种图表，帮你复盘两年阅读习惯

开发者姚老师开源了 yao-weread-skill，一个能把微信读书数据导出成本地可视化报告的工具。它分析你近两年的阅读时长、节奏、书架构成、分类和作者偏好，还能对笔记和想法做语义分析，最后用词云、热力图、雷达图等26种图表展示。代码已公开在 GitHub。适合想用数据复盘自己阅读习惯的人，但正文没披露数据导出是否需要手动操作、隐私风险如何，以及是否...

#Tools#GitHub#WeRead#姚老师

一句话点评

姚老师开源了一个微信读书数据可视化工具，能分析近两年阅读时长、节奏、书架构成等，并用26种图表展示。对想用数据复盘阅读习惯的人挺实用。但正文没披露数据导出是否需要手动操作、隐私风险如何，以及是否支持增量更新。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

36

SCORE

H1·K1·R0

16:04

72d ago

Hacker News 首页· rssEN16:04 · 05·17

Mistral CEO：欧洲还有两年窗口期，否则将沦为美国AI的“附庸国”

Mistral CEO Arthur Mensch 在法国议会听证会上警告，欧洲只剩两年时间避免在AI基础设施（芯片、能源、算力）上依赖美国，否则将沦为“附庸国”。文章来自 Business Insider，但正文被付费墙挡住，没有披露他具体拿什么数据或案例支撑这个两年窗口期——比如欧洲目前算力缺口多大、本土芯片产能多少、能源成本对比如何，这些关键信息...

#Mistral#Business Insider#Hacker News#Commentary

一句话点评

Mistral CEO 在法国议会喊话：欧洲只剩两年窗口期，否则就会沦为美国 AI 的“附庸国”。这话挺狠，但正文被付费墙挡住了，没披露他到底拿什么数据支撑——欧洲算力缺口多大？本土芯片产能多少？能源成本差多少？这些关键数字全缺。Hacker News 上 66 分、71 条评论，说明社区在吵但没定论。短评：口号响亮，证据欠奉，先别急着站队。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

15:56

72d ago

r/LocalLLaMA· rssEN15:56 · 05·17

ROCm 7.13 夜版给 Strix Halo 加了优化，但没给跑分

AMD 的 ROCm 7.13 技术预览版针对 Ryzen AI Max 300“Strix Halo”做了优化，还把 ROCprof 跟踪解码器开源了。GitHub 上能下源码自己编译，但正文没披露具体提升了多少、测试条件是什么，也没说正式版什么时候发。想尝鲜可以自己试，但先别太激动，数据缺口太大。

#Inference-opt#Tools#AMD#ROCm

一句话点评

AMD 的 ROCm 7.13 技术预览版专门优化了 Strix Halo（Ryzen AI Max 300），还把 ROCprof 跟踪解码器开源了。GitHub 上能下源码自己编译，但正文没披露具体性能提升多少、测试条件是什么，也没说正式版发布时间。想尝鲜可以自己试，但数据缺口太大，先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

15:51

72d ago

r/LocalLLaMA· rssEN15:51 · 05·17

自己搭的 agent 流程，用 Qwen3.5 9B 小模型替换了 Claude Code 99% 的工作

Reddit 用户 DeltaSqueezer 自己写了一套 agent 工作流，底层模型用的是 Qwen3.5 9B（一个 90 亿参数的小模型）。为了绕开小模型的上下文窗口限制（不能一次性塞几百个文件），他用了 map-reduce 模式——把大任务拆成小块并行跑，跑完再合并结果。同时强制模型输出结构化数据，减少随机性，让合并步骤更稳定。他还搭了一...

#Agent#Code#Tools#Qwen

一句话点评

Reddit 用户 DeltaSqueezer 用 Qwen3.5 9B（90亿参数小模型）搭了一套 agent 工作流，靠 map-reduce 拆任务、强制结构化输出来绕开小模型上下文窗口限制，声称已替代 Claude Code 99% 的任务。关键看点是：小模型+好流程能打，但这是个人项目，没披露任务类型和成功率，且作者承认自己成了瓶颈（等审批）。这点先别太激动，99% 可能只针对他自...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

71

SCORE

H1·K1·R1

15:37

72d ago

FEATUREDHacker News 首页· rssEN15:37 · 05·17

Semble：给 AI 编程助手用的代码搜索工具，比 grep 省 98% 的 token

MinishLab 开源了 Semble，一个专为 AI 编程 agent 设计的代码搜索工具。它把轻量级语义嵌入（Model2Vec）、传统关键词匹配（BM25）和融合排序（RRF）串在一起，最后再用重排序模型精排结果。在 63 个代码仓库的测试里，它的搜索质量达到 NDCG@10 0.854，每次查询在 CPU 上大约只要 1.5 毫秒。最直接的好...

#Agent#Code#Embedding#MinishLab

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

给 AI 编程助手用的代码搜索工具，比 grep 省 98% token，CPU 上跑一次只要 1.5 毫秒。

锐评

Semble 把语义嵌入、传统关键词匹配和重排序模型串成一条流水线，专门解决 AI 编程 agent 在代码库里找东西时 token 消耗太大的问题。在 63 个代码仓库的测试里，搜索质量 NDCG@10 到了 0.854，每次查询在 CPU 上大约 1.5 毫秒，比直接用 grep 再读文件省了 98% 的 token。这个数字如果稳定，对按 token 计费的场景确实能省一笔钱。不过要注意，正文只给了 63 个仓库的基准测试结果，没说明这些仓库的规模、语言分布，也没和别的语义搜索方案做横向对比。0.854 的 NDCG 看起来不错，但不知道在超大单体仓库或者跨语言项目里会不会掉。另外，工具本身是开源的，但重排序模型的具体选型和训练细节正文没展开，想复现或者调优的话还得自己翻代码。整体看，思路很实用——用轻量方案在本地 CPU 上快速筛一遍，再交给重排序模型精排，避免了每次搜索都烧大模型的 token。缺的是更大规模、更多场景的验证，以及和其他同类工具的对比数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

15:26

72d ago

FEATUREDr/LocalLLaMA· rssEN15:26 · 05·17

MiroThinker-1.7 开源版深度研究 agent 发布，基于 Qwen3 MoE，mini 版总参数量 30B 但推理时只激活 3B

MiroMindAI 把他们的深度研究 agent MiroThinker-1.7 放出来了，权重直接挂在 HuggingFace 上。mini 版挺有意思：总参数量 30B，但用了 MoE（混合专家）架构，实际干活时只激活 3B 参数，所以对本地消费级硬件比较友好。上下文管理这块，他们用了滑动窗口 K=5 加 episode 重启的策略，相当于每轮对...

#Agent#Reasoning#Tools#MiroMindAI

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

30B 总参数只激活 3B 的 MoE 架构，本地跑深度研究 agent 的门槛又低了，但正文没披露实际推理速度。

锐评

MiroMindAI 把他们的深度研究 agent 放出来了，权重直接挂在 HuggingFace 上。mini 版用了 MoE 架构，30B 总参数但干活时只激活 3B，这对本地消费级硬件是个好消息——显存占用和推理延迟理论上会低不少。上下文管理用了滑动窗口 K=5 加 episode 重启的策略，相当于每轮对话只保留最近几轮的关键信息，超长任务跑崩的概率会小一些。不过这条信息来自 Reddit 帖子，原文被屏蔽了，我们拿到的只是摘要。实际推理速度、显存占用、任务完成质量这些关键指标都没披露。MoE 模型在消费级硬件上的吞吐量波动很大，3B 激活参数不代表就能在树莓派上跑，还得看路由机制和内存带宽。另外深度研究 agent 的核心是工具调用和长链推理的稳定性，光看架构参数判断不了实际好不好用。如果是真的，30B 模型只激活 3B 就能做深度研究，对本地部署场景确实挺省钱。但没看到实测数据之前，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

14:36

72d ago

AI HOT 精选· aihot-apiZH14:36 · 05·17

Codex 自己做了条视频，演示怎么用文本直接生成解说动画

这个方案把四个工具串起来：PPT Skill 负责画面和动效，HyperFrames 管时间线和渲染，Listenhub Skill 做配音，即梦 CLI 补片段。用户直接在 Codex 里输入文字，就能生成带动效的解说视频，还能在聊天界面预览。适合快速做产品介绍视频。正文没提价格、时长限制和输出分辨率。

#Agent#Code#Tools#Codex

一句话点评

把PPT动效、时间线渲染、配音和视频补片段四个工具串成一条流水线，用户只在Codex里打字就能出解说视频。好处是快，适合产品介绍这种短平快场景。但正文没提输出分辨率、时长上限和价格，实际可用性要打折——如果只能出720p、30秒，那离“替代剪辑”还远。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

14:15

72d ago

r/LocalLLaMA· rssEN14:15 · 05·17

给 llama.cpp 配了个图形界面，不用再背命令行参数了

一位开发者做了 Hexllama，给 llama.cpp 套了个模板管理器和 GUI。核心功能：用模板保存常用参数组合、一键切换 llama.cpp 版本、直接从 Hugging Face 下 GGUF 模型、同时跑多个模型在不同端口、以及纯 API 模式。项目 MIT 开源免费。正文没披露性能对比或资源占用，但如果你嫌每次敲命令行麻烦，这个能省点事。

#Tools#Inference-opt#Hexllama#llama.cpp

一句话点评

Hexllama 给 llama.cpp 套了个图形界面，核心卖点是模板管理：把常用参数存成模板，下次一键加载，不用再背命令行。还支持一键切换 llama.cpp 版本、从 Hugging Face 直接下 GGUF 模型、多模型同时跑在不同端口。MIT 开源免费。但正文没披露性能对比或资源占用，实际用起来会不会比命令行更吃内存、切换版本是否稳定，都不清楚。如果你嫌每次敲命令行麻烦，这个能省...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

14:00

72d ago

● P1彭博科技· rssEN14:00 · 05·17

Apple新版Siri应用将支持自动删除聊天记录

彭博社爆料 iOS 27 会有一个类似 ChatGPT 的 Siri 独立应用，核心卖点是聊天记录会自动清理。文章没提保留多久、什么时候上线，也没说具体功能细节。另外 Siri 这次可能还是挂着“Beta”标签，同时 Genmoji（AI 生成表情）也会升级。

#Agent#Multimodal#Apple#Siri

精选理由

精选 · 重要度 86 · 吸引力 + 共鸣

一句话点评

新版Siri会像聊天软件一样自动删记录，但苹果还没说清楚是本地删还是云端也删。

锐评

苹果要给Siri加自动删除聊天记录的功能，这步棋走得挺聪明——既想让你像用ChatGPT一样随便聊，又用“阅后即焚”来安抚隐私焦虑。Bloomberg的爆料提到，iOS 27里Siri会变成一个独立App，聊天记录默认自动清除，但正文没披露具体保留多久、是本地删除还是服务器端一并抹掉。Verge和TechCrunch的跟进也基本是转述同一篇爆料，没有苹果官方的确认。对从业者来说，这个功能的技术门槛不高，难的是怎么在“删记录”和“模型需要上下文学习”之间做平衡。如果每次对话都清空，Siri就很难记住你的习惯，个性化能力会打折。另外，苹果会不会把删除前的数据用于模型训练，正文完全没提，这是最大的信息缺口。先别太激动，等WWDC看官方怎么圆这个隐私和体验的跷跷板。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

86

SCORE

H1·K0·R1

13:25

72d ago

r/LocalLLaMA· rssEN13:25 · 05·17

Qwen3.6-27B MTP 深度测试：深度3提速1.83倍，深度4反而崩了

一位用户在 RTX 3090Ti 上跑了 Qwen3.6-27B 的 MTP（多 token 预测）GGUF 量化版。深度3时速度冲到 75.2 tokens/s，是关闭 MTP 时的 1.83 倍，说明这个技巧在消费级显卡上确实能白嫖速度。但深度4直接掉到 7.93 tokens/s，比不开还慢，推测是显存或带宽撑不住了。正文没披露具体量化等级和上下...

#Inference-opt#Benchmarking#Code#Qwen

一句话点评

Qwen3.6-27B 在 RTX 3090Ti 上开 MTP 深度3，速度冲到 75.2 tokens/s，比不开快 1.83 倍，消费级显卡白嫖加速挺香。但深度4直接崩到 7.93 tokens/s，比基线还慢，显存或带宽瓶颈明显。正文没披露量化等级和上下文长度，这俩变量对结果影响很大，实测前别直接套用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H1·K1·R1

12:44

72d ago

Hacker News 首页· rssEN12:44 · 05·17

ShurikenTrade 开源了一个让 AI 代理直接调用交易技能的仓库

ShurikenTrade 在 GitHub 上开源了 shuriken-skills，一个让 AI 代理（agent）直接调用交易功能的集成技能库。说白了就是给交易模型预装了一堆“技能插件”，比如下单、查行情、设止损，代理按需调用，不用每次都从头写逻辑。项目目前只有 4 个 Star、0 个 Issue，还非常早期。正文没披露这些技能具体怎么防乱操作...

#Agent#Safety#Tools#ShurikenTrade

一句话点评

ShurikenTrade 开源了一个给交易 agent 用的技能库，预装了下单、查行情、设止损等插件，agent 按需调用。项目才 4 个 Star，非常早期。正文没披露这些技能具体怎么防乱操作，安全护栏的设计是空的。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

50

SCORE

H1·K0·R1

12:04

72d ago

彭博科技· rssEN12:04 · 05·17

中国能源基建可能成为AI竞赛的隐藏王牌

彭博采访了三位美国政策界人士，他们表示中国在输电、可再生能源、电池和发电上的投资，正在把AI竞争从芯片和软件延伸到数据中心所需的电力上。前财长保尔森警告，美国AI技术虽然领先，但数据中心用电激增可能导致电力短缺。前驻华大使博卡斯说，中国在能源基建上的巨额投入已经在重塑全球供应链。胡佛研究所学者认为，北京的清洁能源战略既是气候政策，也是经济和地缘政治筹码...

#Bloomberg#Hank Paulson#Nicholas Burns#Commentary

一句话点评

彭博采访三位美国政策人士，核心观点：中国在输电、可再生能源、电池和发电上的巨额投资，正把AI竞争从芯片延伸到电力。前财长保尔森警告美国数据中心用电激增可能导致缺电；前驻华大使博卡斯说中国能源基建已重塑全球供应链；胡佛学者认为清洁能源战略也是经济和地缘筹码。关键数字：正文没披露具体投资额或电力缺口数据，来源是RSS摘要，信息有限。缺什么：缺中国实际电力装机增速、数据中心用电占比、以及美...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

11:18

72d ago

FEATUREDr/LocalLLaMA· rssEN11:18 · 05·17

用 85 个 GPU 小时，把 Qwen3.6-27B 的 5 种“去安全限制”方法拉出来比了比

这篇 Reddit 帖子被网络屏蔽了，正文内容没拿到，只能根据标题和现有摘要说个大概。作者花了 85 个 GPU 小时，在 Qwen3.6-27B 模型上对比了 5 种 abliteration（去掉模型安全限制）方法，跑了一堆基准测试、HarmBench 安全评测、KL 散度（看输出分布变化）和权重分析。摘要里提到，Huihui 方法对模型原本能力的...

#Safety#Benchmarking#Interpretability#Qwen

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

正文被 Reddit 屏蔽了，只能根据标题和摘要判断。85 GPU 小时对比 5 种去安全限制方法，Huihui 对原模型能力影响最小，Heretic 输出分布变化最小，五种方法都几乎把安全限制拆干净了。

锐评

这篇帖子本身没拿到正文，Reddit 直接返回了 403，所以所有判断都只能基于标题和摘要里的碎片信息。作者在 Qwen3.6-27B 上跑了 85 个 GPU 小时的实验，对比了五种 abliteration 方法，这个计算量不算小，说明对比做得比较认真。摘要提到 Huihui 方法在基准测试上掉分最少，Heretic 方法的 KL 散度最低，也就是输出风格跟原模型最接近。五种方法都做到了近乎完全移除安全限制，这点不意外，abliteration 这类操作本来就是冲着拆护栏去的。现在最大的问题是缺细节：不知道具体用了哪些基准测试，HarmBench 上的具体分数是多少，权重分析发现了什么规律。另外 27B 模型在单卡或双卡上就能跑，85 GPU 小时意味着可能做了多次重复实验或者测了很多子任务，但没看到实验设计就没法判断结论有多可靠。如果后续能拿到完整帖子或者作者在 Hugging Face 上放了详细报告，才值得认真看。目前只能说方向有意思，但信息缺口太大，别急着引用这个结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

10:57

72d ago

r/LocalLLaMA· rssEN10:57 · 05·17

RTX 5090 跑 Qwen3.6-27B，开网上推荐的加速选项反而掉速

一位用户在 Docker 里用 RTX 5090 跑 Qwen3.6-27B 的 GGUF 模型，试了网上常见的 draft-mtp 等加速选项，结果吞吐从 100 tok/s 掉到 80 tok/s。正文没披露具体配置和测试方法，所以不清楚是选项冲突还是 Docker 环境问题。如果你也在本地跑大模型，这个案例提醒你：网上推荐的参数不一定通用，最好自...

#Inference-opt#Qwen#Reddit#InternalMode8159

一句话点评

RTX 5090 跑 Qwen3.6-27B，网上抄的 draft-mtp 加速参数反而让吞吐从 100 tok/s 掉到 80 tok/s。正文没披露 Docker 挂载、CUDA 版本或测试脚本，所以不清楚是选项冲突还是容器开销。提醒：本地推理的“最佳实践”经常是特定硬件+裸机环境测出来的，照搬可能负优化。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

62

SCORE

H1·K1·R1

10:44

72d ago

r/LocalLLaMA· rssEN10:44 · 05·17

12个模型同题PK：谁能在单HTML文件里画一个开车动画？

Reddit用户AkiDenim用同一个Canvas提示词测试了12个模型，要求生成一个不依赖任何库或外部资源的独立HTML文件，实现开车动画。帖子只展示了结果截图，没有透露生成耗时、token速度或量化评分，所以只能看个大概，没法直接比谁快谁准。开源模型和闭源前沿模型都有参与，但具体表现差异正文没细说。

#Code#Tools#Benchmarking#GPT-5.5

一句话点评

同一个Canvas提示词测12个模型，只看截图结果，没给生成耗时和token速度，只能看个大概。开源和闭源都有参与，但具体谁快谁准正文没披露。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

10:24

72d ago

r/LocalLLaMA· rssEN10:24 · 05·17

双卡跑大模型提速40%，一个llama.cpp分支修复了量化KV缓存的张量分配bug

Reddit用户发了一个llama.cpp分支，修复了--split-mode tensor与量化KV缓存不兼容的问题。实测3060 12GB加4070 Super 12GB，跑Qwen3.5 27B Q4_K_M加q8_0 KV缓存，生成速度从21.22涨到30.05 tokens/s（提升约42%），但预填充从582.60降到544.82 toke...

#Inference-opt#Code#llama.cpp#Qwen

一句话点评

一个llama.cpp分支修了双卡跑大模型时量化KV缓存不兼容的bug。实测3060+4070 Super跑Qwen3.5 27B，生成速度从21涨到30 tokens/s（+42%），预填充略降。修的是tensor切分模式，不是更常见的row模式，适用面有限。代码已开源，但正文没披露显存占用变化。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

10:22

72d ago

● P1量子位 · 公众号· rssZH10:22 · 05·17

蔚蓝科技发布BabyAlpha A3四足机器人，搭载国产异构芯片

蔚蓝科技发了款消费级机器狗 BabyAlpha A3，用六颗芯片搭了个异构计算集群，直接在本地跑 7B 参数的大模型，推理速度到 280 TPS。视觉上配了 6600 万像素的摄像头，每秒能扫出 223.2 万个点云数据点，计划第三季度上市。不过正文因为环境验证没抓到具体内容，上面这些数字都来自外部摘要，实际表现和定价还没法核实。

#Robotics#Inference-opt#Multimodal#Weilan Technology

精选理由

精选 · 重要度 86 · 吸引力 + 知识量 + 共鸣

一句话点评

蔚蓝科技新机器狗用国产芯片跑通了70亿参数大模型，成本号称只有英伟达方案的十分之一，但正文没披露具体芯片型号和实测延迟。

锐评

这条新闻的核心看点不是机器狗本身，而是它肚子里那块国产异构芯片。蔚蓝科技声称在BabyAlpha A3上本地跑通了70亿参数的大模型，并且把成本压到了英伟达Jetson Thor方案的十分之一。如果属实，这对做端侧部署的团队是个好消息——不用再被英伟达的供货周期和价格卡脖子。但目前的公开信息太少了。机器之心那篇原文因为微信环境异常根本打不开，我们只能看到标题里的几个数字。算力提升1000倍这个说法需要看跟谁比，如果是跟前代产品比，那前代得多弱才能差出三个数量级。另外，70亿参数模型在机器狗上具体跑什么任务、推理延迟多少、功耗多大，这些关键指标一概没提。我会先给这条新闻打个七折。国产芯片替代是个真趋势，但“跑通”和“能用”之间还有很长距离。等实测数据和具体芯片型号出来再判断不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

86

SCORE

H1·K1·R1

10:22

72d ago

FEATURED量子位 · 公众号· rssZH10:22 · 05·17

TGO：不用人工挑好坏样本，靠一个分数就能把生图模型调得更听话

新加坡国立大学搞了个叫 TGO（阈值引导优化）的方法，被 ICML 2026 收了。它最大的好处是不需要提前构造“这张比那张好”的偏好对，直接拿一个标量分数（比如美学分、图文匹配度）就能做对齐。做法是先让模型生成一批图，算出分数的分布，定一个阈值：高于阈值的当正样本往上拉，低于的当负样本往下压。论文在 Stable Diffusion v1.5、FLU...

#Fine-tuning#Alignment#Vision#NUS

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

TGO 让图像/视频模型对齐不用再费劲挑“哪张更好”，直接拿一个分数就能训，省掉偏好对标注这一步。

锐评

这篇 ICML 2026 的工作解决了一个很实际的痛点：做视觉模型对齐时，不用再人工构造“A 比 B 好”的偏好对，直接拿一个标量分数（比如美学评分、图文匹配度）就能开训。做法是先让模型生成一批图，算出分数分布，定个阈值，高于阈值的当正样本往上拉，低于的当负样本往下压。论文在 Stable Diffusion v1.5、FLUX、Wan 1.3B 和 Meissonic 上都跑了实验，覆盖图像和视频生成，说明方法通用性不错。不过正文没披露具体阈值怎么定、对分数分布敏感度如何，也没给出和传统偏好对方法在相同预算下的直接对比。这点先别太激动——省掉偏好对标注是省了人工，但如果阈值调不好，正负样本划分可能很糙，最终效果会打折扣。另外，实验用的分数模型本身有没有偏、能不能代表真实用户偏好，正文也没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

10:12

72d ago

AI HOT 精选· aihot-apiZH10:12 · 05·17

Garry Tan 开源 GBrain：给 AI Agent 装一个 8 层记忆系统

Garry Tan 开源了一个叫 GBrain 的知识系统，不是简单的“外挂资料库”，而是用 8 层结构解决 AI Agent 记不住事的问题。前 4 层升级检索，后 4 层让 Agent 能记住用户的人际关系、决策过程甚至认知变化，实现终身记忆和自我进化。OpenClaw、Hermes 等 Agent 已经在生产环境用它处理大量数据。用户可以通过安装...

#Agent#RAG#Memory#Garry Tan

一句话点评

Garry Tan 开源了 GBrain，一个 8 层结构的 Agent 记忆系统。前 4 层升级检索，后 4 层让 Agent 记住用户的人际关系、决策过程甚至认知变化，实现终身记忆。OpenClaw、Hermes 等 Agent 已在生产环境用它处理大量数据。但正文没披露仓库地址和性能指标，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

10:04

72d ago

FEATUREDAI HOT 精选· aihot-apiZH10:04 · 05·17

微软AI CEO放话：18个月内AI能接手所有白领工作

微软AI负责人Mustafa Suleyman在《财富》采访里给了一个很激进的时间表——18个月内AI会达到人类水平，把会计、法律、营销、项目管理这些坐在电脑前干的活全自动化。他的原话是“所有白领工作都会被完全取代”。Suleyman还说自己的目标是搞出“超级智能”，以后建一个新AI模型会像录播客或写博客一样简单。不过正文没给出支撑这个18个月判断的具...

#Agent#Reasoning#Microsoft AI#Mustafa Suleyman

精选理由

精选 · 重要度 80 · 吸引力 + 知识量 + 共鸣

一句话点评

微软AI老大说18个月内AI能干完所有白领活，但正文没给出任何实验数据或产品路线图来撑这个时间表，先当愿景看。

锐评

Mustafa Suleyman 给了一个很激进的时间表：18个月内 AI 达到人类水平，把会计、法律、营销、项目管理这些坐在电脑前的活全自动化。这个判断目前只有他个人的口头预测，正文没披露任何支撑数据、内部测试结果或阶段性产品计划，所以可信度要打不小的折扣。他说自己的目标是搞出“超级智能”，以后建一个新 AI 模型会像录播客或写博客一样简单。这个说法更像在描述一个远期愿景，而不是接下来一年半会发生的事。从现有公开信息看，微软自己的 Copilot 产品线还在解决准确率和企业落地的问题，离“完全取代白领”差得远。这条新闻的价值在于看微软 AI 掌舵人怎么定调子，但缺的东西也很明显：没有定义什么叫“人类水平性能”，没有说明覆盖哪些具体任务，也没有提到验证方法。这些缺口让 18 个月这个数字更像一个公关信号，而不是工程时间表。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

80

SCORE

H1·K1·R1

09:31

72d ago

新智元 · 公众号· rssZH09:31 · 05·17

华东师大开源DAG模型：用有向图把外部变量塞进时间序列预测，12个数据集上跑赢9个基线

华东师大团队提出DAG模型，专门解决时间序列预测里怎么利用外部变量（比如天气、节假日）的问题。核心做法是建一个有向图，把时间维度和变量之间的依赖关系都显式建模进去，让模型知道“今天下雨”和“明天销量”之间怎么影响。论文在12个真实数据集上对比了9个基线方法，效果更好，而且代码、数据集、排行榜都开源了。不过正文没披露推理速度和参数量，实际部署成本还不清楚。

#Benchmarking#East China Normal University#Qiu Xiangfei#Decision Intelligence Lab

一句话点评

华东师大开源了DAG模型，专门解决时间序列预测里怎么用外部变量（比如天气、节假日）的问题。核心是建一个有向图，把时间和变量间的依赖关系显式建模，让模型知道“今天下雨”和“明天销量”怎么影响。在12个真实数据集上比了9个基线，效果更好，代码、数据、排行榜都开源了。但正文没披露推理速度和参数量，实际部署成本还不清楚。短评：开源+多数据集验证是亮点，但没提算力需求，想落地还得自己测。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

61

SCORE

H0·K1·R0

09:27

72d ago

r/LocalLLaMA· rssEN09:27 · 05·17

求推荐一个能当私人助理的本地小模型

Reddit 用户 DecodeBytes 想给 Mac M4 Max（36GB 统一内存）找个 12B 参数以下的本地模型当私人助理，要求能调用工具、通过 bash 执行 `date` 这类定时命令，还要兼容现有的 MCP 服务器。正文被 Reddit 屏蔽了，没披露具体讨论内容。

#Agent#Tools#DecodeBytes#Apple

一句话点评

有人在 Reddit 问 Mac M4 Max（36GB）上跑个 12B 以下本地模型当私人助理，要能调工具、跑 bash 定时任务、兼容 MCP 服务器。正文被 Reddit 屏蔽了，没看到具体推荐。36GB 跑 12B 模型够用，但工具调用和 MCP 兼容性得实测，小模型在这两块容易翻车。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

44

SCORE

H0·K0·R1

08:27

72d ago

r/LocalLLaMA· rssEN08:27 · 05·17

花760美元买二手RX7900XTX跑Qwen3.6，值不值？

一位Reddit用户卖掉RTX 3080 10GB后，花约760美元买了二手RX7900XTX，想跑Qwen3.6 27/35模型，目标量化到Q5或更高。帖子没透露实际跑的速度、上下文长度或显存占用，所以没法判断这笔买卖到底划算不划算。如果你也在纠结A卡跑大模型，这篇只能当个参考，具体性能还得自己测。

#Audio#Code#Inference-opt#Qwen

一句话点评

一位Reddit用户卖掉RTX 3080 10GB，花约760美元买了二手RX7900XTX，想跑Qwen3.6 27/35模型，目标量化到Q5或更高。帖子没透露实际跑的速度、上下文长度或显存占用，所以没法判断这笔买卖到底划算不划算。如果你也在纠结A卡跑大模型，这篇只能当个参考，具体性能还得自己测。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

42

SCORE

H0·K0·R1

07:33

72d ago

r/LocalLLaMA· rssEN07:33 · 05·17

Qwopus3.5-9B-Coder：一个能在16GB内存跑8bit精度的编程小模型

Jackrong 放出了 Qwopus3.5-9B-Coder 的 GGUF 量化版，主打 agentic coding（让模型自己调用工具写代码）、tool calling 和逻辑推理。9B 的稠密模型在 16GB 内存设备上就能跑 8bit 精度，目标显存约 10GB，还带了 MTP（多 token 预测，一次预测多个后续 token 来加速推理）...

#Agent#Code#Tools#Jackrong

一句话点评

Jackrong 把 Qwopus3.5-9B-Coder 量化成 GGUF 格式，主打让模型自己调工具写代码（agentic coding）。9B 模型在 16GB 内存设备上就能跑 8bit 精度，显存约 10GB，还带了多 token 预测来加速推理。但正文没披露任何跑分或实测效果，这点先别太激动。如果真能打，对本地 coding agent 场景挺实用。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

07:23

72d ago

FEATUREDAI HOT 精选· aihot-apiZH07:23 · 05·17

Grok Imagine 图像生成上线 X，所有用户都能用，但没公布模型参数和收费

Grok Imagine 在 X 上开放给所有人了，用他们最新的文本到图像模型，能生成写实风格的高质量图片，支持多种宽高比。正文没提模型参数量、是否收费、有没有地区限制，也没给生成速度或样本对比。我会先打个折：功能是开了，但关键信息全缺，别急着当主力工具。

#Multimodal#Vision#Grok#X

精选理由

精选 · 重要度 74 · 吸引力 + 知识量 + 共鸣

一句话点评

Grok 在 X 上开放了生图功能，能出写实风格、多比例图片。但正文没提收费、地区限制、模型大小和生成速度，先别急着当主力工具。

锐评

Elon Musk 宣布 Grok Imagine 在 X 对所有用户开放，用的是他们最新的文本到图像模型，主打写实风格和多宽高比输出。这条消息本身很短，只说了“能用”，但没给任何硬指标：模型参数量、推理延迟、是否收费、有没有地区限制，全都没提。对想拿它干活的从业者来说，这些信息缺口挺要命的——你不知道它跟 Midjourney、DALL·E 3 比到底差多少，也不知道免费额度够不够试。功能上线是好事，但现阶段只能当个尝鲜玩具，别急着把它塞进生产管线。等官方补上定价和性能数据再评估不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

74

SCORE

H1·K1·R1

07:09

72d ago

r/LocalLLaMA· rssEN07:09 · 05·17

Qwen 3.5 122B 跑得慢？19 tokens/s 算正常吗

Reddit 用户用 DGX Spark（128GB 连续内存）跑 Qwen3.5-122B-A10B-Q5_K_M 量化版，通过 llama-server 和 Open WebUI 推理，速度大约 19 tokens/s。这个速度对 122B 参数的大模型来说不算慢，但也不算快——相当于每秒输出十来个词，读起来会感觉有点卡顿。用户开了 262k 超长...

#Inference-opt#Qwen#LocalLLaMA#Open WebUI

一句话点评

19 tokens/s 跑 122B 模型，对 DGX Spark 来说算正常，但读起来会卡。用户开了 262k 超长上下文，这本身就很吃显存带宽。想提速可以降 ctx-size 或换更小量化，但正文没提具体硬件瓶颈，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H0·K1·R1

06:35

72d ago

FEATUREDr/LocalLLaMA· rssEN06:35 · 05·17

有人实测 DeepSeek V4 的百万上下文窗口，发现写代码的最佳区间是 15 万到 25 万 token

一位 Reddit 用户拿 DeepSeek V4 去啃 4.5 万、18 万和 52 万 token 的代码库，结论是 15 万到 25 万 token 时写代码最顺手。超过 30 万 token 后，模型对具体行号的定位开始不准；到 52 万 token 时，输出明显偏向架构总结，具体实现细节会跳过。帖子正文没披露测试用的具体任务和评估指标，所以这...

#Code#Reasoning#Memory#DeepSeek

精选理由

精选 · 重要度 76 · 吸引力 + 知识量 + 共鸣

一句话点评

DeepSeek V4 啃代码库，15-25 万 token 最顺手，超 30 万行号定位就飘，52 万直接变架构总结。但帖子没给测试任务和指标，先打个折。

锐评

这条 Reddit 帖子给了一个很实用的参考点：DeepSeek V4 标称 100 万 token 的上下文窗口，实际写代码最舒服的区间是 15 万到 25 万 token。超过 30 万 token，模型对具体行号的定位开始不准；到 52 万 token 时，输出明显偏向架构总结，具体实现细节会跳过。这跟很多人的体感一致——长上下文不是越长越好，模型会“偷懒”抓重点，丢掉细粒度信息。不过得说清楚，帖子正文没披露测试用的具体任务和评估指标。我们不知道是让模型改 bug、加功能还是做代码审查，也不知道“不准”是怎么衡量的。发帖人只给了 token 数和结论，没给原始对话或评分标准。所以这个结论更像一个用户经验，不能当正式基准看。对实际干活的人来说，这条信息有用：别一上来就塞整个代码库，先控制在 20 万 token 以内试试。但如果你要做精确到行的修改，超过 30 万 token 就得自己多检查。另外，帖子没提不同编程语言或项目结构的影响，这也是个缺口。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

76

SCORE

H1·K1·R1

06:14

72d ago

r/LocalLLaMA· rssEN06:14 · 05·17

Strix Halo 跑本地模型：ROCm 多 Token 预测能到 37.5 tok/s

Reddit 用户 IvGranite 在 AMD Strix Halo 上测了三款模型（含 35B MoE），对比了 ROCm 和 Vulkan 两个后端，还试了三种提示长度。满上下文时，ROCm 开启多 Token 预测（MTP）跑 35B MoE 达到 37.5 tok/s，而 Vulkan 不开 MTP 只有 28.9 tok/s。差距接近 3...

#Inference-opt#Benchmarking#llama.cpp#ROCm

一句话点评

AMD Strix Halo 跑 35B MoE 模型，满上下文时 ROCm 后端开 MTP 达 37.5 tok/s，比 Vulkan 不开 MTP 的 28.9 tok/s 快约 30%。MTP 让模型一次预测多个 token，推理提速明显。但注意这是单用户本地跑分，未披露功耗和显存占用，实际部署时散热和带宽可能打折。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

66

SCORE

H0·K1·R1

06:07

72d ago

r/LocalLLaMA· rssEN06:07 · 05·17

Pi 编程助手怎么让 Qwen 的思考变短？

有人在本地用 llama-server 跑 Qwen 35B A3B，把推理预算设成 -1，结果 Pi 编程助手产出的思考块很短且自然结束。正文没披露 Pi 具体怎么控制思考长度，可能是通过 prompt 或采样参数，但没证据。

#Agent#Reasoning#Code#Qwen

一句话点评

有人在本地用 llama-server 跑 Qwen 35B A3B，把推理预算设成 -1，Pi 编程助手产出的思考块很短且自然结束。正文没披露 Pi 具体怎么控制思考长度，可能是通过 prompt 或采样参数，但没证据。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

52

SCORE

H1·K0·R1

05:41

72d ago

r/LocalLLaMA· rssEN05:41 · 05·17

LeanLoop：用 Claude 做规划，本地小模型干苦力，还自带测试纠错

一位叫 DiscipleofDeceit666 的开发者放出了一个叫 LeanLoop 的工具，思路挺实在：让 Claude（或其他云端模型）先写一份“瘦任务清单”（leanfile），然后交给本地跑的小模型——他用的是一块 Qwen3.6 35B A3B，32K 上下文——去一条条执行。每干完一个任务，自动跑单元测试，没过就把失败信息塞回本地模型让它...

#Agent#Code#Tools#Claude

一句话点评

一个开发者用 Claude 写任务清单，本地 Qwen3.6 35B 模型逐条执行并自动跑单元测试，失败就回传修复。思路是拿云端模型做规划、本地模型干苦力，省钱且能并行。目前只验证了 Qwen，其他 CLI 脚本靠猜，多线程还没实现。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

68

SCORE

H1·K1·R1

05:30

72d ago

Hacker News 首页· rssEN05:30 · 05·17

Codiff：一个本地 diff 审查工具，原型用 LLM 16 分钟生成

nkzw-tech 发布了 Codiff，一个本地 diff 审查工具。作者说原型是用 LLM 在 16 分钟内生成的，速度很快，界面简洁。支持文件过滤、搜索、LLM 逐行讲解模式，以及可以把审查意见粘贴回 LLM。适合审查 LLM 生成的大量代码。正文没披露具体性能数据，但作者说处理大 diff 极快。

#Code#Tools#nkzw-tech#Codiff

一句话点评

作者用 LLM 16 分钟搓了个本地 diff 审查工具，主打快和简洁。支持文件过滤、搜索、LLM 逐行讲解，还能把审查意见贴回 LLM。适合审 LLM 写的大量代码。正文没披露大 diff 具体多大、多快，但说处理极快。18 个赞 7 条评论，热度一般，胜在实用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

64

SCORE

H1·K1·R1

05:24

72d ago

AI HOT 精选· aihot-apiZH05:24 · 05·17

ChatGPT手机版能直接写代码项目了

OpenAI CEO Sam Altman发帖说，ChatGPT手机应用现在集成了Codex，用户可以直接在App里构建项目。正文没披露支持哪些平台、要不要额外付费、以及开放范围有多大。如果是真的，等于把编程环境塞进手机，对快速原型和调试挺实用，但手机屏幕写代码的体验和权限限制还得看实测。

#Code#Tools#ChatGPT#Codex

一句话点评

OpenAI CEO 发帖说 ChatGPT 手机 App 现在能直接用 Codex 搭项目，等于把编程环境塞进手机里，快速原型和调试挺实用。但正文没披露支持哪些平台、要不要额外付费、开放范围多大。手机屏幕写代码的体验和权限限制还得看实测，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

70

SCORE

H1·K1·R1

05:10

72d ago

Product Hunt · AI· rssEN05:10 · 05·17

Chert：让AI在iMessage里直接给客户发短信

Chert是一个帮你搭建iMessage聊天机器人的工具，可以自动处理客服、获取潜在客户等。你只需要设置好系统提示词和语气，就能创建一个能主动发消息、也能回复客户的AI代理。它还支持接入HubSpot等CRM，把聊天记录写回去。正文没披露定价、具体怎么集成、以及支持的对话流程细节，所以不清楚成本高不高、部署门槛怎么样。

#Agent#Chert#Product update

一句话点评

Chert 让你搭一个能主动发 iMessage 的 AI 客服，设好提示词和语气就能跑，还能接 HubSpot 等 CRM 写回聊天记录。但正文没披露定价、集成细节和对话流程支持到什么程度，所以不清楚成本高不高、部署门槛怎么样。如果是真的，对做苹果生态获客的团队挺实用，但建议先问清楚是按消息量收费还是月费。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

52

SCORE

H1·K0·R0

04:16

72d ago

AI HOT 精选· aihot-apiZH04:16 · 05·17

微信读书Skill安装指南：两种方式让AI直接查你的划线

想用AI直接查微信读书里的高亮划线？装个Skill就行。官方给了两种安装路径：一是把微信读书提供的zip包发给Codex或Claude Code，二是用网友@eviljer做的优化版，跑一行npx命令就能装。装好后直接跟AI说“调用微信读书skill 查看被讨厌勇气的高亮划线”就能用。需要API key的话，微信官方页面可以获取。正文没提这个Skill...

#Agent#Tools#WeChat Read#Codex

一句话点评

微信读书出了官方 Skill，装完后 AI 能直接查你书里的划线。两种装法：把官方 zip 丢给 Codex/Claude Code，或者跑一行 npx 命令用网友优化版。正文没披露 Skill 具体能做什么（比如能不能搜全文、导出笔记），也没说 API key 的调用限额和费用。对重度微信读书用户是省事工具，但先别激动——第三方 Skill 的稳定性和数据权限都没细说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

64

SCORE

H1·K1·R0

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户