ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
41 srcsignal 72%cycle 04:32

全部 · 2026-05-17

64 items · updated 3m ago
RSS live
2026-05-17 · 星期日2026年5月17日
23:07
26d ago
r/LocalLLaMA· rssEN23:07 · 05·17
AIPointer 接入 Ollama,找本地视觉模型用户当小白鼠
AIPointer 开发者正在给 v1.2.0 版本内置 Ollama 支持,计划下周发布。现在找 beta 测试者,要求 M 系列 Mac、RTX 3090/4090/5090、AMD ROCm 或 16GB 显存以上的显卡,帮忙反馈首 token 延迟(TTFT)、模型量化方式、硬件配置和工具调用失败的情况。正文没披露具体支持哪些视觉模型,也没说是...
#Vision#Tools#Agent#AIPointer
精选理由
这是一个小众开源应用的更新,没有跑分结果或广泛市场影响,所以分数卡在 60–71 区间。
一句话点评
AIPointer 要内置 Ollama 了,下周发 v1.2.0。现在找 beta 测试者,要求 M 系列 Mac、RTX 3090/4090/5090 或 16GB 以上显存。主要测首 token 延迟、量化方式和工具调用失败情况。正文没披露具体支持哪些视觉模型,也没说是否支持 Qwen 等常见本地模型。如果你手头有这些硬件,可以试试,但别指望开箱即用——beta 阶段工具调用可能翻车。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
21:59
26d ago
r/LocalLLaMA· rssEN21:59 · 05·17
2 张 3090 跑 MiniMax M2.7,128K 上下文,速度还行但不算快
Reddit 用户 wombweed 用 2 张 3090、256GB DDR4 内存和二手 10900X CPU,跑起了 MiniMax M2.7 模型(Q8_0 量化,128K 上下文,KV 缓存未量化)。提示处理速度约 50 tokens/秒,生成速度约 10 tokens/秒——对编码 agent 工作流来说够用,但不算快。作者特意选了 Q8_...
#Code#Inference-opt#MiniMax#wombweed
精选理由
一条 Reddit 用户的一手实测,数据具体、配置明确,对本地推理玩家有参考价值。但只有单点测试,没有可复现的基准或官方支持,所以定为 tier all。
一句话点评
Reddit 用户用 2 张 3090 加 256GB 内存跑起了 MiniMax M2.7 模型,Q8_0 量化下 128K 上下文,提示处理约 50 tokens/秒,生成约 10 tokens/秒。作者说对编码 agent 工作流够用,但速度确实慢——比高端卡差一个数量级。亮点是用了 CPU 分担 MoE 专家层(--cpu-moe),把 GPU 显存省给 KV 缓存。不过正文没披露具...
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
21:36
26d ago
r/LocalLLaMA· rssEN21:36 · 05·17
Qwen3.5-122B 用 WebGL 实时渲染人脸,效果接近照片
Reddit 用户发帖展示 Qwen3.5-122B-A10B 模型(UD-Q3_K_XL 量化版)生成的 WebGL 实时人脸渲染,画面接近照片级。但帖子正文被屏蔽,没透露具体 prompt、运行环境或帧率,所以不清楚实际延迟和硬件门槛。如果是真的,说明大模型写 WebGL 代码的能力又进了一步,但这点先别太激动——缺少可复现的细节。
#Code#Vision#Qwen#Reddit
精选理由
HKR-H 靠 WebGL 人脸渲染 demo 钩子通过,但 HKR-K 和 HKR-R 都不满足:正文没披露提示词、运行环境、帧率、代码、成本或工作流影响,信息不足以支撑更高评分。
一句话点评
Qwen3.5-122B 的量化版号称能直接写 WebGL 代码,实时渲染出接近照片级的人脸。帖子正文被屏蔽,没透露 prompt、运行环境或帧率,所以不清楚实际延迟和硬件门槛。如果是真的,说明大模型写图形代码的能力又进了一步,但这点先别太激动——缺少可复现的细节。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R0
21:17
26d ago
r/LocalLLaMA· rssEN21:17 · 05·17
7900 XTX 跑 Qwen3.6-27B,开 MTP 投机解码从 22 tok/s 翻倍到 50 tok/s
一位用户在 7900 XTX 上用 llama.cpp Vulkan 跑 Qwen3.6-27B(Q4_K_M 量化),64K 上下文,开启 MTP 投机解码后首轮生成速度 22.6 tok/s;换成 q8 缓存把模型塞进显存后,生成速度直接翻倍到 50 tok/s。正文没披露具体显存占用和功耗,但 50 tok/s 对本地 27B 模型来说已经很快,...
#Inference-opt#Reasoning#Qwen#llama.cpp
精选理由
H/K/R 都达标,但这是 Reddit 单用户硬件测试,没有多卡或多模型复现,覆盖面窄。具体的 tok/s 数字和 q8 cache 条件让它在 60–71 实用信号区间里站得住脚。
一句话点评
7900 XTX 跑 Qwen3.6-27B,开 MTP 投机解码首轮 22.6 tok/s,换 q8 缓存塞满显存后翻倍到 50 tok/s。50 tok/s 对本地 27B 模型算很快了,但这是单用户单卡数据,没披露显存占用和功耗,实际部署成本未知。MTP 加速效果明显,但依赖模型和量化精度,通用性待验证。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
20:57
26d ago
r/LocalLLaMA· rssEN20:57 · 05·17
12GB显存跑本地安全模型,选7B还是硬上32B?
Reddit用户想用RTX 5070(12GB显存)跑本地大模型做网络安全,包括代码分析、逆向工程、写PoC脚本、总结威胁报告。他纠结几个点:7B-14B模型速度快,但32B模型部分卸载到系统内存(32GB DDR5)值不值得;量化选Q4还是Q5;上下文长度32k够不够,还是需要128k(比如Qwen2.5)。另外担心模型因为内容涉及漏洞或恶意软件而拒...
#Code#Tools#Reddit#Ollama
精选理由
HKR-R 通过,因为 12GB 显存跑本地 LLM 做安全工作是很多人关心的省钱又保隐私的场景;但 HKR-H 和 HKR-K 不通过:标题没新角度,正文没测试也没可复用的结论。
一句话点评
RTX 5070(12GB显存)跑安全分析,7B-14B模型最稳,32B模型卸载到系统内存(32GB DDR5)会明显变慢,不划算。量化选Q4_K_M,速度和质量平衡好。32k上下文够用,128k(如Qwen2.5)显存扛不住。模型拒答漏洞/恶意软件问题常见,正文没提具体哪些模型不拒,建议试Mistral或Llama 3.1的abliterated版。短评:12GB显存跑安全分析,7B-14...
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
20:19
26d ago
r/LocalLLaMA· rssEN20:19 · 05·17
把视觉模块嫁接到纯文本模型上,一个 Reddit 用户自己动手改了 llama.cpp 的代码
一位 Reddit 用户把 Pixtral-Large 的视觉模块(mmproj)挂到了 Behemoth-X 文本模型上,然后改了 llama.cpp 里 Pixtral 处理图片结束的 token,从 [IMG_END] 换成了换行符。这么做的原因是:原版代码在文本模型处理图片时会出现 turn-loss 问题(模型把图片后的第一句话当成下一轮对话...
#Multimodal#Vision#Audio#Mistral
精选理由
HKR 三项都达标,但这是 Reddit 上的本地模型小技巧,行业影响力有限。具体的 llama.cpp/Pixtral 机制让它比灌水帖强,但够不上精选。
一句话点评
有人把 Pixtral-Large 的视觉模块嫁接到 Behemoth-X 纯文本模型上,改了 llama.cpp 里图片结束 token 为换行符,解决了图片后第一句话被当成下一轮对话的 turn-loss 问题。这相当于给文本模型加了个眼睛,成本低(只换模块不改训练),但正文没披露视觉对齐效果和推理速度。短评:低成本嫁接视觉,但效果和速度未知。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
19:49
26d ago
r/LocalLLaMA· rssEN19:49 · 05·17
M5 Mac、DGX Spark、Strix Halo、RTX 6000 跑本地大模型,谁快?
Reddit 用户 Signal_Ad657 花了三天,用统一测试脚本跑了四套本地 AI 硬件。RTX 6000 内存带宽约 1800 GB/s,M5 约 600 GB/s,DGX Spark 和 Strix Halo 都在 256 GB/s 左右。带宽直接决定大模型推理速度,RTX 6000 领先 M5 三倍,领先后两者七倍。不过正文没披露具体跑的是...
#Inference-opt#Benchmarking#Signal_Ad657#NVIDIA
精选理由
HKR 三项都达标,但来源是 Reddit 上单个用户的硬件测试,不是官方发布或大规模基准。数字有用,权威性和覆盖面有限,所以分数卡在 69 这个高位区间。
一句话点评
RTX 6000 带宽 1800 GB/s,是 M5 的三倍、DGX Spark 和 Strix Halo 的七倍,跑大模型推理快很多。但这是 Reddit 用户自测,没披露具体模型和量化精度,参考价值打折。如果是真的,买 DGX Spark 前得想清楚:便宜但带宽只有 256 GB/s,跑大模型会慢。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
19:46
26d ago
TechCrunch AI· rssEN19:46 · 05·17
马斯克诉OpenAI案:信任成了核心问题
马斯克和OpenAI的律师本周做了结案陈词,陪审团要决定OpenAI在转型为营利组织的过程中是否违规。但庭审最后几天的一个大主题是:OpenAI CEO Sam Altman到底值不值得信任。比如马斯克的律师拿Altman在国会作证时的说法追问真假。TechCrunch记者指出,马斯克自己也没少说误导性的话,而且信任问题不只针对Altman——所有AI...
#Safety#Elon Musk#OpenAI#Sam Altman
精选理由
H 和 R 通过:Musk 告 OpenAI 庭审有真实的治理戏剧性。K 不通过:RSS 只给了信任角度,没有新证词、裁决里程碑或监管后果。
一句话点评
马斯克诉OpenAI案结案陈词,陪审团要判OpenAI转营利是否违规。庭审最后几天焦点变成:Altman值不值得信任?马斯克律师拿他国会证词追问真假。但记者指出马斯克自己也说过不少误导话,而且信任问题不只针对Altman——所有AI公司都面临。正文没披露陪审团倾向或判决时间。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
19:36
26d ago
FT · 科技· rssEN19:36 · 05·17
阳狮22亿美元收购数据公司LiveRamp,给AI营销补数据弹药
阳狮集团(Publicis)宣布以22亿美元收购美国数据公司LiveRamp,官方口径是“深化AI营销”。22亿美元买的是数据打通能力——LiveRamp的核心是把线上浏览、线下购买、电视广告等不同来源的用户ID串起来,让广告主知道同一个人的跨屏行为。这对AI营销的实际意义是:模型需要喂“谁看了什么、买了什么”的关联数据,LiveRamp正好提供这种清...
#Publicis#LiveRamp#Funding
精选理由
22亿美元的收购金额是实打实的数字,说明数据资产在AI营销里的竞争在升级。但正文没披露交易结构、时间表或具体AI机制,信息缺口明显,所以分数压在60–71区间。
一句话点评
阳狮22亿美元买LiveRamp,核心是拿用户ID打通能力喂AI营销模型。但正文被墙,交易结构、交割时间、具体怎么跟AI结合都没披露。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R0
18:55
26d ago
Product Hunt · AI· rssEN18:55 · 05·17
Haystack:帮你筛出真正需要人看的 PR
Haystack 是一个挂在 GitHub 上的 PR 审查工具,专门应对 AI 写代码后 PR 数量暴增的问题。它会分析每个 PR 的代码差异、上下文、AI 代理的执行轨迹、意图和验证证据,然后自动分类:安全的直接放行,有问题的打回修改,只有需要人工判断的才推给开发者。正文没披露具体的审查机制、支持哪些仓库、集成方式和定价。
#Code#Tools#Haystack#Product update
精选理由
一个小众 Product Hunt 工具发布;只有 HKR-R 勉强通过。没有披露机制、定价、集成方式或测试结果,属于低价值的产品更新,但也不至于直接排除。
一句话点评
短评:AI写代码后PR暴增,Haystack自动筛出需要人看的,省时间。但正文没披露审查准确率、支持哪些仓库、定价,先别太激动。 点评:Haystack挂在GitHub上,分析PR的代码差异、上下文、AI代理执行轨迹和验证证据,然后自动分类:安全的直接放行,有问题的打回修改,只有需要人工判断的才推给开发者。思路很直接——AI写代码后PR数量暴增,人工一个个看效率太低,Haystack相当于...
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R1
18:18
26d ago
r/LocalLLaMA· rssEN18:18 · 05·17
一个开发者从 Composer 2/Kimi 2.6 换到 Qwen3.6:35b-a3b,说能撑住 60 小时周工作量
一位 Reddit 用户分享,他把 Composer 2 和 Kimi 2.6 换成了 Qwen3.6:35b-a3b,用来处理 50 万到 70 万行代码的企业级项目。他说这个模型能支撑他每周 60 小时的开发工作流,而且通过 OpenRouter 调用,算上缓存等优化后,每百万 token 成本大约 0.08 美元。这个价格比很多闭源模型便宜不少,...
#Code#Vision#Agent#Qwen
精选理由
H、K、R 三项都够,但这是一条 Reddit 个人经验,有工作量和成本数字,不是可复现的基准测试或正式发布。放在 60-71 分区间合适,作为一线从业者的实用参考。正文没披露具体任务类型、缓存命中率、以及是否涉及视觉或 agent 场景,这些缺口会影响结论的泛化能力。
一句话点评
一位开发者用 Qwen3.6:35b-a3b 替代 Composer 2 和 Kimi 2.6,处理 50-70 万行代码的企业项目,每周工作 60 小时。通过 OpenRouter 调用,算上缓存后每百万 token 成本约 0.08 美元,比多数闭源模型便宜。但这是个人分享,缺乏系统评测,且正文被屏蔽,无法验证具体效果和稳定性。如果是真的,对预算有限的团队挺省钱。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H1·K1·R1
18:15
26d ago
r/LocalLLaMA· rssEN18:15 · 05·17
Qwen3.6 27B 打不过旧版 Coder?用户实测翻车
一位 Reddit 用户在 96GB Strix Halo 机器上用 llama.cpp 跑 Qwen3.6 27B Dense Q8,结果在 opencode 和合成测试里输给了旧版 Qwen-Coder-Next Q5。用户没贴具体分数、测试提示词和可复现日志,所以没法判断是量化损失、测试集偏差还是模型本身退步。如果是真的,那新模型在代码任务上可能...
#Code#Benchmarking#Inference-opt#Qwen
精选理由
HKR 三项都达标:帖子有一个反直觉的模型排名结论,加上具体的测试环境和硬件细节。但缺少分数、且是单用户 Reddit 来源,所以分数落在 60–71 区间。
一句话点评
一位用户在96GB Strix Halo机器上跑Qwen3.6 27B Q8,发现代码能力不如旧版Qwen-Coder-Next Q5。没贴分数、提示词和日志,所以没法判断是量化损失、测试集偏差还是模型真退步。如果是真的,新模型在代码任务上可能没进步甚至倒车,但证据太弱,先别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
17:29
26d ago
Hacker News 首页· rssEN17:29 · 05·17
欧盟考虑限制政府用美国云服务处理敏感数据
欧盟正在讨论出台规则,限制成员国政府用美国云服务商(比如微软Azure、谷歌云、AWS)处理敏感数据。正文没披露具体覆盖哪些机构、什么算敏感数据、以及执行时间表。目前只有CNBC的报道,没有正式提案文本。作者认为这事早该做,但很多成员国已经深度绑定美国云,比如荷兰刚把政府ID服务公司卖给美国企业,欧盟层面强制立法可能是唯一出路。评论里有人指出,就算数据...
#European Union#Policy
精选理由
HKR-H 和 HKR-R 靠云主权冲突过关,但 HKR-K 不成立:只有标题级事实,没有具体范围或时间表。这条新闻跟 AI 基础设施(云)沾边,不是 AI 产品或模型本身的故事。
一句话点评
欧盟想限制成员国政府用微软Azure、谷歌云、AWS处理敏感数据,但正文没披露具体覆盖哪些机构、什么算敏感数据、执行时间表。目前只有CNBC的报道,没有正式提案文本。作者认为早该做,但很多成员国已深度绑定美国云,比如荷兰刚把政府ID服务公司卖给美国企业,欧盟层面强制立法可能是唯一出路。评论指出,微软在欧盟的数据中心已受当地法律管辖,限制未必能提升安全,反而可能推高成本。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H1·K0·R1
16:38
26d ago
r/LocalLLaMA· rssEN16:38 · 05·17
本地模型做会议记录够用吗?一个 Reddit 帖子的提问
一个 Reddit 用户说 Bluedot 能搞定会议录制、转录、摘要、待办和搜索,还提到 Claude MCP 可以用自然语言查历史会议。但帖子只问了本地模型能不能做到同样的事,正文没披露用了什么本地模型、准确率多少、延迟多高、跑在什么硬件上,也没说部署条件。所以这个问题目前没有答案,只是抛出了一个需求。
#Memory#Tools#Bluedot#Commentary
精选理由
HKR-H 和 HKR-R 通过,因为本地会议记忆这个提问很实际,且跟从业者身份强相关。HKR-K 不通过:正文没披露任何模型名称、准确率数据或可复现的部署条件。
一句话点评
用户问本地模型能否替代Bluedot做会议记忆,但正文没披露用了什么模型、准确率、延迟或硬件。问题本身有价值,但信息缺口太大,没法判断可行性。Bluedot的转录+摘要+搜索功能对本地模型来说,瓶颈通常在长上下文和实时性,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
16:33
26d ago
AI HOT 精选· aihot-apiZH16:33 · 05·17
开源工具把微信读书数据变成26种图表,帮你复盘两年阅读习惯
开发者姚老师开源了 yao-weread-skill,一个能把微信读书数据导出成本地可视化报告的工具。它分析你近两年的阅读时长、节奏、书架构成、分类和作者偏好,还能对笔记和想法做语义分析,最后用词云、热力图、雷达图等26种图表展示。代码已公开在 GitHub。适合想用数据复盘自己阅读习惯的人,但正文没披露数据导出是否需要手动操作、隐私风险如何,以及是否...
#Tools#GitHub#WeRead#姚老师
精选理由
HKR-H和HKR-K靠26种图表和个人数据分析钩子通过,但正文没披露任何AI模型、智能体机制或工作流影响,低于AI雷达相关性门槛,按<40规则归为excluded。
一句话点评
姚老师开源了一个微信读书数据可视化工具,能分析近两年阅读时长、节奏、书架构成等,并用26种图表展示。对想用数据复盘阅读习惯的人挺实用。但正文没披露数据导出是否需要手动操作、隐私风险如何,以及是否支持增量更新。
HKR 分解
hook knowledge resonance
打开信源
36
SCORE
H1·K1·R0
16:04
26d ago
Hacker News 首页· rssEN16:04 · 05·17
Mistral CEO:欧洲还有两年窗口期,否则将沦为美国AI的“附庸国”
Mistral CEO Arthur Mensch 在法国议会听证会上警告,欧洲只剩两年时间避免在AI基础设施(芯片、能源、算力)上依赖美国,否则将沦为“附庸国”。文章来自 Business Insider,但正文被付费墙挡住,没有披露他具体拿什么数据或案例支撑这个两年窗口期——比如欧洲目前算力缺口多大、本土芯片产能多少、能源成本对比如何,这些关键信息...
#Mistral#Business Insider#Hacker News#Commentary
精选理由
HKR-H和HKR-R通过:标题的“2年”和“附庸国”措辞很抓眼球,且切中AI主权焦虑。HKR-K不通过:正文没有给出任何证据、政策路径或能力差距,所以这篇只能归到60–71分的评论类。
一句话点评
Mistral CEO 在法国议会喊话:欧洲只剩两年窗口期,否则就会沦为美国 AI 的“附庸国”。这话挺狠,但正文被付费墙挡住了,没披露他到底拿什么数据支撑——欧洲算力缺口多大?本土芯片产能多少?能源成本差多少?这些关键数字全缺。Hacker News 上 66 分、71 条评论,说明社区在吵但没定论。短评:口号响亮,证据欠奉,先别急着站队。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
15:56
26d ago
r/LocalLLaMA· rssEN15:56 · 05·17
ROCm 7.13 夜版给 Strix Halo 加了优化,但没给跑分
AMD 的 ROCm 7.13 技术预览版针对 Ryzen AI Max 300“Strix Halo”做了优化,还把 ROCprof 跟踪解码器开源了。GitHub 上能下源码自己编译,但正文没披露具体提升了多少、测试条件是什么,也没说正式版什么时候发。想尝鲜可以自己试,但先别太激动,数据缺口太大。
#Inference-opt#Tools#AMD#ROCm
精选理由
HKR-K 和 HKR-R 通过,但 HKR-H 偏弱:这是 ROCm 的 nightly 小版本更新,没有跑分、测试条件或发布时间表。对本地推理用户有信息价值,但不够格做头条。
一句话点评
AMD 的 ROCm 7.13 技术预览版专门优化了 Strix Halo(Ryzen AI Max 300),还把 ROCprof 跟踪解码器开源了。GitHub 上能下源码自己编译,但正文没披露具体性能提升多少、测试条件是什么,也没说正式版发布时间。想尝鲜可以自己试,但数据缺口太大,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
15:51
26d ago
r/LocalLLaMA· rssEN15:51 · 05·17
自己搭的 agent 流程,用 Qwen3.5 9B 小模型替换了 Claude Code 99% 的工作
Reddit 用户 DeltaSqueezer 自己写了一套 agent 工作流,底层模型用的是 Qwen3.5 9B(一个 90 亿参数的小模型)。为了绕开小模型的上下文窗口限制(不能一次性塞几百个文件),他用了 map-reduce 模式——把大任务拆成小块并行跑,跑完再合并结果。同时强制模型输出结构化数据,减少随机性,让合并步骤更稳定。他还搭了一...
#Agent#Code#Tools#Qwen
精选理由
这是 Reddit 用户的个人经验分享,机制讲得清楚,但 99% 替代率是自报数据,没有可复现的基准测试或开源工具。信息缺口在于:没披露具体任务类型、失败案例、以及 Qwen3.5 9B 在复杂任务上的实际表现。所以虽然 H/K/R 都成立,但证据强度有限,放在默认档位比较稳妥。
一句话点评
Reddit 用户 DeltaSqueezer 用 Qwen3.5 9B(90亿参数小模型)搭了一套 agent 工作流,靠 map-reduce 拆任务、强制结构化输出来绕开小模型上下文窗口限制,声称已替代 Claude Code 99% 的任务。关键看点是:小模型+好流程能打,但这是个人项目,没披露任务类型和成功率,且作者承认自己成了瓶颈(等审批)。这点先别太激动,99% 可能只针对他自...
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
14:36
26d ago
AI HOT 精选· aihot-apiZH14:36 · 05·17
Codex 自己做了条视频,演示怎么用文本直接生成解说动画
这个方案把四个工具串起来:PPT Skill 负责画面和动效,HyperFrames 管时间线和渲染,Listenhub Skill 做配音,即梦 CLI 补片段。用户直接在 Codex 里输入文字,就能生成带动效的解说视频,还能在聊天界面预览。适合快速做产品介绍视频。正文没提价格、时长限制和输出分辨率。
#Agent#Code#Tools#Codex
精选理由
H/K/R 都过,因为演示给出了具体的 Codex 到视频的工作流,对实践者有吸引力。重要性留在 all:这是单个 X 的 demo,没有代码、指标或正式发布信息,正文也没披露生成一条视频的成本和延迟。
一句话点评
把PPT动效、时间线渲染、配音和视频补片段四个工具串成一条流水线,用户只在Codex里打字就能出解说视频。好处是快,适合产品介绍这种短平快场景。但正文没提输出分辨率、时长上限和价格,实际可用性要打折——如果只能出720p、30秒,那离“替代剪辑”还远。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
14:15
26d ago
r/LocalLLaMA· rssEN14:15 · 05·17
给 llama.cpp 配了个图形界面,不用再背命令行参数了
一位开发者做了 Hexllama,给 llama.cpp 套了个模板管理器和 GUI。核心功能:用模板保存常用参数组合、一键切换 llama.cpp 版本、直接从 Hugging Face 下 GGUF 模型、同时跑多个模型在不同端口、以及纯 API 模式。项目 MIT 开源免费。正文没披露性能对比或资源占用,但如果你嫌每次敲命令行麻烦,这个能省点事。
#Tools#Inference-opt#Hexllama#llama.cpp
精选理由
一个 Reddit 个人项目,功能实在但没披露用户量、跑分或维护者背景,属于正常的产品更新,不放大。
一句话点评
Hexllama 给 llama.cpp 套了个图形界面,核心卖点是模板管理:把常用参数存成模板,下次一键加载,不用再背命令行。还支持一键切换 llama.cpp 版本、从 Hugging Face 直接下 GGUF 模型、多模型同时跑在不同端口。MIT 开源免费。但正文没披露性能对比或资源占用,实际用起来会不会比命令行更吃内存、切换版本是否稳定,都不清楚。如果你嫌每次敲命令行麻烦,这个能省...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
14:00
26d ago
● P1彭博科技· rssEN14:00 · 05·17
Apple新版Siri应用将支持自动删除聊天记录
彭博社爆料 iOS 27 会有一个类似 ChatGPT 的 Siri 独立应用,核心卖点是聊天记录会自动清理。文章没提保留多久、什么时候上线,也没说具体功能细节。另外 Siri 这次可能还是挂着“Beta”标签,同时 Genmoji(AI 生成表情)也会升级。
#Agent#Multimodal#Apple#Siri
精选理由
我会先打个折:标题很抓人,但正文能落地的料太少。Bloomberg 这篇把 Siri 往 ChatGPT 方向靠,还强调聊天会自动删,隐私角度确实能引起讨论。可翻遍正文,只说了 iOS 27 会有 Genmoji 升级,自动删除的保留多久、什么时候上线、Siri 本身怎么改,全都没披露。这点先别太激动,信息缺口摆在那。不过对做 AI 的人来说,苹果在隐私和功能之间怎么取舍,本身就是个长期看点,所以还是值得扫一眼。
一句话点评
新版Siri会像聊天软件一样自动删记录,但苹果还没说清楚是本地删还是云端也删。
锐评
苹果要给Siri加自动删除聊天记录的功能,这步棋走得挺聪明——既想让你像用ChatGPT一样随便聊,又用“阅后即焚”来安抚隐私焦虑。Bloomberg的爆料提到,iOS 27里Siri会变成一个独立App,聊天记录默认自动清除,但正文没披露具体保留多久、是本地删除还是服务器端一并抹掉。Verge和TechCrunch的跟进也基本是转述同一篇爆料,没有苹果官方的确认。 对从业者来说,这个功能的技术门槛不高,难的是怎么在“删记录”和“模型需要上下文学习”之间做平衡。如果每次对话都清空,Siri就很难记住你的习惯,个性化能力会打折。另外,苹果会不会把删除前的数据用于模型训练,正文完全没提,这是最大的信息缺口。先别太激动,等WWDC看官方怎么圆这个隐私和体验的跷跷板。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K0·R1
13:25
27d ago
r/LocalLLaMA· rssEN13:25 · 05·17
Qwen3.6-27B MTP 深度测试:深度3提速1.83倍,深度4反而崩了
一位用户在 RTX 3090Ti 上跑了 Qwen3.6-27B 的 MTP(多 token 预测)GGUF 量化版。深度3时速度冲到 75.2 tokens/s,是关闭 MTP 时的 1.83 倍,说明这个技巧在消费级显卡上确实能白嫖速度。但深度4直接掉到 7.93 tokens/s,比不开还慢,推测是显存或带宽撑不住了。正文没披露具体量化等级和上下...
#Inference-opt#Benchmarking#Code#Qwen
精选理由
一条 Reddit 用户实测帖,在 RTX 3090Ti 上跑 Qwen3.6-27B 的 GGUF 量化版,MTP 3 生成速度 75.2 t/s,是无 MTP 的 1.83 倍。数字实在,对本地部署党有参考价值。但只是单点测试,不是官方发布,正文也没披露功耗、显存占用或长序列稳定性,所以评分压在 66 分合理。
一句话点评
Qwen3.6-27B 在 RTX 3090Ti 上开 MTP 深度3,速度冲到 75.2 tokens/s,比不开快 1.83 倍,消费级显卡白嫖加速挺香。但深度4直接崩到 7.93 tokens/s,比基线还慢,显存或带宽瓶颈明显。正文没披露量化等级和上下文长度,这俩变量对结果影响很大,实测前别直接套用。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
12:44
27d ago
Hacker News 首页· rssEN12:44 · 05·17
ShurikenTrade 开源了一个让 AI 代理直接调用交易技能的仓库
ShurikenTrade 在 GitHub 上开源了 shuriken-skills,一个让 AI 代理(agent)直接调用交易功能的集成技能库。说白了就是给交易模型预装了一堆“技能插件”,比如下单、查行情、设止损,代理按需调用,不用每次都从头写逻辑。项目目前只有 4 个 Star、0 个 Issue,还非常早期。正文没披露这些技能具体怎么防乱操作...
#Agent#Safety#Tools#ShurikenTrade
精选理由
H和R两条都成立,但K不成立:正文没给机制、指标或可复现条件。当成一个低信息量的开源链接处理,不值得上推荐位。
一句话点评
ShurikenTrade 开源了一个给交易 agent 用的技能库,预装了下单、查行情、设止损等插件,agent 按需调用。项目才 4 个 Star,非常早期。正文没披露这些技能具体怎么防乱操作,安全护栏的设计是空的。
HKR 分解
hook knowledge resonance
打开信源
50
SCORE
H1·K0·R1
12:09
27d ago
Hacker News 首页· rssEN12:09 · 05·17
Apple Silicon本地运行成本高于OpenRouter在线服务
作者算了一笔账:用 M5 Max MacBook Pro 本地跑 Gemma 4 31b,算上电费和硬件折旧,每百万 token 成本约 1.5 美元,而 OpenRouter 上同模型只要 38-50 美分,速度还快 2-7 倍。电费其实很便宜(满载一天不到 5 毛钱),大头是硬件折旧——一台 4299 美元的笔记本,按 5 年寿命摊下来每小时近 1...
#Inference-opt#Apple#OpenRouter#Hacker News
精选理由
硬排除——零来源。RSS 只有标题和 HN 热度数据,没有能耗、模型、价格或测试条件,无法验证核心论断。HKR-H 和 HKR-R 通过,但 HKR-K 不通过。
一句话点评
本地跑大模型不一定比调 API 省钱。作者实测 M5 Max 跑 Gemma 4 31B,算上硬件折旧和电费,每百万 token 成本约 1.5 美元,是 OpenRouter 同类模型的三倍,速度还慢一半。硬件折旧是大头,电费反而忽略不计。不过正文只测了 M5 Max 一种配置,没对比其他 Apple Silicon 或 GPU 方案,也没算网络延迟和隐私价值。如果你对延迟敏感或数据必须本...
HKR 分解
hook knowledge resonance
打开信源
51
SCORE
H1·K0·R1
12:04
27d ago
彭博科技· rssEN12:04 · 05·17
中国能源基建可能成为AI竞赛的隐藏王牌
彭博采访了三位美国政策界人士,他们表示中国在输电、可再生能源、电池和发电上的投资,正在把AI竞争从芯片和软件延伸到数据中心所需的电力上。前财长保尔森警告,美国AI技术虽然领先,但数据中心用电激增可能导致电力短缺。前驻华大使博卡斯说,中国在能源基建上的巨额投入已经在重塑全球供应链。胡佛研究所学者认为,北京的清洁能源战略既是气候政策,也是经济和地缘政治筹码...
#Bloomberg#Hank Paulson#Nicholas Burns#Commentary
精选理由
Bloomberg 采访 3 位美国政策人士,提出一个反直觉判断:中国在电力基础设施上的大规模投资,可能让 AI 竞争从芯片延伸到电力供给。这个视角有信息增量,但正文没披露中国当前数据中心耗电量、新增输电容量或可再生能源占比等关键数字,说服力有限。作为评论性文章,适合从业者了解地缘视角,但不宜直接指导决策。
一句话点评
彭博采访三位美国政策人士,核心观点:中国在输电、可再生能源、电池和发电上的巨额投资,正把AI竞争从芯片延伸到电力。前财长保尔森警告美国数据中心用电激增可能导致缺电;前驻华大使博卡斯说中国能源基建已重塑全球供应链;胡佛学者认为清洁能源战略也是经济和地缘筹码。 关键数字:正文没披露具体投资额或电力缺口数据,来源是RSS摘要,信息有限。 缺什么:缺中国实际电力装机增速、数据中心用电占比、以及美...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
10:57
27d ago
r/LocalLLaMA· rssEN10:57 · 05·17
RTX 5090 跑 Qwen3.6-27B,开网上推荐的加速选项反而掉速
一位用户在 Docker 里用 RTX 5090 跑 Qwen3.6-27B 的 GGUF 模型,试了网上常见的 draft-mtp 等加速选项,结果吞吐从 100 tok/s 掉到 80 tok/s。正文没披露具体配置和测试方法,所以不清楚是选项冲突还是 Docker 环境问题。如果你也在本地跑大模型,这个案例提醒你:网上推荐的参数不一定通用,最好自...
#Inference-opt#Qwen#Reddit#InternalMode8159
精选理由
单个 Reddit 用户测试,有完整配置和吞吐数据,所以 H/K/R 都成立;但只是 Qwen3.6-27B GGUF 的单一场景,没有对比其他模型或解释机制,所以分数维持在 60-71 区间。
一句话点评
RTX 5090 跑 Qwen3.6-27B,网上抄的 draft-mtp 加速参数反而让吞吐从 100 tok/s 掉到 80 tok/s。正文没披露 Docker 挂载、CUDA 版本或测试脚本,所以不清楚是选项冲突还是容器开销。提醒:本地推理的“最佳实践”经常是特定硬件+裸机环境测出来的,照搬可能负优化。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R1
10:44
27d ago
r/LocalLLaMA· rssEN10:44 · 05·17
12个模型同题PK:谁能在单HTML文件里画一个开车动画?
Reddit用户AkiDenim用同一个Canvas提示词测试了12个模型,要求生成一个不依赖任何库或外部资源的独立HTML文件,实现开车动画。帖子只展示了结果截图,没有透露生成耗时、token速度或量化评分,所以只能看个大概,没法直接比谁快谁准。开源模型和闭源前沿模型都有参与,但具体表现差异正文没细说。
#Code#Tools#Benchmarking#GPT-5.5
精选理由
开源 vs 前沿模型在 Canvas 动画编码上的对决,标题有冲突感。12 个模型同提示、单文件、无库无外部资产的条件够硬,但正文没披露 tok/s、生成耗时和量化评分,信息缺口明显,所以放在 all 层,先别太激动。
一句话点评
同一个Canvas提示词测12个模型,只看截图结果,没给生成耗时和token速度,只能看个大概。开源和闭源都有参与,但具体谁快谁准正文没披露。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
10:24
27d ago
r/LocalLLaMA· rssEN10:24 · 05·17
双卡跑大模型提速40%,一个llama.cpp分支修复了量化KV缓存的张量分配bug
Reddit用户发了一个llama.cpp分支,修复了--split-mode tensor与量化KV缓存不兼容的问题。实测3060 12GB加4070 Super 12GB,跑Qwen3.5 27B Q4_K_M加q8_0 KV缓存,生成速度从21.22涨到30.05 tokens/s(提升约42%),但预填充从582.60降到544.82 toke...
#Inference-opt#Code#llama.cpp#Qwen
精选理由
一个 Reddit 用户 fork 了 llama.cpp,修了双卡推理时 --split-mode tensor 和量化 KV cache 打架的问题。实测 3060 12GB + 4070 Super 12GB 跑 Qwen3.5 27B,tg32 从 21.22 提到 30.05 tokens/s,提升约 42%。对本地玩家来说,不用换卡就能多挤点速度,挺实在。不过来源是个人 fork,没提稳定性、显存占用细节,也没说其他模型或卡组效果如何。
一句话点评
一个llama.cpp分支修了双卡跑大模型时量化KV缓存不兼容的bug。实测3060+4070 Super跑Qwen3.5 27B,生成速度从21涨到30 tokens/s(+42%),预填充略降。修的是tensor切分模式,不是更常见的row模式,适用面有限。代码已开源,但正文没披露显存占用变化。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
10:22
27d ago
● P1量子位 · 公众号· rssZH10:22 · 05·17
蔚蓝科技发布BabyAlpha A3四足机器人,搭载国产异构芯片
蔚蓝科技发了款消费级机器狗 BabyAlpha A3,用六颗芯片搭了个异构计算集群,直接在本地跑 7B 参数的大模型,推理速度到 280 TPS。视觉上配了 6600 万像素的摄像头,每秒能扫出 223.2 万个点云数据点,计划第三季度上市。不过正文因为环境验证没抓到具体内容,上面这些数字都来自外部摘要,实际表现和定价还没法核实。
#Robotics#Inference-opt#Multimodal#Weilan Technology
精选理由
我会先打个折:正文是单篇产品发布稿,没披露功耗、价格和对比基准,所以别太激动。但这条消息确实有料——蔚蓝科技在机器狗里塞了6颗芯片搭异构集群,本地跑70亿参数模型,推理速度标到280TPS,Q3就要上市。对做端侧部署和机器人的人来说,这等于给“离了英伟达行不行”提供了一个实物样本。信息缺口也很明显:没写具体芯片型号、没给功耗数据、没说明280TPS是在什么精度和batch size下测的,这些都会影响实际可用性。综合来看,角度抓人、事实具体、但验证信息不足,放在featured门槛上刚好。
一句话点评
蔚蓝科技新机器狗用国产芯片跑通了70亿参数大模型,成本号称只有英伟达方案的十分之一,但正文没披露具体芯片型号和实测延迟。
锐评
这条新闻的核心看点不是机器狗本身,而是它肚子里那块国产异构芯片。蔚蓝科技声称在BabyAlpha A3上本地跑通了70亿参数的大模型,并且把成本压到了英伟达Jetson Thor方案的十分之一。如果属实,这对做端侧部署的团队是个好消息——不用再被英伟达的供货周期和价格卡脖子。 但目前的公开信息太少了。机器之心那篇原文因为微信环境异常根本打不开,我们只能看到标题里的几个数字。算力提升1000倍这个说法需要看跟谁比,如果是跟前代产品比,那前代得多弱才能差出三个数量级。另外,70亿参数模型在机器狗上具体跑什么任务、推理延迟多少、功耗多大,这些关键指标一概没提。 我会先给这条新闻打个七折。国产芯片替代是个真趋势,但“跑通”和“能用”之间还有很长距离。等实测数据和具体芯片型号出来再判断不迟。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
10:12
27d ago
AI HOT 精选· aihot-apiZH10:12 · 05·17
Garry Tan 开源 GBrain:给 AI Agent 装一个 8 层记忆系统
Garry Tan 开源了一个叫 GBrain 的知识系统,不是简单的“外挂资料库”,而是用 8 层结构解决 AI Agent 记不住事的问题。前 4 层升级检索,后 4 层让 Agent 能记住用户的人际关系、决策过程甚至认知变化,实现终身记忆和自我进化。OpenClaw、Hermes 等 Agent 已经在生产环境用它处理大量数据。用户可以通过安装...
#Agent#RAG#Memory#Garry Tan
精选理由
Garry Tan 开源 GBrain,用 8 层结构改造 Agent 记忆:前 4 层增强检索,后 4 层处理终身记忆和自我进化。这个 4+4 拆分给出了具体机制,比泛泛的“记忆系统”更实在。但正文没披露代码仓库地址和性能指标,也没说跑起来需要多少资源,验证门槛不清楚。信息缺口明显,所以分数压在 60–71 区间。
一句话点评
Garry Tan 开源了 GBrain,一个 8 层结构的 Agent 记忆系统。前 4 层升级检索,后 4 层让 Agent 记住用户的人际关系、决策过程甚至认知变化,实现终身记忆。OpenClaw、Hermes 等 Agent 已在生产环境用它处理大量数据。但正文没披露仓库地址和性能指标,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
09:31
27d ago
新智元 · 公众号· rssZH09:31 · 05·17
华东师大开源DAG模型:用有向图把外部变量塞进时间序列预测,12个数据集上跑赢9个基线
华东师大团队提出DAG模型,专门解决时间序列预测里怎么利用外部变量(比如天气、节假日)的问题。核心做法是建一个有向图,把时间维度和变量之间的依赖关系都显式建模进去,让模型知道“今天下雨”和“明天销量”之间怎么影响。论文在12个真实数据集上对比了9个基线方法,效果更好,而且代码、数据集、排行榜都开源了。不过正文没披露推理速度和参数量,实际部署成本还不清楚。
#Benchmarking#East China Normal University#Qiu Xiangfei#Decision Intelligence Lab
精选理由
正文交代了华东师大团队做了个新框架 DAG,核心是同时建模时间维度和通道维度的相关性,用来处理 TSF-X 任务(时间序列预测的扩展版)。在 12 个真实数据集上跟 9 个基线比了,结果没细说,但开源了代码、数据和排行榜,这点对想复现或做对比的人挺友好。不过正文没披露具体性能提升多少、计算开销如何,所以先别太激动,等跑过榜再说。整体属于扎实的基准贡献,适合放进 all 让关注时序预测的人看到。
一句话点评
华东师大开源了DAG模型,专门解决时间序列预测里怎么用外部变量(比如天气、节假日)的问题。核心是建一个有向图,把时间和变量间的依赖关系显式建模,让模型知道“今天下雨”和“明天销量”怎么影响。在12个真实数据集上比了9个基线,效果更好,代码、数据、排行榜都开源了。但正文没披露推理速度和参数量,实际部署成本还不清楚。短评:开源+多数据集验证是亮点,但没提算力需求,想落地还得自己测。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R0
09:27
27d ago
r/LocalLLaMA· rssEN09:27 · 05·17
求推荐一个能当私人助理的本地小模型
Reddit 用户 DecodeBytes 想给 Mac M4 Max(36GB 统一内存)找个 12B 参数以下的本地模型当私人助理,要求能调用工具、通过 bash 执行 `date` 这类定时命令,还要兼容现有的 MCP 服务器。正文被 Reddit 屏蔽了,没披露具体讨论内容。
#Agent#Tools#DecodeBytes#Apple
精选理由
这是一条 Reddit 求推荐帖,约束条件很具体:本地个人助理、M4 Max、12B 以内、要支持 MCP。HKR-R 通过,但 HKR-H 和 HKR-K 不通过,因为没有测试、发布或可验证的发现。
一句话点评
有人在 Reddit 问 Mac M4 Max(36GB)上跑个 12B 以下本地模型当私人助理,要能调工具、跑 bash 定时任务、兼容 MCP 服务器。正文被 Reddit 屏蔽了,没看到具体推荐。36GB 跑 12B 模型够用,但工具调用和 MCP 兼容性得实测,小模型在这两块容易翻车。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K0·R1
08:27
27d ago
r/LocalLLaMA· rssEN08:27 · 05·17
花760美元买二手RX7900XTX跑Qwen3.6,值不值?
一位Reddit用户卖掉RTX 3080 10GB后,花约760美元买了二手RX7900XTX,想跑Qwen3.6 27/35模型,目标量化到Q5或更高。帖子没透露实际跑的速度、上下文长度或显存占用,所以没法判断这笔买卖到底划算不划算。如果你也在纠结A卡跑大模型,这篇只能当个参考,具体性能还得自己测。
#Audio#Code#Inference-opt#Qwen
精选理由
这是LocalLLaMA板块的个人买卡提问:R项通过,因为本地跑模型用户确实关心24GB显存能不能跑Qwen3.6 27/35 Q5,760美元的价格也有参考价值;H和K不通过,标题平淡,正文没披露实测速度、上下文长度或显存占用,信息缺口明显。整体属于低价值浏览内容。
一句话点评
一位Reddit用户卖掉RTX 3080 10GB,花约760美元买了二手RX7900XTX,想跑Qwen3.6 27/35模型,目标量化到Q5或更高。帖子没透露实际跑的速度、上下文长度或显存占用,所以没法判断这笔买卖到底划算不划算。如果你也在纠结A卡跑大模型,这篇只能当个参考,具体性能还得自己测。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K0·R1
07:33
27d ago
r/LocalLLaMA· rssEN07:33 · 05·17
Qwopus3.5-9B-Coder:一个能在16GB内存跑8bit精度的编程小模型
Jackrong 放出了 Qwopus3.5-9B-Coder 的 GGUF 量化版,主打 agentic coding(让模型自己调用工具写代码)、tool calling 和逻辑推理。9B 的稠密模型在 16GB 内存设备上就能跑 8bit 精度,目标显存约 10GB,还带了 MTP(多 token 预测,一次预测多个后续 token 来加速推理)...
#Agent#Code#Tools#Jackrong
精选理由
HKR-K/R 通过:一个本地 9B 编码 GGUF 模型,附带 16GB 内存条件,对从业者有用。HKR-H 不通过,且正文缺少基准测试或更广泛的行业影响,因此分数维持在 60–71 区间。
一句话点评
Jackrong 把 Qwopus3.5-9B-Coder 量化成 GGUF 格式,主打让模型自己调工具写代码(agentic coding)。9B 模型在 16GB 内存设备上就能跑 8bit 精度,显存约 10GB,还带了多 token 预测来加速推理。但正文没披露任何跑分或实测效果,这点先别太激动。如果真能打,对本地 coding agent 场景挺实用。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
07:09
27d ago
r/LocalLLaMA· rssEN07:09 · 05·17
Qwen 3.5 122B 跑得慢?19 tokens/s 算正常吗
Reddit 用户用 DGX Spark(128GB 连续内存)跑 Qwen3.5-122B-A10B-Q5_K_M 量化版,通过 llama-server 和 Open WebUI 推理,速度大约 19 tokens/s。这个速度对 122B 参数的大模型来说不算慢,但也不算快——相当于每秒输出十来个词,读起来会感觉有点卡顿。用户开了 262k 超长...
#Inference-opt#Qwen#LocalLLaMA#Open WebUI
精选理由
这是一条 Reddit 求助帖,用户报告在 DGX Spark 128GB 连续内存上跑 Qwen3.5-122B 的量化版,llama-server 速度约 19 tokens/s,上下文开到 262k。19 tokens/s 对对话场景勉强可用,但长上下文推理确实会慢,用户也在问有没有不降质的优化方法。帖子给出了可复现的本地推理配置和速度数据,对关注本地部署的从业者有参考价值,但只是一个单点反馈,没有系统评测或行业影响,所以分数落在 60–71 区间。
一句话点评
19 tokens/s 跑 122B 模型,对 DGX Spark 来说算正常,但读起来会卡。用户开了 262k 超长上下文,这本身就很吃显存带宽。想提速可以降 ctx-size 或换更小量化,但正文没提具体硬件瓶颈,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R1
06:14
27d ago
r/LocalLLaMA· rssEN06:14 · 05·17
Strix Halo 跑本地模型:ROCm 多 Token 预测能到 37.5 tok/s
Reddit 用户 IvGranite 在 AMD Strix Halo 上测了三款模型(含 35B MoE),对比了 ROCm 和 Vulkan 两个后端,还试了三种提示长度。满上下文时,ROCm 开启多 Token 预测(MTP)跑 35B MoE 达到 37.5 tok/s,而 Vulkan 不开 MTP 只有 28.9 tok/s。差距接近 3...
#Inference-opt#Benchmarking#llama.cpp#ROCm
精选理由
HKR-K 和 HKR-R 通过:它有可复现的 Strix Halo/ROCm/Vulkan 速度数据,能帮人做本地推理选型。但来源是 Reddit 单帖,且属于小众调优场景,不值得上首页推荐。
一句话点评
AMD Strix Halo 跑 35B MoE 模型,满上下文时 ROCm 后端开 MTP 达 37.5 tok/s,比 Vulkan 不开 MTP 的 28.9 tok/s 快约 30%。MTP 让模型一次预测多个 token,推理提速明显。但注意这是单用户本地跑分,未披露功耗和显存占用,实际部署时散热和带宽可能打折。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
06:07
27d ago
r/LocalLLaMA· rssEN06:07 · 05·17
Pi 编程助手怎么让 Qwen 的思考变短?
有人在本地用 llama-server 跑 Qwen 35B A3B,把推理预算设成 -1,结果 Pi 编程助手产出的思考块很短且自然结束。正文没披露 Pi 具体怎么控制思考长度,可能是通过 prompt 或采样参数,但没证据。
#Agent#Reasoning#Code#Qwen
精选理由
这是一个 Reddit 上的具体观察,有 HKR-H 和 HKR-R 价值——Pi 让思考块自然结束这个点很抓人,也切中本地 coding agent 的推理成本与可控性痛点。但正文没给复现步骤、代码或控制机制,属于浏览级信息,不是产品更新或研究突破。
一句话点评
有人在本地用 llama-server 跑 Qwen 35B A3B,把推理预算设成 -1,Pi 编程助手产出的思考块很短且自然结束。正文没披露 Pi 具体怎么控制思考长度,可能是通过 prompt 或采样参数,但没证据。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R1
05:41
27d ago
r/LocalLLaMA· rssEN05:41 · 05·17
LeanLoop:用 Claude 做规划,本地小模型干苦力,还自带测试纠错
一位叫 DiscipleofDeceit666 的开发者放出了一个叫 LeanLoop 的工具,思路挺实在:让 Claude(或其他云端模型)先写一份“瘦任务清单”(leanfile),然后交给本地跑的小模型——他用的是一块 Qwen3.6 35B A3B,32K 上下文——去一条条执行。每干完一个任务,自动跑单元测试,没过就把失败信息塞回本地模型让它...
#Agent#Code#Tools#Claude
精选理由
一个 Reddit 用户发的开源工具帖,没有 star 数、可复现基准或交叉验证。当成小工具发布处理,留在 all 层。
一句话点评
一个开发者用 Claude 写任务清单,本地 Qwen3.6 35B 模型逐条执行并自动跑单元测试,失败就回传修复。思路是拿云端模型做规划、本地模型干苦力,省钱且能并行。目前只验证了 Qwen,其他 CLI 脚本靠猜,多线程还没实现。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
05:30
27d ago
Hacker News 首页· rssEN05:30 · 05·17
Codiff:一个本地 diff 审查工具,原型用 LLM 16 分钟生成
nkzw-tech 发布了 Codiff,一个本地 diff 审查工具。作者说原型是用 LLM 在 16 分钟内生成的,速度很快,界面简洁。支持文件过滤、搜索、LLM 逐行讲解模式,以及可以把审查意见粘贴回 LLM。适合审查 LLM 生成的大量代码。正文没披露具体性能数据,但作者说处理大 diff 极快。
#Code#Tools#nkzw-tech#Codiff
精选理由
一个开源小工具发布,有噱头(16 分钟原型)、有功能(本地 diff + LLM 辅助)、有受众(AI 编程从业者),但缺少采用数据、基准测试或直接竞品对比,所以放在“all”层的高位。
一句话点评
作者用 LLM 16 分钟搓了个本地 diff 审查工具,主打快和简洁。支持文件过滤、搜索、LLM 逐行讲解,还能把审查意见贴回 LLM。适合审 LLM 写的大量代码。正文没披露大 diff 具体多大、多快,但说处理极快。18 个赞 7 条评论,热度一般,胜在实用。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R1
05:24
27d ago
AI HOT 精选· aihot-apiZH05:24 · 05·17
ChatGPT手机版能直接写代码项目了
OpenAI CEO Sam Altman发帖说,ChatGPT手机应用现在集成了Codex,用户可以直接在App里构建项目。正文没披露支持哪些平台、要不要额外付费、以及开放范围有多大。如果是真的,等于把编程环境塞进手机,对快速原型和调试挺实用,但手机屏幕写代码的体验和权限限制还得看实测。
#Code#Tools#ChatGPT#Codex
精选理由
HKR 全过,因为手机端 Codex 建项目这个场景很新,对从业者有实际冲击。重要性定在 all 上段,因为正文只说了能在应用内建项目,平台、权限、价格、上线范围全没披露,信息缺口明显,不能给更高分。
一句话点评
OpenAI CEO 发帖说 ChatGPT 手机 App 现在能直接用 Codex 搭项目,等于把编程环境塞进手机里,快速原型和调试挺实用。但正文没披露支持哪些平台、要不要额外付费、开放范围多大。手机屏幕写代码的体验和权限限制还得看实测,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R1
05:10
27d ago
Product Hunt · AI· rssEN05:10 · 05·17
Chert:让AI在iMessage里直接给客户发短信
Chert是一个帮你搭建iMessage聊天机器人的工具,可以自动处理客服、获取潜在客户等。你只需要设置好系统提示词和语气,就能创建一个能主动发消息、也能回复客户的AI代理。它还支持接入HubSpot等CRM,把聊天记录写回去。正文没披露定价、具体怎么集成、以及支持的对话流程细节,所以不清楚成本高不高、部署门槛怎么样。
#Agent#Chert#Product update
精选理由
HKR-H 通过,但 K/R 不通过:这是一个小型 Product Hunt 产品列表,唯一亮点是“iMessage 客户短信 agent”这个前提,所以落在低价值产品更新区间。
一句话点评
Chert 让你搭一个能主动发 iMessage 的 AI 客服,设好提示词和语气就能跑,还能接 HubSpot 等 CRM 写回聊天记录。但正文没披露定价、集成细节和对话流程支持到什么程度,所以不清楚成本高不高、部署门槛怎么样。如果是真的,对做苹果生态获客的团队挺实用,但建议先问清楚是按消息量收费还是月费。
HKR 分解
hook knowledge resonance
打开信源
52
SCORE
H1·K0·R0
04:16
27d ago
AI HOT 精选· aihot-apiZH04:16 · 05·17
微信读书Skill安装指南:两种方式让AI直接查你的划线
想用AI直接查微信读书里的高亮划线?装个Skill就行。官方给了两种安装路径:一是把微信读书提供的zip包发给Codex或Claude Code,二是用网友@eviljer做的优化版,跑一行npx命令就能装。装好后直接跟AI说“调用微信读书skill 查看被讨厌勇气的高亮划线”就能用。需要API key的话,微信官方页面可以获取。正文没提这个Skill...
#Agent#Tools#WeChat Read#Codex
精选理由
这篇帖子讲的是怎么把微信读书装成 Codex 或 Claude Code 的 Skill,给了两种安装路径。对想用 AI 工具读微信读书的人来说挺实用,但正文没披露 Skill 具体能做什么、效果如何,也没有成本或性能数据。整体就是个单篇教程,没有行业级信号,所以重要性 64 合理。
一句话点评
微信读书出了官方 Skill,装完后 AI 能直接查你书里的划线。两种装法:把官方 zip 丢给 Codex/Claude Code,或者跑一行 npx 命令用网友优化版。正文没披露 Skill 具体能做什么(比如能不能搜全文、导出笔记),也没说 API key 的调用限额和费用。对重度微信读书用户是省事工具,但先别激动——第三方 Skill 的稳定性和数据权限都没细说。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R0
04:03
27d ago
r/LocalLLaMA· rssEN04:03 · 05·17
八款大模型给灯塔管理员起了同一个名字,这人还在亚马逊卖癌症偏方
Reddit 用户发现,用八个不同的大模型给一个灯塔管理员起名,它们都给出了“Elias Thorne”。更离谱的是,亚马逊上还真有同名作者在卖癌症治疗建议。帖子没披露具体用了哪些模型、提示词怎么写、商品详情页长什么样,也没说怎么验证这八个名字完全一致。所以这点先别太激动——可能是巧合,也可能是模型训练数据里都见过同一个虚构人物。
#Agent#Safety#Amazon#Elias Thorne
精选理由
H和R都够格:八个模型撞名+亚马逊卖癌症建议,这个钩子够怪,也直接关联安全风险。但K太弱——正文没披露模型名单、提示词和商品详情,基本是个Reddit孤例,没法当正式线索。所以放在60-71的“有趣但别太激动”档,不推首页。
一句话点评
八个不同大模型给灯塔管理员起名都叫“Elias Thorne”,亚马逊上还真有同名作者卖癌症治疗建议。帖子没披露具体用了哪些模型、提示词怎么写,也没说怎么验证八个名字完全一致。这点先别太激动——可能是巧合,也可能是训练数据里都见过同一个虚构人物。正文被屏蔽了,信息缺口很大,没法判断是模型记忆撞车还是真有安全风险。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
04:00
27d ago
FT · 科技· rssEN04:00 · 05·17
AI 生成的“垃圾漏洞报告”正在压垮企业的漏洞悬赏计划
FT 报道,企业漏洞悬赏计划(让白帽黑客找漏洞换奖金)正被大量 AI 生成的虚假报告淹没。这些报告看起来像模像样,但实际是无效的“垃圾内容”,导致安全团队需要花大量时间筛选,拖慢真实漏洞的修复。正文没有披露具体增长比例、受影响公司、奖金金额或时间跨度,但问题已经严重到让一些公司考虑调整审核流程。
#Financial Times#Incident
精选理由
标题有冲击力,但正文信息不足,缺乏具体数据和案例支撑,只能算行业泛泛报道,所以分数卡在60-71区间。
一句话点评
AI生成的假漏洞报告正在淹没企业悬赏计划,安全团队得花大量时间筛垃圾,拖慢真漏洞修复。FT报道但没给具体增长比例、受影响公司或奖金金额,信息缺口明显。问题已严重到让公司考虑改审核流程,但缺数据支撑,这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K0·R1
03:08
27d ago
r/LocalLLaMA· rssEN03:08 · 05·17
llama.cpp WebUI 现在能直接传视频文件了
llama.cpp 的 WebUI 新增了一个 PR(#22830),让用户可以直接上传视频文件作为输入。作者只说了一句“现在可以聊视频了”,但正文没披露支持哪些视频格式、怎么抽帧、需要什么模型,以及这个 PR 是否已经合并。对本地跑多模态模型的人来说是个好消息,但具体怎么用还得等更多细节。
#Multimodal#Vision#Tools#ggml-org/llama.cpp
精选理由
HKR 三项都过,但这是个很小的开源工具更新,信息源太薄。正文没披露格式、抽帧机制和合并状态,所以分数压在 60–71 区间。
一句话点评
llama.cpp 的 WebUI 现在能直接上传视频文件当输入了,作者只说了一句“可以聊视频了”。这对本地跑多模态模型的人来说是个好消息,但正文没披露支持哪些视频格式、怎么抽帧、需要什么模型,以及这个 PR 是否已经合并。具体怎么用还得等更多细节,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
00:00
27d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·17
Vercel Zero 和 Cloudflare 都在为 AI 重写工具,核心不是包一层 API
Vercel 的新语言 Zero 编译器输出结构化 JSON 错误码(如 NAM003),让 AI agent 能稳定匹配修复,而不是猜自然语言措辞。Cloudflare 把 2,594 个 API endpoint 压缩成 search 和 execute 两个工具,让 agent 写代码调用而不是从几百个 tool 里选——Anthropic 数据...
#Agent#Tools#Memory#Vercel
精选理由
HKR 三项都过,但事实停留在工具设计评论层面。没有发布、定价、基准测试或大厂能力更新,所以落在 60–71 的有趣区间。
一句话点评
Vercel 新语言 Zero 的编译器输出结构化 JSON 错误码(如 NAM003),让 AI agent 能稳定匹配修复,而不是猜自然语言措辞。Cloudflare 把 2,594 个 API endpoint 压缩成 search 和 execute 两个工具,让 agent 写代码调用而不是从几百个 tool 里选——Anthropic 数据说 134K token 的 tool ...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
00:00
27d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·17
给 AI 编程工具说话,麦克风到底该怎么选
这篇文章讲的是在开放办公室里用语音跟 AI 编程工具(比如 Claude Code、Cursor)交互时,麦克风该怎么选。核心观点是:距离决定一切,麦克风必须离嘴足够近,否则语音识别准确率会大幅下降。文章对比了三条近场拾音路线:领夹麦(如 DJI Mic 2,方便但全向麦头抗噪一般)、口罩式麦克风(如 mutalk,隐私最好但佩戴负担重)、手持式(如 ...
#Code#Audio#Tools#Commentary
精选理由
HKR-H和HKR-K靠一个窄的语音编程设备角度和三条拾音路径勉强过关。正文没披露任何型号、价格、延迟或识别率数据,所以只能留在普通教程档位。
一句话点评
短评:近场麦才是 vibe coding 刚需,别被桌面麦忽悠了。 点评:文章核心判断很实在:开放办公室用语音编程,麦克风离嘴越近越好,这是物理规律,不是品牌能解决的。作者对比了三条近场路线:领夹麦(DJI Mic 2 等,方便但全向麦头抗噪一般)、口罩式(mutalk 等,隐私最好但 183 克贴脸一小时不舒服)、手持(iPhone 现成但姿态不自然)。关键数字:0.5 米内词错误率 2...
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K1·R0

更多

频道

后台