全部 · 2026-06-12

▸ 50 items · updated 3m ago

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2573 26105 27120 28142 29116 3064 3162

2026年6月

一二三四五六日

1150 2157 3132 4117 5127 669 773 8141 9135 1084 1196 1288 1346 1434 1570 1682 1775 1886 1955 2027 2120 2274 2374 2468 2564 2640 2724 2837 2956 3083

2026年7月

一二三四五六日

156 271 347 421 527 664 758 865 975 1050 1134 1228 1345 1484 1582 1683 1745 1818 1938 2051 2170 2265 2318 24 25 26 27 28293031

2026-06-12 · 星期五2026年6月12日

22:48

45d ago

AI HOT 精选· aihot-apiZH22:48 · 06·12

Oran Ge 开源了一个写作 skill，专门解决 AI 改稿越改越没人味的问题

Oran Ge 用 Claude Fable 5 把同一篇文案改了三遍，发现改得越讲究，人味越淡。他跟 AI 聊完把问题归结为“存在感”——作者在某个具体位置付出过具体代价，AI 没法复现这个。于是他做了《人味儿写作心法.skill》，用在你自己写完或口述后让 AI 润色的场景，尽量保住文字里的活人气。skill 已开源，免费挂在 GitHub 上。

#Oran Ge#Claude Fable 5#Open source

一句话点评

这条值得看的是他做了实验：同一篇文案让 Claude Fable 5 改三遍，越改越“讲究”，人味越淡。他把问题归结为“存在感”——作者在某个具体位置付出过具体代价，AI 没法复现。skill 的逻辑是让你先自己写或口述，再让 AI 润色，尽量保住活人气。但正文没披露 skill 的具体规则和测试样本量，也没说“人味”怎么衡量、跟谁比。开源免费挂在 GitHub 上，这点先别太激动——没...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

22:29

45d ago

Product Hunt · AI· rssEN22:29 · 06·12

Firecrawl 发布 Prometheus：一个帮你从网页上扒数据的 Agent

Firecrawl 今天在 Product Hunt 上发了他们的第 8 个产品 Prometheus，目前排日榜第 3，拿了 201 票。这东西是个实验性的“前部署 Agent”，你告诉它要什么网页数据，它自己写 Firecrawl 代码去抓，还能托管并自动监控页面变化。说白了就是省掉你手写爬虫脚本的步骤。但正文没披露它支持哪些类型的页面、具体定价，...

#Code#Firecrawl#Product Hunt#Y Combinator

一句话点评

Firecrawl 第8个产品 Prometheus，今天在 Product Hunt 排第3，201票。说白了就是你说要什么网页数据，它自己写爬虫脚本去抓，还能托管监控页面变化。省掉手写代码的步骤，但正文没披露支持哪些页面类型、具体定价，跟 Browser Use 这类工具比有啥区别也没说。如果是真的挺省钱，但实验性项目，先别太激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

55

SCORE

H0·K0·R0

21:22

45d ago

Product Hunt · AI· rssEN21:22 · 06·12

D-ID 把普通视频变成能对话的 AI 数字人

D-ID 今天上线了 Agentic Videos，可以在任何现有视频里嵌入一个会做表情的 AI 数字人，观众看视频时能随时暂停、提问，数字人当场回答。不用重拍视频，直接用已有素材。核心卖点是让视频从单向播放变成双向互动——培训视频可以按员工提问调整讲解深度，产品演示能回答销售不在场时的追问。正文没披露定价、延迟时间和支持哪些语言，所以实际体验的流畅度...

#D-ID

一句话点评

D-ID 把现有视频嵌入一个会做表情的 AI 数字人，观众暂停提问就能当场回答，不用重拍。培训视频可按员工提问调整讲解深度，产品演示能补销售不在时的追问。正文没披露定价、延迟时间和支持语言，实际体验的流畅度存疑。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

55

SCORE

H1·K0·R0

21:00

45d ago

NVIDIA 博客· rssEN21:00 · 06·12

NVIDIA 称 Blackwell 在首个 AI Agent 基础设施基准测试中领先

NVIDIA 发博客说，他们的 Blackwell 平台在 Artificial Analysis 发布的第一个专门测 AI Agent 基础设施的基准测试里拿了第一。博客没给具体跑分和对比细节，只强调 Blackwell 在延迟和吞吐量上有优势。说白了就是，让模型进业务流程干活（agent workflow）时，Blackwell 响应更快、单位时间...

#Benchmarking#NVIDIA#Blackwell#Artificial Analysis

一句话点评

NVIDIA 发博客说 Blackwell 在首个 AI Agent 基础设施基准测试里拿了第一，但没给具体分数和对比细节。这个测试由 Artificial Analysis 做，专门测让模型进业务流程干活（agent workflow）时的延迟和吞吐量。博客只强调 Blackwell 响应更快、单位时间处理更多请求，但没披露跑了什么模型、用了多少卡、对手是谁。如果是真的，对做 agent ...

HKR 分解

hook —knowledge —resonance —

→ 打开信源

55

SCORE

H0·K0·R0

20:38

45d ago

AI HOT 精选· aihot-apiZH20:38 · 06·12

谷歌起诉中国网络诈骗团伙 Outsider Enterprise，称其用 AI 群发短信骗了数十万人

谷歌起诉了一个叫 Outsider Enterprise 的中国团伙，指控他们用 AI 生成诈骗话术，两周内发了 250 万条短信，骗了“数十万”人。这个规模挺吓人，但正文没披露具体用了什么 AI 模型或技术，所以“AI 诈骗”到底多智能还不清楚。如果是真的，低成本批量生成话术确实能大幅降低诈骗门槛。

#Google#Outsider Enterprise

一句话点评

谷歌起诉了一个叫 Outsider Enterprise 的中国团伙，指控他们用 AI 生成诈骗话术，两周内发了 250 万条短信，骗了“数十万”人。这个规模挺吓人，但正文没披露具体用了什么 AI 模型或技术，所以“AI 诈骗”到底多智能还不清楚。如果是真的，低成本批量生成话术确实能大幅降低诈骗门槛。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

55

SCORE

H1·K0·R1

20:34

45d ago

Hacker News 首页· rssEN20:34 · 06·12

有人用Claude和Fable 5“氛围编程”搓了个魔兽世界风格MMO，已经能玩了

World of ClaudeCraft 是一个用 Fable 5 和 Claude 通过“氛围编程”（vibe coding，即靠自然语言描述需求让AI生成代码）搞出来的魔兽世界风格MMORPG。支持在线多人或离线单人，有9个职业（战士、法师等）和经典魔兽操作（WASD移动、技能栏、任务日志）。代码已开源在GitHub。页面已经能玩，但正文没披露用了...

#Code#Claude#Fable 5#World of ClaudeCraft

一句话点评

一个人用Claude和Fable 5靠嘴说需求就搓出了个魔兽世界风格MMORPG，支持9职业、WASD移动、多人同服或离线单机，代码已开源。页面能玩，但没披露用了哪个Claude模型、服务器架构和并发上限——如果是真的挺省钱，但这点先别太激动，正文没披露验证细节。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

65

SCORE

H1·K1·R0

20:33

45d ago

FEATUREDHacker News 首页· rssEN20:33 · 06·12

一个跨模型协作的编程工作流：让 Claude 做规划、GPT 写代码，号称能省 80% 的 Claude 用量

Dan McInerney 开源了一个 Claude Code 技能，把 Claude Fable 5 和 GPT-5.5 Codex 串成一个分工循环：Claude 负责拆任务、做代码审查，GPT 负责动手写代码，整个代码仓库充当记忆。作者说这样能把 Claude 的 token 消耗砍掉 80%，但仓库里只有 README 和代码，没给测试基准或对...

#Code#Anthropic#OpenAI#Dan McInerney

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

用 Claude 拆任务、GPT 写代码，号称能省 80% 的 Claude token，但没给任何测试数据，效果全靠嘴说。

锐评

Dan McInerney 开源的这个工具，思路是把 Claude Fable 5 和 GPT-5.5 Codex 串成一个分工流水线：Claude 负责拆解任务、做代码审查，GPT 负责动手写代码，整个代码仓库充当记忆。作者说这样能把 Claude 的 token 消耗砍掉 80%，但仓库里只有 README 和代码，没给任何测试基准或对比数据，这个 80% 的数字先别太激动。好处是思路清晰——让贵的模型干轻活、便宜的模型干重活，理论上确实能省钱。但实际效果取决于 Claude 拆任务拆得准不准、GPT 写的代码能不能用，以及来回审查会不会反而增加延迟。正文没披露这些关键信息，也没说在什么项目上跑过、跑出来的代码质量怎么样。想试的话可以当个实验性工具玩玩，但别指望它立刻在生产环境里稳定省钱。缺的是真实项目上的端到端测试，以及和纯用 Claude 或纯用 GPT 的对比数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

20:14

45d ago

FEATUREDHacker News 首页· rssEN20:14 · 06·12

我能买你的 KV 缓存吗？

现在每个 AI 智能体读同一份文档，都要从头算一遍最耗算力的“预填充”步骤，生成一份完全一样的 KV 缓存。这篇论文提了个很直接的方案：让内容发布方提前把文档的 KV 缓存算好，其他智能体直接花钱加载，跳过预填充。在 Qwen3-4B 上实测，复用缓存比重新预填充便宜 9 到 50 倍，而且输出的 token 完全一致，精度零损失。但直接把缓存文件传出...

#Inference-opt#Luoyuan Zhang#Qwen3-4B

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

这篇论文提了个很直接的省钱方案：让内容方提前算好文档的“预填充”缓存，其他AI智能体直接买来用，跳过最耗算力的步骤。在Qwen3-4B上实测，复用比重新算便宜9到50倍，输出完全一致。但缓存文件几乎压不动，传出去比省下的还贵，所以得放在服务商那边用。

锐评

这篇论文的想法简单到有点冒犯：现在每个AI智能体读同一份文档，都要从头算一遍最耗算力的“预填充”，生成一份完全一样的KV缓存。作者说，干脆让发布方提前算好，其他人花钱加载就行。在Qwen3-4B上实测，复用缓存比重新预填充便宜9到50倍，而且输出的token完全一致，精度零损失。这个省钱幅度会随文档变长而拉大，因为预填充的注意力计算复杂度是平方级的。但有个关键坑：KV缓存几乎压不动，直接把文件传出去，网络传输费比省下的算力还贵。所以作者给出的解法是让缓存留在服务商那边，像现在生产环境里的提示缓存一样用。他们算了一笔账：一份3774个token的热门文档，给8000万个智能体服务，重新预填充要花约150万美元，复用缓存只要约3万美元，差了49.7倍。论文把这个模式叫做“面向智能体的预填充CDN”，但正文没给出跨服务商结算的具体方案，也没解决KV缓存的无损压缩问题。这两个缺口让“买缓存”这件事暂时还停留在自家服务商内部用，跨平台交易还跑不通。如果压缩和支付层能补上，这个省钱逻辑对高频文档服务确实成立。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

18:03

46d ago

AI HOT 精选· aihot-apiZH18:03 · 06·12

乌克兰一次实战测试：完全自主无人机击杀俄军士兵

乌克兰进行了一次实战测试，让完全自主的无人机击杀俄军士兵。完全自主在战场上很少见，但乌克兰现在正大规模给无人机和机器人安装AI模块。正文没披露测试的具体日期、地点和无人机型号。

#Ukraine#Russia#Ars Technica

一句话点评

乌克兰首次实战测试完全自主无人机击杀俄军士兵，全程无人类干预。正文没披露具体日期、地点和型号，验证力度有限。但乌克兰已在大规模给无人机和机器人装AI模块，说明自主攻击正从实验走向量产。关键看误判率和伦理审查，这点先别太激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

39

SCORE

H0·K0·R0

17:38

46d ago

FEATUREDTechCrunch AI· rssEN17:38 · 06·12

传 Mistral 正以 200 亿欧元估值融资 30 亿欧元，估值比上一轮翻了近一倍

TechCrunch 听到风声，说法国大模型公司 Mistral 在搞一轮新融资，金额 30 亿欧元，估值冲到约 200 亿欧元。这个估值比它上一轮 C 轮的 117 亿欧元几乎翻了一倍。不过正文没披露领投方是谁、钱具体怎么花、以及这轮什么时候能关账。估值跳得猛，但眼下还只是传闻，公司没官宣，我会先打个折看。

#Mistral#Funding

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

Mistral 被传要融 30 亿欧元，估值冲到 200 亿，比上一轮几乎翻倍。但正文没披露领投方、钱怎么花、关账时间，公司也没官宣，先当传闻看。

锐评

这条消息目前还只是 TechCrunch 听到的风声，不是官方公告。估值从 C 轮的 117 亿欧元跳到约 200 亿，涨幅接近一倍，在当下大模型融资环境里算很猛。但关键信息全缺：谁领投、钱是拿来买算力还是铺市场、这轮什么时候能关账，正文一概没提。没有这些，光一个估值数字很难判断这轮融资的真实成色。另外，Mistral 上一轮 C 轮是 2024 年 6 月关的，如果一年后真能以翻倍估值再融一大笔，说明投资方对它的开源路线和欧洲市场故事还买账。但反过来，估值跳这么快也可能包含不少预期溢价，实际营收和用户规模能不能撑住，正文没给任何数据。我会等公司官宣或者看到领投方和资金用途再认真对待。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

17:34

46d ago

Hacker News 首页· rssEN17:34 · 06·12

在 Mac 上搭一个本地写代码的 AI 助手，代码不出门

这是一篇实操教程，教你在 macOS 上跑一个本地编程助手，所有代码都留在自己电脑里，不上传云端。文章没说是用哪个模型或工具链，所以具体效果和成本得自己试。好处是隐私有保障，坏处是本地跑模型对硬件有要求，速度可能不如云端。如果你在意代码保密，可以照着搭一套试试。

一句话点评

一篇实操教程，教你在 macOS 上搭本地编程助手，所有代码不上云。作者用 M1 Max 实测，Gemma 4 26B 量化版 + llama.cpp + MTP 投机解码，生成速度从 58 tok/s 提到 72 tok/s，提升约 24%。注意：这是 16GB 模型，M1 Max 64GB 内存才能跑，普通 Mac 可能扛不住。文章没对比云端方案（如 Copilot）的延迟和成本，也没说...

HKR 分解

hook —knowledge —resonance —

→ 打开信源

55

SCORE

H0·K0·R0

17:26

46d ago

AI HOT 精选· aihot-apiZH17:26 · 06·12

Google 起诉一个用 AI 群发诈骗短信的中国团伙，两周发了 250 万条

Google 在纽约南区联邦法院起诉了一个叫“Outsider Enterprise”的中国网络犯罪团伙。起诉书说，这个团伙用 AI 生成诈骗短信，冒充 Google 等公司发虚假投资和招聘信息，两周内群发了 250 万条，波及几十万受害者。他们用 300 多个 Google Ads 账号和多个 Gmail 邮箱来跑这套流程。Google 依据反诈骗腐...

#Google#Outsider Enterprise#Policy

一句话点评

Google 起诉了一个叫“Outsider Enterprise”的中国团伙，他们用 AI 生成诈骗短信，两周发了 250 万条，冒充 Google 发虚假投资和招聘信息。关键数字：300+ Google Ads 账号、几十万受害者。但正文没披露具体诈骗金额和被告个人身份，诉讼依据是 RICO 和商标侵权。这点先别太激动——起诉是威慑，追回损失和定罪还早。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

68

SCORE

H1·K0·R1

17:18

46d ago

AI HOT 精选· aihot-apiZH17:18 · 06·12

今年上半年，价值1300亿美元的数据中心项目因居民抗议被叫停

Ars Technica 报道，2026 年上半年已有价值 1300 亿美元的数据中心项目因当地居民和环保组织的抗议而搁浅。争议集中在占地、用水和电网负担上。一些社区开始互相分享反对数据中心的“攻略”，文章认为这股势头会让未来的项目审批越来越难。

#Ars Technica#Policy

一句话点评

1300亿美元的数据中心项目今年上半年被居民和环保组织联手叫停，这不是某个州的个案，而是多地社区开始互相抄作业、分享反对攻略。争议点很具体：占地、抢水、电网扛不住。文章没给出被叫停项目的具体数量和地区分布，也没说这些项目是永久取消还是暂缓。如果是真的全停，对算力供给的冲击不小；但也要注意，1300亿是项目总投资额，不等于已经投进去的钱。还缺一个关键信息：这些抗议成功的案例里，有多少是选址本身...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

17:17

46d ago

The Verge · AI· rssEN17:17 · 06·12

Siri 终于能用了？苹果新版本实测：不惊艳但够用

苹果发布了新版 Siri，The Verge 的主播们试了之后说：居然真的变好用了。不是那种“哇塞”的突破，而是日常设闹钟、查信息终于不翻车了。文章没提具体有哪些新功能，也没说什么时候正式上线，所以这点先别太激动。但如果你受够了旧版 Siri 的智障表现，这次至少能松口气。

#Apple#The Verge

一句话点评

The Verge 主播实测后说新版 Siri 终于不智障了，设闹钟、查信息基本不翻车。但文章没提具体新功能，也没说上线时间，所以先别太激动。至少日常用能松口气，但别指望有什么突破性体验。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

55

SCORE

H1·K0·R1

16:58

46d ago

Hacker News 首页· rssEN16:58 · 06·12

BitBoard：让AI和人类共用同一个数据分析仪表盘

YC P25 团队 BitBoard 做了一个分析工作台，核心卖点是：人类和 AI 代理（比如写代码的 agent）可以共享同一个仪表盘，而不是各看各的。创始人 Connor 和 Ambar 原本做医疗行政 agent，客户老问他们怎么处理散落的数据和表格，于是干脆转型。做法是：人和 agent 用同一套数据，但各自有合适的工具——agent 写 SQ...

#BitBoard#YC P25#DuckDB

一句话点评

BitBoard 做了一个让 AI agent 和人共用同一套仪表盘的分析工作台。核心卖点：agent 写 SQL 出图，人看板子协作，每次查询可追溯、可复现。底层用 DuckDB 和 Arrow 做列式分析，LLM 只负责发现问题，修复靠确定性代码——这点先别太激动，因为正文没披露 LLM 准确率或误报率。创始人从医疗行政 agent 转型，客户痛点真实：数据散落、表格满天飞。但产品刚上线...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

62

SCORE

H1·K1·R0

16:43

46d ago

r/LocalLLaMA· rssEN16:43 · 06·12

llama.cpp 的网页界面现在能装成桌面应用了

llama.cpp 合并了一个 PR，让自带的网页 UI 支持 PWA（渐进式网页应用）。装好后可以像原生应用一样放到桌面、有独立窗口和图标，打开更快，更新和缓存也更稳定。算是一个很实在的体验升级。正文没提具体支持哪些浏览器和平台，Chrome 和 Edge 大概率没问题，Safari 可能得看版本。

#llama.cpp#ggml-org

一句话点评

llama.cpp 的网页 UI 现在可以装成桌面应用了，有独立窗口和图标，打开更快、缓存更稳。对本地跑模型的用户来说，省了每次开浏览器输地址的麻烦。不过正文没提具体支持哪些浏览器，Chrome 和 Edge 大概率行，Safari 可能挑版本。短评：本地模型用户的小确幸，省一步是一步。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

55

SCORE

H0·K0·R0

16:14

46d ago

AI HOT 精选· aihot-apiZH16:14 · 06·12

Anthropic 第一次做大规模民意调查：美国人最想让 AI 治癌症，但更怕它抢饭碗

Anthropic 委托 YouGov 在 2025 年 11 到 12 月线上问了约 5.2 万美国人，样本按人口普查加权过。48% 的人把“治愈癌症这类疾病”排在最想 AI 做成的事里，36% 希望 AI 帮残障人士生活更方便。担心的事更集中：64% 怕失业，56% 怕人对 AI 产生认知依赖，52% 怕假消息泛滥。超过七成支持政府出手监管，最在意...

#Anthropic#YouGov

一句话点评

Anthropic 自己掏钱做了个覆盖 5.2 万美国人的民调，结果不意外：近一半人最想让 AI 去治病，但六成以上怕丢工作。这个数据来自 2025 年底的线上问卷，样本按人口普查加权过，但正文没放完整问卷和交叉分析表，所以没法判断问题怎么问的、选项有没有引导。我会先打个折：48% 把“治愈癌症”排进前三，这个数字看着高，但它是从 17 个选项里挑三个，不是单选，不能直接解读成“近半美国人最...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

16:00

46d ago

AI HOT 精选· aihot-apiZH16:00 · 06·12

OpenRouter 拆解模型路由：怎么选模型、挑供应商、处理报错

OpenRouter 把路由拆成两层：模型路由决定让哪个模型回答，供应商路由决定由谁提供服务。默认情况下，流量按价格平方反比分配，越便宜的供应商拿到的请求越多。你可以手动指定供应商顺序、设价格上限，或者用 :nitro 和 :floor 后缀控制延迟和成本。报错时，它会按 models 数组里的顺序换下一个模型重试。Auto Router 模式则直接让...

#OpenRouter#Anthropic#OpenAI

一句话点评

OpenRouter 把路由拆成两层：先选模型，再选供应商。默认按价格平方反比分配流量，越便宜拿到的请求越多。还支持手动指定供应商顺序、设价格上限，或用 :nitro 和 :floor 后缀控制延迟和成本。报错时会按 models 数组顺序换下一个模型重试。Auto Router 模式让 OpenRouter 帮你选模型。文章也承认，需要本地部署或完全控制推理环境的团队不适合用 OpenRo...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

68

SCORE

H0·K1·R0

16:00

46d ago

AI HOT 精选· aihot-apiZH16:00 · 06·12

Hermes Agent 接入 OpenRouter 教程：一个 API Key 调 400+ 模型，还能自动切换备用供应商

OpenRouter 发了一篇教程，教你怎么把 Hermes Agent 连到它的 API 网关。Hermes Agent 是 Nous Research 的开源命令行智能体，不是 Hermes 3 或 Hermes 4 模型——很多人搞混。接上 OpenRouter 后，一个 API Key 就能调 60 多家供应商的 400 多个模型，主模型挂了自...

#Agent#OpenRouter#Nous Research#Hermes Agent

一句话点评

Hermes Agent 是 Nous Research 的开源命令行智能体，不是 Hermes 3/4 模型——很多人搞混。接上 OpenRouter 后，一个 API Key 就能调 60 多家供应商的 400 多个模型，主模型挂了自动切换。默认主模型是 Claude Sonnet，侧任务（如起标题、看图）可以换更便宜的模型跑。配置写在 ~/.hermes/config.yaml。代理本...

HKR 分解

hook —knowledge —resonance —

→ 打开信源

55

SCORE

H0·K0·R0

16:00

46d ago

AI HOT 精选· aihot-apiZH16:00 · 06·12

OpenRouter 官方省钱指南：加个 :floor 后缀自动选最便宜供应商

OpenRouter 发了一篇官方教程，核心技巧是在模型名后面加 `:floor` 后缀，系统会自动把请求路由到该模型最便宜的供应商。以 Llama 3.3 70B 为例，不同供应商每百万 token 的输入价格从 0.10 美元到 1 美元以上不等，`:floor` 直接选最低价。还可以用 `max_price` 设硬预算上限——如果所有供应商都超预...

#OpenRouter#Llama 3.3 70B

一句话点评

OpenRouter 官方教程：在模型名后加 `:floor` 后缀，系统自动选最便宜的供应商。以 Llama 3.3 70B 为例，不同供应商每百万 token 输入价格从 0.10 美元到 1 美元以上，`:floor` 直接选最低价。还可用 `max_price` 设硬预算上限，超了就报错。免费模型每天 50 次请求，充 10 美元后涨到 1000 次。注意：最低价可能是量化版，精度敏...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

55

SCORE

H0·K1·R0

15:56

46d ago

FEATUREDHugging Face 博客· rssEN15:56 · 06·12

Ai2 发布 olmo-eval：一个给模型开发阶段用的评测工作台

Ai2 在 OLMES 标准上搭了一套新工具 olmo-eval，专门解决模型开发过程中反复评测的麻烦。它不是只给最终模型跑个分，而是让你在调数据、改架构、换超参的时候，随时加新基准、在不同训练检查点上跑、逐条提示分析结果。多轮对话和让模型进业务流程干活的评测是原生支持的，还带了分析工具帮你判断一个 2.4 个百分点的变动是真提升还是纯噪声。代码已经在...

#Benchmarking#Agent#Ai2#OLMES

精选理由

精选 · 重要度 72 · 吸引力 + 知识量

一句话点评

Ai2 给模型开发阶段做了个评测工作台，能随时加基准、跑检查点、逐条看结果，2.4 个百分点的波动是真是假也能分析。

锐评

这条新闻值得关注的点在于，它把评测从“最终考试”变成了“开发过程中的体检”。Ai2 在 OLMES 标准上搭的 olmo-eval，核心解决的是模型开发循环里的反复评测麻烦。你调数据、改架构、换超参时，不用再手动拼凑各种基准测试，它能让你随时加新基准，在不同训练检查点上跑，还能逐条提示分析结果。比较实在的是，它原生支持多轮对话和让模型进业务流程干活的评测，不是事后补丁。还带了分析工具，帮你判断一个 2.4 个百分点的分数变动到底是真提升还是纯噪声，这点对做模型的人很实用。代码已经开源在 GitHub 上。不过正文没披露这套工具自身的运行开销和上手门槛。另外，它目前主要基于 OLMES 标准，对其他评测体系的兼容性如何，以及在大规模模型上的实际表现，都还需要看社区后续的反馈。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

72

SCORE

H1·K1·R0

15:56

46d ago

FEATUREDAI HOT 精选· aihot-apiZH15:56 · 06·12

olmo-eval：一个给模型开发阶段反复跑分的评测台

Allen AI 把 OLMES 标准做成了一个叫 olmo-eval 的评测台，专门解决模型开发过程中需要反复测试的麻烦。它把让模型调用工具、多轮对话这类评测当成一等公民来支持，你可以根据任务需求选轻量跑分，或者用容器隔离跑更复杂的场景。整个架构是模块化的，模型、工具、运行环境、辅助模型都能独立替换。跑完分不只给个数字，还会附上标准误差和最小可检测效...

#Benchmarking#Allen AI#OLMES#Harbor

精选理由

精选 · 重要度 72 · 吸引力 + 知识量

一句话点评

Allen AI 把自家 OLMES 评测标准做成了可反复跑的开发工作台，重点解决模型迭代时“跑分太麻烦”的问题。

锐评

这条消息对正在训模型的人挺实用。Allen AI 发布的 olmo-eval，说白了就是把评测从“最后交作业”挪到了“开发中随时测”的环节。它最大的变化是把让模型调用工具、多轮对话这类评测当成一等公民来支持，不再是跑个标准榜单就完事。你可以根据任务选轻量模式快速看分，也可以用容器隔离跑更复杂的场景，架构上模型、工具、运行环境都能独立替换，灵活性比之前的 OLMES 高不少。跑完分不只给个数字，还会附上标准误差和最小可检测效应量，这点比较实在——能帮你判断分数波动是真实提升还是噪声。和 Harbor 这种面向最终发布的评测不同，olmo-eval 更偏向开发中的快速迭代，甚至支持逐题对比不同检查点的输出。不过正文没披露这套工具自身的运行开销有多大，也没给出和现有评测框架（比如 lm-eval-harness）在速度、成本上的直接对比。如果是真的能省下反复配置环境的时间，对中小团队挺友好，但这点先别太激动，得等实际跑起来看。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

72

SCORE

H1·K1·R0

15:50

46d ago

● P1TechCrunch AI· rssEN15:50 · 06·12

MANGOS概念浮现多家AI公司计划今夏寻求IPO

这期播客聊了一件事：IPO 市场热起来了，但主角换人了。以前大家盯着 FAANG，现在新缩写是 MANGOS——Meta（也有人说是微软）、Anthropic、Nvidia、Google、OpenAI 和 SpaceX。这六家里有一半要在同一个窗口期冲击上市，等于同时考验投资人的胃口和这些公司的估值成色。正文是 RSS 片段，没给出具体时间表和估值区间...

#Meta#Microsoft#Anthropic#Funding

精选理由

精选 · 重要度 88 · 吸引力 + 知识量 + 共鸣

一句话点评

TechCrunch 造了个新词 MANGOS，把几家头部 AI 公司打包成今夏 IPO 概念股，但正文是空的，具体估值和上市时间表都没给。

锐评

这条消息更像一个市场情绪信号，而不是实打实的上市公告。TechCrunch 用 MANGOS 这个缩写把可能今夏 IPO 的 AI 公司串在一起，从标题看至少包括 SpaceX、Anthropic 和 OpenAI。但文章正文是空的，我们只能从标题和事件标签去推断。 “今夏 IPO”这个说法本身就需要打个折。这几家公司里，SpaceX 传上市传了很久，Anthropic 和 OpenAI 的营收结构和商业化节奏还没完全跑稳，直接跳到夏季挂牌，时间上很紧。正文没披露任何财务数据、估值区间或承销行信息，所以目前只能当作风向观察：市场在给 AI 赛道造叙事，把头部玩家打包成新的 FAANG。还缺什么？缺各家真实的上市意愿、SEC 文件进展，以及它们能否在公开市场撑住当前私募轮的高估值。这些才是判断 MANGOS 是熟果还是青果的关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

88

SCORE

H1·K1·R1

15:42

46d ago

Hacker News 首页· rssEN15:42 · 06·12

Keygen.music：哼一段旋律，生成一个软件激活码

这个网站让你用一段音乐生成软件激活码。玩法很直观：播放或哼一段旋律，网站就给你一个对应的 license key。正文没披露背后的算法逻辑，也没说支持哪些音频格式，所以具体怎么把声音转成合法激活码还是个黑盒。不过 32 个 HN 点赞说明社区觉得这个点子挺有意思，至少是个好玩的 demo。

一句话点评

用一段旋律生成软件激活码，玩法像把音乐当密码。32个HN点赞说明点子有趣，但算法和格式都没披露，目前就是个好玩的demo，别当真key用。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

55

SCORE

H1·K0·R0

15:33

46d ago

AI HOT 精选· aihot-apiZH15:33 · 06·12

豆包上线任务模式，能定时干活、自动做网页和PPT，思考模式改名专家模式

豆包这次把Agent能力直接塞进了App里。新加的“任务模式”可以定时执行任务、零代码生成网页、一键做PPT，还能做数据可视化分析。原来的“思考模式”升级成“专家模式”，底层换成了豆包大模型2.0 Pro，推理会更深一些。App顶栏现在三个模式切换：快速、专家、任务。基础功能免费，高阶服务要付费，标准版68元/月，加强版200元/月，专业版500元/月...

#Code#ByteDance#Doubao

一句话点评

豆包把能干活儿的 Agent 直接塞进了 App 顶栏，现在可以定时执行任务、零代码生成网页和做 PPT。这不再是聊天，而是让模型进业务流程干活。但正文没披露任务模式的实际执行成功率、延迟和专家模式的推理基准，所以“深度推理”到底多深还不好说。付费最高每年五千多，值不值要看它能不能稳定交付可用成品，而不是只给个半成品让你自己改。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

72

SCORE

H1·K1·R0

15:31

46d ago

Hacker News 首页· rssEN15:31 · 06·12

Mac 终于能远程开机了：插电即启动，不用再按电源键

macOS 26.5 新增了一个选项，让 Mac 在接通电源时自动开机，不再需要手动按电源键。Jeff Geerling 用 M4 Mac mini 实测：关机后通过智能插座断电再通电，Mac 在 2 秒内启动。支持机型：Mac mini（2024 后）、Mac Studio（2025 后）、iMac（2024 后）。两个注意点：开了 FileVaul...

#Apple#Jeff Geerling#M4 Mac mini

一句话点评

macOS 26.5 终于让 Mac 能在通电后自动开机，实测 M4 Mac mini 关机后断电再通电，2 秒内启动。支持 2024 后 Mac mini、2025 后 Mac Studio、2024 后 iMac。注意：开了 FileVault 得先 SSH 登录解锁；有个 bug——在登录界面关机后通电不会启动。正文没提是否支持 Intel Mac。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

55

SCORE

H1·K1·R0

15:26

46d ago

Hacker News 首页· rssEN15:26 · 06·12

WebAssembly 可以直接调 GPU 了：WASI WebGPU 提案落地

这个提案让 WebAssembly 模块能直接跟 GPU 通信做计算和渲染，不用再经过 JavaScript 桥接。对 AI 从业者来说，意味着在浏览器或边缘设备上跑推理时，可以绕过 JS 直接调用 GPU，省掉一层开销。不过目前仓库只有接口定义，没提支持哪些后端（Vulkan/Metal/DX12），也没有任何跑分数据。所以实际性能提升多少、兼容性如...

#WebAssembly#WASI

一句话点评

WASI WebGPU 提案让 WebAssembly 模块直接调 GPU 做计算和渲染，跳过 JavaScript 桥接层。对 AI 从业者来说，在浏览器或边缘设备跑推理时能省掉一层开销，理论上延迟更低、吞吐更高。但仓库目前只有接口定义，没提支持哪些后端（Vulkan/Metal/DX12），也没有任何跑分数据。实际性能提升多少、兼容性如何，全是未知数。这点先别太激动，等跑分和浏览器支持落...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

62

SCORE

H0·K1·R0

15:26

46d ago

Hacker News 首页· rssEN15:26 · 06·12

StackScope 爬了 4 万多独立开发者产品，看他们上线时到底用了什么技术栈

Jonathan 做了一个叫 StackScope 的爬虫，专门盯着 Product Hunt、Show HN 和 PeerPush 上的新发布，然后去扒每个产品的公开网站，看它们用了什么托管、框架、分析工具、DNS、安全头、法律页面，还有没有 AI 生成的痕迹。跟那些扫全网的工具不一样，它只关心独立开发者在产品刚上线那一刻选了什么。技术实现上，它用 ...

#StackScope#Product Hunt#Hacker News (Show HN)

一句话点评

Jonathan 爬了 4 万多个独立产品首发页，扒出它们用的托管、框架、分析工具等。一个实用发现：1/3 的独立产品跑在 Vercel 上，去掉它后 Tailwind 和 React 占比明显下降。目前 Cloudflare 没给它 bot 白名单，约 10% 的站爬不到。正文没披露这 4 万条数据的时间跨度，也没给整体技术分布汇总，只有标题和功能列表是确定的。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

68

SCORE

H1·K1·R0

15:08

46d ago

Hacker News 首页· rssEN15:08 · 06·12

Claude 网页端没有批量删聊天功能，这个脚本帮你一键清空

Claude 网页版不像 ChatGPT 那样有批量删除按钮，聊天多了只能手动一条条删，很麻烦。Matteo Leonesi 写了个脚本自动执行删除操作。缺点是删除过程很慢，要持续几分钟，而且浏览器标签页不能关，关了就中断。正文没提脚本的许可证，也没说是否支持其他模型。

#Matteo Leonesi

一句话点评

Claude 网页版没有批量删聊天功能，Matteo Leonesi 写了个脚本自动删。缺点是删得慢，要几分钟，而且浏览器标签页不能关，关了中断。正文没提许可证，也没说是否支持其他模型。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

45

SCORE

H1·K1·R0

14:55

46d ago

FEATUREDr/LocalLLaMA· rssEN14:55 · 06·12

MiniMax 开源 MSA 稀疏注意力：109B 模型处理百万 token 时注意力计算量砍掉 28.4 倍

MiniMax 发了一篇论文，提出一种叫 MSA 的稀疏注意力方法，专门解决超长上下文推理时注意力计算太贵的问题。它的做法是在 GQA（分组查询注意力）基础上加一个轻量的“索引分支”，先给每块 KV 缓存打分，每个查询组只挑分数最高的一小部分块，主分支再对这些挑出来的块做精确注意力计算。配合专门写的 GPU 内核，一个 109B 参数的多模态模型在 H...

#Inference-opt#MiniMax#MiniMax-M3

精选理由

精选 · 重要度 72 · 吸引力 + 知识量

一句话点评

MiniMax 给超长上下文推理找了个省钱路子：先粗筛再精算，1M 上下文时预填充快 14 倍、解码快 7.6 倍，效果没掉。但正文没提 109B 模型权重会不会放出来，家用卡能不能跑还得看后续。

锐评

这篇论文的核心思路很直白：在 GQA 基础上加一个轻量的“索引分支”，先给每块 KV 缓存打分，每个查询组只挑分数最高的几块，主分支再对挑出来的块做精确注意力计算。相当于先快速扫一眼目录，只精读最相关的章节，省掉了大量无用计算。配合专门写的 GPU 内核，一个 109B 参数的多模态模型在 H800 上跑 1M 上下文，预填充端到端快了 14.2 倍，解码快了 7.6 倍，而且质量跟全量 GQA 持平。数字看着漂亮，但要注意几点。第一，测试是在 H800 上跑的，家用显卡能不能复现这个加速比还不清楚，论文没给消费级硬件的 benchmark。第二，109B 模型本身就不小，即使推理加速了，显存门槛依然很高，Reddit 原帖也在问能不能在家用卡上跑，目前没有答案。第三，代码和推理内核开源了，但模型权重是否公开正文没披露，想自己试还得等消息。整体来说，这个方法对做超长上下文推理服务的人是个实打实的优化方向，省算力还不掉效果。但对想在自己机器上玩的个人开发者，先别太激动，等权重放出来、有人测了消费级显卡再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

72

SCORE

H1·K1·R0

14:53

46d ago

r/LocalLLaMA· rssEN14:53 · 06·12

MiniMax M3 上线 HuggingChat，支持直接跑代码和网页

MiniMax M3 模型现在可以在 HuggingChat 上直接用了，还带 Artifacts 功能——你让它写段代码或生成一个网页，它能在对话里直接渲染出可运行的结果，不用复制到别处跑。正文没披露模型参数、是否开源、以及跟其他模型的跑分对比，所以目前只能当个新玩具试试手。如果你需要一个能边聊边出可执行代码或页面的聊天模型，值得点进去玩一下。

#Code#MiniMax#HuggingChat#Open source

一句话点评

MiniMax M3 上线 HuggingChat，支持 Artifacts 功能，能直接在对话里渲染代码和网页，省去复制粘贴的麻烦。但正文没披露模型参数、是否开源、跑分对比，目前只能当新玩具试试。如果你需要边聊边出可执行结果，值得点进去玩一下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

62

SCORE

H1·K0·R0

14:48

46d ago

Hacker News 首页· rssEN14:48 · 06·12

AI 生成前端代码太啰嗦？这篇博客教你手动去冗余

一篇博客给出了清理 AI 生成前端代码中“废话”的实操建议：删掉多余的包裹 div、去掉过度抽象的 CSS 类、检查逻辑是否真的在用。作者没推荐具体工具或插件，但建议很实在——适合用 AI 写 UI 的开发者。正文没披露这些建议在多大规模的项目上验证过，所以效果可能因项目复杂度而异。

一句话点评

一篇博客分享了一个去 AI 前端代码“废话”的偏方：让 AI 把界面风格改成 Qt 样式，作者说这样能去掉大部分“AI 味”。他拿一个选举地图可视化页面试了，觉得效果不错，后来把自己所有个人软件都改成了 Qt 风。但正文没披露这些建议在多大规模的项目上验证过，也没说 Qt 风格是否适合复杂交互或移动端。短评：偏方挺有意思，但效果可能因项目复杂度而异，先别急着全盘照搬。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

55

SCORE

H0·K1·R0

14:11

46d ago

FEATUREDAI HOT 精选· aihot-apiZH14:11 · 06·12

MiniMax 开源 M3 模型：总参数 428B，激活 23B，上下文窗口拉到 100 万 token

MiniMax 把 M3 的权重传上了 HuggingFace，技术报告和完整权重大概还要等 10 天。这是个混合模型，总参数量 428B，但每次只激活 23B，靠 MiniMax 自研的稀疏注意力把上下文窗口撑到 100 万 token，还原生支持多模态。跑分方面：SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0...

#Code#Agent#Multimodal#MiniMax

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

MiniMax 把 M3 模型权重扔上 HuggingFace 了，但技术报告和完整权重还得等 10 天，现在只能看个跑分。

锐评

MiniMax 这次开源的是个混合模型，总参数 428B，但每次推理只激活 23B，靠自研的稀疏注意力把上下文窗口拉到 100 万 token，还原生支持多模态。跑分上，SWE-Bench Pro 拿了 59.0%，Terminal Bench 2.1 有 66.0%，MCP Atlas 74.2%，这几个数字在代码和智能体任务里算能打。但 SWE-fficiency 只有 34.8%，KernelBench Hard 28.8%，说明在效率和底层优化任务上还有不少空间。现在的问题是信息缺口太大：正文没披露训练数据来源、推理成本、授权条款，也没说这 23B 激活参数在实际部署时吃多少显存。技术报告要等 10 天，在那之前这些跑分只能当参考，别急着下结论说它比谁强。如果是真的省钱又好用，那对想做代码助手或让模型进业务流程干活的团队是个好消息，但这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

14:11

46d ago

r/LocalLLaMA· rssEN14:11 · 06·12

35B模型在12GB显存显卡上跑，两轮提示就生成频谱GIF

Reddit用户yes2matt用RTX 3060 12GB显卡跑Qwen3.6-35B的4-bit量化版（llama.cpp），只用了两轮提示就让模型写Python代码，生成一个80年代收音机风格的频谱分析GIF。第一轮让模型写FFT脚本输出15fps、320像素的GIF；第二轮要求跳过前200毫秒、只显示低频段、做对数变换，模型都正确执行了。正文没...

#Code#Qwen3.6-35B#Hermes#RTX 3060

一句话点评

RTX 3060 12GB跑35B模型，两轮提示就写对了FFT频谱GIF脚本，说明4-bit量化后小显存也能跑大模型。但正文没披露推理速度，12GB跑35B大概率很慢，实用价值要打折。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

62

SCORE

H1·K1·R0

14:07

46d ago

FEATUREDr/LocalLLaMA· rssEN14:07 · 06·12

MiniMax 开源 M3 模型：428B 总参数，每次推理只激活 23B

MiniMax 在 Hugging Face 上放出了 M3 的权重。这是一个混合专家模型，总参数量约 4280 亿，但每次推理只调用其中约 230 亿参数，相当于用 23B 模型的算力撬动一个超大规模模型的知识。帖子没提训练数据、跑分成绩，也没说本地运行最低要多少显存，想自己部署的话得先做好硬件摸底。

#MiniMax#Open source

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

MiniMax 把 M3 权重放出来了，4280 亿总参数每次只激活 230 亿，但帖子没给跑分和显存要求，想本地跑的先别急着下。

锐评

MiniMax 在 Hugging Face 上开源了 M3 模型，这是个混合专家模型，总参数约 4280 亿，但推理时只激活其中约 230 亿个参数。打个比方，就像你雇了 20 个专家但每次只叫 1 个来干活，算力开销跟 23B 的小模型差不多，但背后能调用的知识量要大得多。不过这条帖子本身信息量很薄。正文被 Reddit 的安全策略拦住了，我们看不到原帖里的技术细节、benchmark 跑分，也不知道本地部署最低要多少显存。Hugging Face 页面上的模型卡可能写了这些，但帖子没转过来。如果你打算自己部署，先别激动。230 亿激活参数虽然比全量 4280 亿友好很多，但 MoE 模型对显存带宽和总容量要求不低，大概率不是一张消费级显卡能轻松跑起来的。建议先去 Hugging Face 仓库看模型卡上的硬件要求和量化方案，再决定要不要下载那几百 G 的权重文件。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

13:49

46d ago

Hacker News 首页· rssEN13:49 · 06·12

Meta 旗下 Facebook 和 Instagram 大面积宕机

Facebook 和 Instagram 现在挂了。Meta 自己的服务状态页 metastatus.com 上却没显示任何故障，说明这次中断可能比页面反映的范围更大。帖子没提影响哪些地区，也没给恢复时间。

#Meta#Facebook#Instagram#Incident

一句话点评

Facebook 和 Instagram 挂了，但 Meta 自己的状态页 metastatus.com 没显示故障，说明这次中断可能比官方承认的范围更大。DownDetector 也报了 404 错误。帖子没提影响哪些地区，也没给恢复时间，信息有限。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

55

SCORE

H1·K0·R1

13:11

46d ago

r/LocalLLaMA· rssEN13:11 · 06·12

Open Dungeon：用 Gemma 4 在本地跑文字冒险，8GB 显存就能带 256K 上下文，还能让 FLUX 给场景配图

作者用 Gemma 4 12B 模型（QAT Q4 量化版）搭了一个完全本地运行的 AI 文字冒险游戏，类似 AI Dungeon 但不需要联网。模型通过 Ollama 驱动，负责讲故事；遇到值得画的场景，会调用本地的 FLUX 模型生成图片。全程没有 API 调用，数据不出电脑。比较意外的一点是，12B 模型在 256K 的完整上下文窗口下运行，显存...

#Gemma 4#Ollama#FLUX#Open source

一句话点评

这条消息本身被 Reddit 的网络安全机制拦截了，正文没拿到，只能根据摘要判断。摘要说作者用 Gemma 4 12B 的 QAT 量化版跑了一个本地文字冒险游戏，全程不联网，数据不出电脑。比较亮眼的是 12B 模型在 256K 完整上下文窗口下只吃 7.7GB 左右内存，因为 Gemma 4 的 KV 缓存增长很慢。超出上下文的旧场景会被压缩成摘要，让模型还记得第一章的事。支持 Do/Sa...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

72

SCORE

H1·K1·R0

12:55

46d ago

r/LocalLLaMA· rssEN12:55 · 06·12

16GB显存跑Qwen 3.6 27B + Openclaw，有人试成了

一位用户用5070 Ti（16GB显存）跑Qwen 3.6 27B（4bpw GGUF量化版）加Openclaw。之前试35B版时工具调用会死循环，换成27B就稳了。加载模型前关掉所有程序，腾出约15.2GB显存，加载后只剩800MB空闲，连浏览器都不敢开。上下文窗口开到100K，工具调用正常，但只测了2小时，长期稳定性未知。正文没提推理速度，也没说O...

#Qwen#Openclaw#NVIDIA GeForce RTX 5070 Ti

一句话点评

Qwen 3.6 27B量化版（4bpw GGUF）配合Openclaw工具调用，能在16GB显存的5070 Ti上跑起来，上下文开到100K，实测2小时没崩。之前35B版会死循环，27B反而稳了。代价是加载后只剩800MB显存，连浏览器都不敢开。正文没提推理速度，也没说Openclaw版本，长期稳定性未知。如果是真的，低成本跑工具调用挺省钱，但别急着上生产。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

55

SCORE

H1·K1·R0

12:51

46d ago

r/LocalLLaMA· rssEN12:51 · 06·12

ContextSpy：像分析 CPU 性能一样分析 LLM 的上下文，帮你省 token

ContextSpy 是一个本地代理，插在你的编程助手和 LLM API 之间，记录每次请求并拆解输入 token 都花在了哪里——系统提示词、工具定义、文件内容、对话历史，一目了然。作者受 PyCon 启发，想用“性能分析”的思路优化 token 用量，而不是靠暴力压缩。目前还是早期项目，正文没披露支持哪些模型、代理本身会带来多少额外延迟。如果你在用...

#ContextSpy#PyCon

一句话点评

ContextSpy 是个本地代理，插在编程助手和 LLM API 之间，帮你拆解每次请求的 token 都花在哪——系统提示词、工具定义、文件内容、对话历史，一目了然。作者受 PyCon 启发，想用“性能分析”思路优化 token 用量，而不是暴力压缩。目前还是早期项目，正文没披露支持哪些模型、代理本身会带来多少额外延迟。如果你在用编程助手且 token 开销大，这个思路值得关注，但先别直...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

62

SCORE

H0·K1·R0

12:28

46d ago

r/LocalLLaMA· rssEN12:28 · 06·12

Supra Title 350M：一个只干一件事的小模型——给聊天记录起标题

SupraLabs 放出了一个 3.5 亿参数的小模型，专门用来给聊天对话生成标题。它基于 LFM2.5-350M 微调，不需要写 system prompt，直接把用户消息丢进去就能返回一个标题。模型已经转成了 GGUF 格式，文件大小从 177 MB 到 711 MB 不等，官方推荐用 Q8_0 或 Q6_K 量化版。目前还是实验阶段，团队说后面会...

#Fine-tuning#SupraLabs#LFM2.5-350M

一句话点评

SupraLabs 放了个 3.5 亿参数的小模型，专给聊天对话生成标题。基于 LFM2.5-350M 微调，不用写 system prompt，丢用户消息就能返回标题。GGUF 格式，177 MB 到 711 MB，推荐 Q8_0 或 Q6_K 量化版。目前还是实验阶段，团队说后面会扩 SFT 数据集并做偏好优化。正文没披露推理速度或延迟，但这么小的模型本地跑应该很快。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

55

SCORE

H0·K1·R0

12:00

46d ago

Hacker News 首页· rssEN12:00 · 06·12

Maxproof：让AI推理过程可验证，不再只给答案

这篇新论文提出让模型在输出答案的同时，附带一个可独立验证的“证明”，而不是只给一个黑盒结果。正文没披露具体技术细节或实验数据，但方向很明确：解决AI推理的“黑箱”问题，让输出能被外部检查。做可解释性和安全对齐的人值得一看。

#Reasoning#Interpretability

一句话点评

MiniMax 发的新论文，核心是让模型在数学证明上同时做生成、验证和修复，最后用“锦标赛”方式从一堆候选里挑一个最优答案。结果挺猛：IMO 2025 拿了 35/42，USAMO 2026 拿了 36/42，都超过人类金牌线。关键设计是那个“低误报率验证器”，保证挑出来的证明不是瞎编的。但正文没披露训练数据量、计算成本，也没说这套方法在非数学任务上表现如何。如果是真的，等于给推理模型加了一...

HKR 分解

hook —knowledge —resonance —

→ 打开信源

62

SCORE

H0·K0·R0

11:56

46d ago

Product Hunt · AI· rssEN11:56 · 06·12

MindReader v1：用模拟fMRI“读脑”，开源，但别太当真

MindReader v1 是一个开源工具，输入一段内容（比如广告文案），它会模拟人脑不同区域对这段内容的反应，输出一组“神经指标”。底层用了 Meta FAIR 的 TRIBE v2 模型，加上 35 年的神经科学研究。团队说可以用在销售评估、数据集分析上。但正文没披露模拟精度和真实 fMRI 数据的对比验证，所以这点先别太激动。完全开源，适合想拿脑...

#Meta FAIR#Product Hunt#Open source

一句话点评

输入一段文案，它就能模拟人脑各区域反应，输出“神经指标”。底层用了Meta FAIR的TRIBE v2模型，加上35年神经科学研究。完全开源，适合做销售评估或数据集分析。但正文没披露模拟精度和真实fMRI数据的对比验证，这点先别太激动。如果是真的，做广告A/B测试能省一笔fMRI扫描费。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

55

SCORE

H1·K1·R0

11:15

46d ago

FEATUREDAI HOT 精选· aihot-apiZH11:15 · 06·12

Pokémon Go 玩家数据被用于训练军用无人机空间识别模型

Niantic 把 Pokémon Go 玩家在真实世界里扫描的场景数据，拿去训练了一个能理解物理空间的地理空间 AI 模型，这个模型后来被用到了美国陆军等合作方的军用无人机项目上。玩家在不知情的情况下成了训练数据的贡献者。模型能识别和导航真实环境，但正文没披露具体用了多少玩家数据、合同金额，也没说玩家现在能不能事后退出。

#Niantic#Pokémon Go#U.S. Army

精选理由

精选 · 重要度 78 · 吸引力 + 知识量 + 共鸣

一句话点评

你抓宝可梦时扫的街景，被拿去训练了军用无人机模型，而且你不知情。

锐评

这事最让人不舒服的点在于知情同意完全缺失。Niantic 把 Pokémon Go 玩家在真实世界里扫描的场景数据，拿去训练了一个能理解物理空间的地理空间 AI 模型，这个模型后来被用到了美国陆军等合作方的军用无人机项目上。玩家在不知情的情况下成了训练数据的贡献者。正文没披露具体用了多少玩家数据、合同金额，也没说玩家现在能不能事后退出。模型能识别和导航真实环境，但文章没讲清楚它到底在无人机上负责哪部分任务，是侦察、导航还是别的。这点先别太激动，但数据流向从游戏到军事的路径本身，已经够让人警惕了。还缺一个关键信息：Niantic 在用户协议里有没有给自己留过这种口子，以及军方合同的具体条款是什么。没有这些，我们只能看到结果，看不到决策链。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

78

SCORE

H1·K1·R1

11:01

46d ago

AI HOT 精选· aihot-apiZH11:01 · 06·12

DeepMind 启动机器人加速器，15家初创公司入选

Google DeepMind 宣布启动一个为期三个月的机器人加速器项目，选了15家欧洲初创公司。项目会给它们提供 DeepMind 的 AI 堆栈（就是训练和部署模型那套工具链）、Gemini Robotics 模型，还有团队手把手支持。目标是推动“物理 AI”（让机器人能在真实世界干活）在欧洲落地。正文没披露每家公司的具体方向或技术细节，所以暂时没...

#Google DeepMind

一句话点评

DeepMind 搞了个三个月机器人加速器，选了15家欧洲初创，给 Gemini Robotics 模型和团队支持。正文没披露每家具体做什么，所以先别太激动。亮点是“物理 AI”落地欧洲，但缺技术细节和商业化路径，信息量有限。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

55

SCORE

H0·K0·R0

10:42

46d ago

● P1Hacker News 首页· rssEN10:42 · 06·12

月之暗面开源Kimi K2.7-Code编程模型，声称token效率更高

Moonshot AI 在 Hugging Face 上放出了 Kimi K2.7-Code，一个开源代码模型，声称 token 利用率比同类更好。不过目前只有模型卡，没有技术报告、没有基准测试成绩，连参数量都没说。HN 上 42 个赞、4 条讨论。我会先打个折——没有第三方评测之前，能判断的东西太少。

#Code#Moonshot AI#Kimi#Open source

精选理由

精选 · 重要度 96 · 吸引力 + 共鸣

一句话点评

Kimi 开源了代码模型 K2.7-Code，跑分挺高，但 Reddit 源被屏蔽，具体评测细节和社区真实反馈暂时看不到。

锐评

Moonshot AI 把 Kimi K2.7-Code 开源了，这是个专门写代码的模型。从标题看，性能提升“显著”，但具体跑分和对比基准，因为 Reddit 帖子被网络策略挡了，正文没披露，没法核实。开源是好事，意味着开发者能直接拿来用、自己微调。不过，代码模型的实际表现很看具体场景，跑分高不代表在你项目里就不出 bug。现在缺的是：它在 HumanEval 这类标准测试上的具体分数、对主流编程语言的支持细节、以及模型参数量和硬件要求。这些信息决定了它到底能不能在本地跑起来，以及值不值得从其他开源代码模型切过去。建议去 Hugging Face 模型卡上直接看技术报告和社区实测，别只看标题里的“显著”二字。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

96

SCORE

H1·K0·R1

10:16

46d ago

FEATUREDAI HOT 精选· aihot-apiZH10:16 · 06·12

Kimi 开源了 K2.7-Code 代码模型，内部跑分比上一代高 11% 到 31.5%，推理还省了 30% 的 token

Kimi 把最新的代码模型 K2.7-Code 开源了。跟上一代 K2.6 比，它在自家三个测试集上分数都涨了：Kimi Code Bench v2 涨了 21.8%，Program Bench 涨了 11%，MLS Bench Lite 涨了 31.5%。推理时吐出的 token 量少了 30%，相当于同样的活儿更省算力。长代码任务里，模型更听指令、...

#Code#Reasoning#Kimi (Moonshot AI)#Open source

精选理由

精选 · 重要度 82 · 吸引力 + 知识量 + 共鸣

一句话点评

Kimi 开源了 K2.7-Code，自家三个测试集分数涨了 11% 到 31.5%，推理 token 省了 30%。但没公布参数量、训练数据和开源协议，这点先别太激动。

锐评

Kimi 把新代码模型 K2.7-Code 开源了，跟上一代 K2.6 比，在自家三个测试集上分数都涨了：Kimi Code Bench v2 涨 21.8%，Program Bench 涨 11%，MLS Bench Lite 涨 31.5%。推理时吐出的 token 量少了 30%，相当于同样的活儿更省算力。长代码任务里指令遵循和端到端成功率也都有提升，还预告了一个 6 倍速模式。这些数字看着不错，但得打个折。三个测试集全是 Kimi 自家的，没有跟外部公认的代码基准（比如 HumanEval、SWE-bench）做对比，说服力有限。正文也没披露模型参数量、训练数据规模和开源协议类型，不知道是多大体量的模型，也不知道商用有没有限制。如果这些分数能在外部队列上复现，而且 token 节省是真的在复杂项目里成立，那对用 Kimi API 做代码生成的开发者来说挺实惠。现在缺的就是第三方验证和更透明的技术细节。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

82

SCORE

H1·K1·R1

10:14

46d ago

FEATUREDr/LocalLLaMA· rssEN10:14 · 06·12

MTP 投机解码实测：助手模型没选对，速度可能白给

一位用户在 llama.cpp 里给 Gemma 4 Heretic 系列模型跑 MTP 投机解码，发现助手模型（draft model）选得好不好，直接决定加速效果是翻倍还是几乎没变化。他拿 26B Q8 模型测试，生成速度从每秒 30 个 token 跳到 62 个；12B Q4 模型更夸张，从 12 涨到 54。但同名 GGUF 文件不一定是同一...

#llama.cpp#Gemma 4#Google

精选理由

精选 · 重要度 72 · 吸引力 + 知识量 + 共鸣

一句话点评

MTP 投机解码的加速效果全看助手模型怎么选，选对了速度翻倍，选错了等于白干。

锐评

这条帖子来自 llama.cpp 社区的实际测试，结论很直接：MTP 投机解码不是无脑开就能加速，助手模型（draft model）的匹配度才是关键。测试者用 Gemma 4 Heretic 系列跑，26B Q8 模型从每秒 30 token 跳到 62，12B Q4 更夸张，从 12 涨到 54——但前提是助手模型选对了。两个值得注意的发现：第一，同名 GGUF 文件不一定是同一个模型，这会导致加速效果天差地别；第二，未量化的助手模型比 Q4/Q8 版本稳定快大约 10 token/秒。另外，draft count 设为 1 反而效果最好，这点和直觉不太一样。正文没披露测试用的具体 prompt 和硬件配置，所以这些数字只能当参考，不能直接套到自己的场景。如果你也在折腾 MTP，建议先检查日志确认 MTP 真的初始化成功了——作者特别提醒，很多人其实是在裸跑主模型，根本没用到投机解码。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

72

SCORE

H1·K1·R1

10:00

46d ago

OpenAI 博客· rssEN10:00 · 06·12

OpenAI 推出三门新课程，教团队把 AI 用成固定流程

OpenAI 今天上线了三门 Academy 课程：AI 基础、应用 AI 基础、以及智能体与工作流。内容从提示词和输出检查讲起，再到把一次性用法变成可重复的流程，最后教你怎么指挥智能体干活。合作方包括 BCG、埃森哲和 BBVA。每门课学完发证书。正文没透露课程时长和价格。

#OpenAI#BCG#Accenture

一句话点评

OpenAI 今天上线了三门面向企业的 AI 课程，从提示词教到智能体工作流，合作方包括 BCG、埃森哲和 BBVA。每门课学完发证书。正文没披露课程时长和价格，所以暂时不好判断性价比。对想系统培训员工的公司来说，这是个官方背书的选择，但具体含金量还得看内容深度。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

55

SCORE

H0·K0·R0

10:00

46d ago

AI HOT 精选· aihot-apiZH10:00 · 06·12

OpenAI 出了三门免费课，教你怎么用 AI 干活

OpenAI 新上线三门 Academy 课程，面向想在工作中用上 AI 的人。内容讲怎么搭可重复的工作流、怎么用 AI 智能体。免费，但没说每门课叫什么、多长、具体教什么——只说是实用技能。想系统学 AI 打工人可以看看，但别指望看完就能上手写 agent。

#OpenAI

一句话点评

OpenAI 免费上线三门 Academy 新课，教打工人搭可重复工作流和用 AI 智能体。课程名是 AI Foundations、Applied AI Foundations、Agents and Workflows，但正文没披露每门课多长、具体教什么，只说教实用技能。合作方有 BCG、Accenture、BBVA，完成有证书。想系统学 AI 的可以看看，但别指望看完就能上手写 agent。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

45

SCORE

H0·K0·R0

09:21

46d ago

r/LocalLLaMA· rssEN09:21 · 06·12

浏览器操作Agent跑在WASM里，零服务器成本

开发者用Snapdom、WASM、WebGPU和ShowUi-2b模型，在浏览器里跑了一个完全自包含的浏览器操作Agent，不需要后端服务器。它能打字、点链接、改下拉菜单，还能做多步操作（点输入框→打字→点提交），成功率大概50%。作者说浏览器自动化非常难，目前只支持有限的操作，代码还是超早期alpha版。测试用了Mind2Web和MiniWob来提精...

#Snapdom#WASM#WebGPU#Open source

一句话点评

一个开发者用WASM+WebGPU在浏览器里跑了个能点链接、打字、改下拉菜单的Agent，完全不需要后端服务器。用的是ShowUi-2b小模型，多步操作成功率约50%。成本确实为零，但正文没披露延迟和模型精度，这点先别太激动。代码还是超早期alpha，只支持有限操作，离实用还远。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

62

SCORE

H1·K1·R0

更多

✕

频道

热点聚合每日 AI 日报全部播客·视频 AX 严选 X 监控收藏信源邮件订阅 Agent 接入

后台

用量系统订阅管理精选策略策略迭代用户