ax@ax-radar:~/curated $ grep -l 'curated=true' sources/
41 srcsignal 72%cycle 04:32

AX 严选 · 2026-05-13

35 · updated 3m ago
按日期浏览清除筛选
2026年6月
138235332422532610788299441029112912151371415161718192021222324252627282930
2026-05-13 · 星期三2026年5月13日
23:19
30d ago
AI HOT 精选· aihot-apiZH23:19 · 05·13
Claude Code 小版本更新:新增工作目录选项,修复30多个Bug
Anthropic 发布了 Claude Code 的 v2.1.141 版本,主要更新包括三个变量或字段的更新、一个让 Claude 智能体指定工作目录的 --cwd 选项,以及修复了30多个问题,涉及 Markdown 表格渲染、权限提示和历史管理。这次没有新功能,主要是修修补补,让日常使用更稳。
#Agent#Code#Tools#Anthropic
精选理由
HKR-K/R通过:--cwd、字段更新和30多项修复对频繁使用Claude Code的用户有价值。HKR-H不通过,因为这是小版本发版日志,所以保持在常规产品更新区间,评分68。
一句话点评
Claude Code 小版本更新,修了30多个bug,加了让智能体指定工作目录的--cwd参数。没有新功能,但修的都是日常痛点:Markdown表格渲染、权限提示、历史管理。如果你在用Claude Code写代码,这版值得升,稳定性有提升。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R1
23:15
30d ago
AI HOT 精选· aihot-apiZH23:15 · 05·13
AI智能体工程化实战:Claude点不准、Codex沙箱隔离、RAG Agent三成幻觉
BestBlogs早报聊AI智能体落地。Anthropic官方指南说Claude Computer Use点不准是常见坑,得用虚拟机隔离加人工确认门控。OpenAI工程师给Codex搭Windows沙箱,靠系统级文件隔离防乱写。另外注意:RAG Agent在基准测试里分数高,但一上生产幻觉率能到30%,这点先别太激动。
#Agent#RAG#Safety#Anthropic
精选理由
HKR-K 靠的是那个 30% 生产环境幻觉率,直接点出 RAG Agent 在真实场景下的可靠性问题;HKR-R 靠的是智能体安全焦虑,从业者看到这个数字会想“我的系统会不会也这样”。HKR-H 弱是因为这是篇早报汇总,不是独家发布或新论文,所以分数压在 60–71 区间。
一句话点评
BestBlogs早报聊AI智能体落地。Anthropic说Claude Computer Use点不准是常见坑,得用虚拟机隔离加人工确认门控。OpenAI给Codex搭Windows沙箱,靠系统级文件隔离防乱写。另外注意:RAG Agent在基准测试里分数高,但一上生产幻觉率能到30%,这点先别太激动。正文没披露具体测试集和样本量,验证力度有限。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
20:00
30d ago
AI HOT 精选· aihot-apiZH20:00 · 05·13
阿里云发布Qwen-Character:让AI角色记住你、共情你、主动找你聊天
阿里云推出Qwen-Character,主打三个能力:记忆(记住你和之前聊过什么)、共情(理解你的情绪)、主动交互(不用你问,它自己先开口)。官方说用在游戏、虚拟伴侣、自适应学习场景里,参与度能提升50%以上。但正文没披露这个50%是怎么测的、样本多大、价格多少、什么时候能用。如果真能低成本落地,对做虚拟角色或陪伴类产品的团队是个好消息,但这点先别太激...
#Memory#Agent#Alibaba Cloud#Qwen
精选理由
HKR-H和HKR-R通过,因为AI角色的记忆和留存是行业关注点;HKR-K不通过:参与度提升50%以上这个说法缺少评测口径、样本规模和上线条件,信息缺口太大。
一句话点评
阿里云发了Qwen-Character,主打记忆、共情和主动开口。说用在游戏、虚拟伴侣里参与度能提50%以上,但没披露怎么测的、样本多大、价格和上线时间。如果真能低成本落地,做虚拟角色或陪伴类产品的团队可以关注,但这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
19:21
30d ago
AI HOT 精选· aihot-apiZH19:21 · 05·13
Anthropic 把 Claude Code 周额度提了 50%,用到 7 月 13 日
Anthropic 把 Claude Code 的每周使用限额提高了 50%,这个调整至少持续到 7 月 13 日。推文提到可能是 Colossus 1 模型上线带来的算力余量。正文没披露原来的额度是多少、哪些套餐能享受、以及具体怎么算用量——比如是按请求次数还是 token 数。对重度用户来说,额度多了总归是好事,但具体能多干多少活还得看自己实际消耗。
#Code#Anthropic#Claude Code#Colossus 1
精选理由
Anthropic 把 Claude Code 周限额提了 50%,截止 7 月 13 日。对天天用的人,额度多了能少停几次,但正文没讲原来额度是多少、什么套餐能用,所以没法算到底省多少。信息偏薄,不够上头条。
一句话点评
Anthropic 把 Claude Code 周额度提了 50%,至少到 7 月 13 日。推文猜测是 Colossus 1 模型上线腾出了算力。但正文没披露原额度、适用套餐和用量计算方式(按请求还是 token)。对重度用户是好事,但具体能多干多少活还得看自己实际消耗。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
19:07
30d ago
AI HOT 精选· aihot-apiZH19:07 · 05·13
Claude代码周限额临时提升50%
Anthropic把Claude Code的每周使用额度临时提高了50%,从即日起到7月13日,Pro、Max、Team和按席位付费的企业用户都能享受。相当于原来一周能跑100次现在能跑150次,对重度用户算是个小福利。不过这只是限时活动,正文没提活动结束后额度会不会回调。
#Code#Claude#Product update
精选理由
HKR 三项全过:50% 的配额提升、截止日期和适用套餐都写清楚了,对开发者有用,但不是新能力或模型发布,所以保持 high all。
一句话点评
Anthropic 把 Claude Code 周额度临时提了 50%,Pro/Max/Team 和按席位付费的企业用户都能用,相当于原来一周 100 次变 150 次。对重度用户算小福利,但只是限时到 7 月 13 日,正文没提结束后会不会回调。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
18:42
30d ago
AI HOT 精选· aihot-apiZH18:42 · 05·13
AI电影大师Gossip Goblin创作流程首度揭秘?其实正文啥也没说
这条推文标题说首次揭秘AI电影《Gossip Goblin》的创作流程,但正文只提了一句“主要用Kling做动画”,没有披露任何具体步骤、模型参数、定价或可复现的制作条件。说白了就是个标题党,想看干货的可以散了。
#Multimodal#Gossip Goblin#Kling#PJaccetturo
精选理由
触发硬排除规则5:这是供应商侧“创作者用了Kling”的案例,没有工作流细节或可复现数据。H/K/R三项都不满足,所以分数低于40。
一句话点评
标题说“首度揭秘AI电影创作流程”,正文只提了一句“主要用Kling做动画”,没披露任何步骤、参数或成本。说白了就是个标题党,想看干货的可以散了。
HKR 分解
hook knowledge resonance
打开信源
32
SCORE
H0·K0·R0
18:31
30d ago
AI HOT 精选· aihot-apiZH18:31 · 05·13
Krea 2 上线情绪板分享
Krea 2 新增了情绪板分享功能,现在你可以把做好的情绪板发给别人看。推文附了几个示例链接,但没说明分享权限、协作方式或是否收费。
#Krea#Product update
精选理由
HKR-K 通过,因为可分享的情绪板是一个具体更新;但 HKR-H 和 HKR-R 不通过:没有意外角度,没有权限/定价/工作流细节。小产品更新,不值得上推荐位。
一句话点评
Krea 2 上线情绪板分享功能,可以直接把做好的视觉参考发给别人看。推文附了几个示例链接,但没披露分享权限(公开/私密)、是否支持协作编辑,以及免费版能不能用。功能本身不复杂,对设计师团队协作有用,但信息缺口太大,具体体验得自己试。
HKR 分解
hook knowledge resonance
打开信源
56
SCORE
H0·K1·R0
17:17
30d ago
AI HOT 精选· aihot-apiZH17:17 · 05·13
Krea 2 发限量访问码,每个码能用 50 次
Krea AI 放出了三个 Krea 2 的访问码(K2-PRFUF8 / K2-NRWW9E / K2-CAP48S),每个码能用 50 次。官方说这是他们第一个从零训练的基座模型,主打审美多样性和风格控制。目前只有码没有公开模型细节,具体效果和参数都没披露。
#Multimodal#Krea AI#Product update
精选理由
HKR的H和K通过:码的数量有限,加上是Krea首个自研基础模型,信息具体。来源是Krea的X帖子,没有基准测试、定价、部署范围或能力证明,属于小产品更新,从业者参考价值有限。
一句话点评
Krea 2 放出三个访问码,每个能用 50 次,总共 150 次生成机会。官方说是第一个从零训练的基座模型,主打审美多样性和风格控制。但正文没披露参数量、训练数据、评测指标,效果全靠抢到码的人试。限量码+无细节,更像早期用户测试,不是正式发布。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R0
17:08
30d ago
AI HOT 精选· aihot-apiZH17:08 · 05·13
人形机器人 Helix-02 已能自主干满8小时轮班
Brett Adcock 发视频称,其人形机器人 Helix-02 已能以人类水平自主完成8小时轮班。正文没披露具体任务类型、机器人数量或现场条件,所以先别太激动——能干满8小时不等于能干好所有活。如果属实,对工厂流水线这类重复性岗位是个信号,但验证信息还太少。
#Robotics#Agent#Brett Adcock#Kimmonismus
精选理由
HKR-H和HKR-R通过:8小时自主轮班的说法有噱头且跟机器人落地强相关。HKR-K不通过:任务、机队规模和场地条件都没说,够不上精选。
一句话点评
Brett Adcock 发视频说 Helix-02 人形机器人已能自主干满8小时轮班,且达到人类水平。但正文没披露具体任务类型、机器人数量或现场条件,所以先别太激动——能干满8小时不等于能干好所有活。如果是真的,对工厂流水线这类重复性岗位是个信号,但验证信息还太少。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
17:04
30d ago
AI HOT 精选· aihot-apiZH17:04 · 05·13
Krea 2 情绪板教程:10-20张参考图就能定调
Krea AI 发了个 Krea 2 情绪板教程,说不用塞满 250 个图片位,10-20 张高质量参考图就够确立视觉方向并出图。对做设计或风格探索的人来说,这能省不少挑图时间,但教程没提这些参考图具体怎么选、风格冲突时怎么处理,实操细节还得自己试。
#Vision#Tools#Krea AI#Krea 2
精选理由
HKR-H和HKR-K成立,因为10–20张参考图替代250个图片位这个点有信息差,且给出了可复用的操作条件。HKR-R弱,这只是一条来自厂商的流程小技巧,不是行业级故事。
一句话点评
Krea 2 说情绪板不用塞满250张图,10-20张高质量参考图就能定视觉方向。这对设计师挺友好,省了挑图时间。但教程没讲参考图怎么选、风格冲突咋处理,实操细节得自己试。短评:省事但得自己踩坑。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K1·R0
16:13
30d ago
AI HOT 精选· aihot-apiZH16:13 · 05·13
Runway 推出 Agent:把视频剪辑、生图和 3D 建模塞进一个工作流
Runway 上线了一个叫 Agent 的新产品,把视频特效、图片生成和 3D 建模整合到一个界面里,用户上传一张图、写一句话就能出大片级 VFX 效果。正文没披露定价、模型细节、上线时间,也没有可复现的评测条件,所以目前只能当个概念预览看。对做视频后期或创意内容的人来说,如果真能跑通,省掉来回切软件的时间是实打实的。
#Agent#Multimodal#Tools#Runway
精选理由
HKR-H 和 HKR-K 通过:多模态 Runway Agent 有明确钩子和基本机制。价格、模型细节、发布时间和可复现评测条件都没披露,所以这条属于普通产品更新档位。
一句话点评
Runway 把视频特效、图片生成和 3D 建模塞进一个界面,上传一张图写句话就能出大片级 VFX。正文没披露定价、模型细节、上线时间,也没有可复现的评测条件,目前只能当概念预览看。对做视频后期的人来说,如果真能跑通,省掉来回切软件的时间是实打实的。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R0
14:47
30d ago
AI HOT 精选· aihot-apiZH14:47 · 05·13
Suno 上车了:Apple CarPlay 和 Android Auto 都能用
Suno 正式登陆 Apple CarPlay 和 Android Auto,车主可以在车里直接播放自己用 Suno 生成的歌曲。官方只贴了一个通勤歌单链接,没提支持哪些车型、哪些地区、要不要额外付费。
#Suno#Apple#Android#Product update
精选理由
HKR 的 H 和 K 靠车载平台这个新场景和两个集成名字通过。重要性卡在 63 的小产品更新区间,因为正文没给使用量、技术细节或竞争压力,信息缺口明显。
一句话点评
Suno 正式上车,Apple CarPlay 和 Android Auto 都能用,开车时直接播自己用 Suno 生成的歌。官方只贴了一个通勤歌单链接,没提支持哪些车型、哪些地区、要不要额外付费。目前更像一个尝鲜入口,离“车载流媒体新体验”还差不少细节。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H1·K1·R0
13:59
31d ago
AI HOT 精选· aihot-apiZH13:59 · 05·13
全球首个全AI运营的电台开播,五个AI主播24小时聊AI动态
一个叫“AI Radio”的在线电台在X上线,主播、编辑、选曲全是AI,没有真人。五个AI主播各有性格和记忆,能实时播报几分钟前的AI新闻,每半小时做一次综述,还追踪融资、分析GitHub工具趋势、总结社区讨论。它们不是念稿,而是会主动发现矛盾、形成论点、互相辩论。背景音乐也是AI选的,不吵。适合当背景音听行业动态。不过正文没披露用了什么模型、成本多高...
#Agent#Memory#Tools#X
精选理由
HKR三项都过,但证据只有一条X帖子,没披露技术栈、听众规模或运营成本,更像一个有意思的产品demo,不是当天必须写的新闻。
一句话点评
全球首个全AI电台上线,五个AI主播24小时播报AI新闻,还能辩论、选曲。关键信息缺失:没披露用了什么模型、成本多高、延迟如何。适合当背景音,但别当权威信源。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
13:00
31d ago
AI HOT 精选· aihot-apiZH13:00 · 05·13
Cloudflare 把无头浏览器服务搬到了自家容器上,并发上限翻到 4 倍
Cloudflare 把 Browser Run(在云端跑无头浏览器,用来做网页测试、AI agent 抓网页、截图等)从原来和浏览器隔离服务共享的底层,迁移到了自家 Containers 平台。改动后,通过 Workers 绑定每分钟能启动 60 个浏览器实例,同时运行最多 120 个,是之前的 4 倍;Quick Action 响应时间降了 50%...
#Agent#Tools#Cloudflare#Browser Run
精选理由
这是一次 Cloudflare 内部的基础设施迁移,正文只说了“更快更强”,但没给任何可验证的性能数字,和 AI 工具链的关联也很弱。按规则,这类云厂商宣传稿直接排除,不给分发。
一句话点评
Cloudflare 把 Browser Run(云端无头浏览器,用于 AI agent 抓网页、截图等)迁移到自家 Containers 平台。每分钟能启动 60 个浏览器实例,同时最多跑 120 个,是之前的 4 倍;Quick Action 响应时间降了 50%。对做网页测试或 AI 抓取的人来说,并发上限和速度都明显提升。但正文没披露具体延迟数字和价格变化,迁移后成本是否上涨还不清楚。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H0·K0·R0
09:18
31d ago
AI HOT 精选· aihot-apiZH09:18 · 05·13
生成生僻事物配图前,先让AI搜图垫底
作者建议用Codex这类模型生成配图前,先让它搜一张真实参考图(比如云南甲马符),再基于这张图生成新图,这样能保证画面准确且高清。正文没披露用了什么模型、分辨率多少,也没给可复现的评测设置,所以效果到底多稳还不清楚。
#Tools#Vision#Codex#GPT
精选理由
正文没披露模型、分辨率或可复现评测,信息量只够当个轻量级技巧分享。HKR-K和HKR-R勉强及格,但HKR-H不成立,所以分数压在低教程/工作流区间。
一句话点评
短评:垫图提准是老办法,但让模型自己搜参考图再画,省了手动找图。 点评:作者提了个实用技巧:让Codex这类模型生成配图前,先搜一张真实参考图(比如云南甲马符),再基于这张图生成新图,能保证画面准确且高清。这本质是“检索增强生成”在图像领域的变体——先找事实依据再创作,比纯靠模型记忆靠谱。但正文没披露用了什么模型、分辨率多少,也没给可复现的评测设置,所以效果到底多稳还不清楚。另外,搜索到的...
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R1
08:50
31d ago
AI HOT 精选· aihot-apiZH08:50 · 05·13
VS Code 里同时跑 DeepSeek V4、GLM-5.1、Kimi K2.6 三款模型
SiliconFlowAI 发帖说,通过 Continue.dev 插件,可以在 VS Code 里同时调用 DeepSeek V4、GLM-5.1、Kimi K2.6 三款模型,支持代码自动补全、对话式编辑和智能体功能。帖子只给了三步设置指南的链接,没披露具体配置细节,比如是否需要本地部署、API 调用方式或资源占用。如果你手头有这几家模型的 API...
#Agent#Code#Tools#SiliconFlowAI
精选理由
SiliconFlowAI 这篇就是教你怎么在 VS Code 里用 Continue.dev 同时挂上 DeepSeek V4、GLM-5.1 和 Kimi K2.6,支持补全、对话编辑和智能体。正文只给了三步设置线索,没展开讲不同模型在补全或 agent 场景下的实际表现差异,也没给出延迟、成本或成功率的对比数据。对想快速试多模型开发的工程师有点用,但信息量就停在“能这么配”这一步,没有验证也没有踩坑记录,所以我会先打个折,不推荐放进简报。
一句话点评
短评:VS Code 里同时调三款模型,听起来很爽,但配置细节全在链接里,正文没披露。 SiliconFlow 说通过 Continue.dev 插件,能在 VS Code 里同时用 DeepSeek V4、GLM-5.1、Kimi K2.6,支持代码补全、对话编辑和智能体。好处是开发时不用切窗口,一个编辑器搞定多个模型。但帖子只给了“三步设置指南”的链接,没写具体怎么配——要不要本地部署...
HKR 分解
hook knowledge resonance
打开信源
36
SCORE
H0·K1·R0
06:19
31d ago
● P1AI HOT 精选· aihot-apiZH06:19 · 05·13
SenseTime发布SenseNova-U1技术报告和开源模型
报告把训练一个原生多模态模型的全流程拆成了六步,从统一建模、无损接视觉信号,到用自回归加像素空间流匹配一起训,再到强化学习后训练和蒸馏,每一步都给了实操细节。开源版本 SenseNova-U1-A3B-MoT 用了混合专家架构,只激活 30 亿参数,主打跑得快、成本低。模型权重、代码和演示都放出来了,不过报告里没给具体 benchmark 对比,实际效...
#Multimodal#Vision#Fine-tuning#SenseTime
精选理由
我会先打个折:这是厂商自己发的技术报告,正文没给基准分数、开源协议和复现细节,所以别当第三方评测看。亮点在于把训练全流程讲清楚了——从数据配比、六阶段课程到 RL 后训练和蒸馏,每一步都给了操作说明。A3B-MoT 用 MoE 把激活参数压到 30 亿,推理时确实省钱,但报告没披露总参数量、专家数这些关键数字,也没说开源权重什么时候放出来。这点先别太激动,等代码和权重落地再判断。
一句话点评
商汤发了SenseNova-U1的技术报告并开源了模型权重,用MoE架构做原生多模态,但正文没披露具体性能基准和参数量,这点先别太激动。
锐评
商汤把SenseNova-U1的技术报告和模型权重都放出来了,核心卖点是原生多模态加MoE(混合专家)架构。MoE的好处是推理时只激活部分参数,理论上能省算力,但报告里没写总参数量和激活参数量,也没给具体的多模态基准测试分数,所以省不省钱、效果好不好都还不好判断。 目前能看到的信息来自两个标题,正文是空的,所以关键细节全缺:训练数据规模、支持哪些模态组合、开源协议是什么、有没有对齐人类偏好的后训练步骤。这些直接决定模型能不能用、好不好用。 建议等完整报告出来再看,重点关注多模态理解任务的横向对比,以及MoE路由策略是否稳定。如果只是把已有技术路线复现一遍,那开源的价值主要在工程参考,而不是能力突破。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
05:26
31d ago
AI HOT 精选· aihot-apiZH05:26 · 05·13
AI技能更新:新增可交互地图组件,支持缩放拖拽和AI标记
Skills功能更新后,AI可以生成带地图的版式和地图组件,支持缩放、拖动等交互操作,还能在地图上任意打标记。正文没披露这个功能支持哪个平台、怎么调用、以及版本号。
#Tools#Product update
精选理由
只有K通过:帖子给出了具体的地图交互能力,但没提平台、API路径或版本号。这是一个小产品更新,所以留在all以下,不上精选。
一句话点评
AI 技能更新加了地图组件,能缩放、拖动、打标记,适合做位置相关的交互展示。但正文没说是哪个平台、怎么调用、版本号多少,目前只能当个功能预告看。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K1·R0
04:35
31d ago
AI HOT 精选· aihot-apiZH04:35 · 05·13
oMLX 新版让苹果本地跑多模态更快,显存压力也小了
oMLX 更新到 0.3.9.dev2,主要加了三个东西:Gemma 4 的 MTP 视觉路径(让模型看图更准)、DFlash 引擎(加速推理)、ParoQuant(量化压缩,省显存)。还支持一键启动 copilot 接 Claude 这类工具,以及 oQ 自动代理来缓解显存瓶颈。作者说图文处理速度变快、显存占用更低,但没给具体跑分或延迟对比,所以实际...
#Vision#Multimodal#Inference-opt#oMLX
精选理由
这是一条oMLX小版本更新的产品动态,核心信息是集成了几个新组件(视觉路径、推理引擎、量化工具),并加了copilot和自动代理功能。标题的'直逼云端'有点夸张,正文没披露具体延迟或精度对比,所以钩子要打折。但K和R是扎实的:技术名词都给了,且本地推理对成本、隐私、离线场景确实有吸引力。单来源、小众工具,评分68合理,不升不降。
一句话点评
oMLX 0.3.9.dev2 让苹果端侧跑多模态模型更快、更省显存,新增 Gemma 4 视觉路径、DFlash 推理引擎和 ParoQuant 量化压缩。还支持一键启动 copilot 接 Claude,以及 oQ 自动代理缓解显存瓶颈。作者说图文处理变快、显存占用更低,但没给具体跑分或延迟对比,所以实际提升幅度要自己测。对想在 Mac 上本地跑多模态模型的人来说,这版值得试,但别直接信...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
03:27
31d ago
AI HOT 精选· aihot-apiZH03:27 · 05·13
腾讯混元Hy3预览版上线GMI云,自称最强开源模型
腾讯混元在X上宣布Hy3预览版已登陆GMI Cloud,并称其为最强开源模型。但正文没披露参数量、跑分、定价或使用门槛,所以这个“最强”目前只能当宣传口号看,等具体数据出来再判断。
#Tencent Hunyuan#GMI Cloud#Hy3#Product update
精选理由
硬排除规则:云厂商促销+纯营销。唯一事实是Hy3预览版在GMI Cloud可用,参数、跑分、价格全无。HKR三项全不满足,重要性上限40。
一句话点评
腾讯混元说 Hy3 预览版上了 GMI Cloud,号称“最强开源模型”。但正文没给参数量、跑分、定价或使用门槛,这个“最强”目前只能当宣传口号看。等具体数据出来再判断。
HKR 分解
hook knowledge resonance
打开信源
32
SCORE
H0·K0·R0
03:15
31d ago
AI HOT 精选· aihot-apiZH03:15 · 05·13
百度李彦宏提新指标:日活跃智能体数(DAA)
李彦宏提议用日活跃智能体数(DAA)衡量智能体时代,类比移动互联网的DAU。他认为令牌消耗只反映成本,DAA更能体现产出价值。但正文没披露怎么统计、时间窗口多长,也没给出任何具体数值,所以这个指标目前还只是个概念。
#Agent#Baidu#Robin#Commentary
精选理由
Robin提的DAA(日活跃智能体数)是个好传播的概念,类比DAU让圈内人秒懂他想说什么。但正文没披露统计口径、时间窗口和具体数值,所以这条只能当轻评论看,不能当实证分析用。H和R两条都成立:概念有话题性,也切中行业痛点。K不成立是因为信息缺口太大,没法验证。
一句话点评
李彦宏提议用日活跃智能体数(DAA)替代令牌消耗来衡量智能体时代,类比移动互联网的DAU。想法不错,但正文没披露怎么统计、时间窗口多长,也没给任何具体数值,目前只是个概念。短评:指标方向对,但没数据没方法,先别太激动。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
03:07
31d ago
AI HOT 精选· aihot-apiZH03:07 · 05·13
Codex 更新了应用内浏览器,支持多视口测试和截图核查
Codex 这次更新主要给应用内浏览器加了多视口测试功能,你可以切换不同屏幕尺寸测应用,还能在断点处点按验证。长测试会在关键节点自动截图,方便你回头检查。如果嫌测试慢,可以隐藏浏览器来禁用动画,速度能快1-2倍。另外标注功能也优化了,发送更快、消耗更少 tokens。整体看下来,对做 UI 测试的人来说挺实用,尤其是多视口和截图核查能省不少手动检查的功夫。
#Agent#Code#Tools#Codex
精选理由
这是Codex工作流的一次小到中型更新,有具体机制和1-2倍速度提升的声称,但看起来只是一篇单一发布说明,影响范围比模型或Agent发布要窄。HKR的K和R通过,H不通过,所以落在60-71分区间。
一句话点评
Codex 给浏览器加了多视口测试,能切屏幕尺寸、在断点处点按验证,长测试还会自动截图。隐藏浏览器能禁用动画,速度提升1-2倍。标注也优化了,发送更快、耗 tokens 更少。对 UI 测试挺实用,但正文没披露截图精度和标注节省的具体比例。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R1
02:38
31d ago
AI HOT 精选· aihot-apiZH02:38 · 05·13
BenchLoop:给本地大模型跑分,一键出排行榜
BenchLoop 是一个给本地大模型做标准化测试的工具。你拉个模型下来,跑一下,它就能给出质量、速度和可靠性的综合评分,还支持对比不同提示格式(比如原生模式和 Hermes 模式)的表现。结果可以自动发到公开排行榜上,方便横向比较。说白了就是帮你省掉自己搭测试流程的麻烦,直接看哪个模型在本地跑得又快又好。不过正文没披露它具体用了哪些测试集、评分权重怎...
#Benchmarking#Inference-opt#BenchLoop#Hermes
精选理由
工具本身有用但信息太薄:没披露测试集是什么、评分公式怎么算、也没给任何实测样本结果。HKR三项都勉强够到门槛,但每个都缺关键细节支撑,所以落在60–71区间。
一句话点评
BenchLoop 是个给本地大模型跑分的工具,拉下来一键测质量、速度和可靠性,还能对比不同提示格式(比如原生 vs Hermes 模式),结果自动上排行榜。省了你自己搭测试流程的麻烦。但正文没披露具体用了哪些测试集、评分权重怎么定,排行榜的权威性得打个问号。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
01:26
31d ago
AI HOT 精选· aihot-apiZH01:26 · 05·13
阿里云 Qwen 3.6 Plus 限免,主打“智能体原生”
阿里云宣布 Qwen 3.6 Plus 在 Nous Portal 上限时免费,并称其为“AI 未来原生智能体”。合作方是 Hermes Agent 和 NousResearch 社区。正文没披露免费期多久、模型参数量、免费结束后定价多少、以及使用有无限制。
#Agent#Alibaba Cloud#NousResearch#Hermes Agent
精选理由
硬排除理由:纯营销/云厂商推广。唯一事实是 Qwen 3.6 Plus 在 Nous Portal 限时免费,没披露限免时长、模型参数或 API 调用条件。成本相关性让它勉强没掉到最低档。
一句话点评
阿里云把 Qwen 3.6 Plus 放到 Nous Portal 上限免,合作方是 Hermes Agent 和 NousResearch 社区。正文没披露免费期多久、模型参数量、免费结束后定价多少、以及使用有无限制。短评:限免拉新,但关键信息全缺,先别激动。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H1·K0·R1
00:29
31d ago
AI HOT 精选· aihot-apiZH00:29 · 05·13
Telegram 里点几下就能跑 AI 智能体,不用注册也不用花钱
Browser Use 新项目 BuxFather,直接在 Telegram 里启动 AI agent,点几下就给一个完整电脑加浏览器环境,24/7 自己跑还能自己改进。关键是不需要注册、不需要付费,对重度 Telegram 用户来说很方便。正文没披露具体能跑什么任务、有没有使用限制,但即开即用这个思路挺省事。
#Agent#Tools#Browser Use#BuxFather
精选理由
这是一个低摩擦 agent 上手的实际产品更新,H/K/R 都够。但来源单一,正文没披露性能、限制、定价边界或采用情况,所以分数压在 60–71 区间。
一句话点评
Browser Use 搞了个 BuxFather,在 Telegram 里点几下就能启动一个带浏览器的完整电脑环境,AI agent 24/7 自己跑还能自我改进。关键是不用注册、不用付费,对重度 Telegram 用户来说确实方便。但正文没披露具体能跑什么任务、有没有使用限制,这点先别太激动。即开即用这个思路挺省事,但实际能干啥还得看后续。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
00:00
31d ago
AI HOT 精选· aihot-apiZH00:00 · 05·13
每天121封邮件,AI帮你筛到只剩6封
风投人Tom Tunguz预测,五年内没人会一天打开五次Gmail。现在知识工作者日均收121封邮件,相当于工作时段每4分钟一封。AI处理方案用自然语言规则+个人邮件历史做上下文,敏感数据走本地模型,收据自动转发报销、销售线索自动进CRM并生成草稿。最终收件箱消失,只剩真正重要的6条消息。正文没披露具体产品名或实测延迟,但思路很直接:把邮件处理从手动分...
#Agent#Tools#Memory#Tom Tunguz
精选理由
H/K/R三项都过,但这是一篇生产力评论,不是产品发布或研究论文,没有可复现的设置或新成果,所以落在60-71分区间。
一句话点评
风投人Tom Tunguz预测五年内没人一天开五次Gmail。现在知识工作者日均收121封邮件,相当于工作时段每4分钟一封。AI方案用自然语言写规则+个人邮件历史做上下文,敏感数据走本地模型,收据自动转发报销、销售线索自动进CRM并生成草稿。最终收件箱消失,只剩6条真正重要的消息。正文没披露具体产品名或实测延迟,但思路很直接:把邮件处理从手动分拣变成个人AI助理。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1

更多

频道

后台