Claude 的自动模式现在 Pro 计划也能用了,不再是最贵那一档的专属。这次更新还接入了 Sonnet 4.6 和 Opus 4.7 两个模型,按 Shift+Tab 就能让 Claude 自己跑任务。正文没提价格有没有变,也没说是不是全量推送,这点先别太激动。
#Agent#Tools#Claude#Anthropic
精选理由
这是一次中等体量的产品更新,不是新模型或重大能力发布。自动模式进 Pro 计划,配上两个模型和快捷键,对日常靠 Claude 干活的开发者有实际影响,但还没到需要全行业关注的程度。
一句话点评
Claude 自动模式下放到 Pro 计划,还接入了 Sonnet 4.6 和 Opus 4.7,按 Shift+Tab 就能跑任务。但正文没提价格和推送范围,先别急着升级。
锐评
这次更新把自动模式从最贵档位拉到了 Pro 计划,门槛降了不少。之前只有 Max 用户能用,现在更多人可以让 Claude 自己跑任务,按 Shift+Tab 就启动。模型方面给了两个选择:Sonnet 4.6 和 Opus 4.7,前者快,后者强,看你要速度还是要质量。
但正文没写 Pro 计划的价格有没有跟着变,也没说是不是全量推送、有没有调用次数限制。自动模式跑起来消耗的 token 通常比手动对话多,如果 Pro 的额度没调,实际能用多久是个问题。另外 Opus 4.7 在自动模式下的表现和手动模式有没有差距,也没给数据。
还缺的是:Pro 用户每月能用多少次自动模式、单次任务有没有步数上限、两个模型在自动模式下的成功率和延迟对比。这些没公布之前,只能说门槛低了,但划不划算还得自己试。
彭博发了一篇报道,说 AI 板块的持续上涨让市场收益高度集中在少数几只股票上,导致那些靠选股吃饭的主动基金经理很难跑赢大盘。文章提到 AI 热潮正在扭曲市场信号,让人类投资者屡屡受挫。不过正文没有披露具体样本数量、管理资产规模、业绩对比数据或统计时间段,所以这个“被套住”到底有多普遍、多严重,目前只能当个现象描述来看,先别急着下结论。
拍张表单照片,用嘴说填什么,ChatGPT 就能吐出填好的版本。这功能把语音和视觉串起来了,省了打字和手写。但正文没提支持哪些格式、哪些语言、要不要额外付费、以及什么时候上线。如果是免费且支持中文,日常填表确实方便;要是只限英文 PDF 或 Plus 用户独享,那实用性就大打折扣。等具体上线范围和定价出来再判断值不值得激动。
H 和 R 通过:AI 参与 Linux 音频修复值得聊。K 不通过:缺补丁数、模型名、工作流,且内核维护这个角度太窄,受众有限。
一句话点评
Linux 7.1 音频子系统的修复补丁里,不少标注了“assisted-by”,来自 Claude Code 和 GPT-5.5。维护者说大部分是小问题,比如中断处理、UAF 漏洞和笔记本声卡 quirks。但正文没披露具体补丁数量,也没说 AI 贡献占比。真正该担心的是 review 负担——AI 写补丁快,但人工审核跟不上,质量风险就堆在那了。
KanBots 把看板每张卡片变成一个独立工作区,并行跑 Claude Code 或 Codex 代理,还能开“自动驾驶”让产品经理、工程师等角色自动拆任务、互相检查。所有数据存在本地 SQLite,代码不出机器,这点对隐私敏感团队友好。开源 MIT 许可,免费,也有付费云版。但正文没披露并行代理的调度机制、任务冲突怎么处理,也没说支持多少卡片同时跑、延迟如何。如果只是简单轮询,大规模并行可...
Kakuna 是一个 AI 代理工具,专门把早期快速原型转成可维护的生产级代码库。它内置检查清单和“先定计划再执行”的工作流,模拟人类开发与运维的流程,在不动功能的前提下自动做代码审查、补测试、重构这些“无聊活”。工具强调用多个子代理并行干活来提效,一次大约 16 小时的运行能生成上百次提交,把一个脆弱的 MVP 变成结构清晰、能长期迭代的稳定项目。正...
#Agent#Code#Tools#Kakuna
精选理由
Kakuna 这个工具让代理按内置检查清单和“计划-目标”流程自动加固代码,一次约16小时能跑出上百次提交。我会先打个折——单条推文来源、非大厂出品,验证强度有限,但信息量够:工作流机制、运行时长、产出规模都给了具体数字,不是画饼。对正在折腾原型转生产的开发者来说,这种“代理帮你擦屁股”的思路有参考价值,所以放在 featured 档。
谷歌这次发布的不是单个模型,而是一条让 AI 代理(能自主干活的程序)落地的工具链。Antigravity 2.0 是个独立桌面应用,配了命令行工具和 SDK,方便开发者直接在本机跑代理。Google AI Studio 新增 Kotlin 支持,号称能一键生成安卓应用并发布,还出了手机版 App。Gemini API 里加了托管代理服务,部署步骤简化...
MatX 的 CEO Reiner Pope 从最底层的与、或、非逻辑门讲起,一步步拆解 AI 芯片到底怎么工作。他先用一个 4 比特乘 4 比特、再用 8 比特累加的例子,演示了乘法累加(MAC)运算在电路里长什么样——这其实就是矩阵乘法的基本动作,AI 芯片绝大部分时间都在干这个。接着聊到数据搬运比计算还贵,所以芯片里要用多路复用器(mux)来省连...
#Inference-opt#Reiner Pope#MatX#Dwarkesh Patel
精选理由
Dwarkesh 这次访谈没讲空话,Reiner Pope 从最底层的门电路开始,一步步解释怎么为 AI 推理专门设计芯片。我会先打个折:这不是产品发布或行业爆料,更像一堂硬核科普,所以分数不会给到新闻级。但内容密度很高,把脉动阵列、数据流和 ASIC 的取舍都讲透了,对做推理优化的人有实际参考价值。正文没披露 MatX 芯片的具体性能指标,这点先别太激动。
Google 在 I/O 大会上给了一小段上手时间,试的是带显示功能的 Android XR 眼镜,不是今年秋天只出声的那款。镜片上能直接叠一层信息,比如天气、步行导航、打车详情和实时翻译,还能用 AI 自己捏小组件。眼镜会同时支持 iPhone 和安卓手机。但正文没提价格、什么时候开卖、续航和具体硬件参数,所以现在只能算工程机阶段,别急着掏钱。
#Multimodal#Vision#Google#Gemini
精选理由
我会先打个折:正文没披露价格、上市时间和续航,所以重要性停在 74 分、放在 featured 低位是合理的。但 TechCrunch 的实际上手测试本身就比通稿有说服力,Gemini 把翻译和导航叠进视野这个机制,是把 AI 从“问一句答一句”推到“你看着世界它帮你理解”的关键一步。对从业者来说,这比又一个聊天机器人更新更值得盯。
一句话点评
上手感觉不错,但别急着掏钱:价格、续航、开卖时间全没公布,现在就是个工程机。
锐评
Google 这次在 I/O 大会上拿出来的 AI 眼镜,是带显示功能的 Android XR 版本,不是今年秋天只出声的那款。镜片上能直接叠一层信息,比如天气、步行导航、打车详情和实时翻译,还能用 AI 自己捏小组件。眼镜会同时支持 iPhone 和安卓手机,这点对不想换生态的人挺友好。
但正文只给了很短的上手时间,而且没提价格、什么时候开卖、续航和具体硬件参数。所以现在只能算工程机阶段,离真正能买还差好几步。我会先打个折:功能演示看着顺滑,但没经过日常折腾的验证,比如强光下显示效果、长时间佩戴发热、通知轰炸会不会烦人,这些全不知道。
还缺一个关键信息:Google 打算怎么处理隐私和第三方应用生态。眼镜上一直开着摄像头和麦克风,路人怎么知道你在拍没拍?如果只有 Google 自己的服务好用,那它就是个 Gemini 配件,算不上独立设备。
Atomic Invest CEO David Dindi 在彭博视频里说,投资类App可能十年内就没了——AI助手会直接替你管组合,你连界面都不用打开。这个判断挺狠,但正文没披露具体产品怎么跑(是让模型直接下单还是只给建议),也没说监管怎么看待AI代客理财,更没有用户接受度的数据。所以这点先别太激动,方向有意思,但验证还很弱。
#Agent#Atomic Invest#David Dindi#Bloomberg
精选理由
Bloomberg采访里Atomic Invest CEO David Dindi放了个10年预言:投资App会被AI助手取代。观点够猛,但正文没披露任何产品、数据或实现机制,属于纯评论,所以落在60–71分档。
一句话点评
Atomic Invest CEO 在彭博视频里说,投资类App十年内会消失——AI助手直接替你管组合,连界面都不用打开。方向有意思,但正文没披露产品怎么跑(模型直接下单还是只给建议),也没说监管态度和用户接受度数据。这点先别太激动,验证还很弱。
Project Genie 把谷歌街景的美国地点变成了能走进去玩的交互式世界。听起来像把静态全景图升级成可探索的 3D 场景,但正文只发了一条推文,没披露任何技术细节。
关键信息全缺:支持哪些城市、生成一场景要多久、对用户设备有什么要求、是否收费、开放给普通用户还是仅限内测。没有这些,很难判断是产品落地还是技术 demo。
从 AI 从业者角度看,如果真能把街景数据实时转成可交互环境,对游戏、模拟训练、虚拟旅游都有价值。但街景数据本身是离散的全景图拼接,要生成连续可走的 3D 空间,中间涉及深度估计、场景重建、空洞填补,质量如何完全没提。建议等官方放出实际演示或技术文档再评估。
Dharma-AI 在 Hugging Face 发了篇博文,说现在的大语言模型上线后经常出现文本退化——输出内容来回重复、前言不搭后语或者逻辑崩掉。这种故障直接影响用户体感和模型能不能用,但主流基准测试基本没把这类问题纳入评分。文章呼吁业界在评估体系里加上对文本退化的系统追踪和量化指标,正文没披露具体的指标设计或实验数据。
#Benchmarking#Safety#Dharma-AI#Hugging Face
精选理由
HKR 三项都过了,但这篇帖子只披露了故障模式和基准盲区,没给样本量、具体指标或复现方法,信息密度偏低,放在 featured 里靠下的位置比较合适。
一句话点评
大模型上线后输出变复读机或胡言乱语,主流跑分榜根本不测这个,正文没给具体指标和实验数据。
锐评
Dharma-AI 在 Hugging Face 上指出了一个挺实在的问题:模型在真实环境里会“文本退化”,比如来回重复同一句话、前后逻辑断裂,用户一看就觉得这模型不行。但现在的评测榜单基本不碰这块,大家还在卷数学题和阅读理解,离生产环境差得远。
文章呼吁把退化现象纳入评估体系,但正文没披露他们打算怎么量化——是统计重复 n-gram 比例、测连贯性分数,还是用人工标注?也没给出任何实验数据或案例样本。所以这篇更像一个方向提醒,不是一套可落地的方案。
对做模型部署的团队来说,这个提醒本身有价值:如果你只看榜单选模型,上线后用户投诉“它老说车轱辘话”,那榜单分数再高也没用。但具体怎么测、阈值设多少,还得自己摸索,文章没给现成答案。
《The Verge》报道,今年英联邦短篇小说奖的一篇获奖作品《The Serpent in the Grove》被怀疑是AI写的。作者Jamir Nazir的文章里出现了混合隐喻、排比句和“三点式”列举——这些都是大语言模型生成文本的常见特征。Granta杂志从2012年起刊登该奖的区域得主,但这次没有公布任何验证证据,只靠文本特征判断。正文没披露作...
Google I/O 上,DeepMind 的 Hassabis 一边用“我们正站在奇点的山脚下”这种大词,一边展示的是 WeatherNext 提前预警飓风救了人命。这正好点出了 AI 做科研的两条路线:一条是像 WeatherNext、AlphaFold 这种专为解决某个科学问题训练的专用工具;另一条是让通用大模型像智能体一样自己搞研究。现在资源明...
#Agent#Reasoning#Tools#Google
精选理由
我会先打个折:这篇是 MIT Technology Review 的评论,不是一手技术报告,所以细节有限。但它的判断站得住——Google 把科学 AI 的牌子从 AlphaFold 那套单独炫技,换成 Gemini for Science 这个统一入口,还塞进了 AI Co-Scientist 和 AlphaEvolve 两个组件,并且开放申请。对做 AI 应用的人来说,这比发一篇论文实在,因为能摸到产品了。不过别太激动,正文没披露这套东西的算力成本、实际科研产出对比,也没说普通团队用不用得起,所以目前更像一个方向牌,不是落地手册。
一句话点评
Google I/O 上,Hassabis 一边喊“站在奇点山脚”,一边展示 WeatherNext 提前预警飓风救了人命。口号很响,但实际能打的还是专用工具,通用 AI 科学家还早。
锐评
Google 这次在 I/O 上把科学 AI 的调子拉得很高,Hassabis 甚至用上了“奇点”这种词。但仔细看他们展示的东西,真正落地见效的还是 WeatherNext 这种专为解决某个具体问题训练的模型,比如提前预警飓风登陆,可能真救了人命。这和“通用 AI 自己搞科研”是两条路。
Google 现在明显想把资源往第二条路上引,推出了一个叫 Gemini for Science 的打包方案,里面塞了 AI Co-Scientist 和 AlphaEvolve,还开放申请让外部研究员试用。但文章也说了,像 AlphaFold、WeatherNext 这些老牌专用工具并没有被砍掉,去年还在更新版本,科学家们也还在大量使用。这其实反映出一个尴尬:口号喊得响,但现阶段能出活、能拿诺贝尔奖的,还是专用模型。
文章没给出 Gemini for Science 的具体测试数据或外部验证结果,只说“正在取得实际研究贡献”。这点先别太激动,通用 AI 科学家到底能不能独立产出可靠成果,目前还缺独立复现和同行评审。
404 Media 报道,宾州拉德诺高中一名高一男生花了 250 美元订阅 App Store 里的 Movely 应用,把五名女同学的脸贴到裸体上,生成了 AI 儿童性虐待材料。事情发生在 2025 年 12 月,男生事后用学校发的设备在 Snapchat 上跟朋友说“每一分钱都花得值”,第二天他没去上学,但女生们去了,还发现男生们在替他打掩护。文章...
#Multimodal#Vision#Safety#404 Media
精选理由
404 Media 挖出的这个案子很具体:Radnor 高中 5 名女生被同学用 AI 生成假裸照,涉事新生承认花 250 美元买了 Movely 订阅。正文没提警方后续怎么处理,也没说学校有没有启动调查,这点信息是缺的。但光凭受害者全是未成年人、工具成本明确这两条,就足够让关注 AI 安全的人绷紧神经——这不是模型跑分翻车,是真实世界里已经发生的伤害。
这期主要聊了三家 AI 基础设施公司的融资进展。TurboPuffer 先确认年经常性收入达到 1 亿美元并且已经盈利,这个数字说明做向量数据库的生意可以自己造血了。Exa 完成了 2.5 亿美元的 C 轮融资,估值 22 亿美元,他们做的是 AI 搜索引擎。Modal 融了 3.55 亿美元,估值冲到 47 亿美元,业务是帮开发者更方便地跑模型和部署...
#Agent#RAG#Inference-opt#Latent Space
精选理由
Latent Space 这条汇总把三笔 AI 基础设施融资串在一起,信息密度高。TurboPuffer 做到 1 亿美元年经常性收入并且盈利,说明向量搜索这类基础能力已经有客户愿意持续付费,不是纯烧钱。Exa 拿 2.5 亿美元 C 轮、估值 22 亿美元,Modal 拿 3.55 亿美元 C 轮、估值 47 亿美元,两笔都是大额后期融资,反映资本在往模型训练和推理的底层平台集中。对做 AI 应用的人来说,这些数字能帮你判断下游供应商的稳定性和议价空间。正文没展开各家具体技术指标或客户构成,所以估值背后的溢价逻辑只能看个大概,这点先别太激动。
Meta AI 和港中文的研究者搞了个叫 ATLAS 的方法,核心是在视觉语言模型里塞一个“功能词”(Functional Token),让模型能同时走两条路:一条是显式的、一步步调用工具去操作图像(Agentic 推理),另一条是隐式的、在内部潜空间里直接算(Latent 推理)。他们配套搞了个 ATLAS-178K 数据集,分两阶段训练——先做监督...
#Reasoning#Vision#Multimodal#Meta AI
精选理由
我会先打个折:这是 Meta AI 和港中文联合发的研究,不是产品发布或旗舰模型,所以重要性给到 78 分比较合适。一个 Functional Token 搞定视觉推理这个 hook 确实抓人,正文也给了数据集和训练方法的细节,对做多模态和 agent 的团队有参考价值。但正文没披露实际部署成本或大规模验证结果,这点先别太激动。
一句话点评
Meta 和港中文搞了个 ATLAS,用一个“功能词”让模型同时走两条推理路径,显式调用工具和隐式内部计算,但正文被微信验证页挡住了,具体效果和数字看不到。
Princeton Digital Group的出售流程标志着外资从中国敏感数字基础设施撤退,这笔交易规模约10亿美元。正文没披露买家身份和具体条款,但金额本身说明这是外资在中国数据中心领域的最后一笔大额退出。对AI从业者来说,这意味着国内算力基础设施的资本来源将进一步本土化,外资对数据主权和监管风险的顾虑在加速兑现。
Salesforce 已经“砍掉”了传统界面,销售不用登录网站就能通过 AI 更新交易记录。作者把这种趋势叫做“可塑界面”——AI 能根据你当下在干嘛,动态生成最适合的交互形式,比如开车时给你念邮件摘要、审文案时弹出网页应用、做预算时直接给个带图表的表格。文章引用了 Airbnb CEO 和 Anthropic 工程师的观点,认为纯文本对话不够用,电商...
#Agent#Tools#Multimodal#Salesforce
精选理由
我会先打个折:这篇是软件形态的展望,没有上线时间、用户数据或可复现的测试,所以放在评论类里刚好。正文说 Salesforce 已经用无头架构让销售靠 AI 直接改数据,界面不再写死,而是按场景动态生成 HTML、音频甚至网页。这点先别太激动——正文没披露这套动态生成在 Salesforce 里的实际覆盖范围、延迟和出错率,也没说 MCP 具体怎么接。但思路本身对做 B 端产品的人有用,因为它把“界面”从设计稿变成了模型输出,省不省开发成本另说,至少交互逻辑要重想。
一句话点评
Salesforce 把界面“砍了”,销售不用登录网站就能让 AI 更新交易记录,但文章没给实际落地数据和用户反馈。
锐评
这篇文章提出了一个挺有意思的判断:软件界面不会消失,而是会变成“可塑的”——AI 根据你当下的场景,动态生成最适合的交互形式。比如开车时给你念邮件摘要,审文案时弹出网页应用,做预算时直接给个带图表的表格。作者引用了 Airbnb CEO 和 Anthropic 工程师的观点,认为纯文本对话不够用,电商需要更丰富的界面,工程师也开始用 HTML 替代 Markdown 做输出。
但文章本质上是一篇趋势评论,不是产品报告。它没披露 Salesforce 这套“无头”架构到底有多少客户在用、响应延迟多高、错误率如何,也没说动态生成界面在复杂业务场景下会不会失控。这些数字和验证的缺失,让“可塑界面”目前更像一个方向性判断,而不是马上能搬进产品的方案。
还缺什么:一是实际案例的规模数据,二是动态 UI 的可靠性和一致性怎么保证,三是企业怎么管理这些随时生成又可能消失的界面——总不能每个临时表格都变成新的技术债。