llm-anthropic 0.25.1 发布:支持 Claude Opus 4.8,默认输出长度不再卡 8192
Simon Willison 的 LLM 命令行工具更新了 Anthropic 插件,主要三件事:新增 Claude Opus 4.8 模型;给开通了 fast mode 的企业用户加了个 `-o fast 1` 参数,能更快出结果;默认 max_tokens 从固定的 8192 改成每个模型自己的最大输出长度——之前 8192 会截断长回复,现在不用...
OpenRouter 上线模型对比页,可视化 GPT-5.5 和 Claude Opus 4.7/4.8 表现
OpenRouter 推出了一个模型对比页面,能直接可视化 GPT-5.5、Claude Opus 4.7 和 Claude Opus 4.8 的性能差异。正文没披露具体用了哪些指标维度、怎么打分的,所以这个页面更像一个快速看板,帮你直观感受模型间的相对强弱,而不是严谨的评测报告。
#Benchmarking#OpenRouter#OpenAI#Anthropic
精选理由
OpenRouter 上线了一个模型对比页面,把 GPT-5.5、Claude Opus 4.7 和 4.8 放在一起可视化。但正文没交代用了什么指标、权重怎么设、分数怎么算,等于只给了个空壳。对从业者来说,知道有这个页面就够了,但别急着拿它做选型依据——信息不全,验证不了。
一句话点评
OpenRouter 搞了个模型对比页面,把 GPT-5.5、Claude Opus 4.7 和 4.8 放一起可视化。好处是直观,不用自己翻基准分。但正文没交代用了哪些指标、怎么打分的,所以更像快速看板而非严谨评测。短评:直观对比 GPT-5.5 和 Claude Opus 4.7/4.8,但评分方法未公开,当看板用就好。
Google 发布图像模型 Nano Banana Pro 和 Nano Banana 2 接入 Gemini API
Google AI 开发者账号官宣了两个图像模型:Nano Banana Pro(代号 gemini-3-pro-image)和 Nano Banana 2(代号 gemini-3.1-flash-image),现在就能通过 Gemini API 调用,直接上生产环境。帖子贴了一些社区示例展示效果,但正文没披露定价、跑分、并发限制这些关键信息,想评估成...
#Vision#Multimodal#Google AI Developers#Gemini
精选理由
Google 这次一口气发了两个图像模型,Nano Banana Pro 和 Nano Banana 2,都走 Gemini API,直接面向生产环境。标题和摘要只给了名字和可用性,没提性能对比、价格、安全机制,所以没法判断实际强不强。我会先打个折,不往 p1 放,但作为产品动态值得让关注图像生成和多模态的人知道。
一句话点评
Google 把两款新图像模型 Nano Banana Pro 和 Nano Banana 2 接入了 Gemini API,但正文没披露具体性能数据和对比基准。
锐评
Google 这次发布的是两个图像模型,名字叫 Nano Banana Pro 和 Nano Banana 2,已经可以通过 Gemini API 调用。从命名看,Pro 版大概率是性能更强的版本,2 代可能是迭代升级。但这条消息目前只有标题,正文是空的,所以没法判断具体强在哪、快多少、成本怎么算。我会先打个折:接入 API 意味着开发者能直接用了,这是好事,但没看到任何 benchmark 或延迟数据之前,别急着下结论说它比现有方案好。如果你在选图像模型,建议等官方放出技术细节或第三方评测再对比。
微软研究院开源了 Data Formulator,一个面向企业数据工作流的 AI 分析工具。它把原始数据导入一个 AI 就绪的工作空间,用户可以用 AI 智能体(相当于一个会干活的助手)来探索、分析和可视化数据,把表格变成可操作的洞察。正文没披露定价、部署方式以及数据如何连接到系统,所以实际落地成本和安全验证还不清楚。
商汤发布了升级版信息图生成模型 SenseNova-U1-8B-MoT-Infographic,参数规模8B。官方称在四个方向做了优化:文字准确性和可读性提升,减少重复和不当放大;布局更一致、背景更稳定;图表和示意图质量提高;新增学术内容渲染支持。推文附了 Hugging Face 模型页和演示链接。正文没披露训练数据量或推理速度,实际效果得跑过才知道。
Mistral AI 把数据喂入、检索和效果评估打包成一个开源框架,叫 Search Toolkit,现在开放公共预览。我会先打个折:这不算大新闻,但信息量够。它支持云端、本地和边缘部署,意味着你可以在自己机器上跑,不用被绑在某个云上。正文没披露具体性能对比和延迟数据,所以别太激动,但开源加评估环节这点对想自己搭资料库的团队挺实用。
Mistral 整合了 Emmi AI 团队,发布了一个面向工业工程的物理 AI 基础模型。它能根据几何结构、边界条件或测量数据,在单张 GPU 上用几秒钟预测出完整的物理场(比如温度、应力分布)。正文没披露具体架构、参数量、训练数据规模和实测误差范围,也没给出跟传统数值仿真在精度和速度上的量化对比,所以实际工程可用性还得看后续验证。
#Robotics#Inference-opt#Tools#Mistral AI
精选理由
Mistral 这次没发新聊天模型,而是直接拿下一个物理 AI 团队,做工业仿真。我会先打个折:正文没披露具体模型名、基准测试、定价和开放方式,所以没法判断它比现有求解器到底准不准、省多少。但方向本身值得关注——如果单 GPU 秒级出完整物理场是真的,对西门子能源这类重工业客户来说,仿真迭代速度会快很多,成本也可能降一截。这点先别太激动,等他们放出可复现的结果再说。
一句话点评
Mistral 开始做物理 AI 了,单卡几秒出温度、应力场,听着很省钱,但正文没给精度对比,先当 demo 看。
锐评
Mistral 收购 Emmi AI 后发了第一个物理 AI 模型,定位是给工业工程师用的基础模型。它能根据几何结构、边界条件或实测数据,在单张 GPU 上几秒钟预测出完整的物理场,比如温度分布和应力分布。这个速度对需要快速迭代的设计阶段确实有吸引力,相当于把传统仿真软件几小时甚至几天的活压缩到秒级。
但正文没披露最关键的东西:跟传统数值仿真比,误差到底多少。也没说模型参数量、训练数据规模和覆盖的物理场景范围。只提了跟西门子能源有合作,没给任何量化验证结果。工业场景对精度要求极高,差 5% 可能整个设计方案就废了,所以“快”不能替代“准”。
另外,模型是直接从几何和边界条件预测物理场,跳过了传统求解偏微分方程的过程。这种端到端思路在学术界有不少探索,但工程落地最大的坑是泛化能力——换个没见过的几何形状,预测会不会崩,正文完全没提。建议等他们放出 benchmark 或第三方评测再判断实际可用性。
Mistral 在 AI Now 峰会上公布工业 AI 路线图,Vibe 升级,并在巴黎郊区建推理数据中心
Mistral 在自家峰会上主要说了三件事。第一,他们和空客、宝马、ASML 合作搞工业 AI,让模型进到设计、制造这类业务流程里干活,但具体怎么落地、效果如何正文没细讲。第二,Vibe 这个能处理长周期任务的 AI 助手迎来升级,具体能力变化也没展开。第三,他们要在巴黎南边的 Les Ulis 建一个 10 兆瓦的推理数据中心,计划 2026 年第三...
#Agent#Reasoning#Inference-opt#Mistral AI
精选理由
我会先打个折:这次没发新模型能力,也没给定价细节,所以重要性卡在 featured 门槛上。但 Mistral 把数据中心规格(10 MW)和时间表(2026 Q3)都摊出来了,还绑定了空客、宝马、ASML 这些实打实的工业客户,比纯概念发布实在。正文没披露推理成本的具体数字,这点先别太激动。整体看,对做工业 AI 和关注欧洲算力布局的人值得扫一眼。
HKR 三项全中:DeepSeek 拿完约 500 亿美元融资就申请科创板 IPO,等于把中国大模型公司的身价直接摆到二级市场。消息来自参与本轮的一位基金经理,不是空穴来风,但正文没披露正式申请文件或更多交叉验证,所以可信度先打个折。这件事对行业的意义在于,它可能给国内 AI 公司的估值和退出路径提供一个真实参照,也会让中美 AI 竞争的讨论更具体。
可灵AI将在5月29日加州卡尔弗剧院举办的AI on the Lot社区日上,展示20部由Prompt Club创作者制作的原创AI短片,全部是原生4K分辨率。这算是AI视频生成领域少见的“真4K”展示——之前很多AI短片都是后期拉伸或超分上去的,原生4K意味着生成模型本身就能输出高分辨率画面,对算力和模型细节要求更高。不过正文没披露这些短片是纯AI生...
MuleRun 把自己包装成一个“全天候 AI 劳动力”,挂在阿里云市场上卖,个人版每月20美元起。能干的事包括研究、写报告、写代码、做设计。企业版加了 SSO 单点登录、RBAC 权限控制、私有网络、团队知识管理和集成。正文没披露模型基座、任务成功率或延迟数据,所以“劳动力”这个说法先打个折——更像是一个封装好的 AI 代理服务,适合小团队快速试用,...
MuleRun 在阿里云市场上架了一个“全天候 AI 劳动力”,个人版每月 20 美元起,号称能干研究、写报告、写代码、设计。企业版加了 SSO、RBAC、私有网络和团队知识管理。但正文没披露模型基座、任务成功率或延迟数据,所以“劳动力”这个说法先打个折——更像是一个封装好的 AI 代理服务,适合小团队快速试用,但离替代真人还差不少验证。
Lemonade 的安全负责人 Jonathan Jaffe 聊了聊当攻防双方都用上 AI 后,安全团队该怎么变。他提到一个终端上可能同时跑着 200 到 10000 个智能体,现在的身份和权限管理系统根本管不过来,必须给每个智能体一个独立身份,并在它执行动作时直接卡控策略。另外,AI 写的代码漏洞虽多,但修得也快,软件反而可能更皮实。安全团队本身也在...
#Agent#Code#Safety#Lemonade
精选理由
这篇是活动评论,不是产品发布或研究论文,但终端智能体数量和身份管控模型这两个信息点很实在,对正在头疼智能体安全的团队有参考价值,放在 featured 里合适。
一句话点评
Lemonade 安全负责人说,一个终端上可能同时跑着 200 到 10000 个 AI 智能体,现在的权限系统根本管不过来,得给每个智能体发独立身份证并在它动手时直接卡策略。
锐评
Jonathan Jaffe 的核心判断很直接:攻防双方都用上 AI 后,防守方反而可能占优,因为所有安全厂商都在同时给产品打补丁、做加固,漏洞窗口期在缩短。他举了个反直觉的例子——AI 写的代码漏洞多,但修得也快,软件整体反而可能更皮实。这个逻辑成立的前提是“修得比攻得快”,但正文没给出任何修复速度对比数据,这点先别太激动。
真正值得关注的是他对身份系统的警告。一个终端跑 200 到 10000 个智能体,每个都要独立身份并在执行动作时实时卡控策略,现在的 IAM 系统确实做不到。Lemonade 的做法是把安全团队全转成工程师,自建平台用智能体管智能体,比如一个智能体读威胁情报,另一个去查生产代码里是否真调用了漏洞方法。这思路务实,但正文没披露这套自研平台的误报率、延迟和覆盖范围,也没说清策略冲突时怎么仲裁。
还缺一块:攻击方用 AI 自动化后,攻击成本降到多低、频率提到多高,文章完全没提。没有攻方的数字,就很难判断防守方的“自动化”到底够不够用。