16:43
48d ago
FEATUREDNVIDIA 博客· rssEN16:43 · 03·10
开放模型升温,NVIDIA Jetson 把生成式 AI 带到边缘设备
NVIDIA 展示 Jetson 在边缘设备本地运行开源模型,覆盖 2B 到 30B 参数,并给出多项延迟与吞吐数据。文中列出 Qwen3 4B 通过 vLLM 本地运行、SONIC 规划器单次约 12 毫秒且策略环 50Hz、Mistral 3 在 Jetson Thor 达 52 tok/s 与并发 8 时 273 tok/s。真正值得盯的是本地推理条件:零 API 成本、无云链路、数据留在设备;Jetson Thor 的具体价格与功耗正文未披露。
#Agent#Robotics#Inference-opt#NVIDIA
精选理由
HKR-K 明确成立:文章给出 Jetson 运行 2B 到 30B 开源模型的吞吐与控制环数据。HKR-R 也成立,但这是 NVIDIA 自家产品展示,标题偏宣传,Jetson Thor 的价格、功耗和完整测试条件正文未披露,所以停在 all。
编辑点评
NVIDIA 这篇在卖一个默认答案:工业设备做生成式 AI,先上 Jetson,再谈模型。
深度解读
NVIDIA 把 Jetson Thor 绑到 2B 至 30B 开源模型上,这篇稿子的重点不是跑分,而是在抢边缘推理的默认采购口径。
我对这条的判断很直接。它不是一篇单纯的产品更新。它更像一篇渠道教育稿。NVIDIA 想先把“本地跑模型”这件事,和 Jetson 这个模组名直接绑定。文章里给了几组能落地的数字。SONIC 规划器单次约 12 毫秒。策略环 50Hz。Mistral 3 在 Jetson Thor 上单路 52 tok/s,并发 8 时 273 tok/s。Qwen3 4B 通过 vLLM 本地运行。对机器人、工业座舱、私有助手,这些数字已经够让采购团队继续聊下去。
但我不太买账的是,这篇把“零 API 成本”讲得太轻松。API 成本确实归零了,硬件成本、电源、散热、维护、模型更新、现场验证,一个都没消失。正文没披露 Jetson Thor 的价格。正文也没披露功耗。没有这两个数,很多经济性判断都站不稳。52 tok/s 听着不错,可如果代价是高 BOM、高散热设计和受限供货,那它是工业方案,不是普适方案。
这里还有个行业背景,文章没说,但从业者都知道。过去一年,本地推理的门槛已经被 llama.cpp、Ollama、vLLM 这类工具打下来了。Jetson 的价值,不在“能本地跑”这四个字本身。现在连高端手机、AI PC、Qualcomm 的边缘平台都在讲本地模型。Jetson 想守住的位置,是更硬的那层:传感器接入、实时控制、CUDA 生态、机器人软件栈、再加上开发套件的一致性。换句话讲,NVIDIA 要卖的是部署摩擦更低,不是模型本身更开源。
我还想补一个对比。工业边缘这条线,过去很多厂商都试过从云往下压。AWS 有 Greengrass,Microsoft 也长期讲 Azure IoT,Qualcomm 在机器人和工业终端也铺了很多年。它们的问题很像:模型能跑,不等于集成商愿意改硬件和软件栈。Jetson 这些年能站住,一个关键原因是它把模组、SDK、加速库、参考设计捆成了一包。NVIDIA 这次继续强调 system-on-module 和供货验证,其实是在打集成商最怕的那部分,不是在打纯模型能力。
文章里最让我警觉的,是 benchmark 口径仍然偏宣传。Mistral 3 的 52 tok/s 和 273 tok/s,看着很顺,但没有模型精度设定,没有量化方式,没有上下文长度,没有首 token 延迟。并发 8 的吞吐数字,对交互型应用帮助有限;很多现场系统更在意 p95 延迟,或者语音轮次的端到端时间。SONIC 的 12 毫秒也好看,可那是规划器,不是完整感知到动作闭环。FR3 Duo 那段说“端到端机载、无任务脚本”,很抓眼球,可正文没给任务成功率、失败恢复、连续运行时长。
我自己觉得,这篇最有信息量的地方反而是它反复把开源模型和 Jetson 绑定。Gemma、Qwen、Mistral、gpt-oss-20B 都被拉进来,意思很明确:NVIDIA 不想押单一基础模型赢家,它要做模型切换层的硬件默认项。这个策略和 2024 年那波 AI PC 厂商很不一样。后者多数在卖 NPU TOPS,数字很好看,真实开发体验很碎。Jetson 这边的叙事成熟得多:你不需要赌哪家模型赢,你只要先把设备端算力座位买下来。
我还有一个疑虑。文章把“本地、私有、无云链路”讲成了边缘 AI 的天然答案,但很多企业现场最后还是混合架构。语音前端、控制环、缓存检索放设备侧。大模型升级、监控、长程规划和审计放云侧。纯本地不是没有市场,问题是它常常只覆盖工作流的一半。NVIDIA 当然知道这点,所以这篇更像是在抢第一跳入口。先把设备端算力吃下,后面的 Omniverse、Isaac、云侧训练和仿真,自然有机会继续卖。
所以我看这条,不会先盯“Jetson 能不能跑开源模型”。这个问题已经回答完了。我更在意三件事。Jetson Thor 量产价是多少。满载功耗是多少。客户把它装进真实设备后,六个月内的故障率和维护成本是多少。前两项正文没披露,后一项短期也不会有。没有这些数,这篇还是一篇很强的销售前置文案,不是完整的边缘经济学证明。
HKR 分解
hook —knowledge ✓resonance ✓
76
SCORE
H0·K1·R1