A3B - WWW.VNIRY.CN - WWW.VNIRY.CN

英伟达推出 Nemotron 3 Nano Omni 模型：采用 30B‑A3B 混合 MoE 架构，吞吐量最高提升 9.2 倍

www.ithome.com · 2026-04-29 07:35:02+08:00 · tech

IT之家 4 月 29 日消息，当地时间 4 月 28 日，英伟达宣布推出名为 Nemotron 3 Nano Omni 的开源全模态推理模型，旨在为企业级 AI Agent 提供一体化基础模型底座。据介绍，这是一款将视频、音频、图像和文本的统一多模态推理集成于单个高效开放模型中的产品。该模型旨在替代智能体系统中常见的碎片化视觉-语音-语言模型链，从而减少推理跳数与编排复杂度，降低推理成本，同时增强跨模态上下文一致性。 Nemotron 3 Nano Omni 可在智能体系统中充当多模态感知与上下文子 Agent，使智能体能够在单个共享的“感知-行动”循环中处理视觉、音频和文本输入，提升收敛速度，降低编排复杂度和推理成本。在文档智能榜单（如 MMlongbench-Doc 和 OCRBenchV2）上，该模型取得了同类领先的准确率；同时在视频与音频理解基准（WorldSense、DailyOmni、VoiceBench）中也表现优异。行业基准 MediaPerf（基于真实媒体数据和生成任务评估视频理解模型的性能、成本和吞吐量）显示，Nemotron 3 Nano Omni 在所有任务上实现了最高吞吐量，且视频级标注的推理成本最低。 ▲ 在固定的用户交互阈值下，各模型所能维持的总系统吞吐量该模型基于 30B‑A3B 混合专家（MoE）架构，可根据任务和模态进行激活，实现高吞吐量与可扩展的多模态性能。IT之家注意到，其模型权重、数据集和训练配方完全开放，开发者可在本地、云端或企业环境中定制、部署和集成多模态子 Agent。英伟达表示，在固定交互延迟阈值下，Nemotron 3 Nano Omni 在视频推理任务中可持续提供更高的聚合吞吐量，相比其他开放式全模态模型有效系统容量最高提升约 9.2 倍；在多文档推理任务中，有效系统容量最高提升约 7.4 倍。在 Blackwell GPU 上采用 NVFP4 量化时，该模型在处理复杂文档、长时推理和大批量视频的企业级工作负载中，吞吐量在开放式全模态模型中居于领先。架构设计方面，Nemotron 3 Nano Omni 核心为混合 MoE，结合 Mamba 层（提升序列与内存效率）和 Transformer 层（实现精准推理），内存和计算效率最高可提升 4 倍。视觉处理方面，它采用 3D 卷积捕捉帧间运动，推理时通过高效视频采样层将高密度视觉 token 压缩为 LLM 可处理的精简集合；音频部分则基于 NVIDIA Parakeet 编码器与专用数据集；文本部分以强大的文本模型作为中心解码器，保留基础模型的语言能力；视觉编码采用 C-RADIOv4-H，支持高分辨率图像与 OCR 精度。其训练方法涵盖适配器与编码器训练（约 1270 亿跨模态 token）、多阶段监督微调及后监督强化学习（超过 230 万次环境 rollout）。该模型权重已在 Hugging Face 上提供，并即将作为 NVIDIA NIM 微服务上线。英伟达还开放了完整的端到端训练与评估配方、部署指南、微调食谱以及开放数据集。

阿里开源 Qwen3.6-35B-A3B 模型：主打高效轻量，支持多模态思考

www.ithome.com · 2026-04-20 14:46:49+08:00 · tech

IT之家 4 月 20 日消息，4 月 19 日（昨天）晚间，千问 3.6 系列中等尺寸模型 Qwen3.6-35B-A3B 模型正式开源，仅激活 3B。根据介绍，该模型不但轻量高效，而且在智能体编程方面表现卓越，大幅超越前代模型 Qwen3.5-35B-A3B，并可与 Qwen3.5-27B 和 Gemma4-31B 等稠密模型一较高下。其采用混合专家（MoE）架构，总参数量 350 亿、激活仅 30 亿，在推理过程中，可实现以更低的算力消耗完成更高性能的智能输出。阿里方面称，在考察终端编程的 Terminal-Bench2.0、长程编程任务 NL2Repo、真实世界 Agent 能力评测的 QwenClawBench 等权威基准测试中，Qwen3.6-35B-A3B 的表现均明显优于前一代 Qwen3.5-35B-A3B，以及 Gemma4-26B-A4B、Gemma4-31B 等同类开源模型。新模型还支持多模态思考与非思考模式。多模态推理方面，在 MMBench、RealWorldQA、SimpleVQA 等多项视觉语言基准测试中，新模型表现媲美 Claude-Sonnet-4.5。在空间智能方面，Qwen3.6-35B-A3B 在例如 RefCOCO、ODInW13 等考核模型对复杂图像识别能力的基准测试中，分别取得 92 和 50.8 的成绩。 Qwen3.6-35B-A3B 还实现了 OpenClaw、Qwen Code、Claude Code 等主流 Agent 框架的深度兼容，能够将模型的编程能力、原生多模态能力，更好地赋予各类智能体，完成更长程、更复杂的任务，有望成为本地部署的“智能大脑”。 IT之家附模型调用 / 体验地址如下：魔搭社区： https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B Hugging Face： https://huggingface.co/Qwen/Qwen3.6-35B-A3B Qwen Studio： https://chat.qwen.ai/

阿里千问 Qwen3.6-35B-A3B 开源发布：30 亿激活参数实现顶尖智能体编程能力

www.ithome.com · 2026-04-16 21:51:40+08:00 · tech

IT之家 4 月 16 日消息，继 Qwen3.6-Plus 发布之后，阿里千问大模型今日宣布开源 Qwen3.6-35B-A3B —— 一个稀疏但能力出色的混合专家（MoE）模型，总参数量为 350 亿，激活参数仅 30 亿。官方称，Qwen3.6-35B-A3B 不但轻量高效，而且在智能体编程方面表现卓越，大幅超越前代模型 Qwen3.5-35B-A3B，并可与 Qwen3.5-27B 和 Gemma4-31B 等稠密模型一较高下。该模型依然支持多模态思考与非思考模式，是当前最具通用性的开源模型之一。现在，Qwen3.6-35B-A3B 已在 Qwen Studio 上线，并以开源权重的形式向社区发布。 IT之家附官方详细介绍如下： Qwen3.6-35B-A3B 是一个完全开源的 MoE 模型（总参数 35B / 激活参数 3B），主要特性包括：卓越的智能体编程能力，可与大得多的模型相媲美强大的多模态感知与推理能力您可以在 Qwen Studio 进行交互对话，也将可通过阿里云百炼以 qwen3.6-flash 的名称调用 API，或从 Hugging Face 和 ModelScope 下载模型权重。欢迎体验 Qwen Studio： https://chat.qwen.ai/ ModelScope： https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B Hugging Face： https://huggingface.co/Qwen/Qwen3.6-35B-A3B 模型表现下文将全面展示 Qwen3.6-35B-A3B 与同规模模型在各类任务和模态上的评测对比结果。自然语言仅凭 30 亿激活参数，Qwen3.6-35B-A3B 在多项关键编程基准上超越了 270 亿参数的稠密模型 Qwen3.5-27B，并在智能体编程和推理任务上大幅超越其直接前代 Qwen3.5-35B-A3B。视觉语言 Qwen3.6 原生支持多模态，Qwen3.6-35B-A3B 以仅约 30 亿激活参数，展现出远超其体量的感知与多模态推理能力。在大多数视觉语言基准上，它的表现已与 Claude Sonnet 4.5 持平，甚至在部分任务上实现超越。其在空间智能上的优势尤为突出：RefCOCO 92.0、ODInW13 50.8。开始使用 Qwen3.6-35B-A3B Qwen3.6-35B-A3B 的开源权重已在 Hugging Face 和 ModelScope 上提供，支持本地部署；也即将可通过阿里云百炼 API 以 qwen3.6-flash 的名称调用。此外，您还可以在 Qwen Studio 上即时体验。该模型可以无缝集成到流行的第三方编程助手中，包括 OpenClaw、Claude Code 和 Qwen Code，从而简化开发流程，实现高效且具备上下文感知能力的编码体验。 API 使用方式本次发布支持 preserve_thinking 功能：在消息中保留所有前序轮次的思维内容，推荐用于智能体任务。阿里云百炼阿里云百炼支持行业标准协议，包括兼容 OpenAI 规范的聊天补全（chat completions）和响应（responses）API，以及兼容 Anthropic 的 API 接口。更详细信息请访问我们的技术博客（可通过文末“阅读原文”跳转至博客），及阿里云百炼 API 文档。代码及智能体 Qwen3.6-35B-A3B 具备出色的智能体编程能力，可以无缝集成到流行的第三方编程助手中，包括 OpenClaw、Claude Code 和 Qwen Code。 OpenClaw Qwen3.6-35B-A3B 兼容 OpenClaw（原名 Moltbot / Clawdbot），这是一款可自托管的开源 AI 编码智能体。将其连接至百炼，即可在终端中获得完整的智能体编码体验。 Qwen Code Qwen3.6-35B-A3B 适配 Qwen Code，这是一款专为终端设计的开源 AI 智能体，针对 Qwen 系列进行了深度优化。首次使用时，系统会提示您登录。您可以随时运行 /auth 来切换认证方式。 Claude Code Qwen API 也支持 Anthropic API 协议，这意味着您可以将其与 Claude Code 等工具配合使用，以获得更优质的编码体验。关于 OpenClaw、Qwen Code、Claude Code 等三方编程助手的使用详细脚本，请参考我们的技术博客（可通过文末“阅读原文”跳转至博客）。总结 Qwen3.6-35B-A3B 表明，稀疏 MoE 模型可以实现卓越的智能体编程和推理能力。仅凭 30 亿激活参数，它便能够交付与数倍于其激活规模的稠密模型相当的性能，同时在多模态基准上同样表现出色。作为完全开源的模型权重，它为该规模下的模型能力树立了新的标杆。展望未来，我们将继续扩展 Qwen3.6 开源家族，并不断拓展高效开源模型所能实现的边界。我们由衷感谢社区的宝贵反馈，并期待看到大家利用 Qwen3.6-35B-A3B 创造出的精彩成果。Qwen3.6 开源家族正在持续壮大，敬请关注我们的后续发布！

阿里开源千问3.6系列中等尺寸模型

36kr.com · None · tech

36氪获悉，4月16日晚，阿里千问开源其中等尺寸模型Qwen3.6-35B-A3B，仅激活3B即超越谷歌最新发布的Gemma4-31B模型。

/tag/A3B