首页 > AI > Qwen3.7-Plus:阿里通义推出的智能体多模态大模型,融合视觉与语言的Agent基座

Qwen3.7-Plus:阿里通义推出的智能体多模态大模型,融合视觉与语言的Agent基座

更新时间:2026-06-04 01:42:19 发布时间:16小时前 阅读:9次

Qwen3.7-Plus通义千问推出的新一代多模态大模型,将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码,支持端到端导航移动应用、结合网络知识回答视觉问题,在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手,Qwen3.7-Plus 用全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务,且具备跨框架泛化能力。

Qwen3.7-Plus是什么:多模态智能体基座模型

Qwen3.7-Plus 是通义千问推出的新一代多模态大模型,将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码,支持端到端导航移动应用、结合网络知识回答视觉问题,在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手,模型用全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务,且具备跨框架泛化能力。

Qwen3.7-Plus的主要功能

Qwen3.7-Plus的技术原理

如何使用Qwen3.7-Plus

Qwen3.7-Plus的核心优势

Qwen3.7-Plus的同类竞品对比

我们将其与当前领先的通用多模态模型 GPT-5.4 进行对比,其在 GUI 操作、视觉推理和多模态搜索上的优势尤为突出:

Qwen3.7-Plus 与 GPT-5.4 核心基准对比
对比维度 Qwen3.7-Plus GPT-5.4
定位 多模态交互混合智能体基座模型 通用多模态大模型
Vision Arena 排名 全球第5 / 中国第一 未进入前7
ScreenSpot Pro (GUI定位) 79.0 67.4
AndroidWorld (移动端操作) 81.0 未测试
QwenVision2Code (视觉编程) 1772.0 1884.0
BabyVision (视觉推理) 70.4/64.7 53.1
RealWorldQA (真实世界问答) 86.9 83.8
Terminal Bench 2.0 (终端编码) 70.3 未测试
SWE-bench 多语言 75.8 77.5
视频理解 VideoMMMU 88.0 89.5
多模态搜索 MMSearchPlus 41.4 19.7
核心优势 GUI操作、视觉推理、长时Agent闭环、跨框架泛化 视觉编程、视频理解、通用语言任务
适用场景 复杂软件工程自动化、桌面/移动端GUI操作、多模态Agent工作流 通用内容生成、视觉参考转代码、多语言翻译

Qwen3.7-Plus 在 GUI 定位、移动端操作、视觉推理和多模态搜索方面显著领先 GPT-5.4,尤其在需要智能体长时自主执行的任务中优势明显,更适合作为复杂自动化工作流的基座模型。

Qwen3.7-Plus的应用场景

Qwen3.7-Plus总结

Qwen3.7-Plus 作为阿里通义推出的新一代智能体多模态大模型,通过将视觉感知、代码执行、GUI 操作与搜索增强融为一体,为复杂软件工程和自动化工作流提供了强大的基座能力。其跨框架泛化特性和长时稳定运行的表现,使其成为企业级多模态 Agent 应用的理想选择。无论是在 GUI 自动化、视觉编程,还是在真实世界感知任务中,Qwen3.7-Plus 都展现出了与顶级通用模型正面竞争的实力,特别是其突出的多模态搜索与视觉推理能力,为下一代智能体应用打开了新的想象空间。

微信        
微信号runmie