Qwen3.7-Plus：阿里通义推出的智能体多模态大模型，融合视觉与语言的Agent基座

更新时间:2026-06-04 01:42:19 发布时间:16小时前阅读:9次

Qwen3.7-Plus 是通义千问推出的新一代多模态大模型，将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码，支持端到端导航移动应用、结合网络知识回答视觉问题，在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手，Qwen3.7-Plus 用全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务，且具备跨框架泛化能力。

目录显示

Qwen3.7-Plus是什么：多模态智能体基座模型

Qwen3.7-Plus 是通义千问推出的新一代多模态大模型，将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码，支持端到端导航移动应用、结合网络知识回答视觉问题，在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手，模型用全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务，且具备跨框架泛化能力。

Qwen3.7-Plus的主要功能

多模态交互混合智能体：统一处理图像、视频、屏幕、网页和文本输入，在 GUI/CLI/工具环境中完成复杂任务闭环。
视觉智能体：结合视觉理解、代码解释器和搜索增强，解决视觉谜题、真实世界问答和复杂推理任务。
视觉编程：从图像或视频生成 SVG、网页和交互式前端，实现视觉参考到代码的端到端转化。
GUI 智能体：理解移动端和桌面端界面，进行控件定位、任务规划和多步操作。
真实世界感知与推理：覆盖真实场景、文档图表、OCR、视频和驾驶场景理解。

Qwen3.7-Plus的技术原理

视觉感知与推理融合：模型在 BabyVision、MathVision、HiPhO 等高难度视觉推理基准上表现强劲，尤其在 BabyVision 上相比前代有显著提升，体现出对图像细节、空间关系、物理常识和多步逻辑的综合理解能力。
视觉到代码的端到端转化：通过代码解释器集成，模型能将视觉问题转化为可计算的问题表示，自主编写并执行代码进行求解、搜索或验证。在找不同、补图块、华容道、迷宫和拼图等任务中，模型能识别图像内容，进行空间建模、路径搜索、状态推演和结果校验。
GUI 自动化与多步交互：模型能识别屏幕内容，定位关键 UI 元素、理解任务意图并完成多步交互操作。在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上显著提升，支撑从“看懂界面”走向“操作界面”和“构建界面”。
搜索增强的多模态知识问答：模型将视觉输入与外部知识检索结合，先从视觉输入中提取关键实体、场景、文字和上下文线索，通过搜索获取外部知识，综合视觉证据和检索结果给出答案。
视频理解与驾驶场景感知：增强对短视频和长视频中事件、动作、时序和语义关系的处理能力，同时在 LingoQA、SURDS 和 VLADBench 等驾驶相关评测中展现出对动态场景、交通参与者和空间关系的强理解能力。

如何使用Qwen3.7-Plus

访问官方平台：通过阿里云百炼或 Qwen Studio 官网访问模型服务。
选择模型版本：在模型市场中选择 Qwen3.7-Plus，根据需求配置调用参数。
输入多模态内容：支持上传图像、视频、屏幕截图或网页链接，结合文本指令进行交互。
执行任务：根据场景选择对应能力模式（Visual Agent、GUI Agent、Visual Coding 等），模型将自动完成感知、推理与执行闭环。

Qwen3.7-Plus的核心优势

多模态 Agent 闭环能力：将看、想、写、做、验整合进统一智能体工作流，支撑复杂软件任务从理解到交付的端到端自动完成。
跨框架泛化：无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署，均能保持稳定表现。
视觉编程领先：在 QwenVision2Code 上得分 1772.0，接近 GPT-5.4 的 1884.0，显著领先 Claude-Opus-4.6 和 Gemini-3.1 Pro。
GUI 操作能力强：ScreenSpot Pro 79.0、AndroidWorld 81.0，在界面理解和操作任务上处于第一梯队。
长时自主运行：案例显示 Agent 可持续稳定运行 11+ 小时，累计生成代码超 10,000+ 行，触发调用超 1,000+ 次。

Qwen3.7-Plus的同类竞品对比

我们将其与当前领先的通用多模态模型 GPT-5.4 进行对比，其在 GUI 操作、视觉推理和多模态搜索上的优势尤为突出：

Qwen3.7-Plus 与 GPT-5.4 核心基准对比
对比维度	Qwen3.7-Plus	GPT-5.4
定位	多模态交互混合智能体基座模型	通用多模态大模型
Vision Arena 排名	全球第5 / 中国第一	未进入前7
ScreenSpot Pro (GUI定位)	79.0	67.4
AndroidWorld (移动端操作)	81.0	未测试
QwenVision2Code (视觉编程)	1772.0	1884.0
BabyVision (视觉推理)	70.4/64.7	53.1
RealWorldQA (真实世界问答)	86.9	83.8
Terminal Bench 2.0 (终端编码)	70.3	未测试
SWE-bench 多语言	75.8	77.5
视频理解 VideoMMMU	88.0	89.5
多模态搜索 MMSearchPlus	41.4	19.7
核心优势	GUI操作、视觉推理、长时Agent闭环、跨框架泛化	视觉编程、视频理解、通用语言任务
适用场景	复杂软件工程自动化、桌面/移动端GUI操作、多模态Agent工作流	通用内容生成、视觉参考转代码、多语言翻译

Qwen3.7-Plus 在 GUI 定位、移动端操作、视觉推理和多模态搜索方面显著领先 GPT-5.4，尤其在需要智能体长时自主执行的任务中优势明显，更适合作为复杂自动化工作流的基座模型。

Qwen3.7-Plus的应用场景

智能软件开发：从需求文档生成到代码编写、测试用例创建、GUI 自动化测试、版本迭代演进的全链路 APP 开发。
桌面应用复刻：自主理解原生应用 UI 布局与功能细节，生成对应源码并接入真实 API，实现高保真应用复刻。
视觉内容生成：将设计参考图转化为可执行的 SVG、网页或交互式前端代码，降低从视觉到代码资产的成本。
多模态知识问答：结合图像、视频与网络搜索，回答开放世界的视觉问题，如地点识别、事件背景分析、商品信息查询。
自动驾驶与具身智能：理解动态驾驶场景、交通参与者和空间关系，支撑真实世界多模态智能体和 embodied 场景。

Qwen3.7-Plus总结

Qwen3.7-Plus 作为阿里通义推出的新一代智能体多模态大模型，通过将视觉感知、代码执行、GUI 操作与搜索增强融为一体，为复杂软件工程和自动化工作流提供了强大的基座能力。其跨框架泛化特性和长时稳定运行的表现，使其成为企业级多模态 Agent 应用的理想选择。无论是在 GUI 自动化、视觉编程，还是在真实世界感知任务中，Qwen3.7-Plus 都展现出了与顶级通用模型正面竞争的实力，特别是其突出的多模态搜索与视觉推理能力，为下一代智能体应用打开了新的想象空间。