WAND：腾讯云音视频AI原生能力底座六大自研模型与Agent-Native开放模式

更新时间:2026-06-07 02:21:49 发布时间:11小时前阅读:9次

WAND 是腾讯云音视频在2026腾讯云AI产业应用大会上正式发布的AI原生能力底座。该产品依托超过20年的技术积累，内置编解码、增强、擦除、生成、理解、音频六大自研媒体专用模型，整合60余项媒体AI能力，并以Agent-Native模式向行业开放，实现了从单点媒体处理向AI应用与Agent原生底座的战略升级。

目录显示

WAND 的三层架构与六大自研模型

WAND的架构由模型引擎、能力层和场景方案三层构成。模型引擎层包含六大自研媒体专用模型，专门补充了主流生成式大模型在媒体生产流程中的能力缺口，覆盖编解码、画质增强、内容擦除、素材生成、智能理解与音频处理等核心环节。

这些专用模型针对音视频场景做了深度优化，相比通用大模型，在处理效率、资源消耗和输出质量上更具针对性。能力层则将60余项媒体AI能力按生成、理解、处理、编码四大类重新组织，为上层场景方案提供灵活的能力组合基础。

WAND 的 Agent-Native 开放模式

WAND通过API、Agent预编排工作流和Skills三种模式对外开放能力。Agent预编排工作流支持端到端自动跑通整条媒体处理链路，Agent无需在多个工具间切换即可完成从素材输入到成品输出的全流程。

这种Agent-Native的设计理念，意味着媒体AI能力不再是独立的功能点，而是可被AI Agent统一调度的生产级工具。对于开发者而言，只需通过自然语言或API调用即可驱动底层模型协同工作，大幅降低音视频处理的集成复杂度。

Skills模式则提供可复用的能力模块，开发者可按需组合，快速构建定制化的音视频应用。三种模式覆盖从轻量集成到深度编排的不同需求层级，兼顾灵活性与效率。

WAND 在电商与短漫剧场景中的落地验证

在电商应用中，WAND的生成模型可针对不同品类定制处理策略，有效降低商品图报错率并提升图片可用率。这种品类级别的精细适配能力，使商家无需为每个类目单独配置参数，AI可自动识别并匹配合适的处理方案。

在短漫剧创作领域，WAND将剧本生成、角色一致性保持、分镜合成等环节串联为自动链路，使平均生产效率提升90%，已服务国内80%以上的头部漫剧平台。这意味着创作者只需输入故事脚本，系统即可自动完成从文字到成片的完整产出。

WAND的AI增强与无痕擦除技术更是双双荣获NAB Show 2026年度产品奖，这两项技术分别解决了画质提升和画面冗余元素去除两大行业痛点，在专业级视频制作场景中展现出显著的实用价值。

WAND 在赛事直播等高并发场景中的表现

面对高并发、极低延迟要求的赛事直播场景，WAND通过自研模型的协同调度，将识别、生成、合成、编码整合为全自动化流程。相比传统方案，这一整合可节省超50%的码率，显著降低带宽成本。

WAND已累计支撑数千场全球顶级赛事直播，在高并发压力下仍能保持毫秒级的响应速度和稳定的输出质量。作为连续11次保持中国及出海市场份额第一的领跑者，腾讯云音视频正加速音视频能力成为AI Agent时代的生产级基础设施。

WAND 升级前后对比

WAND升级前后的关键维度对比
对比维度	升级前	WAND升级后
架构形态	单点媒体处理能力，工具散点分布	模型引擎+能力层+场景方案三层架构，统一底座
模型体系	依赖通用大模型，媒体生产流程覆盖不全	六大自研媒体专用模型，补足生成式大模型在媒体处理中的能力缺口
能力数量	能力分散，缺乏统一编排	60余项AI能力按生成/理解/处理/编码四大类重新组织
开放模式	API单点调用	API+Agent预编排工作流+Skills三种模式，支持Agent端到端自动跑通全链路
效率提升	人工串联多工具，流程割裂	短漫剧生产效率提升90%，赛事直播码率节省超50%

WAND 应用场景

电商商品图智能处理：针对不同品类自动定制处理策略，降低报错率，提升图片可用率和视觉质量。
短漫剧自动化生产：从剧本生成到角色一致性保持、分镜合成全链路自动化，大幅压缩创作周期。
赛事直播实时处理：高并发场景下的识别、生成、合成、编码全自动化，节省码率并保证毫秒级响应。
视频画质增强与修复：通过AI增强和无痕擦除技术，提升老旧视频画质并消除画面冗余元素。
Agent驱动的媒体应用开发：开发者可通过自然语言或API调用WAND的Skills模块，快速构建定制化音视频应用。

WAND 的行业价值与未来展望

WAND的发布标志着音视频AI从单点工具向原生能力底座的转型。其核心价值在于将20余年的音视频技术积累封装为可被Agent统一调度的生产级工具，而非提供孤立的处理功能。

通过六大自研模型与Agent-Native开放模式，WAND正在重塑音视频内容的生产方式——从短漫剧创作的效率革命，到赛事直播的成本优化，再到电商商品图的智能处理，覆盖了多个高价值场景。

未来，随着Agent生态的进一步成熟，WAND有望成为AI应用开发者构建音视频能力的首选底座，推动音视频AI从辅助工具走向核心基础设施，全面赋能AI Agent时代的视听应用创新。

标签:

腾讯