WAND:腾讯云音视频AI原生能力底座六大自研模型与Agent-Native开放模式
更新时间:2026-06-07 02:21:49 发布时间:11小时前 阅读:9次WAND 是腾讯云音视频在2026腾讯云AI产业应用大会上正式发布的AI原生能力底座。该产品依托超过20年的技术积累,内置编解码、增强、擦除、生成、理解、音频六大自研媒体专用模型,整合60余项媒体AI能力,并以Agent-Native模式向行业开放,实现了从单点媒体处理向AI应用与Agent原生底座的战略升级。
WAND 的三层架构与六大自研模型
WAND的架构由模型引擎、能力层和场景方案三层构成。模型引擎层包含六大自研媒体专用模型,专门补充了主流生成式大模型在媒体生产流程中的能力缺口,覆盖编解码、画质增强、内容擦除、素材生成、智能理解与音频处理等核心环节。
这些专用模型针对音视频场景做了深度优化,相比通用大模型,在处理效率、资源消耗和输出质量上更具针对性。能力层则将60余项媒体AI能力按生成、理解、处理、编码四大类重新组织,为上层场景方案提供灵活的能力组合基础。
WAND 的 Agent-Native 开放模式
WAND通过API、Agent预编排工作流和Skills三种模式对外开放能力。Agent预编排工作流支持端到端自动跑通整条媒体处理链路,Agent无需在多个工具间切换即可完成从素材输入到成品输出的全流程。
这种Agent-Native的设计理念,意味着媒体AI能力不再是独立的功能点,而是可被AI Agent统一调度的生产级工具。对于开发者而言,只需通过自然语言或API调用即可驱动底层模型协同工作,大幅降低音视频处理的集成复杂度。
Skills模式则提供可复用的能力模块,开发者可按需组合,快速构建定制化的音视频应用。三种模式覆盖从轻量集成到深度编排的不同需求层级,兼顾灵活性与效率。
WAND 在电商与短漫剧场景中的落地验证
在电商应用中,WAND的生成模型可针对不同品类定制处理策略,有效降低商品图报错率并提升图片可用率。这种品类级别的精细适配能力,使商家无需为每个类目单独配置参数,AI可自动识别并匹配合适的处理方案。
在短漫剧创作领域,WAND将剧本生成、角色一致性保持、分镜合成等环节串联为自动链路,使平均生产效率提升90%,已服务国内80%以上的头部漫剧平台。这意味着创作者只需输入故事脚本,系统即可自动完成从文字到成片的完整产出。
WAND的AI增强与无痕擦除技术更是双双荣获NAB Show 2026年度产品奖,这两项技术分别解决了画质提升和画面冗余元素去除两大行业痛点,在专业级视频制作场景中展现出显著的实用价值。
WAND 在赛事直播等高并发场景中的表现
面对高并发、极低延迟要求的赛事直播场景,WAND通过自研模型的协同调度,将识别、生成、合成、编码整合为全自动化流程。相比传统方案,这一整合可节省超50%的码率,显著降低带宽成本。
WAND已累计支撑数千场全球顶级赛事直播,在高并发压力下仍能保持毫秒级的响应速度和稳定的输出质量。作为连续11次保持中国及出海市场份额第一的领跑者,腾讯云音视频正加速音视频能力成为AI Agent时代的生产级基础设施。
WAND 升级前后对比
| 对比维度 | 升级前 | WAND升级后 |
|---|---|---|
| 架构形态 | 单点媒体处理能力,工具散点分布 | 模型引擎+能力层+场景方案三层架构,统一底座 |
| 模型体系 | 依赖通用大模型,媒体生产流程覆盖不全 | 六大自研媒体专用模型,补足生成式大模型在媒体处理中的能力缺口 |
| 能力数量 | 能力分散,缺乏统一编排 | 60余项AI能力按生成/理解/处理/编码四大类重新组织 |
| 开放模式 | API单点调用 | API+Agent预编排工作流+Skills三种模式,支持Agent端到端自动跑通全链路 |
| 效率提升 | 人工串联多工具,流程割裂 | 短漫剧生产效率提升90%,赛事直播码率节省超50% |
WAND 应用场景
- 电商商品图智能处理:针对不同品类自动定制处理策略,降低报错率,提升图片可用率和视觉质量。
- 短漫剧自动化生产:从剧本生成到角色一致性保持、分镜合成全链路自动化,大幅压缩创作周期。
- 赛事直播实时处理:高并发场景下的识别、生成、合成、编码全自动化,节省码率并保证毫秒级响应。
- 视频画质增强与修复:通过AI增强和无痕擦除技术,提升老旧视频画质并消除画面冗余元素。
- Agent驱动的媒体应用开发:开发者可通过自然语言或API调用WAND的Skills模块,快速构建定制化音视频应用。
WAND 的行业价值与未来展望
WAND的发布标志着音视频AI从单点工具向原生能力底座的转型。其核心价值在于将20余年的音视频技术积累封装为可被Agent统一调度的生产级工具,而非提供孤立的处理功能。
通过六大自研模型与Agent-Native开放模式,WAND正在重塑音视频内容的生产方式——从短漫剧创作的效率革命,到赛事直播的成本优化,再到电商商品图的智能处理,覆盖了多个高价值场景。
未来,随着Agent生态的进一步成熟,WAND有望成为AI应用开发者构建音视频能力的首选底座,推动音视频AI从辅助工具走向核心基础设施,全面赋能AI Agent时代的视听应用创新。