首页 > AI > WAND:腾讯云音视频AI原生能力底座六大自研模型与Agent-Native开放模式

WAND:腾讯云音视频AI原生能力底座六大自研模型与Agent-Native开放模式

更新时间:2026-06-07 02:21:49 发布时间:11小时前 阅读:9次

WAND腾讯云音视频在2026腾讯云AI产业应用大会上正式发布的AI原生能力底座。该产品依托超过20年的技术积累,内置编解码、增强、擦除、生成、理解、音频六大自研媒体专用模型,整合60余项媒体AI能力,并以Agent-Native模式向行业开放,实现了从单点媒体处理向AI应用与Agent原生底座的战略升级。

WAND 的三层架构与六大自研模型

WAND的架构由模型引擎、能力层和场景方案三层构成。模型引擎层包含六大自研媒体专用模型,专门补充了主流生成式大模型在媒体生产流程中的能力缺口,覆盖编解码、画质增强、内容擦除、素材生成、智能理解与音频处理等核心环节。

这些专用模型针对音视频场景做了深度优化,相比通用大模型,在处理效率、资源消耗和输出质量上更具针对性。能力层则将60余项媒体AI能力按生成、理解、处理、编码四大类重新组织,为上层场景方案提供灵活的能力组合基础。

WAND 的 Agent-Native 开放模式

WAND通过API、Agent预编排工作流和Skills三种模式对外开放能力。Agent预编排工作流支持端到端自动跑通整条媒体处理链路,Agent无需在多个工具间切换即可完成从素材输入到成品输出的全流程。

这种Agent-Native的设计理念,意味着媒体AI能力不再是独立的功能点,而是可被AI Agent统一调度的生产级工具。对于开发者而言,只需通过自然语言或API调用即可驱动底层模型协同工作,大幅降低音视频处理的集成复杂度。

Skills模式则提供可复用的能力模块,开发者可按需组合,快速构建定制化的音视频应用。三种模式覆盖从轻量集成到深度编排的不同需求层级,兼顾灵活性与效率。

WAND 在电商与短漫剧场景中的落地验证

在电商应用中,WAND的生成模型可针对不同品类定制处理策略,有效降低商品图报错率并提升图片可用率。这种品类级别的精细适配能力,使商家无需为每个类目单独配置参数,AI可自动识别并匹配合适的处理方案。

在短漫剧创作领域,WAND将剧本生成、角色一致性保持、分镜合成等环节串联为自动链路,使平均生产效率提升90%,已服务国内80%以上的头部漫剧平台。这意味着创作者只需输入故事脚本,系统即可自动完成从文字到成片的完整产出。

WAND的AI增强与无痕擦除技术更是双双荣获NAB Show 2026年度产品奖,这两项技术分别解决了画质提升和画面冗余元素去除两大行业痛点,在专业级视频制作场景中展现出显著的实用价值。

WAND 在赛事直播等高并发场景中的表现

面对高并发、极低延迟要求的赛事直播场景,WAND通过自研模型的协同调度,将识别、生成、合成、编码整合为全自动化流程。相比传统方案,这一整合可节省超50%的码率,显著降低带宽成本。

WAND已累计支撑数千场全球顶级赛事直播,在高并发压力下仍能保持毫秒级的响应速度和稳定的输出质量。作为连续11次保持中国及出海市场份额第一的领跑者,腾讯云音视频正加速音视频能力成为AI Agent时代的生产级基础设施。

WAND 升级前后对比

WAND升级前后的关键维度对比
对比维度 升级前 WAND升级后
架构形态 单点媒体处理能力,工具散点分布 模型引擎+能力层+场景方案三层架构,统一底座
模型体系 依赖通用大模型,媒体生产流程覆盖不全 六大自研媒体专用模型,补足生成式大模型在媒体处理中的能力缺口
能力数量 能力分散,缺乏统一编排 60余项AI能力按生成/理解/处理/编码四大类重新组织
开放模式 API单点调用 API+Agent预编排工作流+Skills三种模式,支持Agent端到端自动跑通全链路
效率提升 人工串联多工具,流程割裂 短漫剧生产效率提升90%,赛事直播码率节省超50%

WAND 应用场景

WAND 的行业价值与未来展望

WAND的发布标志着音视频AI从单点工具向原生能力底座的转型。其核心价值在于将20余年的音视频技术积累封装为可被Agent统一调度的生产级工具,而非提供孤立的处理功能。

通过六大自研模型与Agent-Native开放模式,WAND正在重塑音视频内容的生产方式——从短漫剧创作的效率革命,到赛事直播的成本优化,再到电商商品图的智能处理,覆盖了多个高价值场景。

未来,随着Agent生态的进一步成熟,WAND有望成为AI应用开发者构建音视频能力的首选底座,推动音视频AI从辅助工具走向核心基础设施,全面赋能AI Agent时代的视听应用创新。

标签:
微信        
微信号runmie