首页 > AI > Step 3.7 Flash:阶跃星辰开源的高效多模态模型,为Agent工作流大幅节省Token

Step 3.7 Flash:阶跃星辰开源的高效多模态模型,为Agent工作流大幅节省Token

更新时间:2026-06-05 02:12:56 发布时间:11小时前 阅读:8次

随着企业级AI应用的深入,多Agent协同与高频工具调用带来的Token消耗和延迟正成为沉重的负担。在此背景下,Step 3.7 Flash 应运而生。它是阶跃星辰推出的新一代高效Flash开源模型,采用198B参数的稀疏MoE架构,每个Token仅激活约11B参数,支持256K超长上下文和最高400 tokens/s的吞吐速度,并提供low、medium、high三档可调节的推理强度。该模型专为生产级Agent工作流优化,旨在以更低的延迟和成本,为复杂的多模态任务提供更稳、更快、更省的“Agent大脑”。

Step 3.7 Flash是什么:面向多模态Agent的高效基座

Step 3.7 Flash 是阶跃星辰发布的新一代开源多模态大模型。其核心设计目标并非追求榜单最高分,而是解决 Agent 在实际业务流程中面临的成本与延迟痛点。通过198B总参数、约11B激活参数的MoE架构,模型在保持强大生成与理解能力的同时,将推理效率推向极致。高达400 tokens/s的生成速度和256K的上下文窗口,使其能够胜任需要长链路、多轮迭代的复杂 Agent 任务。

实测中的核心能力展现

我们通过多个真实场景,检验了 Step 3.7 Flash 在 Agent 链路中的综合表现。

技术原理与架构亮点

Step 3.7 Flash的核心优势

与通用旗舰模型在Agent场景下的对比

与传统旗舰级大模型相比,Step 3.7 Flash 在 Agent 工作流中展现出差异化的效率优势。

Step 3.7 Flash 与通用旗舰模型 Agent 场景对比
对比维度 Step 3.7 Flash 通用旗舰大模型
参数效率 198B总参数,11B激活(MoE) 通常为稠密参数,推理时全量激活
最高推理吞吐 400 tokens/s 一般低于100 tokens/s(稠密模型)
上下文窗口 256K 32K-200K不等
推理强度调节 支持 low/medium/high 三档 通常固定或仅有有限控制
多模态 Agent 融合 原生深度整合视觉、代码与工具调用 多为接口式组合,链路损耗较大
实测 Token 消耗 复杂 Agent 长流程仅占周额度15% 同等任务消耗可能高出数倍
部署方式 开源,可私有化部署 部分闭源或仅API访问

典型应用场景

总结

Step 3.7 Flash 的出现,标志着 Flash 模型已彻底摆脱“旗舰模型简化版”的定位,进化为 Agent 时代的高效原生引擎。它凭借稀疏 MoE 架构带来的极高性价比、出色的多模态融合能力和生产级的稳定性,让企业能够以更低的成本和更快的速度,将 AI 深度嵌入核心业务流程。当大模型应用走向务实,Step 3.7 Flash 正在成为让 Agent 工作流真正“跑起来”的关键基础设施。

微信        
微信号runmie