首页 > AI > Mellum2:JetBrains开源的混合专家模型,专为软件工程AI工作流优化

Mellum2:JetBrains开源的混合专家模型,专为软件工程AI工作流优化

更新时间:2026-06-04 01:43:07 发布时间:16小时前 阅读:8次

Mellum2 是 JetBrains 推出的开源 混合专家(MoE)模型,总参数量 12B,但每 token 仅激活 2.5B 参数,专为 软件工程 AI 工作流 优化。它支持 代码生成、智能路由、子 Agent 调用 及 本地私有化部署,凭借低延迟、高吞吐和低成本特性,在 LiveCodeBench 等权威评测中表现领先,是构建企业级 AI 编程助手和自动化工作流的高性能选择。

Mellum2是什么:专为软件工程打造的混合专家模型

Mellum2 是 JetBrains 开源的面向软件工程系统的新一代机器学习模型。模型每 token 仅激活 2.5B 参数,专为软件工程 AI 工作流优化,支持代码生成、智能路由、子 Agent 调用及私有化部署。凭借低延迟、高吞吐和低成本特性,Mellum2 在 LiveCodeBench 等代码评测中表现领先,是构建企业级 AI 编程助手和自动化工作流的高性能选择。

Mellum2的主要功能

Mellum2的技术原理

Mellum2 的强大性能源于其精巧的架构设计和先进的训练策略。

Mellum2的核心优势

Mellum2的同类竞品对比

我们将 Mellum2 与另外两个知名的代码/通用模型 Qwen3.5-9B 和 SeedCoder-8B 进行对比,差异一目了然:

Mellum2 与同类模型核心对比
对比维度 Mellum2 Qwen3.5-9B SeedCoder-8B
模型架构 12B MoE(64 专家,8 激活,2.5B 活跃参数) 9B 密集模型(Dense) 8B 密集模型(Dense)
开源协议 Apache 2.0(完全可商用) 开源(可商用) 未明确/部分受限
模态支持 仅文本 + 代码(垂直专精) 文本、代码、图像、视频(多模态通用) 仅代码(单领域)
每 Token 计算量 ≈2.5B 参数(极低) 9B 参数(全量激活) 8B 参数(全量激活)
LiveCodeBench v6 69.9(Thinking) 68.3(Thinking) 28.1(Non-thinking)
BFCL V4 工具调用 45.6(Thinking) 42.7(Thinking) N/A(不支持)
AIME 数学推理 58.4(Thinking) 73.4(Thinking) 0(不支持)
上下文长度 128K(YaRN 扩展) 128K+ 通常 4K-8K
推理模式 双模式:Thinking + Non-thinking 双模式:Thinking + Non-thinking 仅 Non-thinking

从对比可见,Mellum2 在代码生成效率、工具调用能力和开源商用方面具备显著优势,尤其适合对延迟和成本敏感的软件工程自动化场景。

Mellum2的应用场景

Mellum2总结

Mellum2 凭借高效的 MoE 架构、垂直领域的深度优化以及完全开源的商用协议,为软件工程领域提供了一款兼具高性能与低成本的 AI 模型。无论是构建企业级代码助手,还是打造自动化 Agent 工作流,Mellum2 都是值得信赖的基础模型选择。其双模式推理与 128K 长上下文支持,让开发者能够灵活应对从简单补全到复杂任务分解的各种场景,显著提升软件开发的效率与质量。

微信        
微信号runmie