首页 > AI > PawBench:当Agent评测从“选模型”进化到“选组合”,通义如何用交叉矩阵量化框架的6.4分价值

PawBench:当Agent评测从“选模型”进化到“选组合”,通义如何用交叉矩阵量化框架的6.4分价值

更新时间:2026-06-07 02:23:29 发布时间:11小时前 阅读:7次

PawBench 是通义实验室开源的通用智能体评测基准,它率先将底座模型与运行框架纳入同一坐标系,用9个模型×3个Harness×150道任务的交叉矩阵,首次量化了框架差异对Agent表现的影响可达6.4分。PawBench v1.0聚合6个高质量评测集构建了4050个测试单元,通过五维标签体系和“规则断言+LLM-as-judge”混合评分机制,让Harness开发者能够精准定位框架在Skill加载、路径感知等环节的缺陷,并从Overall、Text、Multimodal三个切片榜单中透视模型与框架的真实协同效果。这一基准的发布,标志着智能体评测正式从“模型单维度竞赛”跨入“模型×框架协同诊断”的新阶段。

PawBench的设计动机:当框架不再是透明的管道

传统Agent评测默认框架是“无损通道”,只需固定Harness比较模型分数。但实际使用中,同一模型在不同框架上的表现可能相差数个点——这个差值甚至超过一次模型版本升级。PawBench通过构建三维交叉评测空间(模型×Harness×任务),用控制变量法剥离框架贡献度,让行业第一次看清:一个Agent最终呈现的能力,有一半来自Harness的工程智慧。其150道任务并非简单堆砌,而是从6个现有Agent评测集中精选聚合而来,避免重复造轮子,同时通过人工标注构建了应用场景、原子能力、复杂度、输入模态、运行环境五维标签,支持任何维度的切片分析。

PawBench的五维标签体系与任务设计

PawBench将每道任务标注为五个维度,这让基准从“总分排名机”变成了“诊断CT”。具体而言:

这种结构化标注让开发者可以单独抽出“多模态+软件工程+L2复杂度”的子集观察框架表现,告别面对一个笼统分数无从下手的困境。

PawBench的评测技术栈:交叉矩阵、混合评分与全量轨迹

PawBench的技术核心是一个9个模型×3个Harness×150道任务的三维评测空间,通过控制变量法将模型能力与框架贡献解耦。在每个测试单元中,Agent在独立Docker容器中执行任务,系统捕获执行轨迹、workspace文件变更和grader产物,确保失败可逐层回溯。评分上,PawBench采用双轨机制:规则断言针对文件生成、字段匹配、exit code等硬性指标进行确定性验证,杜绝“虚假完工”;LLM-as-judge则对代码质量、回复逻辑等开放性维度进行语义评估,两者加权归一化到0-1分数,兼顾客观与灵活。

PawBench的功能与诊断闭环

PawBench与主流Agent评测基准的对比

我们将PawBench与SWE-bench、AgentBench进行系统性比较,三者在Agent评测生态中分别扮演不同角色。

PawBench与主流Agent评测基准的关键差异
维度 PawBench SWE-bench AgentBench
核心评估对象 模型+Harness联合效果,量化框架贡献 模型在真实GitHub Issue上的代码修复能力 模型在多种模拟环境中的通用Agent能力
是否评估框架 是,核心特色,明确隔离框架影响 否,仅评估模型本身 否,仅评估模型本身
任务来源与规模 6个Agent评测集精选聚合,150道任务 真实GitHub Issue/PR,2000+实例 8种交互环境,1000+任务
典型任务类型 办公协同、软件工程、自动化脚本、Web搜索、Skill调用 Bug修复、功能实现、代码补全 OS操作、数据库查询、网页浏览、卡牌游戏、家庭管理
评分机制 规则断言+LLM-as-judge混合,分数0-1 单元测试通过/失败二元判定 环境特定规则,成功率统计
环境隔离 Docker沙箱+workspace产物完整性校验 代码沙箱+Git仓库快照 多类型容器(OS/DB/Web等)
任务标签体系 五维(场景/能力/复杂度/模态/环境),支持交叉切片 按编程语言/仓库分类 按环境类型分类
榜单维度 Overall/Text/Multimodal三切片 Verified/Full等分榜 按环境分榜
失败诊断粒度 完整轨迹+产物快照+环境状态,可回溯至单步 代码补丁与测试日志 环境交互日志
开箱易用性 还原首次clone默认体验,不要求全量API配置 需配置代码仓库环境 需配置多环境容器

从对比可见,PawBench的差异化价值在于“框架诊断”这一空白地带。当Harness开发者在PawBench上发现框架得分异常时,可通过五维切片迅速锁定是Skill加载机制、路径感知逻辑还是Web工具默认可用性出了问题,这是SWE-bench和AgentBench所不具备的深度。

PawBench的应用场景与行业价值

PawBench的生态定位与展望

PawBench的出现填补了Agent评测中“有模型无框架”的结构性空白。它不追求任务数量的规模效应,而是通过精巧的交叉矩阵和五维诊断能力,让行业意识到框架不是透明管道,而是决定Agent能力上限的关键变量。随着Agent从Demo走向生产,Harness将承担操作系统的角色,对它的独立评测将成为刚需。PawBench为这一趋势提供了方法论基础和工具支撑,后续若持续扩展任务覆盖面和Harness兼容列表,有望成为智能体协同优化领域的通用基础设施。

微信        
微信号runmie