PawBench:当Agent评测从“选模型”进化到“选组合”,通义如何用交叉矩阵量化框架的6.4分价值
更新时间:2026-06-07 02:23:29 发布时间:11小时前 阅读:7次PawBench 是通义实验室开源的通用智能体评测基准,它率先将底座模型与运行框架纳入同一坐标系,用9个模型×3个Harness×150道任务的交叉矩阵,首次量化了框架差异对Agent表现的影响可达6.4分。PawBench v1.0聚合6个高质量评测集构建了4050个测试单元,通过五维标签体系和“规则断言+LLM-as-judge”混合评分机制,让Harness开发者能够精准定位框架在Skill加载、路径感知等环节的缺陷,并从Overall、Text、Multimodal三个切片榜单中透视模型与框架的真实协同效果。这一基准的发布,标志着智能体评测正式从“模型单维度竞赛”跨入“模型×框架协同诊断”的新阶段。
PawBench的设计动机:当框架不再是透明的管道
传统Agent评测默认框架是“无损通道”,只需固定Harness比较模型分数。但实际使用中,同一模型在不同框架上的表现可能相差数个点——这个差值甚至超过一次模型版本升级。PawBench通过构建三维交叉评测空间(模型×Harness×任务),用控制变量法剥离框架贡献度,让行业第一次看清:一个Agent最终呈现的能力,有一半来自Harness的工程智慧。其150道任务并非简单堆砌,而是从6个现有Agent评测集中精选聚合而来,避免重复造轮子,同时通过人工标注构建了应用场景、原子能力、复杂度、输入模态、运行环境五维标签,支持任何维度的切片分析。
PawBench的五维标签体系与任务设计
PawBench将每道任务标注为五个维度,这让基准从“总分排名机”变成了“诊断CT”。具体而言:
- 应用场景:覆盖办公协同、软件工程、自动化脚本、Web搜索、Skill调用等,模拟个人助理和开发Agent的真实工作流。
- 原子能力:分解为推理、规划、工具调用、代码生成、多模态理解,帮助定位能力短板是在“想”还是“做”环节。
- 复杂度:分为L1单步指令、L2多步协同、L3开放探索,难度递进反映真实任务从简单到无先例的渐变。
- 输入模态:区分纯文本(124题)和多模态含图像/音频(26题),分别检验框架对多模态管线的支持程度。
- 运行环境:涵盖Docker沙箱、Web浏览器、文件系统、API端点等,考察Harness在不同工具生态下的适配韧性。
这种结构化标注让开发者可以单独抽出“多模态+软件工程+L2复杂度”的子集观察框架表现,告别面对一个笼统分数无从下手的困境。
PawBench的评测技术栈:交叉矩阵、混合评分与全量轨迹
PawBench的技术核心是一个9个模型×3个Harness×150道任务的三维评测空间,通过控制变量法将模型能力与框架贡献解耦。在每个测试单元中,Agent在独立Docker容器中执行任务,系统捕获执行轨迹、workspace文件变更和grader产物,确保失败可逐层回溯。评分上,PawBench采用双轨机制:规则断言针对文件生成、字段匹配、exit code等硬性指标进行确定性验证,杜绝“虚假完工”;LLM-as-judge则对代码质量、回复逻辑等开放性维度进行语义评估,两者加权归一化到0-1分数,兼顾客观与灵活。
PawBench的功能与诊断闭环
- 联合评测矩阵:在同一基准上跑通模型×Harness的所有组合,输出联合效果排名,揭示最佳搭档。
- 多切片榜单:Overall(150题)、Text(124题)、Multimodal(26题)三个榜单自由切换,满足不同关注点。
- 全量轨迹保留:每道题的Docker沙箱快照、执行日志和校验产物完整保存,为失败复盘提供完整现场。
- 深度诊断分析:按模型规模、模态、任务复杂度、技能领域等维度下钻,定位框架在Skill加载延迟、路径感知盲区、Web工具默认配置等方面的具体行为缺陷。
- 零门槛开箱评测:还原首次clone后的默认环境,不追求“配齐所有API Key的理论上限”,反映真实体验。
- 持续回归验证:Harness每次修复后重新切片跑分,验证优化是否在目标维度真正生效,形成“诊断-修复-验证”闭环。
PawBench与主流Agent评测基准的对比
我们将PawBench与SWE-bench、AgentBench进行系统性比较,三者在Agent评测生态中分别扮演不同角色。
| 维度 | PawBench | SWE-bench | AgentBench |
|---|---|---|---|
| 核心评估对象 | 模型+Harness联合效果,量化框架贡献 | 模型在真实GitHub Issue上的代码修复能力 | 模型在多种模拟环境中的通用Agent能力 |
| 是否评估框架 | 是,核心特色,明确隔离框架影响 | 否,仅评估模型本身 | 否,仅评估模型本身 |
| 任务来源与规模 | 6个Agent评测集精选聚合,150道任务 | 真实GitHub Issue/PR,2000+实例 | 8种交互环境,1000+任务 |
| 典型任务类型 | 办公协同、软件工程、自动化脚本、Web搜索、Skill调用 | Bug修复、功能实现、代码补全 | OS操作、数据库查询、网页浏览、卡牌游戏、家庭管理 |
| 评分机制 | 规则断言+LLM-as-judge混合,分数0-1 | 单元测试通过/失败二元判定 | 环境特定规则,成功率统计 |
| 环境隔离 | Docker沙箱+workspace产物完整性校验 | 代码沙箱+Git仓库快照 | 多类型容器(OS/DB/Web等) |
| 任务标签体系 | 五维(场景/能力/复杂度/模态/环境),支持交叉切片 | 按编程语言/仓库分类 | 按环境类型分类 |
| 榜单维度 | Overall/Text/Multimodal三切片 | Verified/Full等分榜 | 按环境分榜 |
| 失败诊断粒度 | 完整轨迹+产物快照+环境状态,可回溯至单步 | 代码补丁与测试日志 | 环境交互日志 |
| 开箱易用性 | 还原首次clone默认体验,不要求全量API配置 | 需配置代码仓库环境 | 需配置多环境容器 |
从对比可见,PawBench的差异化价值在于“框架诊断”这一空白地带。当Harness开发者在PawBench上发现框架得分异常时,可通过五维切片迅速锁定是Skill加载机制、路径感知逻辑还是Web工具默认可用性出了问题,这是SWE-bench和AgentBench所不具备的深度。
PawBench的应用场景与行业价值
- Harness框架迭代:开发者每次提交修复后重新切片跑分,验证优化是否在目标维度上真正生效,形成数据驱动的开发流程。
- 模型与框架选型决策:团队根据自身业务场景选择对应任务切片,横向对比不同模型×Harness组合的实际表现,避免“模型强但框架拖后腿”的选型失误。
- 小模型反超大模型路径验证:PawBench揭示的6.4分框架差距,为通过优化Harness让轻量模型超越重量模型提供了量化依据和验证平台。
- 多模态Agent管线测试:Multimodal切片帮助开发者检验框架对图像、音频等模态输入的处理能力和工具链完整性。
- 学术与工业研究:提供可复现的交叉评测框架,推动Agent技术从“拼模型”到“拼系统”的认知升级。
PawBench的生态定位与展望
PawBench的出现填补了Agent评测中“有模型无框架”的结构性空白。它不追求任务数量的规模效应,而是通过精巧的交叉矩阵和五维诊断能力,让行业意识到框架不是透明管道,而是决定Agent能力上限的关键变量。随着Agent从Demo走向生产,Harness将承担操作系统的角色,对它的独立评测将成为刚需。PawBench为这一趋势提供了方法论基础和工具支撑,后续若持续扩展任务覆盖面和Harness兼容列表,有望成为智能体协同优化领域的通用基础设施。