PawBench：当Agent评测从“选模型”进化到“选组合”，通义如何用交叉矩阵量化框架的6.4分价值

更新时间:2026-07-26 22:57:19 发布时间:50天前阅读:92次

PawBench 是通义实验室开源的通用智能体评测基准，它率先将底座模型与运行框架纳入同一坐标系，用9个模型×3个Harness×150道任务的交叉矩阵，首次量化了框架差异对Agent表现的影响可达6.4分。PawBench v1.0聚合6个高质量评测集构建了4050个测试单元，通过五维标签体系和“规则断言+LLM-as-judge”混合评分机制，让Harness开发者能够精准定位框架在Skill加载、路径感知等环节的缺陷，并从Overall、Text、Multimodal三个切片榜单中透视模型与框架的真实协同效果。这一基准的发布，标志着智能体评测正式从“模型单维度竞赛”跨入“模型×框架协同诊断”的新阶段。

目录显示

PawBench的设计动机：当框架不再是透明的管道

传统Agent评测默认框架是“无损通道”，只需固定Harness比较模型分数。但实际使用中，同一模型在不同框架上的表现可能相差数个点——这个差值甚至超过一次模型版本升级。PawBench通过构建三维交叉评测空间（模型×Harness×任务），用控制变量法剥离框架贡献度，让行业第一次看清：一个Agent最终呈现的能力，有一半来自Harness的工程智慧。其150道任务并非简单堆砌，而是从6个现有Agent评测集中精选聚合而来，避免重复造轮子，同时通过人工标注构建了应用场景、原子能力、复杂度、输入模态、运行环境五维标签，支持任何维度的切片分析。

PawBench的五维标签体系与任务设计

PawBench将每道任务标注为五个维度，这让基准从“总分排名机”变成了“诊断CT”。具体而言：

应用场景：覆盖办公协同、软件工程、自动化脚本、Web搜索、Skill调用等，模拟个人助理和开发Agent的真实工作流。
原子能力：分解为推理、规划、工具调用、代码生成、多模态理解，帮助定位能力短板是在“想”还是“做”环节。
复杂度：分为L1单步指令、L2多步协同、L3开放探索，难度递进反映真实任务从简单到无先例的渐变。
输入模态：区分纯文本（124题）和多模态含图像/音频（26题），分别检验框架对多模态管线的支持程度。
运行环境：涵盖Docker沙箱、Web浏览器、文件系统、API端点等，考察Harness在不同工具生态下的适配韧性。

这种结构化标注让开发者可以单独抽出“多模态+软件工程+L2复杂度”的子集观察框架表现，告别面对一个笼统分数无从下手的困境。

PawBench的评测技术栈：交叉矩阵、混合评分与全量轨迹

PawBench的技术核心是一个9个模型×3个Harness×150道任务的三维评测空间，通过控制变量法将模型能力与框架贡献解耦。在每个测试单元中，Agent在独立Docker容器中执行任务，系统捕获执行轨迹、workspace文件变更和grader产物，确保失败可逐层回溯。评分上，PawBench采用双轨机制：规则断言针对文件生成、字段匹配、exit code等硬性指标进行确定性验证，杜绝“虚假完工”；LLM-as-judge则对代码质量、回复逻辑等开放性维度进行语义评估，两者加权归一化到0-1分数，兼顾客观与灵活。

PawBench的功能与诊断闭环

联合评测矩阵：在同一基准上跑通模型×Harness的所有组合，输出联合效果排名，揭示最佳搭档。
多切片榜单：Overall（150题）、Text（124题）、Multimodal（26题）三个榜单自由切换，满足不同关注点。
全量轨迹保留：每道题的Docker沙箱快照、执行日志和校验产物完整保存，为失败复盘提供完整现场。
深度诊断分析：按模型规模、模态、任务复杂度、技能领域等维度下钻，定位框架在Skill加载延迟、路径感知盲区、Web工具默认配置等方面的具体行为缺陷。
零门槛开箱评测：还原首次clone后的默认环境，不追求“配齐所有API Key的理论上限”，反映真实体验。
持续回归验证：Harness每次修复后重新切片跑分，验证优化是否在目标维度真正生效，形成“诊断-修复-验证”闭环。

PawBench与主流Agent评测基准的对比

我们将PawBench与SWE-bench、AgentBench进行系统性比较，三者在Agent评测生态中分别扮演不同角色。

PawBench与主流Agent评测基准的关键差异
维度	PawBench	SWE-bench	AgentBench
核心评估对象	模型+Harness联合效果，量化框架贡献	模型在真实GitHub Issue上的代码修复能力	模型在多种模拟环境中的通用Agent能力
是否评估框架	是，核心特色，明确隔离框架影响	否，仅评估模型本身	否，仅评估模型本身
任务来源与规模	6个Agent评测集精选聚合，150道任务	真实GitHub Issue/PR，2000+实例	8种交互环境，1000+任务
典型任务类型	办公协同、软件工程、自动化脚本、Web搜索、Skill调用	Bug修复、功能实现、代码补全	OS操作、数据库查询、网页浏览、卡牌游戏、家庭管理
评分机制	规则断言+LLM-as-judge混合，分数0-1	单元测试通过/失败二元判定	环境特定规则，成功率统计
环境隔离	Docker沙箱+workspace产物完整性校验	代码沙箱+Git仓库快照	多类型容器（OS/DB/Web等）
任务标签体系	五维（场景/能力/复杂度/模态/环境），支持交叉切片	按编程语言/仓库分类	按环境类型分类
榜单维度	Overall/Text/Multimodal三切片	Verified/Full等分榜	按环境分榜
失败诊断粒度	完整轨迹+产物快照+环境状态，可回溯至单步	代码补丁与测试日志	环境交互日志
开箱易用性	还原首次clone默认体验，不要求全量API配置	需配置代码仓库环境	需配置多环境容器

从对比可见，PawBench的差异化价值在于“框架诊断”这一空白地带。当Harness开发者在PawBench上发现框架得分异常时，可通过五维切片迅速锁定是Skill加载机制、路径感知逻辑还是Web工具默认可用性出了问题，这是SWE-bench和AgentBench所不具备的深度。

PawBench的应用场景与行业价值

Harness框架迭代：开发者每次提交修复后重新切片跑分，验证优化是否在目标维度上真正生效，形成数据驱动的开发流程。
模型与框架选型决策：团队根据自身业务场景选择对应任务切片，横向对比不同模型×Harness组合的实际表现，避免“模型强但框架拖后腿”的选型失误。
小模型反超大模型路径验证：PawBench揭示的6.4分框架差距，为通过优化Harness让轻量模型超越重量模型提供了量化依据和验证平台。
多模态Agent管线测试：Multimodal切片帮助开发者检验框架对图像、音频等模态输入的处理能力和工具链完整性。
学术与工业研究：提供可复现的交叉评测框架，推动Agent技术从“拼模型”到“拼系统”的认知升级。

PawBench的生态定位与展望

PawBench的出现填补了Agent评测中“有模型无框架”的结构性空白。它不追求任务数量的规模效应，而是通过精巧的交叉矩阵和五维诊断能力，让行业意识到框架不是透明管道，而是决定Agent能力上限的关键变量。随着Agent从Demo走向生产，Harness将承担操作系统的角色，对它的独立评测将成为刚需。PawBench为这一趋势提供了方法论基础和工具支撑，后续若持续扩展任务覆盖面和Harness兼容列表，有望成为智能体协同优化领域的通用基础设施。