
1. 项目概述当“上班型 Agent”终于有了可量化的成绩单ClawMark 这个名字乍听像某种爪印识别工具但它的实际定位非常精准——它是一套专为“上班型 Agent”设计的、可复现、可拆解、可归因的评估框架。所谓“上班型 Agent”不是指科幻片里满世界跑的自主机器人而是指那些被部署在企业内部流程中、日复一日执行固定任务的智能体比如自动处理报销单据的财务助手、每天扫描200份合同提取关键条款的法务协作者、或是嵌入CRM系统、主动跟进销售线索的客户运营Agent。它们不追求通用智能但必须稳定、准确、可解释、能追责。过去这类Agent的验收往往靠“老板点头”“业务方说差不多了”“上线后没出大问题”这类模糊判断导致开发团队反复返工、业务方抱怨效果飘忽、管理层无法评估ROI。ClawMark 的核心价值就是把这种主观感受变成一张清晰的、带权重的、分维度的“员工绩效考核表”。它首次将Agent的能力映射到真实职场中对“人”的要求上你能不能按时交活时效性交上来的东西错不错准确性遇到没见过的单子会不会直接报错鲁棒性改个字段名还能不能继续干活泛化性甚至你干完活之后有没有留下能让同事看懂的日志可解释性这些都不是抽象概念ClawMark 给每一项都配了标准测试集、量化打分规则和失败案例回溯机制。我第一次用它给一个采购审批Agent打分时发现它在“多级审批流跳转”这个细分项上只有62分远低于整体87分的平均分——这直接指向了流程引擎配置的一个隐藏bug而不是笼统地说“审批逻辑有问题”。这种颗粒度是之前所有评估方式都做不到的。如果你正在落地一个需要长期运维、要向业务部门交付价值、且对稳定性有硬性要求的Agent项目ClawMark 不是锦上添花而是开工前就必须铺好的地基。2. 核心设计思路为什么是“上班型”而不是“天才型”2.1 “上班型”与“天才型”的本质分野很多人一听到Agent评估第一反应是去查MMLU、GSM8K这类通用大模型基准测试。这就像用奥运会百米成绩去考核一位地铁调度员的工作表现——方向完全错了。ClawMark 的底层哲学是从工作场景反推能力定义。我们先来划清一条关键分界线“天才型 Agent”的目标是“突破认知边界”它要能解出人类从未见过的新题型能从零开始写一首符合十四行诗格律的英文诗能在没有示例的情况下推理出一个全新物理定律的数学表达。它的评估核心是创造性、泛化上限、零样本能力。这类Agent目前更多存在于研究实验室或前沿Demo中。“上班型 Agent”的目标是“守住业务底线”它要确保每月5号前100%准确地把3000份差旅报销单录入ERP要保证在合同模板更新后仍能100%识别出“不可抗力”条款的位置和内容要在销售线索状态从“意向”变为“谈判中”时自动触发一封包含正确产品参数的邮件。它的评估核心是确定性、一致性、容错率、可维护性。这才是企业真金白银采购、部署、并指望它天天上班的核心诉求。ClawMark 的全部设计都锚定在第二条线上。它不关心你的Agent能不能写诗只关心它今天下午三点能不能把张经理提交的那张含手写金额的纸质发票准确无误地识别成结构化数据并填入正确的财务科目。这种聚焦决定了它拒绝一切“炫技式”指标。比如它不会设置一个“生成创意营销文案”的测试项因为这不是采购审批Agent的KPI它也不会用BLEU分数去衡量合同条款提取的“相似度”因为业务方只认一个结果条款原文是否一字不差、位置是否完全对应。这种“去学术化、强业务对齐”的思路是ClawMark 能被一线业务方真正接受的根本原因。我曾见过一个团队花三个月优化Agent在某个学术榜单上的分数结果上线后财务部第一天就退回了27张报销单原因是Agent把“交通费”和“市内交通费”当成两个不同科目处理了——ClawMark 会直接在“科目映射一致性”这一项上给这个Agent打0分。2.2 四维评估模型还原真实职场的考核逻辑ClawMark 没有发明新概念而是把企业HR最熟悉的“绩效考核表”原样搬进了Agent的世界。它构建了一个四维模型每一维都对应职场中一项不可妥协的基本功时效性Timeliness不是指模型推理有多快而是指端到端的业务交付周期。例如从报销单PDF上传到生成可提交的ERP草稿整个链路是否能在5分钟内完成ClawMark 会模拟高并发场景如月底最后一天同时涌入500份单据测量P95响应时间并与SLA服务等级协议对标。它甚至会记录“卡在哪个环节”是OCR识别慢还是规则引擎匹配耗时还是API调用超时这比单纯报一个“平均耗时2.3秒”有用得多。准确性Accuracy这是最硬的指标但ClawMark 的定义极其务实。它不计算字符级编辑距离而是定义“业务正确性”。例如在合同审查中“甲方违约金比例”这一字段只要提取的数值与原文一致且单位%标注正确就算100分如果数值对但漏了%或者数值小数点错了一位就是0分。它用的是“非黑即白”的业务校验逻辑而非“似是而非”的概率打分。这一点直接堵死了模型用“大概率正确”来蒙混过关的后门。鲁棒性Robustness专治各种“意料之外”。ClawMark 内置了一套“职场压力测试包”包括扫描件歪斜15度、发票上有咖啡渍覆盖关键数字、合同里夹杂手写补充条款、ERP系统临时返回一个未定义的错误码等。它不期望Agent在这种情况下还能完美工作但要求它必须给出明确、可操作的反馈“第3页第2行数字被遮挡请人工复核”或“收到未知错误码ERR-778已自动降级为邮件通知财务主管”。这种“优雅退化”能力才是生产环境的生命线。可解释性Explainability不是让Agent生成一段冗长的技术说明而是要求它能回答业务方最朴素的三个问题“你为什么这么填”、“依据在哪”、“如果我想改该动哪”ClawMark 会检查Agent输出中是否附带了原始证据截图、规则ID、决策路径日志。一次真实的审计中法务部指着一份合同报告问“为什么把‘管辖法院’定为上海浦东新区法院”Agent立刻回溯出依据是合同第12.3条“双方同意由甲方所在地法院管辖”而甲方注册地址在浦东新区——这个链条必须完整、可点击、可验证。这四个维度共同构成了一个闭环时效性保证它“能干活”准确性保证它“干得对”鲁棒性保证它“不出事”可解释性保证它“说得清”。缺一不可也互为约束。比如为了追求极致时效性而关闭所有校验步骤准确性必然崩盘为了100%准确而对任何异常都直接报错鲁棒性就为零。ClawMark 的评分算法正是通过这种内在的张力关系逼出一个真正平衡、可用的Agent。2.3 为什么拒绝“端到端黑盒测试”市面上不少评估方案喜欢搞一个“终极挑战”给Agent一堆杂乱的输入看它最终输出的结果有多接近理想答案。ClawMark 坚决反对这种做法理由很现实问题不可归因如果一个采购Agent在“供应商资质审核”环节失败了是OCR没识别出营业执照编号是规则库没更新最新版的《医疗器械经营许可证》格式还是知识图谱里缺少了该供应商的关联公司信息黑盒测试只能告诉你“总分低了”却无法指出病灶在哪一层。这就像医生只说“你身体不好”却不做血常规、不拍CT开发团队只能靠猜。成本不可控构建一个覆盖所有业务边界的“终极测试集”其工作量不亚于重新开发一遍Agent本身。而且业务规则是动态演进的今天有效的测试集下季度可能就全部过时。ClawMark 采用的是“模块化、可插拔”的测试设计。它的核心测试集Core Test Suite只覆盖最基础、最稳定的业务原子能力比如“识别日期”、“提取金额”、“匹配标准条款”。而针对具体业务场景的扩展测试Scenario Extension则由业务方用低代码方式自行配置——他们只需在界面上勾选“本次测试需覆盖电子签章有效性验证”ClawMark 就会自动加载对应的测试用例和校验规则。这种设计让评估工作本身也变成了一个可持续演进的、业务方能参与共建的过程。信任不可建立业务方最怕的不是Agent能力弱而是“不知道它弱在哪”。一个黑盒测试得分为78分的Agent业务方心里永远悬着一把刀。而ClawMark 给出的是一份带详细诊断的体检报告准确性92分扣分点对港澳台地区银行账号格式支持不足、鲁棒性65分主要失效场景PDF加密版本无法解析。这份报告让技术团队知道该补什么让业务方知道风险在哪也让管理层能据此做出“先上线但港澳台业务走人工通道”的理性决策。信任从来都是建立在透明之上的。3. 核心细节解析ClawMark 是如何“打分”的3.1 测试用例的“业务语义化”构造法ClawMark 最颠覆性的细节不在于它有多复杂而在于它如何“翻译”业务语言。传统测试用例往往是这样的{ input: invoice_20240512.pdf, expected_output: { amount: 12,500.00, date: 2024-05-12, vendor: XX科技有限公司 } }这看起来很标准但问题在于12,500.00这个字符串对业务方毫无意义。他们关心的是“这笔钱是不是应该计入‘研发费用-外包服务’这个科目”、“这个日期是不是在报销周期内上月26日至本月25日”。ClawMark 的测试用例是用业务规则引擎的语言写的// 测试用例ID: FIN-EXP-001 // 业务场景: 员工差旅报销 - 高铁票报销 // 规则ID: R-FIN-TRAVEL-HSR-AMOUNT // 描述: 高铁票面金额应全额计入差旅费-交通费 // 输入: [附件] high_speed_ticket_20240512.jpg (含清晰票面) // 预期动作: // - 自动识别出金额 ¥528.00 // - 自动匹配科目 差旅费-交通费 // - 自动校验日期 2024-05-12 是否在有效报销周期内 (TRUE) // - 输出结构化数据其中 account_code 字段值必须为 TRAVEL-TRANS看到区别了吗ClawMark 的用例本身就是一份微型的、可执行的业务说明书。它不描述“机器看到了什么”而是描述“业务要求它做什么”。这带来了两个巨大好处业务方能写、能审、能改财务总监不需要懂JSON语法他只需要打开ClawMark 的Web界面在“差旅报销”分类下找到“高铁票”模板然后修改“有效报销周期”这个参数就能实时生成新的测试用例。这彻底打破了“技术写测试、业务看结果”的割裂。测试与生产规则同源ClawMark 的规则ID如R-FIN-TRAVEL-HSR-AMOUNT直接对应生产环境中Agent所依赖的同一套业务规则库。这意味着当一个测试用例失败时开发人员可以直接跳转到规则引擎的编辑页面看到这条规则的当前版本、历史变更记录、以及所有引用它的其他流程。测试不再是一个孤立的“质检环节”而是业务规则生命周期管理的一部分。我亲眼见证过一个案例某次ClawMark 测试发现Agent在处理“含税价”和“不含税价”并存的发票时总是把“不含税价”填入了“总金额”字段。排查发现是规则库中一条关于“价税分离”的逻辑在上周的紧急热更新中被错误覆盖了。因为测试用例和生产规则共享同一个ID这个问题在热更新后的第一次ClawMark 全量回归测试中就被捕获避免了上线后造成全公司报销数据错误。3.2 “打分”背后的三重校验机制ClawMark 的分数不是简单地用“正确数/总数”算出来的。它有一套精密的、防作弊的校验流水线确保每一分都经得起推敲黄金标准校验Golden Standard Check这是最严苛的一关。ClawMark 会为每一个核心业务字段预设一个由领域专家如资深财务、法务手工标注的“黄金答案”。这个答案不是简单的字符串而是一个带元数据的结构体。例如对于“合同生效日期”黄金答案不仅包含2024-05-01还包含source_page: 3source_line: 12source_context: 本合同自双方签字盖章之日起生效。confidence_level: HIGH (专家确认无歧义)Agent的输出必须在所有这些维度上都匹配才能拿到该项的满分。如果Agent识别出了日期但标错了页码或者上下文引用错误这项就得0分。这杜绝了“蒙对答案”的可能性。业务逻辑链校验Business Logic Chain Check很多错误单看一个字段是对的但放在整个业务链条里就错了。ClawMark 会模拟完整的业务流。例如在采购审批中它会构造一个测试供应商A的信用额度是100万当前已占用95万本次订单金额为8万。Agent不仅要正确提取出“订单金额8万”还要基于规则引擎正确触发“需财务副总额外审批”的流程节点。如果Agent只提取了金额却没触发后续流程ClawMark 会在“流程合规性”这一项上扣分哪怕“金额提取”本身得了满分。这种端到端的链路校验才是真实业务的缩影。人工复核抽样Human-in-the-Loop SamplingClawMark 承认再精密的自动化也无法100%替代人的判断。因此它内置了一个智能抽样器。当自动化校验发现某个Agent在某一类场景如“手写体发票”的准确率低于阈值如85%时ClawMark 会自动将该类别的最近100个失败案例打包成一个复核任务推送给指定的业务专家。专家只需在界面上勾选“正确”或“错误”并选择错误类型如“OCR识别错误”、“规则匹配错误”、“知识缺失”。这些人工反馈会实时回流用于动态调整该类场景的自动化校验权重生成针对性的训练数据用于下一轮模型微调更新ClawMark 自身的“常见错误模式库”让未来的测试更精准。这三重校验层层递进既保证了评估的客观性又保留了业务专家的最终裁量权形成了一种人机协同的、可持续进化的评估闭环。3.3 “可解释性”评分不只是日志而是故事ClawMark 对“可解释性”的评分是我个人认为最具匠心的设计。它不满足于让Agent吐出一串调试日志而是要求它讲一个清晰、连贯、有证据支撑的“决策故事”。一个高分的可解释性输出必须包含以下四个要素缺一不可起点The Trigger明确指出是什么事件触发了这次决策。例如“检测到用户上传文件类型为 application/pdf且文件名包含关键词 contract”。依据The Evidence提供原始证据的精确引用。例如“在PDF第7页识别到文本 本合同一式两份甲乙双方各执一份结合上下文判定为双方法务签署页”。推理The Reasoning用业务语言解释中间逻辑。例如“根据规则库 R-LEGAL-CONTRACT-SIGN-REQ双方法务签署页必须包含双方授权代表的亲笔签名及公司公章。当前页面仅检测到甲方公章未检测到乙方签名区域。”结论与行动The Conclusion Action清晰陈述最终结论和下一步动作。例如“结论乙方签署不完整。行动向用户返回提示 请上传包含乙方授权代表亲笔签名的合同签署页并高亮显示PDF第7页的待签名区域。”ClawMark 的评分器会逐项检查这四个要素是否存在、是否准确、是否相互支撑。它甚至会分析“推理”部分的语言确保它使用的是业务术语如“授权代表”、“亲笔签名”而不是技术术语如“CNN特征图”、“attention权重”。有一次我们的Agent在“推理”部分写了一句“由于token embedding的余弦相似度低于阈值0.87故判定为无效签名”。ClawMark 直接在这项上打了0分并在报告中红色标注“推理过程未使用业务语言无法被法务同事理解”。这种设计倒逼开发者必须站在业务方的角度去思考我的Agent到底该怎么跟人沟通它不再是冷冰冰的代码而是一个需要融入业务团队、能与人协作的“数字同事”。这恰恰是“上班型 Agent”最本质的属性。4. 实操过程从零开始用ClawMark 给你的Agent打分4.1 环境准备与ClawMark 部署ClawMark 的设计理念是“开箱即用深度可定制”因此它的部署非常轻量。它不是一个需要K8s集群的庞然大物而是一个可以运行在一台16GB内存、4核CPU的普通服务器上的Docker应用。整个过程我实测下来从下载到第一个测试跑通不超过25分钟。第一步获取ClawMarkClawMark 是一个开源项目托管在GitHub上。你需要做的只是克隆仓库并检出稳定分支git clone https://github.com/clawmark-org/clawmark.git cd clawmark git checkout v1.2.0 # 使用最新的稳定版提示ClawMark 官方提供了预编译的Docker镜像无需本地构建。直接拉取即可docker pull clawmark/core:v1.2.0。官方强烈建议新手直接使用Docker方式避免Python环境依赖冲突。第二步配置核心参数ClawMark 的所有配置都集中在config.yaml这一个文件里。它被设计得极其直观几乎不需要任何技术背景就能看懂。以下是关键配置项的说明# config.yaml # --- 1. Agent接入配置 --- agent: type: http # 支持 http / grpc / direct_call 三种接入方式 endpoint: http://your-agent-service:8000/process # 你的Agent服务地址 timeout: 30 # 单次请求超时单位秒 # --- 2. 评估维度权重可根据业务重点调整--- scoring_weights: timeliness: 0.25 # 时效性占25% accuracy: 0.40 # 准确性占40%通常最重要 robustness: 0.20 # 鲁棒性占20% explainability: 0.15 # 可解释性占15% # --- 3. 测试数据源配置 --- test_data: core_suite: builtin # 使用内置的核心测试集 scenario_extensions: - name: finance-expense # 财务报销扩展包 path: /data/test/finance # 本地路径或 s3://bucket/path - name: legal-contract # 法务合同扩展包 path: https://example.com/testsets/legal-v2.json # --- 4. 报告与通知 --- reporting: output_format: html # 支持 html / json / pdf email_alerts: enabled: true recipients: [tech-leadcompany.com, finance-headcompany.com]注意scoring_weights这个配置是ClawMark 最体现业务思维的地方。它默认把准确性设为最高权重40%因为这是“上班”的底线。但如果你的业务场景对时效性要求极高比如实时风控你可以把它调高到50%同时降低准确性权重——这本身就是一个重要的业务决策信号ClawMark 尊重并体现了它。第三步启动服务一切就绪后启动ClawMark 服务# 使用Docker Compose推荐已包含Nginx和PostgreSQL docker-compose up -d # 或者使用纯Docker命令 docker run -d \ --name clawmark-core \ -p 8080:8080 \ -v $(pwd)/config.yaml:/app/config.yaml \ -v $(pwd)/data:/app/data \ clawmark/core:v1.2.0服务启动后访问http://localhost:8080你就能看到ClawMark 的Web控制台。首次登录默认用户名密码是admin/admin登录后第一件事就是修改密码。4.2 构建你的第一个业务测试集现在我们以一个真实的场景为例为一个“销售线索自动分级”Agent构建测试集。这个Agent的任务是根据CRM中销售线索的字段如公司规模、行业、联系人职位、历史互动次数将其自动分为S/A/B/C四个等级。第一步定义业务规则在ClawMark 控制台进入“测试集管理” - “新建业务场景”。填写基本信息场景名称sales-lead-scoring描述根据线索质量自动分配S/A/B/C等级用于销售团队优先级排序关联规则IDR-SALES-LEAD-SCORE-V3然后点击“添加规则”开始用自然语言描述业务逻辑规则1S级线索条件公司年营收 10亿 AND 联系人职位为 CEO OR CFO OR CTO动作分配等级 S依据《2024年销售线索分级SOP》第3.1条规则2A级线索条件公司年营收 1亿 AND (联系人职位为 VP OR Director) AND 历史互动次数 3动作分配等级 A依据《2024年销售线索分级SOP》第3.2条ClawMark 会将这些自然语言自动解析成可执行的规则DSL并生成对应的测试用例模板。第二步填充测试用例ClawMark 提供了两种填充方式手动填充在Web界面上为每条规则填写具体的输入数据JSON格式和预期输出。例如为规则1输入{ company_revenue: 12,500,000,000, contact_position: CEO, interaction_count: 5 }预期输出{grade: S}批量导入如果你已有历史线索数据ClawMark 支持CSV导入。CSV必须包含input_json和expected_output两列。ClawMark 会自动将CSV转换为标准的JSON测试用例。实操心得我建议新手从“手动填充”开始先做5-10个最典型的用例。等熟悉了流程再用批量导入。另外务必包含至少1个“边界值”用例比如公司年营收正好是10,000,000,000这能暴露很多隐藏的比较逻辑Bug。第三步运行测试一切就绪后点击“运行测试”。ClawMark 会将你定义的每个测试用例构造成HTTP请求发送给你的Agent服务接收Agent的响应启动三重校验流水线黄金标准、业务链、抽样生成详细的HTML报告。整个过程你可以在控制台实时看到进度条和日志。一个包含50个用例的测试集通常在2-3分钟内完成。4.3 解读第一份ClawMark 报告这是最关键的一步。一份ClawMark 报告不是一张冷冰冰的分数表而是一份详尽的“Agent健康诊断书”。我们来看一个真实的报告片段总体概览维度得分权重贡献分主要问题点时效性9525%23.75P95响应时间 4.2s (5s SLA)准确性8240%32.80扣分集中B级线索识别错误鲁棒性8820%17.60对公司营收字段为空时处理不当可解释性7515%11.25B级线索推理过程缺失总分85.4100%85.4注意总分不是简单平均而是加权求和。85.4分意味着这个Agent整体可用但存在明显短板。深度问题分析准确性维度报告会自动将问题聚类。在“准确性”部分它突出显示了问题类别B级线索误判为A级发生频次12/50 (24%)典型失败用例IDSL-TEST-023输入{company_revenue: 1,500,000,000, contact_position: VP of Sales, interaction_count: 2}Agent输出{grade: A}黄金标准{grade: B}失败原因分析Agent的规则引擎在计算interaction_count 3时将字符串2错误地与整数3进行了比较导致结果为true。这是一个典型的类型转换Bug。可解释性诊断在“可解释性”部分报告展示了失败用例的对比Agent输出的解释{reason: Rule R-SALES-LEAD-SCORE-V3 matched with confidence 0.92}ClawMark 期望的解释{ trigger: Input contains contact_positionVP of Sales, evidence: Rule R-SALES-LEAD-SCORE-V3, condition: contact_position IN [VP, Director], reasoning: Contact position VP of Sales matches the VP pattern in the rule., conclusion: Grade assigned as A. }报告明确指出“Agent的解释过于笼统未引用具体规则条件未说明匹配逻辑无法被销售经理理解”。这份报告的价值在于它把一个模糊的“效果不好”转化成了可执行的、带上下文的、技术负责人和业务负责人都能看懂的修复清单。开发团队知道该修哪个规则、哪个字段的类型销售总监知道目前A级线索里有24%是误判的需要人工复核CTO则能看到可解释性是当前最大的体验短板需要投入资源重构日志模块。5. 常见问题与排查技巧实录5.1 “我的Agent接口是gRPC的ClawMark 支持吗”支持而且是原生支持。ClawMark 的agent.type配置项除了http还支持grpc。你需要在config.yaml中这样配置agent: type: grpc endpoint: your-agent-service:50051 # gRPC服务地址 service_name: clawmark.v1.AgentService # 服务全名 method_name: ProcessRequest # 方法名排查技巧gRPC连接失败90%的原因是TLS证书问题。ClawMark 默认启用TLS验证。如果你的gRPC服务使用的是自签名证书需要在配置中添加grpc: insecure: true # 仅限测试环境生产环境请配置正确的CA证书5.2 “测试用例里怎么模拟一个‘网络超时’的场景”ClawMark 内置了强大的“故障注入”Fault Injection能力。你不需要修改你的Agent代码就可以在测试用例中为任意一次调用模拟各种网络异常。在创建测试用例时点击“高级选项”你会看到“故障注入”开关。开启后可以配置故障类型network_timeout网络超时、http_503服务不可用、slow_response响应延迟触发概率例如设置为10%表示10%的请求会触发此故障故障参数如timeout_ms: 5000表示超时时间为5秒ClawMark 会在发起请求前动态地向你的Agent服务注入这个故障。这对于测试Agent的“鲁棒性”维度至关重要。例如你可以设置一个测试集其中10%的请求会超时然后观察Agent是否会优雅地降级如返回缓存结果、或触发人工审核流程而不是直接崩溃。5.3 “ClawMark 报告里说‘可解释性’得分低但我明明加了日志为什么”这是一个高频误区。很多开发者以为只要在代码里print(Im processing...)或logger.info(Rule X matched)就算实现了可解释性。ClawMark 的标准要严格得多。它要求可解释性信息必须是结构化、可解析、与业务强关联的。ClawMark 会检查Agent的响应体Response Body寻找一个名为explanation的JSON字段。这个字段的结构必须严格符合ClawMark 的Schema{ explanation: { trigger: string, // 必填触发事件描述 evidence: string, // 必填原始证据引用 reasoning: string, // 必填业务逻辑推理 conclusion: string, // 必填最终结论 confidence: 0.95 // 可选置信度0.0-1.0 } }如果你的Agent只是在HTTP Header里加了一个X-Debug-Info或者在响应体的其他字段里写了日志ClawMark 是完全看不到的。它只会检查这个特定的、命名规范的explanation字段。实操心得我建议在Agent的代码里专门封装一个build_explanation()函数。这个函数接收所有决策输入然后严格按照ClawMark 的Schema组装出explanation对象。这样可解释性就不再是事后补救而是从设计之初就内建的能力。5.4 “ClawMark 的核心测试集Core Test Suite包含哪些内容”ClawMark 的核心测试集是经过大量企业实践沉淀下来的、最基础、最通用的“上班能力”测试。它不针对任何具体业务而是覆盖所有“上班型 Agent”都必须具备的原子能力。目前v1.2.0包含以下六大类共127个标准化用例类别用例数量举例说明业务意义文本理解22识别中文日期2024年5月12日、5/12/2024、May 12, 2024所有涉及时间的业务都依赖此能力数值处理18正确解析带千分位、货币符号、百分比的数字¥1,250.00、5.2%财务、销售、供应链等核心场景结构化提取25从非结构化文本中精准提取姓名、电话、邮箱、地址等字段CRM、客服、人事等系统对接基础逻辑判断19根据多个条件组合输出布尔结果如if A and not B or C审批流、风控规则、分级策略的核心文档处理23处理PDF、Word、Excel、图片等多种格式的输入保持内容完整性企业日常办公文档的绝对主流错误处理20对空输入、格式错误、缺失字段等异常情况