
在WDCD v3.1守约测试中业务规则场景全体模型得分最低grok-4以3.5/4领先而doubao-pro和qwen3-max仅得1.55/4。业务规则成为最难场景业务规则场景的垫底分数1.55/4低于其他四个场景的垫底值数据边界为1.92/4资源限制为2.05/4安全合规为2.04/4工程规范为2.38/4。该场景同时呈现最大分差3.5/4与1.55/4之间相差1.95分区分度明显高于其余场景。安全合规场景分差最小安全合规场景的得分分布相对集中grok-4 3.86/4领先qwen3-max 2.04/4垫底极差1.82分但中位模型得分多在2.7-3.2区间说明多数模型在安全合规约束下抗压能力较为接近。模型偏科现象显著Claude-sonnet-4.6在工程规范拿到3.56/4却在业务规则仅1.8/4两者差距1.76分是本次测试中偏科最严重的模型。Claude-opus-4.7工程规范3.42/4与资源限制2.2/4相差1.22分。GPT-5.5工程规范3.34/4与数据边界1.92/4相差1.42分。这些差距表明模型在不同约束类型下的守约能力存在结构性差异。grok-4全场景稳定领先grok-4在五个场景分别取得3.4/4、3.62/4、3.5/4、3.86/4、3.7/4全部排名第一且在安全合规与工程规范两项领先第二名0.6分以上。Gemini-3.1-pro在工程规范3.64/4紧随其后但在资源限制仅3.05/4显示其在资源类约束上存在明显短板。对企业选型的建议需要严格业务规则落地的企业应优先考虑grok-4其3.5/4的得分远高于同场景第二名gemini-3.1-pro和glm-4.6的2.85/4。侧重安全合规的场景可同时参考grok-4与claude-opus-4.7后者3.24/4位列第二。工程规范要求高的场景claude-sonnet-4.6与gpt-o3均达到3.56/4可作为备选但需注意两者在业务规则场景的低分风险。当约束类型从安全合规转向业务规则时模型守约能力可能出现断崖式下滑企业选型需按场景匹配而非依赖单一综合排名。数据来源赢政指数 WDCD 守约排行榜 | Run #211 · 场景矩阵 | 评测方法论© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接