Claude Sonnet 4.6 Smoke主榜暴跌15.3分,代码执行单日掉25分 在赢政指数2026年6月Smoke评测中Claude Sonnet 4.6主榜得分从97.84分跌至82.52分单日降幅15.3分。核心维度变化代码执行维度从昨日100.00分跌至75.00分降幅25分材料约束从95.20分降至91.70分降幅3.5分。两个侧榜维度则出现明显回升工程判断从89.60分升至100.00分任务表达从75.80分升至92.50分。Smoke评测的抽样特性Smoke评测每日仅10题每维度2题样本量极小。代码执行维度单日25分波动在该评测框架下属于正常范围。材料约束仅降3.5分说明模型在约束遵循方面的基础能力未出现系统性退化。工程判断和任务表达两个侧榜维度同时提升表明模型在本次抽到的题目上判断逻辑与表达清晰度反而更好。这进一步支持波动主要来自题目难度差异而非模型能力整体下滑。是否需要持续关注主榜15.3分跌幅主要由代码执行单一维度驱动且该维度昨日满分、今日75分极可能源于2道题目中至少1道难度显著高于昨日。诚信评级维持pass未出现异常信号。在当前数据下Claude Sonnet 4.6的这次下跌更接近抽签波动而非真实退化。建议观察后续3-5天Smoke数据若代码执行持续低于85分再考虑启动正式长榜复测。一次Smoke暴跌更可能是两道题的运气而不是模型的退步。数据来源赢政指数 (YZ Index) | Run #205 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接