林伽一 · AI科技日报 |LongCat-2.0宣称中国芯片突破,Claude Sonnet 5自报分数解析 Anthropic同日发布Sonnet 5并公布其基准测试成绩、解除Fable/Mythos出口管制、推出Claude Science科学工作台。美团则发布LongCat-2.0并宣称这是首个在中国芯片上训练和运行的万亿参数模型。在技术层面OpenAI据称将推理成本降至原来一半以下管道解码技术正在重新定义GPU利用率上限英格兰银行开始审查AI代理的金融监管框架。本文从大模型架构、推理优化、智能体基础设施和产业趋势四个维度对当前AI技术栈的最新进展进行解析。大模型架构Sonnet 5的中端定位与LongCat-2.0的MoE路线根据Anthropic官方公布的数据Claude Sonnet 5在SWE-bench Pro上得分63.2%Terminal-Bench 2.1得分80.4%定价每百万token输入3美元、输出15美元首月优惠价2美元/10美元。相比旗舰Opus 4.8Sonnet 5的定价明显更低但性能接近——这是一种典型的高性价比中端市场定位瞄准对成本敏感但需要编程和推理能力的开发者群体。在实际部署中Rakuten使用Sonnet 5独立处理生产代码PR的测试和验证Zapier利用其完成Salesforce账户层级更新和发布通知生成等多步管理工作流。值得关注的是Anthropic同时披露Sonnet 5在Firefox 147浏览器漏洞测试中零成功率——这一安全指标的表现与该公司近期获得美国政府安全认可的策略一致。LongCat-2.0采用1.6万亿参数MoE混合专家架构每次推理仅激活约480亿参数——不到总参数的3%。美团宣称这是首个在中国芯片上完成训练和运行的万亿参数模型。如果这一声明得到独立验证将标志着中国在AI芯片自主路线上取得重要进展。在SWE-Bench Pro上LongCat-2.0超越了Google Gemini 3.1 Pro但仍落后于GPT-5.5验证了MoE方案在编程基准上的竞争力。# MoE模型路由机制的简化示意 # LongCat-2.0采用稀疏激活每次推理仅激活480亿参数 class MoERouter: def __init__(self, num_experts256, top_k8): self.num_experts num_experts self.top_k top_k self.gate_network nn.Linear(4096, num_experts) self.experts [ExpertModule() for _ in range(num_experts)] def route(self, hidden_states): 路由逻辑选择top-k个专家处理当前token gate_logits self.gate_network(hidden_states) top_k_logits, top_k_indices torch.topk(gate_logits, self.top_k, dim-1) expert_outputs [self.experts[idx](hidden_states) for idx in top_k_indices] return self.combine(expert_outputs, top_k_logits) # 关键指标激活参数≈480亿总参数1.6万亿激活率≈3%推理优化GPU气泡问题与管道解码的工程解法LLM逐token生成导致的GPU气泡问题——GPU等待CPU完成前置工作时空转——长期以来制约着推理效率。管道解码Pipeline Decoding通过重叠CPU和GPU的计算阶段来隐藏这些气泡当CPU仍在处理第N个token时GPU已提前启动第N1个token的计算。据The Information报道OpenAI通过软件优化将推理所需GPU数量从数千降至仅数百个推理成本已降低一半以上。# 管道解码的简化实现思路 # 核心重叠CPU预处理和GPU推理阶段 class PipelineDecoder: def __init__(self, model, gpu_streams2): self.model model self.streams [torch.cuda.Stream() for _ in range(gpu_streams)] def decode(self, prompt, max_tokens1024): tokens self.tokenize(prompt) pending [] for step in range(max_tokens): stream_idx step % len(self.streams) with torch.cuda.stream(self.streams[stream_idx]): if pending: next_input self.cpu_preprocess(pending.pop(0)) else: next_input self.cpu_preprocess(tokens[-1]) output self.model.forward(next_input) pending.append(output) # 气泡窗口GPU利用率从~60%提升至~85-95% return self.detokenize(pending)智能体基础设施A2A网关与记忆管理的标准化AWS发布的无服务器A2A网关解决了多智能体系统的基础设施挑战20个独立智能体需要190条点对点连接才能实现全互联而集中式路由将这一拓扑简化为星型结构——每个智能体只需与网关通信。架构上采用API Gateway Lambda DynamoDB支持JSON-RPC和HTTPJSON/REST两种协议绑定以及SSE实时流式响应。网关还支持细粒度权限控制可以对不同智能体的调用范围进行策略级别的隔离这对生产环境中的安全合规至关重要。同时AgentCore Memory的元数据过滤功能在151个问题的长期记忆基准测试中将QA准确率从40%提升至64%其中上下文边界相关问题的准确率从仅16%跃升至69%。其三层架构——配置阶段声明索引键、LLM提取阶段定义元数据、检索阶段按属性过滤——为长会话智能体的记忆管理提供了可复用的工程模板。Amazon Bedrock的开源Model Profiler工具进一步降低了模型选择的门槛聚合120基础模型的元数据、定价、区域可用性和配额信息通过7个数据源每日自动更新数据管道采用Step Functions编排完成时间8-12分钟97%缓存命中率。当A2A协议解决了怎么连、AgentCore Memory解决了怎么记、Model Profiler解决了怎么选之后多智能体协作的基础设施骨架已经逐渐清晰。趋势判断趋势一MoE架构从奢侈品走向标配。LongCat-2.0的MoE稀疏激活设计加上其宣称的中国芯片训练路线表明在先进制程受限时通过架构创新实现参数规模突破是可行的技术路径。趋势二推理成本进入软硬协同下降通道。OpenAI软件优化据称GPU从数千降至数百 管道解码利用率提升25-35% Etched专用芯片50亿美元估值/10亿美元订单三条路径从算法、工程和硬件层面同时推进推理成本下降。趋势三智能体通信协议正在标准化。A2A协议和AgentCore Memory分别是多智能体系统的网络层和存储层两者的成熟将推动智能体生态从单体应用进入微服务协作阶段。后续关注关注LongCat-2.0中关于中国芯片训练路线的声明是否获得独立验证OpenAI推理成本优化在API定价上的具体体现时间以及Etched专用芯片的量产进度。资讯来源本文综合整理自 AI News、Ars Technica、AWS ML Blog、NVIDIA Blog、TLDR、TLDR AI、The Code、arXiv 等公开信息源。【免责声明】 本日报为AI行业每日公开信息汇总整理仅供读者快速了解行业动态不构成任何投资建议。所有信息均来源于公开渠道本账号不对其准确性、完整性和时效性作出任何保证。AI行业技术与政策变化迅速内容发布后可能发生更新请以官方最新信息为准。据此做出的任何决策全部风险自担。© 2026 林伽一 · AI科技日报