5 万张国产卡训出 1.6 万亿模型:国产算力第一次「上主桌」 6 月 30 日美团正式发布LongCat-2.0。数字先摆出来总参数 1.6 万亿MoE 架构每个 Token 大约激活480 亿参数预训练吃了超过 35 万亿 tokens训练、推理全程跑在国产算力上峰值规模超过 5 万张国产算力卡——按目前公开信息这是国产平台上完成的最大规模训练任务之一。测试版在 OpenRouter 上的总调用量已经挤进全球前三具体排名以平台公开页为准。美团还宣布Infra 框架、推理引擎、模型权重将陆续开源。我看完发布会稿和几家媒体的解读第一反应不是「美团也要做基模了」——是国产算力终于有人敢、也有能力把「万卡」三个字写进正式新闻稿里。以前行业里讲「国产卡能训大模型」常见画面是几百卡 PoC、跑通、发通稿这次是从预训练到推理部署的全流程而且参数档直接拉到万亿。这差的不是一个小数点是整条供应链有没有被「上大活」验证过一遍。一、5 万卡到底意味着什么先别和「参数海报」混在一起很多人刷到1.6 万亿脑子里自动对标 GPT、DeepSeek 的榜单。参数当然重要但对国产供应链来说更硬的一行字其实是峰值 5 万 国产卡稳定跑完一轮前沿级预训练。可以把规模想成三档——不用背术语记画面就行档位你常见的说法卡数量级对供应链的含义验证档「能跑」「能训小模型」几十几百卡驱动、框架、单机稳定性刚及格规模档「万卡集群」「行业主力」数千上万卡网络、存储、容错、调度要工程化前沿档「万亿 MoE」「长周期无回滚」5 万卡级峰值全栈——芯片、互联、机房、运维一起承压LongCat 打的是第三档。Hugging Face 上的技术说明里写了一句很工程师的话预训练跨越数百万 accelerator-hours且没有 rollback、没有不可恢复的损失尖峰——翻译成人话就是不是赌一把运气训完了是国产平台扛住了长时间、大规模的「真训练」。几个和规模绑在一起的技术点值得顺带知道不用全会知道「为什么难」就够•MoE 零计算专家复杂 Token 多算、简单 Token 少算——在卡数固定时抠利用率万卡集群里利用率差几个点就是几千张卡的白烧。•1M 超长上下文不只是「输入更长」是内存、互联、推理引擎都要跟着改测试版能在 Claude Code、Hermes 等 Agent 框架里被大量调用说明推理侧也接得住。•ScMoE 等架构改动属于「同样多的卡尽量多产出」——和国产芯片算力利用率直接相关。所以5 万卡不是营销整数是一次「国产算力栈」的极限测试。测过了后面的人才敢照着这个量级下采购单。二、美团训出来的不只是模型——是一条「模芯协同」产线中证网报道里有一条很容易被忽略2023 年起美团就和国产算力厂商推「模芯协同」——从小规模验证一路做到万卡级容错恢复、NPU 确定性计算、利用率提升。这什么意思过去国产链路上常见痛点不是「单卡绝对算力不够」而是软件栈框架、算子、编译器跟不跟得上新模型结构集群工程一张卡坏了整 job 会不会拖死确定性计算能不能保证同样的输入分布式下结果可复现运维Know-how谁有万卡级的排障手册——不是 PPT是7×24 值班表。LongCat 相当于美团拿自己的业务场景把这条链从头跑到尾做了一次「整机厂路试」。报道里引述的口径是国产算力卡的计算正确性和精度已足够支撑前沿模型全流程训练对激活存量国产芯片是一次重要突破。对国产供应链的利好可以拆成四层看层级谁受益利好从哪来芯片 / 加速卡国产 NPU、ASIC 厂商5 万卡级实装案例→ 大厂招标从「试点」改「主标」存量芯片有地方消化基础软件框架、推理引擎、调度美团将开源 Infra 推理引擎→ 万卡工程经验可复制不必每家从零踩坑系统集成服务器、网络、存储、IDC 总包万卡集群交付标准被抬升互联带宽、机柜功率、液冷比例写进规格书应用方互联网、金融、制造等大客户「全国产训万亿模型」成参照物 → 国产化采购有样本、有底气这和DeepSeek 在昇腾等国产栈上做验证是同一条线的不同节点一个偏算法训练效率一个偏超大规模工程商业闭环。两条线叠在一起市场叙事会从「国产能替代吗」变成「国产敢不敢上大活、谁先来」。三、供应链动完之后底下那层「机房规格」也会跟着改模型和芯片的故事最后都要落在机房——这一步我不展开成卖散热但不能假装不存在。5 万卡不是 5 万张卡随便堆训练峰值时功率密度、网络热、CDU 和一次侧容量都是按集群级设计的。LongCat 既然推理也要在国产栈上大规模部署后面还有7×24 调用——和 7/1 Agent 18h 那篇 说的是同一条线负载从「训完就歇」变成「长期在线」和 6/25 推理算力部署 122% 也同向只是本篇不复述那张倒推表。对做基建的人记三句就够训练万卡按峰值功率 集群网络建风冷能补的角落越来越少。推理常开机柜规格按平均负载想不能只看训练 job 的尖峰。国产栈 高密柜采购评审里液冷、CDU、一次侧会从「可选项」变成和芯片绑定的系统参数。拿我们冷泉能控自己在做的万卡级智算中心项目来说甲方问法已经在变不再只问「单柜多少 kW」而是问「这套国产芯片 这套模型一次侧和分区怎么配才跑满」——芯片清单定了机房规格就得跟着一张表改不能等 burn-in 跑完再补。四、开源计划可能比模型权重更值钱美团宣布开源Infra 框架、推理引擎、模型参数时间表以官方为准。如果兑现行业收益可能大于又多一个 1.6T 权重文件•中小厂、行业云不用从零写万卡调度、容错、MoE 推理•芯片厂拿到真实 workload对齐算子和驱动•集成商有可对照的工程基准投标时少扯皮。开源把 LongCat 从「美团自己的胜利」变成国产 AI 栈的公共资产——这和只发一篇论文或只放 benchmark 不一样是把「5 万卡怎么训稳」的知识往外搬。五、LongCat 跟你有关的不在榜单上——在采购清单和机房规格1.看 AI 新闻别只盯榜单——5 万卡国产训推的意义是采购清单和供应链话语权变了模型强不强最后都要落在谁家的卡、谁家的机房。2.做 ToB、做集成、做运维——接下来问客户的不该是「要不要国产化」而是「你的场景需不需要万卡档还是先吃 LongCat 开源下来的工程红利」。3.别被「国产便宜 demo」带偏——LongCat 对外称训推成本低于全球其他万亿级模型口径来自官方待更多第三方验证但方向很清楚拼的不只是芯片单价是 utilization 工程效率。4.和液冷/基建的关系——普通读者只要知道算力主桌换国产底下机房规格一定会重算一遍。六、两个常见追问简答Q15 万卡是不是国内第一次A公开信息里LongCat-2.0 是首个全程国产算力完成训推全流程的万亿参数模型峰值超 5 万卡——此前更多停留在更小规模的验证或单点训练。具体排名以官方与第三方审计为准。Q2对国产供应链是不是「利好所有环节」A逻辑上利好节奏上分层。芯片、软件、机房最先受益终端用户间接受益更多国产选项、可能更低的推理成本。不是每一环节明天就爆单——而是大单论证从 0 到 1 之后招标话术和规格书都会变。收束LongCat-2.0 最值得带走的一句话不是1.6 万亿本身而是国产算力第一次以「5 万卡全流程」的身份坐在了大厂基模训练的主桌上。后面芯片、软件、机房、运维都会按这个量级重新报价、重新验收、重新写 SLA。模型榜单还会卷但供应链已经少了一个借口「国产只敢小规模试试」。