大模型token成本怎么拆开算账 先把结论甩前面大模型调用账单失控九成是因为你把 input、output、cache 三种 token 混在一起当一个数看。拆开算你会发现真正烧钱的往往不是你以为的那部分。我上个月就是这么把一个内部问答服务的月成本从 ¥2400 砍到 ¥780 的过程比想象的无聊但有用。一、先看我当时那笔糊涂账事情是这样。我们组有个跑了俩月的客服问答接口接的是某主流大模型 API每天大概 8000 次调用。财务月底甩给我一张截图说这玩意儿怎么越来越贵让我查。我一开始也懵盯着总价看了半天看不出门道。后来把每次请求的 usage 字段prompt_tokens/completion_tokens/cached_tokens单独 log 出来跑了一周采样才算看清。下面这张是我按真实采样拍的单次平均账单价按当时那家的报价单位是元/百万token凑个整方便算token 类型单次平均量单价(元/M)单次成本占比input系统提示知识片段320040.012871%output回答正文380120.0045625%cache 命中复用部分0100%合计——0.0174100%看出问题没我之前一直以为是 output 贵、回答太啰嗦琢磨着去压回答长度。结果一拆——真正的大头是 input占了七成。每次请求我都把一整段两千多字的系统提示 检索回来的知识片段原样塞进去而且这段内容八成是重复的、几乎不变的。output 那点钱反倒是小头。我当时有点惊到方向差点搞反。二、拆完之后钱该往哪省把三类拎清楚省钱路径自然就出来了优先级照着占比来1. input 大头 → 上 cache最划算那段两千多字的固定系统提示每次都全价重算太亏。开了 prompt caching 之后命中部分的单价直接降到原来的四分之一甚至更低各家折扣不一样我那家是命中按 1/4 计。光这一步input 成本就掉了一半多。2. 检索片段 → 砍冗余RAG 召回我原来一股脑塞 8 段进去其实前 3 段就够用了。把 top_k 从 8 调到 3input 又瘦了一圈回答质量肉眼看没掉。3. output → 最后再管确实有几个场景回答太长加了句控制在 150 字内的约束。但说实话这步省的钱最少我放最后做。改完再采样一次的对比账项改之前改之后input 单次成本0.01280.0041output 单次成本0.004560.0030单次合计0.01740.0071按 8000次/天月成本¥2400¥780省钱结论一句话先 log 出三类 token 的真实占比谁占大头先治谁别上来就瞎压 output。cache 是性价比最高的那一刀前提是你的 input 里有大块重复内容——客服、文档问答这类几乎都满足。三、一个真实跑题算账的活儿我后来甩给了个小助手每天手动扒 log、按单价乘一遍、出对比表烦。第三天我就不想干了。后来我用那种零代码就能配智能体的工具拖了个小助手出来——没写一行代码把每天的 usage 数据喂给它配了张单价表和我那套算账逻辑让它自动出日报。现在每天早上它把昨天三类 token 各花了多少、环比涨没涨、哪个接口异常直接推给我。搭这玩意儿前后大概花了我一个下午中间配检索那块卡了会儿第一版输出干巴巴的全是数字没人话调了两轮提示词才像样。它也就干这种杂活复杂判断还得我自己上。但每天省下来扒数据那二十分钟挺香。成本这东西不拆开你永远以为是别处在烧钱。你们的大模型账单大头是 input 还是 output评论区报个数我猜十个里有七个跟我一样、栽在 input 上。算账小助手挂的现成大模型 API 我走的 讯飞星辰MaaS现成调没自己折腾部署和算力。