
先把结论摆这儿8 万条用户反馈,纯人工分类我们外包报价小两万、排期两周;后来我搭了个小助手批量打标签,跑完核心标注大概花了我一天半搭小半天跑,直接成本压到三位数,准确率人工抽检 91%。下面是这笔账怎么算出来的,以及哪几处我踩了坑。事情起因我们 App 后台攒了 8 万多条用户反馈,产品想按功能建议/Bug/吐槽/夸奖/其它五类分一遍,顺手再标个情绪。以前这活儿是丢给运营妹子手工点,一条条看。这次量太大,运营直接摆烂说干不完。我本来想自己写个分类器,fasttext 拉一版——结果光是标训练集就要先人工标几千条,绕回去了。后来想,大模型不就是干这个的吗。我没写什么训练流程,用了个零代码就能配智能体的工具,拖几下、把分类规则和五个标签的定义写进提示词、再挂个现成大模型,十几分钟出了第一版标注小助手。说实话第一版烂得很,把你们这破更新判成了夸奖(它大概看到更新觉得是正面词),情绪全标错。改了两版提示词、补了几个反例,才稳下来。把账拆开算我把人工和这套小助手的活儿,按同一批 8 万条做了个对照。数字是真实跑下来的,不是拍的:项目纯人工(外包)大模型批量打标签单条耗时约 12 秒/条约 0.8 秒/条(含排队)8 万条总耗时≈ 266 工时 / 两周排期跑批约 3.5 小时我的搭建投入0(但要管交付)≈ 1.5 天搭调直接成本报价 ¥18,000API 调用 ≈ ¥260准确率(抽检 500 条)94%91%改一次分类口径重新培训返工改提示词重跑,~10 分钟算下来单看钱,差了 60 多倍;算上排期,两周变半天。准确率是唯一让我没那么得意的地方——人工 94 我 91,差那 3 个点。但有个隐藏好处运营自己说的:口径一变,人工那边等于推倒重来,我这边改两句话重跑就行,这个可返工成本才是真省的地方。那 9% 错在哪抽检挑错最有意思。错得最多的是反讽——哇你们客服真专业啊,模型经常当成夸奖。还有一句话夹两类的,建议加个夜间模式,不然 Bug 一堆,到底算建议还是 Bug,模型每次随缘,人也分不清,这种我后来干脆让它输出双标签。另一个脏细节:跑到第 6 万条左右,有一批反馈是粤语夹杂的,准确率肉眼下滑,这部分我最后还是挑出来人工过了一遍。所以别指望它一把梭——它干的是把 95% 的体力活清掉,剩下 5% 的硬骨头还得人啃。我的取舍要我说,这玩意儿不是来替代人的,是来把人从点 8 万次鼠标里捞出来,让人只盯那几百条它拿不准的。准确率差的那 3 个点,对内部数据分析够用了;真要上线给用户看的场景,我不敢全自动。还有个软肋:搭起来快,但提示词调优这事儿没有捷径,你得反复喂错例。我那一天半,八成时间花在跟它吵架上——你看着它把吐槽当夸奖,真的会上头。如果你手上也压着一堆待分类的脏数据,真心建议先别急着写代码,拿这种零代码配智能体的思路试一版,跑通了再决定要不要工程化。我现在这小助手已经常驻了,每周自动把新反馈分好类丢进表格,运营再没找我抱怨过。(模型这块我直接调的讯飞星辰 MaaS,现成大模型 API,没自己部署也没折腾算力。你们批量打标签都用啥模型扛的,评论区聊聊准确率咋样?)