技术深度研究)
引言:为什么需要重排序?在信息检索(IR)和检索增强生成(RAG)系统中,“检索-重排-生成”的三阶段流水线已成为事实标准。第一阶段检索器(如BM25或稠密检索)需要从百万级文档库中快速筛选出候选集——速度优先,精度次之。然而,这导致了一个根本矛盾:检索快,但排序粗。召回的文档可能包含大量语义相关但关键性不足的内容,噪声直接进入生成阶段,严重降低回答质量。重排序正是在这个矛盾点上切入的。它位于初始检索和最终生成之间,充当“质检员”和“精算师”——对初步检索到的大量候选文档(例如100-1000个)进行重新评分和排序,将最相关、最准确的少量文档(例如5-10个)排在顶部。Rerank的技术本质:从“快速找到可能相关的文档”升级为“精准判断哪些文档最相关”。它以计算换精度,用更昂贵的模型在更小的候选集上做精细化的相关性判断。一、技术演进:从统计方法到LLM重排序重排序模型的发展经历了清晰的四个阶段。1.1 第一阶段:启发式与统计方法早期重排序依赖文档长度、关键词密度、TF-IDF等统计特征进行二次打分。原理简单、计算快,但缺乏语义理解能力,无法处理同义词和复杂查询。1.2 第二阶段:学习排序(Learning to Rank)使用机器学习模型(如RankSVM、LambdaMART)组合多种特征预测相关性。特征是人工定义的,泛化能力有限。1.3 第三阶段:深度学习重排序器以交叉编码器(Cross-Encoder)