全新强化学习框架 BeautyGRPO：重塑真实人像-北京尧图网络科技有限公司

行业困局审美探索与高保真的“零和博弈”高质量的数字人像精修早已成为移动影像时代的高频刚需。然而对 AI 而言这是一项极为严苛且微妙的任务它既要像手术刀般精准剥离痘印、斑点等微小瑕疵又要让肌肤透出真实的“自然呼吸感”并完整保留诸如痣等极具辨识度的原生特征。本质上这是一场“原生高保真”与“人类主观审美”之间的极致博弈。现有的 AI 模型往往受限于底层训练范式难以做到两全其美。现有痛点 1SFT 的“刻板拟合”局限。目前主流的修图模型如 RetouchFormer或通用编辑模型NanoBanana大多依赖监督微调SFT范式迫使模型陷入对参考图的“像素级严格拟合”。模型并未真正捕捉人类审美逻辑一旦训练数据存在瑕疵便会全盘继承这些错误标注。因此在泛化到真实场景时极易出现瑕疵残留或因粗暴的“过度磨皮”导致人脸呈现失真的“硅胶质感”。现有痛点 2RL 的“随机失控”副作用。为突破 SFT 局限文生图领域尝试引入在线强化学习RL如 FlowGRPO引导模型对齐人类审美。然而这类方法在采样中往往需要注入随机噪声来驱动探索。对于极度依赖保真度的人像精修而言这种不断累积的随机漂移Stochastic Drift是致命的会严重破坏原图的高保真流形并引入明显的视觉伪影。核心挑战究竟该如何打破这一“零和博弈”在追求极致美学探索的同时实现原生特征的绝对保真二、技术逻辑细粒度审美量化与动态路径引导我们提出了BeautyGRPO框架从偏好量化与采样机制两个维度入手解决上述问题2.1 构建细粒度评价体系FRPref-10K 与多维奖励模型现有的奖励模型大多聚焦语义对齐和整体美学质量评估缺乏对人像微小感知差异的敏锐度。为此我们构建了业内首个包含 10,000 对高清精修偏好对的大型数据集FRPref-10K将审美标准拆解为 5 个细粒度维度皮肤平滑度、瑕疵去除、纹理质感、清晰度、身份特征保留。在此基础上我们结合视觉大模型VLM与人类专家校准训练出具备高感知能力的多维奖励模型。该模型能够敏锐捕捉图片之间的肌肤纹理、光泽质感等微小差异为强化学习提供高质量的偏好对齐信号。2.2 可控 RL 探索动态路径引导DPGDynamic Path Guidance针对审美探索与高保真的冲突DPG 在采样过程中构建了一种柔性的“锚点约束”机制。算法在每一步会规划一条指向高质量参考锚点Anchor的确定性轨迹将其与原始 SDE 采样方向结合计算出专属的“纠正向量Correction Vector”。借助时间步自适应的权重衰减策略DPG 对生成轨迹进行了精细化控制采样前期高噪声阶段赋予纠正向量较强的引导权重强力纠正随机漂移将生成轨迹拉回高保真流形确保面部结构和光影的稳定。采样后期细节生成阶段动态降低纠正向量的引导强度释放更多随机探索空间使模型能在安全边界内寻找超越高质量锚点、更契合人类审美的修图结果。三、实验结果Figure 1: 客观指标全面领先跨越“感知-失真”困境指标选择为避免全参考指标如 PSNR带来的“感知-失真困境”采用 NIMA、MUSIQ、MANIQA 等无参考NR美学指标。评估结果BeautyGRPO 在各项 NR 指标上均显著优于现有专精及通用修图模型同时 ArcFace 身份保留得分稳居0.95证明其在提升美感的同时未破坏面部特征。Figure 2: 视觉效果直观对比拒绝油光还原呼吸感传统基线常陷入两难极端——要么对微小瑕疵“漏修”要么因粗暴磨皮导致肌肤呈现失真的“塑料油光感”。BeautyGRPO精准剥离暗沉与痘印重塑细腻毛孔与真实光泽。在完整痣等原生特质的同时完美还原肌肤的“自然呼吸感”呈现通透、高级的影像质感。Figure 3: 主观双盲偏好测试高度契合大众审美测试设定邀请 100 名涵盖不同年龄段与具备专业修图经验的用户开展了严格的双盲偏好与打分测试。主观偏好断层领先BeautyGRPO 以高达63.25%的偏好胜率位列第一对第二名12.00%形成碾压式优势切实印证了优化结果高度契合大众的审美预期。审美对齐精准拟合测试进一步证实专属多维奖励模型的评分与人类真实评分展现出了极高的对齐度强有力地证明了该模型真正“读懂”了人类的审美逻辑。Figure 4: 优异的基座泛化能力即插即用将 BeautyGRPO 框架直接应用于通用的 Qwen-Image-Edit 大模型有效化解了原模型在面部编辑时易引发的“身份偏移”和“过度平滑”问题展现出极强的泛化潜力。四、结语探索计算摄影的“真实之美”BeautyGRPO 成功让 AI 摆脱了死板的修图套路在“极致美学”与“原生保真”之间找到了完美的平衡。这项 CVPR 2026 顶会成果的背后印证着 vivo 蓝图影像实验室vivo BlueImage Lab在计算摄影与 AIGC 前沿的持续深耕。秉承“拒绝同质化粗暴磨皮还原个人特质与自然真实”的美学哲学团队期待此类底层算法的突破能够加速落地终端为用户的每一次日常记录赋予更专业、更高级的影像质感。vivo BlueImage Lab蓝图影像创新实验室主要负责移动影像算法创新包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。致力于不断提升 vivo 移动影像的算法能力使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用努力为用户提供更加丰富和便捷的影像体验。欢迎持续关注 vivo 影像技术获取前沿技术创新经验分享与热招岗位信息。

全新强化学习框架 BeautyGRPO：重塑真实人像

相关新闻

通用PLM根本撑不住！汽车/芯片/新能源研发的痛，它懂[特殊字符]全星研发项目管理APQP软件系统来救场

存储引擎内核剖析：B+Tree 与 LSM-Tree 的性能博弈，以及如何做可信的 Benchmark

FMEA×控制计划×PPAP自动联动，这才是研发管理的天花板-全星研发项目管理APQP软件系统#APQP #PLM #汽车电子 #芯片研发 #新能源 #项目管理软件

最新新闻

OpenCore Legacy Patcher完整指南：让旧Mac免费升级最新macOS的终极方案

汇编——数据传送指令

USB转I2C/GPIO适配器硬件拆解与PMBus调试实战指南

Airtest+Selenium自动化测试实战：从零搭建混合模式脚本

鸿蒙原生 ArkTS 布局之 RelativeContainer 与 id 命名规范最佳实践

Dify — Workflow - 数据可视化

日新闻

策划方案与脚本创作能力横评：GPT-4o vs Gemini 3.0 vs Claude 3.5 实测对比

蒙特卡洛离策略强化学习：工业场景下的无偏评估与稳定训练

Java开发者转型安全开发：从代码审计到自动化工具实践

周新闻

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

月新闻