Variance in Adversarial Attack for Customized Diffusion Models 一种对抗性噪声编码器用于防范保留身份的图像生成Related WorksTuning-based Customized GenerationDreamBooth, Custom Diffusion, LoRA and Textual Inversion需要多图像微调它们需要大量的计算资源和时间Encoder-based ID-Preserving Generation基于编码器的定制生成方法利用预训练编码器提取外观特征促进实时的零样本生成。这些方法从领域无关的编码器发展到了领域特定的编码器。InstantID包含三个关键组件1一个捕获鲁棒语义面部信息的ID嵌入工业级预训练人脸识别模型作为 ID 嵌入的提取基础论文中明确使用的是antelopev22一个具有解耦交叉注意力的轻量级适配模块便于将图像用作视觉提示3一个IdentityNet通过额外的空间控制对参考面部图像的细节特征进行编码。Problem Definition研究目标给定一幅包含人像的图像x我们的目标是生成对抗性扰动δ以防止身份保留生成。我们旨在最大化未受扰动的生成图像与受扰动的生成图像之间的身份一致性差异其中g是身份保留生成器。为了统一对不同模型的保护我们可以找到一个能同时干扰多个特征空间的δ降低相似度值的总和。因此我们训练了一个噪声编码器网络求解约束条件为。这里S表示身份相似性度量我们使用ArcFace和CLIP特征空间中的余弦相似度进行评估。Method我们方法的整体示意图。我们方法的关键设计包括噪声编码器、损失函数以及允许反向传播的梯度优化路径。Noise Encoder该网络以224×224的RGB图像作为输入输出三通道的对抗性扰动。这些扰动被投射到[-1, 1]范围内然后进行反归一化处理调整为原始图像的尺寸后添加到图像中。我们使用视觉TransformerViT来生成对抗性噪声其输入和输出维度均设置为224×224。从经验来看我们发现添加一个额外的先验掩码通道用于指示人脸位置有助于训练。这个人脸定位掩码是由InsightFace管道基于面部特征点生成的这些特征点指定了图像中人脸的区域。该掩码作为第四个输入通道与图像拼接省去了网络从零开始学习人脸定位能力的过程从而降低了训练难度。Adversarial ID Protection为了实现身份保护我们可以使从受保护图像中提取的特征与原始特征有显著差异从而阻止生成模型获取正确的面部特征。基于这一原理我们分析了InstantID、IP-Adapter、IP-Adapter-Plus和PhotoMaker的具体流程以设计有针对性的攻击目标和损失函数。InstantID通过两个步骤获取面部特征如图2所示。首先它将人脸对齐到预定义的位置然后将对齐后的人脸输入ArcFace特征提取器以获取面部信息。我们选择欺骗ArcFace模型最小化原始图像与受保护图像的ArcFace特征之间的余弦相似度。IP-Adapter、IP-Adapter-Plus和PhotoMaker均依赖于CLIP视觉编码器提取的面部特征尽管它们使用的CLIP视觉版本不同。IP-Adapter和PhotoMaker利用CLIP视觉的输出而IP-Adapter-Plus则采用CLIP视觉倒数第二层之前的特征。如图2所示来自不同层的嵌入提供了不同的攻击面。我们根据三个原则选择用于攻击的目标嵌入1阻断所有潜在路径确保任何从左到右的信息流都至少经过一个目标嵌入以保证所有信息流都会被中断2在网络中尽早选择特征图2中越靠左的位置以缩短反向传播路径长度从而简化优化过程3以具有密集语义信息的嵌入为目标以便更有效地进行操控。最终我们选择图2中标记为红色的嵌入作为主要攻击目标。与InstantID类似其目标是最大化受扰动嵌入与原始嵌入之间的余弦相似度从而在攻击后有效地使它们对齐。因此最终的对抗损失是所有损失的加权平均值给出其中和分别表示干净图像和受保护图像的人脸嵌入。Imperceptibility (不可感知性)为了将对图像质量的视觉影响降至最低我们对预测的对抗性噪声δ施加了正则化。我们进一步对任何超过ϵ球边界的噪声值引入了辅助惩罚。这些项共同构成了我们的正则化损失如下所示因此最终损失是对抗性损失和正则化的总和具体如下第一项 是标准的L1 正则化。它惩罚噪声 的绝对值之和。特性L1 正则化L2 正则化效果稀疏性很多像素0平滑性所有像素都小几何形状菱形有尖角圆形光滑视觉表现局部集中噪声全局均匀噪声L1 正则化倾向于让大部分像素点的噪声为 0 或接近 0只在关键区域如面部特征边缘产生噪声。这比 L2 正则化更能保持图像的原始纹理减少“雾状”模糊感。人眼特性人眼对全局均匀的微弱噪声比局部稀疏的噪声更敏感第二项 (硬边界软约束)表示将噪声值强制截断在 范围内计算的是超出边界的那部分噪声。允许网络在训练时“试探”边界但一旦越界就会受到惩罚从而引导网络主动学习生成始终在 范围内的噪声。Robustness (鲁棒性)InstantID 等模型在提取特征前会先进行人脸对齐 (Face Alignment)。这是一个仿射变换Affine Transformation会根据关键点计算一个矩阵 把脸“摆正”。如果在训练时假设矩阵 是固定的但在实际推理时由于添加了噪声 人脸关键点检测可能会发生微小偏移导致实际使用的对齐矩阵 与训练时的 不同。这种错位会导致精心设计的噪声失效。(带噪声的仿射矩阵)原始计算出的标准仿射变换矩阵。添加到矩阵上的高斯噪声均值为 0方差为 文中设定 。模拟“关键点检测不准”或“图像轻微变形”的情况。(模拟的对齐后坐标)使用这个“被污染”的矩阵去变换人脸关键点 得到新的坐标 。这意味着网络在训练时看到的“对齐后的人脸”是带有轻微几何形变的。实验设置数据集训练集CelebA(190,000 张未裁剪图像)包含任意尺寸和长宽比的人脸。测试集CelebA(50 张未见过的图像)。VGG Face(50 张图像)用于评估跨数据集泛化能力。模型架构核心网络ViT-S/8(Vision Transformer Small, patch size 8)。输入224×224 RGB 图像 1 通道人脸掩码 (Face Mask) (由 InsightFace 生成辅助定位)。输出3 通道对抗噪声 范围限制在 。训练策略分3 个阶段训练逐步缩小噪声允许范围 () 并调整损失权重。Stage 1: , 120 epochs.Stage 2: , 20 epochs.Stage 3: (即 9/255), 20 epochs.优化器设置Warm-up: 前 2,500 步线性预热。梯度裁剪: L2 范数最大值为 10。Batch Size: 112。硬件: 4 × NVIDIA H100 (80GB)训练耗时约10 天。鲁棒性增强在 InstantID 分支的仿射变换矩阵 中加入高斯噪声 () 进行数据增强。评估指标保护效果ISM (Identity Score Matching): 原始图与生成图的 ArcFace 特征余弦相似度 (越低越好)。FDR (Face Detection Rate): 生成图中检测到人脸的比例 (越低越好反映是否导致无法生成人脸)。图像质量PSNR / SSIM: 原始图与保护后图像的相似度 (越高越好)。SER-FIQ: 生成图像的质量评分。效率单张图像保护耗时 (秒)。对比基线ACE, AdvDM, Anti-DreamBooth, PhotoGuard, SimAC。以及作者方法的 PGD 变体 (Ours-PGD用于验证上限但速度慢)。PID: Prompt-Independent Data Protection Against Latent Diffusion ModelsRelated Work1. 基于代理模型的对抗样本生成这类方法的核心思想是“以攻代守”通过模拟攻击者的训练过程来生成能够干扰模型学习的对抗性图像。构建代理模型防御者首先使用干净的原始数据微调一个代理模型surrogate model, 使其模拟潜在的攻击者模型。最大化损失在获得代理模型后防御者在原始图像 上添加扰动生成对抗样本 最大化该代理模型在扰动数据上的训练损失。其中 是条件扩散模型的训练损失 是文本提示词 是视觉编码器 限制扰动的不可见性。2. 基于双层优化的不可学习样本生成这类方法借鉴了经典“不可学习样本”Unlearnable Examples的思想旨在生成一种特殊的数据使得模型即使在上面进行训练也无法学到任何有用的概念。特性对抗样本 (Adversarial Examples)不可学习样本 (Unlearnable Examples)主要目标欺骗推理 (Inference)破坏训练 (Training)应用场景模型已训练好输入扰动图片让模型预测错误。模型正在训练中输入扰动图片让模型学不到特征。采用最小 - 最大Min-Max的双层优化策略。内层优化Min模拟攻击者试图找到最优的模型参数 以最小化训练损失。外层优化Max防御者寻找最优的扰动图像 使得即使攻击者找到了最优模型其训练损失依然尽可能大。Anti-DreamBooth的两种变体即全训练替代模型引导FSMG和交替替代与扰动学习ASPL。这两种方法都使用投影梯度下降PGD来生成对抗性噪声δ以最大化替代模型的重建损失。左图FSMG使用在小型干净图像集上完全微调的固定替代模型来指导PGD优化。右图ASPL在以下两个步骤之间交替进行i在干净图像上微调克隆替代模型ii使用该克隆模型通过PGD为当前图像集生成δ。然后在下次迭代之前在扰动图像上微调实际的替代模型θ。