SkyDiffusion:用 BEV 视角打开街景→航拍图像合成新范式 Junyan Ye、Jun He、Weijia Li 等中山大学与上海人工智能实验室的研究者提出SkyDiffusion首次将“曲面 BEV 视角变换 多图融合”与“条件扩散模型”结合实现无需相机参数、无需文本或语义图的纯街景→高分辨率航拍图像合成在灾难响应、无人机低空影像和历史遥感补洞三大场景均刷新 SOTA并开源了包含 2 万张跨视角图像的Ground2Aerial-3数据集与完整代码。0. 快速导航研究背景跨视角合成的痛点SkyDiffusion 框架一览Curved-BEV让街景“抬头”看高楼BEV-Controlled Diffusion用鸟瞰 latent 控制航拍生成Ground2Aerial-3 数据集灾难、无人机、历史影像三大任务实验结果SOTA 全面超越消融与可视化结论与展望代码与数据1. 研究背景跨视角合成的痛点地对空图像合成侧重于从相应的地面街景图像生成逼真的航空图像同时保持一致的内容布局模拟自上而下的视图。显着的视点差异导致视图之间的域间隙密集的城市场景限制了街景的可见范围使得这种交叉视图生成任务特别具有挑战性。场景街景Street View航拍Aerial / Satellite核心难点视野水平≤ 120°俯视≈ 90°几何域差异巨大遮挡高楼、树冠屋顶为主单张街景看不见“屋顶”用途导航、AR灾害评估、城市规划要求内容一致逼真(a) 跨视图领域差异的挑战(b) 密集场景中遮挡的挑战© 将我们的地面到空中图像合成方法与现有的跨视图合成方法进行比较。总结给定一张或几张街景如何合成同位置、同内容、高分辨率的航拍图现有方法要么语义对不齐GAN要么需要额外文本或语义图Diffusion且普遍忽略密集城区遮挡问题。2. SkyDiffusion 框架一览SkyDiffusion是一种利用扩散模型和鸟瞰图BEV范式从街景图像合成航空图像的新型交叉视图生成方法。SkyDiffusion 中的 Curved-BEV 方法将街景图像转换为 BEV 视角有效弥合了域差距并采用“multi-to-one”映射策略来解决密集城市场景中的遮挡问题。两大创新点Curved-BEV无相机参数、无深度估计把“向上弯曲”的 BEV 面投射到球面全景远距离高楼也能映射。Multi-to-One BEV多张街景→统一航拍坐标系扩大可见范围解决遮挡。3. Curved-BEV让街景抬头看高楼3.1 几何建模传统 BEV 假设地面平面 z0导致建筑上层信息全部丢失。作者将 BEV 面改为向上弯曲的四次曲面z ( x 2 y 2 d max ⁡ ) 4 ⋅ λ z \left(\frac{\sqrt{x^2y^2}}{d_{\max}}\right)^4 \cdot \lambdaz(dmax​x2y2​​)4⋅λλ2郊区或 10城市单张或 0城市多图融合把球面全景 (θ,φ) 与曲面 (x,y,z) 一一对应无需相机内外参。3.2 Multi-to-One 融合给定 N 张街景按相机位置偏移 (Δx,Δy) 把各自 BEV 投到统一航拍格网重叠区取最近相机像素。k ∗ arg ⁡ min ⁡ i ( x − x c a m i ) 2 ( y − y c a m i ) 2 k^* \arg\min_i \sqrt{(x-x_{\mathrm{cam}_i})^2 (y-y_{\mathrm{cam}_i})^2}k∗argimin​(x−xcami​​)2(y−ycami​​)2​效果在 VIGOR-Chicago 上BEV 感知半径从~50 m 扩展到150 m。4. BEV-Controlled Diffusion用鸟瞰 latent 控制航拍生成4.1 条件注入架构轻量 BEV Encoder4 块卷积Spatial Attention抑制曲面扭曲误差零卷积注入复制 Stable Diffusion v1.5 的 EncoderMiddle Block权重锁预训练只训练零卷积与 BEV 编码器Classifier-Free Guidance训练时 10% 丢弃 BEV 条件推理阶段 guidance scale94.2 训练目标L E x 0 , t , c b e v , ε [ ∥ ε − ε θ ( x t , t , c b e v ) ∥ 2 2 ] L \mathbb{E}_{x_0,t,c_{\mathrm{bev}},\varepsilon} \big[\|\varepsilon - \varepsilon_\theta(x_t,t,c_{\mathrm{bev}})\|_2^2\big]LEx0​,t,cbev​,ε​[∥ε−εθ​(xt​,t,cbev​)∥22​]街景只做条件输入不提供像素级重建约束文本描述仅用于 CFG不作为优化目标→ 避免文本-几何错位5. Ground2Aerial-3 数据集灾难、无人机、历史影像三大任务子集场景数量分辨率独特价值Disaster飓风 Ian(2022)破坏区2.7 k0.3 m快速灾情评估UAVMatrixCity 虚拟城4.3 k0.05 m车道级自动驾驶Historical波士顿洛杉矶 2007-201411.9 k0.3 m补全历史遥感空缺划分按区域 4:1 训练/测试同一航拍图不会跨集出现避免信息泄漏。对齐街景中心列指向真北航拍图中心与街景中心经纬度对齐。6. 实验结果SOTA 全面超越6.1 定量指标在郊区 CVUSA 和 CVACT 数据集上SkyDiffusion 取得了突出的成绩。与最先进的方法相比它降低了 25.72% 的 FID提高了 7.68% 的 SSIM证明了其在合成逼真一致的卫星图像方面的优越性。在城市 VIGOR-Chicago 数据集中与最先进的方法相比降低了 14.98%的 FID提高了 9.41%的 SSIM。6.2 视觉对比GAN 系SelectionGAN、CUT纹理虚假、道路中断Diffusion 系Instruct-p2p、ControlNet逼真但内容与街景无关——树少一排、楼缺一角SkyDiffusion道路走向、树木排布、建筑轮廓与真图几乎一一对应屋顶纹理自然合理7. 消融与可视化Curved-BEV 模块的消融研究。“基线”表示直接使用街景图像“BEV”和“C-BEV”表示使用标准 BEV 或 Curved-BEV 变换“Multi”代表多对一。可视化亮点Multi-to-One在 VIGOR 密集区把 3 张街景的 BEV 融合后原本被树挡住的十字路口成功出现在航拍结果中。灾难场景橙色框内屋顶破损、道路积水痕迹与灾后真图位置一致可辅助快速定位重灾区。历史影像2008→2014 道路新增斑马线、环岛SkyDiffusion 都能按年代语义生成不会“穿越”未来建筑。8. 结论与展望SkyDiffusion 首次将“曲面 BEV 多图融合”与“扩散模型条件生成”无缝结合实现无需相机参数的精确几何对齐无需文本或语义图的纯街景→航拍合成跨场景泛化郊区、城市、灾难、无人机、历史影像全线 SOTA。未来工作拓展到视频航拍生成赋予时序一致性引入可学习曲面参数λ让 BEV 形状随场景自适应与NeRF 或 3D Gaussian Splatting结合实现交互式视角漫游。9. 代码与数据开源代码PyTorch Diffusershttps://github.com/SkyDiffusion/SkyDiffusionGround2Aerial-3 下载https://huggingface.co/datasets/SkyDiffusion/G2A-3预训练权重SD v1.5 Curved-BEV 模块支持 512×512 推理。Ye J., He J., Li W. et al. “Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis.” arXiv:2408.01812, 2025.