DIFFUSIONSAT:卫星图像的生成基础扩散模型
文章首发微信公众号:小小cv笔记
和SDXL一样,各种元数据编码后平接到timestep中输入网络,就可以学习到数据信息,万物皆可编码输入
论文题目
DIFFUSIONSAT: A GENERATIVE FOUNDATION MODEL FOR SATELLITE IMAGERY
摘要
扩散模型已经在包括图像、语音和视频在内的许多模式上取得了最先进的结果。然而,现有的模型并不适合支持遥感数据,而遥感数据在环境监测和作物产量预测等重要应用中被广泛使用。卫星图像与自然图像有很大的不同—它们可以是多光谱的、随时间不规则采样的—现有的基于网络图像训练的扩散模型不支持它们。此外,遥感数据本身具有时空性,需要条件生成任务,而传统的基于字幕或图像的方法不支持条件生成任务。在本文中,我们提出了DiffusionSat,这是迄今为止在公开的大型高分辨率遥感数据集上训练的最大的生成基础模型。由于基于文本的字幕很少用于卫星图像,因此我们将相关的元数据(如地理位置)合并为条件信息。我们的方法产生真实的样本,可用于解决多个生成任务,包括时间生成、多光谱输入的超分辨率和内画。我们的方法优于以前最先进的卫星图像生成方法,是第一个用于卫星图像的大规模生成基础模型。
1介绍
扩散模型在图像生成方面取得了最先进的结果。Stable Diffusion Rombach等人(2022)(SD)等大型模型已经在互联网规模的图像-文本数据集上进行了训练,以从用户提供的字幕中生成高分辨率图像。这些基于扩散的基础模型,作为先验,已经导致了各种逆问题的重大改进,如着色,去模糊(Luo等人,2023),医学图像重建(Khader等人,2023;Xie & Li, 2022),以及视频生成(Blattmann et al, 2023)。
同样,涉及卫星图像分析的各种高影响ML任务,如灾害响应、环境监测、贫困预测、作物产量估计、城市规划等。这些任务包括重要的逆问题,如超分辨率(从频繁的低分辨率图像到高分辨率图像)、云去除、时间内绘制等等。然而,卫星图像在视角、分辨率、附加光谱带和时间规律性方面与自然图像有着根本的不同。虽然最近已经开发了用于卫星图像判别学习的基础模型,Cong等人(2022);Ayush等(2021a);Bastani等人(2022),它们不是为了也不能解决上述的反问题(例如:超分辨率)而设计的。
为了填补这一空白,我们提出了DiffusionSat,这是一个受SD启发的卫星图像生成基础模型。使用通常与卫星图像相关的元数据,包括纬度、经度、时间戳和地面采样距离(GSD),我们在一组公开可用的卫星图像数据集上训练我们的模型以生成单图像。此外,受ControlNets Zhang和Agrawala(2023)的启发,我们设计了可以轻松训练的条件调节模型特定的生成任务或反问题,包括超分辨率、内画和时间生成。
具体来说,我们的贡献包括:
1。我们提出了一种新的卫星图像数据生成基础模型,能够从数字元数据和文本生成高分辨率卫星图像。
2. 我们设计了一种新颖的3d调节扩展,使扩散卫星能够在超分辨率,时间生成和绘画上展示最先进的性能。
3我们从大型、公开的卫星图像数据集中收集和编译一个全局生成的预训练数据集(见3.1节)。
2背景
扩散模型是旨在从样本中学习数据分布pData的生成模型。给定一个输入图像x ~ pData,我们添加噪声来创建一个噪声输入xt = αtx + σ tλ,其中λ ~ N (0, I)是高斯噪声。αt和σt表示由扩散时间t参数化的噪声时序(t越大,噪声增加越多)。扩散模型ϵθ的目标是去噪xt,并使用分数匹配目标进行优化:
其中目标y可以是输入噪声λ,输入图像x或“速度”v = α tλ−σtx。我们还可以用边信息c∈RD来约束去噪模型,边信息可以是类嵌入、文本或其他图像等。
潜在扩散模型(ldm) (V ahdat等,2021;Sinha et al, 2021;Rombach等人,2022)首先使用带有编码器E和解码器D的VAE对输入x进行下采样,这样,≈x = D(E(x))是重建图像。扩散过程不是对输入图像x去噪,而是对下采样的潜在表示z = E(x)使用扩散过程。这种方法减少了计算和内存成本,并形成了常用的StableDiffusion (SD)模型的基础(Rombach et al, 2022)。
3方法
首先,我们描述了我们的方法用于以下感兴趣的任务:单图像生成,以文本和元数据为条件,多光谱超分辨率,时间预测和时间绘制。
3.1单幅图像生成
我们的第一个目标是预训练DiffusionSat,使其能够在给定输入文本提示和/或元数据的情况下生成单个图像。具体地说,我们首先考虑这样的数据集,即每个图像x∈RC×H×W都与相关的文本标题τ配对。我们的目标是学习条件数据分布p(x|τ),这样我们就可以对新图像~ x ~ p(·|τ)进行采样。
ldm通常用于文本到图像的生成,主要是因为它们具有使用文本提示的强大能力。相关的文本提示τ被标记化,通过CLIP编码(Radford等人,2021),然后传递给DM ϵθ(xt;t, τ)通过每层的交叉注意(Vaswani et al, 2017)。然而,尽管文本提示广泛用于诸如LAION-5B等图像数据集(Schuhmann等人,2022),但卫星图像通常要么没有这样的标签,要么伴随着目标检测框、分割掩码或分类标签。此外,要求这种标签排除了大量未标记卫星图像的使用。理想情况下,我们希望在现有的标记和未标记的数据集上预训练DiffusionSat,而不必管理昂贵的标签。
为了解决这一挑战,我们注意到卫星图像通常与元数据相关联,包括它们的时间戳、纬度、经度和与图像相关的各种其他数值信息(Christie等人,2018)。因此,我们考虑每个图像x∈RC×H×W与文本标题τ配对的数据集,以及廉价的数字元数据k∈RM,其中M是元数据项的数量。因此,我们希望了解数据分布p(x|τ, k)。有了足够好的元数据k,即使τ很差或缺失,我们仍然希望对高质量的图像进行采样。
现在我们转向对k的条件作用。一种选择是合并每个数值元数据项kj, j∈{1,…M},插入带有简短描述的文本标题中。然而,这种方法不必要地离散了连续值协变量,并且可能受到文本编码器在编码数字信息方面的已知缺点的影响(Radford et al, 2021)。相反,我们选择使用与扩散模型相同的正弦时间步嵌入eq.(2)来编码元数据:
其中k为元数据或时间步长值,I为编码中特征维数的索引,d为维数,Ω = 10000为较大常数。每个元数据值kj首先被归一化为0到1000之间的值(因为扩散时间步t∈{0,…, 1000}),然后通过正弦编码进行投影。每个元数据的不同MLP将投影的元数据值编码为与扩散时间步t相同(Ho et al, 2020),如下式(3):
https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/6bfcc5a2c27e444094c0c52f59797d04~tplv-tt-large.jpeg?_iz=30575&lk3s=06827d14&x-expires=1725935212&x-signature=vMqzj6hEfR1Qplls4uHcvjM8lwA%3D
其中,fθj表示元数据值kj的学习到的MLP嵌入,对应于元数据类型j(例如:经度)。我们的嵌入是fθj (kj)∈RD,其中D是嵌入维数。将M个元数据向量相加M = fθ1(k1) +···+ fθM (kM),其中M∈RD,再将M θM (kM)与嵌入的时间步长t = fθ(t)∈RD相加,得到最终的条件向量c = M + t。
综上所述,我们首先使用SD变分自编码器(V AE)对图像x∈RC×H×W进行编码(Rombach et al, 2022;Esser等人,2021)到潜在表示z = E(x)∈RC ' ×H ' ×W '。然后将高斯噪声添加到潜在图像特征中,得到zt = αtz + σ t御(见第2节)。由嵌入元数据和扩散时间步创建的条件向量c,以及clip嵌入的文本标题τ ' = θ(τ),通过DM ϵθ(zt;τ ', c)来预测附加的噪声。最后,V AE解码器D将去噪后的电位上采样到全分辨率(图1)。
最后,我们初始化编码器E、解码器D、CLIP文本编码器θ和去噪单元ϵθ,所有这些都具有SD 2.1的权重。我们在训练过程中只更新去噪UNet ϵθ以及元数据和时间步嵌入fθj,利用预训练的SD权值中丰富的语义信息加快收敛速度。在训练过程中,我们还以0.1的概率随机将元数据向量m归零,以允许模型在元数据不可用或不准确的情况下生成图像。Ho等人(2020)采用了类似的策略来学习无条件生成。
单一图像-文本-元数据集 对于卫星图像,没有类似的大型文本图像数据集(例如:LAION (Schuhmann et al, 2022))。相反,我们汇编了公开可用的带注释的卫星数据,并为卫星图像提供了一个大型的高分辨率生成数据集。关于如何为每个数据集生成标题的详细描述在附录中。(i) fMoW:世界功能地图(fMoW) Christie等人(2018)由全球高分辨率(GSD 0.3m-1.5m) MAXAR卫星图像组成,每个图像属于62个类别之一。我们将每张图像裁剪为512x512像素。我们考虑的元数据包括经度、纬度、GSD(以米为单位)、云覆盖(作为一个分数),年,月,日。为了生成标题,我们考虑语义类和国家代码。(ii) Satlas: Satlas Bastani等人(2022)是NAIP和Sentinel-2卫星图像的大规模多任务数据集。对于我们的数据集,我们使用卫星上的NAIP图像-小,大致与fMoW大小相同。我们使用与项目(i)相同的元数据。(iii) SpaceNet: SpaceNet V and Etten et al (2018;2021)是卫星图像数据集的集合,用于目标检测、语义分割和道路网络制图等任务。我们考虑Spacenet数据集的一个子集,即Spacenet v1、Spacenet v2和Spacenet v5。我们使用与前面相同的元数据。
3.2控制信号条件生成
单图像DiffusionSat可以在给定相关提示和元数据的情况下生成高分辨率卫星图像,但它还不能解决第1节中描述的反问题。为了利用其预训练的权重,我们可以将其用作条件生成任务的先验,这些任务确实包含反问题,如超分辨率和内画。因此,我们现在考虑生成任务,其中我们可以附加条件控制信号(例如:卫星图像序列)s∈RT ×C ' ×H ' ×W ',关联元数据ks∈RT ×M,单个标题τ和目标元数据k∈RM。其中,C′、H′、W′分别表示条件图像与目标图像在通道数、高度、宽度上可能存在的差异。目标是对~ x ~ p(·|s;ks;τ;K),其中~ x是给定标题τ和给定元数据K的控制信号s条件下的样本。
Temporal Generation 最近的视频扩散工作已经提出使用3D卷积和时间注意(Blattmann等人,2023;Wu et al ., 2022;Zhou等人,2022),而其他人则建议使用现有的2D unet并在通道维度中连接时间帧(V oleti等人,2022;An et al, 2023)。然而,卫星图像序列在几个关键方面区别于在一个视频帧的图像:(i)有高方差的时间分离图像序列,在帧视频数据通常是由一个固定的时间(固定帧速率)(ii)之间的时间图像可以在几个月或几年的顺序,因此比连续捕获更大范围的语义信息放置在视频帧(如:季节,人类发展、土地覆盖)。(iii)各地有一种“全球时间”的感觉。即使将不同国家或地区的卫星图像进行比较,模式也可能相似,这一年是2012年,而不是2020年(尤其是城市景观)。视频数据的情况并非如此,跨帧的“本地”时间足以提供语义含义。
通常,在自然图像视频中,卫星图像序列的图像比帧少。因此,与利用现有卫星图像来预测未来或对过去进行插值相比,生成长序列图像的用处更小(He et al, 2021;Bastani et al, 2023)。因此,我们引入如图2所示的新型条件反射框架来解决逐帧条件时间预测的逆问题。与2D ControlNet不同,我们在每个StableDiffusion块之间使用3D零卷积(Zhang & Agrawala, 2023)。我们的时间注意层,类似于VideoLDM (Blattmann et al, 2023),进一步使模型能够以时间控制信号为条件。我们为每个块i引入一个学习参数αi,以便在时间注意层的输出中“混合”,以防止训练早期阶段的噪声影响我们预训练的权重(图2)。
我们的方法的一个关键优势是能够为控制序列中的每个项目提供自己的相关元数据,这与图1类似,通过单独投影每个元数据并将其嵌入MLP。然后将每个图像的嵌入元数据与其图像连接起来,并通过ControlNet的2D层传递。因此,DiffusionSat对控制序列中图像的顺序是不变的,因为每个图像的时间位置完全由其元数据中的时间戳决定。然后,一个单一的扩散卫星模型可以被训练来预测过去和未来的图像,或者在序列的时间范围内进行插值。
具有多光谱输入的超分辨率 与3.2节不同的是,我们的输入是比目标图像低分辨率(GSD)图像序列,并且可以包含不同数量的通道。模型的输出仍然是高分辨率的RGB图像,就像以前一样。
Temporal Inpainting 该任务在功能上等同于3.2,除了目标是重新绘制损坏的像素(例如:从云覆盖,洪水,火灾损坏),而不是在5秒内预测一个新的帧。
4实验
我们在第3节中描述了任务的实验。实施细节见附录A.1。
对于单幅图像生成,我们报告了标准的视觉质量指标,如FID (Heusel等人,2017)、Inception Score (IS)和CLIP-score (Radford等人,2021)。对于条件生成,给定参考真实图像,我们报告的像素质量指标包括SSIM (Wang et al ., 2004)、PSNR、LPIPS (Zhang et al ., 2018)和VGG (Simonyan & Zisserman, 2014)特征。正如Gong等人(2021)和He等人(2021)所指出的,lpip是用于评估卫星图像的更相关的感知质量指标。我们的指标是在10,000张图像的样本大小上报告的。
4.1单幅图像生成
我们首先考虑单幅图像生成,这是对DiffusionSat进行预训练的任务。我们比较了预训练的SD 2.1模型Rombach等人(2022),在我们的数据集上使用我们的标题进行微调的SD 2.1模型,但没有元数据,最后是在我们的数据集上使用标题中包含的元数据进行微调的SD 2.1模型(见表1)。我们发现,即使在标题中包含元数据,也比仅由卫星图像标签形成的标题要好。这反映在更好的FID分数上,它衡量的是视觉质量。我们期望文本-元数据模型‡在CLIP评分方面表现更好,因为它的描述性更强。然而,像在DiffusionSat中那样对元数据进行数值处理,进一步提高了生成质量和控制,如图3所示。
4.2控制信号条件生成
我们现在使用单幅图像DiffusionSat作为超分辨率、时间生成/预测和绘制的条件生成任务的有效先验。我们描述了每个任务的数据集,并使用我们的3D调节方法在Texas-housing超分辨率,fMoW- sentinel多光谱输入的fMoW超分辨率,fMoWtemporal数据集上的时间生成以及xBD自然灾害数据集上的时间绘制来演示结果。DiffusionSat实现了最先进的lpip,在SSIM和PSNR指标上也接近最佳性能。
fMoW Superresolution 使用Cong等人(2022)提供的数据集,我们在每个原始fMoW- rgb位置创建了一个fMoWSentinel-fMoW-RGB数据集,其中成对的Sentinel-2 (10m-60m GSD)和fMoW (0.3-1.5m GSD)图像。给定Sentinel-2图像的全部13个多光谱波段(这里T = 1),我们的目标是重建相应的高分辨率RGB图像。在低分辨率(10m-60m)的情况下,超分辨率(第4.2节)、多光谱输入尤其困难,因为大多数fMoW-RGB图像的GSD <1m。我们发现DiffusionSat再次优于强超分辨率基线,如SD(表2,图4)。我们进一步注意到,虽然DBPN (Haris等人,2018)等方法产生了强PSNR/SSIM,但这些指标并不能反映人类的感知,并且倾向于模糊而不是清晰的细节(Zhang等人,2018;撒哈拉等人,2022b)。
Texas Housing Superresolution 该任务的数据集由时空超分辨率(STSR)引入(He et al, 2021),包含2014年至2017年在德克萨斯州建造的286717所房屋。每个位置由2张来自NAIP (GSD 1m)的高分辨率图像和2张来自Sentinel-2 (GSD 10m)的低分辨率图像组成。一幅时刻t的高分辨率图像和相应时刻t、t’的低分辨率图像组成控制信号s,任务是重建另一幅时刻t’的高分辨率图像x。
我们还对单个图像数据集的预训练效果进行了削弱,以反对直接对SD权值进行微调。我们发现,与简单地在通道维度上堆叠图像并使用2D ControlNet相比,DiffusionSat预训练和使用3D ControlNet(跨越所有指标)有了显著的改进(表3)。
fMoW时态生成 fMoW中的许多位置(Christie et al ., 2018)包含多个不同时间的图像。对于我们的实验,如果T < 4,我们添加最新图像的副本,将序列s填充到4个图像。给定条件图像序列s,通过适当调整目标元数据ks, DiffusionSat可以在任何期望的目标时间预测另一张图像(第3.2节)。由于先前的工作不是设计用于预测任何给定目标时间的图像,我们考虑目标图像在时间顺序上先于或晚于s中的第一张图像的任务。
我们的实验表明,DiffusionSat优于STSR和MCVD (V oleti等人,2022),以及我们的3D ControlNet的常规SD。定量和定性结果分别见表4和图5。这显示了DiffusionSat在捕捉目标日期的季节(例如:雪、地形颜色、作物成熟度)以及道路和建筑物发展方面的能力有所提高。其他模型缺乏对元数据协变量进行推理的能力,通常只是简单地复制条件反射序列中的输入图像作为其生成的输出。在A.3.1中,我们展示了DiffusionSat在没有事先条件图像的情况下生成卫星图像序列的新能力。
In-painting 我们没有人为地破坏输入图像,而是使用xBD数据集(Gupta等人,2019),这是xView-2 (Lam等人,2018)挑战的一个子集来评估自然灾害造成的损害。由于每个地点都有灾前和灾后的卫星图像,我们考虑在灾后图像中重建受损区域,或在灾前图像中引入破坏,其中T = 1。我们在图6中展示了定性结果。扩散卫星能够在洪水、大风、火灾、地震等各种灾害中重建受损的道路和房屋,这对于灾害响应小组确定进入路线和评估损失非常重要。我们还表明,扩散卫星可以增加不同自然灾害造成的损害,这对于预测或准备疏散区域是有用的。
5相关工作
扩散模型 扩散模型(Ho et al, 2020;Song等,2020b;Kingma等人,2021)最近主导了生成建模领域,包括语音等应用领域(Kong等人,2020;Popov et al, 2021), 3D几何(Xu et al, 2022;Luo & Hu, 2021;Zhou et al, 2021)和图形(Chan et al, 2023;Poole et al, 2022;Shue et al ., 2023)。除了理论基础的进步,基于潜在空间的大规模变量(Rombach et al, 2022;撒哈拉等,2022a;Ho et al, 2022)可以说是最有影响力的。这些基础模型带来了一系列新的应用,比如主题定制(Ruiz et al, 2023;Liu et al ., 2023;Kumari等人,2023)和文本到3d的生成(Poole等人,2022;Lin et al ., 2023;Wang et al ., 2023)。许多研究也证明了这些模型令人印象深刻的适应能力整合。例如,ControlNet (Zhang & Agrawala, 2023)、T2IAdapter (Mou等人,2023)和InstructPix2Pix (Brooks等人,2023)添加了额外的可训练参数,已被证明在向预训练的扩散网络添加控制信号方面非常成功。
遥感生成模型 对自然图像数据集的图像超分辨率进行了很好的研究(Dong et al ., 2015;Ledig等,2017;撒哈拉等,2022b;harris等人,2018;Rombach et al, 2022)。生成对抗网络(gan) Goodfellow等人(2014),如SR-GAN Ledig等人(2017)是最流行的遥感超分辨率方法之一(Wang等人,2020;Ma等人,2019;Gong等,2021;Cornebise等,2022;Bastani et al ., 2023;拉比等人,2020)。其他方法为Sentinel-2图像输入超分辨率定制了卷积架构(Razzak等人,2023;Tarasiewicz et al, 2023)。最近,时空超分辨率(STSR) He等人(2021)使用条件像素合成方法对高分辨率和低分辨率图像的组合进行条件处理,以在更早或更晚的日期生成高分辨率图像。一般来说,这些模型缺乏跨各种任务和数据集的潜在扩散模型的灵活性和通用性,并且可能受到不稳定训练的影响(Kodali et al, 2017)。我们的工作旨在通过提出一种基于预训练ldm的单一方法来解决这些缺点,该方法可以通过我们新的条件作用机制灵活地转化为下游生成任务。
6结论
在这项工作中,我们提供了DiffusionSat,这是基于StableDiffusion Rombach等人(2022)的潜在扩散模型架构的第一个遥感数据生成基础模型。我们的方法由两个部分组成:(i)单个图像生成模型,该模型可以生成基于数值元数据和文本标题的高分辨率卫星数据;(ii)一个新的3D控制信号调节模块,可推广到反问题,如多光谱输入超分辨率,时间预测和绘画。
对于未来的工作,我们希望探索将DiffusionSat扩展到更大、更多样化的卫星图像数据集。测试DiffusionSat生成合成数据的可行性(Le et al, 2023)也可能增强现有的判别方法,以扩展到更大的数据集。最后,研究更快的采样方法或更有效的架构将使在资源受限的环境中更容易部署或使用DiffusionSat。
我们希望DiffusionSat能激发未来对解决遥感数据带来的逆问题的研究。这样做将为重要应用带来社会效益,包括基于超分辨率Sentinel-2图像的目标检测(Shermeyer & V an Etten, 2019)、作物表型(Zhang等人,2020)、生态保护工作(Boyle等人,2014;Johansen等人,2007),自然灾害(如滑坡)危害评估(Nichol等人,2006),考古勘探(Beck等人,2007),城市规划Li等人(2019);Xiao等(2006);Piyoosh & Ghosh(2017),以及精准农业应用(Gevaert et al, 2015)。
A APPENDIX
A.1TRAINING细节
我们将在本节中列出实验的实现细节。所有模型都是在半精度和梯度检查点上训练的,借用了Diffusers (von Platen et al, 2022)库。
单图像扩散sat我们使用8个NVIDIA A100 gpu。文本到图像模型的训练批次大小为128,进行100000次迭代,我们认为这足以实现收敛。我们使用AdamW优化器选择恒定的学习率为2e-6。我们训练了两个变体—一个用于分辨率为512x512像素的图像,另一个用于分辨率为256x256像素的图像。
对于采样,我们使用DDIM (Song et al ., 2020a)采样器,有100步,指导标度为1.0。我们在fMoW-RGB的验证集上生成了10000个样本。
我们使用512单图像扩散卫星模型作为我们的先验。我们通过将条件多光谱图像上采样到256x256像素来训练我们的ControlNet Zhang和Agrawala(2023),我们发现这比在64x64条件图像上进行条件调节工作得更好。我们使用4个NVIDIA A100 gpu,并使用AdamW优化器以5e-5的学习率训练模型50000次迭代。
我们使用256张单图像diffionsat模型作为我们的先验。我们在HR图像序列和两个LR Sentinel-2图像序列上训练我们的3D ControlNet。我们使用4个NVIDIA A100 gpu,并使用AdamW优化器以5e-5的学习率训练模型50000次迭代。采样配置与上面相同。
我们使用256张单图像的DiffusionSat模型作为我们的先验。我们在fMoW-temporal数据集上最多3个条件反射图像序列上训练我们的3D ControlNet。如果位置的图像少于3张,我们选择一张条件图像并复制它,直到序列被填充到长度。我们避免每个位置只有一张图像的样本。我们使用4个NVIDIA A100 gpu进行训练,使用AdamW优化器进行40000次迭代,学习率为4e-4。采样配置与上面的配置匹配。
A.2 DATASETS
A.2.1标题和元数据
文本标题依赖于每个数据集可用的元数据字段。对于下面的标题,下面尖括号中表示的字段使用每个示例的元数据填充。每个标题的某些部分(用方括号表示)以10%的比率随机独立地从标题实例中删除。我们用相同的图像类型标记来自相同卫星源的数据集(例如,德克萨斯住房和卫星都使用NAIP图像,因此两者都被标记为“卫星”图像)。
除了标题,我们还合并了来自7个字段的数值元数据。每个字段根据高参考值和低参考值进行归一化:mnorm = m/(high - low)×scale,其中scale是缩放因子1000,这样低映射为0,高映射为比例。这些字段总结在图7中。我们在图8中包含了标题和数字元数据的示例。
A.4 GEOGRAPHICAL BIAS
考虑到机器学习模型训练的数据集很大,可能存在偏差,对机器学习模型输出偏差的担忧是很自然的(Huang et al, 2021)。我们在图10和图10中对全球纬度和经度上的单幅图像DiffusionSat的生成质量进行了评估。我们的结果没有显示出对位置的特别偏爱,尽管人们期望北美和欧洲地区的生成质量更好。我们仍想指出几点注意事项:
(i) FID或LPIPs分数可能不是估计样本质量偏差的最具信息量的度量。由于缺乏更好的替代方法来估计生成遥感模型中地理偏差的新问题,我们将其用作度量。
(ii) FID分数取决于样本量,因此虽然分数可能是均匀分布的,但仍然存在来自世界发达地区的数据集样本要多得多的情况,并且缺乏大范围的图像(例如:整个非洲)。即便如此,对于一个严重偏颇的模型,我们预计世界上数据贫乏地区的发电质量会更差。
(iii)我们只估计一个偏置角。偏差可能仍然存在于不同的轴线上,例如生成建筑物、道路、树木、作物的类型,以及理解季节的影响。我们把这项调查留给未来的工作。
页:
[1]