首页 > 3D快报内容详情

超越ControlNet++!腾讯优图提出动态条件选择新架构,实现文生图生成更高可控性

4天前 16 大屏时代

随着人工智能技术的迅速发展,图像生成领域迎来了多个突破性创新,尤其是在文本生成图像(T2I)任务中,可控性成为了研究的核心问题之一。近年来,ControlNet++等技术为T2I任务提供了更多的控制手段,但仍存在一定的局限性。近日,腾讯优图与南洋理工大学、浙江大学等研究机构联合提出了一个新框架——DynamicControl,该架构不仅大大提升了生成图像的可控性,还解决了现有多条件生成方法中的种种瓶颈,成为了可控图像生成领域的一个重大进展。

deer-7627619_1280.jpg

DynamicControl:动态条件选择的新架构

传统的ControlNet及其后续版本如ControlNet++,在文本生成图像的任务中,已经取得了显著成果。这些模型通过引入不同的控制信号,如布局约束、深度图、分割图等,能够让用户对生成图像的空间结构、物体形状和景深进行一定程度的控制。然而,这些方法往往存在计算负担重、条件选择效率低等问题。

DynamicControl提出了一种全新的解决方案,它通过引入动态条件选择机制,实现了更加灵活和高效的图像生成控制。具体而言,DynamicControl允许系统根据不同的任务需求,自动选择和调整不同的控制条件,而不再依赖于固定的条件组合或训练时的随机选择。这一创新为文本生成图像任务带来了更高的可控性,同时也大幅提高了计算效率,避免了传统方法中固定条件数量所带来的计算资源浪费。

多控制适配器:自适应条件选择

在DynamicControl架构中,多控制适配器是核心创新之一。与传统方法中使用固定数量控制信号不同,DynamicControl的多控制适配器能够根据实际情况自适应地选择和组合不同的条件,从而实现动态条件对齐。这种机制大大提高了图像生成过程中的灵活性,并且可以根据输入数据的特点,自动调整控制条件的数量和种类。

该适配器的关键在于它通过条件评估器为每个输入条件分配重要性评分,只有那些重要性高、能够促进图像生成过程的条件才会被选择参与生成。这种基于评分的动态选择方法确保了生成过程的高效性,并且在每次生成时只使用对结果影响最大的条件。

双循环控制器:提升生成过程的可控性

为进一步提高图像生成的可控性,DynamicControl采用了双循环控制器(Double-Cycle Controller)。这一控制器由两个一致性分数组成:条件一致性图像一致性

  1. 条件一致性:通过优化条件循环一致性损失,确保每个输入条件与生成图像之间的匹配度尽可能高,从而增强生成图像的可控性。
  2. 图像一致性:通过反向图像一致性损失,保证生成图像与源图像之间的相似度。这一损失函数可以最小化生成图像与原始图像之间的像素和语义差异,确保生成的图像尽可能保留输入图像的特征。

通过这两种一致性控制,双循环控制器能够在生成过程中实时调整和优化,确保每个控制信号都能够有效地指导图像生成过程,避免不必要的干扰或不一致。

与大语言模型(MLLM)的集成:优化条件选择与排序

在传统的控制模型中,生成图像的质量和可控性高度依赖于所使用的生成模型和条件的选择。而DynamicControl通过将**多模态大语言模型(MLLM)**集成到控制框架中,进一步优化了条件选择和排序。

MLLM作为强大的推理引擎,可以根据条件和文本提示的语义信息进行深层次的理解。通过将条件和文本提示输入到MLLM中,系统能够自动生成更精准的控制条件评分,进而通过双循环控制器进行排序和优化。这一过程确保了生成的图像能够更加精准地符合用户的要求,增强了模型的自适应能力和灵活性。

实验结果:显著提高可控性与图像质量

在大量实验中,DynamicControl表现出色,显著提高了图像生成过程的可控性,同时保证了图像质量和文本与图像的对齐度。实验结果表明,DynamicControl不仅提升了生成图像的多样性和真实性,而且在多个控制条件下,依旧能够确保生成的图像与文本描述保持一致。

与传统的图像生成方法相比,DynamicControl在FID(Fréchet Inception Distance)和CLIP评分等指标上均表现出明显优势,证明了其在增强可控性的同时,不会牺牲图像的质量。

腾讯优图提出的DynamicControl架构代表了可控图像生成领域的一次重大突破。通过引入动态条件选择和多控制适配器的机制,DynamicControl为图像生成提供了更高的灵活性和精确性,推动了文生图技术向更高的可控性和更广泛的应用场景迈进。

这一创新不仅为未来的多模态生成任务提供了新的解决思路,也为计算机视觉领域的其他任务(如图像编辑、视频生成等)提供了可借鉴的技术框架。随着技术的不断优化,未来的图像生成模型将更加智能和精准,为各行各业带来更多创新应用。

DynamicControl无疑为可控图像生成和多模态推理的结合提供了新的视角和方法,预示着AI技术在创造力和灵活性方面的无限潜力。

相关标签: 图像 生成 DynamicControl 条件 可控性 控制 一致性 选择 适配器 文本