“甲方快乐模型”诞生拿下平面设计新SOTA！多条件一键生成还能独立调整元素复旦＆字节

发布时间：2025-07-09 07:23:19

来源：乐鱼体育官网

　　△CreatiDesign能生成很多类型的平面设计图，如电影海报、品牌促销、产品广告和社会化媒体图。

　　AI虽然在文生图领域已取得了很大的突破，但以往方法在处理图形设计时，要么“偏科”，要么缺乏精准的可控性。

　　而CreatiDesign推出了统一多条件控制的扩散Transformer架构，并配套构建了40万样本的大规模多条件标注数据集，满足实际设计需求。

　　以往的可控扩散模型大多针对单一条件（如仅控制主体图或仅控制布局或文本），缺乏将多种异质条件（图像、布局、文本等）进行统一融合和协同建模的能力。

　　即便部分最新模型初步实现了多条件输入，依然难以确保每个子控制条件能够精准、独立地控制其对应的图像区域。

　　开源的图形设计数据集有限。现有的数据集缺乏精细化、多条件的标注，难以满足模型对多样性和高质量数据的训练需求。

　　为此，CreatiDesign从模型架构、数据构造等方面出发，提出了系统性的解决方案，旨在赋能扩散模型创意平面设计的能力

　　多主体的图像条件：用户都能够一次性输入多个主视觉元素（如产品图、LOGO等），并在空白画布上任意摆布，得到多主体的图像条件。然后将此图像送入原生的VAE进行编码，得到一组主视觉token。这些token能完整保留每个主体的细粒度视觉特征，为后续生成提供主体约束。

　　语义布局条件：每个辅助元素或文本的语义描述，先由T5文本编码器转换为语义特征token，空间位置信息（bounding box坐标）则经过傅立叶变换后，和语义特征拼接，再通过MLP进一步融合，最终得到集成了语义和空间信息的布局token。这种方式实现了对布局元素内容和空间排布的双重精准控制。

　　全局描述：用户还可以输入整体的描述，同样由T5编码为全局描述token，为全局内容和风格把控提供指导。

　　最终，所有类型的token（主视觉token、布局token、全局描述token）被拼接后输入到MM-DiT中。在每一层Transformer中，CreatiDesign采用多模态注意力（MM-Attention）机制，使不同模态的token进行深层次地融合，以此来实现多条件的联合建模和控制。

　　为提升每个条件的独立可控性，CreatiDesign提出两种专属注意力掩码：

　　Subject Attention Mask：主体token仅与其指定区域内的图像token进行双向交互，且与布局token、全局描述token及无关区域的图像token完全隔离，确保主体内容高度还原、独立于其他条件。

　　Layout Attention Mask：每个布局token仅与其指定区域内的图像token交互，同时阻断布局token之间、布局token与主视觉或全局描述token之间的交互，防止布局元素之间的语义串扰与不同条件之间的干扰。

　　这种显式的掩码机制，使每个条件都能精准、独立地调控对应图像区域，极大提升了生成结果的一致性与可控性，保证了多条件复杂设计意图的严格还原。

　　主题生成：基于设计关键词库，使用LLM（如GPT-4）生成包含主视觉元素、布局元素和文本内容的多要素设计主题；

　　文本图层渲染：依据分层布局协议（HLG），通过渲染引擎自动生成带精准排版的文本前景图层（RGBA）；

　　基于前景的图像生成：借鉴LayerDiffuse范式，联合LoRA模块，实现基于文本前景和主题描述背景的高质量平面设计图像生成;

　　实体检测与标注：利用GroundingSAM2检测所有实体（主视觉、辅助装饰），并通过VLM生成细粒度属性描述，实现全要素多条件的自动标注。

　　最终，CreatiDesign开源了规模达40万组、具备多条件高质量标注的平面设计样本，为多条件可控模型的训练提供数据基础。

　　在多维度的评估基准上，CreatiDesign在主体保持度、布局遵循度、文本正确率以及图像整体质量等关键指标上均取得了领先的性能。

　　具体来说，CreatiDesign在主视觉元素的还原（如DINO-I、M-DINO分数）、辅助元素的空间位置与属性一致性、文本内容的准确率（Sen.Acc）和编辑距离（NED），乃至图像整体质量（IR、PickScore）等各项评价指标上，在当前主流的多主体图像驱动、布局驱动及多条件驱动的SOTA模型中，位居第一梯队。

　　从表格中能够正常的看到，CreatiDesign的平均综合得分高达69.28，相比基础模型FLUX.1-dev的47.50分，提升幅度达到45.9%。这一显著提升仅依赖于基础模型4.1%的额外参数量，高效得提升了基础模型在图形设计上的能力。

　　上图中紫色蒙版代表不一致或位置错误的主体，红色蒙版代表语义或位置不正确的实体，灰色蒙版代表不协调的背景或前景区域。

　　可视化结果进一步验证了CreatiDesign在生成结果上的优势：与以往的多条件或单条件模型相比，CreatiDesign能更严格地遵循用户的设计意图，具体体现在主体元素的高度还原、辅助元素及文本的精准布局，及整体画面的和谐一致。

　　对比图中能清楚地看到，其他模型常常出现主体错位、内容缺失、文本错误等问题，而CreatiDesign能够准确保留各个输入要素，并实现复杂多元素的协调排布。

　　此外，CreatiDesign无需额外训练即可支持多轮编辑：用户可在已有平面设计结果上灵活插入新文本、新主体，或对文本内容做修改，模型能够精准编辑指定区域，同时保持非编辑区域的内容不变。

　　相比Gemini2.0等主流大模型在编辑过程中常出现的非编辑区域变化、内容漂移等问题，CreatiDesign展现出更强的编辑灵活性与保持性。

上一篇:AI青年说丨孙艺杰：智创无界 AI协同规划的实践探究

下一篇:裕同科技2023年年度董事会经营评述

产品展示

联系方式

电话：13926525960

邮箱：475703583@qq.com

地址：深圳市龙岗区平湖辅城坳工业区富源路7号A50栋

当前位置

“甲方快乐模型”诞生拿下平面设计新SOTA！多条件一键生成还能独立调整元素 复旦＆字节

“甲方快乐模型”诞生拿下平面设计新SOTA！多条件一键生成还能独立调整元素复旦＆字节