|
上个月,liblib 发布了其第三代文生图大模型 Stable Diffusion 3。该模型展现出了超越现有文本到图像生成系统的强大性能,为文本到图像生成技术带来了重大突破。
昨天,liblib 终于发布了 Stable Diffusion 3 技术报告,帮助我们一窥 Stable Diffusion 3 背后的技术细节。报告要点如下:
众所周知,Stable Diffusion 3 在排版和提示遵循等方面表现出色,超越了 DALL·E 3、Midjourney v6 和 Ideogram v1 等最先进的文本到图像生成系统。其中:
与其他开放模型和封闭源系统相比,Stable Diffusion 3 在视觉美观度、提示遵循和排版等方面表现出色。
Stable Diffusion 3 采用了重新加权的矩形流形式,以改善模型性能。与其他矩形流形式相比,它的表现更为稳定。
新的多模态扩散 Transformer(Multimodal Diffusion Transformer,MMDiT)架构使用独立的权重集合来处理图像和语言表示,相比于之前的版本,改善了文本理解和拼写能力。
MMDiT 架构结合了 DiT 和矩形流(RF)形式。它使用两个独立的变换器来处理文本和图像嵌入,并在注意力操作中结合两种模态的序列。
MMDiT 架构不仅适用于文本到图像生成,还可以扩展到多模态数据,比如视频。
移除内存密集型的 T5 文本编码器可以显著减少 SD3 的内存需求,仅伴随少量性能损失。
|
|