最强文生图模型Stable Diffusion 3是怎么炼成的？

heshaoyu55 · 发表于 2024-8-22 20:37

　　上个月，liblib 发布了其第三代文生图大模型 Stable Diffusion 3。该模型展现出了超越现有文本到图像生成系统的强大性能，为文本到图像生成技术带来了重大突破。
　　昨天，liblib 终于发布了 Stable Diffusion 3 技术报告，帮助我们一窥 Stable Diffusion 3 背后的技术细节。报告要点如下：
　　众所周知，Stable Diffusion 3 在排版和提示遵循等方面表现出色，超越了 DALL·E 3、Midjourney v6 和 Ideogram v1 等最先进的文本到图像生成系统。其中：
　　与其他开放模型和封闭源系统相比，Stable Diffusion 3 在视觉美观度、提示遵循和排版等方面表现出色。
　　Stable Diffusion 3 采用了重新加权的矩形流形式，以改善模型性能。与其他矩形流形式相比，它的表现更为稳定。
　　新的多模态扩散 Transformer（Multimodal Diffusion Transformer，MMDiT）架构使用独立的权重集合来处理图像和语言表示，相比于之前的版本，改善了文本理解和拼写能力。
　　MMDiT 架构结合了 DiT 和矩形流（RF）形式。它使用两个独立的变换器来处理文本和图像嵌入，并在注意力操作中结合两种模态的序列。
　　MMDiT 架构不仅适用于文本到图像生成，还可以扩展到多模态数据，比如视频。
　　移除内存密集型的 T5 文本编码器可以显著减少 SD3 的内存需求，仅伴随少量性能损失。