曼尼托巴中文论坛

搜索
查看: 40|回复: 0

最强文生图模型Stable Diffusion 3是怎么炼成的?

[复制链接]

1842

主题

1842

帖子

2043

积分

加拿大枫子(十六级)

积分
2043
heshaoyu55 发表于 2024-8-22 20:37 | 显示全部楼层 |阅读模式
  上个月,liblib 发布了其第三代文生图大模型 Stable Diffusion 3。该模型展现出了超越现有文本到图像生成系统的强大性能,为文本到图像生成技术带来了重大突破。
  昨天,liblib 终于发布了 Stable Diffusion 3 技术报告,帮助我们一窥 Stable Diffusion 3 背后的技术细节。报告要点如下:
  众所周知,Stable Diffusion 3 在排版和提示遵循等方面表现出色,超越了 DALL·E 3、Midjourney v6 和 Ideogram v1 等最先进的文本到图像生成系统。其中:
  与其他开放模型和封闭源系统相比,Stable Diffusion 3 在视觉美观度、提示遵循和排版等方面表现出色。
  Stable Diffusion 3 采用了重新加权的矩形流形式,以改善模型性能。与其他矩形流形式相比,它的表现更为稳定。
  新的多模态扩散 Transformer(Multimodal Diffusion Transformer,MMDiT)架构使用独立的权重集合来处理图像和语言表示,相比于之前的版本,改善了文本理解和拼写能力。
  MMDiT 架构结合了 DiT 和矩形流(RF)形式。它使用两个独立的变换器来处理文本和图像嵌入,并在注意力操作中结合两种模态的序列。
  MMDiT 架构不仅适用于文本到图像生成,还可以扩展到多模态数据,比如视频。
  移除内存密集型的 T5 文本编码器可以显著减少 SD3 的内存需求,仅伴随少量性能损失。

使用 高级模式(可批量传图、插入视频等)
您需要登录后才可以回帖 登录 | 曼尼托巴中文网注册链接激活

快速回复 返回顶部 返回列表