加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

发布时间:2023-04-29 14:21:52 所属栏目:外闻 来源:
导读:量子位 | 公众号 QbitAI

开源AI绘画扛把子,Stable Diffusion背后公司 StabilityAI再放大招!

全新开源模型 DeepFloyd IF,一下获星2千+并登上GitHub热门榜。

DeepFloyd IF不光图像质量是 照片级的,还解决
量子位 | 公众号 QbitAI

开源AI绘画扛把子,Stable Diffusion背后公司 StabilityAI再放大招!

全新开源模型 DeepFloyd IF,一下获星2千+并登上GitHub热门榜。

DeepFloyd IF不光图像质量是 照片级的,还解决了文生图的两大难题:

准确绘制文字。(霓虹灯招牌上写着xxx)

以及 准确理解空间关系。(一只猫照镜子看见狮子的倒影)

网友表示,这可是个大事,之前想让Midjourney v5在霓虹灯招牌上写个字AI都是瞎划拉两笔,对于镜子理解的也不对。

使用DeepFloyd IF,可以把指定文字巧妙放置在画面中任何地方。

霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。

这意味着,AI直出商品渲染图、海报等实用工作流程又打通一环。

目前DeepFloyd IF以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。

DeepFloyd IF仍然基于扩散模型,但与之前的Stable Diffusion相比有两大不同。

负责理解文字的部分从OpenAI的CLIP换成了谷歌 T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。

也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。

可以看出,使用T5做文本理解的 谷歌Parti和 英伟达eDiff-1也都可以准确绘制文字,AI不会写字这事就是CLIP的锅。

不过英伟达eDiff-1不开源,谷歌的几个模型更是连个Demo都不给,DeepFloyd IF就成了更实际的选择。

具体生成图像上 DeepFloyd IF与之前模型一致,语言模型理解文本后先生成64x64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。

在这种架构上,通过把指定图像缩小回64x64再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。

在实验中,IF-4.3B取得了最好的FID分数,并达到SOTA(FID越低代表图像质量越高、多样性越好)。

DeepFloyd AI Research是StabilityAI旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只“研发乐队”。 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

这次除了开源代码外,团队在HuggingFace上还提供了DeepFloyd IF模型的在线试玩。

原因可能是其训练数据集LAION-A里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。

语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型实现。
 

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章