Imagen官网,Google Brain推出的文本生成图像扩散模型
什么是Imagen?
Imagen AI 是一种文本到图像的扩散模型,由 Google Research Brain Team 于 2022 年开发。它具有前所未有的逼真度和深层次的语言理解能力。Google Imagen AI建立在大型 Transformer 语言模型理解文本的能力之上,并具有扩散模型在高保真图像生成方面的优势。简而言之,Imagen 是一个人工智能系统,可以根据输入文本创建逼真的图像。
Imagen官网:
Imagen怎么样?
谷歌的Imagen AI系统是一种可以将自然文本转换为图像的先进模型,类似于OpenAI的DALL-E 2。然而,谷歌目前还未向公众开放完整版本的文本到图像AI模型。不过,现在情况正在发生变化,至少有一些变化。谷歌宣布将在其AI Test Kitchen应用程序中添加一个不完全版的Imagen。
AI Test Kitchen是在今年早些时候发布的,它开放了谷歌部分AI技术的测试版。谷歌将在该应用程序中添加Imagen,但会有一些限制。用户可以通过两种方式与Imagen进行互动,称为”城市梦想家”和”摇摆”。
在”城市梦想家”中,用户可以创造一个城市,并选择他们想要的主题。例如,如果你想创建一个”赛博城市”,Imagen的”城市梦想家”将围绕”赛博”主题创建建筑模型。这些设计看起来类似于等距模型,就像The Verge指出的那样,”看起来有点像你在模拟城市游戏中看到的样子”。
关于”摇摆”功能,它可以让用户创建一个小怪物。用户可以选择怪物的材质,如粘土、毛毡或橡胶,并给它穿上自己选择的衣服。Imagen将根据用户的描述创建出相应的怪物,用户可以为它命名并与之互动。这个功能有一些限制,用户无法创建任何想要的怪物,但是”摇摆”中的所有怪物都将共享一些设计语言。与DALL-E的公开测试版一样,Imagen的互动自由度也是有限的。
谷歌并没有详细说明这些限制是软件自身的特性,但这些限制对于Imagen的后续调试非常重要。AI Test Kitchen的目的是获得用户反馈,帮助谷歌发现AI技术方面的问题,用户与系统的互动也是测试的一部分。
随着人工智能技术变得越来越复杂和普及,相关的风险也越来越大。当限制和自由度完全开放时,一小部分用户可能会滥用这项技术。对于像谷歌这样的公司来说,用户滥用其产品可能会带来严重后果,甚至在极端情况下对其他用户或谷歌本身造成严重损害。
毫无疑问,Imagen是最先进的人工智能模型之一。然而,能力越大,责任也越大。目前还不清楚Imagen将何时成为完全公开的商业产品,如果会成为商业产品。不过,用户目前可以通过”城市梦想家”和”摇摆”功能进行测试体验。AI Test Kitchen可在Android和iOS平台上免费下载使用。