久久婷婷人人爽人人喊人人澡 男人到了天堂a在线电影 字节最新文本生成图像AI,熟练集里尽然莫得一张带笔墨描绘的图片?!
你的位置:久久婷婷人人爽人人喊人人澡 > 欧亚性爱 >

男人到了天堂a在线电影 字节最新文本生成图像AI,熟练集里尽然莫得一张带笔墨描绘的图片?!

发布日期:2022-04-29 10:39    点击次数:106

一个文本 - 图像对数据都无用,也能让 AI 学会看文作图?

来自字节的最新 text2image 模子,就做到了。

实践数据表示,它的成果比 VQGAN-CLIP 要信得过,尤其是泛化智商还比不少用大批文本 - 图像数据对熟练出来的模子要好好多。

嗯?不给笔墨翔实 AI 怎样知晓每一张图片代表什么?

这个模子到底咋熟练出来的?

无用笔墨熟练也能凭据文本生成图像

宫崎英高将"魂"系列十几年积攒下来的奇幻与瑰丽,通通都注入到了这款游戏之中,让人不得不怀疑,他是否也受到了"太阳"的召唤,才会在游戏世界铸就这样的一个传奇。

可能大部分漫威粉丝都会回答:2019 年。

本文建立在这个基础上,尽管是图一乐(勿当真),还是会有剧透,介意的姬友还请酌情观看。

率先,之是以选拔这么一种方式,作家暗示,是因为网罗大批带笔墨的图像数据集的资本太高了。

而一朝解脱对文本 - 图像对数据的需求,咱们就可以径直用大型无文本图像数据集 (比如 ImageNet)来熟练巨大且通用的 text2image 生成器。

字节达成的这个模子叫做CLIP-GEN,它具体是怎样操作的?

一共分三大步。

率先,关于一幅莫得文本标签的图像,使用CLIP的图像编码器,在话语 - 视觉(language-vision)商酌镶嵌空间(embedding space)中索要图像的 embedding。

接着,将图像调遣为VQGAN码本空间(codebook space)中的一系列零乱秀丽(token)。

也即是将图像以与当然话语疏导的方式进行暗示,便捷后续使用 Transformer 进行贬责。

其中,充任 image tokenizer 扮装的 VQGAN 模子,可以使用手里的无秀丽图像数据集进行熟练。

终末,再熟练一个自追思 Transformer,用它来将图像秀丽从 Transformer 的话语 - 视觉调处暗示中映射出对应图像。

经由这么的熟练后,面临一串文本描绘,Transformer 就可以凭据从 CLIP 的文本编码器中索要的文本镶嵌(text embedding)生成对应的图像秀丽(image tokens)了。

那这么全程莫得文本数据参与熟练的文本 - 图像生成器,欧亚性爱成果到底行弗成?

性能与清华 CogView 绝顶

作家辩别在 ImageNe 和 MSCOCO 数据集上对 CLIP-GEN 进行熟练和评估。

率先,用 MS-COCO 考据聚首的六个文本描绘生成样本。

CLIP-GEN 和其他通过大批文本 - 图像对熟练的 text2image 生成模子的成果对比如下:

其中,VQGAN-CLIP的收场比较不信得过,何况跟随严重的方式歪曲。

来自清华的CogView堪称比 DALL-E 更优秀,在这里的实践中,它照实可以生成细腻的图像结构,但在纹理细节上差点儿事儿。

DF-GAN可以生成具有丰富细节的合理图像,但也容易产生局部伪影。

作家合计,与这些对比模子比较,CLIP-GEN 的图像细节更丰富,质料更高一些,比如它就很好地证实了第二组笔墨中条款的"水中倒影"(不外不太能交融"三只毛绒熊"中的数字主意)。

定量实践收场基本证实了这一论断:

CLIP-GEN 拿到了最高的 FID-0、FID-1 分数;CapS 得分(算计输入文本和生成图像之间的语义相同性)除了比 CogView 低 4%,比其他模子都高好多。

此外,作家还发现,CLIP-GEN 的泛化智商似乎也可以。

鄙人面这组相配规的笔墨描绘中,比如生成"一只会飞的企鹅","叼雪茄的狗"、"有脸和头发的柠檬"…… CLIP-GEN 基本都可以达成,别的模子却不太能交融。

作家先容

本模子的五位作家沿途来自字节。

一作Wang Zihao本科毕业于北京理工大学,博士毕业于 UC 伯克利,曾在谷歌担任 3 年软件成立工程师,现履新于 TikTok。

通信作家名叫易子立,本科毕业于南京大学,博士毕业于加拿大纽芬兰挂念大学,当今在字节担任人工智能群众(主要商量多模态、超分辨率、人脸殊效),在此之前,他曾在华为责任。

论文地址:

https://arxiv.org/abs/2203.00386男人到了天堂a在线电影



友情链接:

TOP