pp电子(中国游)官方在线平台







咨询热线:021-80392549

pp电子(中国游)官方在线平台 QQ在线 pp电子(中国游)官方在线平台 企业微信
pp电子(中国游)官方在线平台
pp电子(中国游)官方在线平台 资讯 > 人工智能 > 正文

人(rén)工智(zhì)能让经典电影重现当年风采

2020/03/11392

portant;" />

老照片、老电影(yǐng)总能让人们的思绪飘回那些久远的年代,沉淀于其中,可与此同时(shí),模糊的画面又不免(miǎn)给(gěi)记忆蒙上(shàng)了一(yī)层薄雾。如今,随着人工(gōng)智能技术的发展,SRGAN(超分辨率生成(chéng)对抗网络)使得拨散云雾始见(jiàn)真,成倍还原了画面质量。

2019年底,WAIC开发者(zhě)·上海临(lín)港人工智(zhì)能开发者大会的开幕式上,上海市(shì)经济和信息化委员(yuán)会副主任张英为上海市人工智能创新中心授牌,深兰科技等7家企业首批入选,同(tóng)时深兰科技(jì)两项应用场景方案入围“上海市(shì)第(dì)二批(pī)人工(gōng)智能试点应用场景”。

portant;" />

其中,在AI+文(wén)化(huà)旅游场景中,深兰(lán)科(kē)技(jì)入围成(chéng)为上海文化广(guǎng)告影(yǐng)视集团有限公司的(de)解决方(fāng)案供应商,将为(wéi)其(qí)提(tí)供(gòng)视频图像质量增强技术,通过智(zhì)能算法提高视(shì)频画面(miàn)质量,使2K高清素材达(dá)到4K超高(gāo)清要求(qiú),优化提(tí)升(shēng)老旧节(jiē)目的图(tú)像(xiàng)清(qīng)晰度。

今天,就(jiù)来个承上启(qǐ)下,回顾(gù)前一年成绩的同时,也用创新(xīn)和进步为新的一(yī)年注入能量。获奖方(fāng)案的(de)团队负责(zé)人、深兰科学院深(shēn)度学习科学家(jiā)方(fāng)林博(bó)士,给出了实现超分辨率的SRGAN模型的网络结构、训练步骤和(hé)损失(shī)函数,将帮助(zhù)GAN的初(chū)学(xué)者理(lǐ)解对抗网络的实(shí)质,为今后(hòu)设计更加复杂的超分模型打下(xià)基础。

超分辨(biàn)率

超分辨率(lǜ)的目的(de)是把低分辨率的图像(xiàng)或者视频转为高(gāo)分(fèn)辨率,比如:

portant;" />

portant;" />

我们利用超分辨率生成式对抗网(wǎng)络(SRGAN, Super Resolution Generative Adversarial Network)实现超分辨率。

下面我(wǒ)们通过一个简单的SRGAN模(mó)型来(lái)说(shuō)明超(chāo)分模型的基本结(jié)构和训(xùn)练步骤(zhòu)。

图片准备

超(chāo)分模型由(yóu)两张图片组成(chéng),第一张是模糊图片,形状为[128, 128, 3];第(dì)二张是对应的清晰图片(piàn),形状(zhuàng)为[512, 512, 3]。清晰图片的(de)长宽分别是模糊图片的长宽的4倍。我们(men)的目标是把模糊图(tú)片的分(fèn)辨率提高16倍(bèi)。

图片必须是一一对应(yīng)的,即一张(zhāng)模糊图片必须有对(duì)应的(de)一张清晰图片。为了准备图片,我们先收集足够数量(最好(hǎo)2万张以上)的清晰图片,图片的长度(dù)和宽(kuān)度应该都大于等于512。然后选取任意一个512*512的部分进行剪裁(cái)。

注(zhù)意:

不要把一个(gè)大的图片resize成(chéng)512*512大小,因为这会导(dǎo)致图(tú)片变(biàn)形;

由于我们可以在大图(tú)片(piàn)的任意位置剪裁出512*512的图片,所以长度(dù)或者宽度大(dà)于512的图片可以生成多个(gè)清晰图片。比如520*520的图片可(kě)以生(shēng)成(chéng)64个清晰图片(piàn)。

当(dāng)我(wǒ)们获得了所有清晰图片之后(hòu),再把每张清晰图片resize到128*128大小,这样(yàng)我们就获(huò)得了模糊(hú)图片。OpenCV的resize()方法可以帮助我们改变图片大(dà)小。

SRGAN模型

1、主要(yào)结构

SRGAN模型结构(gòu)如下图所(suǒ)示:

portant;" />

图中“模(mó)糊”是指模(mó)糊图(tú)片,“清晰”是指清晰图片,“生(shēng)成(chéng)”是指生成器生成的图片。生成(chéng)图片的(de)分辨(biàn)率与清晰图片相同,为(wéi)512*512。模糊图(tú)片的分辨率是128*128,为清晰图片(piàn)的1/16。

上图中的模型主要由(yóu)生成器(qì)和辨别器两部分组成。生成器的目的是输入模(mó)糊图片(piàn)(图(tú)中的“模糊”),输出(chū)生成(chéng)图片(图中的“生(shēng)成”)。辨别器的输入由a、b两个参数组(zǔ)成(chéng)。其中b是模糊图片(piàn),a是生成图(tú)片或(huò)者清晰图片。辨别器的目的是判断图片a是否是真实的清晰图片。b是(shì)用(yòng)来协助辨别(bié)器进行判断的。辨别器的输出p是(shì)一个概率,1表示a是100%的真实(shí)清(qīng)晰图片,0%表示a是100%的(de)生成图片。

训练上述模型时,生成器总是尽可(kě)能生成(chéng)像真实图片的图片,而辨别(bié)器则尽可能(néng)分辨(biàn)出a是真实图片还是(shì)生成图片。所以辨(biàn)别器(qì)和生成器之间存在着一种对(duì)抗:生成器越(yuè)优化,辨别器越不能分辨(biàn)生成图片的真假;辨别器(qì)越优化(huà),生成器生(shēng)成的图片就越不能通过(guò)辨别器的检(jiǎn)查。对抗的结果是双方的(de)能力都得(dé)到了提高,最(zuì)后达(dá)到纳什均(jun1)衡:即生成器生成了(le)很像真实图片的图片(piàn),连(lián)辨别器也无法分辨(biàn)其中的真(zhēn)假。这就是SRGAN的(de)基本原理。

2、生成(chéng)器结构

生成器的输入(rù)是128*128的3通道图片,输出是512*512的3通道图片。SRGAN使(shǐ)用U型网络实(shí)现这种图片到图片的转化,结构如下:

portant;" />

请注意:

第一,整个U型网络的(de)左半部分全部(bù)由卷积操(cāo)作(zuò)组成,用来抽取输入(rù)图像的(de)特(tè)征。右半部分全部(bù)由反卷积(jī)操作(zuò)组成,用来根据特征构(gòu)建清晰图片。由(yóu)于输出图片比输(shū)入图(tú)片大(dà)4倍,所以右(yòu)边比左边高出一(yī)截。

第二,左右两(liǎng)边相同大小的图片之(zhī)间(jiān)的连线称为捷径,表示左边的图片与(yǔ)右(yòu)边的图片(piàn)进(jìn)行加法操(cāo)作,结果(guǒ)保留在右(yòu)边。这是借用了残差神(shén)经网络(ResNet)的做法。不过ResNet中的捷(jié)径跨(kuà)越相同数量的操(cāo)作,而这里的捷径跨越不(bú)同数量的操(cāo)作,并且越上方的捷(jié)径离(lí)输(shū)入(rù)和输出越(yuè)近,快速(sù)传播梯度的(de)效果越好。

第三,左边最后的(de)卷积和(hé)最后的反卷(juàn)积(jī)操作都不含激活函数,并(bìng)且(qiě)整个网络中不使用Dropout,这样(yàng)做的(de)原因超出了本文的(de)讨论范畴,这里(lǐ)不叙述。

3、辨(biàn)别器结(jié)构

辨别器有两个输入,a表示(shì)要判(pàn)断真假的图片,b是辅助辨(biàn)别器判(pàn)断的模糊(hú)图片。两者(zhě)的分辨(biàn)率分别是512*512和128*128。对于参数a,我们采用卷积操作不断提纯其特征,最(zuì)后(hòu)全(quán)连接到一(yī)个神经元(yuán),最后经过sigmoid激(jī)活后得到一个(gè)概(gài)率。这条路径(jìng)我们称为(wéi)主(zhǔ)路径(jìng)。参(cān)数b,我们通过resize改变(biàn)其大小,然后从侧面(miàn)切入到主路径中去,从而影(yǐng)响特征的提取。下图显(xiǎn)示了辨(biàn)别器结(jié)构:

portant;" />

请注意,全连接之(zhī)后使用sigmoid激活函数,这样可以获(huò)得概率值。

SRGAN训(xùn)练

SRGAN的训练分三步(bù)完成(chéng)。第(dì)一步(bù),训(xùn)练辨别(bié)器识别(bié)真样本。这一步图示如下:

portant;" />

这一步的目的是用(yòng)每一(yī)对模糊和清晰图片训练辨别器,使得辨别器(qì)的输出尽(jìn)可能趋(qū)近(jìn)于1。注意:清晰图片对应于参数a,模糊图片对(duì)应于(yú)参数b,辨别器的期望输出是1。

假设我们用(yòng)函数 disc(a,b) 表(biǎo)示辨别器的输出(表(biǎo)示a为真实样本的概率(lǜ)),则这一步的损失可以用交叉熵(shāng)表示为(wéi):

portant;" />

其(qí)中a和b分别表示真实的清晰图片和对(duì)应(yīng)的模糊图片。

第二步,训(xùn)练辨别器识别假样(yàng)本。这一(yī)步图示如下:

portant;" />

请注(zhù)意:生成器(qì)在(zài)这一步(bù)中是固定(dìng)不变的,只有辨别器才(cái)被(bèi)优化。这(zhè)是(shì)因为这一步只(zhī)是为了训练辨别(bié)器(qì)识别假样本,也就是说(shuō)辨别器的期望输出是0,所以就不能改动生(shēng)成器。否则就(jiù)会导致生成(chéng)器试图生成让辨别器输出(chū)为(wéi)0的图(tú)片,这不是生(shēng)成器所期望的。生成器应(yīng)该期(qī)望生(shēng)成能让辨别器以为(wéi)是真(即辨别(bié)器(qì)输出(chū)为1)的图片。

很多算法工程师不清楚(chǔ)在这一(yī)步(bù)训(xùn)练中如何达到(dào)仅训练一个模块(比如(rú)说辨别器),而固定(dìng)其(qí)他模(mó)块(比如说生成(chéng)器)的目(mù)的。

在Tensorflow中(zhōng),一般地,我们可以调用(yòng)函数:

portant;" />

来实现梯度的反向传播和对模型(xíng)参数(shù)的优化。此时(shí)我们只需指定第二个(gè)参数(shù)varlist等于辨别(bié)器(qì)中所有可训练参数的列表(list)即可。其他未被(bèi)指定(dìng)的(de)参(cān)数(比(bǐ)如生成器中的参数)就不会被优化,也就是说(shuō),被固定了。

假设我(wǒ)们用函(hán)数gen()表示生成(chéng)的输出,则这一(yī)步辨别器的输出是:

portant;" />

由于这(zhè)一步辨(biàn)别器(qì)的(de)期望输出是0,所以(yǐ)这一步的损失可(kě)以(yǐ)用交叉(chā)熵表示为:

portant;" />

第(dì)三步,训练辨别器识别(bié)假样(yàng)本。这一步图示如下:

portant;" />

请(qǐng)注(zhù)意,在这一步(bù)训练中辨别(bié)器被(bèi)固(gù)定住了,保持不变,被训(xùn)练优化的是(shì)生(shēng)成器(qì)。因(yīn)为这一步的目(mù)的是要让生(shēng)成器生成辨别器以为是真(zhēn)实图片的图(tú)片,所(suǒ)以(yǐ)辨(biàn)别(bié)器的期望输出是1。此时我们必须固定住辨别器,否(fǒu)则辨别器会变成(chéng)这个样(yàng)子:不管(guǎn)生成(chéng)器输出什么样的图片(piàn),辨别器都(dōu)尽可能输(shū)出1。显然,这不是我们所期望的。

这一步训练的结(jié)构跟第(dì)二步相同,不(bú)同的是固定的是什么(me),训练的是什么,以及辨别器的期望输出(chū)不同。

由于这一(yī)步(bù)辨别(bié)器的期望输出是1,所以这一步(bù)的(de)损失可以(yǐ)用交叉熵(shāng)表示为:

portant;" />

我们可以发(fā)现,第二步和第三步训练(liàn)的(de)输入数据(jù)都是b,网络的输出都是disc(gen(b),b), 但是(shì)期望输出一个是(shì)0,另(lìng)一(yī)个是(shì)1。对抗由(yóu)此产(chǎn)生,最终的结果将达(dá)到纳(nà)什均衡(héng)。理(lǐ)想情况下,disc(gen(b),b) 的结果既不(bú)是0也不是1,而(ér)是接近0.5。

我们有了三个训练步骤,有了三个损(sǔn)失函数(shù),并且知道每一(yī)步(bù)训练什么、固定什么,则依(yī)次循环执行这三步训练就能达到实(shí)现超分模型的目(mù)的。

本文是对GAN和SRGAN的一个简单说(shuō)明,是给初学(xué)者理解SRGAN模型看的,没有涉及到(dào)GAN更高深的知(zhī)识(比如WGAN和推土机距离等)。如有错漏之处希望给以批(pī)评指正。

关键词:




AI人工智能网声(shēng)明:

凡(fán)资讯来源注明为其他媒体来源的信息(xī),均为转载自其他(tā)媒体,并不代(dài)表本网站赞同其观(guān)点,也不代表本(běn)网(wǎng)站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与网站(www.longnan.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给(gěi)您回应(yīng)并做处理。


联(lián)系电话(huà):021-31666777   新(xīn)闻、技术(shù)文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

工博士(shì)人(rén)工智能网
pp电子(中国游)官方在线平台
扫(sǎo)描二维码关(guān)注(zhù)微信
扫码反(fǎn)馈

扫一(yī)扫,反(fǎn)馈当前页面

咨询反馈(kuì)
扫码关注(zhù)

微信公众号(hào)

返回顶部

pp电子(中国游)官方在线平台

pp电子(中国游)官方在线平台