Nvidia新技術(shù)可減少20倍AI模型訓(xùn)練資料量
Nvidia發(fā)展新的資料增強(qiáng)技術(shù),可以大幅減少訓(xùn)練人工智能模型所需要的資料量,研究人員僅使用來自大都會(huì)藝術(shù)博物館的一個(gè)小型資料集,就讓人工智能模型能夠創(chuàng)造出,過去可能需要數(shù)萬,甚至可能超過10萬訓(xùn)練圖像,才能產(chǎn)生的精美圖像結(jié)果,而這項(xiàng)研究成果可用于廣泛的領(lǐng)域上,包括醫(yī)療保健等應(yīng)用。
Nvidia將一種稱為ADA(Adaptive Discriminator Augmentation)的技術(shù),應(yīng)用在生成對(duì)抗網(wǎng)絡(luò)StyleGAN2模型上,使得訓(xùn)練圖像的資料量,可大幅減少10到20倍,而且獲得同樣良好的效果。生成對(duì)抗網(wǎng)絡(luò)(GAN)的特性之一,便是訓(xùn)練資料越多,模型產(chǎn)生的結(jié)果越好,生成對(duì)抗網(wǎng)絡(luò)由生成器(Generator)與判別器(Discriminator)兩個(gè)組件組成,生成器負(fù)責(zé)合成圖像,而判別器則要識(shí)別出圖像真?zhèn)危⒎答佊杏玫膮?shù)給生成器,使得生成器之后能夠產(chǎn)生更好的結(jié)果。
但是一旦訓(xùn)練資料不足,判別器便無法提供生成器足夠的信息產(chǎn)生好結(jié)果,就像是新手教練沒有夠多的經(jīng)驗(yàn)指導(dǎo)球員,球員也就難以精進(jìn)球技一樣。因此生成對(duì)抗網(wǎng)絡(luò)通常需要5萬到10萬的訓(xùn)練圖像,才能訓(xùn)練出高品質(zhì)的模型,但問題是,在許多使用案例上,并沒有足夠多的樣本圖像可以取用,僅以數(shù)千張圖像訓(xùn)練生成對(duì)抗網(wǎng)絡(luò),通常無法產(chǎn)生逼真的結(jié)果,而且會(huì)出現(xiàn)過適(Overfitting)的現(xiàn)象。
過去的研究也曾經(jīng)以資料增強(qiáng)的方法,減少訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)所需要的資料量,但是結(jié)果并不好,因?yàn)樯蓪?duì)抗網(wǎng)絡(luò)反而學(xué)習(xí)了圖像旋轉(zhuǎn)變形等失真情形,無法產(chǎn)生逼真的合成圖像。而現(xiàn)在Nvidia所提出的ADA方法,可以適應(yīng)性地應(yīng)用資料增強(qiáng)方法,避免過適現(xiàn)象,而使得StyleGAN2等模型,可以使用更少的訓(xùn)練圖像,并獲得良好的結(jié)果。
研究人員將這項(xiàng)結(jié)果應(yīng)用在過去因?yàn)橛?xùn)練資料太少,而難以實(shí)現(xiàn)的使用案例上,像是藝術(shù)家便使用StyleGAN進(jìn)行創(chuàng)作,產(chǎn)生出各種精美繪畫,或是以傳奇插畫家Osamu Tezuka的風(fēng)格,搭建新的漫畫,Adobe也應(yīng)用該項(xiàng)技術(shù),提供新的人工智能工具Neural Filters。
研究人員也提到,該項(xiàng)技術(shù)還有望應(yīng)用在醫(yī)療保健領(lǐng)域,因?yàn)楹币娂膊〉尼t(yī)學(xué)圖像很少,而且每個(gè)案例差異度很大,要大量收集有用的病理切片資料集很困難,而使用ADA技術(shù)的生成對(duì)抗網(wǎng)絡(luò),則可改善這樣的問題。
- 上一篇:2020“中國高校計(jì)算機(jī)大賽-人工智能創(chuàng)意賽”收官 2020/12/10
- 下一篇:構(gòu)建長期共贏生態(tài)圈 英特爾至強(qiáng)平臺(tái)加速人工智能落地 2020/12/10