**劃重點(diǎn):**
1. ?? 圖像修復(fù)是一個(gè)復(fù)雜的挑戰(zhàn),研究人員提出了名為“Dual-Pivot Tuning”的個(gè)性化圖像修復(fù)方法。
2. ?? 該方法使用有限的高質(zhì)量個(gè)體圖像集,以保持圖像對(duì)個(gè)體身份的高保真性。
3. ?? 實(shí)驗(yàn)證明,“Dual-Pivot Tuning”技術(shù)在盲目和少數(shù)樣本的個(gè)性化面部圖像修復(fù)方面優(yōu)于其他最先進(jìn)的方法。
站長(zhǎng)之家(ChinaZ.com)1月4日 消息:圖像修復(fù)一直是一個(gè)備受研究者關(guān)注的復(fù)雜挑戰(zhàn),其主要目標(biāo)是在維持降質(zhì)輸入的感知質(zhì)量的同時(shí),創(chuàng)建視覺(jué)上吸引人且自然的圖像。在沒(méi)有有關(guān)主題或降質(zhì)的信息的情況下(盲目恢復(fù)),了解自然圖像范圍至關(guān)重要。為了恢復(fù)面部圖像,必須在確保輸出保留個(gè)體獨(dú)特面部特征之前包含身份信息。以往的研究已經(jīng)探討了使用基于參考的面部圖像恢復(fù)的方法來(lái)解決這一要求。然而,將個(gè)性化整合到基于擴(kuò)散的盲目恢復(fù)系統(tǒng)仍然是一個(gè)持久性的挑戰(zhàn)。
加利福尼亞大學(xué)洛杉磯分校和Snap Inc.的研究團(tuán)隊(duì)開發(fā)了一種名為“Dual-Pivot Tuning”的個(gè)性化圖像恢復(fù)方法。雙軸調(diào)整是一種用于在盲目圖像恢復(fù)背景下定制文本到圖像的先驗(yàn)的方法。該過(guò)程涉及使用個(gè)體的一組有限數(shù)量的高質(zhì)量圖像來(lái)增強(qiáng)其其他降質(zhì)圖像的恢復(fù)。其主要目標(biāo)是確保恢復(fù)的圖像對(duì)個(gè)體的身份和降質(zhì)輸入圖像具有高保真度,同時(shí)保持自然外觀。
研究討論了基于擴(kuò)散的盲目恢復(fù)方法,當(dāng)應(yīng)用于降級(jí)的面部圖像時(shí),可能無(wú)法有效保留個(gè)體的獨(dú)特身份。研究人員強(qiáng)調(diào)了以前在基于參考的面部圖像恢復(fù)方面的努力,引用了各種方法,如GFRNet、GWAINet、ASFFNet、Wang等,DMDNet和MyStyle。這些方法利用單個(gè)或多個(gè)參考圖像來(lái)實(shí)現(xiàn)個(gè)性化恢復(fù),確保對(duì)降級(jí)圖像中個(gè)體獨(dú)特特征的更好保真度。與以往方法不同,提出的技術(shù)使用基于擴(kuò)散的個(gè)性化生成先驗(yàn),而其他方法使用前饋架構(gòu)或基于GAN的先驗(yàn)。
研究概述了為圖像恢復(fù)個(gè)性化引導(dǎo)擴(kuò)散模型的方法。Dual-Pivot Tuning技術(shù)包括兩個(gè)步驟:基于文本的微調(diào),將身份特定信息嵌入擴(kuò)散先驗(yàn)中,以及模型中心的樞軸,將引導(dǎo)圖像編碼器與個(gè)性化先驗(yàn)協(xié)調(diào)一致。文本到圖像擴(kuò)散模型的個(gè)性化運(yùn)算符被定義為通過(guò)樞軸微調(diào)模型以創(chuàng)建定制版本。該技術(shù)包括上下文文本樞軸,注入身份信息,然后是基于模型的樞軸,利用通用恢復(fù)在實(shí)現(xiàn)高保真度恢復(fù)的圖像之前。
提出的Dual-Pivot Tuning技術(shù)通過(guò)個(gè)性化恢復(fù)在恢復(fù)圖像中實(shí)現(xiàn)了高身份保真度和自然外觀。定性比較表明,基于擴(kuò)散的盲目恢復(fù)方法可能無(wú)法保留個(gè)體的身份,而提出的技術(shù)在保持高身份保真度的同時(shí),沒(méi)有可感知的對(duì)降質(zhì)輸入的保真度損失。使用PSNR、SSIM和ArcFace相似性等指標(biāo)的定量評(píng)估表明,所提方法在恢復(fù)圖像方面對(duì)個(gè)體身份的高保真度非常有效。
通過(guò)Dual-Pivot Tuning實(shí)現(xiàn)的個(gè)性化恢復(fù)技術(shù)在恢復(fù)圖像中實(shí)現(xiàn)了高身份保真度和自然外觀。實(shí)驗(yàn)證明,與盲目和少數(shù)樣本的面部圖像恢復(fù)的各種最先進(jìn)替代方法相比,定制模型在個(gè)體身份方面表現(xiàn)更好,并且在一般圖像質(zhì)量方面優(yōu)于通用先驗(yàn)。該方法對(duì)不同類型的降解是不可知的,并在保持身份的同時(shí)提供一致的恢復(fù)。
項(xiàng)目體驗(yàn)網(wǎng)址:https://top.aibase.com/tool/personalized-restoration-via-dual-pivot-tuning
論文網(wǎng)址:https://arxiv.org/abs/2312.17234
(舉報(bào))