劃重點(diǎn):
- 研究人員引入正交微調(diào)(OFT)方法,極大地增強(qiáng)了對基于文本的圖像生成模型的控制能力。
- OFT 使用正交變換方法,保持神經(jīng)元之間的關(guān)系結(jié)構(gòu),確保模型的語義生成能力得到保留。
- OFT 方法在生成質(zhì)量和效率方面表現(xiàn)出色,具有廣泛的實(shí)際應(yīng)用和影響。
站長之家(ChinaZ.com)1月26日 消息:一直以來,基于文本的圖像生成技術(shù)一直備受關(guān)注,因?yàn)樗軌蚋鶕?jù)文字描述創(chuàng)建逼真的圖像。這些模型利用復(fù)雜的算法解讀文本并將其轉(zhuǎn)化為視覺內(nèi)容,模擬了人類獨(dú)有的創(chuàng)造力和理解能力。這項(xiàng)技術(shù)在各個領(lǐng)域都具有巨大的潛力,從平面設(shè)計(jì)到虛擬現(xiàn)實(shí),都可以創(chuàng)建與文本輸入相符的復(fù)雜圖像。
在這一領(lǐng)域中的一個關(guān)鍵挑戰(zhàn)是微調(diào)這些模型以實(shí)現(xiàn)對生成圖像的精確控制。模型在保持高保真度圖像生成和對文本提示的細(xì)膩解釋之間往往難以平衡。確保這些模型能夠準(zhǔn)確遵循文本指令并保持其創(chuàng)造性完整性是至關(guān)重要的,特別是在需要特定圖像特征或風(fēng)格的應(yīng)用中。目前,引導(dǎo)這些模型通常涉及調(diào)整網(wǎng)絡(luò)中的神經(jīng)元權(quán)重,可以通過小學(xué)習(xí)率更新或通過重新參數(shù)化神經(jīng)元權(quán)重來實(shí)現(xiàn)。然而,這些技術(shù)往往需要在保留模型預(yù)訓(xùn)練生成性能方面進(jìn)行改進(jìn)。
來自包括智能系統(tǒng) MPI、劍橋大學(xué)、圖賓根大學(xué)、蒙特利爾大學(xué)、博世人工智能中心和阿蘭圖靈研究所在內(nèi)的多個機(jī)構(gòu)的研究人員介紹了正交微調(diào)(OFT)方法。
該方法顯著提高了對基于文本的圖像生成模型的控制能力。OFT 采用正交變換方法,著重于保持超球能量(神經(jīng)元之間關(guān)系結(jié)構(gòu)的度量)。這種方法確保了模型的語義生成能力得到保留,從而實(shí)現(xiàn)更準(zhǔn)確和穩(wěn)定的基于文本提示的圖像生成。
OFT 方法可以從以下四個方向進(jìn)行全面審視,以對所提出的方法有一個整體的了解:
1. 采用 OFT 進(jìn)行簡化微調(diào):OFT 使用正交變換來適應(yīng)大規(guī)?;谖谋镜膱D像生成模型,而不改變其超球能量。這種方法保持了模型的語義生成能力。
2. 提高生成質(zhì)量和效率:OFT 應(yīng)用于兩個具體任務(wù):根據(jù)幾張參考圖片和文本提示生成特定主題的圖片,以及可控生成,即模型接收額外的控制信號。
3. 實(shí)際應(yīng)用和廣泛影響:OFT 可以用于藝術(shù)家和平面設(shè)計(jì)師根據(jù)文字描述創(chuàng)建復(fù)雜的圖像和藝術(shù)作品。這可以大大加快創(chuàng)作過程,讓藝術(shù)家在較短時間內(nèi)探索更多的創(chuàng)意。此外,OFT 還可以為廣告和營銷提供基于特定文本輸入的獨(dú)特定制視覺內(nèi)容,快速原型化廣告概念和不同主題或營銷信息的視覺內(nèi)容。
4. 開放挑戰(zhàn)和未來方向:解決 OFT 在可擴(kuò)展性方面的局限性,特別是與 Cayley 參數(shù)化涉及的矩陣求逆操作的計(jì)算效率相關(guān)的問題。研究如何結(jié)合多個 OFT 微調(diào)任務(wù)產(chǎn)生的正交矩陣,同時保留所有下游任務(wù)的知識。改進(jìn)參數(shù)效率的方法,以更少的偏見和更有效的方式來提高參數(shù)效率,仍然是一個重大挑戰(zhàn)。
正交微調(diào)方法極大地推動了基于 AI 的圖像生成。通過有效解決微調(diào)文本到圖像模型的挑戰(zhàn),OFT 提供了一種更可控、穩(wěn)定和高效的方法。這一突破為需要準(zhǔn)確從文本生成圖像的應(yīng)用開辟了新的可能性,標(biāo)志著 AI 創(chuàng)造力和視覺表現(xiàn)的新時代的到來。
論文:https://openreview.net/forum?id=K30wTdIIYc
項(xiàng)目網(wǎng)址:https://top.aibase.com/tool/orthogonal-finetuning-oft-
(舉報(bào))