站長之家(ChinaZ.com)1月16日 消息:過去一年擴散模型風頭正勁,徹底改變了文生圖領域!那么,擴散模型能否處理視覺感知任務?字節(jié)跳動和復旦大學技術團隊在最新研究中提出了一個簡單有效的方案。擴散模型在生成高清晰度圖像方面顯示出了卓越的能力,這一成就得益于其在大規(guī)模圖像-文本對上的預訓練。團隊提出了一種利用擴散模型處理視覺感知任務的方案,通過引入可學習的元提示到預訓練的擴散模型中,以提取適合特定感知任務的特征。
項目地址:https://github.com/fudan-zvg/meta-prompts
視覺感知任務的多樣性超出了文本驅動方法的范疇,因此技術團隊提出了一種內部的可學習元提示,稱為meta prompts,這些meta prompts被集成到擴散模型中,以適應感知任務。Meta prompts可以根據目標任務和數(shù)據集進行端到端的訓練,從而為去噪UNet建立特別定制的適應條件。這些meta prompts包含豐富的、適應于特定任務的語義信息,有效展示了對類別的識別能力、對深度的感知能力以及關鍵點的感知。
擴散模型通過其固有的設計,在去噪UNet中生成多尺度特征,但視覺感知任務通常需要理解既包括低級細節(jié)的又包括高級語義解釋的內容。為了解決這一問題,技術團隊引入了meta prompts作為特征重組的過濾器,將UNet的多尺度特征與meta prompts的任務適應性結合起來,并將經過meta prompts過濾的特征輸入到特定任務的解碼器中,從而提高模型在視覺識別任務中的性能。
技術團隊還為視覺感知任務設計了一個簡單的recurrent refinement過程,通過將UNet的輸出特征循環(huán)輸入到UNet中,并引入可學習的獨特的timestep embeddings,以調制UNet的參數(shù),從而優(yōu)化特征提取過程,增強模型在視覺感知任務中的性能。實驗結果顯示,該方法在多個感知任務數(shù)據集上都取得了最優(yōu)。
該研究提出的方法和技術有廣泛的應用前景,可以在自動駕駛、醫(yī)學影像分析、機器人視覺系統(tǒng)等領域中提升視覺感知任務的性能。此外,該方法還可以在藝術創(chuàng)作、虛擬現(xiàn)實、增強現(xiàn)實等領域中用于提高圖像和視頻的質量和互動性。隨著技術的進步,這些方法可能會進一步完善。
(舉報)