**劃重點(diǎn):**
1. ?? **框架介紹:** DreaMoving是一種基于擴(kuò)散模型的可控視頻生成框架,基于圖文就能制作高質(zhì)量定制的人類跳舞視頻視頻。
2. ?? **架構(gòu)解析:** 文中提出了Video ControlNet和Content Guider兩大關(guān)鍵組件,分別負(fù)責(zé)運(yùn)動(dòng)控制和身份保留,可適用于各種風(fēng)格化的擴(kuò)散模型。
3. ?? **成果展示:** DreaMoving通過姿勢(shì)序列和簡(jiǎn)單的內(nèi)容描述,如文本和參考圖像,生成高質(zhì)量、高保真度的定制視頻。
站長(zhǎng)之家(ChinaZ.com)12月12日 消息:DreaMoving由阿里巴巴集團(tuán)的一組研究人員傾力打造,一種基于擴(kuò)散模型的可控視頻生成框架,。該框架的核心目標(biāo)基于圖文就能生成高質(zhì)量、定制化的人類舞蹈視頻。
DreaMoving以其出色的擴(kuò)散模型為基礎(chǔ),能夠根據(jù)人物的身份和姿勢(shì)序列生成目標(biāo)身份在任何地方跳舞的視頻。
DreaMoving 可以生成高質(zhì)量和高保真度的視頻,給定指導(dǎo)序列和簡(jiǎn)單的內(nèi)容描述,例如文本和參考圖像作為輸入。具體來說,DreaMoving 通過人臉參考圖像、通過姿勢(shì)序列進(jìn)行精確運(yùn)動(dòng)操作以及由指定文本提示提示的綜合視頻外觀控制來展示身份控制的熟練程度。
比如你“投喂”一張人像,以及一段prompt就能生成對(duì)應(yīng)的視頻,而且改變prompt,人物背景和身上的衣服也會(huì)跟著變化。
為實(shí)現(xiàn)這一目標(biāo),該技術(shù)引入了Video ControlNet和Content Guider兩個(gè)關(guān)鍵組件。
Video ControlNet:這是一個(gè)圖像ControlNet,通過在每個(gè)U-Net塊后注入運(yùn)動(dòng)塊,處理控制序列(姿勢(shì)或深度)以產(chǎn)生額外的時(shí)間殘差。這有效實(shí)現(xiàn)了對(duì)運(yùn)動(dòng)的控制。
Content Guider:該組件負(fù)責(zé)將輸入文本提示和外觀表達(dá),如人臉(衣物是可選的),轉(zhuǎn)換為內(nèi)容嵌入,實(shí)現(xiàn)跨注意力的傳遞。
值得一提的是,目前DreaMoving項(xiàng)目并沒有開源代碼。點(diǎn)擊前往DreaMoving官網(wǎng)體驗(yàn)入口
項(xiàng)目網(wǎng)址:https://dreamoving.github.io/dreamoving/
論文網(wǎng)址:https://arxiv.org/abs/2312.05107
(舉報(bào))