站長之家(ChinaZ.com)1月4日 消息:Meta AI最近發(fā)布了一項引人注目的技術(shù),他們成功地開發(fā)出一種能夠從音頻中生成逼真的虛擬人物形象的系統(tǒng)。
這個系統(tǒng)能夠根據(jù)多人對話中的語音生成與對話相對應(yīng)的逼真面部表情、完整身體和手勢動作。這些虛擬人物不僅在視覺上非常逼真,而且能夠準(zhǔn)確地反映出對話中的手勢和表情細節(jié),例如指點、手腕抖動、聳肩、微笑和嘲笑等。
項目及演示:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/
代碼:https://top.aibase.com/tool/audio2photoreal
Demo:https://colab.research.google.com/drive/1lnX3d-3T3LaO3nlN6R8s6pPvVNAk5mdK
這個系統(tǒng)的工作原理如下:
首先,Meta AI團隊捕獲了一組豐富的雙人對話數(shù)據(jù)集,這些數(shù)據(jù)集能夠提供逼真的重建。然后,他們構(gòu)建了一個復(fù)合運動模型,其中包括面部運動模型、引導(dǎo)姿勢預(yù)測器和身體運動模型。
在生成面部運動時,系統(tǒng)使用預(yù)訓(xùn)練的唇部回歸器處理音頻,提取與面部運動相關(guān)的特征,并利用條件擴散模型生成面部運動。
在生成身體運動時,系統(tǒng)根據(jù)音頻自回歸地輸出每秒1幀的向量量化(VQ)引導(dǎo)姿勢。然后,將音頻和引導(dǎo)姿勢輸入到擴散模型中,以每秒30幀的速度生成高頻身體運動。
最后,生成的面部和身體運動被傳入訓(xùn)練好的虛擬人物渲染器,生成逼真的虛擬人物。
最終展示的結(jié)果是根據(jù)音頻生成的全身逼真虛擬人物,這些虛擬人物能夠表現(xiàn)出對話中的細微表情和手勢動作。
這項技術(shù)的發(fā)布將為虛擬人物的創(chuàng)造和應(yīng)用領(lǐng)域帶來巨大的進步。無論是在游戲開發(fā)、虛擬現(xiàn)實還是電影制作領(lǐng)域,這種能夠從音頻中生成逼真虛擬人物的系統(tǒng)都將發(fā)揮重要作用。
Meta AI的成果再次展示了他們在人工智能領(lǐng)域的卓越能力和創(chuàng)新精神。他們不斷推動著技術(shù)的邊界,為我們帶來了一個全新的虛擬人物生成的時代。我們可以期待在不久的將來,這種技術(shù)將成為我們生活中不可或缺的一部分。
(舉報)