站長(zhǎng)之家(ChinaZ.com) 3月14日 消息:科技巨頭們正在競(jìng)相開(kāi)發(fā)能夠從單張照片生成會(huì)說(shuō)話的人類視頻的技術(shù)。繼阿里巴巴推出其EMO項(xiàng)目后,Google也推出了類似的項(xiàng)目VLOGGER。這項(xiàng)技術(shù)基于文本和驅(qū)動(dòng)音頻,能夠從單張照片生成會(huì)說(shuō)話的人類視頻。
項(xiàng)目地址:https://top.aibase.com/tool/vlogger
論文地址:https://arxiv.org/pdf/2403.08764.pdf
VLOGGER的獨(dú)特之處在于:
不需要針對(duì)每個(gè)人進(jìn)行訓(xùn)練。這意味著無(wú)需為每個(gè)個(gè)體創(chuàng)建專門(mén)的模型,大大降低了數(shù)據(jù)需求。
不依賴于面部檢測(cè)和修剪。這使得VLOGGER能夠在沒(méi)有清晰的面部輪廓或面部特征的情況下工作。
生成完整的圖像(而不僅僅是面部或嘴唇)。這為生成更自然、更真實(shí)的視頻提供了可能。
考慮了一系列廣泛的場(chǎng)景(例如,可見(jiàn)的軀干或多樣化的身份特征),這對(duì)于正確合成交流的人類至關(guān)重要。
然而,盡管VLOGGER在技術(shù)上有其獨(dú)特之處,但根據(jù)演示視頻來(lái)看,其效果似乎不如阿里巴巴的EMO好。這可能是由于EMO在面部表情和動(dòng)作的合成上更為精細(xì)。
除了生成新的視頻,VLOGGER還具有編輯現(xiàn)有視頻的能力。例如,它可以改變主題的表情,或者調(diào)整嘴巴和眼睛的閉合狀態(tài),從而改變視頻的情緒和信息傳遞。
在視頻翻譯方面,VLOGGER也可以取一個(gè)特定語(yǔ)言的現(xiàn)有視頻,并編輯唇部和面部區(qū)域以適應(yīng)新的音頻。例如,可以將一段英語(yǔ)視頻的唇部和面部區(qū)域編輯,使其看起來(lái)像是在說(shuō)西班牙語(yǔ)。
總的來(lái)說(shuō),VLOGGER是Google在人工智能領(lǐng)域的又一重要突破,它展示了從單張照片生成會(huì)說(shuō)話的人類視頻的可能性,同時(shí)也提供了視頻編輯和翻譯的新工具。然而,與阿里巴巴的EMO相比,VLOGGER在視頻生成的效果上還有待提升。
(舉報(bào))