站長之家(ChinaZ.com)9月26日 消息:Rerender A Video是一項(xiàng)令人印象深刻的技術(shù)成果,它旨在將大型文本到圖像擴(kuò)散模型的能力擴(kuò)展到視頻領(lǐng)域。該項(xiàng)目提出了一種零訓(xùn)練的文本引導(dǎo)視頻到視頻翻譯框架,能夠在視頻幀之間確保時(shí)間一致性,這一直是一個(gè)巨大的挑戰(zhàn)。
它包括兩個(gè)主要部分:關(guān)鍵幀翻譯和完整視頻翻譯。第一部分使用適應(yīng)的擴(kuò)散模型生成關(guān)鍵幀,通過應(yīng)用層次交叉幀約束來強(qiáng)化形狀、紋理和顏色的連貫性。
項(xiàng)目地址:https://github.com/williamyang1991/Rerender_A_Video
第二部分則通過時(shí)間感知的補(bǔ)丁匹配和幀混合將關(guān)鍵幀傳播到其他幀。這個(gè)框架以較低的成本實(shí)現(xiàn)了全局樣式和局部紋理的時(shí)間一致性,而無需重新訓(xùn)練或優(yōu)化。
它還與現(xiàn)有的圖像擴(kuò)散技術(shù)兼容,可以利用它們,例如使用LoRA自定義特定主題,或者使用ControlNet引入額外的空間引導(dǎo)。大量的實(shí)驗(yàn)結(jié)果證明了該框架在渲染高質(zhì)量和時(shí)間一致性視頻方面的有效性。
核心功能:
時(shí)間一致性: 通過交叉幀約束實(shí)現(xiàn)低級別時(shí)間一致性,確保生成的視頻幀之間的平滑過渡。
零訓(xùn)練: 無需對模型進(jìn)行訓(xùn)練或微調(diào),使其適用于各種視頻翻譯任務(wù)。
靈活性: 與現(xiàn)成的模型(如ControlNet、LoRA等)兼容,可以根據(jù)需求自定義翻譯過程。
WebUI界面: 提供了用戶友好的Web界面,使用戶可以輕松上傳視頻、輸入提示、選擇種子等,并運(yùn)行不同的翻譯步驟。
命令行支持: 提供了靈活的命令行腳本,允許用戶通過命令行參數(shù)控制翻譯過程。
(舉報(bào))