劃重點(diǎn):
?? Pandora 是一個(gè)通向通用世界模型(GWM)的重要步驟,通過(guò)生成視頻來(lái)模擬任何領(lǐng)域的世界狀態(tài)。
?? Pandora 可以接受自然語(yǔ)言輸入作為動(dòng)作,并在視頻生成過(guò)程中實(shí)時(shí)控制視頻內(nèi)容,與之前只能在視頻開(kāi)始時(shí)輸入文本提示的文本到視頻模型有著關(guān)鍵的不同。
?? Pandora 還可以生成基于相同初始狀態(tài)但不同動(dòng)作的多個(gè)替代未來(lái)的視頻,讓用戶能夠自主控制未來(lái)的發(fā)展。
站長(zhǎng)之家(ChinaZ.com)5月24日 消息:Pandora 是一個(gè)研究通用世界模型(GWM)的重要進(jìn)展,其目標(biāo)是通過(guò)生成視頻來(lái)模擬任何領(lǐng)域的世界狀態(tài),并提供自然語(yǔ)言的實(shí)時(shí)控制。
與之前的文本到視頻模型不同,Pandora 可以接受自由文本的動(dòng)作輸入,實(shí)現(xiàn)在視頻生成過(guò)程中對(duì)視頻內(nèi)容的實(shí)時(shí)控制。這種實(shí)時(shí)控制的能力實(shí)現(xiàn)了世界模型的互動(dòng)內(nèi)容生成承諾,并增強(qiáng)了強(qiáng)大的推理和規(guī)劃能力。比如生成視頻的過(guò)程中,用戶可以輸入指令如“讓汽車向左轉(zhuǎn)彎轉(zhuǎn)”、“汽車前方發(fā)生爆炸事故”,Pandora 會(huì)即時(shí)地根據(jù)這些指令調(diào)整視頻內(nèi)容,實(shí)現(xiàn)動(dòng)態(tài)控制。
產(chǎn)品入口網(wǎng)址:https://top.aibase.com/tool/pandora
Pandora 還能夠生成基于相同初始狀態(tài)但不同動(dòng)作的多個(gè)替代未來(lái)的視頻。用戶可以通過(guò)輸入不同的動(dòng)作來(lái)控制視頻的發(fā)展方向,實(shí)現(xiàn)對(duì)未來(lái)的自主控制。這種能力使得世界模型不再只是模擬替代未來(lái),而是能夠真正實(shí)現(xiàn)對(duì)未來(lái)的控制。
Pandora 能夠在各種通用領(lǐng)域生成視頻,包括室內(nèi) / 室外、自然 / 城市、人類 / 機(jī)器、2D/3D 等場(chǎng)景。通過(guò)使用高質(zhì)量數(shù)據(jù)進(jìn)行指導(dǎo)和訓(xùn)練,模型可以學(xué)習(xí)有效的動(dòng)作控制,并在不同領(lǐng)域中實(shí)現(xiàn)遷移學(xué)習(xí)。例如,Pandora 在訓(xùn)練時(shí)只接觸過(guò)2D 游戲 Coinrun,但可以無(wú)縫地將學(xué)到的動(dòng)作應(yīng)用于其他2D 游戲。
Pandora 將視頻模型與自主生成的 Pandora 背骨結(jié)合在一起,可以生成更長(zhǎng)的視頻,甚至可以達(dá)到無(wú)限長(zhǎng)度。通過(guò)這種結(jié)合,Pandora 能夠生成長(zhǎng)達(dá)8秒的視頻,即使訓(xùn)練時(shí)的視頻長(zhǎng)度最多只有5秒。
然而,作為通向 GWM 的初步步驟,Pandora 仍然存在一些限制。它可能無(wú)法生成一致的視頻,模擬復(fù)雜場(chǎng)景,理解常識(shí)和物理定律,以及遵循指令 / 動(dòng)作。
Pandora 是通向通用世界模型的重要一步,它通過(guò)自然語(yǔ)言動(dòng)作和視頻狀態(tài)的模擬生成,實(shí)現(xiàn)了對(duì)未來(lái)的自主控制,為交互式內(nèi)容生成、強(qiáng)大的推理和規(guī)劃能力提供了支持。
(舉報(bào))