Pandora:根據(jù)自然語(yǔ)言指令生成動(dòng)作和視頻的通用世界模型

2024-05-24 15:00 · 稿源：站長(zhǎng)之家

劃重點(diǎn):
?? Pandora 是一個(gè)通向通用世界模型（GWM）的重要步驟，通過(guò)生成視頻來(lái)模擬任何領(lǐng)域的世界狀態(tài)。
?? Pandora 可以接受自然語(yǔ)言輸入作為動(dòng)作，并在視頻生成過(guò)程中實(shí)時(shí)控制視頻內(nèi)容，與之前只能在視頻開(kāi)始時(shí)輸入文本提示的文本到視頻模型有著關(guān)鍵的不同。
?? Pandora 還可以生成基于相同初始狀態(tài)但不同動(dòng)作的多個(gè)替代未來(lái)的視頻，讓用戶能夠自主控制未來(lái)的發(fā)展。

站長(zhǎng)之家（ChinaZ.com）5月24日消息:Pandora 是一個(gè)研究通用世界模型（GWM）的重要進(jìn)展，其目標(biāo)是通過(guò)生成視頻來(lái)模擬任何領(lǐng)域的世界狀態(tài)，并提供自然語(yǔ)言的實(shí)時(shí)控制。

與之前的文本到視頻模型不同，Pandora 可以接受自由文本的動(dòng)作輸入，實(shí)現(xiàn)在視頻生成過(guò)程中對(duì)視頻內(nèi)容的實(shí)時(shí)控制。這種實(shí)時(shí)控制的能力實(shí)現(xiàn)了世界模型的互動(dòng)內(nèi)容生成承諾，并增強(qiáng)了強(qiáng)大的推理和規(guī)劃能力。比如生成視頻的過(guò)程中，用戶可以輸入指令如“讓汽車向左轉(zhuǎn)彎轉(zhuǎn)”、“汽車前方發(fā)生爆炸事故”，Pandora 會(huì)即時(shí)地根據(jù)這些指令調(diào)整視頻內(nèi)容，實(shí)現(xiàn)動(dòng)態(tài)控制。

產(chǎn)品入口網(wǎng)址：https://top.aibase.com/tool/pandora

Pandora 還能夠生成基于相同初始狀態(tài)但不同動(dòng)作的多個(gè)替代未來(lái)的視頻。用戶可以通過(guò)輸入不同的動(dòng)作來(lái)控制視頻的發(fā)展方向，實(shí)現(xiàn)對(duì)未來(lái)的自主控制。這種能力使得世界模型不再只是模擬替代未來(lái)，而是能夠真正實(shí)現(xiàn)對(duì)未來(lái)的控制。

Pandora 能夠在各種通用領(lǐng)域生成視頻，包括室內(nèi) / 室外、自然 / 城市、人類 / 機(jī)器、2D/3D 等場(chǎng)景。通過(guò)使用高質(zhì)量數(shù)據(jù)進(jìn)行指導(dǎo)和訓(xùn)練，模型可以學(xué)習(xí)有效的動(dòng)作控制，并在不同領(lǐng)域中實(shí)現(xiàn)遷移學(xué)習(xí)。例如，Pandora 在訓(xùn)練時(shí)只接觸過(guò)2D 游戲 Coinrun，但可以無(wú)縫地將學(xué)到的動(dòng)作應(yīng)用于其他2D 游戲。

Pandora 將視頻模型與自主生成的 Pandora 背骨結(jié)合在一起，可以生成更長(zhǎng)的視頻，甚至可以達(dá)到無(wú)限長(zhǎng)度。通過(guò)這種結(jié)合，Pandora 能夠生成長(zhǎng)達(dá)8秒的視頻，即使訓(xùn)練時(shí)的視頻長(zhǎng)度最多只有5秒。

然而，作為通向 GWM 的初步步驟，Pandora 仍然存在一些限制。它可能無(wú)法生成一致的視頻，模擬復(fù)雜場(chǎng)景，理解常識(shí)和物理定律，以及遵循指令 / 動(dòng)作。

Pandora 是通向通用世界模型的重要一步，它通過(guò)自然語(yǔ)言動(dòng)作和視頻狀態(tài)的模擬生成，實(shí)現(xiàn)了對(duì)未來(lái)的自主控制，為交互式內(nèi)容生成、強(qiáng)大的推理和規(guī)劃能力提供了支持。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

Pandora

阿里開(kāi)源通義新模型：指定首尾圖片生成視頻

快科技4月18日消息，據(jù)報(bào)道，阿里巴巴旗下通義萬(wàn)相宣布開(kāi)源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫(huà)面，智能生成720p高清過(guò)渡視頻，為視頻創(chuàng)作帶來(lái)全新可能。該模型通過(guò)先進(jìn)的深度學(xué)習(xí)算法，能夠精準(zhǔn)理解輸入畫(huà)面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后，模型會(huì)智能分析畫(huà)面中的視覺(jué)元素，包括物體形?

?阿里巴巴 ?通義萬(wàn)相 ?視頻生成技術(shù)
科技賦能未來(lái)出行，好孩子用世界紀(jì)錄震撼登陸上海車展

2025年上海國(guó)際車展上，好孩子集團(tuán)與極氪汽車合作推出創(chuàng)新兒童安全座椅Air9定制款，搭載自主研發(fā)的彈射氣囊技術(shù)，可在0.05秒內(nèi)彈出保護(hù)兒童頭頸部，降低頸部彎曲度50%以上。同時(shí)展出的"口袋車"以6.1kg超輕量、1秒折疊設(shè)計(jì)打破吉尼斯紀(jì)錄。好孩子與奧迪簽署戰(zhàn)略協(xié)議，將共同研發(fā)智能兒童安全產(chǎn)品，推動(dòng)行業(yè)從基礎(chǔ)防護(hù)向智能防護(hù)轉(zhuǎn)型。36年來(lái)，該品牌持續(xù)以科技創(chuàng)新守護(hù)兒童出行安全，此次合作標(biāo)志著兒童安全技術(shù)進(jìn)入新階段。

?上海國(guó)際汽車展 ?兒童安全座椅 ?好孩子品牌
時(shí)空壺接入大語(yǔ)言模型，跨語(yǔ)言溝通已成翻譯的藝術(shù)

在當(dāng)今全球化浪潮中，跨語(yǔ)言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國(guó)談判，到文化交流中的思想碰撞，高效、精準(zhǔn)的語(yǔ)言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代，時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革，推動(dòng)全球交流合作邁向新的高度，真正實(shí)現(xiàn)跨越語(yǔ)言障礙，讓世界溝通無(wú)阻。

?跨語(yǔ)言溝通 ?AI ?翻譯設(shè)備
谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

谷歌宣布又有一款 AI 模型將加入 Gemini，但這次它不僅僅是一個(gè)聊天機(jī)器人。

?谷歌 ?谷歌gemini ?veo2
視頻生成模型Vidu Q1怎么用？Vidu Q1官網(wǎng)是什么？

國(guó)產(chǎn)視頻生成大模型Vidu Q1在性能、價(jià)格和功能上實(shí)現(xiàn)重大突破。該模型由生數(shù)科技推出，在VBench評(píng)測(cè)中超越Sora等國(guó)內(nèi)外頂尖模型，支持1080p高清視頻生成，每秒價(jià)格低至3毛錢。其首尾幀功能僅需兩張圖即可實(shí)現(xiàn)電影級(jí)運(yùn)鏡效果，支持多元風(fēng)格生成和48kHz高采樣率混音功能。Vidu Q1已深度賦能影視、廣告、動(dòng)漫等行業(yè)，大幅降低創(chuàng)作門檻。

?國(guó)產(chǎn)視頻生成 ?Vidu ?Q1
字節(jié)發(fā)布豆包1.5深度思考模型：“實(shí)拍級(jí)”圖像生成

快科技4月17日消息，據(jù)報(bào)道，今日，在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場(chǎng)，字節(jié)跳動(dòng)旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出，豆包1.5深度思考模型在多個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中，它能夠精準(zhǔn)高效地處理復(fù)雜問(wèn)題；在創(chuàng)意寫作等通用任務(wù)方面，同樣表現(xiàn)出色。該模型采用MoE架構(gòu)，總參數(shù)為200B，激?

?豆包1.5深度思考模型 ?火山引擎AI創(chuàng)新 ?字節(jié)跳動(dòng)技術(shù)發(fā)布
何小鵬：我們要成為物理世界大模型第一名

快科技4月14日消息，今晚小鵬汽車創(chuàng)始人何小鵬發(fā)文稱，我們的目標(biāo)是成為物理世界大模型的第一名，推動(dòng)汽車，機(jī)器人，飛行汽車領(lǐng)域的巨大變化。”今天，小鵬在香港舉辦AI技術(shù)分享會(huì)，首次披露正在研發(fā)720億參數(shù)的超大規(guī)模自動(dòng)駕駛大模型，也即小鵬世界基座模型”。未來(lái)，小鵬將通過(guò)云端蒸餾小模型的方式將基模部署到車端，給AI汽車”配備全新的大腦。小鵬世界基座?
特斯拉發(fā)布人形機(jī)器人最新視頻：步態(tài)行走動(dòng)作顯著進(jìn)步

特斯拉在社交媒體平臺(tái)上分享了一段關(guān)于其Optimus人形機(jī)器人的最新演示視頻，視頻內(nèi)容展示了Optimus在步態(tài)行走和擺臂動(dòng)作方面的顯著進(jìn)步。這一發(fā)布標(biāo)志著特斯拉在人形機(jī)器人研發(fā)領(lǐng)域取得了新的里程碑。他并未明確給出達(dá)到這一產(chǎn)量目標(biāo)的具體時(shí)間表。

?特斯拉 ?Optimus人形機(jī)器人 ?社交媒體
提升大模型自動(dòng)修Bug能力豆包正式開(kāi)源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集

今日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布，正式開(kāi)源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評(píng)估和提升大模型自動(dòng)修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語(yǔ)言，是真正面向全棧工程”的評(píng)測(cè)基準(zhǔn)。相比于以往聚焦Python的單語(yǔ)言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語(yǔ)言開(kāi)發(fā)場(chǎng)景，也更能反映當(dāng)前模型在自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。

?字節(jié)跳動(dòng) ?多語(yǔ)言數(shù)據(jù)集 ?大模型自動(dòng)修復(fù)
普通用戶該如何使用MCP協(xié)議？MCP協(xié)議怎么用？

AIbase是一個(gè)全面且專業(yè)的AI工具導(dǎo)航平臺(tái)，致力于幫助用戶在眾多的人工智能產(chǎn)品和服務(wù)中找到最適合自己需求的選項(xiàng)。該平臺(tái)收錄了超過(guò)7000個(gè)人工智能網(wǎng)站和產(chǎn)品，覆蓋了40多個(gè)不同的領(lǐng)域，如AI繪畫(huà)生成、AI文案寫作、AI視頻編輯、AI智能營(yíng)銷等。AIbase是一個(gè)全面且強(qiáng)大的平臺(tái)，為開(kāi)發(fā)者提供了豐富的MCP技術(shù)資源和支持，是探索MCP技術(shù)的不二之選。

?人工智能工具 ?AI應(yīng)用平臺(tái) ?AI產(chǎn)品導(dǎo)航

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘