要點(diǎn):
通過在大量視覺輸入和可執(zhí)行代碼的數(shù)據(jù)對的訓(xùn)練,Octopus 學(xué)會了如何操控電子游戲的角色完成游戲任務(wù),或者完成復(fù)雜的家務(wù)活動。
Octopus 通過視覺輸入學(xué)習(xí)、理解真實(shí)世界,并以生成可執(zhí)行代碼的方式完成各種實(shí)際任務(wù),具備了規(guī)劃推理和根據(jù)實(shí)時環(huán)境做出反饋的能力。
研究者通過構(gòu)建 OctoGibson 和 OctoGTA 兩個仿真環(huán)境,提供了可用于訓(xùn)練和測試 Octopus 的場景,并開發(fā)了數(shù)據(jù)收集系統(tǒng)來高效獲取訓(xùn)練數(shù)據(jù)。
站長之家(ChinaZ.com)11月9日 消息:南洋理工大學(xué)、清華大學(xué)等發(fā)布了一種名為 Octopus 的視覺可編程智能體,它通過在大量視覺輸入和可執(zhí)行代碼的數(shù)據(jù)對的訓(xùn)練中學(xué)會了如何操控電子游戲的角色完成游戲任務(wù),或者完成復(fù)雜的家務(wù)活動。
Octopus 具備規(guī)劃推理和根據(jù)實(shí)時環(huán)境做出反饋的能力,能夠理解真實(shí)世界并生成可執(zhí)行代碼來完成各種實(shí)際任務(wù)。為了訓(xùn)練 Octopus,研究者們創(chuàng)建了 OctoGibson 和 OctoGTA 兩個仿真環(huán)境,提供了可用于訓(xùn)練和測試 Octopus 的場景,并開發(fā)了數(shù)據(jù)收集系統(tǒng)來高效獲取訓(xùn)練數(shù)據(jù)。
論文地址:https://arxiv.org/abs/2310.08588
項(xiàng)目網(wǎng)頁:https://choiszt.github.io/Octopus/
開源代碼:https://github.com/dongyh20/Octopus
OctoGibson 是基于斯坦福大學(xué)開發(fā)的 OmniGibson 的仿真環(huán)境,包含了476個符合現(xiàn)實(shí)生活的家務(wù)活動,模型可以操作其中的可交互物體來完成任務(wù)。OctoGTA 則基于《俠盜獵車手》(GTA)游戲,構(gòu)建了20個任務(wù)并將其泛化到不同的場景中。研究者利用這兩個仿真環(huán)境中的任務(wù)來訓(xùn)練 Octopus,并通過強(qiáng)化學(xué)習(xí)算法進(jìn)一步提升模型的任務(wù)規(guī)劃能力。
為了高效收集訓(xùn)練數(shù)據(jù),研究者構(gòu)建了一套完整的數(shù)據(jù)收集系統(tǒng)。他們引入了 GPT-4作為任務(wù)的執(zhí)行者,通過預(yù)先實(shí)現(xiàn)的函數(shù)將視覺輸入處理為文本信息提供給 GPT-4,再在仿真環(huán)境中執(zhí)行代碼,并判斷任務(wù)是否完成。如果任務(wù)失敗,會回到上一步的起始位置重新采集數(shù)據(jù)。在數(shù)據(jù)收集過程中,研究者記錄了每個子任務(wù)的成功情況,為后續(xù)引入強(qiáng)化學(xué)習(xí)提供了基礎(chǔ)。
通過在大量訓(xùn)練數(shù)據(jù)上進(jìn)行監(jiān)督式微調(diào),研究者構(gòu)建出了一個能夠以視覺信息作為輸入,遵循固定格式輸出的 VLM 模型。然后,他們引入了 RLEF(Reinforcement Learning with Environmental Feedback)來進(jìn)一步提升 Octopus 的任務(wù)規(guī)劃能力,利用先前采集的子任務(wù)的成功情況作為獎勵信號。
實(shí)驗(yàn)結(jié)果顯示,經(jīng)過 RLEF 訓(xùn)練的 Octopus 模型在任務(wù)規(guī)劃和推理能力上有了顯著的提升,即使面對模糊的任務(wù)指令,也能提供更加合理的計劃。
綜上所述,Octopus 是一種具備視覺可編程能力的智能體,通過在仿真環(huán)境中的訓(xùn)練學(xué)會了操控角色完成游戲任務(wù)和家務(wù)活動。它具備規(guī)劃推理和根據(jù)實(shí)時環(huán)境做出反饋的能力,通過 RLEF 訓(xùn)練策略進(jìn)一步提升了任務(wù)規(guī)劃和推理能力。這一研究對于實(shí)現(xiàn)大模型的具身智能化具有重要意義,為進(jìn)一步探索視覺 - 語言模型的應(yīng)用提供了新的思路。
(舉報)