南洋理工發(fā)布視覺可編程智能體Octopus 干家務(wù)、玩游戲都拿手

2023-11-09 16:51 · 稿源：站長之家

要點(diǎn):
通過在大量視覺輸入和可執(zhí)行代碼的數(shù)據(jù)對的訓(xùn)練，Octopus 學(xué)會了如何操控電子游戲的角色完成游戲任務(wù)，或者完成復(fù)雜的家務(wù)活動。
Octopus 通過視覺輸入學(xué)習(xí)、理解真實(shí)世界，并以生成可執(zhí)行代碼的方式完成各種實(shí)際任務(wù)，具備了規(guī)劃推理和根據(jù)實(shí)時環(huán)境做出反饋的能力。
研究者通過構(gòu)建 OctoGibson 和 OctoGTA 兩個仿真環(huán)境，提供了可用于訓(xùn)練和測試 Octopus 的場景，并開發(fā)了數(shù)據(jù)收集系統(tǒng)來高效獲取訓(xùn)練數(shù)據(jù)。

站長之家（ChinaZ.com）11月9日消息:南洋理工大學(xué)、清華大學(xué)等發(fā)布了一種名為 Octopus 的視覺可編程智能體，它通過在大量視覺輸入和可執(zhí)行代碼的數(shù)據(jù)對的訓(xùn)練中學(xué)會了如何操控電子游戲的角色完成游戲任務(wù)，或者完成復(fù)雜的家務(wù)活動。

Octopus 具備規(guī)劃推理和根據(jù)實(shí)時環(huán)境做出反饋的能力，能夠理解真實(shí)世界并生成可執(zhí)行代碼來完成各種實(shí)際任務(wù)。為了訓(xùn)練 Octopus，研究者們創(chuàng)建了 OctoGibson 和 OctoGTA 兩個仿真環(huán)境，提供了可用于訓(xùn)練和測試 Octopus 的場景，并開發(fā)了數(shù)據(jù)收集系統(tǒng)來高效獲取訓(xùn)練數(shù)據(jù)。

論文地址:https://arxiv.org/abs/2310.08588

項(xiàng)目網(wǎng)頁:https://choiszt.github.io/Octopus/

開源代碼:https://github.com/dongyh20/Octopus

OctoGibson 是基于斯坦福大學(xué)開發(fā)的 OmniGibson 的仿真環(huán)境，包含了476個符合現(xiàn)實(shí)生活的家務(wù)活動，模型可以操作其中的可交互物體來完成任務(wù)。OctoGTA 則基于《俠盜獵車手》（GTA）游戲，構(gòu)建了20個任務(wù)并將其泛化到不同的場景中。研究者利用這兩個仿真環(huán)境中的任務(wù)來訓(xùn)練 Octopus，并通過強(qiáng)化學(xué)習(xí)算法進(jìn)一步提升模型的任務(wù)規(guī)劃能力。

為了高效收集訓(xùn)練數(shù)據(jù)，研究者構(gòu)建了一套完整的數(shù)據(jù)收集系統(tǒng)。他們引入了 GPT-4作為任務(wù)的執(zhí)行者，通過預(yù)先實(shí)現(xiàn)的函數(shù)將視覺輸入處理為文本信息提供給 GPT-4，再在仿真環(huán)境中執(zhí)行代碼，并判斷任務(wù)是否完成。如果任務(wù)失敗，會回到上一步的起始位置重新采集數(shù)據(jù)。在數(shù)據(jù)收集過程中，研究者記錄了每個子任務(wù)的成功情況，為后續(xù)引入強(qiáng)化學(xué)習(xí)提供了基礎(chǔ)。

通過在大量訓(xùn)練數(shù)據(jù)上進(jìn)行監(jiān)督式微調(diào)，研究者構(gòu)建出了一個能夠以視覺信息作為輸入，遵循固定格式輸出的 VLM 模型。然后，他們引入了 RLEF（Reinforcement Learning with Environmental Feedback）來進(jìn)一步提升 Octopus 的任務(wù)規(guī)劃能力，利用先前采集的子任務(wù)的成功情況作為獎勵信號。

實(shí)驗(yàn)結(jié)果顯示，經(jīng)過 RLEF 訓(xùn)練的 Octopus 模型在任務(wù)規(guī)劃和推理能力上有了顯著的提升，即使面對模糊的任務(wù)指令，也能提供更加合理的計劃。

綜上所述，Octopus 是一種具備視覺可編程能力的智能體，通過在仿真環(huán)境中的訓(xùn)練學(xué)會了操控角色完成游戲任務(wù)和家務(wù)活動。它具備規(guī)劃推理和根據(jù)實(shí)時環(huán)境做出反饋的能力，通過 RLEF 訓(xùn)練策略進(jìn)一步提升了任務(wù)規(guī)劃和推理能力。這一研究對于實(shí)現(xiàn)大模型的具身智能化具有重要意義，為進(jìn)一步探索視覺 - 語言模型的應(yīng)用提供了新的思路。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

谷歌A2A智能體交互協(xié)議是什么？A2A和MCP有什么關(guān)系？

谷歌正式發(fā)布名為Agent2Agent的智能體互操作協(xié)議，并與Atlassian、Box、Cohere、Intuit、LangChain、MongoDB、Salesforce、SAP、ServiceNow、UKG、Workday等50余家科技企業(yè)達(dá)成合作，旨在將A2A打造為智能體交互領(lǐng)域的通用標(biāo)準(zhǔn)。此舉被業(yè)界視為AI生態(tài)競爭的關(guān)鍵布局，其戰(zhàn)略意義可追溯至10年前谷歌發(fā)布Kubernetes時對容器化技術(shù)的定義權(quán)爭奪。谷歌此舉不僅為智能體協(xié)作提供基礎(chǔ)設(shè)施，更試圖重新定義AI時代的協(xié)作范式。

?智能體互操作協(xié)議 ?谷歌A2A發(fā)布 ?科技企業(yè)合作
智邦國際一體化ERP：企業(yè)一體化智能體一體成型，重塑企業(yè)未來

近期制造業(yè)、輕工業(yè)、電子憑證、人工智能等領(lǐng)域密集出臺政策，推動企業(yè)全方位數(shù)智化轉(zhuǎn)型。智邦國際推出"企業(yè)一體化+"數(shù)智生態(tài)體系，以ERP為核心構(gòu)建全維一體化管理平臺，覆蓋企業(yè)全生命周期各環(huán)節(jié)。其一體化ERP系統(tǒng)支持30多套軟件靈活組合，并集成AI獲客、智能客服等創(chuàng)新應(yīng)用，幫助企業(yè)打通內(nèi)外數(shù)據(jù)孤島，實(shí)現(xiàn)從數(shù)字化向智能化的躍升。該方案通過一站式的數(shù)據(jù)互通和智能協(xié)同，正在成為企業(yè)降本增效的新引擎，引領(lǐng)萬物互聯(lián)時代的數(shù)智化轉(zhuǎn)型浪潮。

?制造業(yè)轉(zhuǎn)型 ?人工智能政策 ?企業(yè)數(shù)智化
薦AI日報：阿里通義萬相首尾幀生視頻模型；豆包開源Seed智能體模型UI-TARS-1.5；OpenAI首發(fā)“智能體實(shí)踐指南”

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里通義萬相首尾幀生視頻模型Wan2.1-FLF2V-14B開源阿里巴巴的通義實(shí)驗(yàn)室在Hugging Face和GitHub上開源了Wan2.1-FLF2V-14B模型，標(biāo)志著AI視頻生成技術(shù)的重大進(jìn)步。該模型支持高清視頻生成

?AI視頻生成 ?開源模型 ?阿里巴巴
全球首個！高德發(fā)布AI導(dǎo)航智能體情緒價值拉滿

快科技4月14日，高德地圖正式宣布推出全球首個基于地圖的AI導(dǎo)航智能體(NaviAgent)。高德表示，AI導(dǎo)航智能體將推動導(dǎo)航由傳統(tǒng)出行工具，向會思考、能預(yù)判、有溫度”的智能出行伙伴蛻變。據(jù)技術(shù)負(fù)責(zé)人介紹，傳統(tǒng)導(dǎo)航像按劇本演戲，預(yù)設(shè)路線后便機(jī)械執(zhí)行；而我們的智能體更像經(jīng)驗(yàn)豐富的老司機(jī)，能實(shí)時感知路況、預(yù)判風(fēng)險并主動調(diào)整策略。”例如，它能提前預(yù)判前方路況?
谷歌開源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

在GoogleCloudNext25大會上，谷歌宣布開源了首個標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol，這一舉措有望徹底改變智能體之間的交互方式，打破系統(tǒng)孤島，對智能體的能力、跨平臺協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開放標(biāo)準(zhǔn)，旨在為智能體提供一種通用的交互方式，使它們能夠在不同的底層框架和供應(yīng)商之間無縫協(xié)作。每個部分都有指定的內(nèi)容類型，這使得客戶端和遠(yuǎn)程智能體能夠協(xié)商所需的正確格式，并且明確包括用戶界面能力的協(xié)商，比如iframe、視頻、網(wǎng)絡(luò)表單等，從根據(jù)用戶的需求和設(shè)備的能力，提供最佳的用戶體驗(yàn)。

?Agent2Agent ?Protocol ?智能體交互
薦AI Agent大變天！谷歌開源A2A，一夜改變智能體交互

谷歌在GoogleCloudNext25大會上，開源了首個標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島，對智能體的能力、跨平臺、執(zhí)行效率產(chǎn)生質(zhì)的改變，支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應(yīng)用平臺。通過A2A協(xié)議，MongoDB可以使其數(shù)據(jù)庫服務(wù)與智能Agent相結(jié)合，實(shí)現(xiàn)更高效的數(shù)據(jù)管理和自動化數(shù)據(jù)處理。

?谷歌
寶馬中國將接入DeepSeek！爆新世代車型搭載AI智能體

寶馬中國4月27日宣布接入深度求索（DeepSeek）AI大模型，深化本土AI生態(tài)布局。這是繼寶馬與阿里巴巴達(dá)成AI大語言模型合作后，再次聯(lián)手中國科技企業(yè)。從今年三季度起，搭載第九代寶馬操作系統(tǒng)的多款國產(chǎn)新車將率先應(yīng)用該技術(shù)，通過智能個人助理提升人機(jī)交互體驗(yàn)。寶馬還計劃將DeepSeek功能應(yīng)用于新一代國產(chǎn)車型。此前3月，寶馬已與阿里云合作開發(fā)車載AI引擎，雙方在上海車展展示了識別率達(dá)99%的智能語音交互系統(tǒng)。此次合作將突破車載場景限制，實(shí)現(xiàn)車輛與外部世界的智能連接，為用戶提供個性化出行體驗(yàn)。

?寶馬 ?AI大語言模型 ?DeepSeek
599元起酷開小C系列投影儀煥新發(fā)布：全面搭載酷開智能體

快科技4月23日消息，日前，酷開舉行2025春季發(fā)布會，發(fā)布超級智能體，宣布全面升級為AI原生企業(yè)，并推出影音、健康、生活、設(shè)備、創(chuàng)作、教育六大專業(yè)智能體及多款智能硬件產(chǎn)品。據(jù)了解，酷開小C系列投影儀也迎來煥新，全面搭載酷開智能體，其中C10 SE售價599元、C10售價799元，旗艦款C12售價899元。即使是599元的入門也能體驗(yàn)酷開智能體，將成為酷開AI普惠重要一步。據(jù)悉，酷開此次推出的六大智能體分別為影音智能體、健康智能體、生活智能體、設(shè)備智能體、創(chuàng)作智能體、教育智能體。其中，影音智能體可實(shí)現(xiàn)廣度搜索、深度搜索、智能生成三

?酷開 ?智能體 ?AI原生企業(yè)
超聚變數(shù)字技術(shù)有限公司劉宏云：探索不止，共建智能體時代

4 月 15 日- 17 日，超聚變探索者大會 2025 在鄭州召開。在大會主論壇上，超聚變數(shù)字技術(shù)有限公司董事長兼CEO劉宏云作《探索不止，共建智能體時代》主題演講……

?超聚變大會 ?智能體時代 ?劉宏云演講
華為Pura X重磅升級全新小藝智能體：像人類一樣交流

華為PuraX迎來了重磅升級，在發(fā)布上就介紹的全新小藝智能體登場。全新小藝可以通過外屏右滑快捷開啟沉浸式對話交互，擁有呼吸感視效，用戶可以通過AI外屏與小藝進(jìn)行沉浸式對話交互。持有PuraX的用戶，可通過【應(yīng)用市場-搜索小藝-點(diǎn)擊右邊更新”按鈕】或【小藝APP-右上角頭像我的-設(shè)置-關(guān)于-小藝-版本信息】手動升級。

?華為Pura ?X ?小藝智能體

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

南洋理工發(fā)布視覺可編程智能體Octopus 干家務(wù)、玩游戲都拿手

熱文

站長商機(jī)

南洋理工發(fā)布視覺可編程智能體Octopus 干家務(wù)、玩游戲都拿手