快科技3月10日消息,今日,稚暉君”創(chuàng)業(yè)項目智元機(jī)器人發(fā)布了首個通用具身基座模型智元啟元大模型(Genie Operator-1)。
該大模型開創(chuàng)性地提出了Vision-Language-Latent-Action(ViLLA)架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型) MoE(混合專家)組成,實現(xiàn)了可以利用人類視頻學(xué)習(xí),完成小樣本快速泛化,降低了具身智能門檻,并成功部署到智元多款機(jī)器人本體。
通過ViLLA架構(gòu),智元機(jī)器人在五種不同復(fù)雜度任務(wù)上測試GO-1,相比已有的最優(yōu)模型,GO-1成功率大幅領(lǐng)先,平均成功率提高了32%(46%-78%)。
其中 Pour Water”(倒水)、Table Bussing”(清理桌面) 和 Restock Beverage”(補充飲料) 任務(wù)表現(xiàn)尤為突出。
此外還單獨驗證了ViLLA架構(gòu)中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%-78%)。
據(jù)介紹,GO-1大模型借助人類和多種機(jī)器人數(shù)據(jù),讓機(jī)器人獲得了革命性的學(xué)習(xí)能力,可泛化應(yīng)用到各類的環(huán)境和物品中,快速適應(yīng)新任務(wù)、學(xué)習(xí)新技能。
同時,它還支持部署到不同的機(jī)器人本體,高效地完成落地,并在實際的使用中持續(xù)不斷地快速進(jìn)化。
這一系列的特點可以歸納為4個方面:
人類視頻學(xué)習(xí):GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對人類行為的理解,更好地為人類服務(wù)。
小樣本快速泛化:GO-1大模型具有強(qiáng)大的泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù),降低了具身模型的使用門檻,使得后訓(xùn)練成本非常低。
一腦多形:GO-1大模型是通用機(jī)器人策略模型,能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體,群體升智。
持續(xù)進(jìn)化:GO-1大模型搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí),越用越聰明。
據(jù)悉,2020年,彭志輝(稚暉君)以華為天才少年計劃”最高檔年薪201萬元,加入華為團(tuán)隊,從事昇騰AI芯片和AI算法相關(guān)研究工作,2022年年底從華為離職,2023年2月聯(lián)合創(chuàng)立智元機(jī)器人。
(舉報)