站長(zhǎng)之家(ChinaZ.com)3月18日 消息:在NVIDIA GTC2025大會(huì)上,理想汽車自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬發(fā)表了演講,介紹了理想汽車全棧自研的下一代自動(dòng)駕駛技術(shù)MindVLA的最新進(jìn)展。
MindVLA是一個(gè)整合了空間智能、語言智能和行為智能的機(jī)器人大模型,旨在將汽車從單純的運(yùn)輸工具轉(zhuǎn)變?yōu)橘N心的專職司機(jī)。該技術(shù)基于端到端和VLM雙系統(tǒng)架構(gòu),通過3D空間編碼器和邏輯推理來生成合理的駕駛決策,并利用擴(kuò)散模型優(yōu)化駕駛軌跡,整個(gè)過程在車端實(shí)時(shí)運(yùn)行。
在技術(shù)實(shí)現(xiàn)上,MindVLA采用3D高斯作為中間表征,利用海量數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,顯著提升下游任務(wù)性能。其LLM基座模型則采用MoE混合專家架構(gòu)和稀疏注意力技術(shù),確保模型規(guī)模增長(zhǎng)的同時(shí)不降低推理效率。
此外,MindVLA還通過Diffusion模型將動(dòng)作詞元解碼為優(yōu)化軌跡,并結(jié)合自車行為生成和他車軌跡預(yù)測(cè),提升復(fù)雜交通環(huán)境中的博弈能力。同時(shí),該技術(shù)還基于自研的重建生成云端統(tǒng)一世界模型,實(shí)現(xiàn)大規(guī)模閉環(huán)強(qiáng)化學(xué)習(xí),優(yōu)化場(chǎng)景重建與生成效率。
MindVLA賦能的汽車不僅可以通過語音指令改變車輛路線和行為,還能通過照片識(shí)別用戶位置并自主尋找車位。這一技術(shù)不僅將重塑用戶體驗(yàn),還將重新定義自動(dòng)駕駛,為汽車行業(yè)和人工智能領(lǐng)域帶來深遠(yuǎn)影響。
理想汽車表示,MindVLA的推出標(biāo)志著理想汽車在自動(dòng)駕駛技術(shù)領(lǐng)域的又一重大突破,未來將繼續(xù)加大研發(fā)投入,推動(dòng)自動(dòng)駕駛技術(shù)的不斷創(chuàng)新和應(yīng)用。
(舉報(bào))