要點:
1、谷歌提出了SpatialVLM,旨在賦予視覺語言模型空間推理能力。
2、研究者利用現(xiàn)實世界數(shù)據(jù)訓練SpatialVLM,彌補了常見數(shù)據(jù)集對空間信息的限制。
3、通過生成大規(guī)??臻gVQA數(shù)據(jù)集,研究者成功使視覺語言模型具備直接空間推理和鏈式思維能力。
站長之家(ChinaZ.com)2月18日 消息:谷歌最新研究提出SpatialVLM,旨在解決視覺語言模型缺乏空間推理能力的問題。過去,視覺語言模型在理解目標在三維空間中位置或關系時存在困難,研究者通過借鑒人類空間推理能力的思路,提出了這一新方法。他們強調(diào),當前模型的限制可能來自訓練時使用的數(shù)據(jù)集的限制,因此他們專注于從現(xiàn)實世界數(shù)據(jù)中提取空間信息,以提升模型的表現(xiàn)。
項目地址:https://spatial-vlm.github.io/
研究者使用開放詞匯檢測、深度估計、語義分割等模型提取真實世界數(shù)據(jù),訓練SpatialVLM以增強空間推理能力。實驗證明,這一模型在回答空間問題和定量估計方面表現(xiàn)出色,甚至在有噪聲的訓練數(shù)據(jù)下也能可靠工作。SpatialVLM不僅具備了常識知識,還能在復雜的空間推理任務中展現(xiàn)出強大的表現(xiàn)。
為了讓視覺語言模型具備空間推理能力,研究者設計了一個全面的數(shù)據(jù)生成框架,通過提取實體信息和生成大規(guī)??臻gVQA數(shù)據(jù)集來訓練模型。他們指定了38種不同類型的空間推理問題,包括定性和定量問題,并創(chuàng)建了包含數(shù)億個問答對的龐大數(shù)據(jù)集。通過這種方式,他們成功使模型具備了直接空間推理和鏈式思維的能力,提升了視覺語言模型的整體性能。
總的來說,谷歌的新研究為視覺語言模型的發(fā)展帶來了新的可能性,通過賦予模型空間推理能力,使其在處理復雜空間任務時表現(xiàn)更為出色。這一研究成果有望推動視覺語言模型在未來的發(fā)展方向上取得更大突破,為人工智能領域帶來新的進步。
(舉報)