无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<button id="iukkg"></button>

<button id="iukkg"><center id="iukkg"></center></button>

谷歌推具備空間推理能力的視覺語言模型SpatialVLM

2024-02-18 15:09 · 稿源：站長之家

要點:
1、谷歌提出了SpatialVLM，旨在賦予視覺語言模型空間推理能力。
2、研究者利用現(xiàn)實世界數(shù)據(jù)訓練SpatialVLM，彌補了常見數(shù)據(jù)集對空間信息的限制。
3、通過生成大規(guī)?？臻gVQA數(shù)據(jù)集，研究者成功使視覺語言模型具備直接空間推理和鏈式思維能力。

站長之家（ChinaZ.com）2月18日消息:谷歌最新研究提出SpatialVLM，旨在解決視覺語言模型缺乏空間推理能力的問題。過去，視覺語言模型在理解目標在三維空間中位置或關系時存在困難，研究者通過借鑒人類空間推理能力的思路，提出了這一新方法。他們強調(diào)，當前模型的限制可能來自訓練時使用的數(shù)據(jù)集的限制，因此他們專注于從現(xiàn)實世界數(shù)據(jù)中提取空間信息，以提升模型的表現(xiàn)。

項目地址:https://spatial-vlm.github.io/

研究者使用開放詞匯檢測、深度估計、語義分割等模型提取真實世界數(shù)據(jù)，訓練SpatialVLM以增強空間推理能力。實驗證明，這一模型在回答空間問題和定量估計方面表現(xiàn)出色，甚至在有噪聲的訓練數(shù)據(jù)下也能可靠工作。SpatialVLM不僅具備了常識知識，還能在復雜的空間推理任務中展現(xiàn)出強大的表現(xiàn)。

為了讓視覺語言模型具備空間推理能力，研究者設計了一個全面的數(shù)據(jù)生成框架，通過提取實體信息和生成大規(guī)?？臻gVQA數(shù)據(jù)集來訓練模型。他們指定了38種不同類型的空間推理問題，包括定性和定量問題，并創(chuàng)建了包含數(shù)億個問答對的龐大數(shù)據(jù)集。通過這種方式，他們成功使模型具備了直接空間推理和鏈式思維的能力，提升了視覺語言模型的整體性能。

總的來說，谷歌的新研究為視覺語言模型的發(fā)展帶來了新的可能性，通過賦予模型空間推理能力，使其在處理復雜空間任務時表現(xiàn)更為出色。這一研究成果有望推動視覺語言模型在未來的發(fā)展方向上取得更大突破，為人工智能領域帶來新的進步。

（舉報）

相關推薦

關鍵詞：

模型

時空壺接入大語言模型，跨語言溝通已成翻譯的藝術

在當今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務領域的跨國談判，到文化交流中的思想碰撞，高效、精準的語言翻譯成為關鍵橋梁。隨著技術的不斷發(fā)展與迭代，時空壺有望持續(xù)引領行業(yè)變革，推動全球交流合作邁向新的高度，真正實現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設備
薦不要思考過程，推理模型能力能夠更強

UC伯克利和艾倫實驗室的最新研究表明，推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案，跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明，在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下，NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式，能減少token使用量并提高推理速度。該方法在數(shù)學問題解決、編程和形式定理證明等任務中表現(xiàn)優(yōu)異，尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn)，結合并行計算擴展后，NoThinking能進一步提升性能，在保持準確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細思考過程"的傳統(tǒng)認知。

?推理模型 ?無思考方法 ?解決方案
薦生成很強，推理很弱：GPT-4o的視覺短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎邏輯測試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫一只貓時，它先畫了狗然后改為貓，但仍存在錯誤判斷。這表明當前AI更像“精確指令機器”，需進一步優(yōu)化以實現(xiàn)更精細的圖像理解和復雜任務處理。

?AI畫圖 ?GPT-4o ?圖像理解
薦國產(chǎn)六大推理模型激戰(zhàn)OpenAI？

2025年春節(jié)前夕，DeepSeek-R1模型發(fā)布，標志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程：從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮，到2023年"百模大戰(zhàn)"，再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型（DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊）的技術特點與市場表現(xiàn)，指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術路線獲得政企青睞，以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下，國產(chǎn)全棧技術路徑的重要性，認為自主可控將成為對抗國際不確定性的關鍵。最后指出，隨著推理模型成為競爭焦點，國產(chǎn)大模型正從技術追隨轉向自主創(chuàng)新階段。

?AI技術 ?DeepSeek-R1 ?云服務器
提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團隊宣布，正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務，Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景，也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復
新增自主決策推理模型！理想汽車OTA 7.2開啟推送

快科技4月3日消息，我們從理想汽車官方獲悉，OTA7.2版本車機系統(tǒng)正式開啟推送，預計一周內(nèi)完成，升級耗時約50分鐘。本次更新新增自主決策推理模型，該模型基于車載場景數(shù)據(jù)及通用推理模型數(shù)據(jù)打造，可根據(jù)問題內(nèi)容自主決策是否深度思考，面對車控指令等簡單問題時，能夠保障響應速度。智能座艙方面，新增全能兒童鎖功能，支持一鍵鎖定副駕老板鍵、后排座椅物理按?

?理想汽車 ?OTA更新 ?智能座艙
凱迪拉克VISTIQ亞洲首秀，搭載Momenta飛輪大模型定義豪華純電智能出行

4月23日，凱迪拉克在上海舉辦"心馳·電掣"發(fā)布會，推出亞洲首秀的VISTIQ車型。該車與Momenta深度合作，采用行業(yè)首個量產(chǎn)飛輪大模型技術，實現(xiàn)L2全場景城區(qū)輔助駕駛功能，提供"有路就能開，有位就能停"的智能體驗。凱迪拉克強調(diào)不應通過堆砌硬件實現(xiàn)智能化，而需技術創(chuàng)新與用戶體驗并重。此次合作展現(xiàn)了凱迪拉克擁抱智能化的決心，也彰顯了Momenta在自動駕駛領域的技術領先地位。雙方將共同推動豪華純電出行的智能化升級。

?凱迪拉克 ?智能駕駛 ?新能源車
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領域迎來技術標準的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
比 SpaceX 更便宜……亞馬遜發(fā)射“柯伊伯計劃”首批衛(wèi)星

為了追趕領先者，亞馬遜打出了低價這張牌……

?亞馬遜衛(wèi)星 ?柯伊伯計劃 ?SpaceX
薦AI日報：昆侖萬維開源SkyReels-V2；訊飛星火X1全新升級；扣子空間Coze Space內(nèi)測

本文介紹了多個前沿的人工智能產(chǎn)品和技術動態(tài)，包括SkyReels-V2視頻生成模型、訊飛星火大模型升級、宇樹科技人形機器人比賽計劃、Coze Space AI協(xié)作平臺、Gemma3 QAT優(yōu)化模型、英特爾AI Playground工具、Reachy2人形機器人發(fā)布、ChatTS-14B語音研究項目、Figma推出AI設計工具以及MarkItDown MCP文檔轉換工具，展示了AI技術在多領域的廣泛應用與創(chuàng)新發(fā)展?jié)摿Α?/p>

?人工智能 ?電影生成模型 ?技術趨勢

熱文

3 天
7天

站長商機

廣告

商務合作侵權投訴廣告服務版權聲明招聘

?CopyRight 2002-2020 CHINAZ.COM