无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關鍵詞  > 模型最新資訊  > 正文

    谷歌推具備空間推理能力的視覺語言模型SpatialVLM

    2024-02-18 15:09 · 稿源:站長之家

    要點:

    1、谷歌提出了SpatialVLM,旨在賦予視覺語言模型空間推理能力。

    2、研究者利用現(xiàn)實世界數(shù)據(jù)訓練SpatialVLM,彌補了常見數(shù)據(jù)集對空間信息的限制。

    3、通過生成大規(guī)??臻gVQA數(shù)據(jù)集,研究者成功使視覺語言模型具備直接空間推理和鏈式思維能力。

    站長之家(ChinaZ.com)2月18日 消息:谷歌最新研究提出SpatialVLM,旨在解決視覺語言模型缺乏空間推理能力的問題。過去,視覺語言模型在理解目標在三維空間中位置或關系時存在困難,研究者通過借鑒人類空間推理能力的思路,提出了這一新方法。他們強調(diào),當前模型的限制可能來自訓練時使用的數(shù)據(jù)集的限制,因此他們專注于從現(xiàn)實世界數(shù)據(jù)中提取空間信息,以提升模型的表現(xiàn)。

    image.png

    項目地址:https://spatial-vlm.github.io/

    研究者使用開放詞匯檢測、深度估計、語義分割等模型提取真實世界數(shù)據(jù),訓練SpatialVLM以增強空間推理能力。實驗證明,這一模型在回答空間問題和定量估計方面表現(xiàn)出色,甚至在有噪聲的訓練數(shù)據(jù)下也能可靠工作。SpatialVLM不僅具備了常識知識,還能在復雜的空間推理任務中展現(xiàn)出強大的表現(xiàn)。

    image.png

    為了讓視覺語言模型具備空間推理能力,研究者設計了一個全面的數(shù)據(jù)生成框架,通過提取實體信息和生成大規(guī)??臻gVQA數(shù)據(jù)集來訓練模型。他們指定了38種不同類型的空間推理問題,包括定性和定量問題,并創(chuàng)建了包含數(shù)億個問答對的龐大數(shù)據(jù)集。通過這種方式,他們成功使模型具備了直接空間推理和鏈式思維的能力,提升了視覺語言模型的整體性能。

    總的來說,谷歌的新研究為視覺語言模型的發(fā)展帶來了新的可能性,通過賦予模型空間推理能力,使其在處理復雜空間任務時表現(xiàn)更為出色。這一研究成果有望推動視覺語言模型在未來的發(fā)展方向上取得更大突破,為人工智能領域帶來新的進步。

    舉報

    • 相關推薦
    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術

      在當今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務領域的跨國談判,到文化交流中的思想碰撞,高效、精準的語言翻譯成為關鍵橋梁。隨著技術的不斷發(fā)展與迭代,時空壺有望持續(xù)引領行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 不要思考過程,推理模型能力能夠更強

      UC伯克利和艾倫實驗室的最新研究表明,推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案,跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學問題解決、編程和形式定理證明等任務中表現(xiàn)優(yōu)異,尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn),結合并行計算擴展后,NoThinking能進一步提升性能,在保持準確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細思考過程"的傳統(tǒng)認知。

    • 生成很強,推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時,它先畫了狗然后改為貓,但仍存在錯誤判斷。這表明當前AI更像“精確指令機器”,需進一步優(yōu)化以實現(xiàn)更精細的圖像理解和復雜任務處理。

    • 國產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術特點與市場表現(xiàn),指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下,國產(chǎn)全棧技術路徑的重要性,認為自主可控將成為對抗國際不確定性的關鍵。最后指出,隨著推理模型成為競爭焦點,國產(chǎn)大模型正從技術追隨轉向自主創(chuàng)新階段。

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務,Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

    • 新增自主決策推理模型!理想汽車OTA 7.2開啟推送

      快科技4月3日消息,我們從理想汽車官方獲悉,OTA7.2版本車機系統(tǒng)正式開啟推送,預計一周內(nèi)完成,升級耗時約50分鐘。本次更新新增自主決策推理模型,該模型基于車載場景數(shù)據(jù)及通用推理模型數(shù)據(jù)打造,可根據(jù)問題內(nèi)容自主決策是否深度思考,面對車控指令等簡單問題時,能夠保障響應速度。智能座艙方面,新增全能兒童鎖功能,支持一鍵鎖定副駕老板鍵、后排座椅物理按?

    • 凱迪拉克VISTIQ亞洲首秀,搭載Momenta飛輪大模型定義豪華純電智能出行

      4月23日,凱迪拉克在上海舉辦"心馳·電掣"發(fā)布會,推出亞洲首秀的VISTIQ車型。該車與Momenta深度合作,采用行業(yè)首個量產(chǎn)飛輪大模型技術,實現(xiàn)L2全場景城區(qū)輔助駕駛功能,提供"有路就能開,有位就能停"的智能體驗。凱迪拉克強調(diào)不應通過堆砌硬件實現(xiàn)智能化,而需技術創(chuàng)新與用戶體驗并重。此次合作展現(xiàn)了凱迪拉克擁抱智能化的決心,也彰顯了Momenta在自動駕駛領域的技術領先地位。雙方將共同推動豪華純電出行的智能化升級。

    • AI日報:阿里騰訊全面支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美圖WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國人工智能領域迎來技術標準的變革,ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B,性能?

    • AI日報:昆侖萬維開源SkyReels-V2;訊飛星火X1全新升級;扣子空間Coze Space內(nèi)測

      本文介紹了多個前沿的人工智能產(chǎn)品和技術動態(tài),包括SkyReels-V2視頻生成模型、訊飛星火大模型升級、宇樹科技人形機器人比賽計劃、Coze Space AI協(xié)作平臺、Gemma3 QAT優(yōu)化模型、英特爾AI Playground工具、Reachy2人形機器人發(fā)布、ChatTS-14B語音研究項目、Figma推出AI設計工具以及MarkItDown MCP文檔轉換工具,展示了AI技術在多領域的廣泛應用與創(chuàng)新發(fā)展?jié)摿Α?/p>