无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > MathVerse最新資訊  > 正文

    MathVerse:全方位可視化數(shù)學(xué)基準(zhǔn),對(duì)多模態(tài)大型語言模型進(jìn)行公平和深入的評(píng)估

    2024-03-26 15:12 · 稿源:站長之家

    劃重點(diǎn):

    ?? MLLMs在視覺情境下的表現(xiàn)異常出色,但解決視覺數(shù)學(xué)問題的能力仍需全面評(píng)估和理解。

    ?? MATHVERSE提出了一個(gè)創(chuàng)新性的基準(zhǔn),旨在嚴(yán)格評(píng)估MLLMs在解釋數(shù)學(xué)問題中的視覺信息理解能力。

    ?? 研究發(fā)現(xiàn)大多數(shù)現(xiàn)有模型需要視覺輸入來理解數(shù)學(xué)圖表,甚至可能表現(xiàn)更好,這表明需要更先進(jìn)的數(shù)學(xué)專用視覺編碼器。

    站長之家(ChinaZ.com)3月26日 消息:多模態(tài)大型語言模型(MLLMs)在視覺情境下的表現(xiàn)異常出色,引起了廣泛關(guān)注。然而,它們解決視覺數(shù)學(xué)問題的能力仍需全面評(píng)估和理解。數(shù)學(xué)常常在理解復(fù)雜概念和解釋解決問題所需的視覺信息方面存在挑戰(zhàn)。在教育和其他領(lǐng)域中,解讀圖表和插圖變得至關(guān)重要,尤其是在解決數(shù)學(xué)問題時(shí)。

    GeoQA和MathVista等框架試圖彌合文本內(nèi)容與視覺解釋之間的差距,專注于幾何查詢和更廣泛的數(shù)學(xué)概念。這些模型,包括SPHINX和GPT-4V,旨在通過解決各種挑戰(zhàn),從幾何問題解決到理解復(fù)雜圖表,來增強(qiáng)多模態(tài)理解能力。盡管它們?nèi)〉昧诉M(jìn)展,但在數(shù)學(xué)推理的文本分析與準(zhǔn)確視覺解釋之間實(shí)現(xiàn)無縫整合的全面方法仍然是一個(gè)尚未完全征服的前沿領(lǐng)域。

    image.png

    來自香港中文大學(xué)多媒體實(shí)驗(yàn)室和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了“MATHVERSE”,這是一個(gè)創(chuàng)新性的基準(zhǔn),旨在嚴(yán)格評(píng)估MLLMs在解釋數(shù)學(xué)問題中的視覺信息理解能力。該方法引入了各種數(shù)學(xué)問題,其中包含圖表,以測試模型在文本推理之外的理解能力。

    MATHVERSE通過2612個(gè)數(shù)學(xué)問題與圖表,挑戰(zhàn)視覺數(shù)據(jù)處理。研究人員將這些問題精心調(diào)整為六種不同的格式,從以文本為主到僅以視覺為主,以解剖MLLMs的多模態(tài)分析技能。性能分析顯示出不同的成功程度;當(dāng)剝奪了視覺線索時(shí),一些模型的準(zhǔn)確性竟然提高了超過5%,暗示了對(duì)文本的更強(qiáng)依賴性。特別是,GPT-4V展示了在文本和視覺模態(tài)中的平衡熟練度,為當(dāng)前MLLMs在處理視覺和數(shù)學(xué)查詢方面的能力和局限性提供了全面的洞察。

    image.png

    對(duì)MATH VERSE的評(píng)估突出顯示,像Qwen-VL-Max和InternLM-XComposer2這樣的模型在沒有視覺輸入的情況下,性能有所提升(準(zhǔn)確性增加超過5%),而GPT-4V在整合視覺信息方面表現(xiàn)更為熟練,在僅有文本的情況下幾乎與人類水平相匹配。這種差異強(qiáng)調(diào)了MLLMs對(duì)文本而非視覺的依賴性,而GPT-4V則因其比較視覺理解而顯著。

    研究提出了一個(gè)名為MATHVERSE的專門基準(zhǔn),以評(píng)估MLLMs在視覺數(shù)學(xué)問題解決能力方面的能力。研究結(jié)果顯示,大多數(shù)現(xiàn)有模型需要視覺輸入才能理解數(shù)學(xué)圖表,甚至可能表現(xiàn)更好。這表明需要更先進(jìn)的數(shù)學(xué)專用視覺編碼器,突顯了MLLM發(fā)展的潛在未來方向。

    image.png

    產(chǎn)品入口:https://top.aibase.com/tool/mathverse

    論文:https://arxiv.org/abs/2403.14624

    舉報(bào)

    • 相關(guān)推薦
    • 可靈AI發(fā)布新2.0模型:上線多模態(tài)視頻編輯功能

      快科技4月16日消息,據(jù)報(bào)道,可靈AI在北京舉行靈感成真”2.0模型發(fā)布會(huì),正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹,可靈2.0模型在動(dòng)態(tài)質(zhì)量、語義響應(yīng)、畫面美學(xué)等維度保持領(lǐng)先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。3月27日,全球AI基準(zhǔn)測試機(jī)構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模

    • 多模態(tài)和Agent成為大廠AI的新賽 點(diǎn)

      這是《窄播Weekly》的第52期,本期我們關(guān)注的商業(yè)動(dòng)態(tài)是:當(dāng)大廠的AI競爭策略開始傾斜向應(yīng)用場景,多模態(tài)能力和代理執(zhí)行成為兩個(gè)焦點(diǎn)。大模型落地C端場景的核心,就是讓大模型的能力越來越接近人。沿著這個(gè)主旋律,可以劃分出兩個(gè)進(jìn)化方向:一個(gè)是持續(xù)降低用戶與大模型進(jìn)行有效溝通的難度;另一個(gè)則是讓大模型具備執(zhí)行更復(fù)雜任務(wù)的能力。前者的實(shí)現(xiàn),需要給到大模型多

    • 多模態(tài)和Agent成為大廠AI的新賽點(diǎn)

      本期《窄播Weekly》聚焦AI大廠競爭策略向應(yīng)用場景傾斜的趨勢,重點(diǎn)分析了多模態(tài)能力和代理執(zhí)行兩大發(fā)展方向。文章指出,大模型落地的核心在于讓人機(jī)交互更自然,具體表現(xiàn)為:1)通過多模態(tài)技術(shù)降低用戶使用門檻,如阿里夸克新推出的"拍照問夸克"功能;2)通過代理執(zhí)行提升復(fù)雜任務(wù)處理能力,如字節(jié)、百度等推出的通用Agent產(chǎn)品。國內(nèi)外廠商路徑差異明顯:國?

    • 開源即支持!基于昇騰MindSpeed MM玩轉(zhuǎn)InternVL3多模態(tài)理解最新模型

      多模態(tài)理解領(lǐng)域當(dāng)前已成了各家AI大模型公司“軍備競賽”的關(guān)鍵點(diǎn)之一,國內(nèi)外知名AI大模型公司都爭相通過發(fā)布最先進(jìn)的多模態(tài)大語言模型展現(xiàn)其在多模態(tài)理解領(lǐng)域的前沿能力。近期,上海AI實(shí)驗(yàn)室推出了其最新的多模態(tài)大語言模型InternVL3 系列,相比上一代InternVL2. 5 模型,該模型展現(xiàn)出卓越的多模態(tài)感知和推理能力,同時(shí)進(jìn)一步擴(kuò)展了其工具使用、GUI代理、工業(yè)圖像分析等

    • 1000萬上下文!新開源多模態(tài)大模型,單個(gè)GPU就能運(yùn)行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬上下文,震驚了整個(gè)大模型領(lǐng)域。僅過了2個(gè)月,Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬,整整提升了5倍開啟千萬級(jí)時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • UniToken:多模態(tài)AI的“能選手”,一次編碼搞定圖文理解與圖像生成

      復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架,首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼,有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略(視覺語義對(duì)齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)),UniToken在多個(gè)基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在:1)統(tǒng)一的雙邊視覺編碼

    • 剛剛,商湯發(fā)布第六代大模型:6000億參數(shù)多模態(tài)MoE,中長視頻直接可推理

      現(xiàn)在的國產(chǎn)AI應(yīng)用,一口氣看好幾分鐘的視頻,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就搖身一變成“名偵探”做剖析:它會(huì)對(duì)整個(gè)視頻的內(nèi)容先做一個(gè)總結(jié),再按照秒級(jí),對(duì)視頻片段做內(nèi)容上的推演。商湯科技聯(lián)合創(chuàng)始人楊帆認(rèn)為:銀河通用合伙人、大模型負(fù)責(zé)人張直政表示:除此之外,上海交通大學(xué)副教授閆維新對(duì)這個(gè)問題的看法是:總言之,商湯作為國?

    • 紫東太初多模態(tài)RAG新發(fā)布:端到端問答準(zhǔn)確率提升33%

      在產(chǎn)業(yè)智能化進(jìn)程中,如何高效融合企業(yè)專有知識(shí)資產(chǎn),構(gòu)建領(lǐng)域?qū)僬J(rèn)知引擎,是企業(yè)邁向智能決策與高效運(yùn)營的關(guān)鍵。然而,傳統(tǒng)檢索增強(qiáng)生成(RAG)技術(shù)受限于語言單模態(tài)處理能力,僅能實(shí)現(xiàn)文本知識(shí)庫與文本查詢之間的淺層理解,難以滿足復(fù)雜業(yè)務(wù)場景的需求,在實(shí)際應(yīng)用中暴露出兩大缺陷:信息表征缺失:忽略知識(shí)庫中多模態(tài)富文檔的視覺語義信息,如版面結(jié)構(gòu)、圖表關(guān)?

    • 時(shí)空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動(dòng)全球交流合作邁向新的高度,真正實(shí)現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態(tài)巨獸搶回王座

      Llama4重磅發(fā)布了!Meta官宣開源首個(gè)原生多模態(tài)Llama4,首次采用的MoE架構(gòu),支持12種語言,首批發(fā)布一共兩款:Llama4Scout:共有1090億參數(shù),17B活躍參數(shù),16個(gè)專家,1000萬上下Llama4Maverick:共有4000億參數(shù),17B活躍參數(shù),128個(gè)專家,100萬上下文另外,2萬億參數(shù)Llama4Behemoth將在未來幾個(gè)月面世,288B活躍參數(shù),16個(gè)專家。Llama4的橫空出世,成為迄今為止開源最強(qiáng),多模態(tài)能力最好的模型之一。L