劃重點(diǎn):
?? MLLMs在視覺情境下的表現(xiàn)異常出色,但解決視覺數(shù)學(xué)問題的能力仍需全面評(píng)估和理解。
?? MATHVERSE提出了一個(gè)創(chuàng)新性的基準(zhǔn),旨在嚴(yán)格評(píng)估MLLMs在解釋數(shù)學(xué)問題中的視覺信息理解能力。
?? 研究發(fā)現(xiàn)大多數(shù)現(xiàn)有模型需要視覺輸入來理解數(shù)學(xué)圖表,甚至可能表現(xiàn)更好,這表明需要更先進(jìn)的數(shù)學(xué)專用視覺編碼器。
站長之家(ChinaZ.com)3月26日 消息:多模態(tài)大型語言模型(MLLMs)在視覺情境下的表現(xiàn)異常出色,引起了廣泛關(guān)注。然而,它們解決視覺數(shù)學(xué)問題的能力仍需全面評(píng)估和理解。數(shù)學(xué)常常在理解復(fù)雜概念和解釋解決問題所需的視覺信息方面存在挑戰(zhàn)。在教育和其他領(lǐng)域中,解讀圖表和插圖變得至關(guān)重要,尤其是在解決數(shù)學(xué)問題時(shí)。
GeoQA和MathVista等框架試圖彌合文本內(nèi)容與視覺解釋之間的差距,專注于幾何查詢和更廣泛的數(shù)學(xué)概念。這些模型,包括SPHINX和GPT-4V,旨在通過解決各種挑戰(zhàn),從幾何問題解決到理解復(fù)雜圖表,來增強(qiáng)多模態(tài)理解能力。盡管它們?nèi)〉昧诉M(jìn)展,但在數(shù)學(xué)推理的文本分析與準(zhǔn)確視覺解釋之間實(shí)現(xiàn)無縫整合的全面方法仍然是一個(gè)尚未完全征服的前沿領(lǐng)域。
來自香港中文大學(xué)多媒體實(shí)驗(yàn)室和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了“MATHVERSE”,這是一個(gè)創(chuàng)新性的基準(zhǔn),旨在嚴(yán)格評(píng)估MLLMs在解釋數(shù)學(xué)問題中的視覺信息理解能力。該方法引入了各種數(shù)學(xué)問題,其中包含圖表,以測試模型在文本推理之外的理解能力。
MATHVERSE通過2612個(gè)數(shù)學(xué)問題與圖表,挑戰(zhàn)視覺數(shù)據(jù)處理。研究人員將這些問題精心調(diào)整為六種不同的格式,從以文本為主到僅以視覺為主,以解剖MLLMs的多模態(tài)分析技能。性能分析顯示出不同的成功程度;當(dāng)剝奪了視覺線索時(shí),一些模型的準(zhǔn)確性竟然提高了超過5%,暗示了對(duì)文本的更強(qiáng)依賴性。特別是,GPT-4V展示了在文本和視覺模態(tài)中的平衡熟練度,為當(dāng)前MLLMs在處理視覺和數(shù)學(xué)查詢方面的能力和局限性提供了全面的洞察。
對(duì)MATH VERSE的評(píng)估突出顯示,像Qwen-VL-Max和InternLM-XComposer2這樣的模型在沒有視覺輸入的情況下,性能有所提升(準(zhǔn)確性增加超過5%),而GPT-4V在整合視覺信息方面表現(xiàn)更為熟練,在僅有文本的情況下幾乎與人類水平相匹配。這種差異強(qiáng)調(diào)了MLLMs對(duì)文本而非視覺的依賴性,而GPT-4V則因其比較視覺理解而顯著。
研究提出了一個(gè)名為MATHVERSE的專門基準(zhǔn),以評(píng)估MLLMs在視覺數(shù)學(xué)問題解決能力方面的能力。研究結(jié)果顯示,大多數(shù)現(xiàn)有模型需要視覺輸入才能理解數(shù)學(xué)圖表,甚至可能表現(xiàn)更好。這表明需要更先進(jìn)的數(shù)學(xué)專用視覺編碼器,突顯了MLLM發(fā)展的潛在未來方向。
產(chǎn)品入口:https://top.aibase.com/tool/mathverse
論文:https://arxiv.org/abs/2403.14624
(舉報(bào))