要點:
最新基準數(shù)據(jù)集MMMUs針對大學水平多學科問題提供了全面的多模態(tài)AI測試,挑戰(zhàn)了當前最強大的GPT-4V等模型,展現(xiàn)了其在深度和廣度方面的性能。
MMMU包含六個學科的30個科目,涉及藝術(shù)與設計、商科、科學、健康與醫(yī)學、人文與社會科學、技術(shù)與工程等領(lǐng)域,共有1.15萬個多模態(tài)問題,考察了感知、知識和推理等基本技能,為評估專家級AGI提供了全面而復雜的任務。
MMMU在問題設計上注重深度,包含專業(yè)領(lǐng)域知識和高級推理,通過涵蓋多種圖像格式和混合文本圖像輸入,要求AI模型在理解、記憶、推理等方面具備高級能力,挑戰(zhàn)了當前多模態(tài)基準的局限性。
站長之家(ChinaZ.com)12月1日 消息:近日,一項基于大學水平考試的多模態(tài)AI測試基準MMMUs發(fā)布,旨在評估機器在廣泛多樣的任務上的專家級多模態(tài)理解和推理能力。這一基準對當前最先進的GPT-4V等模型提出挑戰(zhàn),通過涵蓋藝術(shù)與設計、商科、科學、健康與醫(yī)學、人文與社會科學、技術(shù)與工程等六個學科的30個科目,共有1.15萬個問題,考察了感知、知識和推理等基本技能。
論文地址:https://arxiv.org/abs/2311.16502
項目網(wǎng)站:https://mmmu-benchmark.github.io/
數(shù)據(jù)集:https://huggingface.co/datasets/MMMU/MMMU
代碼:https://github.com/MMMU-Benchmark/MMMU
MMMUs的問題涵蓋了大學考試、測驗和教科書,由50位來自不同學科的大學生收集,涉及了多種圖像格式,從照片和繪畫到圖表和表格。這使得該基準不僅考察了常識和日常知識,還注重專業(yè)領(lǐng)域知識和高級推理。此外,MMMUs具有文本和圖像混合的輸入,要求AI模型在處理這種混合信息時展現(xiàn)深度學科知識和執(zhí)行復雜推理的能力。
在實驗評估中,MMMUs展現(xiàn)出極大的難度,即使是當前最先進的GPT-4V也僅在55.7%的問題上取得準確答案,表明AI技術(shù)在這一領(lǐng)域仍有巨大的改進空間。通過這一基準的構(gòu)建和評估,研究團隊為進一步推動人工智能系統(tǒng)的發(fā)展和深入研究提供了有力的工具和參考。
總體而言,MMMUs作為一項全面、具有挑戰(zhàn)性的多模態(tài)AI測試基準,為評估專家級AGI的發(fā)展提供了新的視角和標準。這將有助于推動人工智能領(lǐng)域的發(fā)展,引領(lǐng)未來人工智能系統(tǒng)在多學科、多模態(tài)任務上取得更為卓越的成就。
(舉報)