AI模型很強(qiáng)大,但它們卻在極其簡(jiǎn)單的任務(wù)上栽了跟頭!
站長(zhǎng)之家(ChinaZ.com) 3月17日 消息:如今,人工智能能夠生成栩栩如生的圖像、寫小說(shuō)、幫你完成家庭作業(yè),甚至還能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。然而,一項(xiàng)新的研究卻表明,它在一項(xiàng)非?;A(chǔ)的任務(wù)上常常栽跟頭 —— 看時(shí)間。
愛丁堡大學(xué)的研究人員測(cè)試了七款知名的多模態(tài)大言模型的“識(shí)時(shí)”能力 —— 讓它們根據(jù)不同的時(shí)鐘或日歷圖像回答與時(shí)間相關(guān)問(wèn)題。
他們的研究將于 4 月正式發(fā)表,不過(guò),目前已經(jīng)在科研共享平臺(tái) arXiv 上發(fā)布了,該研究表明,這些大型語(yǔ)言模型在這種基礎(chǔ)任務(wù)上“變成智障”了。
研究人員在研究中寫道:“從視覺輸入中解讀時(shí)間并進(jìn)行推理的能力,對(duì)于許多現(xiàn)實(shí)世界的應(yīng)用至關(guān)重要 —— 從事件安排到自動(dòng)駕駛系統(tǒng)等領(lǐng)域皆是如此。盡管多模態(tài)大語(yǔ)言模型(MLLMs)取得了進(jìn)展,但大多數(shù)研究工作都集中在目標(biāo)檢測(cè)、圖像描述或場(chǎng)景理解等方面,對(duì)時(shí)間推理的探索仍不夠充分?!?/p>
本次測(cè)試的對(duì)象包括 OpenAI 的 GPT-4o 和 GPT-o1、谷歌 DeepMind 的 Gemini 2.0、Anthropic 的 Claude 3.5 Sonnet、Meta 的 Llama 3.2-11B-Vision-Instruct、阿里的 Qwen2-VL7B-Instruct、以及 ModelBest 的 MiniCPM-V-2.6。研究人員向這些模型輸入了不同的模擬時(shí)鐘圖片(這些圖片中的時(shí)鐘或帶有羅馬數(shù)字、或有不同的表盤顏色,有些則沒有指針)、以及十年來(lái)的日歷圖片等。
向這些大模型上傳時(shí)鐘圖片的同時(shí),還會(huì)提出問(wèn)題:上傳圖片中的時(shí)鐘顯示的時(shí)間是多少?而對(duì)于日歷的圖片,研究人員則會(huì)提出一些簡(jiǎn)單的問(wèn)題,比如:元旦是星期幾?以及一些較難的問(wèn)題,諸如:一年中的第 153 天是哪一天?
“讀取模擬時(shí)鐘的時(shí)間和理解日歷涉及到復(fù)雜的認(rèn)知步驟”,研究人員解釋說(shuō),“這需要進(jìn)行精細(xì)的視覺識(shí)別(例如,時(shí)鐘指針的位置、日期單元格的布局),以及不簡(jiǎn)單的數(shù)值推理(例如,計(jì)算日期偏移量)”
總而言之,這些AI模型的表現(xiàn)很不理想 —— 它們正確讀取模擬時(shí)鐘時(shí)間的概率不到 25%。研究人員表示,無(wú)論是帶有羅馬數(shù)字和風(fēng)格化指針的時(shí)鐘,還是沒有指針的時(shí)裝,它們的表現(xiàn)都不甚理想。
在最終的測(cè)試結(jié)果中,谷歌的Gemini 2.0 在時(shí)鐘測(cè)試中表現(xiàn)最 好,而 GPT-o1 在日歷任務(wù)上準(zhǔn)確率為 80% —— 比競(jìng)爭(zhēng)對(duì)手都要好。這也意味著, 即使最出色的AI大模型,錯(cuò)誤率也高達(dá) 20%。
這項(xiàng)研究的共同作者、愛丁堡大學(xué)信息學(xué)院的博士生 Rohit Saxena 在一份學(xué)校聲明中表示:“大多數(shù)人從小就會(huì)看時(shí)間和日歷。我們的研究結(jié)果凸顯了 AI 在執(zhí)行對(duì)人類來(lái)說(shuō)相當(dāng)基礎(chǔ)的技能方面存在的顯著差距。如果要將 AI 系統(tǒng)成功集成到對(duì)時(shí)間敏感的現(xiàn)實(shí)世界應(yīng)用中,比如日程安排、自動(dòng)化和輔助技術(shù)等領(lǐng)域,就必須解決這些不足?!?/p>
所以,AI 或許能夠幫你完成家庭作業(yè),但別指望它能按時(shí)完成任務(wù),至少現(xiàn)在還是這樣。
(舉報(bào))