站長之家(ChinaZ.com) 1月23日 消息:根據(jù)圖靈獎得主、Meta 首席 AI 科學家在世界經(jīng)濟論壇上的講話,生成模型不適合處理視頻,AI得在抽象空間中進行預測。在互聯(lián)網(wǎng)文本數(shù)據(jù)即將枯竭之際,很多 AI 研究者將目光轉(zhuǎn)向了視頻。但如何讓 AI 理解視頻數(shù)據(jù)成了新的難題。
斯坦福大學教授指出了理解因果關系對于構(gòu)建未來AI系統(tǒng)的重要性。
Yann LeCun認為,適合用來處理視頻的模型并不是我們現(xiàn)在大范圍應用的生成模型,新的模型應該學會在抽象的表征空間中預測,而不是在像素空間中。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
視頻預測的難題主要在于像素空間的復雜性,以及對于物體擺放方式和運動軌跡的預測。這些具體的像素空間預測都很困難,導致傳統(tǒng)生成模型在視頻處理中效果不佳。視頻輸入需要新的架構(gòu)來處理,以在抽象表征空間中進行預測。
AI系統(tǒng)需要在抽象表征空間中進行預測,而不是在具體的像素空間,同時也需要理解因果關系。當前模型中缺失的重要能力是理解因果關系,尤其在與物質(zhì)世界的交互中更為重要。
為了解決視頻處理中的難題,需要創(chuàng)造新的科學方法和技術,使AI系統(tǒng)能夠像人類一樣利用信息。這將需要一些科學和技術上的突破,對于在制造業(yè)、生物學等領域進行常識推理都具有重要意義。
(舉報)