要點:
1. 隨著容量或預(yù)訓(xùn)練數(shù)據(jù)量的增加,模型性能不斷提升。
2. 論文證實自回歸訓(xùn)練對于圖像模型學(xué)習(xí)表征能力具有擴展性。
3. 自回歸目標(biāo)足以滿足視覺特征的訓(xùn)練要求,且沒有飽和的跡象。
站長之家(ChinaZ.com)1月18日 消息:蘋果公司的研究者通過自回歸圖像模型(AIM)驗證了視覺模型“參數(shù)越多性能越強”的規(guī)律,進一步證明隨著容量或預(yù)訓(xùn)練數(shù)據(jù)量的增加,模型能不斷提升性能。AIM能有效利用大量未經(jīng)整理的圖像數(shù)據(jù),訓(xùn)練方法和穩(wěn)定性與最近的大型語言模型(LLM)類似。這一觀察結(jié)果與之前關(guān)于擴展大型語言模型的研究結(jié)果是一致的。
雖然本文實驗所使用的模型規(guī)模有限,還需進一步探索是否能在更大參數(shù)量級的模型上驗證此規(guī)律。研究者使用的預(yù)訓(xùn)練目標(biāo)遵循應(yīng)用于圖像 patch 序列的標(biāo)準(zhǔn)自回歸模型,通過一系列實驗和研究,驗證了模型容量可以輕松擴展到數(shù)十億個參數(shù),同時對下游任務(wù)有很好的性能。
項目地址:https://top.aibase.com/tool/aim
此外,研究者對自回歸目標(biāo)訓(xùn)練 ViT 模型的多方面進行了探討,并且重新審視了之前的工作。研究者的實驗報告顯示,在整個訓(xùn)練過程中,優(yōu)化目標(biāo)直接帶來更好的下游性能,而隨著模型容量的增加,損失值和下游任務(wù)的準(zhǔn)確性都有所提高。這一觀察結(jié)果與在 LLMs 中觀察到的趨勢一致,反映了優(yōu)化目標(biāo)會直接帶來更好的下游性能。
在 AIM 的設(shè)計參數(shù)中,除了擴展寬度,研究者還特別采用了一種簡單設(shè)計,使用多層感知機塊,獨立地對每個 patch 進行處理。研究者同時強調(diào),研究的模型規(guī)模有限,對更大參數(shù)量級的模型上驗證此規(guī)律還有待進一步探索。
論文的實驗結(jié)果證明了視覺模型同樣遵循「參數(shù)越多性能越強」的規(guī)律,自回歸訓(xùn)練對圖像模型具有很好的擴展性,并能夠滿足視覺特征的訓(xùn)練要求。對未來圖像模型性能提升和優(yōu)化提供了新的研究方向和思路。
(舉報)