家人們誰懂,連大模型都學(xué)會(huì)看好萊塢大片了,播放過億的GTA6 預(yù)告片大模型還看得津津有味,實(shí)在太卷了!
而讓LLM卷出新境界的辦法簡單到只有2token——將每一幀編碼成 2 個(gè)詞即可搞定。等等!這種大道至簡的方法有種莫名的熟悉感。不錯(cuò),又是出自香港中文大學(xué)賈佳亞團(tuán)隊(duì)。
這是賈佳亞團(tuán)隊(duì)自 8 月提出主攻推理分割的LISA多模態(tài)大模型、 10 月發(fā)布的70B參數(shù)長文本開源大語言模型LongAlpaca和超長文本擴(kuò)展術(shù)LongLoRA后的又一次重磅技術(shù)更新。而LongLoRA只需兩行代碼便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens的成績收獲了無數(shù)好評(píng)。
這次,賈佳亞團(tuán)隊(duì)的新作多模態(tài)大模型LLaMA-VID,可支持單圖、短視頻甚至長達(dá) 3 小時(shí)電影的輸入處理。須知當(dāng)前,包括GPT-4V在內(nèi)的多模態(tài)模型 [1,2,3]基本只能支持圖像輸入,面對(duì)實(shí)際場(chǎng)景中對(duì)多圖像長視頻的處理需求支持十分有限,面對(duì)幾十分鐘甚至幾個(gè)小時(shí)的長視頻更顯無能為力。
可以說,LLaMA-VID的出現(xiàn)填補(bǔ)了大語言模型在長視頻領(lǐng)域的空白。
電影搭子LLaMA-VID的一手體驗(yàn)
先拿最近爆火的GTA6 預(yù)告片試試手感。
LLaMA-VID能夠準(zhǔn)確理解預(yù)告片里出現(xiàn)的場(chǎng)景,并能分析預(yù)告片中游戲吸引人的地方在于廣泛的活動(dòng)場(chǎng)景和驚艷的視覺效果。
而根據(jù)游戲中的場(chǎng)景和特征,LLaMA-VID還能推測(cè)出預(yù)告片是Rockstar公司游戲GTA6 的推廣,并說出游戲的背景城市為邁阿密。
針對(duì)網(wǎng)絡(luò)上峰行的短視頻和圖片,LLaMA-VID也不在話下。
LLaMA-VID能夠分析短視頻中知名表情包的笑點(diǎn),因?yàn)橐曨l中人物夸張的表情以及對(duì)周圍人物的情緒感染不斷加深并強(qiáng)化。
也能扮演“福爾摩斯”,像偵探來根據(jù)室內(nèi)的環(huán)境分析人物性格。
接下來,LLaMA-VID將通過看經(jīng)典電影來展示自己的看家本領(lǐng)。首先是勵(lì)志、溫情的《阿甘正傳》:
可以看出,LLaMA-VID對(duì)角色的理解與分析十分準(zhǔn)確。
如珍妮對(duì)于阿甘的意義(孩童時(shí)期的朋友,后來成為阿甘的妻子,是阿甘生活和心靈的慰藉);阿甘在戰(zhàn)爭(zhēng)及退伍后的事件分析(丹中尉責(zé)怪阿甘救了自己,無法戰(zhàn)死沙場(chǎng)),并對(duì)接見阿甘的美國總統(tǒng)如數(shù)家珍(肯尼迪、約翰遜、尼克松分別因?yàn)槿篱蠙烨蜻\(yùn)動(dòng)員、越戰(zhàn)榮譽(yù)勛章、和全美乒乓球隊(duì)接見阿甘)。
這一次直接挑戰(zhàn)超長視頻,讓LLaMA-VID看一部近 3 小時(shí)的、刺激的科幻大片《星際穿越》,并與其進(jìn)行對(duì)話。
可以看出,LLaMA-VID不僅能結(jié)合電影情節(jié)和人物輕松對(duì)電影進(jìn)行點(diǎn)評(píng),而且能很準(zhǔn)確地回答出劇中所涉的細(xì)節(jié)。
例如,蟲洞的作用和創(chuàng)造者是誰(未來的智慧生物放置在土星附近,用于幫助人類進(jìn)行遠(yuǎn)距離星際穿越),男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲(通過手表以摩斯密碼的方式傳遞數(shù)據(jù)),以及米勒星球上相對(duì)地球時(shí)間的快慢及原因(米勒星球由于在黑洞附近,導(dǎo)致 1 小時(shí)相當(dāng)于地球 7 年)。
不得不說,這個(gè)電影搭子實(shí)在太強(qiáng)大了,又狠話又多那種!
16 個(gè)圖片視頻量化指標(biāo)直接Promax
見識(shí)過電影搭子的超能力后,不妨來看看賈佳亞團(tuán)隊(duì)是如何開發(fā)LLaMA-VID的。
要知道,當(dāng)前的多模態(tài)模型無法處理長視頻的主要原因在于傳統(tǒng)多模態(tài)大模型對(duì)單張圖片的編碼token數(shù)量過多,導(dǎo)致在視頻時(shí)間加長后所需要的token數(shù)急劇增加,使模型難以承受。
以當(dāng)前多模態(tài)大模型的技術(shù)標(biāo)桿GPT-4V為例。由于每張圖像都需要過多的Token進(jìn)行編碼,GPT-4V很難將所有的視頻幀全部送入大模型。例如對(duì)于GTA6 預(yù)告片( 1 分 30 秒)的輸入,GPT-4V采用抽取 5 幀的策略進(jìn)行逐幀分析:
這不僅會(huì)使用戶對(duì)視頻內(nèi)容無法獲得直觀的理解,并難以處理更長的視頻輸入。
如果讓GPT-4V對(duì)視頻進(jìn)行統(tǒng)一分析,則會(huì)出現(xiàn)報(bào)錯(cuò)并無法處理:
為解決這個(gè)問題,賈佳亞團(tuán)隊(duì)重新設(shè)計(jì)了圖像的編碼方式,采用上下文編碼 (Context Token) 和圖像內(nèi)容編碼 (Content Token) 來對(duì)視頻中的單幀進(jìn)行編碼,從而將視頻中的每一幀用 2 個(gè)Token來表示。
其中,上下文編碼根據(jù)用戶輸入的問題生成,從而保證了在極限壓縮視頻消耗的同時(shí),能盡可能保留和用戶問題相關(guān)的視覺特征。而圖像內(nèi)容編碼則更加關(guān)注圖像本身的內(nèi)容信息,來對(duì)上下文編碼未關(guān)注到的環(huán)境進(jìn)行補(bǔ)充。
簡單來說,對(duì)于上下文編碼 (Context Token),LLaMA-VID利用文本解碼器(Text Decoder)根據(jù)用戶的輸入和圖像編碼器(Visual Encoder)提取的特征來生成輸入指令相關(guān)的跨模態(tài)索引(Text Query),并使用所生成的索引對(duì)圖像編碼器生成的特征利用注意力機(jī)制(Context Attention)進(jìn)行特征采樣和組合,從而生成高質(zhì)量的指令相關(guān)特征。
而對(duì)于圖像內(nèi)容編碼 (Content Token) ,LLaMA-VID直接根據(jù)用戶需求對(duì)圖像特征進(jìn)行池化采樣。這對(duì)于單張圖片或短視頻,可保留絕大多數(shù)的圖像特征從而提升細(xì)節(jié)理解,而面對(duì)幾個(gè)小時(shí)的長視頻時(shí),則可將每幀的圖像特征壓縮成 2 個(gè)Token。
用這種方式,LLaMA-VID可以將 3 個(gè)小時(shí)的電影或視頻精簡為數(shù)個(gè)Token,直接使用大語言模型進(jìn)行理解和交互。
這種Token生成方法非常簡潔,僅需幾行代碼即可實(shí)現(xiàn)有效的生成。
此外,LLaMA-VID還收集了 400 部電影并生成9K條長視頻問答語料,包含電影影評(píng)、人物成長及情節(jié)推理等。結(jié)合之前賈佳亞團(tuán)隊(duì)所發(fā)布的長文本數(shù)據(jù)集LongAlpaca-12k(9k條長文本問答語料對(duì)、3k短文本問答語料對(duì)), 可輕松將現(xiàn)有多模態(tài)模型拓展來支持長視頻輸入。
在 16 個(gè)視頻、圖片理解及推理數(shù)據(jù)集上實(shí)現(xiàn)了promax的效果
與現(xiàn)有方法相比,LLaMA-VID所提出的創(chuàng)新之處在于,僅用 2 個(gè)Token來處理視頻中的圖片即已大幅超越以往的模型,在MSVD-QA,MSRVTT-QA,ActivityNet-QA等多個(gè)視頻問答和推理的榜單上實(shí)現(xiàn)了SOTA。而隨著語言模型的增大,效果還能進(jìn)一步增強(qiáng)。
而面對(duì)現(xiàn)有的多模態(tài)模型如LLaVA-1.5,LLaMA-VID僅需加入 1 個(gè)所提出的上下文編碼 (Context Token)拓展,能在GQA、MMBench、MME、SEED等 8 個(gè)圖片問答指標(biāo)上獲得顯著的提升:
值得一提的是,LLaMA-VID的視頻理解和推理能力已經(jīng)出了Demo,可以在線跟電影對(duì)話的那種。
操作也極其簡單,只需選擇電影海報(bào)和對(duì)應(yīng)的電影段,即可直接和電影交流(部署在單塊3090,需要的小伙伴可以參考code用更大的顯存部署,直接和整個(gè)電影對(duì)話)。
同時(shí)也支持用戶上傳短視頻進(jìn)行互動(dòng)。
如果對(duì)描述指令有疑惑的,Demo也給出了一些示例,感興趣的小伙伴們不妨來pick一下這個(gè)電影搭子。
參考文獻(xiàn)
[1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023.
[2] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023.
[3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.
(推廣)