无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 傳媒 > 關(guān)鍵詞  > 正文

    主打“精準(zhǔn)陪伴”!賈佳亞團(tuán)隊(duì)用2token打造電影搭子LLaMA-VID

    2023-12-11 14:03 · 稿源: 站長之家用戶

    家人們誰懂,連大模型都學(xué)會(huì)看好萊塢大片了,播放過億的GTA6 預(yù)告片大模型還看得津津有味,實(shí)在太卷了!

    而讓LLM卷出新境界的辦法簡單到只有2token——將每一幀編碼成 2 個(gè)詞即可搞定。等等!這種大道至簡的方法有種莫名的熟悉感。不錯(cuò),又是出自香港中文大學(xué)賈佳亞團(tuán)隊(duì)。

    這是賈佳亞團(tuán)隊(duì)自 8 月提出主攻推理分割的LISA多模態(tài)大模型、 10 月發(fā)布的70B參數(shù)長文本開源大語言模型LongAlpaca和超長文本擴(kuò)展術(shù)LongLoRA后的又一次重磅技術(shù)更新。而LongLoRA只需兩行代碼便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens的成績收獲了無數(shù)好評(píng)。

    這次,賈佳亞團(tuán)隊(duì)的新作多模態(tài)大模型LLaMA-VID,可支持單圖、短視頻甚至長達(dá) 3 小時(shí)電影的輸入處理。須知當(dāng)前,包括GPT-4V在內(nèi)的多模態(tài)模型 [1,2,3]基本只能支持圖像輸入,面對(duì)實(shí)際場(chǎng)景中對(duì)多圖像長視頻的處理需求支持十分有限,面對(duì)幾十分鐘甚至幾個(gè)小時(shí)的長視頻更顯無能為力。

    可以說,LLaMA-VID的出現(xiàn)填補(bǔ)了大語言模型在長視頻領(lǐng)域的空白。

    電影搭子LLaMA-VID的一手體驗(yàn)

    先拿最近爆火的GTA6 預(yù)告片試試手感。

    LLaMA-VID能夠準(zhǔn)確理解預(yù)告片里出現(xiàn)的場(chǎng)景,并能分析預(yù)告片中游戲吸引人的地方在于廣泛的活動(dòng)場(chǎng)景和驚艷的視覺效果。

    而根據(jù)游戲中的場(chǎng)景和特征,LLaMA-VID還能推測(cè)出預(yù)告片是Rockstar公司游戲GTA6 的推廣,并說出游戲的背景城市為邁阿密。

    針對(duì)網(wǎng)絡(luò)上峰行的短視頻和圖片,LLaMA-VID也不在話下。

    LLaMA-VID能夠分析短視頻中知名表情包的笑點(diǎn),因?yàn)橐曨l中人物夸張的表情以及對(duì)周圍人物的情緒感染不斷加深并強(qiáng)化。

    也能扮演“福爾摩斯”,像偵探來根據(jù)室內(nèi)的環(huán)境分析人物性格。

    接下來,LLaMA-VID將通過看經(jīng)典電影來展示自己的看家本領(lǐng)。首先是勵(lì)志、溫情的《阿甘正傳》:

    可以看出,LLaMA-VID對(duì)角色的理解與分析十分準(zhǔn)確。

    如珍妮對(duì)于阿甘的意義(孩童時(shí)期的朋友,后來成為阿甘的妻子,是阿甘生活和心靈的慰藉);阿甘在戰(zhàn)爭(zhēng)及退伍后的事件分析(丹中尉責(zé)怪阿甘救了自己,無法戰(zhàn)死沙場(chǎng)),并對(duì)接見阿甘的美國總統(tǒng)如數(shù)家珍(肯尼迪、約翰遜、尼克松分別因?yàn)槿篱蠙烨蜻\(yùn)動(dòng)員、越戰(zhàn)榮譽(yù)勛章、和全美乒乓球隊(duì)接見阿甘)。

    這一次直接挑戰(zhàn)超長視頻,讓LLaMA-VID看一部近 3 小時(shí)的、刺激的科幻大片《星際穿越》,并與其進(jìn)行對(duì)話。

    可以看出,LLaMA-VID不僅能結(jié)合電影情節(jié)和人物輕松對(duì)電影進(jìn)行點(diǎn)評(píng),而且能很準(zhǔn)確地回答出劇中所涉的細(xì)節(jié)。

    例如,蟲洞的作用和創(chuàng)造者是誰(未來的智慧生物放置在土星附近,用于幫助人類進(jìn)行遠(yuǎn)距離星際穿越),男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲(通過手表以摩斯密碼的方式傳遞數(shù)據(jù)),以及米勒星球上相對(duì)地球時(shí)間的快慢及原因(米勒星球由于在黑洞附近,導(dǎo)致 1 小時(shí)相當(dāng)于地球 7 年)。

    不得不說,這個(gè)電影搭子實(shí)在太強(qiáng)大了,又狠話又多那種!

    16 個(gè)圖片視頻量化指標(biāo)直接Promax

    見識(shí)過電影搭子的超能力后,不妨來看看賈佳亞團(tuán)隊(duì)是如何開發(fā)LLaMA-VID的。

    要知道,當(dāng)前的多模態(tài)模型無法處理長視頻的主要原因在于傳統(tǒng)多模態(tài)大模型對(duì)單張圖片的編碼token數(shù)量過多,導(dǎo)致在視頻時(shí)間加長后所需要的token數(shù)急劇增加,使模型難以承受。

    以當(dāng)前多模態(tài)大模型的技術(shù)標(biāo)桿GPT-4V為例。由于每張圖像都需要過多的Token進(jìn)行編碼,GPT-4V很難將所有的視頻幀全部送入大模型。例如對(duì)于GTA6 預(yù)告片( 1 分 30 秒)的輸入,GPT-4V采用抽取 5 幀的策略進(jìn)行逐幀分析:

    這不僅會(huì)使用戶對(duì)視頻內(nèi)容無法獲得直觀的理解,并難以處理更長的視頻輸入。

    如果讓GPT-4V對(duì)視頻進(jìn)行統(tǒng)一分析,則會(huì)出現(xiàn)報(bào)錯(cuò)并無法處理:

    為解決這個(gè)問題,賈佳亞團(tuán)隊(duì)重新設(shè)計(jì)了圖像的編碼方式,采用上下文編碼 (Context Token) 和圖像內(nèi)容編碼 (Content Token) 來對(duì)視頻中的單幀進(jìn)行編碼,從而將視頻中的每一幀用 2 個(gè)Token來表示。

    其中,上下文編碼根據(jù)用戶輸入的問題生成,從而保證了在極限壓縮視頻消耗的同時(shí),能盡可能保留和用戶問題相關(guān)的視覺特征。而圖像內(nèi)容編碼則更加關(guān)注圖像本身的內(nèi)容信息,來對(duì)上下文編碼未關(guān)注到的環(huán)境進(jìn)行補(bǔ)充。

    簡單來說,對(duì)于上下文編碼 (Context Token),LLaMA-VID利用文本解碼器(Text Decoder)根據(jù)用戶的輸入和圖像編碼器(Visual Encoder)提取的特征來生成輸入指令相關(guān)的跨模態(tài)索引(Text Query),并使用所生成的索引對(duì)圖像編碼器生成的特征利用注意力機(jī)制(Context Attention)進(jìn)行特征采樣和組合,從而生成高質(zhì)量的指令相關(guān)特征。

    而對(duì)于圖像內(nèi)容編碼 (Content Token) ,LLaMA-VID直接根據(jù)用戶需求對(duì)圖像特征進(jìn)行池化采樣。這對(duì)于單張圖片或短視頻,可保留絕大多數(shù)的圖像特征從而提升細(xì)節(jié)理解,而面對(duì)幾個(gè)小時(shí)的長視頻時(shí),則可將每幀的圖像特征壓縮成 2 個(gè)Token。

    用這種方式,LLaMA-VID可以將 3 個(gè)小時(shí)的電影或視頻精簡為數(shù)個(gè)Token,直接使用大語言模型進(jìn)行理解和交互。

    這種Token生成方法非常簡潔,僅需幾行代碼即可實(shí)現(xiàn)有效的生成。

    此外,LLaMA-VID還收集了 400 部電影并生成9K條長視頻問答語料,包含電影影評(píng)、人物成長及情節(jié)推理等。結(jié)合之前賈佳亞團(tuán)隊(duì)所發(fā)布的長文本數(shù)據(jù)集LongAlpaca-12k(9k條長文本問答語料對(duì)、3k短文本問答語料對(duì)), 可輕松將現(xiàn)有多模態(tài)模型拓展來支持長視頻輸入。

    在 16 個(gè)視頻、圖片理解及推理數(shù)據(jù)集上實(shí)現(xiàn)了promax的效果

    與現(xiàn)有方法相比,LLaMA-VID所提出的創(chuàng)新之處在于,僅用 2 個(gè)Token來處理視頻中的圖片即已大幅超越以往的模型,在MSVD-QA,MSRVTT-QA,ActivityNet-QA等多個(gè)視頻問答和推理的榜單上實(shí)現(xiàn)了SOTA。而隨著語言模型的增大,效果還能進(jìn)一步增強(qiáng)。

    而面對(duì)現(xiàn)有的多模態(tài)模型如LLaVA-1.5,LLaMA-VID僅需加入 1 個(gè)所提出的上下文編碼 (Context Token)拓展,能在GQA、MMBench、MME、SEED等 8 個(gè)圖片問答指標(biāo)上獲得顯著的提升:

    值得一提的是,LLaMA-VID的視頻理解和推理能力已經(jīng)出了Demo,可以在線跟電影對(duì)話的那種。

    操作也極其簡單,只需選擇電影海報(bào)和對(duì)應(yīng)的電影段,即可直接和電影交流(部署在單塊3090,需要的小伙伴可以參考code用更大的顯存部署,直接和整個(gè)電影對(duì)話)。

    同時(shí)也支持用戶上傳短視頻進(jìn)行互動(dòng)。

    如果對(duì)描述指令有疑惑的,Demo也給出了一些示例,感興趣的小伙伴們不妨來pick一下這個(gè)電影搭子。

    參考文獻(xiàn)

    [1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023.

    [2] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023.

    [3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.

    推廣

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺(tái)用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù),對(duì)本頁面內(nèi)容所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),可及時(shí)向站長之家提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明(點(diǎn)擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會(huì)依法依規(guī)核實(shí)信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    • 相關(guān)推薦
    • Meta說他們的 Llama 4 偏見少了!但,“虛假對(duì)等”才是真偏見

      Meta公司稱,相比之前的版本,他們最新的人工智能模型Llama4的政治偏見更少了。其中一部分便是通過允許該模型回答更多帶有政治爭(zhēng)議性的問題來實(shí)現(xiàn)這一點(diǎn)的。下次當(dāng)你使用Meta的AI產(chǎn)品時(shí),它可能會(huì)為“通過服用馬用鎮(zhèn)靜劑來治療新冠病毒”這種觀點(diǎn)說好話!

    • 反擊DeepSeek失?。?span id="92gujwk" class="col-red02">Llama 4效果不好,Meta承認(rèn)有問題

      今天凌晨1點(diǎn)半,Meta生成式AI領(lǐng)導(dǎo)者AhmadAl-Dahle在社交平臺(tái)發(fā)布了一篇長文,對(duì)前天剛開源的Llama4質(zhì)疑進(jìn)行了官方回應(yīng)。Ahmad表示,Llama4一開發(fā)完就發(fā)布了,所以,不同服務(wù)中模型質(zhì)量難免會(huì)有一些差異。由于關(guān)稅大戰(zhàn)的原因,Meta的股票遭遇重創(chuàng),他們也需要一個(gè)利好消息來拉升股票,現(xiàn)在適得其反。

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu),這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個(gè)專注于特定任務(wù)的專家”子模型,實(shí)現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標(biāo)是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個(gè)人都能受益。

    • 實(shí)錘了,Llama 4重測(cè)排名掉至32名!遠(yuǎn)不及DeepSeek和Qwen

      LMArena更新了Meta最新發(fā)布的開源大模型Llama-4-Maverick的排名,從此前的第2名,直線掉到了第32名!這也實(shí)錘了此前開發(fā)者對(duì)Meta為刷榜排名向LMArena提供了“特供版”的Llama4大模型的質(zhì)疑。開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名,遠(yuǎn)低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至連英偉達(dá)基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時(shí)間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實(shí)際效果差、開源條件多部署門檻高是偽開源等。大模型評(píng)測(cè)平臺(tái)LMArena親自下場(chǎng)發(fā)文,打臉Meta提供給平臺(tái)的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競(jìng)賽中進(jìn)一步失去開發(fā)者支持。

    • 剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態(tài)巨獸搶回王座

      Llama4重磅發(fā)布了!Meta官宣開源首個(gè)原生多模態(tài)Llama4,首次采用的MoE架構(gòu),支持12種語言,首批發(fā)布一共兩款:Llama4Scout:共有1090億參數(shù),17B活躍參數(shù),16個(gè)專家,1000萬上下Llama4Maverick:共有4000億參數(shù),17B活躍參數(shù),128個(gè)專家,100萬上下文另外,2萬億參數(shù)Llama4Behemoth將在未來幾個(gè)月面世,288B活躍參數(shù),16個(gè)專家。Llama4的橫空出世,成為迄今為止開源最強(qiáng),多模態(tài)能力最好的模型之一。L

    • Llama 4五大疑點(diǎn)曝光,逐層扒皮,全球AI進(jìn)步停滯,NYU教授稱Scaling徹底結(jié)束

      令人失望的Llama4,只是前奏已。接下來我們恐將看到——全球局勢(shì)的改變,將徹底阻止AI進(jìn)步!最近,一位AICEO做出長視頻,逐級(jí)對(duì)Llama4身上的六大疑點(diǎn)進(jìn)行了扒皮。GaryMarcus正在尋找對(duì)開發(fā)更可靠替代方法有興趣的投資者。

    • 挑戰(zhàn)GPT-4o!AI文生圖驚現(xiàn)黑馬,國產(chǎn)團(tuán)隊(duì)HiDream如何逆襲?

      HiDream是一款由國內(nèi)團(tuán)隊(duì)開發(fā)的AI模型,擅長生成復(fù)雜的圖片與多種風(fēng)格的藝術(shù)作品。它在多個(gè)測(cè)試中表現(xiàn)出對(duì)細(xì)節(jié)、材質(zhì)、光影控制以及創(chuàng)意概念的良好理解,尤其在人物動(dòng)態(tài)、精細(xì)繪畫等方面效果顯著。HiDream支持輸出4K高清圖片,并兼容多種應(yīng)用領(lǐng)域,包括商業(yè)用途。盡管在某些特定要求下還需提升表現(xiàn),但其潛力和實(shí)際效果已受到關(guān)注。

    • 初探“數(shù)龍杯”明星團(tuán)隊(duì):《萌爪派對(duì)》以AI重構(gòu)情感陪伴

      在“數(shù)龍杯”全球AI游戲及應(yīng)用創(chuàng)新大賽的火熱報(bào)名季,眾多明星AI團(tuán)隊(duì)紛紛嶄露頭角。其中,由前字節(jié)跳動(dòng)游戲部門高管李馳創(chuàng)辦的上海喵吉托工作室備受關(guān)注,他們攜自研項(xiàng)目《萌爪派對(duì)》強(qiáng)勢(shì)參賽,團(tuán)隊(duì)也與我們分享了對(duì)“AI+情感”賽道的獨(dú)特理解?!睹茸ε蓪?duì)》《萌爪派對(duì)》是一款以養(yǎng)寵為核心的輕治愈社交游戲,玩家扮演萌爪島上的居民,通過與寵物一起釣魚、種田?

    • 深度系統(tǒng)deepin 23.1發(fā)布:NVIDIA顯卡、Intel/AMD處理器集體升級(jí)

      快科技4月16日消息,deepin深度操作系統(tǒng)團(tuán)隊(duì)發(fā)布了deepin 23.1版本,主要解決基礎(chǔ)組件更新后的安裝效率問題,大幅提升新用戶安裝體驗(yàn),同時(shí)集成多項(xiàng)功能優(yōu)化與問題修復(fù),進(jìn)一步優(yōu)化系統(tǒng)使用。本次版本重點(diǎn)改進(jìn):硬件兼容性與內(nèi)核優(yōu)化:集成Linux 6.6/6.12內(nèi)核更新、NVIDIA顯卡驅(qū)動(dòng)升級(jí)、Intel/AMD CPU處理器微碼更新,全面提升硬件支持與底層性能;核心功能增強(qiáng):DDE新增智能鏡像源管理、緊湊模式入口,全局搜索支持離線自然語言與AI處理能力;開發(fā)工具與跨平臺(tái)支持:應(yīng)用商店適配Debian/Ubuntu/Arch等子系統(tǒng)環(huán)境,支持快速啟動(dòng);如意玲瓏