无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<th id="tuwkx"><object id="tuwkx"></object></th>

主打“精準(zhǔn)陪伴”！賈佳亞團(tuán)隊(duì)用2token打造電影搭子LLaMA-VID

2023-12-11 14:03 · 稿源：站長之家用戶

家人們誰懂，連大模型都學(xué)會(huì)看好萊塢大片了，播放過億的GTA6 預(yù)告片大模型還看得津津有味，實(shí)在太卷了！

而讓LLM卷出新境界的辦法簡單到只有2token——將每一幀編碼成 2 個(gè)詞即可搞定。等等！這種大道至簡的方法有種莫名的熟悉感。不錯(cuò)，又是出自香港中文大學(xué)賈佳亞團(tuán)隊(duì)。

這是賈佳亞團(tuán)隊(duì)自 8 月提出主攻推理分割的LISA多模態(tài)大模型、 10 月發(fā)布的70B參數(shù)長文本開源大語言模型LongAlpaca和超長文本擴(kuò)展術(shù)LongLoRA后的又一次重磅技術(shù)更新。而LongLoRA只需兩行代碼便可將7B模型的文本長度拓展到100k tokens，70B模型的文本長度拓展到32k tokens的成績收獲了無數(shù)好評(píng)。

這次，賈佳亞團(tuán)隊(duì)的新作多模態(tài)大模型LLaMA-VID，可支持單圖、短視頻甚至長達(dá) 3 小時(shí)電影的輸入處理。須知當(dāng)前，包括GPT-4V在內(nèi)的多模態(tài)模型 [1，2，3]基本只能支持圖像輸入，面對(duì)實(shí)際場(chǎng)景中對(duì)多圖像長視頻的處理需求支持十分有限，面對(duì)幾十分鐘甚至幾個(gè)小時(shí)的長視頻更顯無能為力。

可以說，LLaMA-VID的出現(xiàn)填補(bǔ)了大語言模型在長視頻領(lǐng)域的空白。

電影搭子LLaMA-VID的一手體驗(yàn)

先拿最近爆火的GTA6 預(yù)告片試試手感。

LLaMA-VID能夠準(zhǔn)確理解預(yù)告片里出現(xiàn)的場(chǎng)景，并能分析預(yù)告片中游戲吸引人的地方在于廣泛的活動(dòng)場(chǎng)景和驚艷的視覺效果。

而根據(jù)游戲中的場(chǎng)景和特征，LLaMA-VID還能推測(cè)出預(yù)告片是Rockstar公司游戲GTA6 的推廣，并說出游戲的背景城市為邁阿密。

針對(duì)網(wǎng)絡(luò)上峰行的短視頻和圖片，LLaMA-VID也不在話下。

LLaMA-VID能夠分析短視頻中知名表情包的笑點(diǎn)，因?yàn)橐曨l中人物夸張的表情以及對(duì)周圍人物的情緒感染不斷加深并強(qiáng)化。

也能扮演“福爾摩斯”，像偵探來根據(jù)室內(nèi)的環(huán)境分析人物性格。

接下來，LLaMA-VID將通過看經(jīng)典電影來展示自己的看家本領(lǐng)。首先是勵(lì)志、溫情的《阿甘正傳》：

可以看出，LLaMA-VID對(duì)角色的理解與分析十分準(zhǔn)確。

如珍妮對(duì)于阿甘的意義（孩童時(shí)期的朋友，后來成為阿甘的妻子，是阿甘生活和心靈的慰藉）；阿甘在戰(zhàn)爭(zhēng)及退伍后的事件分析（丹中尉責(zé)怪阿甘救了自己，無法戰(zhàn)死沙場(chǎng)），并對(duì)接見阿甘的美國總統(tǒng)如數(shù)家珍（肯尼迪、約翰遜、尼克松分別因?yàn)槿篱蠙烨蜻\(yùn)動(dòng)員、越戰(zhàn)榮譽(yù)勛章、和全美乒乓球隊(duì)接見阿甘）。

這一次直接挑戰(zhàn)超長視頻，讓LLaMA-VID看一部近 3 小時(shí)的、刺激的科幻大片《星際穿越》，并與其進(jìn)行對(duì)話。

可以看出，LLaMA-VID不僅能結(jié)合電影情節(jié)和人物輕松對(duì)電影進(jìn)行點(diǎn)評(píng)，而且能很準(zhǔn)確地回答出劇中所涉的細(xì)節(jié)。

例如，蟲洞的作用和創(chuàng)造者是誰（未來的智慧生物放置在土星附近，用于幫助人類進(jìn)行遠(yuǎn)距離星際穿越），男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲（通過手表以摩斯密碼的方式傳遞數(shù)據(jù)），以及米勒星球上相對(duì)地球時(shí)間的快慢及原因（米勒星球由于在黑洞附近，導(dǎo)致 1 小時(shí)相當(dāng)于地球 7 年）。

不得不說，這個(gè)電影搭子實(shí)在太強(qiáng)大了，又狠話又多那種！

16 個(gè)圖片視頻量化指標(biāo)直接Promax

見識(shí)過電影搭子的超能力后，不妨來看看賈佳亞團(tuán)隊(duì)是如何開發(fā)LLaMA-VID的。

要知道，當(dāng)前的多模態(tài)模型無法處理長視頻的主要原因在于傳統(tǒng)多模態(tài)大模型對(duì)單張圖片的編碼token數(shù)量過多，導(dǎo)致在視頻時(shí)間加長后所需要的token數(shù)急劇增加，使模型難以承受。

以當(dāng)前多模態(tài)大模型的技術(shù)標(biāo)桿GPT-4V為例。由于每張圖像都需要過多的Token進(jìn)行編碼，GPT-4V很難將所有的視頻幀全部送入大模型。例如對(duì)于GTA6 預(yù)告片（ 1 分 30 秒）的輸入，GPT-4V采用抽取 5 幀的策略進(jìn)行逐幀分析：

這不僅會(huì)使用戶對(duì)視頻內(nèi)容無法獲得直觀的理解，并難以處理更長的視頻輸入。

如果讓GPT-4V對(duì)視頻進(jìn)行統(tǒng)一分析，則會(huì)出現(xiàn)報(bào)錯(cuò)并無法處理：

為解決這個(gè)問題，賈佳亞團(tuán)隊(duì)重新設(shè)計(jì)了圖像的編碼方式，采用上下文編碼 (Context Token) 和圖像內(nèi)容編碼 (Content Token) 來對(duì)視頻中的單幀進(jìn)行編碼，從而將視頻中的每一幀用 2 個(gè)Token來表示。

其中，上下文編碼根據(jù)用戶輸入的問題生成，從而保證了在極限壓縮視頻消耗的同時(shí)，能盡可能保留和用戶問題相關(guān)的視覺特征。而圖像內(nèi)容編碼則更加關(guān)注圖像本身的內(nèi)容信息，來對(duì)上下文編碼未關(guān)注到的環(huán)境進(jìn)行補(bǔ)充。

簡單來說，對(duì)于上下文編碼 (Context Token)，LLaMA-VID利用文本解碼器（Text Decoder）根據(jù)用戶的輸入和圖像編碼器（Visual Encoder）提取的特征來生成輸入指令相關(guān)的跨模態(tài)索引（Text Query），并使用所生成的索引對(duì)圖像編碼器生成的特征利用注意力機(jī)制（Context Attention）進(jìn)行特征采樣和組合，從而生成高質(zhì)量的指令相關(guān)特征。

而對(duì)于圖像內(nèi)容編碼 (Content Token) ，LLaMA-VID直接根據(jù)用戶需求對(duì)圖像特征進(jìn)行池化采樣。這對(duì)于單張圖片或短視頻，可保留絕大多數(shù)的圖像特征從而提升細(xì)節(jié)理解，而面對(duì)幾個(gè)小時(shí)的長視頻時(shí)，則可將每幀的圖像特征壓縮成 2 個(gè)Token。

用這種方式，LLaMA-VID可以將 3 個(gè)小時(shí)的電影或視頻精簡為數(shù)個(gè)Token，直接使用大語言模型進(jìn)行理解和交互。

這種Token生成方法非常簡潔，僅需幾行代碼即可實(shí)現(xiàn)有效的生成。

此外，LLaMA-VID還收集了 400 部電影并生成9K條長視頻問答語料，包含電影影評(píng)、人物成長及情節(jié)推理等。結(jié)合之前賈佳亞團(tuán)隊(duì)所發(fā)布的長文本數(shù)據(jù)集LongAlpaca-12k（9k條長文本問答語料對(duì)、3k短文本問答語料對(duì)），可輕松將現(xiàn)有多模態(tài)模型拓展來支持長視頻輸入。

在 16 個(gè)視頻、圖片理解及推理數(shù)據(jù)集上實(shí)現(xiàn)了promax的效果

與現(xiàn)有方法相比，LLaMA-VID所提出的創(chuàng)新之處在于，僅用 2 個(gè)Token來處理視頻中的圖片即已大幅超越以往的模型，在MSVD-QA，MSRVTT-QA，ActivityNet-QA等多個(gè)視頻問答和推理的榜單上實(shí)現(xiàn)了SOTA。而隨著語言模型的增大，效果還能進(jìn)一步增強(qiáng)。

而面對(duì)現(xiàn)有的多模態(tài)模型如LLaVA-1.5，LLaMA-VID僅需加入 1 個(gè)所提出的上下文編碼 (Context Token)拓展，能在GQA、MMBench、MME、SEED等 8 個(gè)圖片問答指標(biāo)上獲得顯著的提升：

值得一提的是，LLaMA-VID的視頻理解和推理能力已經(jīng)出了Demo，可以在線跟電影對(duì)話的那種。

操作也極其簡單，只需選擇電影海報(bào)和對(duì)應(yīng)的電影段，即可直接和電影交流（部署在單塊3090，需要的小伙伴可以參考code用更大的顯存部署，直接和整個(gè)電影對(duì)話）。

同時(shí)也支持用戶上傳短視頻進(jìn)行互動(dòng)。

如果對(duì)描述指令有疑惑的，Demo也給出了一些示例，感興趣的小伙伴們不妨來pick一下這個(gè)電影搭子。

參考文獻(xiàn)

[1] Hang Zhang， Xin Li， and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858， 2023.

[2] KunChang Li， Yinan He， Yi Wang， Yizhuo Li， Wenhai Wang， Ping Luo， Yali Wang， Limin Wang， and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355， 2023.

[3] Muhammad Maaz， Hanoona Rasheed， Salman Khan， and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424， 2023.

（推廣）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺(tái)用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)，對(duì)本頁面內(nèi)容所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任，相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，可及時(shí)向站長之家提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明（點(diǎn)擊查看反饋聯(lián)系地址）。本網(wǎng)站在收到上述法律文件后，將會(huì)依法依規(guī)核實(shí)信息，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

相關(guān)推薦

關(guān)鍵詞：

Meta說他們的 Llama 4 偏見少了！但，“虛假對(duì)等”才是真偏見

Meta公司稱，相比之前的版本，他們最新的人工智能模型Llama4的政治偏見更少了。其中一部分便是通過允許該模型回答更多帶有政治爭(zhēng)議性的問題來實(shí)現(xiàn)這一點(diǎn)的。下次當(dāng)你使用Meta的AI產(chǎn)品時(shí)，它可能會(huì)為“通過服用馬用鎮(zhèn)靜劑來治療新冠病毒”這種觀點(diǎn)說好話！

?meta ?ai產(chǎn)品 ?Llama4
薦反擊DeepSeek失?。?span id="92gujwk" class="col-red02">Llama 4效果不好，Meta承認(rèn)有問題

今天凌晨1點(diǎn)半，Meta生成式AI領(lǐng)導(dǎo)者AhmadAl-Dahle在社交平臺(tái)發(fā)布了一篇長文，對(duì)前天剛開源的Llama4質(zhì)疑進(jìn)行了官方回應(yīng)。Ahmad表示，Llama4一開發(fā)完就發(fā)布了，所以，不同服務(wù)中模型質(zhì)量難免會(huì)有一些差異。由于關(guān)稅大戰(zhàn)的原因，Meta的股票遭遇重創(chuàng)，他們也需要一個(gè)利好消息來拉升股票，現(xiàn)在適得其反。

?Meta ?Llama4 ?生成式AI
苦等一年 Meta終于放大招正式發(fā)布開源大模型Llama 4

美國科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開源AI模型Llama4，恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu)，這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率，通過將模型劃分為多個(gè)專注于特定任務(wù)的專家”子模型，實(shí)現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示：他們的目標(biāo)是建立世界領(lǐng)先的人工智能，將其開源，并使其普遍可用，以便世界上每個(gè)人都能受益。

?Meta ?Llama ?4
實(shí)錘了，Llama 4重測(cè)排名掉至32名！遠(yuǎn)不及DeepSeek和Qwen

LMArena更新了Meta最新發(fā)布的開源大模型Llama-4-Maverick的排名，從此前的第2名，直線掉到了第32名！這也實(shí)錘了此前開發(fā)者對(duì)Meta為刷榜排名向LMArena提供了“特供版”的Llama4大模型的質(zhì)疑。開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名，遠(yuǎn)低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max，甚至連英偉達(dá)基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

?Meta ?Llama ?4
Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時(shí)間，口碑急轉(zhuǎn)直下，被質(zhì)疑為刷榜作弊實(shí)際效果差、開源條件多部署門檻高是偽開源等。大模型評(píng)測(cè)平臺(tái)LMArena親自下場(chǎng)發(fā)文，打臉Meta提供給平臺(tái)的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺，恐將在AI競(jìng)賽中進(jìn)一步失去開發(fā)者支持。

?Meta ?Llama ?4
薦剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態(tài)巨獸搶回王座

Llama4重磅發(fā)布了!Meta官宣開源首個(gè)原生多模態(tài)Llama4，首次采用的MoE架構(gòu)，支持12種語言，首批發(fā)布一共兩款:Llama4Scout:共有1090億參數(shù)，17B活躍參數(shù)，16個(gè)專家，1000萬上下Llama4Maverick:共有4000億參數(shù)，17B活躍參數(shù)，128個(gè)專家，100萬上下文另外，2萬億參數(shù)Llama4Behemoth將在未來幾個(gè)月面世，288B活躍參數(shù)，16個(gè)專家。Llama4的橫空出世，成為迄今為止開源最強(qiáng)，多模態(tài)能力最好的模型之一。L

?Llama4 ?多模態(tài)AI ?Meta開源
薦Llama 4五大疑點(diǎn)曝光，逐層扒皮，全球AI進(jìn)步停滯，NYU教授稱Scaling徹底結(jié)束

令人失望的Llama4，只是前奏已。接下來我們恐將看到——全球局勢(shì)的改變，將徹底阻止AI進(jìn)步!最近，一位AICEO做出長視頻，逐級(jí)對(duì)Llama4身上的六大疑點(diǎn)進(jìn)行了扒皮。GaryMarcus正在尋找對(duì)開發(fā)更可靠替代方法有興趣的投資者。

?Llama4 ?AI進(jìn)步 ?全球局勢(shì)
薦挑戰(zhàn)GPT-4o！AI文生圖驚現(xiàn)黑馬，國產(chǎn)團(tuán)隊(duì)HiDream如何逆襲？

HiDream是一款由國內(nèi)團(tuán)隊(duì)開發(fā)的AI模型，擅長生成復(fù)雜的圖片與多種風(fēng)格的藝術(shù)作品。它在多個(gè)測(cè)試中表現(xiàn)出對(duì)細(xì)節(jié)、材質(zhì)、光影控制以及創(chuàng)意概念的良好理解，尤其在人物動(dòng)態(tài)、精細(xì)繪畫等方面效果顯著。HiDream支持輸出4K高清圖片，并兼容多種應(yīng)用領(lǐng)域，包括商業(yè)用途。盡管在某些特定要求下還需提升表現(xiàn)，但其潛力和實(shí)際效果已受到關(guān)注。

?AI技術(shù) ?文生圖 ?開源模型
初探“數(shù)龍杯”明星團(tuán)隊(duì):《萌爪派對(duì)》以AI重構(gòu)情感陪伴

在“數(shù)龍杯”全球AI游戲及應(yīng)用創(chuàng)新大賽的火熱報(bào)名季，眾多明星AI團(tuán)隊(duì)紛紛嶄露頭角。其中，由前字節(jié)跳動(dòng)游戲部門高管李馳創(chuàng)辦的上海喵吉托工作室備受關(guān)注，他們攜自研項(xiàng)目《萌爪派對(duì)》強(qiáng)勢(shì)參賽，團(tuán)隊(duì)也與我們分享了對(duì)“AI+情感”賽道的獨(dú)特理解?！睹茸ε蓪?duì)》《萌爪派對(duì)》是一款以養(yǎng)寵為核心的輕治愈社交游戲，玩家扮演萌爪島上的居民，通過與寵物一起釣魚、種田?

?AI游戲 ?萌爪派對(duì) ?情感共鳴
深度系統(tǒng)deepin 23.1發(fā)布：NVIDIA顯卡、Intel/AMD處理器集體升級(jí)

快科技4月16日消息，deepin深度操作系統(tǒng)團(tuán)隊(duì)發(fā)布了deepin 23.1版本，主要解決基礎(chǔ)組件更新后的安裝效率問題，大幅提升新用戶安裝體驗(yàn)，同時(shí)集成多項(xiàng)功能優(yōu)化與問題修復(fù)，進(jìn)一步優(yōu)化系統(tǒng)使用。本次版本重點(diǎn)改進(jìn)：硬件兼容性與內(nèi)核優(yōu)化：集成Linux 6.6/6.12內(nèi)核更新、NVIDIA顯卡驅(qū)動(dòng)升級(jí)、Intel/AMD CPU處理器微碼更新，全面提升硬件支持與底層性能；核心功能增強(qiáng)：DDE新增智能鏡像源管理、緊湊模式入口，全局搜索支持離線自然語言與AI處理能力；開發(fā)工具與跨平臺(tái)支持：應(yīng)用商店適配Debian/Ubuntu/Arch等子系統(tǒng)環(huán)境，支持快速啟動(dòng)；如意玲瓏

?deepin ?23.1 ?深度操作系統(tǒng)

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<ul id="xjaeo"></ul>

<th id="xjaeo"><object id="xjaeo"></object></th>