自從2022年底o(hù)pen AI推出ChatGPT開(kāi)始,大型語(yǔ)言模型(LLMs, Large Language Models)的熱度吸引了全世界的眼球,相關(guān)研究也取得了令人矚目的進(jìn)展。除了純語(yǔ)言模型相關(guān)的技術(shù)研究以外,將視覺(jué)能力融入大語(yǔ)言模型的視覺(jué)語(yǔ)言模型(VLMs,Vision Language Models)也迅猛發(fā)展。
目前市場(chǎng)上主流的研究路線主要分為兩種:1)原生多模態(tài)路線,模型設(shè)計(jì)從一開(kāi)始就針對(duì)多模態(tài)數(shù)據(jù)進(jìn)行適配,代表性的工作有微軟的KOSMOS系列和Florence系列、谷歌的PALM-E系列,以及阿里的OFA系列等;2)將單模態(tài)特征作為L(zhǎng)LMs的額外輸入tokens來(lái)擴(kuò)展語(yǔ)言模型,從而將其用于視覺(jué)語(yǔ)言等多種任務(wù)中,代表性的工作有Deepmind的Flamingo、Saleforce的BLIP-2、LLAVA,以及阿里的Qwen-vl等。
以上兩種技術(shù)路線各有優(yōu)劣,原生多模態(tài)路線的模型結(jié)構(gòu)主體均為T(mén)ransformer的基礎(chǔ)堆疊,包括encoder和decoder兩個(gè)模塊;而視覺(jué)模塊作為語(yǔ)言模塊額外輸入補(bǔ)充的方式多為decoder-only的模型架構(gòu)、transformer LLMs模型作為中心,其他模態(tài)的模型作為外圍輔助特征提取模塊,用小參數(shù)量的模型就可以做到各個(gè)單模態(tài)領(lǐng)域已有成果的復(fù)用,同時(shí)還能保留LLMs的已有效果,通過(guò)插入多個(gè)對(duì)齊層來(lái)實(shí)現(xiàn)視覺(jué)信息與文本信息的對(duì)齊和聯(lián)合學(xué)習(xí),這種方式在擴(kuò)展模態(tài)信息上也更靈活。用同樣的方法可以支持語(yǔ)音、圖片、視頻等其他模態(tài)數(shù)據(jù)的統(tǒng)一訓(xùn)練。
01?總述
考拉悠然在視覺(jué)以及多模態(tài)領(lǐng)域有超過(guò)20年的技術(shù)積累,擁有20余項(xiàng)領(lǐng)先的技術(shù)突破,大模型時(shí)代到來(lái)以后,公司第 一時(shí)間投入到多模態(tài)大模型的研發(fā)工作,經(jīng)歷了多個(gè)版本迭代,于11月15?日正式發(fā)布了悠然多模態(tài)產(chǎn)業(yè)通用大模型應(yīng)用與服務(wù)平臺(tái)。
悠然大模型(以下簡(jiǎn)稱(chēng)UranMM-13B)采用先進(jìn)的多模態(tài)大模型架構(gòu),將視覺(jué)等模態(tài)知識(shí)作為模態(tài)數(shù)據(jù)補(bǔ)充到LLMs,簡(jiǎn)單有效地?cái)U(kuò)展了LLM的識(shí)圖、視頻理解等跨模態(tài)能力,作為一種多模態(tài)視覺(jué)語(yǔ)言大模型,悠然大模型具有領(lǐng)先的圖文理解、視頻理解、多模態(tài)推理等能力,并且保留了常見(jiàn)的自然語(yǔ)言任務(wù)處理能力,包括問(wèn)答、信息檢索、創(chuàng)意寫(xiě)作和輔助編碼等能力。該模型對(duì)比BLIP2、LLaVa、QwenVL-Chat等國(guó)內(nèi)外模型評(píng)測(cè)的打分中,表現(xiàn)出不俗的成績(jī)。同時(shí),悠然大模型定位為產(chǎn)業(yè)通用大模型,基于產(chǎn)業(yè)模型可以快速生成行業(yè)模型,結(jié)合行業(yè)應(yīng)用發(fā)揮出更大的價(jià)值。
02??模型介紹
模型結(jié)構(gòu)
整個(gè)模型主要由多模態(tài)編碼器、對(duì)齊模塊、大語(yǔ)言模型三個(gè)模塊組成,結(jié)合了高質(zhì)量場(chǎng)景化數(shù)據(jù),通過(guò)控制可訓(xùn)參數(shù)進(jìn)行預(yù)訓(xùn)練和調(diào)優(yōu)。
●?多模態(tài)編碼器:以視覺(jué)編碼器(Image Encoder)為例,UranMM-13B使用了預(yù)訓(xùn)練的CLIP ViT-L/14,以提取輸入圖像的特征。圖像被調(diào)整為336×336的統(tǒng)一尺寸,并被分割成14個(gè)步長(zhǎng)的patch,最終轉(zhuǎn)化為序列長(zhǎng)度為576的tokens作為L(zhǎng)LMs的輸入。
●?對(duì)齊模塊:使用了一個(gè)多層感知器MLP,用于與LLMs模型理解的知識(shí)結(jié)構(gòu)匹配。
●?大語(yǔ)言模型:UranMM-13B?以LLaMa2為基礎(chǔ),具備13B參數(shù)量,特別進(jìn)行了中文分詞優(yōu)化,增加了200B tokens具備行業(yè)屬性的中英文數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,在中文、英文、數(shù)學(xué)、代碼等下游任務(wù)上,相對(duì)于Llama2-13B取得了明顯的提升。
訓(xùn)練數(shù)據(jù)
現(xiàn)有的多模態(tài)公開(kāi)指令集,存在質(zhì)量偏低和數(shù)量有限的問(wèn)題,通過(guò)公開(kāi)數(shù)據(jù)訓(xùn)練出來(lái)的模型存在嚴(yán)重幻覺(jué),無(wú)法滿(mǎn)足實(shí)際應(yīng)用需求。為此,考拉悠然研發(fā)團(tuán)隊(duì)采用了一系列高質(zhì)量數(shù)據(jù)生成策略:
1.?基于主流的視覺(jué)和語(yǔ)言大模型設(shè)計(jì)規(guī)則,對(duì)公開(kāi)數(shù)據(jù)進(jìn)行清洗和過(guò)濾,得到第 一部分高質(zhì)量的種子數(shù)據(jù),根據(jù)實(shí)際經(jīng)驗(yàn)判斷數(shù)據(jù)的有效率約30%。
2.?結(jié)合GLIP、SAM、KOSMOS等先進(jìn)視覺(jué)技術(shù),采用粗粒度信息和細(xì)粒度信息的抽取,將圖像描述轉(zhuǎn)化為語(yǔ)言形式,再通過(guò)模型構(gòu)建一批高質(zhì)量的指令數(shù)據(jù)。
最終用于模型訓(xùn)練的數(shù)據(jù)規(guī)模達(dá)到了百億token全模態(tài)數(shù)據(jù),和百萬(wàn)行業(yè)高質(zhì)量指令集。
訓(xùn)練方法
訓(xùn)練方法上,考拉悠然取得了許多創(chuàng)新成果,團(tuán)隊(duì)基于DeepSpeed的訓(xùn)練框架進(jìn)行優(yōu)化,采用BF16精度,整合了FlashAttention2等技術(shù)提升訓(xùn)練效率。
同市場(chǎng)上很多VLM模型的生成過(guò)程類(lèi)似,悠然大模型訓(xùn)練過(guò)程分為兩個(gè)階段:第 一階段使用圖像-文本數(shù)據(jù)訓(xùn)練視覺(jué)和語(yǔ)言模型對(duì)齊層,使視覺(jué)模型抽取出來(lái)的圖像特征能夠和LLM中的文本特征空間進(jìn)行對(duì)齊;第二階段使用行業(yè)自有指令數(shù)據(jù)和開(kāi)源指令數(shù)據(jù),進(jìn)一步微調(diào)模型的視覺(jué)感知以及業(yè)務(wù)理解能力,同時(shí),為了保持模型語(yǔ)言能力的穩(wěn)定性,還使用了ShareGPT的1M文本數(shù)據(jù)。
UranMM-13B還特別針對(duì)實(shí)際業(yè)務(wù)場(chǎng)景的需求,實(shí)現(xiàn)了預(yù)測(cè)場(chǎng)景的能力強(qiáng)化。我們使用了分組查詢(xún)注意力(GQA)進(jìn)行更快的推理、滑動(dòng)窗口注意力(SWA)以更低的成本處理更長(zhǎng)的序列,這些技術(shù)使模型更好地處理時(shí)間序列預(yù)測(cè)問(wèn)題,實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。我們的模型還具備自我學(xué)習(xí)和調(diào)整的能力,能夠根據(jù)新的數(shù)據(jù)和反饋持續(xù)優(yōu)化預(yù)測(cè)結(jié)果。
03?評(píng)測(cè)結(jié)果
UranMM-13B在視覺(jué)標(biāo)注、問(wèn)答、關(guān)聯(lián)提取等任務(wù)中,與近期的SOTA模型相比取得了領(lǐng)先的效果。
UranMM-13B與近期的SOTA模型評(píng)測(cè)對(duì)比圖
04??通用能力展示
圖片識(shí)別
以下為真實(shí)交通場(chǎng)景下,對(duì)圖片多目標(biāo)的類(lèi)型與特征進(jìn)行識(shí)別的案例。
OCR
以下案例展示了模型執(zhí)行實(shí)際街道照片的中文OCR識(shí)別任務(wù)的能力。
文本寫(xiě)作
以下案例展示了模型基于災(zāi)害場(chǎng)景的圖片信息的文本創(chuàng)作能力。
05??真實(shí)業(yè)務(wù)場(chǎng)景示例
基于悠然多模態(tài)產(chǎn)業(yè)通用大模型,經(jīng)過(guò)行業(yè)數(shù)據(jù)微調(diào)構(gòu)生成行業(yè)大模型后,配合模型推理訓(xùn)練引擎、向量數(shù)據(jù)庫(kù)、多模態(tài)數(shù)據(jù)實(shí)時(shí)加工服務(wù)與Agent智能體等大模型應(yīng)用工具鏈,可以快速構(gòu)建各類(lèi)行業(yè)AI應(yīng)用。這一最 新的應(yīng)用范式,對(duì)比過(guò)往的產(chǎn)品解決方案,在業(yè)務(wù)效果和交付效率層面均有顯著的提升,有望催生全新的行業(yè)AI原生應(yīng)用,實(shí)現(xiàn)產(chǎn)業(yè)真正的智能化升級(jí)。在高空交通監(jiān)管、電網(wǎng)巡檢、半導(dǎo)體質(zhì)量檢測(cè)、煙草生產(chǎn)管控、智慧城市治理等交通、能源、工業(yè)、政務(wù)領(lǐng)域的場(chǎng)景中擁有廣闊的應(yīng)用空間與大量潛在商機(jī)。
以下以高空交通監(jiān)管場(chǎng)景的行業(yè)應(yīng)用功能點(diǎn)為例,展示模型在真實(shí)業(yè)務(wù)場(chǎng)景中的應(yīng)用效果。
高空視頻大模型?+?高空視頻全要素感知預(yù)警平臺(tái)
以川藏公路折多山當(dāng)?shù)氐慕煌ǜ兄A(yù)警應(yīng)用為例。一方面,當(dāng)?shù)夭渴鸬亩鄠€(gè)高空攝像頭,24小時(shí)實(shí)時(shí)傳輸?shù)缆芬曨l流。視頻流在經(jīng)過(guò)高空視頻大模型驅(qū)動(dòng)的數(shù)據(jù)處理服務(wù)加工后,形成動(dòng)態(tài)增刪的結(jié)構(gòu)化的事件數(shù)據(jù)集;另一方面,業(yè)務(wù)方預(yù)先準(zhǔn)備的《中華人民共和國(guó)道路交通安全法》《中華人民共和國(guó)道路交通安全法實(shí)施條例》及四川交通廳相關(guān)道路安全行政法規(guī)等行業(yè)規(guī)范,構(gòu)建了完備的行業(yè)知識(shí)庫(kù)。
當(dāng)出現(xiàn)緊急情況時(shí),行業(yè)智能體將結(jié)合視頻事件與行業(yè)法規(guī)條例的信息,智能判斷告警程度并輸出事件分析報(bào)告,協(xié)助監(jiān)管人員及時(shí)處理險(xiǎn)情。在日常運(yùn)營(yíng)時(shí)段,監(jiān)管人員也可以實(shí)時(shí)通過(guò)預(yù)警平臺(tái),靈活生成指定時(shí)段的交通動(dòng)態(tài)圖表、分析報(bào)告,為監(jiān)管工作提供敏捷可靠的數(shù)據(jù)支撐。
上述案例充分展現(xiàn)出悠然多模態(tài)產(chǎn)業(yè)通用大模型,在視覺(jué)識(shí)別、信息理解、邏輯推斷、知識(shí)應(yīng)用等任務(wù)上的良好效果。
06??聯(lián)系我們
如果您對(duì)悠然多模態(tài)產(chǎn)業(yè)通用大模型感興趣,請(qǐng)聯(lián)系我們。
參考文獻(xiàn):
?[1]Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint? arXiv:2301.12597, 2023.
[2]Dai W, Li J, Li D, et al. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arXiv preprint arXiv:2305.06500, 2023.
[3]Bai J, Bai S, Yang S, et al. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
[4]Liu H, Li C, Li Y, et al. Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744, 2023.
(推廣)