劃重點:
?? Vision Language Models (VLMs) 融合了計算機視覺(CV)和自然語言處理(NLP)的獨特集成。
?? Mini-Gemini 利用雙編碼器系統(tǒng)和新穎的補丁信息挖掘技術,優(yōu)化多模態(tài)輸入處理。
?? Mini-Gemini 在多個零樣本基準測試中表現(xiàn)出色,超越了現(xiàn)有模型。
站長之家(ChinaZ.com)4月1日 消息:近期,中國香港中文大學和 SmartMore 的研究人員推出了一種名為 Mini-Gemini 的新穎框架,通過增強多模態(tài)輸入處理來推動 VLMs 的發(fā)展。Mini-Gemini 采用了雙編碼器系統(tǒng)和一種新穎的補丁信息挖掘技術,結合一個特別策劃的高質量數(shù)據(jù)集,使其能夠有效處理高分辨率圖像并生成內容豐富的視覺和文本內容,從而使其脫穎而出。
Mini-Gemini 的方法論包括一個雙編碼器系統(tǒng),其中包括一個卷積神經(jīng)網(wǎng)絡,用于精細處理圖像,增強視覺標記而不增加它們的數(shù)量。它利用補丁信息挖掘來提取詳細的視覺線索。該框架在一個復合數(shù)據(jù)集上進行訓練,將高質量的圖像文本對和面向任務的指令相結合,以提高模型性能和應用范圍。Mini-Gemini 兼容各種大型語言模型(LLMs),參數(shù)范圍從2B 到34B,實現(xiàn)了高效的任意推斷。這一設置使 Mini-Gemini 在零樣本基準測試中取得了卓越的成績,并支持高級多模態(tài)任務。
在評估 Mini-Gemini 的有效性時,該框架在幾個零樣本基準測試中展示了領先的表現(xiàn)。具體來說,在 MM-Vet 和 MMBench 基準測試中,它超越了 Gemini Pro 模型,分別獲得了79.6和75.6的分數(shù)。當配置為 Hermes-2-Yi-34B 時,Mini-Gemini 在 VQAT 基準測試中取得了令人矚目的70.1分,超過了現(xiàn)有的 LLaVA-1.5模型在所有評估指標上的表現(xiàn)。這些結果驗證了 Mini-Gemini 在處理復雜的視覺和文本任務時的高效性和精度。
該研究介紹了 Mini-Gemini,通過雙編碼器系統(tǒng)、補丁信息挖掘和高質量數(shù)據(jù)集推動了 VLMs 的發(fā)展。Mini-Gemini 在多個基準測試中展現(xiàn)了出色的性能,超越了現(xiàn)有模型,標志著多模態(tài)人工智能能力的重要進步。
然而,正如研究人員所承認的那樣,Mini-Gemini 在視覺理解和推理能力方面仍有改進空間,他們斷言未來的工作將探索視覺理解、推理和生成的高級方法。
項目入口:https://top.aibase.com/tool/minigemini
論文地址:https://arxiv.org/abs/2403.18814
(舉報)