无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關鍵詞  > Gemini最新資訊  > 正文

    Mini-Gemini:簡單有效的AI框架,增強多模態(tài)視覺語言模型

    2024-04-01 11:46 · 稿源:站長之家

    劃重點:

    ?? Vision Language Models (VLMs) 融合了計算機視覺(CV)和自然語言處理(NLP)的獨特集成。

    ?? Mini-Gemini 利用雙編碼器系統(tǒng)和新穎的補丁信息挖掘技術,優(yōu)化多模態(tài)輸入處理。

    ?? Mini-Gemini 在多個零樣本基準測試中表現(xiàn)出色,超越了現(xiàn)有模型。

    站長之家(ChinaZ.com)4月1日 消息:近期,中國香港中文大學和 SmartMore 的研究人員推出了一種名為 Mini-Gemini 的新穎框架,通過增強多模態(tài)輸入處理來推動 VLMs 的發(fā)展。Mini-Gemini 采用了雙編碼器系統(tǒng)和一種新穎的補丁信息挖掘技術,結合一個特別策劃的高質量數(shù)據(jù)集,使其能夠有效處理高分辨率圖像并生成內容豐富的視覺和文本內容,從而使其脫穎而出。

    image.png

    Mini-Gemini 的方法論包括一個雙編碼器系統(tǒng),其中包括一個卷積神經(jīng)網(wǎng)絡,用于精細處理圖像,增強視覺標記而不增加它們的數(shù)量。它利用補丁信息挖掘來提取詳細的視覺線索。該框架在一個復合數(shù)據(jù)集上進行訓練,將高質量的圖像文本對和面向任務的指令相結合,以提高模型性能和應用范圍。Mini-Gemini 兼容各種大型語言模型(LLMs),參數(shù)范圍從2B 到34B,實現(xiàn)了高效的任意推斷。這一設置使 Mini-Gemini 在零樣本基準測試中取得了卓越的成績,并支持高級多模態(tài)任務。

    在評估 Mini-Gemini 的有效性時,該框架在幾個零樣本基準測試中展示了領先的表現(xiàn)。具體來說,在 MM-Vet 和 MMBench 基準測試中,它超越了 Gemini Pro 模型,分別獲得了79.6和75.6的分數(shù)。當配置為 Hermes-2-Yi-34B 時,Mini-Gemini 在 VQAT 基準測試中取得了令人矚目的70.1分,超過了現(xiàn)有的 LLaVA-1.5模型在所有評估指標上的表現(xiàn)。這些結果驗證了 Mini-Gemini 在處理復雜的視覺和文本任務時的高效性和精度。

    該研究介紹了 Mini-Gemini,通過雙編碼器系統(tǒng)、補丁信息挖掘和高質量數(shù)據(jù)集推動了 VLMs 的發(fā)展。Mini-Gemini 在多個基準測試中展現(xiàn)了出色的性能,超越了現(xiàn)有模型,標志著多模態(tài)人工智能能力的重要進步。

    而,正如研究人員所承認的那樣,Mini-Gemini 在視覺理解和推理能力方面仍有改進空間,他們斷言未來的工作將探索視覺理解、推理和生成的高級方法。

    項目入口:https://top.aibase.com/tool/minigemini

    論文地址:https://arxiv.org/abs/2403.18814

    舉報

    • 相關推薦