无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

Mini-Gemini:簡單有效的AI框架，增強多模態(tài)視覺語言模型

2024-04-01 11:46 · 稿源：站長之家

劃重點:
?? Vision Language Models （VLMs）融合了計算機視覺(CV)和自然語言處理(NLP)的獨特集成。
?? Mini-Gemini 利用雙編碼器系統(tǒng)和新穎的補丁信息挖掘技術，優(yōu)化多模態(tài)輸入處理。
?? Mini-Gemini 在多個零樣本基準測試中表現(xiàn)出色，超越了現(xiàn)有模型。

站長之家（ChinaZ.com）4月1日消息:近期，中國香港中文大學和 SmartMore 的研究人員推出了一種名為 Mini-Gemini 的新穎框架，通過增強多模態(tài)輸入處理來推動 VLMs 的發(fā)展。Mini-Gemini 采用了雙編碼器系統(tǒng)和一種新穎的補丁信息挖掘技術，結合一個特別策劃的高質量數(shù)據(jù)集，使其能夠有效處理高分辨率圖像并生成內容豐富的視覺和文本內容，從而使其脫穎而出。

Mini-Gemini 的方法論包括一個雙編碼器系統(tǒng)，其中包括一個卷積神經(jīng)網(wǎng)絡，用于精細處理圖像，增強視覺標記而不增加它們的數(shù)量。它利用補丁信息挖掘來提取詳細的視覺線索。該框架在一個復合數(shù)據(jù)集上進行訓練，將高質量的圖像文本對和面向任務的指令相結合，以提高模型性能和應用范圍。Mini-Gemini 兼容各種大型語言模型（LLMs），參數(shù)范圍從2B 到34B，實現(xiàn)了高效的任意推斷。這一設置使 Mini-Gemini 在零樣本基準測試中取得了卓越的成績，并支持高級多模態(tài)任務。

在評估 Mini-Gemini 的有效性時，該框架在幾個零樣本基準測試中展示了領先的表現(xiàn)。具體來說，在 MM-Vet 和 MMBench 基準測試中，它超越了 Gemini Pro 模型，分別獲得了79.6和75.6的分數(shù)。當配置為 Hermes-2-Yi-34B 時，Mini-Gemini 在 VQAT 基準測試中取得了令人矚目的70.1分，超過了現(xiàn)有的 LLaVA-1.5模型在所有評估指標上的表現(xiàn)。這些結果驗證了 Mini-Gemini 在處理復雜的視覺和文本任務時的高效性和精度。

該研究介紹了 Mini-Gemini，通過雙編碼器系統(tǒng)、補丁信息挖掘和高質量數(shù)據(jù)集推動了 VLMs 的發(fā)展。Mini-Gemini 在多個基準測試中展現(xiàn)了出色的性能，超越了現(xiàn)有模型，標志著多模態(tài)人工智能能力的重要進步。

然而，正如研究人員所承認的那樣，Mini-Gemini 在視覺理解和推理能力方面仍有改進空間，他們斷言未來的工作將探索視覺理解、推理和生成的高級方法。

項目入口：https://top.aibase.com/tool/minigemini

論文地址：https://arxiv.org/abs/2403.18814

（舉報）

相關推薦

關鍵詞：

谷歌ai壟斷？谷歌每月向三星支付“巨額費用”，讓其預裝Gemini

繼 Android 系統(tǒng)、Chrome 瀏覽器等應用之后，谷歌又為他們的 Gemini 預裝花費了“巨額費用”……

?谷歌ai壟斷 ?谷歌壟斷 ?三星
谷歌首推Gemini 2.5 Flash：成本爆降600%

快科技4月18日消息，據(jù)報道，谷歌發(fā)布了突破性混合推理模型Gemini 2.5 Flash，該模型創(chuàng)新性地引入可調節(jié)思考預算功能，在保持高性能的同時顯著降低使用成本。在閉源思考模式下，其成本僅為0.6美元/百萬tokens，相比全功能思考模式（3.5美元/百萬tokens）大幅降低600%。值得注意的是，即便在基礎模式下運行，其性能依然超越前代Gemini 2.0 Flash。性能表現(xiàn)方面，Gemini 2.5 Flash在大模?

?谷歌 ?Gemini ?2.5
超過ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

新版AI模型縮短了響應時間，節(jié)約了運算成本；還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”，據(jù)稱，這款AI模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計劃在三星今年上半年推出的AI伴侶機器人Ballie上搭載生成式AI模型。

?AI模型 ?谷歌 ?Gemini
谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

谷歌宣布又有一款 AI 模型將加入 Gemini，但這次它不僅僅是一個聊天機器人。

?谷歌 ?谷歌gemini ?veo2
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領域迎來技術標準的變革，ModelContextProtocol成為國內AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
薦“血虧，我花3000+元用Claude做游戲，結果還不如去「白嫖」Gemini 2.5……”

作者分享使用AI助手開發(fā)拼字游戲的兩段經(jīng)歷：首次用Claude花費417美元(約3042元)，開發(fā)過程充滿痛苦，常出現(xiàn)上下文失效、代碼錯誤等問題；第二次用Gemini 2.5 Pro+Cursor完全免費，體驗明顯改善，能更好理解項目上下文，開發(fā)更流暢。對比指出：Claude像健忘的實習生，常搞砸項目；Gemini則像可靠的中級工程師，開發(fā)速度快且穩(wěn)定。但強調AI仍需人類監(jiān)督測試，無法獨立產(chǎn)出完美代?

?拼字游戲 ?AI編程 ?Claude
迄今最貴！谷歌Gemini 2.5 Pro API定價公布：每百萬輸入tokens超9元

據(jù)報道，谷歌近日公布了Gemini2.5Pro的API定價，基礎定價為每百萬輸入tokens1.25美元，每百萬輸出tokens10美元。對于超過20萬tokens的長文本輸入，價格調整為每百萬輸入tokens2.50美元，輸出tokens15美元。谷歌CEO桑達爾皮查伊表示，Gemini2.5Pro是目前最受開發(fā)者歡迎的AI模型，僅本月在GoogleAIStudio和GeminiAPI上的使用量就增長了80%。

?谷歌Gemini ?2.5 ?Pro
薦多模態(tài)和Agent成為大廠AI的新賽點

這是《窄播Weekly》的第52期，本期我們關注的商業(yè)動態(tài)是:當大廠的AI競爭策略開始傾斜向應用場景，多模態(tài)能力和代理執(zhí)行成為兩個焦點。大模型落地C端場景的核心，就是讓大模型的能力越來越接近人。沿著這個主旋律，可以劃分出兩個進化方向:一個是持續(xù)降低用戶與大模型進行有效溝通的難度;另一個則是讓大模型具備執(zhí)行更復雜任務的能力。前者的實現(xiàn)，需要給到大模型多

?AI競爭策略 ?多模態(tài)能力 ?大模型應用
薦多模態(tài)和Agent成為大廠AI的新賽點

本期《窄播Weekly》聚焦AI大廠競爭策略向應用場景傾斜的趨勢，重點分析了多模態(tài)能力和代理執(zhí)行兩大發(fā)展方向。文章指出，大模型落地的核心在于讓人機交互更自然，具體表現(xiàn)為：1）通過多模態(tài)技術降低用戶使用門檻，如阿里夸克新推出的"拍照問夸克"功能；2）通過代理執(zhí)行提升復雜任務處理能力，如字節(jié)、百度等推出的通用Agent產(chǎn)品。國內外廠商路徑差異明顯：國?

?AI應用場景 ?多模態(tài)能力 ?代理執(zhí)行
反壟斷案中，谷歌披露 Gemini 月活達3.5億，日流量為3500萬

Gemini 的月活躍用戶數(shù)為 3.5 億，日流量為 3500 萬。這些數(shù)字對于 Gemini 來說代表著巨大的增長……

?谷歌 ?Gemini ?openai

熱文

3 天
7天

无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

Mini-Gemini:簡單有效的AI框架，增強多模態(tài)視覺語言模型

谷歌ai壟斷？谷歌每月向三星支付“巨額費用”，讓其預裝Gemini

谷歌首推Gemini 2.5 Flash：成本爆降600%

超過ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

薦“血虧，我花3000+元用Claude做游戲，結果還不如去「白嫖」Gemini 2.5……”

迄今最貴！谷歌Gemini 2.5 Pro API定價公布：每百萬輸入tokens超9元

薦多模態(tài)和Agent成為大廠AI的新賽點

薦多模態(tài)和Agent成為大廠AI的新賽點

反壟斷案中，谷歌披露 Gemini 月活達3.5億，日流量為3500萬

熱文

印度將中國電子投資壓股至 10%，且要求“技術轉讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國網(wǎng)購市場動蕩，希音、Temu 率先在美開啟“漲價潮”！

站長商機

Mini-Gemini:簡單有效的AI框架，增強多模態(tài)視覺語言模型

熱文

站長商機

Mini-Gemini:簡單有效的AI框架，增強多模態(tài)視覺語言模型