无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

清華、浙大推GPT-4V開(kāi)源平替！LLaVA、CogAgent等開(kāi)源視覺(jué)模型大爆發(fā)

2024-01-04 09:29 · 稿源：站長(zhǎng)之家

要點(diǎn):
1、清華、浙大等中國(guó)頂尖學(xué)府提供了性能優(yōu)異的GPT-4V開(kāi)源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三種具有極大潛力的開(kāi)源視覺(jué)語(yǔ)言模型。
3、LLaVA在視覺(jué)聊天和推理問(wèn)答方面表現(xiàn)出接近GPT-4水平的能力。

站長(zhǎng)之家（ChinaZ.com）1月4日消息:近期，GPT-4V的開(kāi)源替代方案在中國(guó)的頂尖學(xué)府清華、浙大等的推動(dòng)下，出現(xiàn)了一系列性能優(yōu)異的開(kāi)源視覺(jué)模型。其中，LLaVA、CogAgent和BakLLaVA是三種備受關(guān)注的開(kāi)源視覺(jué)語(yǔ)言模型。

LLaVA是一個(gè)端到端訓(xùn)練的多模態(tài)大模型，它將視覺(jué)編碼器和用于通用視覺(jué)和語(yǔ)言理解的Vicuna相結(jié)合，具備令人印象深刻的聊天能力。而CogAgent是在CogVLM基礎(chǔ)上改進(jìn)的開(kāi)源視覺(jué)語(yǔ)言模型，擁有110億個(gè)視覺(jué)參數(shù)和70億個(gè)語(yǔ)言參數(shù)。

另外，BakLLaVA是使用LLaVA1.5架構(gòu)增強(qiáng)的Mistral7B基礎(chǔ)模型，已經(jīng)在多個(gè)基準(zhǔn)測(cè)試中優(yōu)于LLaVA213B。這三種開(kāi)源視覺(jué)模型在視覺(jué)處理領(lǐng)域具有極大的潛力。

LLaVA在視覺(jué)聊天和推理問(wèn)答方面表現(xiàn)出接近GPT-4水平的能力。在視覺(jué)聊天方面，LLaVA的表現(xiàn)相對(duì)于GPT-4的評(píng)分達(dá)到了85%，在推理問(wèn)答方面更是達(dá)到了92.53%的超過(guò)GPT-4的新SoTA。LLaVA在回答問(wèn)題時(shí)，能夠全面而有邏輯地生成回答，并且可以以JSON格式輸出。

它不僅可以從圖片中提取信息并回答問(wèn)題，還可以將圖片轉(zhuǎn)化為JSON格式。LLaVA還可以識(shí)別驗(yàn)證碼、識(shí)別圖中的物體品種等，展現(xiàn)出了強(qiáng)大的多模態(tài)能力。在性能上接近GPT-4的情況下，LLaVA具有更高的成本效益，訓(xùn)練只需要8個(gè)A100即可在1天內(nèi)完成。

CogAgent作為在CogVLM基礎(chǔ)上改進(jìn)的開(kāi)源視覺(jué)語(yǔ)言模型，擁有更多的功能和性能優(yōu)勢(shì)。它支持更高分辨率的視覺(jué)輸入和對(duì)話答題，能夠處理超高分辨率圖像輸入。

論文地址:https://arxiv.org/pdf/2312.08914.pdf

CogAgent還提供了可視化代理的能力，能夠返回任何給定任務(wù)的計(jì)劃、下一步行動(dòng)和帶有坐標(biāo)的具體操作。它還增強(qiáng)了與圖形用戶界面相關(guān)的問(wèn)題解答功能，可以處理與網(wǎng)頁(yè)、PC應(yīng)用程序、移動(dòng)應(yīng)用程序等任何圖形用戶界面截圖相關(guān)的問(wèn)題。另外，通過(guò)改進(jìn)預(yù)培訓(xùn)和微調(diào)，CogAgent還增強(qiáng)了OCR相關(guān)任務(wù)的能力。這些功能的提升使得CogAgent在多個(gè)基準(zhǔn)測(cè)試上實(shí)現(xiàn)了最先進(jìn)的通用性能。

BakLLaVA是使用LLaVA1.5架構(gòu)增強(qiáng)的Mistral7B基礎(chǔ)模型，具備更好的性能和商用能力。BakLLaVA在多個(gè)基準(zhǔn)測(cè)試中優(yōu)于LLaVA213B，并且可以在某些數(shù)據(jù)上進(jìn)行微調(diào)和推理。雖然BakLLaVA在訓(xùn)練過(guò)程中使用了LLaVA的語(yǔ)料庫(kù)，不允許商用，但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構(gòu)，超越了當(dāng)前的LLaVA方法，具備商用能力。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

GPT

薦“谷歌版MCP”來(lái)了，開(kāi)源A2A，不同廠商Agent也能協(xié)作

“谷歌版MCP”來(lái)了!谷歌推出A2A協(xié)議，即Agent2Agent，能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無(wú)需考慮框架或供應(yīng)商。不同平臺(tái)構(gòu)建的AIAgent之間可以進(jìn)行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開(kāi)展協(xié)作，企業(yè)可通過(guò)專業(yè)Agent團(tuán)隊(duì)處理復(fù)雜工作流。從各大廠最近動(dòng)作來(lái)看，蕪湖，不愧是Agent元年。

?谷歌 ?A2A協(xié)議 ?AI
剛剛，OpenAI開(kāi)源BrowseComp，重塑Agent瀏覽器評(píng)測(cè)

今天凌晨2點(diǎn)，OpenAI開(kāi)源了專門用于智能體瀏覽器功能的測(cè)試基準(zhǔn)——BrowseComp。這個(gè)測(cè)試基準(zhǔn)非常有難度，連OpenAI自己的GPT-4o、GPT-4.5準(zhǔn)確率只有0.6%和0.9%幾乎為0，即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過(guò)使用更多的計(jì)算資源，模型可以嘗試更多的搜索路徑，從提高找到正確答案的概率。

?OpenAI ?智能體 ?測(cè)試基準(zhǔn)
苦等一年 Meta終于放大招正式發(fā)布開(kāi)源大模型Llama 4

美國(guó)科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開(kāi)源AI模型Llama4，恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu)，這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過(guò)程中展現(xiàn)出更高效率，通過(guò)將模型劃分為多個(gè)專注于特定任務(wù)的專家”子模型，實(shí)現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示：他們的目標(biāo)是建立世界領(lǐng)先的人工智能，將其開(kāi)源，并使其普遍可用，以便世界上每個(gè)人都能受益。

?Meta ?Llama ?4
薦AI日?qǐng)?bào)：阿里新模型Qwen3即將來(lái)襲；GitHub開(kāi)源MCP服務(wù)器；Runway發(fā)布Gen-4 Turbo

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、Qwen3即將來(lái)襲:阿里云新模型相關(guān)支持已正式合并至vLLM代碼庫(kù)阿里云的Qwen3模型即將發(fā)布，標(biāo)志著其在AI領(lǐng)域的又一重要進(jìn)展。新推出的AI聽(tīng)歌報(bào)告能夠精準(zhǔn)識(shí)別用戶音樂(lè)偏好，場(chǎng)景

?人工智能 ?阿里云 ?Qwen3
谷歌開(kāi)源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

在GoogleCloudNext25大會(huì)上，谷歌宣布開(kāi)源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol，這一舉措有望徹底改變智能體之間的交互方式，打破系統(tǒng)孤島，對(duì)智能體的能力、跨平臺(tái)協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開(kāi)放標(biāo)準(zhǔn)，旨在為智能體提供一種通用的交互方式，使它們能夠在不同的底層框架和供應(yīng)商之間無(wú)縫協(xié)作。每個(gè)部分都有指定的內(nèi)容類型，這使得客戶端和遠(yuǎn)程智能體能夠協(xié)商所需的正確格式，并且明確包括用戶界面能力的協(xié)商，比如iframe、視頻、網(wǎng)絡(luò)表單等，從根據(jù)用戶的需求和設(shè)備的能力，提供最佳的用戶體驗(yàn)。

?Agent2Agent ?Protocol ?智能體交互
薦對(duì)標(biāo)OpenAI，谷歌開(kāi)源Agent SDK，支持MCP、A2A、5000星

谷歌在GoogleCloudNext25大會(huì)上，開(kāi)源了首個(gè)Agent開(kāi)發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標(biāo)準(zhǔn)化智能體SDK。谷歌剛開(kāi)源ADK幾天在Github已經(jīng)超過(guò)5000顆星，非常受開(kāi)發(fā)者的歡迎。

?Google ?Cloud ?Next
Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開(kāi)源

被寄予厚望的美國(guó)Meta公司的最新開(kāi)源大模型Llama4發(fā)布不到2天時(shí)間，口碑急轉(zhuǎn)直下，被質(zhì)疑為刷榜作弊實(shí)際效果差、開(kāi)源條件多部署門檻高是偽開(kāi)源等。大模型評(píng)測(cè)平臺(tái)LMArena親自下場(chǎng)發(fā)文，打臉Meta提供給平臺(tái)的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開(kāi)放之間搖擺，恐將在AI競(jìng)賽中進(jìn)一步失去開(kāi)發(fā)者支持。

?Meta ?Llama ?4
不會(huì)使用gpt-4o生圖？國(guó)內(nèi)平替來(lái)啦（僅限海報(bào)制作）

最近gpt-4o的風(fēng)吹得特別的大，生圖功能讓一大批設(shè)計(jì)師紛紛直呼要失業(yè)了。大家夸得那么玄乎，小編不僅也心癢癢的想去試試。那還不快用起來(lái)，快到秒出設(shè)計(jì)官網(wǎng)使用吧！

?GPT-4 ?AI設(shè)計(jì)工具 ?智能生成海報(bào)
薦AI Agent大變天！谷歌開(kāi)源A2A，一夜改變智能體交互

谷歌在GoogleCloudNext25大會(huì)上，開(kāi)源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島，對(duì)智能體的能力、跨平臺(tái)、執(zhí)行效率產(chǎn)生質(zhì)的改變，支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應(yīng)用平臺(tái)。通過(guò)A2A協(xié)議，MongoDB可以使其數(shù)據(jù)庫(kù)服務(wù)與智能Agent相結(jié)合，實(shí)現(xiàn)更高效的數(shù)據(jù)管理和自動(dòng)化數(shù)據(jù)處理。

?谷歌
薦生成很強(qiáng)，推理很弱：GPT-4o的視覺(jué)短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎(chǔ)邏輯測(cè)試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫一只貓時(shí)，它先畫了狗然后改為貓，但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”，需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

?AI畫圖 ?GPT-4o ?圖像理解

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM