无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > GPT最新資訊  > 正文

    清華、浙大推GPT-4V開(kāi)源平替!LLaVA、CogAgent等開(kāi)源視覺(jué)模型大爆發(fā)

    2024-01-04 09:29 · 稿源:站長(zhǎng)之家

    要點(diǎn):

    1、清華、浙大等中國(guó)頂尖學(xué)府提供了性能優(yōu)異的GPT-4V開(kāi)源替代方案。

    2、LLaVA、CogAgent和BakLLaVA是三種具有極大潛力的開(kāi)源視覺(jué)語(yǔ)言模型。

    3、LLaVA在視覺(jué)聊天和推理問(wèn)答方面表現(xiàn)出接近GPT-4水平的能力。

    站長(zhǎng)之家(ChinaZ.com)1月4日 消息:近期,GPT-4V的開(kāi)源替代方案在中國(guó)的頂尖學(xué)府清華、浙大等的推動(dòng)下,出現(xiàn)了一系列性能優(yōu)異的開(kāi)源視覺(jué)模型。其中,LLaVA、CogAgent和BakLLaVA是三種備受關(guān)注的開(kāi)源視覺(jué)語(yǔ)言模型。

    LLaVA是一個(gè)端到端訓(xùn)練的多模態(tài)大模型,它將視覺(jué)編碼器和用于通用視覺(jué)和語(yǔ)言理解的Vicuna相結(jié)合,具備令人印象深刻的聊天能力。而CogAgent是在CogVLM基礎(chǔ)上改進(jìn)的開(kāi)源視覺(jué)語(yǔ)言模型,擁有110億個(gè)視覺(jué)參數(shù)和70億個(gè)語(yǔ)言參數(shù)。

    另外,BakLLaVA是使用LLaVA1.5架構(gòu)增強(qiáng)的Mistral7B基礎(chǔ)模型,已經(jīng)在多個(gè)基準(zhǔn)測(cè)試中優(yōu)于LLaVA213B。這三種開(kāi)源視覺(jué)模型在視覺(jué)處理領(lǐng)域具有極大的潛力。

    LLaVA在視覺(jué)聊天和推理問(wèn)答方面表現(xiàn)出接近GPT-4水平的能力。在視覺(jué)聊天方面,LLaVA的表現(xiàn)相對(duì)于GPT-4的評(píng)分達(dá)到了85%,在推理問(wèn)答方面更是達(dá)到了92.53%的超過(guò)GPT-4的新SoTA。LLaVA在回答問(wèn)題時(shí),能夠全面而有邏輯地生成回答,并且可以以JSON格式輸出。

    它不僅可以從圖片中提取信息并回答問(wèn)題,還可以將圖片轉(zhuǎn)化為JSON格式。LLaVA還可以識(shí)別驗(yàn)證碼、識(shí)別圖中的物體品種等,展現(xiàn)出了強(qiáng)大的多模態(tài)能力。在性能上接近GPT-4的情況下,LLaVA具有更高的成本效益,訓(xùn)練只需要8個(gè)A100即可在1天內(nèi)完成。

    CogAgent作為在CogVLM基礎(chǔ)上改進(jìn)的開(kāi)源視覺(jué)語(yǔ)言模型,擁有更多的功能和性能優(yōu)勢(shì)。它支持更高分辨率的視覺(jué)輸入和對(duì)話答題,能夠處理超高分辨率圖像輸入。

    image.png

    論文地址:https://arxiv.org/pdf/2312.08914.pdf

    CogAgent還提供了可視化代理的能力,能夠返回任何給定任務(wù)的計(jì)劃、下一步行動(dòng)和帶有坐標(biāo)的具體操作。它還增強(qiáng)了與圖形用戶界面相關(guān)的問(wèn)題解答功能,可以處理與網(wǎng)頁(yè)、PC應(yīng)用程序、移動(dòng)應(yīng)用程序等任何圖形用戶界面截圖相關(guān)的問(wèn)題。另外,通過(guò)改進(jìn)預(yù)培訓(xùn)和微調(diào),CogAgent還增強(qiáng)了OCR相關(guān)任務(wù)的能力。這些功能的提升使得CogAgent在多個(gè)基準(zhǔn)測(cè)試上實(shí)現(xiàn)了最先進(jìn)的通用性能。

    BakLLaVA是使用LLaVA1.5架構(gòu)增強(qiáng)的Mistral7B基礎(chǔ)模型,具備更好的性能和商用能力。BakLLaVA在多個(gè)基準(zhǔn)測(cè)試中優(yōu)于LLaVA213B,并且可以在某些數(shù)據(jù)上進(jìn)行微調(diào)和推理。雖然BakLLaVA在訓(xùn)練過(guò)程中使用了LLaVA的語(yǔ)料庫(kù),不允許商用,但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構(gòu),超越了當(dāng)前的LLaVA方法,具備商用能力。

    舉報(bào)

    • 相關(guān)推薦
    • “谷歌版MCP”來(lái)了,開(kāi)源A2A,不同廠商Agent也能協(xié)作

      “谷歌版MCP”來(lái)了!谷歌推出A2A協(xié)議,即Agent2Agent,能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無(wú)需考慮框架或供應(yīng)商。不同平臺(tái)構(gòu)建的AIAgent之間可以進(jìn)行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開(kāi)展協(xié)作,企業(yè)可通過(guò)專業(yè)Agent團(tuán)隊(duì)處理復(fù)雜工作流。從各大廠最近動(dòng)作來(lái)看,蕪湖,不愧是Agent元年。

    • 剛剛,OpenAI開(kāi)源BrowseComp,重塑Agent瀏覽器評(píng)測(cè)

      今天凌晨2點(diǎn),OpenAI開(kāi)源了專門用于智能體瀏覽器功能的測(cè)試基準(zhǔn)——BrowseComp。這個(gè)測(cè)試基準(zhǔn)非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準(zhǔn)確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過(guò)使用更多的計(jì)算資源,模型可以嘗試更多的搜索路徑,從提高找到正確答案的概率。

    • 苦等一年 Meta終于放大招 正式發(fā)布開(kāi)源大模型Llama 4

      美國(guó)科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開(kāi)源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu),這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過(guò)程中展現(xiàn)出更高效率,通過(guò)將模型劃分為多個(gè)專注于特定任務(wù)的專家”子模型,實(shí)現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標(biāo)是建立世界領(lǐng)先的人工智能,將其開(kāi)源,并使其普遍可用,以便世界上每個(gè)人都能受益。

    • AI日?qǐng)?bào):阿里新模型Qwen3即將來(lái)襲;GitHub開(kāi)源MCP服務(wù)器;Runway發(fā)布Gen-4 Turbo

      歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、Qwen3即將來(lái)襲:阿里云新模型相關(guān)支持已正式合并至vLLM代碼庫(kù)阿里云的Qwen3模型即將發(fā)布,標(biāo)志著其在AI領(lǐng)域的又一重要進(jìn)展。新推出的AI聽(tīng)歌報(bào)告能夠精準(zhǔn)識(shí)別用戶音樂(lè)偏好,場(chǎng)景

    • 谷歌開(kāi)源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

      在GoogleCloudNext25大會(huì)上,谷歌宣布開(kāi)源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol,這一舉措有望徹底改變智能體之間的交互方式,打破系統(tǒng)孤島,對(duì)智能體的能力、跨平臺(tái)協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開(kāi)放標(biāo)準(zhǔn),旨在為智能體提供一種通用的交互方式,使它們能夠在不同的底層框架和供應(yīng)商之間無(wú)縫協(xié)作。每個(gè)部分都有指定的內(nèi)容類型,這使得客戶端和遠(yuǎn)程智能體能夠協(xié)商所需的正確格式,并且明確包括用戶界面能力的協(xié)商,比如iframe、視頻、網(wǎng)絡(luò)表單等,從根據(jù)用戶的需求和設(shè)備的能力,提供最佳的用戶體驗(yàn)。

    • 對(duì)標(biāo)OpenAI,谷歌開(kāi)源Agent SDK,支持MCP、A2A、5000星

      谷歌在GoogleCloudNext25大會(huì)上,開(kāi)源了首個(gè)Agent開(kāi)發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標(biāo)準(zhǔn)化智能體SDK。谷歌剛開(kāi)源ADK幾天在Github已經(jīng)超過(guò)5000顆星,非常受開(kāi)發(fā)者的歡迎。

    • Llama 4模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開(kāi)源

      被寄予厚望的美國(guó)Meta公司的最新開(kāi)源大模型Llama4發(fā)布不到2天時(shí)間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實(shí)際效果差、開(kāi)源條件多部署門檻高是偽開(kāi)源等。大模型評(píng)測(cè)平臺(tái)LMArena親自下場(chǎng)發(fā)文,打臉Meta提供給平臺(tái)的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開(kāi)放之間搖擺,恐將在AI競(jìng)賽中進(jìn)一步失去開(kāi)發(fā)者支持。

    • 不會(huì)使用gpt-4o生圖?國(guó)內(nèi)平替來(lái)啦(僅限海報(bào)制作)

      最近gpt-4o的風(fēng)吹得特別的大,生圖功能讓一大批設(shè)計(jì)師紛紛直呼要失業(yè)了。大家夸得那么玄乎,小編不僅也心癢癢的想去試試。那還不快用起來(lái),快到秒出設(shè)計(jì)官網(wǎng)使用吧!

    • AI Agent大變天!谷歌開(kāi)源A2A,一夜改變智能體交互

      谷歌在GoogleCloudNext25大會(huì)上,開(kāi)源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島,對(duì)智能體的能力、跨平臺(tái)、執(zhí)行效率產(chǎn)生質(zhì)的改變,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應(yīng)用平臺(tái)。通過(guò)A2A協(xié)議,MongoDB可以使其數(shù)據(jù)庫(kù)服務(wù)與智能Agent相結(jié)合,實(shí)現(xiàn)更高效的數(shù)據(jù)管理和自動(dòng)化數(shù)據(jù)處理。

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺(jué)短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測(cè)試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時(shí),它先畫了狗然后改為貓,但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。