11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
GPT-4V的開源替代方案在中國的頂尖學(xué)府清華、浙大等的推動下,出現(xiàn)了一系列性能優(yōu)異的開源視覺模型。LLaVA、CogAgent和BakLLaVA是三種備受關(guān)注的開源視覺語言模型。雖然BakLLaVA在訓(xùn)練過程中使用了LLaVA的語料庫,不允許商用,但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構(gòu),超越了當(dāng)前的LLaVA方法,具備商用能力。
智譜AI開源了CogAgent,它是一個視覺語言模型,擁有180億參數(shù)規(guī)模。該模型在GUI理解和導(dǎo)航方面表現(xiàn)出色,在多個基準(zhǔn)測試上取得了SOTA的通用性能。CogAgent還支持OCR相關(guān)任務(wù),通過預(yù)訓(xùn)練和微調(diào),其能力得到了顯著提升。