劃重點(diǎn):
?? Hugging Face 推出 Idefics2,這是一款8B 的開源視覺語言模型,擁有更好的圖像處理和字符識別能力。
?? Idefics2相比前代模型,參數(shù)規(guī)模更小,只有80億的十分之一,并改進(jìn)了光學(xué)字符識別(OCR)功能。
?? 這款模型具有更好的圖像處理能力,支持最高分辨率達(dá)到980x980像素,并且無需調(diào)整圖像比例。
站長之家(ChinaZ.com)4月16日 消息:Hugging Face 首次發(fā)布了其 Idefics 視覺語言模型,該模型于2023年首次亮相,采用了最初由 DeepMind 開發(fā)的技術(shù)。如今,Idefics 迎來了升級,新版本 Idefics2擁有更小的參數(shù)規(guī)模、開放許可證以及改進(jìn)的光學(xué)字符識別(OCR)能力。目前,用戶可以在 Hugging Face 平臺上使用 Idefics2。
Idefics 的全稱是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS,是一款通用的多模態(tài)模型,可以對文本和圖像提示作出響應(yīng)。與前身80億參數(shù)規(guī)模的 Idefics 相比,Idefics2的規(guī)??s小了十倍,僅有80億,與 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相當(dāng)。
除了核心功能外,Idefics2承諾提供更好的圖像處理能力,支持高達(dá)980x980像素和原生長寬比的圖像操作。圖像無需調(diào)整大小以適應(yīng)固定的正方形比例,這在傳統(tǒng)的計(jì)算機(jī)視覺中是常見的操作。
通過整合從圖像或文檔中轉(zhuǎn)錄文本生成的數(shù)據(jù),OCR 能力得到了增強(qiáng)。Hugging Face 團(tuán)隊(duì)還改進(jìn)了 Idefics 對圖表、圖形和文檔問題的回答能力。
,該模型的架構(gòu)經(jīng)過簡化,摒棄了 Idefics1的門控交叉關(guān)注。Hugging Face 在一篇博客文章中指出:“圖像被送入視覺編碼器,然后經(jīng)過學(xué)習(xí)的 Perceiver 池化和 [多層感知器] 模態(tài)投影。然后,將該池化序列與文本嵌入串聯(lián)起來,以獲取圖像和文本的(交錯(cuò)的)序列?!?/p>
Hugging Face 使用了一系列公開可用的數(shù)據(jù)集,特別是 Mistral-7B-v0.1和 siglip-so400m-patch14-384,來訓(xùn)練 Idefics2。此外,還利用了網(wǎng)絡(luò)文檔、圖像標(biāo)題對、OCR 數(shù)據(jù)、渲染文本和圖像到代碼數(shù)據(jù)。
Idefics2的發(fā)布是 AI 繁榮持續(xù)推出的許多多模態(tài)模型之一,包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。
產(chǎn)品入口:https://top.aibase.com/tool/idefics-80b
官方博客:https://huggingface.co/blog/idefics
(舉報(bào))