无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > Idefics2最新資訊  > 正文

    更小更強(qiáng)大!Hugging Face發(fā)布8B開源視覺語言模型Idefics2

    2024-04-16 16:28 · 稿源:站長之家

    劃重點(diǎn):

    ?? Hugging Face 推出 Idefics2,這是一款8B 的開源視覺語言模型,擁有更好的圖像處理和字符識別能力。

    ?? Idefics2相比前代模型,參數(shù)規(guī)模更小,只有80億的十分之一,并改進(jìn)了光學(xué)字符識別(OCR)功能。

    ?? 這款模型具有更好的圖像處理能力,支持最高分辨率達(dá)到980x980像素,并且無需調(diào)整圖像比例。

    站長之家(ChinaZ.com)4月16日 消息:Hugging Face 首次發(fā)布了其 Idefics 視覺語言模型,該模型于2023年首次亮相,采用了最初由 DeepMind 開發(fā)的技術(shù)。如今,Idefics 迎來了升級,新版本 Idefics2擁有更小的參數(shù)規(guī)模、開放許可證以及改進(jìn)的光學(xué)字符識別(OCR)能力。目前,用戶可以在 Hugging Face 平臺上使用 Idefics2。

    image.png

    Idefics 的全稱是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS,是一款通用的多模態(tài)模型,可以對文本和圖像提示作出響應(yīng)。與前身80億參數(shù)規(guī)模的 Idefics 相比,Idefics2的規(guī)??s小了十倍,僅有80億,與 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相當(dāng)。

    除了核心功能外,Idefics2承諾提供更好的圖像處理能力,支持高達(dá)980x980像素和原生長寬比的圖像操作。圖像無需調(diào)整大小以適應(yīng)固定的正方形比例,這在傳統(tǒng)的計(jì)算機(jī)視覺中是常見的操作。

    通過整合從圖像或文檔中轉(zhuǎn)錄文本生成的數(shù)據(jù),OCR 能力得到了增強(qiáng)。Hugging Face 團(tuán)隊(duì)還改進(jìn)了 Idefics 對圖表、圖形和文檔問題的回答能力。

    image.png

    ,該模型的架構(gòu)經(jīng)過簡化,摒棄了 Idefics1的門控交叉關(guān)注。Hugging Face 在一篇博客文章中指出:“圖像被送入視覺編碼器,然后經(jīng)過學(xué)習(xí)的 Perceiver 池化和 [多層感知器] 模態(tài)投影。然后,將該池化序列與文本嵌入串聯(lián)起來,以獲取圖像和文本的(交錯(cuò)的)序列?!?/p>

    Hugging Face 使用了一系列公開可用的數(shù)據(jù)集,特別是 Mistral-7B-v0.1和 siglip-so400m-patch14-384,來訓(xùn)練 Idefics2。此外,還利用了網(wǎng)絡(luò)文檔、圖像標(biāo)題對、OCR 數(shù)據(jù)、渲染文本和圖像到代碼數(shù)據(jù)。

    Idefics2的發(fā)布是 AI 繁榮持續(xù)推出的許多多模態(tài)模型之一,包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。

    產(chǎn)品入口:https://top.aibase.com/tool/idefics-80b

    官方博客:https://huggingface.co/blog/idefics

    舉報(bào)

    • 相關(guān)推薦
    • 時(shí)空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實(shí)現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • DeepSeek上新!開源發(fā)布DeepSeek-Prover-V2-671B模型

      快科技4月30日消息,今日,DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹,DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多種計(jì)算精度,方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時(shí)支持超長上下文,最大位置嵌入達(dá)163840,使其能處理復(fù)雜的數(shù)學(xué)證明,并且采用了FP8量化,可通過量化技術(shù)減小模型大小,提

    • 提升大模型自動修Bug能力 豆包正式開源首個(gè)多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團(tuán)隊(duì)宣布,正式開源首個(gè)多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實(shí)際能力邊界。

    • 媲美OpenAI-o3,剛剛開源模型DeepCoder,訓(xùn)練方法、數(shù)據(jù)集大公開

      今天凌晨4點(diǎn),著名大模型訓(xùn)練平臺TogetherAI和智能體平臺Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù),但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。

    • AI日報(bào):智譜開源32B/9B系列GLM模型并啟用Z.ai域名;OpenAI發(fā)布GPT-4.1系列模型;阿里魔搭上線MCP廣場

      歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術(shù)團(tuán)隊(duì)近期宣布開源32B和9B系列的GLM模型,并推出全新交互體驗(yàn)平臺Z.ai。這些模型遵循MIT許可協(xié)議,支持商業(yè)用途,提升了

    • 奧特曼:ChatGPT不是AGI!OpenAI最強(qiáng)開源模型直擊DeepSeek

      【新智元導(dǎo)讀】代碼截圖泄露,滿血版o3、o4-mini鎖定下周!更勁爆的是,一款據(jù)稱是OpenAI的神秘模型一夜爆紅,每日處理高達(dá)260億token,是Claude用量4倍。奧特曼在TED放話:將推超強(qiáng)開源模型,直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活,未來一代人將會覺得當(dāng)前人們又辛苦又落后。

    • AI日報(bào):阿里新模型Qwen3即將來襲;GitHub開源MCP服務(wù)器;Runway發(fā)布Gen-4 Turbo

      歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、Qwen3即將來襲:阿里云新模型相關(guān)支持已正式合并至vLLM代碼庫阿里云的Qwen3模型即將發(fā)布,標(biāo)志著其在AI領(lǐng)域的又一重要進(jìn)展。新推出的AI聽歌報(bào)告能夠精準(zhǔn)識別用戶音樂偏好,場景

    • IQ 過百的 AI 模型名單發(fā)布ChatGPT、Deepseek等上榜

      人工智能IQ哪家強(qiáng)?o3 智商高達(dá) 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

    • 不要思考過程,推理模型能力能夠更強(qiáng)

      UC伯克利和艾倫實(shí)驗(yàn)室的最新研究表明,推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案,跳過了傳統(tǒng)推理模型中的顯性思考步驟。實(shí)驗(yàn)證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異,尤其在資源受限時(shí)優(yōu)勢更明顯。研究還發(fā)現(xiàn),結(jié)合并行計(jì)算擴(kuò)展后,NoThinking能進(jìn)一步提升性能,在保持準(zhǔn)確性的同時(shí)顯著降低延遲和計(jì)算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過程"的傳統(tǒng)認(rèn)知。

    • 剛剛,OpenAI發(fā)布GPT-image-1模型,更強(qiáng)吉卜力版本來啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù),并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開發(fā)者可通過API實(shí)現(xiàn)更多創(chuàng)意場景。新模型在?