无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<source id="nqdtc"></source>

更小更強(qiáng)大！Hugging Face發(fā)布8B開源視覺語言模型Idefics2

2024-04-16 16:28 · 稿源：站長之家

劃重點(diǎn):
?? Hugging Face 推出 Idefics2，這是一款8B 的開源視覺語言模型，擁有更好的圖像處理和字符識別能力。
?? Idefics2相比前代模型，參數(shù)規(guī)模更小，只有80億的十分之一，并改進(jìn)了光學(xué)字符識別（OCR）功能。
?? 這款模型具有更好的圖像處理能力，支持最高分辨率達(dá)到980x980像素，并且無需調(diào)整圖像比例。

站長之家（ChinaZ.com）4月16日消息:Hugging Face 首次發(fā)布了其 Idefics 視覺語言模型，該模型于2023年首次亮相，采用了最初由 DeepMind 開發(fā)的技術(shù)。如今，Idefics 迎來了升級，新版本 Idefics2擁有更小的參數(shù)規(guī)模、開放許可證以及改進(jìn)的光學(xué)字符識別（OCR）能力。目前，用戶可以在 Hugging Face 平臺上使用 Idefics2。

Idefics 的全稱是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS，是一款通用的多模態(tài)模型，可以對文本和圖像提示作出響應(yīng)。與前身80億參數(shù)規(guī)模的 Idefics 相比，Idefics2的規(guī)?？s小了十倍，僅有80億，與 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相當(dāng)。

除了核心功能外，Idefics2承諾提供更好的圖像處理能力，支持高達(dá)980x980像素和原生長寬比的圖像操作。圖像無需調(diào)整大小以適應(yīng)固定的正方形比例，這在傳統(tǒng)的計(jì)算機(jī)視覺中是常見的操作。

通過整合從圖像或文檔中轉(zhuǎn)錄文本生成的數(shù)據(jù)，OCR 能力得到了增強(qiáng)。Hugging Face 團(tuán)隊(duì)還改進(jìn)了 Idefics 對圖表、圖形和文檔問題的回答能力。

，該模型的架構(gòu)經(jīng)過簡化，摒棄了 Idefics1的門控交叉關(guān)注。Hugging Face 在一篇博客文章中指出:“圖像被送入視覺編碼器，然后經(jīng)過學(xué)習(xí)的 Perceiver 池化和 [多層感知器] 模態(tài)投影。然后，將該池化序列與文本嵌入串聯(lián)起來，以獲取圖像和文本的（交錯(cuò)的）序列?！?/p>

Hugging Face 使用了一系列公開可用的數(shù)據(jù)集，特別是 Mistral-7B-v0.1和 siglip-so400m-patch14-384，來訓(xùn)練 Idefics2。此外，還利用了網(wǎng)絡(luò)文檔、圖像標(biāo)題對、OCR 數(shù)據(jù)、渲染文本和圖像到代碼數(shù)據(jù)。

Idefics2的發(fā)布是 AI 繁榮持續(xù)推出的許多多模態(tài)模型之一，包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。

產(chǎn)品入口：https://top.aibase.com/tool/idefics-80b

官方博客：https://huggingface.co/blog/idefics

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

時(shí)空壺接入大語言模型，跨語言溝通已成翻譯的藝術(shù)

在當(dāng)今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判，到文化交流中的思想碰撞，高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代，時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革，推動全球交流合作邁向新的高度，真正實(shí)現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設(shè)備
DeepSeek上新！開源發(fā)布DeepSeek-Prover-V2-671B新模型

快科技4月30日消息，今日，DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹，DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億，使用了更高效的 safetensors 文件格式，并支持 BF16、FP8、F32 等多種計(jì)算精度，方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上，該模型使用了DeepSeek-V3架構(gòu)，采用MoE（混合專家）模式，具有61層Transformer層，7168維隱藏層。同時(shí)支持超長上下文，最大位置嵌入達(dá)163840，使其能處理復(fù)雜的數(shù)學(xué)證明，并且采用了FP8量化，可通過量化技術(shù)減小模型大小，提

?DeepSeek ?AI模型發(fā)布 ?開源社區(qū)
提升大模型自動修Bug能力豆包正式開源首個(gè)多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團(tuán)隊(duì)宣布，正式開源首個(gè)多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語言開發(fā)場景，也更能反映當(dāng)前模型在自動化軟件工程”方向上的實(shí)際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復(fù)
薦媲美OpenAI-o3，剛剛開源模型DeepCoder，訓(xùn)練方法、數(shù)據(jù)集大公開

今天凌晨4點(diǎn)，著名大模型訓(xùn)練平臺TogetherAI和智能體平臺Agentica，聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù)，但在知名代碼測試平臺LiveCodeBench的測試分為60.6%，高于OpenAI的o1模型，略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資，其估值也從去年的12.5億美元翻倍至33億美元。

?大模型 ?深度學(xué)習(xí) ?開源模型
薦AI日報(bào)：智譜開源32B/9B系列GLM模型并啟用Z.ai域名；OpenAI發(fā)布GPT-4.1系列模型；阿里魔搭上線MCP廣場

歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術(shù)團(tuán)隊(duì)近期宣布開源32B和9B系列的GLM模型，并推出全新交互體驗(yàn)平臺Z.ai。這些模型遵循MIT許可協(xié)議，支持商業(yè)用途，提升了

?人工智能 ?開源模型 ?GLM模型
奧特曼：ChatGPT不是AGI！OpenAI最強(qiáng)開源模型直擊DeepSeek

【新智元導(dǎo)讀】代碼截圖泄露，滿血版o3、o4-mini鎖定下周!更勁爆的是，一款據(jù)稱是OpenAI的神秘模型一夜爆紅，每日處理高達(dá)260億token，是Claude用量4倍。奧特曼在TED放話:將推超強(qiáng)開源模型，直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活，未來一代人將會覺得當(dāng)前人們又辛苦又落后。

?代碼泄露 ?OpenAI ?模型發(fā)布
薦AI日報(bào)：阿里新模型Qwen3即將來襲；GitHub開源MCP服務(wù)器；Runway發(fā)布Gen-4 Turbo

歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、Qwen3即將來襲:阿里云新模型相關(guān)支持已正式合并至vLLM代碼庫阿里云的Qwen3模型即將發(fā)布，標(biāo)志著其在AI領(lǐng)域的又一重要進(jìn)展。新推出的AI聽歌報(bào)告能夠精準(zhǔn)識別用戶音樂偏好，場景

?人工智能 ?阿里云 ?Qwen3
IQ 過百的 AI 模型名單發(fā)布：ChatGPT、Deepseek等上榜

人工智能IQ哪家強(qiáng)？o3 智商高達(dá) 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

?AI智商 ?ChatGPT ?Deepseek
薦不要思考過程，推理模型能力能夠更強(qiáng)

UC伯克利和艾倫實(shí)驗(yàn)室的最新研究表明，推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案，跳過了傳統(tǒng)推理模型中的顯性思考步驟。實(shí)驗(yàn)證明，在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下，NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式，能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異，尤其在資源受限時(shí)優(yōu)勢更明顯。研究還發(fā)現(xiàn)，結(jié)合并行計(jì)算擴(kuò)展后，NoThinking能進(jìn)一步提升性能，在保持準(zhǔn)確性的同時(shí)顯著降低延遲和計(jì)算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過程"的傳統(tǒng)認(rèn)知。

?推理模型 ?無思考方法 ?解決方案
薦剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦

OpenAI發(fā)布全新圖像生成模型GPT-image-1，通過API向全球開發(fā)者開放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù)，并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級功能，圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著，開發(fā)者可通過API實(shí)現(xiàn)更多創(chuàng)意場景。新模型在?

?OpenAI ?GPT-image-1 ?圖像生成

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<input id="i21ib"></input>