无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<center id="11rms"></center>

<form id="11rms"><dfn id="11rms"></dfn></form>

昆侖萬維宣布開源2千億稀疏大模型Skywork-MoE 性能強(qiáng)勁成本更低

2024-06-04 13:56 · 稿源：站長之家

站長之家（ChinaZ.com）6月4日消息:在大模型技術(shù)迅速發(fā)展的背景下，昆侖萬維公司開源了一個(gè)具有里程碑意義的稀疏大型語言模型Skywork-MoE。這個(gè)模型不僅在性能上表現(xiàn)出色，而且還大幅降低了推理成本，為應(yīng)對大規(guī)模密集型LLM帶來的挑戰(zhàn)提供了有效的解決方案。

Skywork-MoE模型特點(diǎn):

開源和免費(fèi)商用:Skywork-MoE的模型權(quán)重、技術(shù)報(bào)告完全開源，且免費(fèi)商用，無需申請。
推理成本降低:該模型在保持性能強(qiáng)勁的同時(shí)，大幅降低了推理成本。
稀疏模型:Skywork-MoE是一個(gè)專家混合模型（MoE），通過將計(jì)算分配給專門的子模型或“專家”，提供了一種經(jīng)濟(jì)上更可行的替代方案。
支持單臺4090服務(wù)器推理:是首個(gè)支持用單臺4090服務(wù)器推理的開源千億MoE大模型。

技術(shù)細(xì)節(jié):

模型權(quán)重和開源倉庫:模型權(quán)重可在Hugging Face上下載，開源倉庫位于GitHub。
推理代碼:提供了支持8x4090服務(wù)器上8bit量化加載推理的代碼。
性能:在8x4090服務(wù)器上，使用昆侖萬維團(tuán)隊(duì)首創(chuàng)的非均勻Tensor Parallel并行推理方式，Skywork-MoE可以達(dá)到2200tokens/s的吞吐量。

模型性能和技術(shù)創(chuàng)新:

參數(shù)量:Skywork-MoE的總參數(shù)量為146B，激活參數(shù)量22B，共有16個(gè)Expert，每個(gè)Expert大小為13B。
性能對比:在相同的激活參數(shù)量下，Skywork-MoE的能力在行業(yè)前列，接近70B的Dense模型，推理成本有近3倍的下降。
訓(xùn)練優(yōu)化算法:Skywork-MoE設(shè)計(jì)了兩種訓(xùn)練優(yōu)化算法，包括Gating Logits歸一化操作和自適應(yīng)的Aux Loss，以解決MoE模型訓(xùn)練困難和泛化性能差的問題。

大規(guī)模分布式訓(xùn)練:

Expert Data Parallel:提出了一種新的并行設(shè)計(jì)方案，可以在Expert數(shù)量較小時(shí)高效地切分模型。
非均勻切分流水并行:提出了非均勻的流水并行切分和重計(jì)算Layer分配方式，使得計(jì)算/顯存負(fù)載更均衡。

實(shí)驗(yàn)和經(jīng)驗(yàn)規(guī)則:

Scaling Law實(shí)驗(yàn):探究了影響Upcycling和From Scratch訓(xùn)練MoE模型好壞的約束。

訓(xùn)練經(jīng)驗(yàn)規(guī)則:如果訓(xùn)練MoE模型的FLOPs是訓(xùn)練Dense模型的2倍以上，則選擇From Scratch訓(xùn)練MoE更好;否則，選擇Upcycling訓(xùn)練MoE可以減少訓(xùn)練成本。

Skywork-MoE的開源為大模型社區(qū)帶來了一個(gè)強(qiáng)大的新工具，有助于推動人工智能領(lǐng)域的發(fā)展，特別是在需要處理大規(guī)模數(shù)據(jù)和計(jì)算資源受限的場景中。

項(xiàng)目頁：https://top.aibase.com/tool/skywork-moe

模型下載地址:https://huggingface.co/Skywork/Skywork-MoE-Base

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦AI日報(bào)：昆侖萬維開源Skywork-OR1系列模型；訊飛星辰Agent開發(fā)平臺全面支持MCP；字節(jié)跳動布局AI智能眼鏡

歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、Kimi開源視覺語言模型 Kimi-VL 與 Kimi-VL-Thinking，多項(xiàng)基準(zhǔn)超越 GPT-4oMoonshot AI 最近開源了 Kimi-VL 和 Kimi-VL-Thinking 兩款視覺語言模型，展現(xiàn)出卓越的多模態(tài)理解與推理能力。這些模型采

?人工智能 ?視覺語言模型 ?Kimi-VL
薦AI日報(bào)：昆侖萬維開源SkyReels-V2；訊飛星火X1全新升級；扣子空間Coze Space內(nèi)測

本文介紹了多個(gè)前沿的人工智能產(chǎn)品和技術(shù)動態(tài)，包括SkyReels-V2視頻生成模型、訊飛星火大模型升級、宇樹科技人形機(jī)器人比賽計(jì)劃、Coze Space AI協(xié)作平臺、Gemma3 QAT優(yōu)化模型、英特爾AI Playground工具、Reachy2人形機(jī)器人發(fā)布、ChatTS-14B語音研究項(xiàng)目、Figma推出AI設(shè)計(jì)工具以及MarkItDown MCP文檔轉(zhuǎn)換工具，展示了AI技術(shù)在多領(lǐng)域的廣泛應(yīng)用與創(chuàng)新發(fā)展?jié)摿Α?/p>

?人工智能 ?電影生成模型 ?技術(shù)趨勢
薦1000萬上下文！新開源多模態(tài)大模型，單個(gè)GPU就能運(yùn)行

今年2月初，谷歌發(fā)布的Gemini2.0Pro支持200萬上下文，震驚了整個(gè)大模型領(lǐng)域。僅過了2個(gè)月，Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬，整整提升了5倍開啟千萬級時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示，Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

?Gemini2.0Pro ?Llama4Scout ?上下文擴(kuò)展
薦剛剛，商湯發(fā)布第六代大模型：6000億參數(shù)多模態(tài)MoE，中長視頻直接可推理

現(xiàn)在的國產(chǎn)AI應(yīng)用，一口氣看好幾分鐘的視頻，都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段，AI就搖身一變成“名偵探”做剖析:它會對整個(gè)視頻的內(nèi)容先做一個(gè)總結(jié)，再按照秒級，對視頻片段做內(nèi)容上的推演。商湯科技聯(lián)合創(chuàng)始人楊帆認(rèn)為:銀河通用合伙人、大模型負(fù)責(zé)人張直政表示:除此之外，上海交通大學(xué)副教授閆維新對這個(gè)問題的看法是:總言之，商湯作為國?

?國產(chǎn)AI ?視頻解析 ?智能剪輯
合合信息發(fā)布“大模型加速器 2.0”，助力大模型跨越“幻覺”障礙

近日，上海合合信息科技股份有限公司（簡稱“合合信息”）TextIn“大模型加速器 2.0”版本正式上線，憑借其多維度升級，為降低大模型“幻覺”風(fēng)險(xiǎn)、推動大模型精準(zhǔn)應(yīng)用提供了強(qiáng)大助力。訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵，合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù)，從數(shù)據(jù)源頭入手，對復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理，

?大模型加速器 ?合合信息 ?智能文檔處理
提升大模型自動修Bug能力豆包正式開源首個(gè)多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團(tuán)隊(duì)宣布，正式開源首個(gè)多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語言開發(fā)場景，也更能反映當(dāng)前模型在自動化軟件工程”方向上的實(shí)際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復(fù)
阿丘科技李嘉悅：大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

3月28日，由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會現(xiàn)場，圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題，發(fā)表了精彩演講?！苯衲辏谶@個(gè)快速變化的時(shí)代，我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革，不會用大模型的將會被善用大模型的人淘汰。

?機(jī)器視覺 ?AI檢測 ?工業(yè)應(yīng)用
字節(jié)AI加速文生圖技術(shù)新突破，GOOG/微美全息引領(lǐng)開源大模型釋放科技勢能

字節(jié)跳動發(fā)布豆包1.5深度思考模型，升級文生圖能力。該模型在專業(yè)領(lǐng)域和通用任務(wù)中表現(xiàn)突出，采用MoE架構(gòu)，總參數(shù)量200B，激活參數(shù)20B，推理成本優(yōu)勢顯著。同時(shí)，其圖像生成模型Seedream 3.0性能追平GPT-4o等頂尖模型。全球AI產(chǎn)業(yè)加速發(fā)展，開源模型降低技術(shù)門檻，推動商業(yè)化落地。微美全息等企業(yè)構(gòu)建開放AI生態(tài)，DeepSeek等公司通過開源策略促進(jìn)技術(shù)普惠。行業(yè)迎來"開源AI+"新階段，企業(yè)需把握機(jī)遇應(yīng)對挑戰(zhàn)。

?字節(jié)跳動 ?豆包1.5 ?文生圖模型
DeepSeek領(lǐng)航大模型普惠化浪潮，xAI/微美全息加速開源AI布局打造新格局

DeepSeek 作為當(dāng)前最受關(guān)注的大模型之一，憑借其技術(shù)創(chuàng)新正在加速 AI 普惠化進(jìn)程。根據(jù)機(jī)構(gòu)新報(bào)告顯示，DeepSeek已經(jīng)成為全球增長最快的AI工具，其每月新增網(wǎng)站訪問量已經(jīng)超過OpenAI的ChatGPT。DeepSeek市場份額全球第三目前，DeepSeek市場份額6.58%，僅次于ChatGPT和Canva。DeepSeek是繼ChatGPT之后的又一現(xiàn)象級AI產(chǎn)品，它的市場份額從2.34%快速增長至6.58%，展現(xiàn)出強(qiáng)勁的增長態(tài)勢。全球著名?

?DeepSeek ?AI工具 ?技術(shù)創(chuàng)新
苦等一年 Meta終于放大招正式發(fā)布開源大模型Llama 4

美國科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開源AI模型Llama4，恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu)，這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率，通過將模型劃分為多個(gè)專注于特定任務(wù)的專家”子模型，實(shí)現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示：他們的目標(biāo)是建立世界領(lǐng)先的人工智能，將其開源，并使其普遍可用，以便世界上每個(gè)人都能受益。

?Meta ?Llama ?4

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<center id="shsif"></center>

<center id="shsif"><s id="shsif"><tfoot id="shsif"></tfoot></s></center>

<menuitem id="shsif"></menuitem>

<center id="shsif"><progress id="shsif"></progress></center>