无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > 天工MoE最新資訊  > 正文

    昆侖萬維宣布開源2千億稀疏大模型Skywork-MoE 性能強(qiáng)勁成本更低

    2024-06-04 13:56 · 稿源:站長之家

    站長之家(ChinaZ.com)6月4日 消息:在大模型技術(shù)迅速發(fā)展的背景下,昆侖萬維公司開源了一個(gè)具有里程碑意義的稀疏大型語言模型Skywork-MoE。這個(gè)模型不僅在性能上表現(xiàn)出色,而且還大幅降低了推理成本,為應(yīng)對大規(guī)模密集型LLM帶來的挑戰(zhàn)提供了有效的解決方案。

    image.png

    Skywork-MoE模型特點(diǎn):

    • 開源和免費(fèi)商用:Skywork-MoE的模型權(quán)重、技術(shù)報(bào)告完全開源,且免費(fèi)商用,無需申請。

    • 推理成本降低:該模型在保持性能強(qiáng)勁的同時(shí),大幅降低了推理成本。

    • 稀疏模型:Skywork-MoE是一個(gè)專家混合模型(MoE),通過將計(jì)算分配給專門的子模型或“專家”,提供了一種經(jīng)濟(jì)上更可行的替代方案。

    • 支持單臺4090服務(wù)器推理:是首個(gè)支持用單臺4090服務(wù)器推理的開源千億MoE大模型。

    技術(shù)細(xì)節(jié):

    • 模型權(quán)重和開源倉庫:模型權(quán)重可在Hugging Face上下載,開源倉庫位于GitHub。

    • 推理代碼:提供了支持8x4090服務(wù)器上8bit量化加載推理的代碼。

    • 性能:在8x4090服務(wù)器上,使用昆侖萬維團(tuán)隊(duì)首創(chuàng)的非均勻Tensor Parallel并行推理方式,Skywork-MoE可以達(dá)到2200tokens/s的吞吐量。

    模型性能和技術(shù)創(chuàng)新:

    • 參數(shù)量:Skywork-MoE的總參數(shù)量為146B,激活參數(shù)量22B,共有16個(gè)Expert,每個(gè)Expert大小為13B。

    • 性能對比:在相同的激活參數(shù)量下,Skywork-MoE的能力在行業(yè)前列,接近70B的Dense模型,推理成本有近3倍的下降。

    • 訓(xùn)練優(yōu)化算法:Skywork-MoE設(shè)計(jì)了兩種訓(xùn)練優(yōu)化算法,包括Gating Logits歸一化操作和自適應(yīng)的Aux Loss,以解決MoE模型訓(xùn)練困難和泛化性能差的問題。

    大規(guī)模分布式訓(xùn)練:

    • Expert Data Parallel:提出了一種新的并行設(shè)計(jì)方案,可以在Expert數(shù)量較小時(shí)高效地切分模型。

    • 非均勻切分流水并行:提出了非均勻的流水并行切分和重計(jì)算Layer分配方式,使得計(jì)算/顯存負(fù)載更均衡。

    實(shí)驗(yàn)和經(jīng)驗(yàn)規(guī)則:

    Scaling Law實(shí)驗(yàn):探究了影響Upcycling和From Scratch訓(xùn)練MoE模型好壞的約束。

    訓(xùn)練經(jīng)驗(yàn)規(guī)則:如果訓(xùn)練MoE模型的FLOPs是訓(xùn)練Dense模型的2倍以上,則選擇From Scratch訓(xùn)練MoE更好;否則,選擇Upcycling訓(xùn)練MoE可以減少訓(xùn)練成本。

    Skywork-MoE的開源為大模型社區(qū)帶來了一個(gè)強(qiáng)大的新工具,有助于推動人工智能領(lǐng)域的發(fā)展,特別是在需要處理大規(guī)模數(shù)據(jù)和計(jì)算資源受限的場景中。

    項(xiàng)目頁:https://top.aibase.com/tool/skywork-moe

    模型下載地址:https://huggingface.co/Skywork/Skywork-MoE-Base

    舉報(bào)

    • 相關(guān)推薦
    • AI日報(bào):昆侖萬維開源Skywork-OR1系列模型;訊飛星辰Agent開發(fā)平臺全面支持MCP;字節(jié)跳動布局AI智能眼鏡

      歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、Kimi開源視覺語言模型 Kimi-VL 與 Kimi-VL-Thinking,多項(xiàng)基準(zhǔn)超越 GPT-4oMoonshot AI 最近開源了 Kimi-VL 和 Kimi-VL-Thinking 兩款視覺語言模型,展現(xiàn)出卓越的多模態(tài)理解與推理能力。這些模型采

    • AI日報(bào):昆侖萬維開源SkyReels-V2;訊飛星火X1全新升級;扣子空間Coze Space內(nèi)測

      本文介紹了多個(gè)前沿的人工智能產(chǎn)品和技術(shù)動態(tài),包括SkyReels-V2視頻生成模型、訊飛星火大模型升級、宇樹科技人形機(jī)器人比賽計(jì)劃、Coze Space AI協(xié)作平臺、Gemma3 QAT優(yōu)化模型、英特爾AI Playground工具、Reachy2人形機(jī)器人發(fā)布、ChatTS-14B語音研究項(xiàng)目、Figma推出AI設(shè)計(jì)工具以及MarkItDown MCP文檔轉(zhuǎn)換工具,展示了AI技術(shù)在多領(lǐng)域的廣泛應(yīng)用與創(chuàng)新發(fā)展?jié)摿Α?/p>

    • 1000上下文!新開源多模態(tài)大模型,單個(gè)GPU就能運(yùn)行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬上下文,震驚了整個(gè)大模型領(lǐng)域。僅過了2個(gè)月,Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬,整整提升了5倍開啟千萬級時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • 剛剛,商湯發(fā)布第六代大模型:6000億參數(shù)多模態(tài)MoE,中長視頻直接可推理

      現(xiàn)在的國產(chǎn)AI應(yīng)用,一口氣看好幾分鐘的視頻,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就搖身一變成“名偵探”做剖析:它會對整個(gè)視頻的內(nèi)容先做一個(gè)總結(jié),再按照秒級,對視頻片段做內(nèi)容上的推演。商湯科技聯(lián)合創(chuàng)始人楊帆認(rèn)為:銀河通用合伙人、大模型負(fù)責(zé)人張直政表示:除此之外,上海交通大學(xué)副教授閆維新對這個(gè)問題的看法是:總言之,商湯作為國?

    • 合合信息發(fā)布“大模型加速器 2.0”,助力大模型跨越“幻覺”障礙

      近日,上海合合信息科技股份有限公司(簡稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,憑借其多維度升級,為降低大模型“幻覺”風(fēng)險(xiǎn)、推動大模型精準(zhǔn)應(yīng)用提供了強(qiáng)大助力。訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵,合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù),從數(shù)據(jù)源頭入手,對復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理,

    • 提升大模型自動修Bug能力 豆包正式開源首個(gè)多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團(tuán)隊(duì)宣布,正式開源首個(gè)多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實(shí)際能力邊界。

    • 阿丘科技李嘉悅:大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

      3月28日,由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會現(xiàn)場,圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講?!苯衲辏谶@個(gè)快速變化的時(shí)代,我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革,不會用大模型的將會被善用大模型的人淘汰。

    • 字節(jié)AI加速文生圖技術(shù)新突破,GOOG/微美全息引領(lǐng)開源大模型釋放科技勢能

      字節(jié)跳動發(fā)布豆包1.5深度思考模型,升級文生圖能力。該模型在專業(yè)領(lǐng)域和通用任務(wù)中表現(xiàn)突出,采用MoE架構(gòu),總參數(shù)量200B,激活參數(shù)20B,推理成本優(yōu)勢顯著。同時(shí),其圖像生成模型Seedream 3.0性能追平GPT-4o等頂尖模型。全球AI產(chǎn)業(yè)加速發(fā)展,開源模型降低技術(shù)門檻,推動商業(yè)化落地。微美全息等企業(yè)構(gòu)建開放AI生態(tài),DeepSeek等公司通過開源策略促進(jìn)技術(shù)普惠。行業(yè)迎來"開源AI+"新階段,企業(yè)需把握機(jī)遇應(yīng)對挑戰(zhàn)。

    • DeepSeek領(lǐng)航大模型普惠化浪潮,xAI/微美全息加速開源AI布局打造新格局

      DeepSeek 作為當(dāng)前最受關(guān)注的大模型之一,憑借其技術(shù)創(chuàng)新正在加速 AI 普惠化進(jìn)程。根據(jù)機(jī)構(gòu)新報(bào)告顯示,DeepSeek已經(jīng)成為全球增長最快的AI工具,其每月新增網(wǎng)站訪問量已經(jīng)超過OpenAI的ChatGPT。DeepSeek市場份額全球第三目前,DeepSeek市場份額6.58%,僅次于ChatGPT和Canva。DeepSeek是繼ChatGPT之后的又一現(xiàn)象級AI產(chǎn)品,它的市場份額從2.34%快速增長至6.58%,展現(xiàn)出強(qiáng)勁的增長態(tài)勢。全球著名?

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu),這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個(gè)專注于特定任務(wù)的專家”子模型,實(shí)現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標(biāo)是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個(gè)人都能受益。