无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > 大模型最新資訊  > 正文

    LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比從頭開始預(yù)訓(xùn)練更劃算

    2023-10-12 14:29 · 稿源:站長之家

    要點(diǎn):

    1. 陳丹琦團(tuán)隊(duì)開發(fā)了LLM-Shearing大模型剪枝法,可以將大型預(yù)訓(xùn)練模型剪枝至低成本,但高性能水平。

    2. 剪枝方法將模型剪枝看作一種約束優(yōu)化問題,同時(shí)學(xué)習(xí)剪枝掩碼矩陣以最大化性能為目標(biāo)。

    3. 這種方法提供了一種有效的方式,可用于將剪枝后的模型繼續(xù)預(yù)訓(xùn)練,最終超越從頭開始預(yù)訓(xùn)練的模型。

    站長之家(ChinaZ.com)10月12日 消息:陳丹琦團(tuán)隊(duì)近期發(fā)布了一項(xiàng)重要的研究成果,他們開發(fā)了一種名為LLM-Shearing的大模型剪枝法。這項(xiàng)技術(shù)允許將龐大的預(yù)訓(xùn)練模型剪枝至僅需3%的計(jì)算量和5%的成本,同時(shí)保持著SOTA(State-of-the-Art)水平的性能。

    這一成果的基礎(chǔ)是以羊駝LLaMA2.7B為起點(diǎn),通過有針對(duì)性的結(jié)構(gòu)化剪枝,得到了1.3B和3B規(guī)模的Sheared-LLama模型。在各種下游任務(wù)評(píng)估中,這些剪枝后的模型表現(xiàn)出色,超越了之前的同等規(guī)模模型。

    image.png

    論文地址:

    https://arxiv.org/abs/2310.06694

    Hugging Face:

    https://huggingface.co/princeton-nlp

    項(xiàng)目主頁:

    https://xiamengzhou.github.io/sheared-llama/

    該研究的首席作者夏夢(mèng)舟指出,與從頭開始預(yù)訓(xùn)練相比,這種剪枝方法在成本和性能方面更為劃算。

    研究團(tuán)隊(duì)還在論文中提供了剪枝后模型的示例輸出,表明即使規(guī)模只有1.3B和2.7B,這些模型仍然能夠生成連貫且內(nèi)容豐富的回復(fù)。此外,相同規(guī)模下的不同版本模型在某些任務(wù)上還表現(xiàn)出更清晰的結(jié)構(gòu)。

    image.png

    這一研究的重要性在于,雖然目前僅使用Llama2.7B模型進(jìn)行了剪枝實(shí)驗(yàn),但這種方法可擴(kuò)展到其他模型架構(gòu)和規(guī)模。此外,剪枝后的模型還可以進(jìn)一步預(yù)訓(xùn)練,從而在一定程度上恢復(fù)因剪枝而導(dǎo)致的性能損失。

    研究團(tuán)隊(duì)還解決了一個(gè)關(guān)鍵問題,即剪枝可能導(dǎo)致模型在不同數(shù)據(jù)集上性能下降的問題。他們提出了動(dòng)態(tài)批量加載(Dynamic Batch Loading)的方法,通過根據(jù)模型在不同領(lǐng)域數(shù)據(jù)上的損失下降速率,動(dòng)態(tài)調(diào)整每個(gè)領(lǐng)域的數(shù)據(jù)比例,從而提高數(shù)據(jù)使用效率。

    實(shí)驗(yàn)證明,雖然剪枝模型最初表現(xiàn)較差,但通過繼續(xù)預(yù)訓(xùn)練,最終可以超越與之規(guī)模相同但從頭開始預(yù)訓(xùn)練的模型。

    總而言之,這項(xiàng)研究的關(guān)鍵在于提供了一種高效的方式,可以將龐大的預(yù)訓(xùn)練模型剪枝至較低成本,同時(shí)保持高性能。這有望在大規(guī)模深度學(xué)習(xí)模型的研究和應(yīng)用中產(chǎn)生廣泛的影響。

    舉報(bào)

    • 相關(guān)推薦
    • 何小鵬“劇透”:小鵬訓(xùn)練的一個(gè)物理大模型 是國內(nèi)車企“獨(dú)一份”

      快科技4月14日消息,今日早間,小鵬汽車創(chuàng)始人何小鵬在社交平臺(tái)發(fā)帖稱:作為最早把「智能化」作為核心的車企,小鵬的本質(zhì)是「AI汽車公司」,我認(rèn)為AI 最大的價(jià)值在于改變物理世界,而不僅是數(shù)字世界,我們要做一家面向全球的AI汽車公司,我更想通過 AI 來改變物理世界,這是很有意義的,但難度也更大。小鵬堅(jiān)持全棧自研,去年率先在自動(dòng)駕駛領(lǐng)域引入強(qiáng)化學(xué)習(xí)、模型

    • 比買更劃算!PS5主機(jī)出租爆火:多家門店一機(jī)難求

      快科技4月23日消息,在日本和英國,游戲主機(jī)租賃服務(wù)正在悄然興起,尤其是索尼PS5主機(jī)的租借服務(wù),意外地受到了玩家的熱烈追捧,甚至出現(xiàn)了多家門店一機(jī)難求的場(chǎng)景。據(jù)日本媒體報(bào)道,零售巨頭GEO在2025年首次推出了PS5租借服務(wù),這項(xiàng)服務(wù)覆蓋了全國超過400家門店,玩家只需支付980日元(約合50元人民幣),就可以將PS5主機(jī)帶回家暢玩8天。如果支付1780日元(約合91元人民幣),租期還可以延長至15天,GEO表示,這項(xiàng)服務(wù)推出后反響熱烈,整體出租率高達(dá)80%,超過一半的門店設(shè)備幾乎被租借一空。英國的租賃公司Raylo也在今年推出了類似的PS5

    • 凱迪拉克VISTIQ亞洲首秀,搭載Momenta飛輪大模型定義豪華純電智能出行

      4月23日,凱迪拉克在上海舉辦"心馳·電掣"發(fā)布會(huì),推出亞洲首秀的VISTIQ車型。該車與Momenta深度合作,采用行業(yè)首個(gè)量產(chǎn)飛輪大模型技術(shù),實(shí)現(xiàn)L2全場(chǎng)景城區(qū)輔助駕駛功能,提供"有路就能開,有位就能停"的智能體驗(yàn)。凱迪拉克強(qiáng)調(diào)不應(yīng)通過堆砌硬件實(shí)現(xiàn)智能化,而需技術(shù)創(chuàng)新與用戶體驗(yàn)并重。此次合作展現(xiàn)了凱迪拉克擁抱智能化的決心,也彰顯了Momenta在自動(dòng)駕駛領(lǐng)域的技術(shù)領(lǐng)先地位。雙方將共同推動(dòng)豪華純電出行的智能化升級(jí)。

    • 李想AI Talk第二季來了:理想VLA司機(jī)大模型是從動(dòng)物到人類的進(jìn)化

      在這期間,李想分享了他對(duì)人工智能的最新思考,以及包含智能駕駛和理想同學(xué)在內(nèi)的人工智能技術(shù)的最新進(jìn)展,并宣布基于自研基座大模型Mind GPT的理想同學(xué)從車機(jī)進(jìn)入手機(jī),App已于12月27日全量上線。

    • Aloudata Agent公測(cè)開啟:NoETL+大模型=好數(shù)據(jù)驅(qū)動(dòng)真智能,讓“萬數(shù)皆可問”

      4月22日,Aloudata大應(yīng)科技推出自研的Aloudata Agent,這是一款基于NoETL明細(xì)語義層的分析決策智能體,旨在通過自然語言實(shí)現(xiàn)數(shù)據(jù)查詢、歸因診斷、報(bào)告生成等功能。該產(chǎn)品解決了企業(yè)數(shù)據(jù)分析面臨的五大挑戰(zhàn):語義鴻溝、口徑一致性、場(chǎng)景覆蓋度、性能優(yōu)化和數(shù)據(jù)權(quán)限管控。Aloudata Agent采用NL2MQL2SQL技術(shù)路徑,通過指標(biāo)語義層實(shí)現(xiàn)業(yè)務(wù)語言與數(shù)據(jù)語言的精準(zhǔn)對(duì)齊,顯著提升查詢準(zhǔn)?

    • 阿丘科技李嘉悅:大模型驅(qū)動(dòng)的AI檢測(cè)范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

      3月28日,由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場(chǎng),圍繞“大模型驅(qū)動(dòng)的AI檢測(cè)范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講?!苯衲辏谶@個(gè)快速變化的時(shí)代,我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革,不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

    • 合合信息發(fā)布“大模型加速器 2.0”,助力大模型跨越“幻覺”障礙

      近日,上海合合信息科技股份有限公司(簡稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,憑借其多維度升級(jí),為降低大模型“幻覺”風(fēng)險(xiǎn)、推動(dòng)大模型精準(zhǔn)應(yīng)用提供了強(qiáng)大助力。訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵,合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù),從數(shù)據(jù)源頭入手,對(duì)復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理,

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時(shí)間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實(shí)際效果差、開源條件多部署門檻高是偽開源等。大模型評(píng)測(cè)平臺(tái)LMArena親自下場(chǎng)發(fā)文,打臉Meta提供給平臺(tái)的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競(jìng)賽中進(jìn)一步失去開發(fā)者支持。

    • 奔馳新款CLA接入豆包大模型

      4月22日,奔馳與火山引擎合作的首款國產(chǎn)純電車型CLA全球首發(fā)亮相。該車搭載奔馳自研MB.OS架構(gòu),接入火山引擎大模型,支持個(gè)性化智能交互體驗(yàn)。智能系統(tǒng)可識(shí)別4種情緒并給予反饋,交互效率提升50%,喚醒僅需0.2秒。虛擬助手能解答百科問題并協(xié)助車輛功能設(shè)置。這是雙方繼2024年8月達(dá)成AI戰(zhàn)略合作后落地的首款量產(chǎn)車型,結(jié)合生成式AI和大數(shù)據(jù)技術(shù),為中國用戶打造更智能的用車體驗(yàn)。

    • 迅雷一鍵即可完成大模型下載

      近日,迅雷為提升用戶使用體驗(yàn),讓用戶能夠更快更好地批量下載大模型所有文件,已針對(duì)大模型下載場(chǎng)景進(jìn)行了優(yōu)化,并上線了新版本插件,下載迅雷客戶端且在瀏覽器安裝迅雷插件即可使用。值得一提的是,在使用迅雷該插件功能創(chuàng)建任務(wù)時(shí),將同時(shí)創(chuàng)建相對(duì)應(yīng)的文件夾,下載完成后,所有文件都將在一個(gè)文件夾中,相比傳統(tǒng)瀏覽器——需要用戶逐個(gè)手動(dòng)點(diǎn)擊下載圖標(biāo)并?