要點(diǎn):
1. 陳丹琦團(tuán)隊(duì)開發(fā)了LLM-Shearing大模型剪枝法,可以將大型預(yù)訓(xùn)練模型剪枝至低成本,但高性能水平。
2. 剪枝方法將模型剪枝看作一種約束優(yōu)化問題,同時(shí)學(xué)習(xí)剪枝掩碼矩陣以最大化性能為目標(biāo)。
3. 這種方法提供了一種有效的方式,可用于將剪枝后的模型繼續(xù)預(yù)訓(xùn)練,最終超越從頭開始預(yù)訓(xùn)練的模型。
站長之家(ChinaZ.com)10月12日 消息:陳丹琦團(tuán)隊(duì)近期發(fā)布了一項(xiàng)重要的研究成果,他們開發(fā)了一種名為LLM-Shearing的大模型剪枝法。這項(xiàng)技術(shù)允許將龐大的預(yù)訓(xùn)練模型剪枝至僅需3%的計(jì)算量和5%的成本,同時(shí)保持著SOTA(State-of-the-Art)水平的性能。
這一成果的基礎(chǔ)是以羊駝LLaMA2.7B為起點(diǎn),通過有針對(duì)性的結(jié)構(gòu)化剪枝,得到了1.3B和3B規(guī)模的Sheared-LLama模型。在各種下游任務(wù)評(píng)估中,這些剪枝后的模型表現(xiàn)出色,超越了之前的同等規(guī)模模型。
論文地址:
https://arxiv.org/abs/2310.06694
Hugging Face:
https://huggingface.co/princeton-nlp
項(xiàng)目主頁:
https://xiamengzhou.github.io/sheared-llama/
該研究的首席作者夏夢(mèng)舟指出,與從頭開始預(yù)訓(xùn)練相比,這種剪枝方法在成本和性能方面更為劃算。
研究團(tuán)隊(duì)還在論文中提供了剪枝后模型的示例輸出,表明即使規(guī)模只有1.3B和2.7B,這些模型仍然能夠生成連貫且內(nèi)容豐富的回復(fù)。此外,相同規(guī)模下的不同版本模型在某些任務(wù)上還表現(xiàn)出更清晰的結(jié)構(gòu)。
這一研究的重要性在于,雖然目前僅使用Llama2.7B模型進(jìn)行了剪枝實(shí)驗(yàn),但這種方法可擴(kuò)展到其他模型架構(gòu)和規(guī)模。此外,剪枝后的模型還可以進(jìn)一步預(yù)訓(xùn)練,從而在一定程度上恢復(fù)因剪枝而導(dǎo)致的性能損失。
研究團(tuán)隊(duì)還解決了一個(gè)關(guān)鍵問題,即剪枝可能導(dǎo)致模型在不同數(shù)據(jù)集上性能下降的問題。他們提出了動(dòng)態(tài)批量加載(Dynamic Batch Loading)的方法,通過根據(jù)模型在不同領(lǐng)域數(shù)據(jù)上的損失下降速率,動(dòng)態(tài)調(diào)整每個(gè)領(lǐng)域的數(shù)據(jù)比例,從而提高數(shù)據(jù)使用效率。
實(shí)驗(yàn)證明,雖然剪枝模型最初表現(xiàn)較差,但通過繼續(xù)預(yù)訓(xùn)練,最終可以超越與之規(guī)模相同但從頭開始預(yù)訓(xùn)練的模型。
總而言之,這項(xiàng)研究的關(guān)鍵在于提供了一種高效的方式,可以將龐大的預(yù)訓(xùn)練模型剪枝至較低成本,同時(shí)保持高性能。這有望在大規(guī)模深度學(xué)習(xí)模型的研究和應(yīng)用中產(chǎn)生廣泛的影響。
(舉報(bào))