要點:
鴨嘴獸-70B使用優(yōu)化過的數(shù)據(jù)集Open-Platypus訓(xùn)練,刪除相似和重復(fù)問題。
應(yīng)用LoRA和PEFT對模型進(jìn)行微調(diào),重點優(yōu)化非注意力模塊。
檢查并解決測試數(shù)據(jù)泄漏和訓(xùn)練數(shù)據(jù)污染問題。
站長之家(ChinaZ.com)8月24日 消息:最近,來自波士頓大學(xué)的鴨嘴獸-70B模型登頂了HuggingFace的開源大模型排行榜,成為目前全球開源領(lǐng)域中表現(xiàn)最強(qiáng)的語言模型。鴨嘴獸的變強(qiáng)有以下三個關(guān)鍵原因:
首先,鴨嘴獸使用了一個經(jīng)過優(yōu)化的開源數(shù)據(jù)集Open-Platypus進(jìn)行訓(xùn)練。該數(shù)據(jù)集由11個開源數(shù)據(jù)集組合而成,主要包含人工設(shè)計的問題,只有約10%的問題是由語言模型生成。同時,研究人員對數(shù)據(jù)集進(jìn)行了處理,刪除了相似和重復(fù)的問題,最大限度地減少了數(shù)據(jù)冗余。這有助于模型在更小的數(shù)據(jù)集上獲取更強(qiáng)大的能力。
其次,研究人員使用了低秩逼近(LoRA)和參數(shù)高效微調(diào)(PEFT)對鴨嘴獸模型進(jìn)行了微調(diào)。與完全微調(diào)不同,LoRA只訓(xùn)練轉(zhuǎn)換層中的可訓(xùn)練參數(shù),從而大大降低了計算訓(xùn)練成本。PEFT則主要微調(diào)了非注意力模塊,如門控單元和上下采樣模塊,這進(jìn)一步提升了模型性能。相比僅優(yōu)化注意力模塊,這種方法取得了更好的效果。
論文地址:https://arxiv.org/pdf/2308.07317.pdf
最后,研究人員深入探索了開放式語言模型訓(xùn)練中存在的數(shù)據(jù)污染問題,并針對鴨嘴獸的數(shù)據(jù)集進(jìn)行了嚴(yán)格過濾。他們開發(fā)了一套啟發(fā)式方法,仔細(xì)檢查訓(xùn)練集中與測試集相似的問題,刪除或以任何方式將其標(biāo)記為潛在的測試數(shù)據(jù)泄露,避免了測試數(shù)據(jù)非故意地進(jìn)入訓(xùn)練集,保證了模型評估的公平性。
通過數(shù)據(jù)集優(yōu)化、模型微調(diào)技巧以及數(shù)據(jù)質(zhì)量控制,鴨嘴獸-70B得以在眾多開源大模型中脫穎而出,登上榜首。這為語言模型的訓(xùn)練提供了寶貴經(jīng)驗,也使開源社區(qū)對自主研發(fā)強(qiáng)大AI模型更具信心。如果社會各界能堅持開放創(chuàng)新、合作共贏的理念,我們離強(qiáng)人工智能的到來就不會太遠(yuǎn)了。
(舉報)