站長之家(ChinaZ.com) 11月6日 消息:元象XVERSE宣布 開源650億參數(shù)高性能通用大模型XVERSE-65B,無條件免費(fèi)商用。
XVERSE-65B 是由深圳元象科技開發(fā)的一種支持多語言的大型語言模型。它采用了 Transformer 網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)規(guī)模達(dá)到了650億。
模型通過訓(xùn)練了2.6萬億個(gè)令牌的高質(zhì)量多樣化數(shù)據(jù),包含了40多種語言。XVERSE-65B 具有16K 的上下文長度,適用于多輪對話、知識問答和摘要等任務(wù)。模型已在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了測試,并取得了良好的性能。
主要特點(diǎn)如下:
模型結(jié)構(gòu):XVERSE-65B 使用主流 Decoder-only 的標(biāo)準(zhǔn) Transformer 網(wǎng)絡(luò)結(jié)構(gòu),支持16K 的上下文長度(Context Length),能滿足更長的多輪對話、知識問答與摘要等需求,模型應(yīng)用場景更廣泛。
訓(xùn)練數(shù)據(jù):構(gòu)建了2.6萬億 token 的高質(zhì)量、多樣化的數(shù)據(jù)對模型進(jìn)行充分訓(xùn)練,包含中、英、俄、西等40多種語言,通過精細(xì)化設(shè)置不同類型數(shù)據(jù)的采樣比例,使得中英兩種語言表現(xiàn)優(yōu)異,也能兼顧其他語言效果。
分詞:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 語料訓(xùn)練了一個(gè)詞表大小為100,534的分詞器,能夠同時(shí)支持多語言,而無需額外擴(kuò)展詞表。
訓(xùn)練框架:自主研發(fā)多項(xiàng)關(guān)鍵技術(shù),包括高效算子、顯存優(yōu)化、并行調(diào)度策略、數(shù)據(jù)-計(jì)算-通信重疊、平臺(tái)和框架協(xié)同等,讓訓(xùn)練效率更高,模型穩(wěn)定性強(qiáng),在千卡集群上的峰值算力利用率位居業(yè)界前列。
項(xiàng)目地址:https://github.com/xverse-ai/XVERSE-65B
(舉報(bào))