站長(zhǎng)之家(ChinaZ.com)4月17日 消息:JetMoE-8B是一款采用稀疏激活架構(gòu)的人工智能模型,其性能卓越且訓(xùn)練成本不到10萬(wàn)美元,令人驚訝的是,它的表現(xiàn)甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。
JetMoE-8B由24個(gè)塊組成,每個(gè)塊包含兩個(gè)MoE層:注意力頭混合(MoA)和MLP專家混合(MoE)。每個(gè)MoA和MoE層有8個(gè)專家,并且每個(gè)輸入令牌激活2個(gè)專家。這種獨(dú)特的設(shè)計(jì)使得在不犧牲性能的情況下顯著降低了計(jì)算成本。
值得一提的是,盡管JetMoE-8B的總參數(shù)量達(dá)到80億,但由于其特殊的架構(gòu)設(shè)計(jì),每個(gè)輸入令牌僅激活約22億參數(shù),從而大大減少了總體的計(jì)算需求。
此外,JetMoE-8B的訓(xùn)練完全依賴于公開(kāi)數(shù)據(jù),并且整個(gè)訓(xùn)練過(guò)程,包括代碼,都是完全開(kāi)源的,這無(wú)疑為AI領(lǐng)域的研究和應(yīng)用提供了極大的便利。
在與Open LLM排行榜相同的評(píng)估方法下,JetMoE-8B的性能表現(xiàn)優(yōu)于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,這一結(jié)果無(wú)疑是對(duì)其高效性能的最好證明。
與此同時(shí),與具有類似訓(xùn)練和推理計(jì)算的模型(如Gemma-2B)相比,JetMoE-8B展示了更優(yōu)異的表現(xiàn)。這不僅證明了其在性能上的優(yōu)勢(shì),也展示了其在成本效益上的顯著優(yōu)勢(shì)。
模型地址:https://huggingface.co/jetmoe/jetmoe-8b
(舉報(bào))