快科技4月30日消息,今日,DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個名為 DeepSeek-Prover-V2-671B 的新模型。
據(jù)介紹,DeepSeek-Prover-V2-671B 其參數(shù)量達到6710億,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多種計算精度,方便模型更快、更省資源地訓(xùn)練和部署。
在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。
同時支持超長上下文,最大位置嵌入達163840,使其能處理復(fù)雜的數(shù)學(xué)證明,并且采用了FP8量化,可通過量化技術(shù)減小模型大小,提高推理效率。
有網(wǎng)友分析,該模型被視為 Prover-V1.5的升級版,專注于形式化定理證明,專門用于攻克數(shù)學(xué)難題,擅長自動證明定理和復(fù)雜計算,類似于 AlphaGo 在圍棋中的自我對弈方式。
接下來它的性能測試表現(xiàn)會如何,值得期待。
(舉報)