11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
DeepSeek發(fā)布數(shù)學(xué)推理模型DeepSeek-Prover-V2,包含7B和671B兩個(gè)參數(shù)版本。該模型采用"遞歸+強(qiáng)化學(xué)習(xí)"訓(xùn)練方法,在MiniF2F測(cè)試集上達(dá)到88.9%通過率,解決了PutnamBench中的49道題目。關(guān)鍵技術(shù)包括:1) 使用DeepSeek-V3分解復(fù)雜定理生成子目標(biāo);2) GRPO算法從多個(gè)候選方案中自動(dòng)學(xué)習(xí)最優(yōu)解;3) 通過思維鏈整合非形式化推理與形式化證明。模型在AIME競賽題和教科書題目上也表現(xiàn)優(yōu)異,7B小模型意外在部分問題上超越大模型。論文指出該方法為通向AGI提供了正確路徑,未來將擴(kuò)展至IMO級(jí)別數(shù)學(xué)難題。