11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
【新智元導(dǎo)讀】DeepSeek新論文來了!在清華研究者共同發(fā)布的研究中,他們發(fā)現(xiàn)了獎(jiǎng)勵(lì)模型推理時(shí)Scaling的全新方法。DeepSeekR2,果然近了。他們用包含300個(gè)樣本的降采樣測試集測試了DeepSeek-R1,發(fā)現(xiàn)其性能甚至不如236BMoERFT模型,這表明延長推理任務(wù)的思維鏈并不能顯著提升通用RM的性能。