快科技3月11日消息,國產(chǎn)大模型DeepSeek-R1爆火后,許多第三方平臺(tái)陸續(xù)接入了該模型,比如騰訊、階躍星辰、螞蟻集團(tuán)、百度、字節(jié)跳動(dòng)等等。
今日,中文大模型測評基準(zhǔn)SuperCLUE發(fā)布DeepSeek-R1聯(lián)網(wǎng)搜索能力首測,公布了10家第三方平臺(tái)測評結(jié)果。
從結(jié)果來看,騰訊元寶是本次測評中唯一一個(gè)超過80分的第三方平臺(tái),以80.61分領(lǐng)跑聯(lián)網(wǎng)搜索測評榜單,騰訊元寶在總分、基礎(chǔ)檢索能力和分析推理能力三個(gè)關(guān)鍵指標(biāo)上均位列第一。
階躍AI以74.49分的總分位居第二,支付寶百寶箱以73.47分位居第三,而其他平臺(tái)在本次測評中則處于不同的梯隊(duì),性能存在一定的差異。
各個(gè)第三方平臺(tái)在基礎(chǔ)檢索能力上平均得分為95.45,而在分析推理能力上的平均得分僅有35.35,相差近60分。
同一平臺(tái)在基礎(chǔ)檢索能力和分析推理能力兩大維度上的表現(xiàn)也同樣差異明顯,所有平臺(tái)的分析推理能力得分都明顯低于基礎(chǔ)檢索能力。
SuperCLUE表示,這反映出在更高級的認(rèn)知任務(wù),例如理解、分析、推理和解決復(fù)雜問題方面,仍有很大的進(jìn)步空間。
回復(fù)率上,飛書知識(shí)問答、階躍AI、騰訊元寶和支付寶百寶箱在聯(lián)網(wǎng)搜索回復(fù)率方面表現(xiàn)優(yōu)秀,完整回復(fù)率均為 100%,截?cái)嗦屎蜔o回復(fù)率均為零,成為第一梯隊(duì)。
秘塔AI搜索、納米AI搜索和天工AI緊隨其后,構(gòu)成第二梯隊(duì),其他平臺(tái)也均有超過85%的完整回復(fù)率,都表現(xiàn)出了較強(qiáng)的穩(wěn)定性。
耗時(shí)方面,總平均耗時(shí)從最少的字節(jié)火山引擎(17.12秒/題)到最多的MiniMax(73.51秒/題),差距非常顯著。
整體來看,耗時(shí)分布范圍較廣,不同平臺(tái)之間的搜索效率差異較大。
另外,所有平臺(tái)在分析推理能力上平均耗時(shí)都明顯高于基礎(chǔ)檢索能力。
(舉報(bào))