聲明:本文來自于微信公眾號 新智元,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
就在剛剛,全球首個工業(yè)界多模態(tài)推理模型Skywork-R1V,再次重磅升級!
此前,R1V1.0首次成功實(shí)現(xiàn)了「強(qiáng)文本推理能力向視覺模態(tài)的遷移」,才短短一個月后,Skywork-R1V2.0就強(qiáng)勢上線了。
現(xiàn)在,R1V2.0的所有資源已全面開源,可以預(yù)見,多模態(tài)推理社區(qū)將迎來新一輪發(fā)展。
模型權(quán)重:https://huggingface.co/Skywork/Skywork-R1V2-38B
技術(shù)報告:https://arxiv.org/abs/2504.16656
代碼倉庫:https://github.com/SkyworkAI/Skywork-R1V
可以說,R1V2.0的誕生,不僅推動了開源多模態(tài)大模型在能力邊界上的突破,更為多模態(tài)智能體的搭建提供了全新的基座模型!
R1V2.0參加高考,已是優(yōu)秀的985選手
可以毫不夸張地說,R1V2.0是目前最好、最開放的開源多模態(tài)推理模型。
話不多說,我們直接給它上高考題。
首先,就是2022江蘇的高考物理真題。
R1V2.0拿到題后,開啟了思考模式。
首先,它回憶了一下法拉第電磁感應(yīng)定律的內(nèi)容,然后分析了題目的具體條件,得出結(jié)論:關(guān)鍵點(diǎn)就在于,確定哪個區(qū)域內(nèi)的磁場變化會對產(chǎn)生電動勢起作用。
代入法拉第定律后,模型計算得出了感應(yīng)電動勢的大小。然后還進(jìn)行了一番額外思考,確定選A沒錯。
再來看2021年的一道高考物理真題。
在經(jīng)過嚴(yán)謹(jǐn)而詳細(xì)的分析后,R1V2.0給出了正確的推理和答案。
接下來,是2022廣東高考物理卷。
經(jīng)過思考后,模型得出結(jié)論:每個線圈的電動勢振幅可能只與匝數(shù)相關(guān),而頻率則完全一致,因為它們共享同源的磁場變化來源,因而選項B是對的。
在后續(xù)分析中,它還相繼排除了其他答案的正確性。
下面是一道生物選擇題,來自2022年的福州模擬生物卷。
在思考過程中,模型首先回顧了隱性突變、等位基因等基本概念。
然后逐步判斷出,選項B是錯誤的,因為它忽略了插入引起的移碼效應(yīng)所導(dǎo)致的更多氨基酸變化。
而后,它還逐一分析出,選項A、C、D都是正確的。
2022年的福建高考化學(xué)選擇題,模型也給出了正確選項B。
它經(jīng)過思考,逐一判斷出了A、C、D的錯誤在哪里。
總之,面對圖文并茂、邏輯復(fù)雜的高考題目,R1V2.0展現(xiàn)出了完整的圖像理解與推理能力,答案準(zhǔn)確率極高,充分展示了自己的實(shí)戰(zhàn)水平。
可以說,現(xiàn)在就是直接讓R1V2.0去參加高考,考上985也不在話下了。
數(shù)學(xué)推理、編程能力,又有顯著躍升
總的來說,R1V2.0不僅在高考難題的深度推理中表現(xiàn)出色,還在通用任務(wù)場景中展現(xiàn)出強(qiáng)大的廣度。
它真正實(shí)現(xiàn)了「深度+廣度」統(tǒng)一,成為開源多模態(tài)模型新標(biāo)桿。
在多個權(quán)威基準(zhǔn)測試中,R1V2.0相較于R1V1.0在文本與視覺推理任務(wù)中均實(shí)現(xiàn)顯著躍升。
在數(shù)學(xué)推理、編程競賽、科學(xué)分析這類專業(yè)領(lǐng)域,以及創(chuàng)意寫作、開放式問答這類通用任務(wù),它的表現(xiàn)都令人眼前一亮。
在視覺能力上,R1V2.0的視覺理解和深度思考能力讓人印象深刻。
它在MMMU上拿下了73.6分的開源SOTA;在Olympiad Bench上以62.6分遙遙領(lǐng)先;并在MathVision,MMMU-PRO與MathVista等視覺推理榜單上,都取得極佳的成績,在開源模型中一騎絕塵,甚至可以追平部分閉源商業(yè)模型。
R1V2.0的視覺推理能力,在開源模型中明顯脫穎而出
R1V2.0已有潛力追趕閉源模型
而在文本推理方面,在AIME2024和LiveCodeBench等挑戰(zhàn)中,R1V2.0直接拿下了78.9和63.6的高分,表現(xiàn)出的數(shù)學(xué)和代碼理解能力,已經(jīng)達(dá)到了人類專家級別。
與專業(yè)推理模型相比,R1V2.0展現(xiàn)出良好文本推理能力
下圖中,是一道高考幾何題,R1V2.0在理解題干基礎(chǔ)上,還要理解圖中幾何要素,然后根據(jù)視覺推理,逐步得出正確的答案。
如此可見,R1V2.0是目前最兼顧視覺和文本推理,且最開放的開源多模態(tài)推理模型之一。
突破性技術(shù)創(chuàng)新,持續(xù)迭代
多模態(tài)大模型,如何在「深度推理」和「通用能力」上取得最佳平衡?
這個問題,已經(jīng)在業(yè)界被多次提出。
過度集中于推理任務(wù)的訓(xùn)練,可能就會犧牲模型在通用任務(wù)上的泛化能力。
昆侖萬維團(tuán)隊對此進(jìn)行了深入探索,他們的對策是——引入全新的多模態(tài)獎勵模型Skywork?VL Reward及規(guī)則驅(qū)動的混合強(qiáng)化訓(xùn)練機(jī)制。
它們在顯著增強(qiáng)推理能力的同時,進(jìn)一步穩(wěn)固了模型在多任務(wù)、多模態(tài)場景中的穩(wěn)定表現(xiàn)與泛化能力。
為多模態(tài)、強(qiáng)化學(xué)習(xí)而生的獎勵模型
強(qiáng)化學(xué)習(xí)在VLM領(lǐng)域之所以難以進(jìn)一步發(fā)展,關(guān)鍵瓶頸就在于多模態(tài)獎勵模型的缺乏,因為現(xiàn)有的獎勵建模方法,多聚焦于純文本。
為此,昆侖萬維推出了融合多模態(tài)推理與通用獎勵模型的Skywork-VL Reward——不僅支持多元化獎勵判別,還可覆蓋各種任務(wù)場景。
憑借獨(dú)特設(shè)計與強(qiáng)大性能,它既可為通用視覺語言模型(VLM)提供高質(zhì)量獎勵信號,又能精準(zhǔn)評估多模態(tài)推理模型長序列輸出的整體質(zhì)量,一舉成為多模態(tài)強(qiáng)化學(xué)習(xí)任務(wù)中的「殺手锏」。
目前,7B權(quán)重和詳細(xì)技術(shù)報告全面開源。
模型權(quán)重:https://huggingface.co/Skywork/Skywork-VL-Reward-7B
技術(shù)報告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/SkyworkVL_RM.pdf
在多個專業(yè)評測榜單中,Skywork-VL Reward的表現(xiàn)都極其突出。
在視覺獎勵模型VL-RewardBench基準(zhǔn)上,它取得73.1的SOTA,同時在純文本獎勵基準(zhǔn)RewardBench上更是拿下了90.1的高分。
實(shí)驗證明,Skywork-VL Reward有效實(shí)現(xiàn)了推理能力與通用能力的協(xié)同提升,成功實(shí)現(xiàn)「魚與熊掌兼得」。
引入MPO機(jī)制,增強(qiáng)深度推理能力
另外,R1V2.0引入了MPO(Mixed Preference Optimization,混合偏好優(yōu)化)機(jī)制,充分利用了Skywork-VL Reward獎勵模型提供的偏好信號。
比如在這道視覺推理數(shù)學(xué)題上,Skywork-VL Reward就會給推理簡明扼要的答案高分;而充滿了無效token「wait」的則直接負(fù)分。
再比如,Skywork-VL Reward還能對識別出表格問答中,糟糕答案里的多次重復(fù)給予負(fù)分,并對精煉的回答給出正反饋得分。
通過這些信號,模型能夠進(jìn)行偏好一致性優(yōu)化,確保在多任務(wù)、多領(lǐng)域的場景下,具備強(qiáng)大的能力。
R1V2.0的設(shè)計延續(xù)了R1V1.0的核心思路,通過提前訓(xùn)練好的MLP適配器,將強(qiáng)大視覺編碼器internVIT-6B與原始的強(qiáng)推理語言模型QwQ-32B無縫連接,構(gòu)建出初始權(quán)重位38B多模態(tài)模型。
這一巧妙的設(shè)計,讓R1V2.0在訓(xùn)練伊始,就具備了初步的多模態(tài)推理能力,為后續(xù)優(yōu)化奠定了堅實(shí)的基礎(chǔ)。
MPO的訓(xùn)練目標(biāo)為三種損失函數(shù)的加權(quán)組合:L=wp?Lp+wq?Lq+wg?Lg。其中,Lp是偏好損失(Preference Loss),Lq是質(zhì)量損失(Quality Loss),Lg是生成損失(Generation Loss)。
通過引入MPO目標(biāo),可以讓模型學(xué)習(xí):
響應(yīng)對之間的相對偏好
單個響應(yīng)的絕對質(zhì)量
以及生成優(yōu)選響應(yīng)的完整過程
團(tuán)隊發(fā)現(xiàn),基于MPO的訓(xùn)練策略在提升多模態(tài)推理能力方面表現(xiàn)出顯著優(yōu)勢。
不僅如此,模型在VisualVQA和幻覺檢測基準(zhǔn)測試中的表現(xiàn)也優(yōu)于其未采用MPO 的版本,這就表明,其通用能力得益于更強(qiáng)的推理能力,同時幻覺也得到了大幅度的減弱。
而且,MPO顯著優(yōu)于DPO和傳統(tǒng)的SFT方法。
直接偏好優(yōu)化(DPO)在思維鏈(CoT)推理任務(wù)中,更容易導(dǎo)致響應(yīng)重復(fù)或推理過程混亂,而MPO通過引入多種損失協(xié)同優(yōu)化,有效緩解了這一問題。
此外,研究團(tuán)隊還發(fā)現(xiàn),直接用蒸餾后的SFT數(shù)據(jù)訓(xùn)練,會導(dǎo)致模型推理能力下跌。
這一點(diǎn),進(jìn)一步說明了僅靠監(jiān)督信號,是難以覆蓋復(fù)雜推理場景,因此需要更具指導(dǎo)性偏好優(yōu)化方法去提升模型性能。
為了進(jìn)一步增強(qiáng)R1V2.0的深度推理能力,團(tuán)隊采用了「基于規(guī)則的群體相對策略優(yōu)化」(Group Relative Policy Optimization, GRPO)的強(qiáng)化學(xué)習(xí)算法。
通過同組候選響應(yīng)之間的相對獎勵比較,這一策略引導(dǎo)模型學(xué)會更精準(zhǔn)選擇和推理路徑。
然而在實(shí)際訓(xùn)練過程中,他們發(fā)現(xiàn)了GRPO的一個核心挑戰(zhàn):優(yōu)勢消失(Vanishing Advantages)。
當(dāng)某個查詢組內(nèi)的所有候選響應(yīng)均為「全部正確」或「全部錯誤」時,組內(nèi)響應(yīng)的相對獎勵差異趨于消失,導(dǎo)致優(yōu)勢歸零,無法產(chǎn)生有效的策略梯度。
這種現(xiàn)象在訓(xùn)練后期愈發(fā)嚴(yán)重,有效樣本從初期60%暴降至10%以下,嚴(yán)重影響了策略更新的效率。
與此同時,另一個獨(dú)特現(xiàn)象是:視覺模態(tài)推理能力與文本模態(tài)之間存在互補(bǔ)性。
若是對視覺推理能力進(jìn)行過度優(yōu)化,則可能誘發(fā)模型產(chǎn)生更多的「幻覺」,進(jìn)而影響推理準(zhǔn)確性與穩(wěn)定性。
選擇性樣本緩沖區(qū)(SSB)
為此,團(tuán)隊引入了創(chuàng)新性的「選擇性樣本緩沖區(qū)機(jī)制」(Selective Sample Buffer, SSB)。
這種高效的樣本復(fù)用技術(shù)可以作用于在線和離線采樣過程中,通過保留歷史訓(xùn)練中帶有非零優(yōu)勢的關(guān)鍵樣本,并在后續(xù)訓(xùn)練中優(yōu)先抽樣使用,大幅提升了訓(xùn)練信號的質(zhì)量與密度。
同樣,SSB具備三大核心優(yōu)勢:
優(yōu)先采樣機(jī)制:基于樣本優(yōu)勢值的絕對值進(jìn)行加權(quán)抽樣,強(qiáng)化對非零優(yōu)勢樣本的學(xué)習(xí)。
低成本高回報:通過反復(fù)利用高價值樣本,極大降低訓(xùn)練所需成本
效果顯著:即使使用少量樣本,模型依然能夠獲得高效的訓(xùn)練效果
選擇性樣本緩沖區(qū)(SSB)機(jī)制通過保留并優(yōu)先選擇具有非零優(yōu)勢的高價值樣本來解決優(yōu)勢消失問題
SSB的引入,不僅顯著提高了訓(xùn)練的有效樣本密度,還有效緩解了模型在訓(xùn)練中期優(yōu)化空間趨于飽和的問題。
實(shí)驗已經(jīng)證明,SSB在R1V2.0中的應(yīng)用,是提升推理能力與訓(xùn)練效率的關(guān)鍵一環(huán)。
總之,R1V2.0所采用的多模態(tài)強(qiáng)化訓(xùn)練方案,標(biāo)志著大模型訓(xùn)練范式的又一次重要革新。
Skywork-VL Reward、MPO和SSB的引入,不僅讓團(tuán)隊提升了模型在復(fù)雜任務(wù)中的推理能力,也實(shí)現(xiàn)了在多模態(tài)任務(wù)上的廣泛泛化與持續(xù)進(jìn)化。
持續(xù)開源,邁向AGI
今年的開源社區(qū),一直在被昆侖萬維震撼。
2025年以來,他們不僅在視覺、推理,以及視頻生成等領(lǐng)域開源了多款模型,而且還進(jìn)行了前沿「空間智能」探索。
由此,一步步地構(gòu)建出了一個全新的模型版圖:
Skywork-R1V系列:38B視覺思維鏈推理模型,開啟多模態(tài)思考時代;
Skywork-OR1(Open Reasoner1)系列:中文邏輯推理大模型,7B和32B最強(qiáng)數(shù)學(xué)代碼推理模型;
SkyReels系列:面向AI短劇創(chuàng)作的視頻生成模型;
Skywork-Reward:性能卓越的文本獎勵模型。
值得一提的是,這些項目無一例外都在ModelScope與Hugging Face上大受歡迎,贏得了社區(qū)的熱烈反響。
不論是在多模態(tài)AI、推理模型,還是視頻生成等領(lǐng)域,這些成就恰恰體現(xiàn)了昆侖萬維的技術(shù)領(lǐng)導(dǎo)力。
自從DeepSeek的誕生,全球的AI模型大勢已經(jīng)逆轉(zhuǎn)。
很明顯,如今開源模型和閉源系統(tǒng)的差距,正在一步步縮小。
開源不僅僅是技術(shù)的共享,更是創(chuàng)新的催化劑。昆侖萬維堅信,通過開放權(quán)重、技術(shù)報告、代碼倉庫,全球開發(fā)者、研究人員能夠站在巨人肩膀上,加速AI的迭代和應(yīng)用。
在這個時代背景下,R1V2的誕生,又多了一重意義。
可以說,它不僅是當(dāng)前最好的開源多模態(tài)推理模型之一,也是昆侖萬維邁向AGI路上的又一里程碑。
在未來,昆侖萬維還會將「開源、開發(fā)、共創(chuàng)」持續(xù)到底,推出更多領(lǐng)先大模型和數(shù)據(jù)集,加速整個行業(yè)向AGI的邁進(jìn)。
參考資料:
https://github.com/SkyworkAI/Skywork-R1V
(舉報)