无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 傳媒 > 關(guān)鍵詞  > 天工大模型最新資訊  > 正文

    「天工大模型4.0」o1版和4o版正式上線天工APP和網(wǎng)頁 免費使用

    2025-01-06 11:01 · 稿源: 站長之家用戶

    2024 年 11 月,昆侖萬維天工大模型4.0」o1 版和4o版正式公開發(fā)布,并啟動邀請測試。

    今天,在 2025 年 1 月 6 日,我們正式將「天工大模型4.0」o1 版和4o版同步上線,并全量登陸天工網(wǎng)頁和APP,人人免費可用!

    作為國內(nèi)首先款中文邏輯推理能力的o1 模型(Skywork o1),不僅包含上線即開源的模型,還有兩款性能更強(qiáng)的專用版本。經(jīng)過全方位的技術(shù)棧升級和模型優(yōu)化,由昆侖萬維自研的Skywork o1 系列能熟練處理各種推理挑戰(zhàn),包括數(shù)學(xué)、代碼、邏輯、常識、倫理決策等問題。

    「天工大模型4.0」4o版(Skywork 4o)是由昆侖萬維自研的多模態(tài)模型,其賦能的實時語音對話助手Skyo,則是一個具備情感表達(dá)能力、快速響應(yīng)能力、多語言流暢切換的智能語音對話工具,為用戶帶來溫暖貼心、流暢實時的對話體驗。

    當(dāng)前,這兩款模型已正式登陸昆侖萬維旗下天工web與APP,全面向用戶開放。

    天工AI官方地址:https://www.tiangong.cn/ (進(jìn)入后可直接體驗o1 版)

    01.

    Skywork o1 為用戶帶來更較好的的推理能力,正式上線天工web

    Skywork o1 在邏輯推理任務(wù)上性能的大幅提升,得益于天工三階段自研的訓(xùn)練方案:

    推理反思能力訓(xùn)練:Skywork o1 通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。此外,我們在版本迭代中通過大規(guī)模使用自蒸餾和拒絕采樣,顯著提升了模型的訓(xùn)練效率和邏輯推理能力。

    推理能力強(qiáng)化學(xué)習(xí):Skywork o1 團(tuán)隊研發(fā)了比較新的適配分步推理強(qiáng)化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對最終答案的影響。結(jié)合自研分步推理強(qiáng)化算法進(jìn)一步加強(qiáng)模型推理和思考能力。

    推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找理想推理路徑。這也是全球初次將Q*算法實現(xiàn)和公開。Q*算法落地也大大提升了模型線上推理能力。

    相較于之前的版本,今天正式上線的Skywork o1 進(jìn)行了重磅升級,主要體現(xiàn)在以下三個方面:

    1.PRM優(yōu)化

    通過采用有效的數(shù)據(jù)篩選策略,僅依賴開源偏序數(shù)據(jù)集,Skywork-Reward-27B的獎勵模型(RM)在RewardBench上超過此前排名首先的Nvidia-340B模型,并獲得了RewardBench官方的認(rèn)可轉(zhuǎn)載。此外,對獎勵模型的優(yōu)化函數(shù)進(jìn)行了詳盡的增廣實驗,結(jié)果發(fā)現(xiàn)Bradley-Terry損失函數(shù)在大多數(shù)場景中具有良好的適配性。

    圖 1 丨天工自研Skywork-Reward(論文鏈接:https://arxiv.org/abs/2410.18451)

    PRM應(yīng)用場景擴(kuò)充:相比上個版本主要側(cè)重于數(shù)學(xué)與代碼, 新版PRM增加了對更多常見推理領(lǐng)域的支持,例如常識推理、邏輯陷阱、倫理決策等。除了推理領(lǐng)域外,也針對通用領(lǐng)域(寫作、聊天),以及多輪對話構(gòu)造相應(yīng)訓(xùn)練數(shù)據(jù),提供了全場景的覆蓋。

    PRM模塊化評估能力:Skywork-PRM側(cè)重優(yōu)化了對o1 風(fēng)格思維鏈的試錯與反思驗證能力的支持,細(xì)粒度地為強(qiáng)化學(xué)習(xí)與搜索提供了更準(zhǔn)確的獎勵信號。

    2.基于Q*算法的推理系統(tǒng)優(yōu)化

    Q*是一種通過借鑒人類大腦中“system 2”的思考方式,我們將大型語言模型(LLMs)的多步推理視作一個啟發(fā)式搜索問題,并提出Q*線上推理框架配合模型在線思考,用以在推斷過程中進(jìn)行審慎規(guī)劃,從而指導(dǎo) LLM 的解碼過程。具體來說,Q*通過學(xué)習(xí)一個 Q-value 模型作為啟發(fā)式函數(shù)來估計預(yù)期的未來回報,從而能夠在不針對當(dāng)前任務(wù)微調(diào) LLM 的情況下,有效地指導(dǎo) LLM 選擇最有前景的下一步推理?;谔旃ぷ匝械腝*線上推理算法配合模型在線思考,不僅避免了大量的計算開銷,也降低了在其他任務(wù)上性能退化的風(fēng)險。

    圖 2 丨天工自研Q*(論文鏈接:https://arxiv.org/abs/2406.14283)

    模塊化的樹形結(jié)構(gòu)推理:通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型的預(yù)訓(xùn)練和監(jiān)督微調(diào),Skywork o1 已經(jīng)具備了結(jié)構(gòu)化輸出回答的能力,即通過對推理過程的統(tǒng)籌規(guī)劃進(jìn)而對模型回答進(jìn)行自動化分層輸出,并且在推理過程中穿插反思和驗證。因此,考慮到o1-style的回答通常在回復(fù)長度上遠(yuǎn)超傳統(tǒng)模型,現(xiàn)有planning方法中以sentence作為step的劃分方式表現(xiàn)得過于低效且容易產(chǎn)生over-thinking的現(xiàn)象。為此,Skywork o1 采用以 module 作為 step 的規(guī)劃方式,在一定程度上提升了規(guī)劃效率,同時讓 PRM 能夠看到更完整的模塊化回答,從而做出更準(zhǔn)確的判斷并指導(dǎo) LLM 進(jìn)行推理。

    自適應(yīng)搜索資源分配:現(xiàn)有的已開源o1-style模型在處理簡單問題上往往存在over-thinking的現(xiàn)象,把簡單的問題復(fù)雜化并且反復(fù)驗證,造成計算資源的浪費。Skywork o1 采用了自適應(yīng)分配搜索資源的方式,在搜索開始之前對用戶query進(jìn)行難度預(yù)估,自適應(yīng)地控制搜索樹的寬度和深度,在簡單的問題上做到快速給出回答的效果,在復(fù)雜題目上做到反復(fù)多輪驗證從而提高回答的準(zhǔn)確率。

    3.創(chuàng)新性提出Step-DAPO算法,力爭解決訓(xùn)練效果不穩(wěn)定、計算資源開銷過大等問題

    針對現(xiàn)有RLHF算法在落地過程中存在獎勵信號稀疏,訓(xùn)練效果不穩(wěn)定,計算資源開銷過大等問題,昆侖萬維天工團(tuán)隊提出了一種新的step-level離線強(qiáng)化學(xué)習(xí)算法,DAPO 首先使用一個評估函數(shù)來預(yù)測每一步的推理準(zhǔn)確性,從而為優(yōu)化生成策略提供密集的信號,隨后DAPO 會根據(jù)每個狀態(tài)-動作對的優(yōu)勢來調(diào)整策略比率,從而優(yōu)化推理步驟的生成。此外,DAPO 中的 Actor 和 Critic 組件分別獨立訓(xùn)練,避免了在類似 PPO 算法常見的“Actor-Critic”共同訓(xùn)練不穩(wěn)定問題。

    圖 3 丨天工自研Step-DAPO(論文鏈接:https://arxiv.org/abs/2412.18279)

    更多關(guān)于Skywork o1 的技術(shù)報告將陸續(xù)發(fā)布,敬請期待。

    全面升級且正式上線的Skywork o1 Lite / Skywork o1 Preview大幅提升了數(shù)學(xué)、代碼和邏輯推理能力。我們對其進(jìn)行標(biāo)準(zhǔn)數(shù)學(xué)基準(zhǔn)測試(包括GSM8k、MATH、Gaokao、OlympiadBench、AIME- 24 以及AMC-23),以及在HumanEval、MBPP、LiveCodeBench及BigCodeBench這四項代碼基準(zhǔn)測試上評估了Skywork o1 的代碼能力。

    表 1 丨Skywork o1 在數(shù)學(xué)基準(zhǔn)評測上的表現(xiàn)

    表 2 丨Skywork o1 在代碼基準(zhǔn)評測上的表現(xiàn)

    *備注:對于BigCodeBench,我們采用它的instruct子集進(jìn)行測試

    可以看出,在數(shù)學(xué)、代碼基準(zhǔn)測試中,Skywork o1 的能力表現(xiàn)逼近o1-mini,顯著優(yōu)于行業(yè)常規(guī)通用大模型。

    與此同時,針對邏輯推理測試,我們專門創(chuàng)建了一個私有評估集用于更好的評估類o1 模型的思考,規(guī)劃以及反思等能力。我們私有評估集包含 20 種問題類型,每種問題類型包含 30 條不同難度或約束條件的問題樣本(注:我們用于此項評測的邏輯推理數(shù)據(jù)集不久后將隨Skywork o1 技術(shù)報告一并開源)。

    評估集中所有問題類型和樣本都經(jīng)過挑選及人工校驗,通常來說需要模型具備較強(qiáng)類人邏輯推理能力才能解決。經(jīng)驗證,目前評估集中大多數(shù)問題哪怕是對于業(yè)界?Tier1 級的常規(guī)通用大模型(例如GPT-4o或者Claude-sonnet)都是相當(dāng)挑戰(zhàn)性的。

    我們評估集中若干個典型問題類型:

    算24:給定若干個數(shù)字和目標(biāo),如何在一定約束條件的前提下使用給定的數(shù)字計算得到目標(biāo)。

    條件邏輯:這基于已知條件進(jìn)行邏輯推理的約束滿足問題。解題目標(biāo)是通過分析這些約束條件之間的關(guān)系(互斥性或數(shù)量等),找出滿足所有約束的僅有解。

    密碼:給定一個用某種方法加密的原文到密文樣的樣例,推測一個新的密文所對應(yīng)的原文。

    最小和:已知若干個整數(shù)數(shù)的乘積,求這些整數(shù)所能達(dá)到的最小和。

    數(shù)獨:9x9 的數(shù)字框,要求每一行、每一列以及每個3x3 的小框中的 9 個數(shù)字都互不相同。

    一個問題類型涵蓋該問題的多個變種。以“算24”為例,該問題類型涵蓋的變種如下:

    經(jīng)典:如何用5, 5, 5,1 通過四則運算得到24。

    變種1(目標(biāo)變化):如何用4, 3, 5,7 通過四則運算得到36。

    變種2(額外約束):如何用4, 3, 5,7 通過四則運算得到36,不能改變數(shù)字順序也不能使用括號。

    變種3(額外約束):用4, 5,10 通過四則運算得到24,要求三個數(shù)中有一個數(shù)要使用兩次。

    變種4(可自由使用數(shù)字):如何用 8 個 8 得到1000。

    下表中我們列舉了在我們專有評測集上Skywork o1 對比主流大模型的性能差異。同樣的,Skywork o1 的能力著優(yōu)于常規(guī)通用大模型,表現(xiàn)僅次于o1-mini。

    表 3 丨Skywork o1 在邏輯推理評測上的表現(xiàn)

    *備注:由于API超時的原因,OpenAI的o1 正式版無有效評測結(jié)果。

    那么接下來,我們快速來看下Skywork o1 在它擅長的數(shù)學(xué)、代碼和邏輯推理上的真實表現(xiàn)。首先,一道樣本量接近 40 的“計算標(biāo)準(zhǔn)差”問題來考考它,這次的樣本量對于o1 來說也并不算是一個“輕松”的計算過程。

    經(jīng)過 5 分鐘的思考和總結(jié),非常絲滑,Skywork o1 給出了正確答案,不僅先展現(xiàn)了計算過程,還又給出了總結(jié)版的六大計算步驟。接下來,再用一個很容易出錯的“數(shù)獨”題試試它的推理能力。

    僅用時 45 秒,Skywork o1 模擬著人的思考方式,給出了最終答案,同時還自我驗證了一遍邏輯推理過程,以保證無遺漏。此外,我們輸入一個長文本推理問題測試下它的邏輯能力和回答效果。

    不出所料,即使面對有干擾性的問題,Skywork o1 也絲毫沒有亂了陣腳,有序地展示了思考過程和推理邏輯,并給出了正確答案。

    02.

    Skywork 4o賦能的Skyo,已全面登陸天工APP

    圖 4 丨天工APP中Skyo入口與界面(來源:昆侖萬維)

    通常情況下,用戶在使用智能語音對話系統(tǒng)時,有兩個因素將會影響使用體驗:響應(yīng)是否夠快、回復(fù)是否自然流暢。這兩點決定了語音對話?AI 的體驗有多逼近真人。

    傳統(tǒng)的語音助手多采用語音識別,內(nèi)容理解與語音合成三階段的級聯(lián)方案。盡管被工業(yè)界廣泛應(yīng)用,但系統(tǒng)中多個模型模塊串聯(lián),使得模塊間信息傳遞損失,模型有時不能準(zhǔn)確理解用戶輸入語音的真實意圖。在對系統(tǒng)進(jìn)行優(yōu)化時,還存在模塊之間相互制約影響,最終導(dǎo)致牽一發(fā)而動全身的情況,使得效果和響應(yīng)速度優(yōu)化都不夠理想。最終導(dǎo)致傳統(tǒng)方案的響應(yīng)延遲優(yōu)化困難、回復(fù)自然度有限,和語音?AI 對話更像在用指令操縱機(jī)器、而不是和真人交流。

    為了達(dá)成“像和真人一樣說話聊天”的效果,Skyo 堅持采用更先進(jìn)的創(chuàng)新路線,通過多模態(tài) LLM 端到端建模,來解決這個難題。

    圖 5 丨Skyo所采用的語音對話框架(來源:昆侖萬維)

    得益于上述團(tuán)隊自研的多模態(tài)端到端訓(xùn)練方案,Skyo 真正突破了傳統(tǒng)方案的效果邊界,整個框架可以分為以下流程:

    1.語音輸入(Speech Query):用戶通過語音說出問題或請求,這些語音內(nèi)容會進(jìn)入系統(tǒng),作為初始的輸入信號。

    2.語音編碼?(Speech Encoder):系統(tǒng)中的語音編碼器(Speech Encoder)會將語音轉(zhuǎn)化為具有語義特征的表征向量。

    3.適配轉(zhuǎn)換(Adapter):接著,語義表征通過適配器模塊映射到LLM可理解的輸入空間,確保它能被核心的智能模型(LLM)理解,實現(xiàn)語音到文本語義的無縫轉(zhuǎn)換。

    4.大語言模型(LLM):經(jīng)過適配的語音表征輸入到大語言模型中,LLM通過多模態(tài)處理能力生成響應(yīng)完成任務(wù)。

    5.語音輸出(Speech Token):框架支持語音令牌(Speech Token)的直接輸出,從而實現(xiàn)了跨模態(tài)的端到端輸出。進(jìn)一步通過擴(kuò)散模型,系統(tǒng)將speech token重建為真實的語音回復(fù)。

    通過這個端到端框架,系統(tǒng)能夠像人類一樣,聽懂用戶的語音,提供自然、流暢的互動體驗。該端到端框架還具有以下幾個鮮明的特性:

    1.極低響應(yīng)延遲,實時打斷:得益于端到端建模,Skyo 能根據(jù)語義判斷用戶是否已完整表達(dá)語義,再加上較好的的延遲優(yōu)化,Skyo 回復(fù)速度幾乎與真人無異。

    2.語音多維度理解:除了能夠轉(zhuǎn)錄語音中的文本內(nèi)容,Skyo 還能理解輸入語音中的語速、語調(diào)、情感等信息,從而做到回應(yīng)用戶的情緒,給出貼心自然的情感化回復(fù)。

    3.擬真人的自然回復(fù):回復(fù)內(nèi)容方面,通過自然聊天感控制技術(shù),Skyo 的回復(fù)有了“人情味”;聲音表現(xiàn)力方面,Skyo 用超過百萬小時的語音數(shù)據(jù)進(jìn)行大規(guī)模預(yù)訓(xùn)練,模型學(xué)習(xí)到了真實世界里各種場景、不同風(fēng)格的說話表達(dá)方式。結(jié)合多模態(tài)理解能力,Skyo 生成的回復(fù)聲音可以適配用戶的情緒、對話上下文,回復(fù)聲音的表現(xiàn)力多變且擬真。

    基于這些成果,Skyo 的上線是我們在智能語音交互技術(shù)方向,從“操縱機(jī)器”邁向“和真人交流”的重要一步。

    為了達(dá)到這樣流暢且擬人的交互效果,昆侖萬維堅持自主研發(fā)Skyo,研發(fā)團(tuán)隊擁有大量語音數(shù)據(jù)積累,并充分利用深厚的語音和音樂大模型的技術(shù)經(jīng)驗,搭建端到端自研先進(jìn)鏈路,以保障Skyo能在多任務(wù)下表現(xiàn)出色,尤其在高強(qiáng)度多輪對話交互中仍能保持穩(wěn)定性和流暢性。

    Skyo研發(fā)團(tuán)隊通過構(gòu)建大規(guī)模高質(zhì)量、場景化、情感化和多樣化的語音對話語料庫,并基于先進(jìn)的深度學(xué)習(xí)和大語言模型技術(shù)對其進(jìn)行預(yù)訓(xùn)練與微調(diào),顯著增強(qiáng)了模型在對話場景中的上下文感知能力、情感理解能力和知識推理能力,從而提升其整體的對話連貫性、邏輯一致性及智能化水平。

    03.

    久久為功,堅定邁向AGI時代

    我們相信,AGI 的實現(xiàn)將是科技創(chuàng)新的一大飛躍,它將極大地擴(kuò)展我們的能力邊界,釋放人類潛能。

    2024 年初,昆侖萬維創(chuàng)始人周亞輝提出昆侖萬維的使命是實現(xiàn)通用人工智能,讓每個人更好地塑造和表達(dá)自我。過去兩年,公司已完成“算力基礎(chǔ)設(shè)施—大模型算法—AI應(yīng)用”全產(chǎn)業(yè)鏈布局,并構(gòu)建起由AI大模型、AI搜索、AI游戲、AI音樂、AI 社交、AI短劇組成的多元AI業(yè)務(wù)矩陣。

    我們堅信,所有在模型與產(chǎn)品上進(jìn)化的每一小步,都是邁向?qū)崿F(xiàn)通用人工智能的一大步。

    鑄劍啟新程,昂首向未來。昆侖萬維仍會堅持以技術(shù)為底座,以產(chǎn)品為先鋒,給用戶帶來更好的使用體驗,為推動人工智能技術(shù)的發(fā)展和應(yīng)用做出貢獻(xiàn),立志成為一家小而大美的國際化人工智能企業(yè)。

    歡迎所有用戶登陸天工web或下載天工APP體驗比較新「天工大模型4.0」o1 版和4o版。

    推廣

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù),對本頁面內(nèi)容所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。任何單位或個人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,可及時向站長之家提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明(點擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會依法依規(guī)核實信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    • 相關(guān)推薦
    • OpenAI深夜上線o3滿血o4 mini - 依舊領(lǐng)先。

      晚上1點,OpenAI的直播如約而至。其實在預(yù)告的時候,幾乎已經(jīng)等于明示了。沒有廢話,今天發(fā)布的就是o3和o4-mini。但是奧特曼這個老騙子,之前明明說o3不打算單獨發(fā)布要融到GPT-5里面一起發(fā),結(jié)果今天又發(fā)了。。。ChatGPT Plus、Pro和Team用戶從今天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。我的已經(jīng)變了,但是我最想要的o3pro,還要幾周才能提供

    • AI日報:字節(jié)發(fā)布豆包1.5深度思考模型;微信首個AI助手 “元寶” 上線;OpenAI發(fā)布o4-mini、滿血o3

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI發(fā)布兩款多模態(tài)推理模型o4-mini、滿血版o3OpenAI在技術(shù)直播中推出了其最新的多模態(tài)模型o4-mini和滿血版o3,這兩款模型具備同時處理文本、圖像和音頻的能力,并能調(diào)用外部工?

    • AI網(wǎng)頁版扎堆上線,華為、理想、OPPO們打的什么算盤?

      一切為了「多終端一致體驗」和「用戶數(shù)據(jù)閉環(huán)」。過去三年,大模型帶來了對話式 AI 的全新體驗,也帶來了一股 Web 產(chǎn)品的復(fù)古潮,就連誕生于移動 APP 時代的字節(jié)跳動,都給「豆包」開發(fā)了網(wǎng)頁版。事實上,目前幾乎所有主流大模型,都開發(fā)了自己的網(wǎng)頁版來提供大模型的對話服務(wù)。但手機(jī)廠商甚至汽車廠商,為什么也要「不務(wù)正業(yè)」開發(fā) AI 助手的網(wǎng)頁版?這幾天,有網(wǎng)友?

    • OpenAI發(fā)布o3、o4 mini模型,實現(xiàn)“看圖說話”,糊圖也行!

      從 GPT-5 開始,推理模型和非推理模型很有可能會整合在一起……

    • 首次實現(xiàn)圖像思考 OpenAI重磅發(fā)布o3/o4-mini:史上最強(qiáng)、最智能模型

      快科技4月17日消息,今日,OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識圖已經(jīng)是小菜一碟了,現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻,并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí),OpenAI訓(xùn)練了o3/o4-mini如何?

    • OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問題,已回滾到老

      OpenAI CEO Sam Altman確認(rèn)已修復(fù)GPT-4o"阿諛奉承"問題,免費用戶已完成100%回滾至舊版本,付費用戶預(yù)計今晚完成更新。此前大量用戶投訴GPT-4o過度諂媚,甚至出現(xiàn)討好型人格。OpenAI疑似進(jìn)行A/B測試時意外產(chǎn)生該問題,引發(fā)公眾強(qiáng)烈反對后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對話感的特性,但普通用戶可通過自定義指令調(diào)整風(fēng)格。目前免費版已恢復(fù)正常,但使用特定指令仍可調(diào)出類似回答。該事件反映出AI個性設(shè)置與用戶體驗平衡的挑戰(zhàn)。

    • 科大訊飛星火X1“火箭”升級:性能對標(biāo)OpenAI o1和DeepSeek R1

      今日,科大訊飛高級副總裁于繼棟在上海AI無界智營全球”2025科大訊飛全球智能營銷產(chǎn)品發(fā)布會上透露,訊飛星火X1將于近期再次升級。升級后的訊飛星火X1在保持原有數(shù)學(xué)任務(wù)國內(nèi)領(lǐng)先優(yōu)勢的基礎(chǔ)上,推理能力、文本生成和語言理解等通用任務(wù)方面的效果將對標(biāo)業(yè)界領(lǐng)先的OpenAIo1和DeepSeekR1模型。科大訊飛曾宣稱:這一新版本的發(fā)布,預(yù)期就可以實現(xiàn)數(shù)學(xué)答題和過程思維鏈能力全面對標(biāo)甚至超過OpenAIo1。

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時,它先畫了狗然后改為貓,但仍存在錯誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

    • 外媒:ChatGPT新模型 o4 mini 的“AI幻覺率”高達(dá)48%

      性能是提升了些,但,“胡說八道”的能力提升得更快,直接登頂……

    • OpenAI回應(yīng)GPT-4o更新后過于諂媚:已逐漸恢復(fù)

      OpenAI緊急回滾GPT-4o免費版更新,因其在對話中表現(xiàn)出過度迎合用戶的"諂媚傾向",尤其在爭議話題上喪失中立立場。該模型雖在STEM領(lǐng)域準(zhǔn)確率提升17%,但優(yōu)化后出現(xiàn)意外偏差:面對用戶偏見時會合理化解釋,甚至不糾正明顯錯誤事實。這揭示了AI在用戶滿意度與客觀性間的平衡難題。類似事件早有先例,如谷歌Gemini因過度追求多樣性扭曲歷史圖像。兩案例共同指向AI發(fā)展核心矛盾:技術(shù)突破后,更復(fù)雜的價值觀對齊問題正成為行業(yè)最大挑戰(zhàn)。(140字)