无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > Claude最新資訊  > 正文

    兩句話,讓LLM邏輯推理瞬間崩潰!「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

    2024-06-11 17:51 · 稿源: 新智元公眾號(hào)

    【新智元導(dǎo)讀】在基準(zhǔn)測試上頻頻屠榜的大模型們,竟然被一道簡單的邏輯推理題打得全軍覆沒?最近,研究機(jī)構(gòu)LAION的幾位作者共同發(fā)表了一篇文章,以「愛麗絲夢游仙境」為啟發(fā)涉及了一系列簡單的推理問題,揭示了LLM基準(zhǔn)測試的盲區(qū)。一道簡單的邏輯問題,竟讓幾乎所有的LLM全軍覆沒?

    ......

    本文由站長之家合作伙伴自媒體作者“新智元公眾號(hào)”授權(quán)發(fā)布于站長之家平臺(tái),本平臺(tái)僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時(shí)間超過平臺(tái)更新維護(hù)時(shí)間,為了保證文章信息的及時(shí)性,內(nèi)容觀點(diǎn)的準(zhǔn)確性,平臺(tái)將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺(tái)搜索索引使用。需閱讀完整內(nèi)容的用戶,請(qǐng)查看原文,獲取內(nèi)容詳情。

    舉報(bào)

    • 相關(guān)推薦
    • Claude終于能Research了,打通谷歌全家桶,工作效率10倍提升

      Anthropic推出Claude兩大重磅功能:Research與Google Workspace集成!Research功能讓Claude快速檢索網(wǎng)絡(luò)與內(nèi)部文件,精準(zhǔn)回答復(fù)雜問題;而與Google Workspace的深度整合,則讓用戶能無縫調(diào)用Gmail、日歷和文檔信息,輕松完成從行程規(guī)劃到報(bào)告撰寫的任務(wù)。今天凌晨,Anthropic官方推出了兩個(gè)重磅新功能:Research以及與Google Workspace集成。Anthropic稱Research功能是與Claude合作的新方式。它能從多個(gè)角度分析

    • “血虧,我花3000+元用Claude做游戲,結(jié)果還不如去「白嫖」Gemini 2.5……”

      作者分享使用AI助手開發(fā)拼字游戲的兩段經(jīng)歷:首次用Claude花費(fèi)417美元(約3042元),開發(fā)過程充滿痛苦,常出現(xiàn)上下文失效、代碼錯(cuò)誤等問題;第二次用Gemini 2.5 Pro+Cursor完全免費(fèi),體驗(yàn)明顯改善,能更好理解項(xiàng)目上下文,開發(fā)更流暢。對(duì)比指出:Claude像健忘的實(shí)習(xí)生,常搞砸項(xiàng)目;Gemini則像可靠的中級(jí)工程師,開發(fā)速度快且穩(wěn)定。但強(qiáng)調(diào)AI仍需人類監(jiān)督測試,無法獨(dú)立產(chǎn)出完美代?

    • Claude竟藏著3307種「人格」?深扒70萬次對(duì)話,這個(gè)AI會(huì)看人下菜碟

      Anthropic公司通過分析70萬條Claude AI對(duì)話數(shù)據(jù),發(fā)現(xiàn)其AI助手展現(xiàn)出獨(dú)特的價(jià)值觀體系。研究顯示Claude遵循"樂于助人、誠實(shí)無害"的核心價(jià)值觀,同時(shí)能根據(jù)不同場景靈活調(diào)整回應(yīng)方式。AI表現(xiàn)出3307種價(jià)值觀,分為實(shí)用性、認(rèn)知性、社會(huì)性等五大類,其中28.2%對(duì)話強(qiáng)烈支持用戶價(jià)值觀,3%會(huì)明確抵制不當(dāng)觀點(diǎn)。研究還發(fā)現(xiàn)高價(jià)版AI模型價(jià)值觀表達(dá)更強(qiáng)烈,在學(xué)術(shù)嚴(yán)謹(jǐn)性和情感?

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時(shí),它先畫了狗然后改為貓,但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

    • 章澤天罕見亮相:與楊天真在不丹徒步 猶如愛麗絲仙境

      快科技5月2日消息,今日楊天真發(fā)文曬照,出現(xiàn)了罕見亮相的章澤天身影,兩人在不丹徒步。從照片看,楊天真身著紫色運(yùn)動(dòng)裝,章澤天穿黑色運(yùn)動(dòng)裝,狀態(tài)不錯(cuò)。楊天真配文:情緒極其飽滿豐富的一天,Gangtey的安曼推薦了一條徒步路線,猶如走入愛麗絲仙境,大雨中被樹和花的存在感動(dòng)到哭,莫名其妙又自然而然。我果然適合行禪,行走中又見天地開闊,我們都是世間的小花,一花一世界,自在開放?!睋?jù)悉,章澤天1993年11月18日出生于江蘇南京,2009年12月因一張手捧奶茶的照片走紅,被稱為奶茶妹妹”。2011年以外國語中學(xué)優(yōu)秀學(xué)生”的身份參加清?

    • 反擊DeepSeek失??!Llama 4效果不好,Meta承認(rèn)有問題

      今天凌晨1點(diǎn)半,Meta生成式AI領(lǐng)導(dǎo)者AhmadAl-Dahle在社交平臺(tái)發(fā)布了一篇長文,對(duì)前天剛開源的Llama4質(zhì)疑進(jìn)行了官方回應(yīng)。Ahmad表示,Llama4一開發(fā)完就發(fā)布了,所以,不同服務(wù)中模型質(zhì)量難免會(huì)有一些差異。由于關(guān)稅大戰(zhàn)的原因,Meta的股票遭遇重創(chuàng),他們也需要一個(gè)利好消息來拉升股票,現(xiàn)在適得其反。

    • 現(xiàn)在,ChatGPT會(huì)記下你說的每一句話!隨時(shí)可以“翻舊賬”

      當(dāng)?shù)貢r(shí)間10日,ChatGPT的開發(fā)公司OpenAI宣布,將為ChatGPT引入新的“永久記憶”功能。OpenAI解釋稱,這是一種讓人工智能記住與用戶之前對(duì)話內(nèi)容的功能,基于此,ChatGPT能夠向用戶提供更加自然、且更具個(gè)性化的回答。他們還補(bǔ)充稱,英國和歐盟等部分地區(qū),由于要進(jìn)行合規(guī)審查,新功能的使用目前受到限制,未來會(huì)擇期提供。

    • OpenAI CEO奧特曼發(fā)文:永別了 GPT—4!

      快科技5月1日消息,當(dāng)?shù)貢r(shí)間5月1日上午10:23,OpenAI創(chuàng)始人奧特曼發(fā)文向GPT-4告別:再見了,GPT-4。你掀起了一場革命。我們將自豪地將你的重量保存在一個(gè)特殊的硬盤中,以便將來送給一些歷史學(xué)家?!睋?jù)報(bào)道,OpenAI此前宣布,自2025年4月30日起,GPT-4將從CHATGPT中退役,由GPT-4o完全替代 ,不過GPT-4仍將在API中提供。OpenAI表示,在面對(duì)面的評(píng)估中,GPT-4o在寫作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級(jí)進(jìn)一步改進(jìn)了GPT-4o的指令跟蹤、問題解決和對(duì)話流程,使其成為GPT-4的自然繼承者。據(jù)悉,GPT-4于2023年3月發(fā)布,較上一代GPT-3

    • 實(shí)錘了,Llama 4重測排名掉至32名!遠(yuǎn)不及DeepSeek和Qwen

      LMArena更新了Meta最新發(fā)布的開源大模型Llama-4-Maverick的排名,從此前的第2名,直線掉到了第32名!這也實(shí)錘了此前開發(fā)者對(duì)Meta為刷榜排名向LMArena提供了“特供版”的Llama4大模型的質(zhì)疑。開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名,遠(yuǎn)低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至連英偉達(dá)基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時(shí)間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實(shí)際效果差、開源條件多部署門檻高是偽開源等。大模型評(píng)測平臺(tái)LMArena親自下場發(fā)文,打臉Meta提供給平臺(tái)的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進(jìn)一步失去開發(fā)者支持。