无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

兩句話，讓LLM邏輯推理瞬間崩潰！「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

2024-06-11 17:51 · 稿源：新智元公眾號(hào)

【新智元導(dǎo)讀】在基準(zhǔn)測試上頻頻屠榜的大模型們，竟然被一道簡單的邏輯推理題打得全軍覆沒?最近，研究機(jī)構(gòu)LAION的幾位作者共同發(fā)表了一篇文章，以「愛麗絲夢游仙境」為啟發(fā)涉及了一系列簡單的推理問題，揭示了LLM基準(zhǔn)測試的盲區(qū)。一道簡單的邏輯問題，竟讓幾乎所有的LLM全軍覆沒?

......

本文由站長之家合作伙伴自媒體作者“新智元公眾號(hào)”授權(quán)發(fā)布于站長之家平臺(tái)，本平臺(tái)僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時(shí)間超過平臺(tái)更新維護(hù)時(shí)間，為了保證文章信息的及時(shí)性，內(nèi)容觀點(diǎn)的準(zhǔn)確性，平臺(tái)將不提供完全的內(nèi)容展現(xiàn)，本頁面內(nèi)容僅為平臺(tái)搜索索引使用。需閱讀完整內(nèi)容的用戶，請(qǐng)查看原文，獲取內(nèi)容詳情。

即將跳轉(zhuǎn)到外部網(wǎng)站

安全性未知，是否繼續(xù)

繼續(xù)前往

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

Claude
GPT

薦Claude終于能Research了，打通谷歌全家桶，工作效率10倍提升

Anthropic推出Claude兩大重磅功能:Research與Google Workspace集成!Research功能讓Claude快速檢索網(wǎng)絡(luò)與內(nèi)部文件，精準(zhǔn)回答復(fù)雜問題;而與Google Workspace的深度整合，則讓用戶能無縫調(diào)用Gmail、日歷和文檔信息，輕松完成從行程規(guī)劃到報(bào)告撰寫的任務(wù)。今天凌晨，Anthropic官方推出了兩個(gè)重磅新功能:Research以及與Google Workspace集成。Anthropic稱Research功能是與Claude合作的新方式。它能從多個(gè)角度分析

?Claude ?Anthropic ?Research功能
薦“血虧，我花3000+元用Claude做游戲，結(jié)果還不如去「白嫖」Gemini 2.5……”

作者分享使用AI助手開發(fā)拼字游戲的兩段經(jīng)歷：首次用Claude花費(fèi)417美元(約3042元)，開發(fā)過程充滿痛苦，常出現(xiàn)上下文失效、代碼錯(cuò)誤等問題；第二次用Gemini 2.5 Pro+Cursor完全免費(fèi)，體驗(yàn)明顯改善，能更好理解項(xiàng)目上下文，開發(fā)更流暢。對(duì)比指出：Claude像健忘的實(shí)習(xí)生，常搞砸項(xiàng)目；Gemini則像可靠的中級(jí)工程師，開發(fā)速度快且穩(wěn)定。但強(qiáng)調(diào)AI仍需人類監(jiān)督測試，無法獨(dú)立產(chǎn)出完美代?

?拼字游戲 ?AI編程 ?Claude
薦Claude竟藏著3307種「人格」？深扒70萬次對(duì)話，這個(gè)AI會(huì)看人下菜碟

Anthropic公司通過分析70萬條Claude AI對(duì)話數(shù)據(jù)，發(fā)現(xiàn)其AI助手展現(xiàn)出獨(dú)特的價(jià)值觀體系。研究顯示Claude遵循"樂于助人、誠實(shí)無害"的核心價(jià)值觀，同時(shí)能根據(jù)不同場景靈活調(diào)整回應(yīng)方式。AI表現(xiàn)出3307種價(jià)值觀，分為實(shí)用性、認(rèn)知性、社會(huì)性等五大類，其中28.2%對(duì)話強(qiáng)烈支持用戶價(jià)值觀，3%會(huì)明確抵制不當(dāng)觀點(diǎn)。研究還發(fā)現(xiàn)高價(jià)版AI模型價(jià)值觀表達(dá)更強(qiáng)烈，在學(xué)術(shù)嚴(yán)謹(jǐn)性和情感?

?AI對(duì)話 ?價(jià)值觀 ?隱私
薦生成很強(qiáng)，推理很弱：GPT-4o的視覺短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫一只貓時(shí)，它先畫了狗然后改為貓，但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”，需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

?AI畫圖 ?GPT-4o ?圖像理解
章澤天罕見亮相：與楊天真在不丹徒步猶如愛麗絲仙境

快科技5月2日消息，今日楊天真發(fā)文曬照，出現(xiàn)了罕見亮相的章澤天身影，兩人在不丹徒步。從照片看，楊天真身著紫色運(yùn)動(dòng)裝，章澤天穿黑色運(yùn)動(dòng)裝，狀態(tài)不錯(cuò)。楊天真配文：情緒極其飽滿豐富的一天，Gangtey的安曼推薦了一條徒步路線，猶如走入愛麗絲仙境，大雨中被樹和花的存在感動(dòng)到哭，莫名其妙又自然而然。我果然適合行禪，行走中又見天地開闊，我們都是世間的小花，一花一世界，自在開放?！睋?jù)悉，章澤天1993年11月18日出生于江蘇南京，2009年12月因一張手捧奶茶的照片走紅，被稱為奶茶妹妹”。2011年以外國語中學(xué)優(yōu)秀學(xué)生”的身份參加清?

?楊天真 ?章澤天 ?徒步旅行
薦反擊DeepSeek失??！Llama 4效果不好，Meta承認(rèn)有問題

今天凌晨1點(diǎn)半，Meta生成式AI領(lǐng)導(dǎo)者AhmadAl-Dahle在社交平臺(tái)發(fā)布了一篇長文，對(duì)前天剛開源的Llama4質(zhì)疑進(jìn)行了官方回應(yīng)。Ahmad表示，Llama4一開發(fā)完就發(fā)布了，所以，不同服務(wù)中模型質(zhì)量難免會(huì)有一些差異。由于關(guān)稅大戰(zhàn)的原因，Meta的股票遭遇重創(chuàng)，他們也需要一個(gè)利好消息來拉升股票，現(xiàn)在適得其反。

?Meta ?Llama4 ?生成式AI
現(xiàn)在，ChatGPT會(huì)記下你說的每一句話！隨時(shí)可以“翻舊賬”

當(dāng)?shù)貢r(shí)間10日，ChatGPT的開發(fā)公司OpenAI宣布，將為ChatGPT引入新的“永久記憶”功能。OpenAI解釋稱，這是一種讓人工智能記住與用戶之前對(duì)話內(nèi)容的功能，基于此，ChatGPT能夠向用戶提供更加自然、且更具個(gè)性化的回答。他們還補(bǔ)充稱，英國和歐盟等部分地區(qū)，由于要進(jìn)行合規(guī)審查，新功能的使用目前受到限制，未來會(huì)擇期提供。

?ChatGPT ?人工智能 ?記憶功能
OpenAI CEO奧特曼發(fā)文：永別了 GPT—4！

快科技5月1日消息，當(dāng)?shù)貢r(shí)間5月1日上午10:23，OpenAI創(chuàng)始人奧特曼發(fā)文向GPT-4告別：再見了，GPT-4。你掀起了一場革命。我們將自豪地將你的重量保存在一個(gè)特殊的硬盤中，以便將來送給一些歷史學(xué)家?！睋?jù)報(bào)道，OpenAI此前宣布，自2025年4月30日起，GPT-4將從CHATGPT中退役，由GPT-4o完全替代，不過GPT-4仍將在API中提供。OpenAI表示，在面對(duì)面的評(píng)估中，GPT-4o在寫作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級(jí)進(jìn)一步改進(jìn)了GPT-4o的指令跟蹤、問題解決和對(duì)話流程，使其成為GPT-4的自然繼承者。據(jù)悉，GPT-4于2023年3月發(fā)布，較上一代GPT-3

?OpenAI ?GPT-4 ?人工智能
實(shí)錘了，Llama 4重測排名掉至32名！遠(yuǎn)不及DeepSeek和Qwen

LMArena更新了Meta最新發(fā)布的開源大模型Llama-4-Maverick的排名，從此前的第2名，直線掉到了第32名！這也實(shí)錘了此前開發(fā)者對(duì)Meta為刷榜排名向LMArena提供了“特供版”的Llama4大模型的質(zhì)疑。開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名，遠(yuǎn)低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max，甚至連英偉達(dá)基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

?Meta ?Llama ?4
Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時(shí)間，口碑急轉(zhuǎn)直下，被質(zhì)疑為刷榜作弊實(shí)際效果差、開源條件多部署門檻高是偽開源等。大模型評(píng)測平臺(tái)LMArena親自下場發(fā)文，打臉Meta提供給平臺(tái)的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺，恐將在AI競賽中進(jìn)一步失去開發(fā)者支持。

?Meta ?Llama ?4

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<mark id="3m9lh"></mark>