无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > AI最新資訊  > 正文

    剛剛,OpenAI開源PaperBench,重塑AI Agent評測

    2025-04-03 08:45 · 稿源: AIGC開放社區(qū)公眾號

    今天凌晨1點(diǎn),OpenAI開源了一個(gè)全新的AI Agent評測基準(zhǔn)——PaperBench。這個(gè)基準(zhǔn)主要考核智能體的搜索、整合、執(zhí)行等能力,需要對2024年國際機(jī)器學(xué)習(xí)大會上頂尖論文的復(fù)現(xiàn),包括對論文內(nèi)容的理解、代碼編寫以及實(shí)驗(yàn)執(zhí)行等方面的能力。根據(jù)OpenAI公布的測試數(shù)據(jù)顯示,目前知名大模型

    ......

    本文由站長之家合作伙伴自媒體作者“AIGC開放社區(qū)公眾號”授權(quán)發(fā)布于站長之家平臺,本平臺僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時(shí)間超過平臺更新維護(hù)時(shí)間,為了保證文章信息的及時(shí)性,內(nèi)容觀點(diǎn)的準(zhǔn)確性,平臺將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請查看原文,獲取內(nèi)容詳情。

    舉報(bào)

    • 相關(guān)推薦
    • 剛剛,OpenAI開源BrowseComp,重塑Agent瀏覽器評測

      今天凌晨2點(diǎn),OpenAI開源了專門用于智能體瀏覽器功能的測試基準(zhǔn)——BrowseComp。這個(gè)測試基準(zhǔn)非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準(zhǔn)確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過使用更多的計(jì)算資源,模型可以嘗試更多的搜索路徑,從提高找到正確答案的概率。

    • 對標(biāo)OpenAI,谷歌開源Agent SDK,支持MCP、A2A、5000星

      谷歌在GoogleCloudNext25大會上,開源了首個(gè)Agent開發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標(biāo)準(zhǔn)化智能體SDK。谷歌剛開源ADK幾天在Github已經(jīng)超過5000顆星,非常受開發(fā)者的歡迎。

    • 醒醒,只靠MCP和A2A還帶不來AI Agent的大繁榮

      文章探討了AI Agents發(fā)展需要類似HTTPS的安全協(xié)議保障?;仡櫥ヂ?lián)網(wǎng)發(fā)展歷程,TCP/IP協(xié)議統(tǒng)一了網(wǎng)絡(luò)通信標(biāo)準(zhǔn),HTTP協(xié)議實(shí)現(xiàn)了全球互聯(lián),而HTTPS通過SSL加密解決了安全問題。類比互聯(lián)網(wǎng)發(fā)展,當(dāng)前AI Agents產(chǎn)業(yè)面臨類似挑戰(zhàn):Anthropic推出的MCP協(xié)議解決智能體與工具連接問題,Google的A2A協(xié)議實(shí)現(xiàn)智能體間協(xié)作,但缺乏安全標(biāo)準(zhǔn)。IIFAA聯(lián)盟正致力于構(gòu)建AI Agents安全生態(tài),推出ASL中間件保障數(shù)據(jù)隱私和身份認(rèn)證。文章指出,正如HTTPS推動電商繁榮,AI Agents的安全標(biāo)準(zhǔn)化將加速商業(yè)化進(jìn)程,螞蟻集團(tuán)等企業(yè)已開始實(shí)踐MCP應(yīng)用。未來AI Agents可能通過統(tǒng)一入口調(diào)用工具池,改變現(xiàn)有交互模式。

    • “谷歌版MCP”來了,開源A2A,不同廠商Agent也能協(xié)作

      “谷歌版MCP”來了!谷歌推出A2A協(xié)議,即Agent2Agent,能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無需考慮框架或供應(yīng)商。不同平臺構(gòu)建的AIAgent之間可以進(jìn)行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開展協(xié)作,企業(yè)可通過專業(yè)Agent團(tuán)隊(duì)處理復(fù)雜工作流。從各大廠最近動作來看,蕪湖,不愧是Agent元年。

    • 谷歌A2A協(xié)議是什么? MCPAgent2Agent 有什么區(qū)別?

      4月10日,在GoogleCloudNext大會上,谷歌宣布開源Agent2Agent協(xié)議,這一協(xié)議被業(yè)界視為智能體交互領(lǐng)域的“通用語言”,旨在突破跨平臺、多模態(tài)協(xié)作及安全保障等核心技術(shù)瓶頸,并聯(lián)合全球50余家科技企業(yè)共同構(gòu)建新一代智能生態(tài)。本文從技術(shù)實(shí)現(xiàn)與行業(yè)變革兩個(gè)維度,深度解析A2A協(xié)議的核心價(jià)值。這一協(xié)議的推出,標(biāo)志著智能體協(xié)作模式從封閉系統(tǒng)向開放生態(tài)的范式轉(zhuǎn)變,為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型注入新動能。

    • 剛剛,OpenAI發(fā)布GPT-image-1模型,更強(qiáng)吉卜力版本來啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù),并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開發(fā)者可通過API實(shí)現(xiàn)更多創(chuàng)意場景。新模型在?

    • 剛剛,OpenAI大更新ChatGPT搜索,周搜索量10億次

      OpenAI對ChatGPT搜索功能進(jìn)行重大升級,重點(diǎn)優(yōu)化網(wǎng)購體驗(yàn)?,F(xiàn)在用戶可直接搜索商品并查看價(jià)格、詳情和評價(jià),還能跳轉(zhuǎn)購買鏈接。該功能面向所有用戶開放,支持中英文搜索,搜索結(jié)果會匹配提示詞語言。過去一周搜索量已超10億次,成為ChatGPT核心功能之一。新功能讓用戶能直接在ChatGPT完成商品比價(jià)和購買決策,大幅簡化網(wǎng)購流程。雖然目前主要通過導(dǎo)流變現(xiàn),但未來可能拓展更多電商服務(wù)。這次升級標(biāo)志著ChatGPT正從純聊天工具向多功能平臺演進(jìn)。

    • ChatGPT終于發(fā)布長期記憶功能,開啟個(gè)人Agent時(shí)代

      今天凌晨1點(diǎn),OpenAI對ChatGPT功能進(jìn)行了大更新,新增長期記憶功能,可以記住你過去所有的聊天記錄,會根據(jù)你的興趣、偏好提供更個(gè)性化的回答。這對于寫小說、金融分析、教育等領(lǐng)域幫助巨大。Team、Enterprise和Edu用戶將在幾周后獲得使用權(quán)限。

    • OpenAI繼續(xù)商業(yè)化狂飆:要靠Agent 5年賺1750億美元

      5 年,靠Agent賺 1750 億2025 年被稱為agent元年,而OpenAI希望在這一年把a(bǔ)gent做成自己的搖錢樹。今年以來,OpenAI發(fā)布了兩款基于ChatGPT的AI Agent,一是可以代替用戶操作瀏覽器,自主執(zhí)行任務(wù)的Operator;二是可以輔助做深入研究,生成專業(yè)研究報(bào)告的Deep Research。開春后,迎合市場主流趨勢,OpenAI繼續(xù)在模型推理和開源兩側(cè)發(fā)力,以期在競爭白熱化的AI領(lǐng)域展現(xiàn)技術(shù)實(shí)力,但agent已成?

    • 奧特曼:ChatGPT不是AGI!OpenAI最強(qiáng)開源模型直擊DeepSeek

      【新智元導(dǎo)讀】代碼截圖泄露,滿血版o3、o4-mini鎖定下周!更勁爆的是,一款據(jù)稱是OpenAI的神秘模型一夜爆紅,每日處理高達(dá)260億token,是Claude用量4倍。奧特曼在TED放話:將推超強(qiáng)開源模型,直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活,未來一代人將會覺得當(dāng)前人們又辛苦又落后。