今天凌晨2點(diǎn),OpenAI開源了專門用于智能體瀏覽器功能的測試基準(zhǔn)——BrowseComp。這個測試基準(zhǔn)非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準(zhǔn)確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。但OpenAI最新發(fā)布的Agent模型Deep Research準(zhǔn)確率高達(dá)51.5%,在自主
......
本文由站長之家合作伙伴自媒體作者“AIGC開放社區(qū)公眾號”授權(quán)發(fā)布于站長之家平臺,本平臺僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時間超過平臺更新維護(hù)時間,為了保證文章信息的及時性,內(nèi)容觀點(diǎn)的準(zhǔn)確性,平臺將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請查看原文,獲取內(nèi)容詳情。
(舉報)