无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > DeepMind最新資訊  > 正文

    谷歌DeepMind推出“超人類”AI系統(tǒng)SAFE,擅長事實核查,節(jié)約成本并提高準確性

    2024-03-29 09:23 · 稿源:站長之家

    劃重點:

    ?? 研究人員開發(fā)了名為SAFE的AI系統(tǒng),使用大型語言模型來評估信息的準確性。

    ?? SAFE的使用成本約為人工事實檢查的20倍,可大大降低成本。

    ?? 研究引發(fā)了“超人類”表現(xiàn)的爭議,需要更多透明度和人類基準來評估其真實效果。

    站長之家(ChinaZ.com)3月29日 消息:谷歌DeepMind的研究團隊發(fā)布了一項新研究,介紹了一種名為“Search-Augmented Factuality Evaluator (SAFE)”的人工智能系統(tǒng)。該系統(tǒng)利用大型語言模型將生成的文本分解成個別事實,并利用谷歌搜索結(jié)果來確定每個聲明的準確性。研究發(fā)現(xiàn),SAFE在評估大型語言模型生成的信息準確性方面優(yōu)于人工事實檢查員。

    image.png

    與人工標注員的對比顯示,SAFE的評估結(jié)果與人工評級的一致率達到了72%。更值得注意的是,在100個SAFE與人工評級者之間存在分歧的樣本中,SAFE的判斷在76%的情況下被證明是正確的。然而,研究中“超人類”表現(xiàn)的說法引發(fā)了爭議,一些專家質(zhì)疑這里的“超人類”到底是什么意思。他們認為,需要更多透明度和人類基準來評估SAFE的真實效果,而不僅僅是依賴于眾包工人。

    SAFE的應(yīng)用成本約為人工事實檢查的20倍,這意味著它可以大大降低事實核查的成本。研究團隊還使用SAFE評估了13個頂級語言模型的事實準確性,并發(fā)現(xiàn)較大型的模型通常產(chǎn)生較少的錯誤。盡管最佳模型的表現(xiàn)仍然存在一定數(shù)量的錯誤,但自動事實檢查工具如SAFE可能在減少這些風險方面發(fā)揮關(guān)鍵作用。

    雖然SAFE的代碼和LongFact數(shù)據(jù)集已在GitHub上開源,但研究人員指出,仍需要更多關(guān)于研究中使用的人類基準的透明度。正因如此,技術(shù)巨頭們競相開發(fā)越來越強大的語言模型,自動核查這些系統(tǒng)輸出的信息的能力可能變得至關(guān)重要。SAFE等工具代表著建立新的信任和責任層面的重要一步。

    然而,關(guān)鍵是這類重要技術(shù)的發(fā)展必須在開放的環(huán)境中進行,并獲得來自廣泛利益相關(guān)者的意見。嚴格、透明地與人類專家進行基準測試將是衡量真正進步的關(guān)鍵所在。只有這樣,我們才能評估自動事實檢查對打擊錯誤信息的實際影響。

    論文地址:https://arxiv.org/pdf/2403.18802.pdf

    舉報

    • 相關(guān)推薦
    • 深度deepin 23.1正式發(fā)布!AI默認引擎切換至DeepSeek、修復超百項問題

      快科技4月16日消息,今天,深度操作系統(tǒng)宣布,deepin 23.1版本已正式發(fā)布。此版本聚焦于解決基礎(chǔ)組件更新后的安裝效率問題,大幅提升新用戶安裝體驗,同時集成多項功能優(yōu)化與問題修復,進一步優(yōu)化系統(tǒng)使用。本次版本的重點改進包括內(nèi)核優(yōu)化、AI 默認引擎切換至DeepSeek、修復超百項用戶反饋問題等,具體重點改進如下:硬件兼容性與內(nèi)核優(yōu)化:集成6.6/6.12內(nèi)核更新、NVIDIA顯卡驅(qū)動升級、Intel/AMD CPU微碼更新,全面提升硬件支持與底層性能;核心功能增強:DDE新增智能鏡像源管理、緊湊模式入口,全局搜索支持離線自然語言與AI處理能力;?

    • AI進化論——音樂、繪畫和舞蹈的DeepSeek時刻

      “昔者倉頡作書天雨粟,鬼夜哭”——人類掌握文字后,天地為之動容,因為屬于人類的文明誕生了?!皞}頡作書”出自西漢《淮南子》,距離人類掌握文字已經(jīng)過去了千年。AI進化的答案,或許早就鐫刻在人類文明的起點里。

    • 艾力斯特iRest云系統(tǒng)接入Deepseek賦能AI健康管理新時代

      隨著人工智能技術(shù)的快速發(fā)展,健康管理領(lǐng)域也掀起了AI智能化轉(zhuǎn)型的新浪潮。iRest艾力斯特作為中國按摩器具行業(yè)領(lǐng)先品牌,為滿足用戶日益增長的個性化健康管理需求,旗下獨家研發(fā)的iRest云系統(tǒng)——按摩椅智能控制系統(tǒng)和健康管理平臺,于今年3月份完成三項重大功能升級:接入DeepseekAI智能健康管家、聯(lián)動華為運動健康以及推出按摩周月年報功能。艾力斯特將繼續(xù)深耕健康科技領(lǐng)域,以用戶需求為導向,通過健康生態(tài)鏈智能技術(shù)建立起iRest產(chǎn)品生態(tài)鏈,不斷推出創(chuàng)新產(chǎn)品與服務(wù),為用戶創(chuàng)造更健康、更便捷的生活方式。

    • 超過ChatGPT、Deepseek?谷歌發(fā)布 Gemini 2.5 Flash AI 模型

      新版AI模型縮短了響應(yīng)時間,節(jié)約了運算成本;還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”,據(jù)稱,這款AI模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計劃在三星今年上半年推出的AI伴侶機器人Ballie上搭載生成式AI模型。

    • 寶馬中國將接入DeepSeek!爆新世代車型搭載AI智能體

      寶馬中國4月27日宣布接入深度求索(DeepSeek)AI大模型,深化本土AI生態(tài)布局。這是繼寶馬與阿里巴巴達成AI大語言模型合作后,再次聯(lián)手中國科技企業(yè)。從今年三季度起,搭載第九代寶馬操作系統(tǒng)的多款國產(chǎn)新車將率先應(yīng)用該技術(shù),通過智能個人助理提升人機交互體驗。寶馬還計劃將DeepSeek功能應(yīng)用于新一代國產(chǎn)車型。此前3月,寶馬已與阿里云合作開發(fā)車載AI引擎,雙方在上海車展展示了識別率達99%的智能語音交互系統(tǒng)。此次合作將突破車載場景限制,實現(xiàn)車輛與外部世界的智能連接,為用戶提供個性化出行體驗。

    • DeepSeek帶飛寒武紀

      寒武紀憑借AI芯片業(yè)務(wù)實現(xiàn)扭虧為盈,2024年首次實現(xiàn)上市后盈利,2025年Q1營收11.11億元同比暴增4230%,凈利潤3.55億元。這家曾連虧8年、累計虧損54億元的"中國版英偉達",因美國對H20芯片出口管制獲得市場紅利,但客戶集中度過高(前五大客戶貢獻94.63%營收)和現(xiàn)金流波動仍是隱憂。當前國產(chǎn)芯片迎來發(fā)展機遇,華為昇騰、壁仞等企業(yè)紛紛搶占市場,行業(yè)競爭日趨激烈。

    • DeepSeek上新!開源發(fā)布DeepSeek-Prover-V2-671B新模型

      快科技4月30日消息,今日,DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹,DeepSeek-Prover-V2-671B 其參數(shù)量達到6710億,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多種計算精度,方便模型更快、更省資源地訓練和部署。在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時支持超長上下文,最大位置嵌入達163840,使其能處理復雜的數(shù)學證明,并且采用了FP8量化,可通過量化技術(shù)減小模型大小,提

    • DeepSeek紅利耗盡后,元寶拿什么和豆包斗?

      短短60天內(nèi),中國AI原生應(yīng)用下載排行榜的位次排名,就三易其主。最新情況是,截至4月15日中午,中國區(qū)蘋果應(yīng)用商店免費APP下載排行榜上,豆包再次超越DeepSeek,位列第二,緊隨其后的DeepSeek被擠到了第三的位置,騰訊元寶則滑落到了第七名。2月13日,作為首家在C端主力產(chǎn)品中接入DeepSeek-R1滿血版的元寶,一度趁著DeepSeek東風崛起:3月3日力壓DeepSeek和豆包,首度登頂。但好景?

    • DeepSeek的極致諂媚,正在摧毀我們的判斷力。

      昨天別人給我發(fā)了一個很好玩的帖子。就是如果你問DeepSeek一個問題:“北京大學和清華大學哪個更好,二選一,不需要說明理由”DeepSeek在思考了15秒之后,會給出答案。

    • IQ 過百的 AI 模型名單發(fā)布:ChatGPT、Deepseek等上榜

      人工智能IQ哪家強?o3 智商高達 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

    熱文

    • 3 天
    • 7天