无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > AI搜索最新資訊  > 正文

    研究稱,AI搜索工具平均出錯(cuò)了約60%,Grok 3高達(dá)94%!

    2025-03-14 14:50 · 稿源:站長(zhǎng)之家

    造假,刷單,假貨,打假

    AI搜索服務(wù)向用戶傳遞錯(cuò)誤信息,且無視出版社的排除請(qǐng)求。

    哥倫比亞新聞評(píng)論(Columbia Journalism Review)旗下的陶氏數(shù)字新聞研究中心(Tow Center for Digital Journalism)的一項(xiàng)新研究發(fā)現(xiàn):用于新聞搜索的生成式AI模型存在嚴(yán)重的準(zhǔn)確性問題 —— 錯(cuò)誤率高達(dá) 60%。

    據(jù)悉,該研究對(duì) 8 款具備實(shí)時(shí)搜索功能的AI驅(qū)動(dòng)搜索工具進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn),AI模型在回答有關(guān)新聞來源的查詢時(shí),平均超過 60% 的答案是錯(cuò)誤的。

    研究人員 Klaudia Ja?wińska 和 Aisvarya Chandrasekar 在報(bào)告中指出,現(xiàn)在大約每 4 個(gè)美國人中就有 1 人使用AI模型來替代傳統(tǒng)搜索引擎。鑒于研究中發(fā)現(xiàn)的高錯(cuò)誤率,不僅引發(fā)了對(duì) AI 可靠性的嚴(yán)重?fù)?dān)憂。

    在測(cè)試的平臺(tái)中,錯(cuò)誤率差異顯著。Perplexity 在 37% 的測(cè)試查詢中提供了錯(cuò)誤信息,而 ChatGPT 搜索在被查詢的文章中,錯(cuò)誤識(shí)別了 67%(200 篇中的 134 篇)。Grok 3 的錯(cuò)誤率最 高,達(dá)到了 94%。

    1.jpg

    在測(cè)試中,研究人員將實(shí)際新聞文章的直接節(jié)選內(nèi)容輸入到人工智能模型中,然后要求每個(gè)模型識(shí)別文章的標(biāo)題、原始發(fā)布者、發(fā)布日期和網(wǎng)址(URL)。他們?cè)谶@ 8 種不同的生成式搜索工具上共進(jìn)行了 1600 次查詢。

    這項(xiàng)研究突出了這些AI模型的一個(gè)共同趨勢(shì):當(dāng)缺乏可靠的信息支撐時(shí),這些AI模型不是選擇“誠實(shí)”,而是經(jīng)常給出“編造”的內(nèi)容 —— 一些看似合理,卻存在錯(cuò)誤或猜測(cè)性的回答。研究人員強(qiáng)調(diào),所有測(cè)試的AI模型都存在這一問題,并非個(gè)例!

    更離譜的是,這些AI工具的付費(fèi)高 級(jí)版本有時(shí)表現(xiàn)甚至更差。Perplexity Pro(每月 20 美元)和 Grok 3 的高 級(jí)服務(wù)(每月 40 美元)比它們的免費(fèi)版本錯(cuò)誤率更高,但它們卻十分自信。雖然這些付費(fèi)模型的正確回答數(shù)量較多,但當(dāng)它們面對(duì)“不確定的問題”時(shí),不僅不會(huì)像免費(fèi)版本那樣“容易崩潰”,而且更喜歡給出一些“自以為是”的回答,這樣導(dǎo)致了它們總體錯(cuò)誤率比免費(fèi)版還要高。

    除此之外,研究人員還發(fā)現(xiàn)了另一個(gè)問題,某些AI模型無視了 “機(jī)器人排除協(xié)議(Robot Exclusion Protocol)” —— 出版社利用相關(guān)協(xié)議來防止未經(jīng)授權(quán)的訪問。舉個(gè)例子,雖然《國家地理》(National Geographic)明確禁止 Perplexity 的網(wǎng)絡(luò)爬蟲訪問,但 Perplexity 的免費(fèi)版本還是準(zhǔn)確識(shí)別出了《國家地理》付費(fèi)內(nèi)容中的 10 篇節(jié)選文章。

    perplexity

    與此同時(shí),即使這些AI模型引用了來源數(shù)據(jù),但它們也常常只會(huì)將用戶引導(dǎo)至雅虎新聞(Yahoo News)等平臺(tái)上的內(nèi)容集,而非內(nèi)容的原始出處。即使在發(fā)布者與人工智能公司有正式許可協(xié)議的情況下,這種情況也會(huì)發(fā)生。

    編造來源成為了又一個(gè)大問題。谷歌 Gemini 和 Grok 3 的內(nèi)容引用來源中,超過50%會(huì)將用戶引入一個(gè)虛假或無效的網(wǎng)址中,這也是“錯(cuò)誤答案”的主要來源。在對(duì) Grok 3 的 200 次引用測(cè)試中,有 154 次出現(xiàn)了引用來源鏈接無效的情況。

    這也讓出版商們叫苦不迭。阻止AI爬蟲吧,他們還是會(huì)自行“引用”內(nèi)容,且不標(biāo)注你的來源;允許它們?cè)L問吧,又會(huì)導(dǎo)致版權(quán)所有的內(nèi)容被不斷重復(fù)使用,依舊無法將流量引回自己的網(wǎng)站。

    2.jpg

    《時(shí)代》(Time)雜志的CEO馬克?霍華德(Mark Howard)怒斥“現(xiàn)在是AI產(chǎn)品(表現(xiàn))最糟糕的時(shí)候?!蓖瑫r(shí),他也對(duì)一些用戶提出了批評(píng):如果有任何一個(gè)用戶會(huì)對(duì)這些免費(fèi)產(chǎn)品抱有100 %準(zhǔn)確率的幻想,那他們應(yīng)該感到羞愧。

    對(duì)于這項(xiàng)研究,OpenAI 和微軟都給予了反饋,承認(rèn)收到了這些研究結(jié)果。OpenAI 指出,它承諾通過摘要、引用、清晰的鏈接和歸屬引用等方式為發(fā)布者帶來流量,以此來支持發(fā)布者。微軟則表示,它遵守 “機(jī)器人排除協(xié)議” 和發(fā)布者的指令。但除此之外,別無他話。

    舉報(bào)

    • 相關(guān)推薦
    • 說個(gè)抽象的事,你現(xiàn)在可以在秘塔AI搜索里上課了。

      給我整不會(huì)了。周末我本來在用秘塔AI搜關(guān)稅的問題,特朗普一天一個(gè)說法,又說關(guān)稅要結(jié)束了。然后,意外的發(fā)現(xiàn),秘塔上了一個(gè)非常有意思的功能。“今天學(xué)點(diǎn)啥”。。。說實(shí)話,在進(jìn)入到這個(gè)頁面的瞬間,我以為我跳到不知道哪去了,直到看到秘塔左上角的logo還在,我才確定,這是他們的新功能。它的功能大概就是,把一份文件或者一個(gè)鏈接,變成一個(gè)像是B站UP專門為?

    • 程序員危!微軟CEO納德拉:公司高達(dá)30%代碼是AI寫的

      微軟CEO納德拉在Meta的LlamaCon大會(huì)上透露,微軟代碼庫中20%-30%的代碼由AI生成,其中Python應(yīng)用進(jìn)展最快,C語言相對(duì)較慢。微軟CTO凱文·斯科特預(yù)測(cè)到2030年,95%代碼將由AI生成。谷歌CEO皮查伊也表示,谷歌超30%代碼由AI生成。Meta CEO扎克伯格則未透露具體數(shù)據(jù)。由于缺乏統(tǒng)一的AI代碼衡量標(biāo)準(zhǔn),這些數(shù)據(jù)僅供參考。(140字)

    • 外媒:ChatGPT新模型 o4 mini 的“AI幻覺率”高達(dá)48%

      性能是提升了些,但,“胡說八道”的能力提升得更快,直接登頂……

    • 開啟內(nèi)測(cè)!360納米AI推出“MCP萬能工具箱”

      4月23日,360旗下納米AI正式發(fā)布"MCP萬能工具箱",該工具基于MCP協(xié)議開發(fā),已接入超110款工具,覆蓋辦公、學(xué)術(shù)、生活服務(wù)、金融等多場(chǎng)景。產(chǎn)品負(fù)責(zé)人梁志輝介紹,MCP協(xié)議類似USB-C接口,為AI調(diào)用外部工具提供標(biāo)準(zhǔn)化連接方式。目前該工具已開啟內(nèi)測(cè),首批受邀用戶包括AI博主和媒體人士。實(shí)測(cè)顯示,該工具能快速生成專業(yè)分析報(bào)告,效率遠(yuǎn)超人工。用戶還可創(chuàng)建專屬智能體,如醫(yī)療、金融等領(lǐng)域的專業(yè)助手。360表示,工具對(duì)AI應(yīng)用意義重大,將推動(dòng)AI從聊天機(jī)器人進(jìn)化為真正的"數(shù)字員工"。

    • AI日?qǐng)?bào):通義千問Qwen3重磅發(fā)布;抖音AI搜索能力開放;ChatGPT 搜索新增網(wǎng)購功能;Suno V4.5版本將發(fā)布

      本期AI日?qǐng)?bào)重點(diǎn)內(nèi)容: 1. 通義千問發(fā)布Qwen3大模型,在代碼、數(shù)學(xué)和通用能力方面表現(xiàn)突出,支持兩種思考模式并開源多個(gè)模型權(quán)重 2. 抖音開放AI搜索能力接口,為第三方應(yīng)用提供豐富內(nèi)容資源 3. ChatGPT新增網(wǎng)購功能,通過對(duì)話獲取個(gè)性化商品推薦 4. Suno AI即將推出V4.5版本,提升音樂生成真實(shí)度 5. Simular AI登陸macOS,打造本地化智能助手 6. 暗月之面開源Kimi-VL模型,可處理文本、圖像和視頻 7. UCLA與Meta推出d1框架,提升大語言模型推理速度 8. 通義靈碼上線Qwen3編程智能體 9. Gen-4References圖像生成技術(shù)驚艷亮相 10. Hugging Face推出可編程機(jī)械臂SO-101 11. Windsurf推出全新品牌標(biāo)志 12. Ollama全面支持Qwen3模型本地部署

    • 受關(guān)稅影響,羅技的產(chǎn)品也漲價(jià)了,最高達(dá)25%

      不過,MX Ergo 鼠標(biāo)等部分產(chǎn)品未被列入漲價(jià)范圍。

    • 馬斯克:下周推出Grok 3.5 能準(zhǔn)確回答火箭相關(guān)問題

      xAI公司宣布其Grok3.5測(cè)試版將于下周正式推出,這一消息在技術(shù)社區(qū)引起了廣泛關(guān)注。首批測(cè)試版將僅對(duì)SuperGrok訂閱用戶開放,訂閱費(fèi)用為每月30美元。據(jù)AIbase了解,Grok3.5在火箭發(fā)動(dòng)機(jī)和電化學(xué)等領(lǐng)域的精準(zhǔn)技術(shù)解答能力引發(fā)了熱議

    • 全球第一個(gè)會(huì)原創(chuàng)的AI來了!馬斯克:Grok 3.5將提供互聯(lián)網(wǎng)上根本不存在的答案

      馬斯克宣布Grok 3.5早期測(cè)試版將于下周發(fā)布,該AI模型將采用"第一性原理"推理方式,能準(zhǔn)確回答火箭發(fā)動(dòng)機(jī)和電化學(xué)技術(shù)等專業(yè)問題。與現(xiàn)有AI依賴網(wǎng)絡(luò)搜索不同,Grok 3.5通過推理模型從頭創(chuàng)建答案,可能提供互聯(lián)網(wǎng)上不存在的獨(dú)特解決方案。馬斯克稱這將是全球首個(gè)能"原創(chuàng)"的AI。目前Grok 3下載量已飆升10倍,新版本將面向SuperGrok訂閱者開放。該技術(shù)雖需更高算力成本,但代表了AI推理能力的重大突破。未來幾周將公布更多性能細(xì)節(jié)。

    • 投影儀亮度虛標(biāo)高達(dá)91%?博主評(píng)測(cè)揭露投影儀行業(yè)亂象

      科技博主測(cè)評(píng)發(fā)現(xiàn)投影儀行業(yè)存在嚴(yán)重虛標(biāo)問題:7臺(tái)測(cè)試設(shè)備中僅2臺(tái)亮度達(dá)標(biāo),達(dá)標(biāo)率僅28%。其中售價(jià)4000元的某品牌產(chǎn)品虛標(biāo)率高達(dá)91%,分辨率也存在造假現(xiàn)象。問題根源在于缺乏統(tǒng)一行業(yè)測(cè)試標(biāo)準(zhǔn),導(dǎo)致商家為追求利益最大化而虛標(biāo)參數(shù)。目前京東已聯(lián)合中國電子技術(shù)標(biāo)準(zhǔn)化研究院推出CVIA亮度認(rèn)證體系,要求商家在默認(rèn)模式下測(cè)試,并承諾"亮度虛標(biāo)假一賠十"。專家建議消費(fèi)者選擇信譽(yù)良好的品牌和渠道購買,同時(shí)呼吁建立透明規(guī)范的市場(chǎng)環(huán)境,從根本上保護(hù)消費(fèi)者權(quán)益。

    • 阿里Qwen3發(fā)布后 馬斯克立刻官宣:下周推出Grok 3.5

      快科技4月29日消息,馬斯克剛剛在社交平臺(tái)X上稱,下周將向SuperGrok訂閱者推出Grok 3.5,并將該條信息頂置。據(jù)馬斯克稱,Grok 3.5是第一個(gè)能夠準(zhǔn)確回答有關(guān)火箭發(fā)動(dòng)機(jī)或電化學(xué)技術(shù)問題的人工智能。同時(shí),Grok可以從第一原理推理并得出互聯(lián)網(wǎng)上根本不存在的答案。Grok 3.5被馬斯克旗下的xAI宣傳為全球首個(gè)人工智能能從第一性原理推理,生成網(wǎng)絡(luò)上不存在的答案”。而今年2月18日,xAI正式發(fā)布Grok 3,并在兩天后把Grok 3免費(fèi)向所有公眾開放,超越ChatGPT,登頂蘋果應(yīng)用商店免費(fèi)應(yīng)用下載排行榜第一名。馬斯克曾稱Grok 3為地球上最聰明的人工智