研究稱，AI搜索工具平均出錯(cuò)了約60%，Grok 3高達(dá)94%！

2025-03-14 14:50 · 稿源：站長(zhǎng)之家

造假，刷單，假貨，打假

AI搜索服務(wù)向用戶傳遞錯(cuò)誤信息，且無視出版社的排除請(qǐng)求。

哥倫比亞新聞評(píng)論（Columbia Journalism Review）旗下的陶氏數(shù)字新聞研究中心（Tow Center for Digital Journalism）的一項(xiàng)新研究發(fā)現(xiàn)：用于新聞搜索的生成式AI模型存在嚴(yán)重的準(zhǔn)確性問題 —— 錯(cuò)誤率高達(dá) 60%。

據(jù)悉，該研究對(duì) 8 款具備實(shí)時(shí)搜索功能的AI驅(qū)動(dòng)搜索工具進(jìn)行了測(cè)試，結(jié)果發(fā)現(xiàn)，AI模型在回答有關(guān)新聞來源的查詢時(shí)，平均超過 60% 的答案是錯(cuò)誤的。

研究人員 Klaudia Ja?wińska 和 Aisvarya Chandrasekar 在報(bào)告中指出，現(xiàn)在大約每 4 個(gè)美國人中就有 1 人使用AI模型來替代傳統(tǒng)搜索引擎。鑒于研究中發(fā)現(xiàn)的高錯(cuò)誤率，不僅引發(fā)了對(duì) AI 可靠性的嚴(yán)重?fù)?dān)憂。

在測(cè)試的平臺(tái)中，錯(cuò)誤率差異顯著。Perplexity 在 37% 的測(cè)試查詢中提供了錯(cuò)誤信息，而 ChatGPT 搜索在被查詢的文章中，錯(cuò)誤識(shí)別了 67%（200 篇中的 134 篇）。Grok 3 的錯(cuò)誤率最高，達(dá)到了 94%。

在測(cè)試中，研究人員將實(shí)際新聞文章的直接節(jié)選內(nèi)容輸入到人工智能模型中，然后要求每個(gè)模型識(shí)別文章的標(biāo)題、原始發(fā)布者、發(fā)布日期和網(wǎng)址（URL）。他們?cè)谶@ 8 種不同的生成式搜索工具上共進(jìn)行了 1600 次查詢。

這項(xiàng)研究突出了這些AI模型的一個(gè)共同趨勢(shì)：當(dāng)缺乏可靠的信息支撐時(shí)，這些AI模型不是選擇“誠實(shí)”，而是經(jīng)常給出“編造”的內(nèi)容 —— 一些看似合理，卻存在錯(cuò)誤或猜測(cè)性的回答。研究人員強(qiáng)調(diào)，所有測(cè)試的AI模型都存在這一問題，并非個(gè)例！

更離譜的是，這些AI工具的付費(fèi)高級(jí)版本有時(shí)表現(xiàn)甚至更差。Perplexity Pro（每月 20 美元）和 Grok 3 的高級(jí)服務(wù)（每月 40 美元）比它們的免費(fèi)版本錯(cuò)誤率更高，但它們卻十分自信。雖然這些付費(fèi)模型的正確回答數(shù)量較多，但當(dāng)它們面對(duì)“不確定的問題”時(shí)，不僅不會(huì)像免費(fèi)版本那樣“容易崩潰”，而且更喜歡給出一些“自以為是”的回答，這樣導(dǎo)致了它們總體錯(cuò)誤率比免費(fèi)版還要高。

除此之外，研究人員還發(fā)現(xiàn)了另一個(gè)問題，某些AI模型無視了 “機(jī)器人排除協(xié)議（Robot Exclusion Protocol）” —— 出版社利用相關(guān)協(xié)議來防止未經(jīng)授權(quán)的訪問。舉個(gè)例子，雖然《國家地理》（National Geographic）明確禁止 Perplexity 的網(wǎng)絡(luò)爬蟲訪問，但 Perplexity 的免費(fèi)版本還是準(zhǔn)確識(shí)別出了《國家地理》付費(fèi)內(nèi)容中的 10 篇節(jié)選文章。

perplexity

與此同時(shí)，即使這些AI模型引用了來源數(shù)據(jù)，但它們也常常只會(huì)將用戶引導(dǎo)至雅虎新聞（Yahoo News）等平臺(tái)上的內(nèi)容集，而非內(nèi)容的原始出處。即使在發(fā)布者與人工智能公司有正式許可協(xié)議的情況下，這種情況也會(huì)發(fā)生。

編造來源成為了又一個(gè)大問題。谷歌 Gemini 和 Grok 3 的內(nèi)容引用來源中，超過50%會(huì)將用戶引入一個(gè)虛假或無效的網(wǎng)址中，這也是“錯(cuò)誤答案”的主要來源。在對(duì) Grok 3 的 200 次引用測(cè)試中，有 154 次出現(xiàn)了引用來源鏈接無效的情況。

這也讓出版商們叫苦不迭。阻止AI爬蟲吧，他們還是會(huì)自行“引用”內(nèi)容，且不標(biāo)注你的來源；允許它們?cè)L問吧，又會(huì)導(dǎo)致版權(quán)所有的內(nèi)容被不斷重復(fù)使用，依舊無法將流量引回自己的網(wǎng)站。

《時(shí)代》（Time）雜志的CEO馬克?霍華德（Mark Howard）怒斥“現(xiàn)在是AI產(chǎn)品（表現(xiàn)）最糟糕的時(shí)候?！蓖瑫r(shí)，他也對(duì)一些用戶提出了批評(píng)：如果有任何一個(gè)用戶會(huì)對(duì)這些免費(fèi)產(chǎn)品抱有100 %準(zhǔn)確率的幻想，那他們應(yīng)該感到羞愧。

對(duì)于這項(xiàng)研究，OpenAI 和微軟都給予了反饋，承認(rèn)收到了這些研究結(jié)果。OpenAI 指出，它承諾通過摘要、引用、清晰的鏈接和歸屬引用等方式為發(fā)布者帶來流量，以此來支持發(fā)布者。微軟則表示，它遵守 “機(jī)器人排除協(xié)議” 和發(fā)布者的指令。但除此之外，別無他話。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦說個(gè)抽象的事，你現(xiàn)在可以在秘塔AI搜索里上課了。

給我整不會(huì)了。周末我本來在用秘塔AI搜關(guān)稅的問題，特朗普一天一個(gè)說法，又說關(guān)稅要結(jié)束了。然后，意外的發(fā)現(xiàn)，秘塔上了一個(gè)非常有意思的功能。“今天學(xué)點(diǎn)啥”。。。說實(shí)話，在進(jìn)入到這個(gè)頁面的瞬間，我以為我跳到不知道哪去了，直到看到秘塔左上角的logo還在，我才確定，這是他們的新功能。它的功能大概就是，把一份文件或者一個(gè)鏈接，變成一個(gè)像是B站UP專門為?

?數(shù)字生命 ?秘塔AI ?關(guān)稅問題
程序員危！微軟CEO納德拉：公司高達(dá)30%代碼是AI寫的

微軟CEO納德拉在Meta的LlamaCon大會(huì)上透露，微軟代碼庫中20%-30%的代碼由AI生成，其中Python應(yīng)用進(jìn)展最快，C語言相對(duì)較慢。微軟CTO凱文·斯科特預(yù)測(cè)到2030年，95%代碼將由AI生成。谷歌CEO皮查伊也表示，谷歌超30%代碼由AI生成。Meta CEO扎克伯格則未透露具體數(shù)據(jù)。由于缺乏統(tǒng)一的AI代碼衡量標(biāo)準(zhǔn)，這些數(shù)據(jù)僅供參考。（140字）

?AI ?代碼生成 ?微軟與Meta
外媒：ChatGPT新模型 o4 mini 的“AI幻覺率”高達(dá)48%

性能是提升了些，但，“胡說八道”的能力提升得更快，直接登頂……

?ChatGPT ?openai ?o4mini
開啟內(nèi)測(cè)！360納米AI推出“MCP萬能工具箱”

4月23日，360旗下納米AI正式發(fā)布"MCP萬能工具箱"，該工具基于MCP協(xié)議開發(fā)，已接入超110款工具，覆蓋辦公、學(xué)術(shù)、生活服務(wù)、金融等多場(chǎng)景。產(chǎn)品負(fù)責(zé)人梁志輝介紹，MCP協(xié)議類似USB-C接口，為AI調(diào)用外部工具提供標(biāo)準(zhǔn)化連接方式。目前該工具已開啟內(nèi)測(cè)，首批受邀用戶包括AI博主和媒體人士。實(shí)測(cè)顯示，該工具能快速生成專業(yè)分析報(bào)告，效率遠(yuǎn)超人工。用戶還可創(chuàng)建專屬智能體，如醫(yī)療、金融等領(lǐng)域的專業(yè)助手。360表示，工具對(duì)AI應(yīng)用意義重大，將推動(dòng)AI從聊天機(jī)器人進(jìn)化為真正的"數(shù)字員工"。

?360納米AI ?360 ?MCP萬能工具箱
薦AI日?qǐng)?bào)：通義千問Qwen3重磅發(fā)布；抖音AI搜索能力開放；ChatGPT 搜索新增網(wǎng)購功能；Suno V4.5版本將發(fā)布

本期AI日?qǐng)?bào)重點(diǎn)內(nèi)容： 1. 通義千問發(fā)布Qwen3大模型，在代碼、數(shù)學(xué)和通用能力方面表現(xiàn)突出，支持兩種思考模式并開源多個(gè)模型權(quán)重 2. 抖音開放AI搜索能力接口，為第三方應(yīng)用提供豐富內(nèi)容資源 3. ChatGPT新增網(wǎng)購功能，通過對(duì)話獲取個(gè)性化商品推薦 4. Suno AI即將推出V4.5版本，提升音樂生成真實(shí)度 5. Simular AI登陸macOS，打造本地化智能助手 6. 暗月之面開源Kimi-VL模型，可處理文本、圖像和視頻 7. UCLA與Meta推出d1框架，提升大語言模型推理速度 8. 通義靈碼上線Qwen3編程智能體 9. Gen-4References圖像生成技術(shù)驚艷亮相 10. Hugging Face推出可編程機(jī)械臂SO-101 11. Windsurf推出全新品牌標(biāo)志 12. Ollama全面支持Qwen3模型本地部署

?人工智能 ?大型語言模型 ?Qwen3
受關(guān)稅影響，羅技的產(chǎn)品也漲價(jià)了，最高達(dá)25%

不過，MX Ergo 鼠標(biāo)等部分產(chǎn)品未被列入漲價(jià)范圍。

?羅技 ?特朗普關(guān)稅政策 ?特朗普
馬斯克：下周推出Grok 3.5 能準(zhǔn)確回答火箭相關(guān)問題

xAI公司宣布其Grok3.5測(cè)試版將于下周正式推出，這一消息在技術(shù)社區(qū)引起了廣泛關(guān)注。首批測(cè)試版將僅對(duì)SuperGrok訂閱用戶開放，訂閱費(fèi)用為每月30美元。據(jù)AIbase了解，Grok3.5在火箭發(fā)動(dòng)機(jī)和電化學(xué)等領(lǐng)域的精準(zhǔn)技術(shù)解答能力引發(fā)了熱議

?Grok3.5 ?xAI公司 ?技術(shù)推理
全球第一個(gè)會(huì)原創(chuàng)的AI來了！馬斯克：Grok 3.5將提供互聯(lián)網(wǎng)上根本不存在的答案

馬斯克宣布Grok 3.5早期測(cè)試版將于下周發(fā)布，該AI模型將采用"第一性原理"推理方式，能準(zhǔn)確回答火箭發(fā)動(dòng)機(jī)和電化學(xué)技術(shù)等專業(yè)問題。與現(xiàn)有AI依賴網(wǎng)絡(luò)搜索不同，Grok 3.5通過推理模型從頭創(chuàng)建答案，可能提供互聯(lián)網(wǎng)上不存在的獨(dú)特解決方案。馬斯克稱這將是全球首個(gè)能"原創(chuàng)"的AI。目前Grok 3下載量已飆升10倍，新版本將面向SuperGrok訂閱者開放。該技術(shù)雖需更高算力成本，但代表了AI推理能力的重大突破。未來幾周將公布更多性能細(xì)節(jié)。

?馬斯克 ?Grok ?3.5
投影儀亮度虛標(biāo)高達(dá)91%？博主評(píng)測(cè)揭露投影儀行業(yè)亂象

科技博主測(cè)評(píng)發(fā)現(xiàn)投影儀行業(yè)存在嚴(yán)重虛標(biāo)問題：7臺(tái)測(cè)試設(shè)備中僅2臺(tái)亮度達(dá)標(biāo)，達(dá)標(biāo)率僅28%。其中售價(jià)4000元的某品牌產(chǎn)品虛標(biāo)率高達(dá)91%，分辨率也存在造假現(xiàn)象。問題根源在于缺乏統(tǒng)一行業(yè)測(cè)試標(biāo)準(zhǔn)，導(dǎo)致商家為追求利益最大化而虛標(biāo)參數(shù)。目前京東已聯(lián)合中國電子技術(shù)標(biāo)準(zhǔn)化研究院推出CVIA亮度認(rèn)證體系，要求商家在默認(rèn)模式下測(cè)試，并承諾"亮度虛標(biāo)假一賠十"。專家建議消費(fèi)者選擇信譽(yù)良好的品牌和渠道購買，同時(shí)呼吁建立透明規(guī)范的市場(chǎng)環(huán)境，從根本上保護(hù)消費(fèi)者權(quán)益。

?家庭娛樂 ?投影儀評(píng)測(cè) ?高清畫質(zhì)
阿里Qwen3發(fā)布后馬斯克立刻官宣：下周推出Grok 3.5

快科技4月29日消息，馬斯克剛剛在社交平臺(tái)X上稱，下周將向SuperGrok訂閱者推出Grok 3.5，并將該條信息頂置。據(jù)馬斯克稱，Grok 3.5是第一個(gè)能夠準(zhǔn)確回答有關(guān)火箭發(fā)動(dòng)機(jī)或電化學(xué)技術(shù)問題的人工智能。同時(shí)，Grok可以從第一原理推理并得出互聯(lián)網(wǎng)上根本不存在的答案。Grok 3.5被馬斯克旗下的xAI宣傳為全球首個(gè)人工智能能從第一性原理推理，生成網(wǎng)絡(luò)上不存在的答案”。而今年2月18日，xAI正式發(fā)布Grok 3，并在兩天后把Grok 3免費(fèi)向所有公眾開放，超越ChatGPT,登頂蘋果應(yīng)用商店免費(fèi)應(yīng)用下載排行榜第一名。馬斯克曾稱Grok 3為地球上最聰明的人工智

?馬斯克 ?Grok ?3.5

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

研究稱，AI搜索工具平均出錯(cuò)了約60%，Grok 3高達(dá)94%！

薦說個(gè)抽象的事，你現(xiàn)在可以在秘塔AI搜索里上課了。

程序員危！微軟CEO納德拉：公司高達(dá)30%代碼是AI寫的

外媒：ChatGPT新模型 o4 mini 的“AI幻覺率”高達(dá)48%

開啟內(nèi)測(cè)！360納米AI推出“MCP萬能工具箱”

薦AI日?qǐng)?bào)：通義千問Qwen3重磅發(fā)布；抖音AI搜索能力開放；ChatGPT 搜索新增網(wǎng)購功能；Suno V4.5版本將發(fā)布

受關(guān)稅影響，羅技的產(chǎn)品也漲價(jià)了，最高達(dá)25%

馬斯克：下周推出Grok 3.5 能準(zhǔn)確回答火箭相關(guān)問題

全球第一個(gè)會(huì)原創(chuàng)的AI來了！馬斯克：Grok 3.5將提供互聯(lián)網(wǎng)上根本不存在的答案

投影儀亮度虛標(biāo)高達(dá)91%？博主評(píng)測(cè)揭露投影儀行業(yè)亂象

阿里Qwen3發(fā)布后馬斯克立刻官宣：下周推出Grok 3.5

熱文

印度將中國電子投資壓股至 10%，且要求“技術(shù)轉(zhuǎn)讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國網(wǎng)購市場(chǎng)動(dòng)蕩，希音、Temu 率先在美開啟“漲價(jià)潮”！

站長(zhǎng)商機(jī)

研究稱，AI搜索工具平均出錯(cuò)了約60%，Grok 3高達(dá)94%！

熱文

站長(zhǎng)商機(jī)

研究稱，AI搜索工具平均出錯(cuò)了約60%，Grok 3高達(dá)94%！