哥倫比亞新聞評(píng)論(Columbia Journalism Review)旗下的陶氏數(shù)字新聞研究中心(Tow Center for Digital Journalism)的一項(xiàng)新研究發(fā)現(xiàn):用于新聞搜索的生成式AI模型存在嚴(yán)重的準(zhǔn)確性問題 —— 錯(cuò)誤率高達(dá) 60%。
據(jù)悉,該研究對(duì) 8 款具備實(shí)時(shí)搜索功能的AI驅(qū)動(dòng)搜索工具進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn),AI模型在回答有關(guān)新聞來源的查詢時(shí),平均超過 60% 的答案是錯(cuò)誤的。
研究人員 Klaudia Ja?wińska 和 Aisvarya Chandrasekar 在報(bào)告中指出,現(xiàn)在大約每 4 個(gè)美國人中就有 1 人使用AI模型來替代傳統(tǒng)搜索引擎。鑒于研究中發(fā)現(xiàn)的高錯(cuò)誤率,不僅引發(fā)了對(duì) AI 可靠性的嚴(yán)重?fù)?dān)憂。
在測(cè)試的平臺(tái)中,錯(cuò)誤率差異顯著。Perplexity 在 37% 的測(cè)試查詢中提供了錯(cuò)誤信息,而 ChatGPT 搜索在被查詢的文章中,錯(cuò)誤識(shí)別了 67%(200 篇中的 134 篇)。Grok 3 的錯(cuò)誤率最 高,達(dá)到了 94%。
在測(cè)試中,研究人員將實(shí)際新聞文章的直接節(jié)選內(nèi)容輸入到人工智能模型中,然后要求每個(gè)模型識(shí)別文章的標(biāo)題、原始發(fā)布者、發(fā)布日期和網(wǎng)址(URL)。他們?cè)谶@ 8 種不同的生成式搜索工具上共進(jìn)行了 1600 次查詢。
這項(xiàng)研究突出了這些AI模型的一個(gè)共同趨勢(shì):當(dāng)缺乏可靠的信息支撐時(shí),這些AI模型不是選擇“誠實(shí)”,而是經(jīng)常給出“編造”的內(nèi)容 —— 一些看似合理,卻存在錯(cuò)誤或猜測(cè)性的回答。研究人員強(qiáng)調(diào),所有測(cè)試的AI模型都存在這一問題,并非個(gè)例!
更離譜的是,這些AI工具的付費(fèi)高 級(jí)版本有時(shí)表現(xiàn)甚至更差。Perplexity Pro(每月 20 美元)和 Grok 3 的高 級(jí)服務(wù)(每月 40 美元)比它們的免費(fèi)版本錯(cuò)誤率更高,但它們卻十分自信。雖然這些付費(fèi)模型的正確回答數(shù)量較多,但當(dāng)它們面對(duì)“不確定的問題”時(shí),不僅不會(huì)像免費(fèi)版本那樣“容易崩潰”,而且更喜歡給出一些“自以為是”的回答,這樣導(dǎo)致了它們總體錯(cuò)誤率比免費(fèi)版還要高。
除此之外,研究人員還發(fā)現(xiàn)了另一個(gè)問題,某些AI模型無視了 “機(jī)器人排除協(xié)議(Robot Exclusion Protocol)” —— 出版社利用相關(guān)協(xié)議來防止未經(jīng)授權(quán)的訪問。舉個(gè)例子,雖然《國家地理》(National Geographic)明確禁止 Perplexity 的網(wǎng)絡(luò)爬蟲訪問,但 Perplexity 的免費(fèi)版本還是準(zhǔn)確識(shí)別出了《國家地理》付費(fèi)內(nèi)容中的 10 篇節(jié)選文章。
與此同時(shí),即使這些AI模型引用了來源數(shù)據(jù),但它們也常常只會(huì)將用戶引導(dǎo)至雅虎新聞(Yahoo News)等平臺(tái)上的內(nèi)容集,而非內(nèi)容的原始出處。即使在發(fā)布者與人工智能公司有正式許可協(xié)議的情況下,這種情況也會(huì)發(fā)生。
編造來源成為了又一個(gè)大問題。谷歌 Gemini 和 Grok 3 的內(nèi)容引用來源中,超過50%會(huì)將用戶引入一個(gè)虛假或無效的網(wǎng)址中,這也是“錯(cuò)誤答案”的主要來源。在對(duì) Grok 3 的 200 次引用測(cè)試中,有 154 次出現(xiàn)了引用來源鏈接無效的情況。
這也讓出版商們叫苦不迭。阻止AI爬蟲吧,他們還是會(huì)自行“引用”內(nèi)容,且不標(biāo)注你的來源;允許它們?cè)L問吧,又會(huì)導(dǎo)致版權(quán)所有的內(nèi)容被不斷重復(fù)使用,依舊無法將流量引回自己的網(wǎng)站。
《時(shí)代》(Time)雜志的CEO馬克?霍華德(Mark Howard)怒斥“現(xiàn)在是AI產(chǎn)品(表現(xiàn))最糟糕的時(shí)候?!蓖瑫r(shí),他也對(duì)一些用戶提出了批評(píng):如果有任何一個(gè)用戶會(huì)對(duì)這些免費(fèi)產(chǎn)品抱有100 %準(zhǔn)確率的幻想,那他們應(yīng)該感到羞愧。
對(duì)于這項(xiàng)研究,OpenAI 和微軟都給予了反饋,承認(rèn)收到了這些研究結(jié)果。OpenAI 指出,它承諾通過摘要、引用、清晰的鏈接和歸屬引用等方式為發(fā)布者帶來流量,以此來支持發(fā)布者。微軟則表示,它遵守 “機(jī)器人排除協(xié)議” 和發(fā)布者的指令。但除此之外,別無他話。
(舉報(bào))