无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > 網(wǎng)絡(luò)爬蟲最新資訊  > 正文

    AI爬蟲堪比DDoS攻擊,占流高達(dá)97%,OpenAI成“黑手”

    2025-03-26 10:52 · 稿源:站長(zhǎng)之家

    病毒 網(wǎng)絡(luò)攻擊

    AI公司都在進(jìn)行網(wǎng)絡(luò)爬蟲活動(dòng),但造成的影響程度各不相同。其中,OpenAI 的AI爬蟲占四分之一,而亞馬遜占 15%,Anthropic 占 4.3%。

    站長(zhǎng)之家(ChinaZ.com)3 月 26 日 消息:軟件開發(fā)者 Xe Iaso 迎來了一重大難題 —— 來自亞馬遜的大量AI爬蟲流量使其 Git 存儲(chǔ)庫(kù)服務(wù)不堪重負(fù),反復(fù)導(dǎo)致服務(wù)不穩(wěn)定、停機(jī)等問題。盡管設(shè)置了標(biāo)準(zhǔn)的防御措施 —— 調(diào)整了 robots.txt 文件、屏蔽了已知的爬蟲用戶代理,并過濾了可疑流量 —— 但 Iaso 發(fā)現(xiàn),AI爬蟲美好繞過了這些阻力 —— 它們偽裝用戶代理,并使用住宅 IP 地址作為代理不斷輪換。

    Iaso 在一篇題為 “絕望的呼救” 的博客文章中寫道:“屏蔽AI爬蟲機(jī)器人是徒勞的,它們會(huì)作假、會(huì)更改用戶代理、會(huì)使用住宅 IP 地址作為代理……我不想被迫關(guān)閉 Gitea 服務(wù)器 —— 但若有必要,我會(huì)這么做?!?/p>

    Iaso 的經(jīng)歷凸顯了一個(gè)正在開源社區(qū)迅速蔓延的廣泛危機(jī) —— 這些激進(jìn)的AI爬蟲使得越來越多的‘社區(qū)維護(hù)基礎(chǔ)設(shè)施過載’情況出現(xiàn),對(duì)一些至關(guān)重要的公共資源造成了等同于 DDoS 攻擊的影響。根據(jù) LibreNews 最近的一份報(bào)告顯示:現(xiàn)在,一些開源項(xiàng)目高達(dá) 97% 的流量來自AI公司的機(jī)器人爬蟲,這極大地加重了帶寬成本、導(dǎo)致服務(wù)不穩(wěn)定、并給本就任務(wù)繁重的維護(hù)人員帶來了更大的負(fù)擔(dān)。

    image.png

    Fedora Pagure 項(xiàng)目的系統(tǒng)管理員團(tuán)隊(duì)成員凱文?芬齊(Kevin Fenzi)在他的博客中報(bào)告稱,在多次嘗試減少AI爬蟲流量無果后,該項(xiàng)目不得不屏蔽了所有來自巴西的流量。

    這種情況并非完全最近才出現(xiàn)。去年 12 月,為 Diaspora 社交網(wǎng)絡(luò)維護(hù)基礎(chǔ)設(shè)施的丹尼斯?舒伯特(Dennis Schubert)在發(fā)現(xiàn)來自AI公司爬蟲的請(qǐng)求占其總流量的 70% 后,憤怒地將這一情況稱為“簡(jiǎn)直是針對(duì)整個(gè)互聯(lián)網(wǎng)的DDoS攻擊”。

    這種情況在技術(shù)和經(jīng)濟(jì)方面都帶來了很高的成本。據(jù) Read the Docs 項(xiàng)目報(bào)告稱,屏蔽AI爬蟲后,其流量立即減少了 75%,從每天 800GB 降至每天 200GB。他們?cè)诓┛臀恼隆度斯ぶ悄芘老x需要更尊重他人》中寫道:這一變化使得他們的項(xiàng)目每月節(jié)省了大約 1500 美元的帶寬成本。

    尤其是開源項(xiàng)目,面臨著更加嚴(yán)峻的挑戰(zhàn),由于開源項(xiàng)目依賴于公眾協(xié)作,且與商業(yè)實(shí)體相比,其運(yùn)營(yíng)資源通常有限。許多維護(hù)人員稱,為了避免被“發(fā)現(xiàn)”,這些AI爬蟲故意繞過標(biāo)準(zhǔn)的屏蔽措施,無視 robots.txt 指令,偽裝用戶代理,并輪換 IP 地址。

    宇宙飛船,黑客,外星人入侵

    在 Hacker News 上,相關(guān)討論也如火如荼地上演著,評(píng)論者們對(duì)‘AI公司針對(duì)開源基礎(chǔ)設(shè)施的掠奪性行為’表達(dá)了深深的不滿。

    除了消耗帶寬之外,這些爬蟲還經(jīng)常訪問一些占用大量資源的端點(diǎn),比如 git blame、日志頁(yè)面等,這給本就有限的資源帶來了額外的壓力。SourceHut 創(chuàng)始人德魯?德沃(Drew DeVault)在他的博客中表示,這些爬蟲會(huì)訪問 “每個(gè) git 日志的每一頁(yè),以及存儲(chǔ)庫(kù)中的每一次提交記錄”,這種“攻擊”對(duì)代碼存儲(chǔ)庫(kù)來說尤其沉重。

    這個(gè)問題不僅僅局限于基礎(chǔ)設(shè)施壓力。正如 LibreNews 所指出的,一些開源項(xiàng)目早在 2023 年 12 月就開始陸續(xù)收到AI生成的錯(cuò)誤報(bào)告,Curl 項(xiàng)目的丹尼爾?斯滕伯格(Daniel Stenberg)在 2024 年 1 月的一篇博客文章中初次對(duì)此進(jìn)行了闡述。這些報(bào)告乍一看似乎是合理的,但其中包含了“AI編造的漏洞”,浪費(fèi)了開發(fā)者寶貴的時(shí)間。

    實(shí)際上,“不問自取”可謂是AI公司一貫作風(fēng)。在 2022 年AI圖像生成器、AI聊天機(jī)器人等產(chǎn)品迅速爆發(fā)并引起人們對(duì)這種行為的關(guān)注之前,機(jī)器學(xué)習(xí)領(lǐng)域基本上都是在“無視版權(quán)”的操作下編纂數(shù)據(jù)集的。

    雖然AI公司都在進(jìn)行網(wǎng)絡(luò)爬蟲活動(dòng),但造成的影響程度各不相同。根據(jù)丹尼斯?舒伯特發(fā)布的 Diaspora 社交網(wǎng)絡(luò)流量日志分析結(jié)果顯示,該平臺(tái)的網(wǎng)絡(luò)流量中約四分之一來自 OpenAI 用戶代理的機(jī)器人,而亞馬遜占 15%,Anthropic 占 4.3%。

    微信圖片_20250326105159.png

    這些爬蟲可能是為了收集訓(xùn)練數(shù)據(jù)以構(gòu)建或完善大型語言模型,而另一些則可能是在用戶向人工智能助手詢問信息時(shí)執(zhí)行實(shí)時(shí)搜索。

    這些爬蟲的訪問頻率尤其能說明問題。舒伯特觀察到,AI爬蟲“不只是爬取一個(gè)頁(yè)面后就離開……它們每 6 個(gè)小時(shí)就會(huì)回來一次”。這也表明這些AI爬蟲是在持續(xù)收集數(shù)據(jù),而非進(jìn)行一次性的訓(xùn)練活動(dòng) —— 這些AI公司在利用這種爬取行為來“更新”它們的模型知識(shí)。

    為了應(yīng)對(duì)這些“攻擊”,出現(xiàn)了一些新的防御工具來保護(hù)網(wǎng)站免受不必要的AI爬蟲侵?jǐn)_。正如 Ars 在今年 1 月報(bào)道的那樣,一位被稱為 “Aaron” 的匿名程序員設(shè)計(jì)了一款名為 “Nepenthes” 的工具 —— 將爬蟲困在無盡的虛假內(nèi)容迷宮中。Aaron 明確將其描述為 “攻擊性惡意軟件”—— 目的是浪費(fèi)AI公司的資源,并有可能會(huì)污染它們的訓(xùn)練數(shù)據(jù)。

    Aaron 解釋說:“每當(dāng)這些爬蟲從我的陷阱中獲取數(shù)據(jù)時(shí),它們就消耗了資源 —— 不得不為此付出真金白銀,這有效地增加了它們的成本。鑒于它們目前都還沒有盈利,這對(duì)它們來說是個(gè)大問題?!?/p>

    周五,Cloudflare 宣布推出 “AI Labyrinth”,這是一種類似于“Nepenthes”、但在商業(yè)上更為完善的工具。與被設(shè)計(jì)成“復(fù)仇者”的Nepenthes 不同,Cloudflare 將他們的工具定位為一種合法的安全功能,以保護(hù)網(wǎng)站所有者免受未經(jīng)授權(quán)的抓取行為。

    Cloudflare 在其公告中解釋說:“當(dāng)我們檢測(cè)到未經(jīng)授權(quán)的爬取行為時(shí),我們不會(huì)屏蔽請(qǐng)求,而是會(huì)鏈接到一系列由AI生成的頁(yè)面,這些頁(yè)面看似非常有說服力,足以吸引爬蟲去瀏覽。” 該公司報(bào)告稱,AI爬蟲每天向其網(wǎng)絡(luò)發(fā)送超過 500 億次請(qǐng)求,占其處理的所有網(wǎng)絡(luò)流量的近 1%。

    就目前的情況來看,AI生成內(nèi)容的迅速增長(zhǎng)使網(wǎng)絡(luò)空間不堪重負(fù),再加上AI公司激進(jìn)的網(wǎng)絡(luò)爬蟲行為,都讓重要網(wǎng)絡(luò)資源的可持續(xù)性遭受著重大威脅。

    如果AI公司能直接與受影響的社區(qū)合作,“負(fù)責(zé)任”的數(shù)據(jù)收集并非難事。然而,AI行業(yè)的巨頭們似乎并沒有啥采取更具合作性措施的想法。若是沒有有效的監(jiān)管,AI公司與受害平臺(tái)之間的“軍備競(jìng)賽”很可能還會(huì)進(jìn)一步升級(jí)。

    舉報(bào)

    • 相關(guān)推薦

    熱文

    • 3 天
    • 7天