AI公司不斷開發新爬蟲繞過阻攔網站運營跟不上

58 閱讀 0 評論 0 點讚

在網路建立的早期，大傢有瞭一個不成文的協議，即一個名為“robot.txt”的文本文件——也就是攔截列表中將決定誰能夠訪問你的網站，這主要針對機器人/爬蟲。一般網站主要面向搜索引擎開放，以讓搜索引擎帶來流量。但這個不成文的約定正在被人工智能公司打破。

已經有許多網站為瞭保護權益正在試圖阻止一傢名為 Anthropic 的 AI 公司抓取網站內的內容。然而隨著該公司不斷開發新的爬蟲，來不及更新“robot.txt”文件的網站成瞭被盜用資源的受害者。

根據 404 Media 采訪跟蹤網絡爬蟲和抓取工具網站的 Dark Visitors 運營者，他在幫助其他網站運營者更新“robot.txt”期間發現，現狀非常混亂。匿名運營著說道：“代理生態系統瞬息萬變，因此網站所有者基本不可能手動跟上。”

拿 Anthropic 距離，一些熱門網站例如路透社等在 robot.txt 中組織瞭“ANTHROPIC-AI”和“CLAUDE-WEB”兩個爬蟲，他們曾由 Anthropic 的 Claude AI 聊天機器人使用，但目前該公司最活躍的爬蟲實際上是“CLAUDEBOT”，因此這些網站都不會阻攔該爬蟲。其他數百個復制粘貼攔截列表的網站也未能阻止該公司。

AI公司不斷開發新爬蟲繞過阻攔網站運營跟不上

404 Media 采訪瞭許多網絡行業從業者，他們均表示面對 AI 公司的這種行為，鼓勵網站積極屏蔽此類機器人/爬蟲。網絡安全公司 StackAware 首席執行官 Walter Haydock 就表示支持在“robot.txt”中添加大量的可能屏蔽對象，並說道：“如果它們最終不存在，那麼阻止它們也不會產生任何影響。”

他還表示該屏蔽列表說到底也不過是互聯網的一個約定俗成，“阻止 AI 公司的代理依賴於 AI 公司尊重 robot.txt 文件，並且你還需要知道所有的 AI 抓取代理。對於大多數公司來說，這種情況的可能性很低，因此我預計更多的創作者會將他們的內容轉移為付費觀看，以防止無限制的抓取。”

點讚(0) 打賞

本文分类：遊戲動漫
本文标签：AI公司不斷開發新爬蟲繞過阻攔網站運營跟不上
浏览次数：58 次瀏覽
发布日期：2024-07-30 17:20:29
本文链接：https://shuohk.com/cms/youxidongman/140333.html

上一篇 > 達美航空因藍屏取消近7000航班計劃向微軟等索賠
下一篇 > 傳《復聯5》唐尼片酬遠高於8000萬美元明年Q2開拍

评论列表共有 0 條評論

暫無評論

AI公司不斷開發新爬蟲繞過阻攔 網站運營跟不上

AI公司不斷開發新爬蟲繞過阻攔 網站運營跟不上

评论列表 共有 0 條評論

發表評論 取消回复

AI公司不斷開發新爬蟲繞過阻攔網站運營跟不上

AI公司不斷開發新爬蟲繞過阻攔網站運營跟不上

评论列表共有 0 條評論

發表評論取消回复