在 Mozilla 處理 Firefox 網絡兼容性問題的工程師 Dennis Schubert 近期指責大模型公司瘋狂爬取內容導致網站負載過高而運行變慢的帖子火了
原標題:“要點臉吧!”大模型巨頭“吸血”網站資源無底線,被惹怒的開發者來“復仇”了!
文章來源:AI前線
內容字數:8384字
大模型引發的互聯網危機:開發者們的困境與反擊
近期,Mozilla 工程師 Dennis Schubert 的一篇文章引發熱議,文章揭露了大模型公司瘋狂爬取數據導致網站負載過高、運行緩慢的嚴重問題。這篇文章道出了許多開發者的心聲,也引發了關于如何應對 AI 的廣泛討論。
1. 大模型的瘋狂行為
Schubert 以自身網站為例,指出其 70% 的服務器負載來自大模型訓練操作。GPTBot、Amazonbot 和 ClaudeBot 等反復爬取內容,每 6 小時返回一次,嚴重影響網站性能,甚至引發 DDoS 攻擊。大型網站如 iFixit、Read the Docs 和 Freelancer.com 也遭遇了類似的攻擊,網站一度癱瘓。
2. 開發者們的無奈與反擊
面對 AI 的肆虐,開發者們嘗試了多種方法進行防御。robots.txt 文件被廣泛使用,但許多無視該協議。一些開發者開始使用 Cloudflare 等工具屏蔽請求,或在 robots.txt 中添加抓取延遲。更激烈的反擊手段則包括開發插件(如 AI Poison Pill),用垃圾內容“毒害”,或返回超大容量文件消耗資源。
3. 新聞媒體的困境與選擇
新聞媒體是 AI 的主要目標之一。超過半數新聞出版商選擇屏蔽 AI ,但這種做法的法律效力尚存爭議。一方面,robots.txt 的法律地位不明確;另一方面,用戶將網站內容用于大模型訓練的行為難以阻止。一些新聞機構也開始探索付費爬取的可能性。
4. 版權問題與倫理爭議
AI 的廣泛使用引發了嚴重的版權問題。大模型利用爬取的內容進行訓練,再與原創作品競爭,引發了藝術家和內容創作者的強烈不滿。音樂生成 AI 與唱片公司之間的沖突,也反映了這一矛盾的復雜性。
5. 未來的挑戰與應對
AI 問題需要行業共同努力解決。開發者需要更有效的防御手段,大模型公司需要更負責任的爬取行為,法律法規也需要跟上技術發展的步伐,明確 robots.txt 等工具的法律效力,并對 AI 行為進行規范,才能平衡技術發展與內容創作者的權益。
總而言之,AI 帶來的問題已經成為互聯網生態面臨的重大挑戰,需要各方共同努力,尋找合理的解決方案。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。