维基基金会称 AI 爬虫导致带宽消耗增加五成

维基媒体基金会周二表示,无休止抓取内容的 AI 爬虫给其服务器造成了巨大压力。自 2024 年 1 月以来,下载多媒体内容的带宽增长了 50%。维基媒体基金会托管了维基百科以及维基共享资源,其中维基共享资源提供了 1.44 亿份采用开放许可证的媒体文件,自 2024 年初以来,为获取模型训练数据 AI 公司通过直接抓取、API 和批量下载大幅增加了自动抓取量。非人类流量的指数级增长带来了高昂的技术和财务成本。维基百科的缓存系统是为可预测的人类浏览行为而设计的,但 AI 爬虫会不加区分的抓取内容,会抓取通常人类访问量很少的页面,导致缓存系统失效。维基媒体基金会发现,尽管机器人程序只占总页面浏览量的 35%,但它在其核心基础设施最昂贵的请求中占了 65%。原因是机器人请求的成本远高于人类请求,而且在快速增加。更糟糕的是 AI 爬虫通常不遵守规则,无视 robots.txt,会使用欺骗性的浏览器用户代理伪装成人类访客,甚至会轮流使用家庭 IP 地址以避免被屏蔽。AI 爬虫对网站可靠性团队造成了持续的干扰,团队必须一直阻止爬虫,以免影响人类访客的页面访问速度。

Ars:AI bots strain Wikimedia as bandwidth surges 50%