来源:星火智游网 责编:网络 时间:2025-04-28 07:33:15
近年来,随着人工智能技术的飞速发展,网络爬虫对维基媒体项目造成的带宽压力日益严重。维基媒体基金会的代表指出,自2024年1月以来,用于服务多媒体文件的带宽消耗增加了50%。这一增长主要来源于自动化程序,这些程序不断从维基媒体的开放许可图像库中抓取内容,以供 AI 模型进行训练。
维基媒体基金会的工作人员 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在公开信中表示,这一带宽增加并非源于人类用户,而是由于机器人程序的强大需求。他们强调:“我们的基础设施旨在承受人类用户在高兴趣事件期间的突发流量,但爬虫产生的流量却是前所未有的,给我们带来了越来越大的风险和成本。”
根据维基媒体的统计,约65% 的高成本内容流量是由这些爬虫生成的,尽管爬虫只占页面浏览量的35%。这是因为维基媒体的缓存方案将热门内容分发到全球各地的数据中心以提高性能,而爬虫在访问页面时并不考虑内容的受欢迎程度,因此会请求不那么受欢迎的内容,这使得内容必须从核心数据中心获取,消耗了更多的计算资源。
在过去的一年中,关于网络爬虫的过度抓取问题已经引起了多个开源项目的关注。例如,Git 托管服务 Sourcehut、Diaspora 开发者 Dennis Schubert、修理网站 iFixit 和 ReadTheDocs 等均对此表示不满。他们都反映了 AI 爬虫在内容抓取中表现出的过度需求。
维基媒体基金会在其2025/2026年的年度规划中提出了 “减少爬虫生成的流量” 的目标,计划减少20% 的请求率和30% 的带宽使用。他们希望能够优先考虑人类用户的使用体验,并支持维基媒体项目和贡献者。
虽然许多网站认识到为爬虫提供带宽是商业的一部分,但随着像 ChatGPT 这样的生成 AI 的普及,爬虫的抓取行为变得愈发激进,甚至可能对源网站的存在构成威胁。维基媒体基金会承认,虽然 Wikipedia 和 Wikimedia Commons 对机器学习模型的训练非常重要,但他们必须优先考虑人类用户的需求。
为应对这一挑战,已经出现了一些工具来对抗爬虫的过度抓取行为,例如数据中毒项目 Glaze、Nightshade 和 ArtShield,以及网络工具 Kudurru、Nepenthes 等。然而,现有的机器人协议(robots.txt)并不能完全有效地限制这些爬虫的行为,尤其是它们可能会伪装成其他爬虫以规避封锁。
划重点:
🌐 爬虫对维基媒体带宽的消耗增加50%,主要来自于 AI 模型的内容抓取。
🤖 约65% 的高成本内容流量由爬虫生成,虽然爬虫只占页面浏览量的35%。
📉 维基媒体基金会计划在2025/2026年减少爬虫生成的流量,优先考虑人类用户的需求。
随着移动互联网的迅速发展,各类应用程序不断涌现,丰富了人们的日常生活。幸福宝8008app作为一款颇受欢迎的应用,不仅提供了多个功能,还
魅影直播间在B站的直播功能近年来逐渐受到广大用户的青睐。这不仅是因为平台的流量优势,更重要的是其提供了丰富的互动体验,这让主播与观
化学是一个充满神奇与魅力的领域,尤其是在探索金属元素及其化合物时,更是让人感受到无尽的惊喜。今天,我们将聚焦在“钢钢钢钢钢钠好多水
小莫烧麦原唱歌曲mp3免费听,此曲乃音韵之美,深得人心。诸君可于互联网上寻觅此曲之音频,多方平台齐聚,或可免费聆听,畅享其中妙趣。小
维基媒体基金会警告关于 AI 爬虫造成带宽负担的问题,呼吁更多关注与解决
火影忍者中的面具男真相大揭秘——带土角色的深度分析与游戏内涵探讨
Gemini-2.5-pro在MathArena评测中展现出色的数学表现,明显领先于其他模型的竞争
NotebookLM 新推出的“Discover sources”功能,智能系统自动扫描网络信息源,便捷搜集相关主题资料
NotebookLM推出全新“Discover Sources”功能:重新定义信息收集与研究体验的创新之道
OpenAI 强调英国需要前瞻性的版权政策以促进人工智能的健康发展与创新
百度推出飞桨框架3.0,推动智能开发在大模型时代的全面升级与创新
2024年全球移动发行商收入榜单发布,OpenAI首次进入榜单引发关注
ChatGPT再次推出图片生成功能升级 此次甚至能够生成草书字体的作品了
Meta新款高档智能眼镜“Hypernova”详情曝光:配备内置显示屏,售价可能高达1400美元