Cloudflare默认阻止AI爬虫抓取内容

【纬度新闻网】全球领先的内容分发网络(CDN)服务商Cloudflare宣布,自周二(7月1日)起,新注册其服务的域名将默认阻止人工智能(AI)爬虫在未经网站所有者许可或补偿的情况下抓取内容。此举可能对AI开发者训练模型的方式产生深远影响,同时为网站所有者提供了更大的数据控制权和潜在收益来源。
根据Cloudflare的新政策,每一个新注册的域名都将被询问是否允许AI爬虫访问其内容。这一设置有效赋予网站所有者阻止未经授权抓取的能力。此外,Cloudflare推出了一种创新的“按次付费爬取”模式,允许出版商向AI爬虫收取访问费用,为内容创作者开辟了新的商业化路径。
Cloudflare是全球内容分发网络领域的领军企业,通过将数据缓存至更接近终端用户的位置,显著提升在线内容和应用程序的传输速度。根据其2023年报告,约16%的全球互联网流量通过Cloudflare的CDN网络传输,凸显其在保障网络内容无缝访问中的关键作用。
Cloudflare联合创始人兼首席执行官马修·普林斯(Matthew Prince)在7月1日的声明中表示:“AI爬虫长期以来无限制地抓取网络内容,我们的目标是将控制权归还给创作者,同时继续支持AI公司的技术创新。”他进一步指出,这一新政旨在通过构建多方共赢的模式,维护“自由且繁荣的互联网未来”。
近年来,AI爬虫被广泛用于收集训练大型语言模型和生成式AI所需的海量数据。然而,未经许可的抓取行为引发了版权、隐私及公平性争议。Cloudflare的新举措被视为对这一问题的积极回应,旨在平衡AI技术发展与内容创作者的权益保护。
分析人士认为,Cloudflare的新政策可能对AI开发者的数据获取方式构成挑战,尤其是对依赖公开网络数据进行模型训练的初创公司而言。与此同时,这一政策为网站所有者提供了新的收入机会,可能推动更多出版商和内容创作者参与到AI数据经济的生态中。
作为CDN领域的巨头,Cloudflare的举措或将引发行业连锁反应,促使其他网络基础设施提供商效仿类似政策。未来,AI公司可能需要调整其数据采集策略,与内容所有者建立更透明的合作关系,以确保技术创新与数据伦理的平衡发展。