【综合工具】你的网站正在被 AI 爬虫爬取?用反 AI 机器人功能

你的网站,可能已被盯上

生成式人工智能的流行使得用于训练模型或运行推理的内容需求猛增,尽管一些人工智能公司清楚地识别了他们的网络抓取机器人,但并非所有人工智能公司都是透明的。

Cloudflare 最新推出“一键阻止所有 AI 机器人”功能,无论免费或付费用户,都能轻松保护你的网站内容,拒绝被白嫖。

【综合工具】你的网站正在被 AI 爬虫爬取?用反 AI 机器人功能

AI 内容蔓延,你的网站安全吗?

生成式 AI 的火爆,让高质量内容成为“香饽饽”。但部分 AI 公司却动起了歪心思,偷偷摸摸爬取网站内容,甚至伪装身份,让人防不胜防。Reddit、OpenAI 等巨头都曾因类似行为被曝光,可见问题之严重。

Cloudflare 推出“一键阻止所有 AI 机器人”功能。只需在 Cloudflare 仪表板“安全 -> 机器人”部分,启用“AI 抓取工具和爬虫”开关即可。

【综合工具】你的网站正在被 AI 爬虫爬取?用反 AI 机器人功能

不是“一刀切”

Cloudflare 的 AI 机器人拦截功能,可不是简单粗暴地屏蔽所有爬虫。它基于强大的机器学习模型和全球流量分析,能够精准识别并拦截恶意 AI 爬虫,同时允许合法爬虫访问。

怎么用?

  1. 登录 Cloudflare 仪表板。
  2. 导航至“安全 -> 机器人”部分。
  3. 找到并启用“AI 抓取工具和爬虫”开关。

【综合工具】你的网站正在被 AI 爬虫爬取?用反 AI 机器人功能

点击链接查看详细介绍:

https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click

谁在偷窥你的网站?

Cloudflare  分析了过去一年全球网络流量,揭露了最常见的 AI 爬虫:

【综合工具】你的网站正在被 AI 爬虫爬取?用反 AI 机器人功能

  1. Bytespider:  来自字节跳动,用于训练其大语言模型,包括 ChatGPT 的竞争对手“豆包”。
  2. Amazonbot:  用于为 Alexa 的问题回答功能索引内容。
  3. ClaudeBot:  用于训练 Claude 聊天机器人。
  4. GPTBot:  来自 OpenAI,用于训练 ChatGPT 等 AI 产品背后的模型。

【综合工具】你的网站正在被 AI 爬虫爬取?用反 AI 机器人功能

数据显示,Bytespider 不仅请求量最大,而且访问的网站范围也最广。GPTBot 紧随其后。

面对 AI 爬虫,网站运营者如何应对?

Cloudflare 的数据显示,虽然有相当比例的网站被 AI 爬虫访问,但真正采取措施阻止的却寥寥无几。

【综合工具】你的网站正在被 AI 爬虫爬取?用反 AI 机器人功能

Cloudflare 提供更智能的解决方案。

传统的 robots.txt 方式,容易被 AI 爬虫通过伪造身份绕过。Cloudflare 采用机器学习模型和全球信号计算,识别并拦截这些“伪装者”。

如今互联网上充斥着这些人工智能机器人,我们很好奇网站运营商对此做出了怎样的回应。6 月份,人工智能机器人访问了使用 Cloudflare 的前 100 万个互联网资产中的约 39%,但只有 2.98% 的互联网资产采取措施阻止或挑战这些请求。此外,互联网资产的排名越高(越受欢迎),就越有可能成为人工智能机器人的目标,相应地,也就越有可能阻止此类请求。

访客数量排名前 N 的互联网资产 人工智能机器人访问的百分比 % 阻止人工智能机器人
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

我们看到网站运营商使用 robots.txt 完全阻止对这些 AI 爬虫的访问。但是,这些阻止依赖于机器人运营商尊重 robots.txt 并遵守RFC9309(确保所有用户的变体都与产品令牌匹配)以在用户访问互联网资源时如实识别他们的身份,但用户代理对于机器人运营商来说很容易更改。

© 版权声明
THE END
文章不错?点个赞呗
点赞6
评论 抢沙发

请登录后发表评论

    暂无评论内容