share_log

Cloudflare推出AI机器人防御利器,保障网站数据安全

Cloudflare has launched an AI robot defense weapon to ensure the security of website data.

Golden10 Data ·  16:35

Cloudflare最新推出的免费工具旨在阻止AI机器人对其托管的网站进行数据爬取,从而有效应对不诚实访问和数据盗取的威胁。

Cloudflare(NET.N),这家上市的云服务提供商,推出了一款新的免费工具,旨在阻止机器人对其平台托管的网站进行数据爬取,用于训练AI模型。

一些AI供应商,包括谷歌(GOOGL.O)OpenAI苹果(AAPL.O),允许网站所有者通过修改其网站的robots.txt文件来阻止他们用于数据爬取和模型训练的机器人。但正如Cloudflare在其宣布防止机器人的工具的帖子中指出的那样,并非所有的AI爬虫都遵守这一规则。

公司在其官方博客上写道:客户不希望AI机器人访问他们的网站,尤其是那些不诚实的机器人。我们担心,一些企图规避规则获取内容的AI公司将持续调整以逃避机器人检测。

因此,为了解决这个问题,Cloudflare分析了AI机器人和网络爬虫的流量,优化了自动机器人检测模型。这些模型考虑了多种因素,包括AI机器人是否试图通过模仿使用Web浏览器的外观和行为来规避检测。

Cloudflare表示:当恶意行为者试图大规模爬取网站时,他们通常使用我们可以指纹识别的工具和框架基于这些信号,我们的模型能够适当地标记来自规避型AI机器人的流量。

Cloudflare已设置了一个表单,供主机报告涉嫌的AI机器人和网络爬虫,并表示将继续逐步加入黑名单。

随着生成式AI的繁荣推动模型训练数据的需求,AI机器人的问题变得尤为突出。

许多网站对AI供应商未经通知或补偿就对其内容进行模型训练感到警惕,选择封锁AI爬虫和网络爬虫。据一项研究显示,全球排名前1000的网站中约有26%封锁了OpenAI的机器人;另一项研究发现,超过600家新闻出版商已封锁了这种机器人。

然而,封锁并非百分之百有效的保护措施。正如前文所述,一些供应商似乎在忽略标准的机器人排除规则,以在AI竞赛中获得竞争优势。AI搜索引擎Perplexity最近被指控冒充合法访问者从网站爬取内容,而OpenAIAnthropic据称有时也忽略robots.txt规则。

在上个月写给出版商的一封信中,内容许可创业公司TollBit表示,事实上,他们看到许多AI代理都在无视robots.txt标准。

Cloudflare这样的工具可能会有所帮助,但前提是它们能够准确检测秘密操作的AI机器人。它们并不能解决发布者面临的更难解决的问题,即如果封锁了特定的AI爬虫,可能会牺牲来自像谷歌AI概览这样的工具的转介流量。

The translation is provided by third-party software.


The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment