Cloudflare推出AI機器人防禦利器，保障網站數據安全

Cloudflare最新推出的免费工具旨在阻止AI机器人对其托管的网站进行数据爬取，从而有效应对不诚实访问和数据盗取的威胁。

Cloudflare(NET.N)，这家上市的云服务提供商，推出了一款新的免费工具，旨在阻止机器人对其平台托管的网站进行数据爬取，用于训练AI模型。

一些AI供应商，包括谷歌(GOOGL.O)、OpenAI和苹果(AAPL.O)，允许网站所有者通过修改其网站的robots.txt文件来阻止他们用于数据爬取和模型训练的机器人。但正如Cloudflare在其宣布防止机器人的工具的帖子中指出的那样，并非所有的AI爬虫都遵守这一规则。

公司在其官方博客上写道：“客户不希望AI机器人访问他们的网站，尤其是那些不诚实的机器人。我们担心，一些企图规避规则获取内容的AI公司将持续调整以逃避机器人检测。”

因此，为了解决这个问题，Cloudflare分析了AI机器人和网络爬虫的流量，优化了自动机器人检测模型。这些模型考虑了多种因素，包括AI机器人是否试图通过模仿使用Web浏览器的外观和行为来规避检测。

Cloudflare表示：“当恶意行为者试图大规模爬取网站时，他们通常使用我们可以指纹识别的工具和框架。基于这些信号，我们的模型能够适当地标记来自规避型AI机器人的流量。”

Cloudflare已设置了一个表单，供主机报告涉嫌的AI机器人和网络爬虫，并表示将继续逐步加入黑名单。

随着生成式AI的繁荣推动模型训练数据的需求，AI机器人的问题变得尤为突出。

许多网站对AI供应商未经通知或补偿就对其内容进行模型训练感到警惕，选择封锁AI爬虫和网络爬虫。据一项研究显示，全球排名前1000的网站中约有26%封锁了OpenAI的机器人；另一项研究发现，超过600家新闻出版商已封锁了这种机器人。

然而，封锁并非百分之百有效的保护措施。正如前文所述，一些供应商似乎在忽略标准的机器人排除规则，以在AI竞赛中获得竞争优势。AI搜索引擎Perplexity最近被指控冒充合法访问者从网站爬取内容，而OpenAI和Anthropic据称有时也忽略robots.txt规则。

在上个月写给出版商的一封信中，内容许可创业公司TollBit表示，事实上，他们看到“许多AI代理”都在无视robots.txt标准。

像Cloudflare这样的工具可能会有所帮助，但前提是它们能够准确检测秘密操作的AI机器人。它们并不能解决发布者面临的更难解决的问题，即如果封锁了特定的AI爬虫，可能会牺牲来自像谷歌AI概览这样的工具的转介流量。

Cloudflare最新推出的免費工具旨在阻止AI機器人對其託管的網站進行數據爬取，從而有效應對不誠實訪問和數據盜取的威脅。

Cloudflare(NET.N)，這家上市的雲服務提供商，推出了一款新的免費工具，旨在阻止機器人對其平台託管的網站進行數據爬取，用於訓練AI模型。

一些AI供應商，包括谷歌(GOOGL.O)、OpenAI和蘋果(AAPL.O)，允許網站所有者通過修改其網站的robots.txt文件來阻止他們用於數據爬取和模型訓練的機器人。但正如Cloudflare在其宣佈防止機器人的工具的帖子中指出的那樣，並非所有的AI爬蟲都遵守這一規則。

公司在其官方博客上寫道：“客戶不希望AI機器人訪問他們的網站，尤其是那些不誠實的機器人。我們擔心，一些企圖規避規則獲取內容的AI公司將持續調整以逃避機器人檢測。”

因此，爲了解決這個問題，Cloudflare分析了AI機器人和網絡爬蟲的流量，優化了自動機器人檢測模型。這些模型考慮了多種因素，包括AI機器人是否試圖通過模仿使用Web瀏覽器的外觀和行爲來規避檢測。

Cloudflare表示：“當惡意行爲者試圖大規模爬取網站時，他們通常使用我們可以指紋識別的工具和框架。基於這些信號，我們的模型能夠適當地標記來自規避型AI機器人的流量。”

Cloudflare已設置了一個表單，供主機報告涉嫌的AI機器人和網絡爬蟲，並表示將繼續逐步加入黑名單。

隨着生成式AI的繁榮推動模型訓練數據的需求，AI機器人的問題變得尤爲突出。

許多網站對AI供應商未經通知或補償就對其內容進行模型訓練感到警惕，選擇封鎖AI爬蟲和網絡爬蟲。據一項研究顯示，全球排名前1000的網站中約有26%封鎖了OpenAI的機器人；另一項研究發現，超過600家新聞出版商已封鎖了這種機器人。

然而，封鎖並非百分之百有效的保護措施。正如前文所述，一些供應商似乎在忽略標準的機器人排除規則，以在AI競賽中獲得競爭優勢。AI搜索引擎Perplexity最近被指控冒充合法訪問者從網站爬取內容，而OpenAI和Anthropic據稱有時也忽略robots.txt規則。

在上個月寫給出版商的一封信中，內容許可創業公司TollBit表示，事實上，他們看到“許多AI代理”都在無視robots.txt標準。

像Cloudflare這樣的工具可能會有所幫助，但前提是它們能夠準確檢測祕密操作的AI機器人。它們並不能解決發佈者面臨的更難解決的問題，即如果封鎖了特定的AI爬蟲，可能會犧牲來自像谷歌AI概覽這樣的工具的轉介流量。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

Cloudflare推出AI机器人防御利器，保障网站数据安全