研究显示,全球排名前100的网站中约有26%已屏蔽针对GPTBot的访问

根据最新分析,使用人工智能内容检查器和抄袭检查服务Originality.ai的数据显示,目前排名前100的网站中,至少有26个网站(排名前1000则有242个)已经屏蔽了8月7日推出的网络爬虫GPTBot。研究显示,全球排名前100的网站中约有26%已屏蔽针对GPTBot的访问

与上个月相比,这个数字增加了250%。上个月在排名前1000的网站中,只有69个屏蔽了GPTBot。

对是否屏蔽GPTBot一直是许多SEO人员面临的重要问题,因为GPTBot没有引用或链接到其来源。我们允许搜索引擎爬取我们的内容,因为这有明显的潜在好处——通过直接链接/引用获得更多的流量。

显然,更多受欢迎的网站决定屏蔽GPTBot,可能是因为他们不希望OpenAI 在没有任何形式补偿的情况下使用他们的数据来帮助训练模型。

其中12个热门网站已经屏蔽了GPTBot。在上个月新增的100个最受欢迎的网站中,大部分都是发布新闻和信息的网站,包括:

- pinterest.com- indeed.com- theguardian.com- sciencedirect.com- usatoday.com- stackexchange.com- alamy.com- webmd.com- dictionary.com- washingtonpost.com- npr.org- cbsnews.com

有趣的是,在上个月屏蔽GPTBot的Foursquare目前已经取消了屏蔽。

那么CCbot呢?Common Crawl的网络爬虫仍然被少数网站(共130个)屏蔽。值得注意的是,Common Crawl为OpenAI 、Google和其他公司提供了部分训练数据。

此外,在本次分析中发现,在1000个网站中有67个robots.txt文件没有被识别或检查。(这就是为什么在文章开头写了"至少"的原因。)

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

相关新闻

联系我们

联系我们

微信747975991

在线咨询:点击这里给我发消息

邮件:1500158347@qq.com

工作时间:周一至周六,8:30-20:30,可以随时留言

扫码加微信
扫码加微信
返回顶部