百度百科限制谷歌必应等搜索引擎抓取 保护内容免被AI训练利用
admin
阅读:97
2024-08-22 21:37:11
评论:0
近日,百度百科已开始屏蔽包括谷歌、必应等在内的多数搜索引擎的抓取权限,此举旨在防止这些搜索引擎和其他爬虫未经授权抓取其内容,用于训练人工智能模型。
根据百度百科的robots.txt文件更新显示,目前只有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数搜索引擎被允许抓取其内容。
谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他非白名单爬虫均被明确禁止访问百度百科的数据。尽管360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。
尽管百度百科采取了上述措施,但有业内人士指出,这些方法可能只能防止大部分合法的爬虫抓取,无法完全阻止那些通过特殊手段绕过限制的小型爬虫继续获取内容,用于AI训练。
本文 狮子狗个人网站 原创,转载保留链接!网址:https://9377news.com/post/1430.html
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。