17720230116
湖北传创网络科技有限公司
鄂州市鄂城区武汉东国际家居建材博览城8号
kf@hbccwlkj.com
百度蜘蛛爬行我们的网站时会优先爬行根目录下的robots.txt文件。robots.txt文件存在的意义是:防止搜索引擎收录一些保密和没有意义的页面,这个文件声明的是该网站中不想被爬虫访问的部分。从而保证网站的安全和更好的优化效果。
robots.txt文件必须存在根目录下,而且百度蜘蛛只能识别小写的robots.txt文件。
下面介绍一年robots.txt文件里面的常用语的意思:
User-agent:用来指定搜索引擎爬虫的名字。
Disallow:用来指定不希望被搜索引擎爬虫访问到的URL。
Allow:用来指定希望被搜索引擎爬虫访问到的URL(优先级要比Disallow高)。
*:通配符,有“全部”的意思。
Sitemap:指定网站地图的位置。
对于一些大型的网站来说,robots.txt文件可以写的详细一点。比如说禁止抓取后台文件、禁止抓取data(就是也就是禁止抓取数据库)。
但是如果我们是一个小企业站、一些小网站的话,其实就也没必要设置太多东西。因为蜘蛛一般只会抓取那些有价值的内容。就拿后台来说,光一个后台登录框也没有什么内容,一般来讲蜘蛛不会抓取的。
所以以下格式是对安全性要求不是特别高的那些小网站可以借鉴的形式:
User-agent:*
Allow:/
Sitemap:https://www.XXXXXX.com/sitemap.xml
修改robots.txt文件的话,那你需要在dede后台的文件管理器中去修改。
另外提醒一下,robots.txt文件本质上是一种协议,而不是强制隔离的技术手段。如果有爬虫想暴力抓取你网站的内容,那你的robots.txt是根本防不住的。