【前言】
什么是robots文件:
Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有该文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录网站所有页面。通常我们都会填写好robots.txt 文件并将其添加至网站的根目录中,从而优化网站的收录结果和权重。
在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
作用:意思是告诉搜索引擎不要抓取后台程序文件。
注意:该robots.txt文件不真实存在,是Wordpress虚拟出来的,但可以正常访问。
关于 roboots.txt 的书写格式以及作用,可以查看百度的: robots.txt 配置教程。
创建规则
显然以上的规则是不完善的,下面给出一个比较完整的robots.txt文件参考内容,也是本站在使用的一个规则:
注: 仅限于Wordpress主题使用…..
在网站的根目录下创建一个robots.txt的文件,并将以下内容粘贴进去即可。
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /*/trackback Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /*/*page/* Disallow: /tag/*/page/ Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /attachment/
规则作用解释
User-agent: * # 禁止搜索引擎抓取后台程序文件 Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ # 禁止搜索引擎抓取收录评论分页等相关链接 Disallow: /*/comment-page-* Disallow: /*?replytocom=* # 禁止搜索引擎抓取收录trackback等垃圾信息 Disallow: /*/trackback # 禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关 Disallow: /feed Disallow: /*/feed Disallow: /comments/feed # 禁止搜索引擎抓取收录分类和标签的分页 Disallow: /*/*page/* Disallow: /tag/*/page/ # 禁止搜索引擎抓取收录站内搜索结果 Disallow: /?s=* Disallow: /*/?s=*\ # 禁止搜索引擎抓取收录附件页面,例:一些毫无意义的图片附件页面等 Disallow: /attachment/ # 注本代码为规则语意解析代码。不建议直接使用,正确的书写格式参考上文。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)