企业网络营销
整体解决方案供应商

全国咨询热线:4008925101

网站robots应该怎么写?

一般来说,网站或多或少都存在一些对排名没意义甚至有害的页面。对于站长来说是不希望被搜索引擎检索的。而robots.txt文件则承担了站长这个意愿的表达功能。当蜘蛛访问网站会优先抓取robots.txt,遵循站长配置的规则不再抓取不利于SEO的内容。


robots.txt文件位置


robots文件往往放置于根目录下


robots.txt文件格式


Disallow:该项的值用于描述不希望被访问的一组URL


Allow:该项的值用于描述希望被访问的一组URL


User-agent:该项的值用于描述搜索引擎robot的名字


例如:


User-Agent:YisouSpider // 配置YisouSpider


Disallow: / // 不允许YisouSpider抓取网站任何内容


User-Agent:* // 配置所有搜索引擎


Allow: / // 允许抓取网站任何内容


更多


Disallow: /abc //禁止抓取含abc目录及子目录的所有页面


robots.txt通配符的使用


“*” 匹配0或多个任意字符


“$” 匹配行结束符。


举例:


Disallow: /*?* //禁止抓取网站中所有的动态页面


Disallow: /*.htm$ // 禁止抓取所有以.htm为后缀的URL页面 /abc.htm/index 不匹配


区别于Disallow: /*.htm // /abc.htm/index 也匹配


网站哪些内容不建议被抓取


对于这个小白也懂的不多,一般取决于内容是否利于SEO的原则。例如,我博客的搜索结果页,没做好优化的tags页都禁止抓取了。而对于企业站来说,如果不打算可以优化公司名称的关键词,关于、联系、企业新闻等一些内容都可以考虑禁止


还有一点值得注意的事,有很多站长反馈说百度不遵循robots.txt协议,抓取不该抓取的内容。笔者也感觉不是很靠谱,所以也可以考虑在一些页面设置meta name=”robots“


百度的解释理解起来或许有所偏差,如果有不对,大家可以指正、交流

  • 关注创搜
  • 扫描二维码
  • 关注公众号
  • 常州网络公司,常州网站建设,常州网络推广,创搜软件,CCTV品牌加油站
         
  • 地址:常州市新北区高新科技园10号楼东楼2楼
  • 电话:4008925101
  • 邮箱:Service@0519see.com
版权所有: 江苏创搜软件有限公司 ©Copyright ©2015 www.jscsrj.com All Rights Reserved 苏ICP备17006714号-7
 
QQ咨询
QQ在线咨询
售前咨询热线
4008925101
售后咨询热线
15151942373