robots.txt使用技巧与写法
robots.txt的写法是比较重要的,如果写法不当可能造成搜索引擎对网站内容的抓取失败,直接造成网站的内容不收录等问题,为了避免大家造成这样的后果,希望大家认真的看完本篇内容,张自然会在这篇文章中详细的介绍robots.txt的写法,与一些常用使用技巧
robots.txt使用技巧与写法
首先,当蜘蛛来到我们的网站,首先就是查看网站是否有robots.txt文件,对文件读取,判定博客的一些规则,就像人到了某个国家,先在城门口看看该地的法律一样,哪些是被禁止的,哪些是可以浏览的。通过根目录中创建的纯文本文件robots.txt,网站可以声明不想被robots访问的部分。每个网站都可以自主控制网站是否愿意被搜索引擎收录,或者指定搜索引擎只收录指定的内容。当一个搜索引擎的爬虫访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就会按照该文件中的内容来确定访问的范围。
robots.txt使用技巧与写法
声明:robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
下面介绍一下robots.txt内容的语法含义:
User-agent: 定义搜索引擎的类型
Disallow: 定义禁止搜索引擎收录的地址
Allow: 定义允许搜索引擎收录的地址
上面的是一些通用的比较常见的声明,下面详细介绍一些网站经常使用的含义:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL
Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例
了解了这些,可能有些同学想只屏蔽某个搜索引擎的访问,这些搜索引擎的蜘蛛叫什么呢?下面分享给大家
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
假如我们想仅屏蔽百度蜘蛛不让其访问我们的网站,就可以这样设置。
User-agent: Baiduspider
Disallow: /
通常,我们还可以把站点地图也放置在robots.txt文件中,形式是
Sitemap:http://www.wangjishun.com/sitemap.xml
下面,提供一个主流的cms系统提供的robots.txt的写法,供大家参考。
User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
下面附上我的robots.txt的写法:
User-agent: *
Disallow: /wp-*
Disallow: /*?* Disallow: /?url*
Disallow: /feed
Disallow: /*/*/feed
Disallow: /trackback
Disallow: /*/*/trackback
Disallow: /index.php?
Sitemap://www.zhangziran.com/sitemap.html
Sitemap://www.zhangziran.com/sitemap_baidu.xml
Sitemap://www.zhangziran.com/sitemap_google.xml
Sitemap://www.zhangziran.com/sitemap_google.xml.gz