robots.txt使用入门

May 30th, 2010 Program 12 comments


在我们做网站或者写博客的时候,如果我们网站某个页面不想让百度和google等搜索引擎收录,那怎么办?答案是robots.txt能实现这个梦想。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是不希望被搜索引擎收录的 。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被保护的页面。

关于robots.txt一般站长需要注意以下几点:

1、如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
2、必须命名为:robots.txt,都是小写,robot后面加”s”。
3、robots.txt必须放置在一个站点的根目录下。如:通过 http://www.xxx.com/robots.txt 可以成功访问到,则说明本站的放置正确。
4、一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
5、有几个禁止,就得有几个Disallow函数,并分行描述。
6、至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。

补充说明:

User-agent: * 星号说明允许所有搜索引擎收录

Disallow: /about.html 说明 这个页面禁止搜索引擎抓取。(注:因为这个页面没有人去搜索,它就是一个空白页,所以我是不希望搜索引擎去抓取一个无任何内容的页面的)

Disallow: /catalog.php?page= 说明类似这样的页面http://www.xxx.com/catalog.php?page=2 禁止搜索引擎抓取。

  1. ikeeptrying × 30 May 2010 @ 22:25 #comment-470

    我是对所有搜索引擎都开放的~

  2. 西门 × 30 May 2010 @ 22:49 #comment-471

    昨天还是今天,忘记了。检查Google站长工具,发现Google蜘蛛跑到我后台去了,显然是错误。我删掉那个错误网页,顺便加了个规则:
    User-agent: *
    Disallow: /wp-admin/

  3. 掌柜的马甲 × 31 May 2010 @ 07:51 #comment-472

    这个在google站长工具里试了很长时间…

  4. Firm × 31 May 2010 @ 10:29 #comment-473

    好像WordPress自带的就有这个功能

  5. 棺材中的尘埃 × 31 May 2010 @ 17:05 #comment-474

    据说可以利用robots来限制外联?

  6. panny × 31 May 2010 @ 21:19 #comment-475

    这个东东以前玩过,呵呵

  7. 羽中 × 31 May 2010 @ 22:19 #comment-476

    我设置禁止了禁止抓取程序内部文件夹

  8. 龙崽 × 01 Jun 2010 @ 11:46 #comment-477

    标记下,目前还木有需求

  9. 刘晓林 × 01 Jun 2010 @ 22:43 #comment-478

    我期望搜索,但是有些不愿意被转载,只是这样,哈哈!

  10. joyla × 20 Jun 2010 @ 13:40 #comment-494

    学习了!呵呵

  11. 海天 × 09 Jul 2010 @ 23:13 #comment-517

    我去掉了 翻页的收录 呵呵

  12. lowstz × 06 Sep 2010 @ 19:21 #comment-628

    搭建某些东西直接主目录Disallow

Leave A Reply