创建robots.txt,给爬虫指一条明路

如果在现实中碰到陌生人问路,大家多半会告诉他们怎么走。
如果问路的陌生人再给点好处,相信会有更多的人乐意给他们指明方向。

那先说一下好处,我这里的关键字,在创建了robots.txt后,搜索排名有效提升了27位。

原理不详,初步判断是杜绝了“关键词堆砌欺骗(Keyword Stuffing)”作弊的嫌疑,我们知道,由于链接的指向,而导致网站内容重复,一直是网站SEO的大忌。不同的链接指向同一个网页,就会被搜索引擎判定为作弊。然而,由于WordPress的结构原因,往往就会发生网页内容重复的状况。例如:http://uicss.cnhttp://uicss.cn/?feed=rss2 这两个网址下的内容就是一样的,所以,我们就必须想办法阻止这样的情况发生。

robots.txt 是一个标准文档,意在阻止搜索引擎的Spider(爬虫)从您的 Web 服务器下载某些或全部信息,控制Spider的搜索范围。robots.txt的设置很简单,只要用记事本或其他文本编辑器,依照自己的网站需求,设定一系列选项,然后将其上传到网站根目录即可。我的robots.txt设置如下:

User-agent: * 意思是:允许所有的搜索引擎的机器人(Spider)访问本站,
Disallow: /wp- 不允许爬行以“wp-开头”的文件和目录
Disallow: /?feed 不允许爬行以“?feed开头”的订阅信息
Disallow: /ck/work/ 不允许爬行work目录下的内容
Disallow: .rar$ 不允许爬行压缩文件
Disallow: .zip$

大家需要针对自己页面模板的设置,来写出自己的robots.txt,例如大部分模板都采用的/trackback/目录和/comments/feed/目录,也是需要屏蔽爬行的。

崔凯博客
Powered by WordPress | Theme by ck web design | TOP 顶部
Copyright © 崔凯 All rights reserved. 蜀ICP备12025891号.