LYP.CN

对于一个新网站来说,哪个搜索引擎的蜘蛛最勤快?

虽然在目前的中国市场,讨论这个话题显得有些无聊,因为不管谁家的蜘蛛再勤快,在百度的超高市场份额面前,都会失去意义。所以今天我是纯粹从钻牛角尖和八卦的角度来研究这个问题。

测试的几个基本情况是这样的:

1、网站域名已经备案通过;

2、网站域名是新注册的,此前从未有过这个域名的任何信息,更绝无可能做过站并被收录过;

3、网站空间放在国内的服务器上,并有若干个页面可以被访问到。

下面,就开始测试咯。

首先,当然是把域名解析到相应的服务器上。我于11月8日下午17:30做了域名解析,通过dnspod的域名诊断,可以看到大约17:35的时候,全国各地均可以正常解析了。此时的网站已经可以正常访问。

其次,是得告诉搜索引擎,我们的新网站来了。大约18:30的时候我在考研网首页放了个链接(就是这个:大学网)。

然后在19:28的时候,服务器的日志显示,第一只蜘蛛来了!

203.208.60.226 – – [07/Nov/2012:19:28:38 +0800] “GET /robots.txt HTTP/1.1″ 200 140 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” –

203.208.60.226 – – [07/Nov/2012:19:28:38 +0800] “GET / HTTP/1.1″ 200 690 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” -

呵呵,Google的蜘蛛果然是勤快啊,而且很懂规矩,一上来就先查阅robots.txt,看看网站对蜘蛛有什么限制。

大约在21:10的时候,服务器的日志显示,第二只蜘蛛来了:

218.30.103.138 – – [07/Nov/2012:21:10:37 +0800] “GET /robots.txt HTTP/1.1″ 200 140 “-” “Sogou web spider/4.0″ –

218.30.103.138 – – [07/Nov/2012:21:10:37 +0800] “GET / HTTP/1.1″ 200 690 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” -

搜狗的蜘蛛也很讲原则,也是先看robots.txt。

大约21:18的时候,来了第三只蜘蛛,但soso这只蜘蛛只是来探路的,看看robots.txt就走了(后来我在凌晨4点多的日志里再次看到了它的身影,这次爬了一下首页,呵呵,看来是回去汇报了一下再过来的):

124.115.6.11 – – [07/Nov/2012:21:18:46 +0800] “GET /robots.txt HTTP/1.1″ 200 140 “-” “Mozilla/5.0(compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)” -

然后就到了半夜,2:23的时候,人民网搜索的蜘蛛也来了:(这只蜘蛛是效率最高的,因为早上我就看到人民网搜索已经收录了我们的新站)

1.202.218.68 – – [08/Nov/2012:02:23:33 +0800] “GET /robots.txt HTTP/1.1″ 200 140 “-” “Mozilla/5.0 ()” –

1.202.218.68 – – [08/Nov/2012:02:24:06 +0800] “HEAD / HTTP/1.1″ 200 0 “-” “Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)” –

1.202.218.68 – – [08/Nov/2012:02:24:22 +0800] “GET / HTTP/1.1″ 200 690 “-” “Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)” -

jike的蜘蛛不仅查看robots.txt,还要先看一下网站服务器的head信息,有意思。

其实在google的蜘蛛第一个光临之后,它每隔三四个小时还会再来一次,最勤快的蜘蛛毫无疑问得颁发给Googlebot。

在后半夜陆续又来了几只国外的蜘蛛,我甚至都不知道他们是哪个搜索引擎的,汗。。。

然后就到了早上的7:42,我们终于盼来了它:

117.28.255.42 – – [08/Nov/2012:07:42:20 +0800] “GET / HTTP/1.1″ 301 286 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:42:21 +0800] “GET / HTTP/1.1″ 200 690 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:42:21 +0800] “GET / HTTP/1.1″ 301 286 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:42:21 +0800] “GET / HTTP/1.1″ 200 690 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:43:53 +0800] “GET / HTTP/1.1″ 301 286 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:43:53 +0800] “GET / HTTP/1.1″ 200 690 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:43:58 +0800] “GET / HTTP/1.1″ 301 286 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:43:59 +0800] “GET / HTTP/1.1″ 200 690 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:43:59 +0800] “GET / HTTP/1.1″ 301 286 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” –

117.28.255.42 – – [08/Nov/2012:07:43:59 +0800] “GET / HTTP/1.1″ 200 690 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” -

但是,奇怪的是,百度的蜘蛛不看robots.txt,并且每次都要先访问一下不带www的域名(我做了个设置,不带www的会301到www,百度的蜘蛛每次都是一个301跳转,应该就是先访问不带www的域名导致的)。

一直到下午我写这篇文章之前,还没见到传说中的360的蜘蛛,不知道是不是它隐姓埋名了?

这个测试如果再广泛一点(比如通过更多的新网站来进行测试而不是只有一个,或者同时向各个搜索引擎的收录提交页面提交相应的url),可能会更客观一些。但就目前来说,Google的蜘蛛毫无疑问是抓取新网站最勤快的。当然,搜狗的蜘蛛也不错,而且效率也蛮高的,现在都已经收录4个页面了,呵呵。

(4084次阅读)

已有 0 条评论