降龙分析：百度蜘蛛爬取的原理及先后顺序

顺晟科技

2019-08-16 15:38:19

214

这几日正好在分析新东家服务器日志上的百度蜘蛛抓取记录，可以一起探讨下。

1.一般大型网站百度蜘蛛重复抓取率较低，而中小型网站重复抓取率较高，因此看到百度蜘蛛爬得很勤，不必太高兴，只能说明百度记不住这个网站，需要多爬几次以免忘记。

2.前面子桥也回答了，一般百度看不到网站根目录，但可以在根目录下放张sitemap，然后在robots文件里注明这个网站有地图可查，告诉蜘蛛网站大致是什么样的。

3.根据英特网的特性，互联网非常之宽，无边无际，但路径却很短。百度蜘蛛主要是从导航站和权威网站作为爬行的开端。

4.互联网宽而浅，蜘蛛亦是优先横向爬行，再纵深抓取。

譬如1个网站有有2个一级目录、一级目录下各有1个二级目录，二级目录下各有1篇文章，且互相链接。

百度在首页上放出3个蜘蛛，A爬一级目录1，B爬二级目录1，C爬文章1。

A抓取一级目录1后，可以选择爬一级目录2;二级目录1,2;文章1,2。共5个页面。

B抓取二级目录1后，能爬二级目录2;一级目录2;文章1,2。共4个页面。

C抓完文章1后，只能爬文章2;一级目录2;二级目录2。共3个页面。

5.百度蜘蛛从首页往下爬后，一般不会回到首页。不像百度权重既可以从首页传递给产品页，产品页也可以传递权重给首页。

6.百度蜘蛛分许多种，常见的有百度蜘蛛(Baiduspider2.0)，百度图片蜘蛛(Baiduspider-image)。而百度联盟蜘蛛(Baiduspider-cpro)，百度商务蜘蛛(Baiduspider-ads)可以不遵守robots文件协议，当然也不会建立索引，只是把抓取过的网页存到页面库里。

7.通常情况下，只有被百度蜘蛛抓取过的页面，才会进入网址索引库，也就是常说的百度收录。

8.一个网站权重较高的话，同1个蜘蛛爬行的页面数量较多，反之，爬行页面较少。

9.百度蜘蛛是从上往下沿着网页代码爬行，因此在代码行数中靠前的链接被抓取次数较代码底部的链接为多。

10.百度蜘蛛很聪明，许多只在源代码里出现的链接，只要还没爬过，都可能会去爬下。

我一直很稀奇一件事情，百度站长平台中的站长资讯给的资料已经够好的了，我做这行五年了，现在里面的文章过段时间就看看。可发现很多人都不知道?

里面有个搜索引擎抓取系统概述一和搜索引擎抓取系统概述二，看完之后，或许对你有很大帮助。

百度蜘蛛他进不了你的服务器去查看你的网站根目录的，他只能通过网站前台的链接往里抓取。

所以这就要求我们，尽量做成扁平式结构：通过首页抓取所有目录页面，再通过所有目录页面抓取内容页。

上一篇：title如何写能避免搜索引擎认为堆下一篇：中文url需不需要转换成url格式的

网站建设

Seo

降龙分析：百度蜘蛛爬取的原理及先后顺序