首页 新闻资讯龙岗网站建设

龙岗网站建设


链接布局-龙岗网站建设

2018-08-11    137 次访问   

  蜘蛛主要通过爬取页面上的链接来发现新的页面,以此类推不停地十字交叉

爬行下去便形成一张蜘蛛网。

    爬行主要按两种策略来执行:一是深度优先爬行,二是广度优先爬行。

    ·深:优先爬行:如图1-6所示,蜘蛛从A网页顺序到Al、A2、A3、A4,

    爬行到A4页面之后发现没有页面了,于是又重新返回到了A页面,以此

    类推爬行到Bl、B2、B3、B4页面。深度爬行的主要特点是蜘蛛会一直沿

    着一条线抓取下去,直到最后,然后再返回到另一条线。

罔1-6深度优先爬行示意图

    .    :优先爬行:指蜘蛛在一个页面上发现多个连接的情况下,首先要做的

    是把所有第一层的链接抓取一遍,然后再沿着第二层的链接向第三层链接

    爬行,如图1-7所示。

    归根到底,只要给蜘蛛足够的时间,无论是广度爬行还是深度爬行都能爬完

整个网站。我们做SEO优化就要给蛳蛛节省宽带和资源,毕竟蜘蛛的资源不是无

限的,也有满负载的时候,我们所要做的工作就是为蜘蛛指明一条正确的道路,

尽量减少蜘蛛的工作。

 图1-7广度优先爬行示意图

    3.避免网页重复收集

    重复收集,从表面意思可以理解为第一次已经收集过之后,又进行了第二次

的收集。效率不但没有提高反而增加了带宽的额外开销。对于搜索引擎而言重复

做事情相当地消耗资源,也就做不到时效性地更新,而且有可能降低秒级的输出

服务。

    造成重复收集的原因在于蜘蛛并没有记录访问过的页面的url,另一方面还有

可能在于一个页面有多个域名指向所导致。

    因此搜索引擎在这方面增加了_个额外的技术,分别定义两个不同类型的

表,即“已访问表”和“未访问表”,依靠这个技术就很简单地解决了重复收集的

难题。

    蜘蛛抓取到一个链接之后,从这两个表中判断这个链接是否已经被访问过,

如果没有访问过,抓取回来添加到未访问表中去。

    如图1一8所示,蜘蛛从开始爬行到网页D、网页A、网页C或者从网页F顺

着链接爬行到网页G、网页D、网页A,蜘蛛都会调用两边中的数据,以此来判

断爬取网页的重复度。

  ‘4.收集重要的网页

    由于互联网信息实在太多太杂,随着时间的积累不可能将所有的信息都收集

起来,所以要尽可能地收集重要的网页。网页信息的重要性是根据信息本身来决

定的,从而收集的方式也采用不同的策咯口

    对网页重要程度的判断也有一些方法可循a整站页面的质量权重度,并非是

网站首页权重越高越好,需结合全局来分配权重口

    判断一个页面的重要程度可从这四点来检验,基本上能肯定下来这个页面的

重要度。目录深度大的页面也并非不重要。

图1-8蜘蛛解决重复抓取的过程

    (l)网页目录越小越好。利于用户体验,节省蜘蛛爬行时间。

    (2)高质量相关链接导入。从外部导入和自身相关度大的链接,可以增加页

面权重。

    (3)信息的新鲜度a一个有价值的网站每天都会有更新,用户天天来看,蜘

蛛也会天天来光顾。

    (4)网页内容的原创性。原创性越好的网页重要性越高。

1.4.2  预处理

    通过前面的爬行抓取流程,已经把网页全都抓取回来了,接下来的工作就是

对这部分数据进行一个索引工作,其中包括了很多个处理流程。和爬行一样,预

处理也是在后台提前完成的。