首页 新闻资讯深圳网站建设

深圳网站建设


基于统计分词方法-深圳网站建设

2018-08-12    160 次访问   

 直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新

的词语,将所有的统计结果匹配起来发挥切词的晟高效率。

    分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典当中所有的词

语。如我们在搜索引擎中输入“我要减肥了”,“减肥”两字就会被判定为一个

词语。现在网络上经常会出现一些新造的网络流行词语如“神马”、“犀利哥”

等,这样的词也都会慢慢地被收录。分词词典只有不断更新才能满足我们日常搜

索判断的需求口

    4.消除噪声

    网页上有各种形形色色的广告文字、广告图片、登录框、版权信息等,为了

某些目的不得不放上去,这些对搜索引擎来说不是有用的东西,可以直接去掉。

如图1·9所示,这个是富营销论坛的一些噪音元素。登录框只对用户登录使用,

对搜索引擎来说不用登录进去再查看信息,“发帖”和“回复”自然也是不必要的

噪声。

5.分析网页建立倒排文件

    正向索引:经过前面几步的工作之后就开始提取关键词了,把页面转换为一

个关键词组合,同时记录每一个关键词在页面-卜的出现频率、出现次数、格式、

位置,这样每一个页面都可以记录为一串关键词组合,其中每个关键词的词频、

格式、位置等权重信息也都记录在案,如图1-10所示。

图1-9富营销论坛嗓音元素

┏━━━━┳━━━━━━━━━━━━━━━━━━━━┓

┃文件ID  ┃内畜                                    ┃

┣━━━━╋━━━━━━━━━━━━━━━━━━━━┫

┃文件1   ┃关键词1,关键词2,关键词8,…,关键词X  ┃

┣━━━━╋━━━━━━━━━━━━━━━━━━━━┫

┃文件2   ┃关键词1,关键词80,关键词9,…,关键词X ┃

┣━━━━╋━━━━━━━━━━━━━━━━━━━━┫

┃文件3   ┃关键词3,关键词4,关键词68,…,关键词X ┃

┣━━━━╋━━━━━━━━━━━━━━━━━━━━┫

┃文件X   ┃关键词3,关键词5,关键词80,…,关键X   ┃

┗━━━━┻━━━━━━━━━━━━━━━━━━━━┛

图I-10简化的索引词表结构

    倒捧索引:正向索引还不能直接用于排名。假如用户搜索关键词3,如果只

用正向索引,排名程序需要扫描所有的索引中的文件,找出包含关键词3的文件,

再进行相关计算。这样·一来计算无法实时返回排名结果。所以搜索引擎会将正向

索引数据库重新构造为倒排索引,倒排索引以关键词为索引,如图1·11所示。

┏━━━━┳━━━━━━━━━━━━━━━━┓

┃美t诹D  ┃内窖                            ┃

┣━━━━╋━━━━━━━━━━━━━━━━┫

┃关键词l ┃文件l,文件2,文件8,…,文件X  ┃

┣━━━━╋━━━━━━━━━━━━━━━━┫

┃关键词2 ┃文件1,文件80.文件9,…,文件X  ┃

┣━━━━╋━━━━━━━━━━━━━━━━┫

┃关键ip3 ┃文件3,文件4,文件68,…,文件X ┃

┣━━━━╋━━━━━━━━━━━━━━━━┫

┃关键词X ┃文件3,文件5,文件80,…,文件X ┃

┗━━━━┻━━━━━━━━━━━━━━━━┛

    图1-11  倒捧索引词表结构

6.链接关系计算

链接关系计算是预处理中重要的一步。主流搜索引擎排名因素都包含网页之

间的链接流信息。事先必须计算出页面上有哪些链接指向哪些其他页面,每个页

面有哪些导入链接,链接使用了什么锚文本等种种的链接计算o Google PR是这

种链接关系计算的重要代表之一。

7.特殊文件处理

    可以抓取和索引以文字为基础的多种文件类型。对flash、视频、PPT、XLS、

图片等非文字内容不能执行脚本和程序。搜索引擎目前还无法获取flash文件和图

片中的文字信息。图片一般推荐使用ALT标签图片文字信息。

1.4.3  服务

    经过前面的爬行抓取和预处理之后已经存储了一定的数据,并且已经记录了

重要关键词的集合,即正向索引和倒排索引中的关键词集合,每个关键词赋予特

殊的编码形成了一个倒排文件。输入一个关键词就能马上从相关文档编号中找到

所需信息了。

    用户输入某个关键词如“减肥”,查找的出发点还是比较模糊的,究竟是要

找寻减肥方法,还足减肥教练等,这是大部分用户的一个习惯。搜索引擎处理方

法是尽量把出现减肥二字的词都调用出来,可能包含几百页之多。排名靠前的,

用户也就点击的也越多。

    输出的结果采用列表的形式口随着谷歌技术的进步也有了一些不错的进展,

谷歌采取了预加载网页可视图的形式来增强用户体验,如图1-12历示。

图1-12 Google搜索页信息预览页

 很显然这样的显示方法更有利于用户体验,不用点击链接就能看到整个网页

的布局及分布情况,节省了用户的时间。

    文档摘要在列表中起着重要的作用,一个丰富而有吸引力的描述更加能够引

起用户的兴趣。那么搜索引擎是如何提取这些描述信息的呢口一般从网页正文开

头部分提取256个汉字,或者将每一个段落的第一个句子拼起来,一旦查询匹配

就返回给用户口

    我们日常都习惯用百度搜索一些相关的知识,和搜索的关键词所匹配出来的

词是黄背景、红颜色的字,这是搜索引擎在用户体验上的一种进步,也是现代搜

索引擎必须要有的一个技术。