首页 新闻资讯坪山网站建设

坪山网站建设


关键词提取-坪山网站建设

2018-08-11    140 次访问   

  搜索引擎完全能识别的依旧是以文字内容为主的。蜘蛛在爬取一个页面的同

时也把大量的HTML代码抓取下来,如JavaScript、css. cliv标签等,这些对排

名都毫无意义。首先的工作是要将HTML标签、程序去除,提取用于捧名的文字。

 2.去除停用词

    同一个词可能在一篇网页中出现多次,如“得”、“的”、“地”、“啊”、“阿”、

“呀”、“却”、“再”、“从而”之类的无用词,反复的出现就没什么价值了,我们称

这  词为停用词。这  词也需要去除掉。

    3.分词技术

    分词是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于:英

文单词与单词之问用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整

个句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是“我”、“的”、“兄

弟”、“姐妹”。分词技术的效率直接影响到整个系统的效率。

    分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词

方法。

    1)基于字符串匹配的分词方法

    按匹配方向的不同,可分为正f幻匹配、逆向匹配和最少切词。可将这三种方

法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小

匹配。

    正向最大匹配:假设字典中最长的词语字数为m,先根据汉语标点符号及特

征词把汉语句子切分为短语,然后去取短语的前m个字,在字库里面查找是否存

在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉这m个字的最后

一个字,接着检查剩下的词是否是单字,若足则输出此字并将此字从短语中去掉,

若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后

继续取剩余短语的前m个字反复循环。这样就可以将一个短语分成词语的组合了。

    以“我是一个好人’’为例,假设字典中最长词语字数为3,正向最大匹配顺

序为:

    (1)取出短语“我足一”,检查“我是一”是否在字典中存在或是一个单字,

处理方式是去掉最后面的“一”字:

    (2)检查短语“我是”是否在字典中存在或是一个单字,处理方式是去掉

“是”字:

    (3)检查“我”字是否在字典中存在或是一个单字,“我”是一个单字,将

“我”字输出:

    (4)继续取出短语“是一个”,检查“是一个”是否在字典中存在或是一个

单字,处理方式是去掉最后面的“个”字;

    (5)检查短语“是一”是否在字典中存在或足一个单字,处理方式是去掉

  :

    (6)检查“是”字是否在字典中存在或是一个单字,“是”是一个单字,将

“是”字输出:

    (7)取出短语“一个好”,检查“一个好”是否在字典中存在或是一个单字,

处理方式是去掉最后面的“好”字:

    (8)检查短语“一个”,发现是字典中的一个词,直接输出;

    (9)检查短语“好人”,发现是字典中的一个词,直接输出:

    (10)最后输出结果为:  我、是、一个、好人。

    逆向最人匹配:以句子结尾处进行分词的方法。逆向最大匹配技术最大的一

个作用是用来消歧。如“富营销线下聚会在下城子镇举行”按照正向最大匹配结

果为:富/营销/线/F/聚会/在/下/城子镇/举行,很显然这当中差生了歧义。下城子

镇是一个地名,没有被正确地切分口采用逆向最人匹配的技术可以修正这个错误口

例如设定一个分词节点大小为7,那么“在下城子镇举行”中很显然“举行”被

分出来了,最后剩下“聚会在下城子镇”,这样一来歧义就被消除了。

    正向最小匹配/逆向最小匹配:一般很少使用到,实际使用中逆向匹配的精准

度要高于正向匹配度。