SEO算法:中文分词技术原理与应用!

2023-12-20 未知 黑帽SEO
SEO算法:中文分词技术原理与应用!

10个人有9个人不知道中文分词,也这是很多做SEO的硬伤,如果连最基本的搜索引擎中文分词技术算法都不知道,只能用一句摸着石头过河来形容了。深度了解百度中文技术可以让搜索引擎排名变得简单化,清晰化。那么如何理解中文分词技术是本文的核心课点。首先在了解百度中文技术以前要了解一个语义分析系统,搜索引擎不像人的大脑一样可以很直接的通用意识行为来判别一个网页的核心主题。

      比如我们作为一个用户看到一篇文章叫做我的父亲,对于用户而言,你最直观的感觉的就是该网页文章的核心关键词就是父亲,绝对不是我或者的,之所以有这种感觉那是因为所谓用户来思考,父亲是一个名词,我是代词,的是助词。但是对于搜索引擎本身来讲它是不可能像人的大脑一样思考这个意识来决定网页核心主题的,对于中国人来说,语义分析和词性则是搜索引擎利用区别网页核心关键词的主要方式,比如我们都知道中文有名词、形容词、动词、介词、副词等等。并且不同的词性他的含义和作用也完全不一样,那么搜索引擎如何借助词性来判断关键词的核心主题呢?

      如果我们从大范围来讲,一个网页的主题包含的关键词不少,但是真正有价值的关键词其实就那么几个,并且这些有价值的词我们暂且称为核心关键词。从词性来看,多数这些有价值的词均为名词形态,如果不了解该词到底属于什么关键词词性可以通过语义分析系统去识别(网上有很多这类系统,直接百度即可),也可以对照一下自己网站的关键词,核心词绝对是以名词为主。

      一般来说,核心关键词定位多数都是名词+动词,或者名词+形容词,比如小明在奔跑,该标题对于用户来说,都知道核心关键词是小明,没了小明奔跑就没有任何价值了。但是对于搜索引擎来说肯定不理解,从上面我们所讲到的分词原理,可以了解到该词的核心关键词也是小明,因为小明是名词,奔跑是动词,也叫做名+动。当然定位核心关键词的首要条件是必须是词性的频次相等的情况下才会优先将名词定位核心关键词,比如漂亮_漂亮同义词_漂亮的含义,虽然该标题里面漂亮是形容词,并且也包含了其他名词,但是为何核心词是漂亮而不是其他名词,因为频次相同才会将名词定位核心词,频次不相同优先将频次最大的关键词定位核心关键词。
 

百度分词的4个原理:

  1、基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索“大学堂”。

  2、基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索“学”字的时候,百度它自认的把“学习”也当成了一个关键词,所以出现“学习”这个词标红,这就是百度分词法:基于统计分词。

  3、基于字符串匹配(百度的分词法:正向最大切词法)
最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索“湖南大学堂屋顶”,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。正向与反向(正向:从前往后配;反向:从后往前配)(湖南大学堂屋顶)正向分法:湖南大学 堂屋 顶 (刘强大地方法)正向分法:刘 强大 地方 法。反向分法:方法 大地 刘 强。而在这个词语当中“大地”不是一个词。

   4、基于专有词库。比如杰出人物(如:毛泽东)明星(如:刘德华)检索量大的词(如:买票难) 。

   分词工具(没有百度的,要是有,就会出现问题,收集了几个开源的分词工具,详细内容后续补充):
   1、ICTCLAS – 全球最受欢迎的汉语分词系统
   2、HTTPCWS – 基于HTTP协议的开源中文分词系统
   3、SCWS – 简易中文分词系统
   4、PhpanAlysis - PHP无组件分词系统
   5 、MMSEG4J
   6、盘古分词
   7、IKAnalyzer  开源的轻量级中文分词工具包

   中文分词API(百度不提供该服务):
   新浪SAE平台上提供的分词功能
   官网说明:http://apidoc.sinaapp.com/class-SaeSegment.html,SAE分词系统基于隐马模型开发出的汉语分析系統,主要功能包括中文分词、词性标注、命名实体识别、新词识别。
   调用规则:http://simonfenci.sinaapp.com/index.php?key=simon&wd={语句}

   百度分词的一些猜测:
1. 判断用户提交字符串,如果为多个字符串,则通过空格,标点符号,等进行切割。
2. 判断提交字符串中有无字母或者数字,如果有把字母与数字当作独立整体,并把这个整体当作切割负,进行前后切割。
3. 判断切割后的词组有无重复词,有当作一个计算。
4. 如果提交为一个字符串,判断字符串字数,大于4并等于4个字的进行切割,如果小于4个字不进行任何处理。
5. 对照特殊词库表进行提取,如果字符串中包含特殊词进行单独提取。
6. 进行正向分词处理。
7. 进行反向分词处理。
8. 正向分词结果与反向分词结果进行对比,如果结果一样,直接输出。
9. 如果结果不一样,输出最短路径(词数最少的)进行输出。
10. 如果长度一样进行则输出单子最少的结果。
11. 如果单子最少结果一样,则输出正向分词结果。
针对百度索引提示,纠错原理。
1.判读词组,1个字的词不进行提示,大于1个字开启提示功能。
1.进行同音字提示,如果词数过多,提取用户搜索最多词组进行提示。
除以上外,我们还需要注意一点,那就是现在分词中进行了语意相关结合:
举个例子我们常常在搜索某些词的时候会发现有些结果中并不是完全匹配的词也进行了飘红。其实这种情况就是语意结合。我们可以理解为百度把相关词表进行了关联,或者干脆进行了表结合。造成了这种情况的出现。
比如我们搜索太原,我们会发现太原与太原市都进行了飘红。

责任编辑:SEO算法:中文分词技术原理与应用!

相关文章

乐天SEO培训中心