基于词频和关键词位置统计排序SEO算法

2024-01-19 未知 黑帽SEO培训
基于词频和关键词位置统计排序SEO算法

在整个搜索引擎优化过程当中,词频和关键词位置这是在传统的情报检索理论和技术基础上发展而来的。对用户输人的检索词,如果在一网页中出现的频率越高,出现的位置越重要,则认为,这网页与此检索词的相关性越好,越能满足用户的需求。早期的搜索引擎结果排序都是基于这一思想的,如Infoseek,Excite,Lycos等,它们基本上是沿用了网络时代之前图书情报界的研究成果。一般情况下,词在网页中出现的频率和位置通过加权的方法来表示,当然,在实际运作过程中,不同的搜索引擎具体的操作方法是不同的。
1、词频加权

词频加权的方法有绝对词频加权、相对词频加权、反词频加权、基于词分辨值加权等等。对于单一词搜索引擎,只用单纯地计算一个词在网页中的出现频率就可给定权值。而对于具有进行逻辑组配功能的搜索引擎,则必须用其它的加权方法。因为用组配的检索式检索时,检索结果跟检索式中的每个检索词相关,而每个检索词在所有的网页中出现的总频率是不同的,如果按总权值来排序,就会造成结果的不相关。这可以通过其它多种方法解决。例如,利用相对词频加权原理,可以通过对大量网页的统计,把越是在所有网页中出现频率高的词赋予一个较低的初始值相对地,在所有网页中出现频率低的词,给一个较高的权值。

2、词位置加权

通过对词在网页中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索的结果和搜索词的相关程度。

词的位置包括:网页标题、网页描述、关键字、正文标题、正文内容、文本链接、标识等。

版式包括:字体、字号、有无加粗强调等。和传统文献一样,一般在较重要的位置如标题、正文的结尾句等出现的词给较大的权值,例如要了解百度,在搜索“百度”时,有两个结果,一个标题是《百度介绍》,另一篇文章的标题是《谷歌节绍》,但内容有个别地方提到百度,显然第一个结果的相关性更大,“百度”这个词在第一个结果中给予的权值应大一些。另外,字符较大、加粗强调的地方,一般也会给予较大的权值。

3、词频和位置统计排序优缺点

词频统计有易用,易实现的优点,其技术也发展得最成熟。至今仍是各搜索引擎排序核心技术的基础,因为依鼎单纯的链接分析,如果检索词和网页相关度不高,就算网页的质量再高,再权威,相对用户来说也是没用的,这也是为何很多网站站长发了大量的外链排名不佳的真实原因,甚至有些站点仅仅是把标题和页面内容保持高度的一致相关,没有任何外部优化的作用,也可达到良好的排名效果。词频统计也有很多不足,它根本没有利用跟网络中网页有关的特性,可以说是前网络时代的技术。

然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远。为了能够排在某些检索结果的前几位,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,例如,在网页中加人和背景颜色一样的层,并加大量的关键词,这样,人来浏览网页时,完全看不到,但搜索引擎在标引时,却能发现。对此,搜索引擎也研究出各种方法来,发现和惩罚这种作弊的行为。

责任编辑:基于词频和关键词位置统计排序SEO算法

相关文章

乐天SEO培训中心