Direct Hit算法-快速排名算法原理
今天在网上找文献的时候无意中发现了Direct Hit算法,本以为是一种没见过的新算法,结果研究过后原来是点击排名算法!关于点击排名算法已经写了好几篇文章进行叙述了,但也只是知道有这个算法,没有任何的依据。Direct Hit算法的出现也算是告诉我之前想的都是正确的!我们先来看看Direct Hit算法的介绍来来研究如何使用吧!
Direct Hit算法是Ask jeeves公司的一种注重信息质量和用户行为反馈的排序算法
1、算法原理
在用户输入检索词提交给搜索引擎后,搜索引擎将查询到的相关信息,最后以Web页面形式返回给用户时。搜索引擎在返回结果中通常给网页的摘要信息,方便用户的浏览选择。用户浏览返回的结果,查找自己需要的信息。这实际上是一个过滤无用信息、进行二次检索的过程。用户在二次检索中得到的结果应该是相关性较高的结果,排名应该靠前。
Direct Hit算法就是一种按照上述用户的反馈结果进行排序的技术。他的基本思想是:
用户输入检索词条T后,搜索引擎将查询的结果返回给用户,Direct Hit开始工作,跟踪用户在该搜索引擎结果的点击情况。如果用户在浏览搜索引擎提供的N条结果记录中第i条记录时,停留时间越长,则说明记录i与关键词t相关程度越大,那么该网页的受欢迎程度就高,系统将增加该网页的相关度;反之,如果浏览时间较短,用户又重新返回搜索引擎点击其他的检索结果,则说明记录i与关键词t相关度较小,系统将降低该网页的相关性。
可见网页排序结果是由被点击次数和浏览的时间长度两部分共同决定的。因为相关度不停的变化,对于同一个词在不同的时间进行检索,得到结果集合的排序也就有可能不同,所以Direct Hit排序是一种动态排序。
很显然,用户点击反馈越多则该算法的准确度越高。因此Direct Hit与一些搜索引擎建立了伙伴关系,即这些搜索引擎使用Direct Hit技术进行排序,而用户在使用这些搜索引擎查询后,点击的结果将反馈给Direct Hit,Direct Hit收集这些结果再计算相关度。
2、算法评价
Direct Hit算法建立在用户点击的基础上的,因此该算法又被称为受欢迎程度算法。在排序时候利用了用户的反馈信息,充分满足了“用户保障原则”,同时也考虑了网页信息的质量。经过大量的统计得出,Direct Hit技术尤其适用于检索时检索词较少的排序。
尽管算法意图是从用户的反馈信息中挖掘有用的信息指导排序,但是用户行为比较可随意,很难保证排序结果的准确性。虽然搜索引擎返回的检索结果很多,并通过分页提供给用户,但是只有不到7%的用户浏览结果中第三页以后的信息。这样,对于一些排名较后或者新登录的网站很难有机会获得点击,从而一直无法提高自己的排名。另外,有些网站为了提高自己的排名,多次从Direct Hit的伙伴中点击自己的网站,来骗取好的排名结果。对此,Direct Hit也采用相关的技术来屏蔽一些重复的点击,保证排名的相对准确!
3、算法应用
关于Direct Hit算法的应用不想说太多,因为毕竟我也搞SEO培训。如果说的太多谁还会为此付费呢?但我还是想为一些朋友点上一句:这个算法是那些访问量、点击量大的页面都是受欢迎的优秀页面。那你要做的工作不就很明显了吗?找到一个方法认真测试一段时间,你就知道这个算法应该如何使用了!