网络营销,搜索引擎营销,seo,seom
热门关键字: googe 网站域 网站被 爬虫 百度快 反作弊

Google排名新算法之二

来源:网络作者:佚名时间:08-03-02 点击:
,从而为搜索用户更好的提供探索知识的机会。


CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的关键词词根还原系统。


尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例如,如果用户查询“Colorado bicycle trips”,CIRCA能够将其与“Colorado”地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。


2-1-4. 二者的有机结合:主题性搜索引擎的实现


现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜索引擎呢?


首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念,Google已然解决了如何计算其主题性页面级别的问题。


在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近似计算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行性。


现在,如果用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包含的主题之间的“距离”来提供“主题性页面级别”得分,从而向用户提供更好的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。

由于一个给定的搜索查询条件有可能与数据库中的多个主题匹配,所以页面级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得分平摊,因而只需近似的主题性页面级别得分就足以提供高质量的搜索结果了。


当数据库中无任何主题与用户的查询条件匹配时,则Google可使用原来的页面级别系统。若与查询条件匹配的主题太多,则仍使用新系统计算主题性页面级别得分,尽管新算法可能会与原算法得出的分数相似。如果匹配主题与查询条件之间的相关度很低,则效果亦会大打折扣。


2-1-5. 安然接受和理解算法的改变


可能某些查询条件返回的搜索结果有较大的变动-–但原来在搜索结果中排名在前100位的网页全都被刷下去的情形却少之又少。


有效数据所面临的一个大问题在于:对于发生搜索结果改变较大的报告呈上升趋势。从这些“自述”数据之中我们可以看到Google的很多搜索结果发生了彻底的改变。而造成我们看到这种局面的原因恰好在于,这些“自述”数据中的绝大部分都是由那些排名被刷下来的网站提供的。

我们并未从这些“自述”变化着手,而是采用了另外一种途径,即从若干可用的网上资源中记录下最近时间内发生的搜索,然后观察搜索结果中的变化。


我们随机(没有任何成见地)研究了上百个人们日常使用的真实存在的查询条件,并标识出其中每个查询条件的改变总数,然后我们发现改变的程度在总体上仍保持着一贯的干净局面。在实际生活中,这种根本性的改变只是发生的例外,把它当成规则就大错特错了。


2-1-6. 主题并非关键词... 亦并非十全十美


千万不要把“主题”和“关键词”相混淆。主题代表的是一个综合性题目,例如“计算处理”、“网络营销”等等。而特定的查询条件(关键词),如“笔记本电脑租赁”,“电子邮件营销”等,将与更多的综合性主题联系起来。


但从Google目前所提供的一些搜索结果来看,不难发现其中的部分搜索结果所匹配的主题是错误的。例如对”laptop rental”,用户搜索“笔记本租赁”往往是想租赁一台笔记本电脑,但在Google返回的搜索结果中,排在前面的却是大学里面的笔记本租赁信息-- www.google.com/search?sourceid=navclient&q=laptop+rental。


这是怎么回事呢?只要看看链接到这些网页上的链接,就可以发现这些链接大都具有相似的主题性,如Computing,Housing(学生在校园里出租住处),等等。大家可以用其它词语进行查询,然后分析排名靠前的那些页面上的外部链接,就会更容易理解为什么“laptop rentals”会有如此的搜索结果了。


Google仍有可能提供不够理想的搜索结果,当然也有可能再次受到蒙骗,只是这种机率越来越小而已。同时我们相信Google会多花一些时间来修正这些问题。


2-1-7. 为什么只有部分搜索结果页发生了根本的改变?


我们不必理会那些对Google新算法的非议,只要再来看看真实的数据,你就不难理解为什么有些查询条件较其它查询条件更易受到影响。


我们以“Real Estate”为例,依照Scroogle.org的方法论,有77个原来排名在前100位的网页排名降到了100名之后。而对于更为具体的查询条件“Colorado Real Estate”,有24个排名在前100名的网站受到了影响。


而在那些被刷下来的网页中,我第一个看到的是一个标题为“Southern California Real Estate”的页面。有趣的是,倘若用“Southern California Real Estate”进行更具体的查询,你会发现它排名高踞第二位。换言之,这些网页并不是受到了Google的处罚,而只是由
Google排名新算法之二,转载请著名版权:北京网站优化
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 验证码: 验证码
查看所有评论
    计世网
    百度
    阿里巴巴诚信通
    谷歌
    慧聪网
    网站分类目录
    ……