新闻详情

【一剑传媒4月11号课后感】谁是搜索引擎的挚爱你知道吗?

发布时间: 2011-04-14

大家知道,所谓的互联网是指的全球的因特网,你所在的位置,只是局域网板块上的一个很小的点。而在前面的《什么是搜索引擎》一文陈剑已经讲过,搜索引擎按其工作原理上来区分,分为全文检索搜索引擎分类目录搜索引擎和元搜索引擎三种类型。

 

搜索引擎的原理基本分做三步:

 

第一步:从互联网上搜集信息,大家知道搜索引擎怎么从互联网抓取信息吗?网络蜘蛛spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页。所以就有了搜索引擎链接为皇的说法。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

 

搜索引擎的工作原理第二步:整理信息、建立索引数据库。由分析索引系统程序对搜索蜘蛛收集回来的网页进行分析,提取相关网页所在网址链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息,根据一定的相关度算法进行大量复杂计算。

 

大家有谁知道相关度算法是什么?大家对阿里的排名算法知不知道?阿里的排名算法是不是已经够大家都疼的?那搜索引擎的相关度算法,也就是搜索引擎的排名算法,阿里的排名算法:我只记住,发高质量信息,提高用户搜体验才是王道。而搜索引擎的相关度算法,和阿里的排名算法要复杂几百倍,上千倍。

所以,我们这里不需要去研究搜索引擎的排名算法,那是死路一条,懂吗?

 

第二步:整理信息、建立索引数据库

 

由分析索引系统程序对收集回来的网页进行分析,提取相关网页所在网址链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。这是搜索引擎工作原理的第二步。要把复杂的事情,简单化,才是王道!如果把简单的事情复杂化,就只有死路一条!

 

 

第三步:在索引数据库中搜索排序、接受查询

 

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页,因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。后,由页面生成系统将搜索结果的链接地址、页面内容摘要等内容,组织起来返回给用户(这就是搜索呈现)大家明白吗?

 

网络蜘蛛(spider)一般按照各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率,要定期重新访问所有网页,更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会以更新的形态,反映到用户搜索查询的结果中,力求提供给搜索者的搜索体验。

 

全文搜索引擎

 

全文搜索引擎的信息搜集基本都是自动的。也就是说搜索引擎,利用称为网络蜘蛛(spider)的自动搜索机器人程序,沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。机器人便可以遍历绝大部分网页,现在,大家明白没有超级链接的重要性?

 

而网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中,我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。

 

分类目录搜索引擎

 

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。

 

随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。

 

如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的网址链接,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站。(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。

 

分类目录搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

 

 

元搜索引擎

 

互联网是一个浩瀚的信息海洋,如果没有搜索引擎帮助,要查找信息等于大海捞针。所以,搜索引擎对我们的网络生活其实是很重要的,这也就是我们为什么要重视搜索营销的原因。随着信息时代的发展和普及,网络的信息量越来越庞大,传统搜索引擎不能覆盖整个互联网的信息,用户对查找信息的数量和质量需求提高,此时一种新型的搜索引擎聚合元搜索(metasearch)出现。

利用其它独立搜索引擎整合、控制、优化搜索结果的技术称为“元搜索技术”,是元搜索引擎的核心技术。元搜索引擎能够整合多个传统搜索引擎的搜索结果进行聚合、过滤等流程的处理,从而提高搜索结果的质量。元搜索引擎以丰富的资源、相对全面、准确的搜索结果等优点受用户的青睐,已渐成为一种不可或缺的极具潜力的新型网络搜索工具。

 

真正意义上的搜索引擎

 

通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

 

下面我再讲一个搜索引擎的一个重要特点,这个一定要理解,不理解的死记也要记住。现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的网址、链接锚文本、甚至链接周围的文字。所以,有时候,即使某个网页a中并没有某个词比如“核美眼睛保健膏”,

但如果有别的网页b,用链接“核美眼睛保健膏”指向这个网页a,那么用户搜索“核美眼睛保健膏”时也能找到网页a。而且,如果有越多网页(c、d、e、f。。。。。)用名为“核美眼睛保健膏”的链接指向这个网页a,或者给出这个链接的源网页(b、c、d、e、f……)越,那么网页a在用户搜索“核美眼睛保健膏”时也会被认为更相关,排序也会越靠前。

 

搜索引擎的这个特点,用在那个地方,用在博客文章,作为优化独立网站是棒的。我开始给大家讲过在谷歌搜索“核美眼膏”一个三级域名的淘宝店,为什么就可以排在谷歌首页?这是什么方法达到的?是什么方法达到的?其实很简单,就是这种方法做到的,并且是我亲自做到的。记得以前你们问老师怎么做到的,我告诉过你们,以后会给你们讲的,我没有食言吧!独立网站更利于搜索引擎优化。

 

互联网虽然只有一个,陈剑提醒大家各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同,大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,

 

数据量达到几千g甚至几万g。但即使大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。

也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

展开全文

供应商
牛莉莉(个人)
联系电话
86 0394 8502861
手机号
18939617323
联系人
牛莉莉
所在地
中国 河南 周口市川汇区 河南省周口市周套楼496号
我们的新闻
咨询 在线询价 拨打电话