互联网是一个宝库,搜索引擎是打开宝库的一把钥匙。使用搜索引擎,使我们检索信息的能力获得了空前的提高,成本有效地降低,可以说,搜索引擎是现代的计算机技术、因特网技术与传统的索引理论相结合的成功典范。这里我们所谓的搜索引擎,是指以计算机、网络、大信息量、自动化为特征的新型检索工具,它的祖先是美国蒙特利尔大学的一个小组开发的Archie。1993年问世的ALIWEB则相当于Archie的http版本。1994年春天,世界上出现了真正现代意义上的搜索引擎——Lycos(L是Lycosidae的缩写,意思是善于捕捉猎物的狼蛛)。之后,随着雅虎的出现,搜索引擎的发展也进入了黄金时代。搜索引擎家族不断发展壮大,逐渐分布到信息世界的各个角落,它们的种类、技术也在不断地发生变化,成为仅次于门户的互联网第二大核心技术。
搜索引擎目前没有一个精确的定义,一般以其发展中一些里程碑式的应用标志其阶段。业界一般将搜索引擎分为三代:“第一代搜索引擎”是依靠于人工分拣的分类目录搜索,以“雅虎”为标志;“第二代搜索引擎”则是依靠于机器抓取,并建立在超链分析技术基础之上的网页搜索,以“Google”(谷歌)为代表,其信息量大、更新及时,但返回信息过多,可能有很多无关信息。而“第三代搜索引擎”则把“智能化”、“人机交互”等功能融入了主流,将自动分类技术、中文内容分析技术及区域智能识别技术应用到大型搜索引擎中。除了在信息检索速度、更新频率等基本技术指标方面处于领先地位外,它的网页相关检索、拼音纠错、模糊查询、口音查询技术也具有很高的水准。此外,还同时兼备了新闻、MP3、图片、Flash搜索功能,已能够提供全面、综合的信息搜索服务,以“百度”为代表。
搜索引擎的基本原理
搜索引擎使用一种名为“网络机器人”或“网络蜘蛛”的软件,遍历Web空间,扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。为保证采集到最新的资料,它还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要由其他程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
而分类目录则是一种比较特殊的搜索引擎。分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码簿一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站。
搜索引擎的分类
搜索引擎大致可以分为两大类:全文搜索引擎和垂直搜索引擎。
全文搜索引擎通过网络机器人或网络蜘蛛,自动分析网络上的各种链接并获取网页信息内容,按规则加以分析整理,记入数据库。Google、百度就是比较典型的全文搜索引擎系统。
垂直搜索引擎则是在某个领域进行专门搜索的搜索引擎,垂直搜索引擎的搜索结果一般要比全文搜索引擎准确和翔实。
由于全文搜索引擎要针对各种各样的搜索要求来做分词处理,所以全文搜索引擎的搜索结果一般是不会有垂直搜索引擎那么准确,但是全文搜索引擎的特点是信息量非常地大,可以让用户有很大的挑选余地,尤其是在用户并不太清楚自己想要什么资料的时候,可以返回很多相关的信息,供用户自己选择。
搜索引擎的使用
搜索引擎的使用是非常简单的,只要登录到搜索引擎的主页,在文本框里输入相关的关键字,搜索引擎就会返回和这个关键字关联程度比较高的网站链接。但是如何有效地得到自己想要的信息则是一个比较难的问题。一般的搜索引擎都有一个默认的规则,例如:如果你想知道“亚运会的历史”,就可以在文本框里输入“亚运会历史”,中间有一个空格,这样搜索引擎就会去检索包含亚运会和历史的页面(中文搜索引擎默认会把“的”字去掉,不列入检索的范围)。有的页面就会包含釜山亚运会的信息,假如我们不想看到包含釜山亚运会的页面,只需在文本框里输入“亚运会历史.釜山”,那么就会在搜索的页面中去掉包含釜山信息的页面。从这个例子可以看出来搜索引擎的搜索规则,减号为非操作,在搜索A-B的过程中就会搜索包含A但是不包含B的页面。如果是搜索A or B,那么就是搜索包含A或者包含B的页面。如果是搜索一段话,那么可以使用双引号将要搜索的内容包含进来,这样搜索的结果会更加精确。
搜索引擎的未来
尽管搜索引擎已经大大提高了我们利用网络的效率,但随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出,大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。
一般的公共搜索引擎只能查到HTML(全称为超文本标记语言)格式,主要的原因是搜索引擎的自动排序软件只能接受这种格式的网页。这意味着在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期“沉没”在信息的海底中。如何解决这些难题已成为下一代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到所需的资料,被公认为是下一代搜索技术的竞争要点。
搜索引擎的出现让我们获取信息的时间变得更短和更加的快捷,知识的传播也更加快速。搜索引擎已经从目前的电脑终端向手机、PDA等移动手持设备拓展,可以看出未来的搜索技术将更加多元化。另外,Google目前已经变成最大的开源软件赞助商,很多非常领先的搜索技术都是在开源软件里面产生,并由Google直接转入商业应用。在不久的将来,搜索引擎将会与我们的生活联系得更加紧密。
[责任编辑]赵新宇