搜索引擎的雏形
蒙特利尔大学学生艾伦.伊米杰在1990年发明的Archie算是现代搜索引擎的雏形。当时经常需要在网络中传输大量的文件,由于这些文件大多散布在分散的FTP主机中,查询起来非常不便,因此艾伦.伊米杰想到了开发一个可以通过文件名来查找文件的程序,于是便有了Archie。Archie工作原理与现在的搜索引擎很相似,它依靠脚本程序自动搜索网上共享的文件,然后对相关信息进行索引,以供使用者查询。不过此时的搜索工具还只限于文件索引功能,随后出现的一些类似于Archie的搜索工具中就加入了检索网页的功能。
蜘蛛程序的由来
当时,电脑“机器人”一词可是非常流行,它指的是某个能够以人类无法达到的速度不间断地执行某种任务的软件程序。由于专门用于检索网络信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎中的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是马太.杰瑞开发的WorldWide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。
与杰瑞的Wanderer程序相对应,马丁.科斯特于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是依靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo等网站。
第一个搜索引擎
第一个真正意义上的现代搜索引擎出现在1994年7月。当年4月,美国斯坦福大学的两名博士生,大卫.菲勒和美籍华人杨致远共同创办了大家熟知的超级目录索引Yahoo,从此搜索引擎进入了高速发展的时期。目前,互联网上大大小小的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。随着互联网规模和信息量的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。
搜索引擎的分类
一、通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务
因此是真正的搜索引擎。在美国,搜索引擎通常指的就是这类基于因特网的搜索引擎,这种引擎收集因特网上几千万到几亿个网页数量不等,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。典型的因特网搜索引擎包括ALTAVISTA、INKTOMI、INFOSEEK、GOOGLE等。
工作原理:
标准搜索引擎的自动信息搜集功能一般通过两种方式实现:一种是定期搜索,即搜索引擎定期主动派出“蜘蛛”程序,对一定IP地址范围内的网站进行检索,一旦发现更新或新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即由网站所有者主动向搜索引擎提交网址,然后搜索引擎在一定时间内专门向该网站派出“蜘蛛”程序,扫描并将有关信息存入数据库,以备用户查询。 当用户使用搜索服务时,搜索引擎在数据库中搜寻用户输入的关键词,如果找到与用户要求内容相符的网站,便采用特殊的算法计算出各网页的信息关联程度、比如说网页中关键词的匹配程度、出现的位置/频率等,然后根据关联程度高低,按顺序将这些网页链接制成索引返回给用户。
二、目录索引
用户可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。在中国,搜索引擎通常指的就是这类基于网站目录的搜索服务,比如大名鼎鼎的Yahoo,还有中国的搜狐、新浪等公司开发的网站搜索服务。
工作原理:
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站的。
与搜索引擎相比,目录索引不存在“蜘蛛”来自动进行搜索工作,而完全依赖手工操作完成。用户提交网站后,目录索引编辑人员会亲自浏览该网站,然后根据一套自定的评判标准及编辑人员的主观印象,决定是否接纳申请。所以,向搜索引擎提交网站时,只要遵循有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像Yahoo这样的全手工操作的超级目录索引,登录更是困难。而且,在登录搜索引擎时,一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录下。此外,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户拥有更多的自主权;而目录索引则要求申请者必须单独手工填写网站信息,而且还有各种各样的限制。