搜索引擎

搜索引擎是一种从 Web 收集信息,并将这些信息呈现给正在寻找特定信息的用户的软件系统。

搜索引擎执行以下过程:

  • Web 爬虫:通过在网页上导航超链接来搜索网站,既可以在网站内部搜索,也可以从一个网站搜索到另一个网站。网站所有者可以通过在名为 robots.txt 的文件中定义“机器人排除”信息,排除搜索引擎的 Web 爬虫(或蜘蛛)访问网站的某些区域。
  • 索引:将关键字和其他信息与已经爬取的特定网页相关联,让用户可以尽快找到相关页面。
  • 搜索:根据由关键字和其他命令组成的查询,查找相关网页。搜索引擎找到与查询匹配的页面的 URL,并根据其相关性对其进行排名。然后按照排名顺序向用户呈现结果。

最流行的搜索引擎是 Google。其他顶级搜索引擎包括 Yahoo!、Bing、百度和 AOL。

参见