技术概述

Google 出类拔萃的地方在于专注开发“完美的搜索引擎”,联合创始人拉里·佩奇将这种搜索引擎定义为可“确解用户之意,切返用户之需”。 为了达成这个目标,Google 孜孜以求,不断创新,并且拒绝接受现有模式的限制。 因此,Google 开发了自有的服务基础结构和突破性的 PageRank™ 技术,改变以往搜索的方式。

从一开始,Google 的开发人员就意识到,提供最快的、最准确的结果需要一种新型的服务器设置。 不过,多数搜索引擎都采用一些大型服务器,当遇到负载高峰时,便会出现速度放慢的现象;Google 则采用了联网的 PC 机来快速查找每个查询的答案。 这项创新加快了响应时间,增加了可伸缩性并且降低了成本。 自此项技术诞生以来,其他公司便开始争相效仿,但是 Google 仍不断优化其后台技术,使其更为有效。

Google 搜索技术背后的软件可以在一转眼的工夫内执行一系列同步计算。 传统的搜索引擎非常依赖字词在网页上出现的频率。 Google 则使用 PageRank™ 检查网络的整个链接结构并确定哪些网页最重要。 然后,会执行超文本匹配分析,以确定与所执行的特定搜索相关的网页。 结合整个重要性和查询特有的相关性后,Google 才会将最相关、最可靠的结果列在最前面。

  • PageRank 技术: PageRank 会通过解析一个具有 5 亿多个变量和 20 亿个条件的方程,对网页的重要性进行客观的测定。PageRank 会将网页 A 上指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票,而不是计算直接的链接数。这样,PageRank 根据网页收到的投票数来评估其重要性。

    PageRank 也会考虑发出投票的每个网页的重要性,也就是某些网页的投票具有的价值较大,为该链接的页面赋予的价值因而也就较大。 重要的网页会得到较高的 PageRank,并出现在搜索结果的顶部。 Google 的技术是利用网络中的综合信息来确定网页的重要性。 因为没有人工干涉,也不对结果进行操纵,所以用户一直信任 Google 是一个不会因付费而影响排名的客观信息来源。

  • 超文本匹配分析:Google 的搜索引擎也会分析网页内容。但是,不只是简单地扫描网页中的文本(网站发布者可通过元标记执行此操作),Google 技术可分析网页的全部内容及字体、分支和每个字词的精确位置等元素。Google 也会分析相邻网页的内容,以确保返回的结果与用户的查询最为相关。

Google 的创新不会停留在台式机范围。为了向通过便携设备访问网络的用户提供准确快速的搜索结果,Google 还首创了将 HTML 动态转换为适用于 WAP、i-mode、J-SKY 和 EZWeb 格式的无线搜索技术。 Google 目前向众多市场处于领先地位的公司提供无线技术,这些公司包括 AT & T Wireless、Sprint PCS、Nextel、奔迈、Handspring 和沃达丰。

Google 查询的生命周期

Google 查询通常花费不到半秒的时间,但这过程中要执行很多不同的步骤,然后才能将结果呈现给查找信息的人。


3.
搜索结果会在一转眼的时间内返回给用户。
   1. Web 服务器会将查询发送到索引服务器。 索引服务器内部的内容类似于书本后面的索引 – 会提供包含与查询的字词相匹配的网页。
2. 查询会转到文件服务器,实际上是检索所存储的文档。 之后会生成摘要来描述每个搜索结果。
   ©2010 Google - 主页 - 关于 Google - 隐私政策 - 服务条款