搜索引擎基础篇,了解搜索引擎是如何进行排序。在2011年的一篇文章当中,Google的官方文章曾经说道:
“给搜索结果排序是非常困难的,比大多数人认为的要困难得多。其中一方面原因在于语言本身就具有模糊性,容易产生歧义。而网页本身的规则也不一样。如何表达信息着实没有标准,因此我们需要理解所有的网页,不管是谁写的,是什么目的创作出这些文件。而这样做也仅仅能解决一部分问题。我们还需要了解人们所使用的查询关键词,通常少于三个字,并将其映射到我们对所有文件的理解上。况且不同的人有不同的需求,这一点更不用提了。我们需要在几毫秒内做的所有事情就是……据估计,编程员/科学家对搜索引擎已经研究了很长的时间。尽管如此,创新的速度还没有减慢。”
“谷歌搜索的时间通常只持续不到半秒钟,然而其中却涉及很多个不同的步骤。这些步骤在查询信息的人得到搜索结果之前必须完成。”
搜索引擎根据多种因素来决定如何排列网站内容。在较高层面上,搜索引擎将各类内容和它们认为和内容相关的一系列关键词联系起来。
搜索者在进行查询时,搜索引擎会搜集和该查询相关的所有网页,并按照相关度和有用性对其进行排序(基于以下因素:指向这些网页的外部相关链接数目、外部链接文本以及意图估测等——例如,如果搜索者打算购买某个东西,那么搜索引擎会尽量提供更多的电子商务网站),然后确保得到的网页比较多样化(这并不包括复制网站,也不只包含单一类型的网站)。
例如当用户搜索一款手机的时候,搜索引擎需要知道用户是想了解这方面的信息还是想找到卖这款手机的网站。由于要猜测搜索者的意图,才能给用户返回最相关的结果。所以,搜索引擎的技术当中有语义分析,搜索分词,不断索引各种网站等。
|