学习SEO技巧,个人SEO笔记整理,留学行业搜索引擎优化及网络营销手段探讨

SEO优化原理和搜索引擎算法初探

2010-06-21

SEO优化原理和搜索引擎算法初探

一、抓取

      搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。

     网页搜集的过程中要保证每个网页不要被重复的抓取,由于一篇网页可能被多个网页链接,搜索引擎蜘蛛爬取过程中就有可能多次得到该网页的url, 所有解决这个问题的有效方法是
使用两个数据表 分别为unvisited_table和visited_table。前者包含尚未访问的url,后者记录已访问的url。系统首先将要搜集的种子url放入unvisited_table,然后 spider从其中获取要搜集网页的url,搜集过的网页url放入visited_table中,新解析出的并且不在visited_table中的url加入unvisited_table

二、索引

      由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

三、排序

      当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

      最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。

作者:admin | 分类目录:SEO笔记 | 标签:

发表评论