百度蜘蛛抓取过程详细分析
互联网的结构完全是可以看做一种网络,而这种网络就是和我们在数据结构中提到的图十分的相似,搜索引擎实际上实现的就是一个十分复杂的图分析算法,而蜘蛛就是搜索引擎实现分析的基础。在搜索引擎的角度中其需要蜘蛛爬行我们互联网的页面,在获得了页面的各种信息后对于这些信息进行整理,其实这就是搜索引擎最主要的工作。
作为SEOer我们没有必要全面的了解搜索引擎的原理,但是在概念上理解还是必须的,这里我们在算法的角度上深入的了解一下蜘蛛的爬行原理。
从Http协议开始
把蜘蛛理解为浏览器是一个最低级的思路,实际上蜘蛛应当是理解为一个协议发送和请求程序,其在访问我们的页面的时候发送和请求的就是http协议,这是一种超文本传输协议,蜘蛛访问站点所以来的就是这样的基本协议。而蜘蛛发送协议后就是会等待我们服务器的响应。响应的数据其实也是一种Http协议数据包,蜘蛛在接受到了这种协议包后对于其进行拆包并且是获得其中的页面信息。
在Html代码上分析
虽然说现在很多的蜘蛛也是可以对于Js代码分析了,但是应当知道的就是对于Html的分析依然还是主流。正是因为如此所以说蜘蛛主要也还是对于Html标签中存在的可用文本进行分析,分析最后的结果也就是一些字符。这些字符最后会被搜索引擎进行过滤并且是拆分成为关键词。当然在蜘蛛抓取这样的一个过程中针对的还是页面,这个时候的蜘蛛是全面页面抓取。
蜘蛛的缓存页面
蜘蛛抓取的页面不一定收录,但是一定是会存在一定的缓存,这种缓存我们用户是看不见的,其作为搜索引擎的数据存储在其数据库中,也就是相当于一种存根,一旦是我们的站点登录了搜索引擎也就是会发生一些本质性的变化,这些都是会被搜索引擎记录下来。我以前也是说大规模的改变站点不是一个好现象,其实就是这样一个原因。
