由于搜索引擎不能一次抓取网站中的所有页面,网站中的页面数量会不断变化,内容也会不断更新,所以搜索引擎也需要维护和更新抓取的页面,以便及时获取页面中的最新信息,抓取更多的新页面。今天我们就来聊聊在
网站托管推广中常见的页面维护方式。
一、定期抓取
定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已经抓取的页面进行全面更新。更新的时候,把抓取到的新页面替换原有的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新针对的是全部已抓取的页面,因此更新周期会比较长。例如,Google一般是30~60天才会对已抓取的页面进行更新。
定期抓取算法的实现相对简单。由于每次更新涉及到网站中所有已经抓取的页面,因此页面权重的再分配也是同步进行的。这适用于维护页面比较少、内容更新缓慢的网站,例如普通的企业网站。但是,由于更新周期十分漫长,就不能及时向用户反映更新期间页面的变化情况。例如,某个页面的内容更新以后,至少需要30~60天才能在搜索引擎上有所体现。
二、增量抓取
增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新及维护。但是,对网站中的每个页面都进行定时监控是不现实的。基于重要页面携带重要内容的思想以及80/20法则,搜索引擎只需对网站中部分重要页面进行定时的监控,即可获取网站中相对重要的信息。
因此,增量抓取只针对网站中某些重要的页面,而非所有已经抓取的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更新,从而可以及时发现新内容、新链接,并删除不存在的信息。
由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索引擎的抓取时间,还可以及时向用户展示页面中最新的内容。
三、用户体验策略
所谓的用户体验策略是指为了提高搜索引擎用户体验而制定的针对性的网页更新策略。衡量搜索引擎用户体验有众多指标,而网站托管推广中网页更新的及时性是其中一项重要因素。
对于搜索引擎中的关键字搜索结果,用户通常只会点击排名前30的网页。因此,只要及时更新排名前30的网页,即可节省搜索引擎的资源,提高重要网页的更新频率,也可满足绝大部分用户获取信息的需求。