如何避免搜索引擎蜘蛛抓取重复页面的方法

小七 32 0

  搜索引擎面对的是互联网万亿网页,如何高效抓取这么多网页?这便是网络爬虫的工作 。我们也叫它网络蜘蛛 ,做为站长,我们每天都在与它亲密接触。

  做SEO要充分了解SEO的抓取情况,同时要做好哪些页面应该被抓取 ,和哪些页面不希望被抓取的筛选。例如,今天需要和大家讲的,如何避免搜索引擎蜘蛛抓取重复页面 。

  针对每一位SEO从业者而言 ,爬虫每天来我们的网站进行网页的抓取,是十分宝贵的资源。但在这中间由于爬虫无序的抓取,势必会浪费一些爬虫的抓取资源。这中间我们就需要解决搜索引擎爬虫对我们的网页重复抓取的问题 。

  在聊这个问题之前 ,我们需要理解一个概念。首先爬虫本身是无序的抓取 ,他不知道先抓什么再抓什么,只知道看到了什么,且计算后认为有价值就进行抓取。

  而对于我们而言 ,抓取的整个过程中,我们最要解决是如下几类

  1 、新产生的页面,没有被抓取过的

  2、产生了一段时间 ,迟迟不被抓取的

  3、产生了一段时间,却一直没收录的

  4 、产生很久的页面,但最近更新了

  5、包含内容更多的聚合页面 ,如首页、列表页

  6 、如上几类,按照顺序我们定义哪一类最需要被爬虫抓取 。

  针对大型网站,搜索引擎爬虫抓取资源过剩 ,而针对小网站,抓取资源稀缺 。所以在这里我们强调一下,我们不是要解决搜索引起爬虫重复抓取的问题 ,而是要解决搜索引擎爬虫最快的抓取我们希望抓取的页面。要把这个思路纠正!

  下面 ,我们聊一下怎么让搜索引擎爬虫最快的抓取我们希望被抓取的页面。

  爬虫是抓取到一个网页,从这个网页在找到更多的链接,周而复始的过程 ,那么这个时候我们就要知道要想被爬虫更大概率抓取,就要给更多的链接,让搜索引擎爬虫发现我们希望被抓取的网页 。这里我拿上述的第一种情况举例说明一下:

  新产生的页面 ,没有被抓取过的

  这类一般都会是文章页,针对于这类我们的网站每天都会大量产生,所以我们就要在更多的网页给予这部分链接。例如首页、频道页、栏目/列表页 、专题聚合页 、甚至文章页本身 ,都需要具备一个最新文章板块,以此等待爬虫抓取到我们的任何网页时,都能发现最新的文章。

  同时 ,试想一下,这么多页面都有新文章的链接,连接传递权重 ,那这新文章 ,既被抓取了,权重也不低 。被收录的速度会明显提升。

  那针对那些长时间不收录的,也可以考虑是不是权重太低了 ,我多给一些内链支持,传递一些权重。应该会有收录的可能 。当然也有可能不收录,那你就要靠内容本身的质量了。之前有一篇文章是专门说内容质量的也欢迎大家阅读:什么内容容易被百度判断为优质内容?。

  所以 ,我们为了解决搜索引擎爬虫重复抓取问题不是我们最终要解决的 。因为本质上搜索引擎爬虫是无序的,我们只能通过针对网站的架构、推荐算法、运营策略等进行干预。使爬虫给予我们更理想的抓取效果。

标签: 丽水seo快速排名 seo代码学习 广州网站关键词seo优化公司 狼雨seo教程的网上店铺

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~