当前位置:   首页国内主机资讯爬虫抓取:网络爬虫有哪些种类,抓取策略有哪些

爬虫抓取:网络爬虫有哪些种类,抓取策略有哪些

发布日期:2021-11-13 14:25 | 文章来源:百家号

爬虫抓取

  网络爬虫是指按照一定的规则、自动抓取互联网上信息的程序组件或脚本程序。对SEO人员来说,一定对它不陌生。做SEO始终是围绕提高排名进行的,而在排名前需要先被搜索引擎收录,在搜索引擎中,网络爬虫就是搜索引擎发现和抓取文档的自动化程序。

  因此,认识和理解网络爬虫能有助于更好地优化网站。因为网络爬虫的类别有很多,下面就简单的介绍一下这几种。

  1.通用网络爬虫

  通用网络爬虫,又称为“全网爬虫”,从一些种子网站开始爬行,逐步扩展到整个互联网。

  通用网络爬虫策略:深度优先策略和广度优先策略。

  2.聚焦网络爬虫

  聚焦网络爬虫,又称为“主题网络爬虫”,预先选择一个(或几个)相关主题,仅爬行并抓取这一类的相关页面。

  聚焦网络爬虫策略:聚焦网络爬虫增加了链接和内容评价模块,所以其爬行策略的关键是评价页面的链接和内容后再进行爬行。

  3.增量式网络爬虫

  增量式网络爬虫,是指对已经收录的页面进行更新、爬行新页面和发生变化的页面。

  增量式网络爬虫策略:广度优先策略和PageRank优先策略等。

  4.Deep Web爬虫

  搜索引擎蜘蛛可以爬行并抓取的页面称之为“表层网页”,某些不能通过静态链接获得的页面称之为“深层网页”,Deep Web爬虫就是抓取深层网页的爬虫体系。

  而一般来说,网络爬虫常见的五种抓取策略有:

  深度优先:顺着一个链接一直爬行,直到某一页面再也没有链接,再开始爬行另外一条。但是一般都是从种子网站开始抓取,如果采用这种形式可能会造成抓取的页面质量越来越低,所以这种策略使用较少。

  广度优先:搜索完当前页面所有链接,才开始进入下一层。如果你要尽可能的覆盖较多的网页,广度优先搜索方法是较好的选择。

  部分的PageRank策略:对于已经下载的网页,连同待抓取URL队列的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取队列中的URL按照网页级别的值的大小排列,并按照顺序依次抓取网址页面。

  所有页面按照现金数进行排序。

  大站优先:以网站为单位来选题网页重要性,对于待爬取URL队列中的网页,根据所属网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接,其本质思想倾向于优先下载大型网站。

  以上就是4种网络爬虫的简单介绍和网络爬虫策略,希望对你认识和了解爬虫有帮助。

联系我们
关于使用场景和技术架构的更多咨询,请联系我们的销售和技术支持团队。
Yingsoo Host

在线
客服

在线客服:7*24小时在线

客服
热线

400-630-3752
7*24小时客服服务热线

关注
微信

关注官方微信
顶部