当前位置: 首页》国内主机资讯》爬虫抓取：网络爬虫有哪些种类，抓取策略有哪些

爬虫抓取：网络爬虫有哪些种类，抓取策略有哪些

发布日期：2021-11-13 14:25 | 文章来源：百家号

爬虫抓取

　　网络爬虫是指按照一定的规则、自动抓取互联网上信息的程序组件或脚本程序。对SEO人员来说，一定对它不陌生。做SEO始终是围绕提高排名进行的，而在排名前需要先被搜索引擎收录，在搜索引擎中，网络爬虫就是搜索引擎发现和抓取文档的自动化程序。

　　因此，认识和理解网络爬虫能有助于更好地优化网站。因为网络爬虫的类别有很多，下面就简单的介绍一下这几种。

　　1.通用网络爬虫

　　通用网络爬虫，又称为“全网爬虫”，从一些种子网站开始爬行，逐步扩展到整个互联网。

　　通用网络爬虫策略：深度优先策略和广度优先策略。

　　2.聚焦网络爬虫

　　聚焦网络爬虫，又称为“主题网络爬虫”，预先选择一个(或几个)相关主题，仅爬行并抓取这一类的相关页面。

　　聚焦网络爬虫策略：聚焦网络爬虫增加了链接和内容评价模块，所以其爬行策略的关键是评价页面的链接和内容后再进行爬行。

　　3.增量式网络爬虫

　　增量式网络爬虫，是指对已经收录的页面进行更新、爬行新页面和发生变化的页面。

　　增量式网络爬虫策略：广度优先策略和PageRank优先策略等。

　　4.Deep Web爬虫

　　搜索引擎蜘蛛可以爬行并抓取的页面称之为“表层网页”，某些不能通过静态链接获得的页面称之为“深层网页”，Deep Web爬虫就是抓取深层网页的爬虫体系。

　　而一般来说，网络爬虫常见的五种抓取策略有：

　　深度优先：顺着一个链接一直爬行，直到某一页面再也没有链接，再开始爬行另外一条。但是一般都是从种子网站开始抓取，如果采用这种形式可能会造成抓取的页面质量越来越低，所以这种策略使用较少。

　　广度优先：搜索完当前页面所有链接，才开始进入下一层。如果你要尽可能的覆盖较多的网页，广度优先搜索方法是较好的选择。

　　部分的PageRank策略：对于已经下载的网页，连同待抓取URL队列的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取队列中的URL按照网页级别的值的大小排列，并按照顺序依次抓取网址页面。

　　所有页面按照现金数进行排序。

　　大站优先：以网站为单位来选题网页重要性，对于待爬取URL队列中的网页，根据所属网站归类，如果哪个网站等待下载的页面最多，则优先下载这些链接，其本质思想倾向于优先下载大型网站。

　　以上就是4种网络爬虫的简单介绍和网络爬虫策略，希望对你认识和了解爬虫有帮助。