当前位置:   首页国内主机资讯是一个爬虫:python爬虫需要什么库,常用库都有哪些

是一个爬虫:python爬虫需要什么库,常用库都有哪些

发布日期:2021-11-13 11:01 | 文章来源:华为云

是一个爬虫

  爬虫即网络爬虫,是一种是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。而因为python的脚本特性,python易于配置,对字符的处理也非常灵活,加上python有丰富的网络抓取模块,所以两者经常联系在一起。

  爬虫整个过程主要由三部分组成:抓取页面、解析页面、存储数据。因此,抓取页面需要请求库的支持,解析页面需要解析库的支持,数据存储需要数据库以及连接数据库的包的支持。

  那么Python爬虫常用库都有哪些呢?

  请求库:

  1.requests这个库是爬虫最常用的一个库

  2.SeleniumSelenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。

  3.ChomeDrive安装了这个库,才能驱动Chrome浏览器完成相应的操作

  4.GeckoDriver使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

  5.PhantomJSPhantomJS 是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom操作,css选择器,json,Canvas以及SVG。

  6.aiohttp之前接收requests库是一个阻塞式HTTP请求库,当我们发送一个请求后。程序会一直等待主机响应,直到主机响应后,程序才会最下一步处理。其实,这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

  解析库:

  1.lxmllxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱

  2.Beautiful SoupBeautiful Soup也是python里一个HTML或XMl的解析库,它可以很方便的懂网页中提取数据,拥有强大的API和多种解析方式。

  3.pyquery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文档。

  数据库:

  1.mysql 数据库

  2.MongoDB Mo goDB 是由 ++语言编写的非关系型数据库, 是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活。

  3.Redis 是一个基于 存的高效的非关系型数据库。

  存储库:

  1.PyMySOL

  2.PyMongo

  3.redis-py

  4.RedisDump

  web库:

  1.Flask 是一个轻量级的Web服务程序,它简单,易用,灵活

  2.Tornado 是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支持成千上万的开放式连接。

  APP爬取相关库:

  1.Charles 是一个网络抓包工具,相比 Fiddler,其功能更为强大 且跨平台支持得更好。

  2.mitmproxy 是一个支持HTTP和HTTPS的抓包工具,类似于Fiddler,Charles的功能,只不过它通过控制台的形式操作。

  3.Android

  以上就是关于Python爬虫常用库的简单介绍,希望能帮助大家更好了解Python爬虫。

联系我们
关于使用场景和技术架构的更多咨询,请联系我们的销售和技术支持团队。
Yingsoo Host

在线
客服

在线客服:7*24小时在线

客服
热线

400-630-3752
7*24小时客服服务热线

关注
微信

关注官方微信
顶部