当前位置: 首页》国内主机资讯》是一个爬虫：python爬虫需要什么库,常用库都有哪些

是一个爬虫：python爬虫需要什么库,常用库都有哪些

发布日期：2021-11-13 11:01 | 文章来源：华为云

是一个爬虫

　　爬虫即网络爬虫，是一种是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。而因为python的脚本特性，python易于配置，对字符的处理也非常灵活，加上python有丰富的网络抓取模块，所以两者经常联系在一起。

　　爬虫整个过程主要由三部分组成：抓取页面、解析页面、存储数据。因此，抓取页面需要请求库的支持，解析页面需要解析库的支持，数据存储需要数据库以及连接数据库的包的支持。

　　那么Python爬虫常用库都有哪些呢？

　　请求库：

　　1.requests这个库是爬虫最常用的一个库

　　2.SeleniumSelenium 是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等操作对于一些用JS做谊染的页面来说，这种抓取方式是非常有效的。

　　3.ChomeDrive安装了这个库，才能驱动Chrome浏览器完成相应的操作

　　4.GeckoDriver使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

　　5.PhantomJSPhantomJS 是一个无界面、可脚本编程的 WebKit 浏览器引擎，它原生支持多种Web标准：Dom操作，css选择器，json，Canvas以及SVG。

　　6.aiohttp之前接收requests库是一个阻塞式HTTP请求库，当我们发送一个请求后。程序会一直等待主机响应，直到主机响应后，程序才会最下一步处理。其实，这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情，如进行请求的调度，响应的处理等，那么爬虫的效率就会比之前的那种方式有很大的提升。而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

　　解析库：

　　1.lxmllxml是python的一个解析库，这个库支持HTML和xml的解析，支持XPath的解析方式，而且效率也是非常高的，深受广大程序员的热爱

　　2.Beautiful SoupBeautiful Soup也是python里一个HTML或XMl的解析库，它可以很方便的懂网页中提取数据，拥有强大的API和多种解析方式。

　　3.pyquery 同样是一个强大的网页解析工具，它提供了和 jQuery 类似的语法来解析HTML 文档。

　　数据库：

　　1.mysql 数据库

　　2.MongoDB Mo goDB 是由＋＋语言编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象，它的字段值可以包含其他文档、数组及文档数组，非常灵活。

　　3.Redis 是一个基于存的高效的非关系型数据库。

　　存储库：

　　1.PyMySOL

　　2.PyMongo

　　3.redis-py

　　4.RedisDump

　　web库：

　　1.Flask 是一个轻量级的Web服务程序，它简单，易用，灵活

　　2.Tornado 是一个支持异步的Web框架，通过使用非阻塞I/O流，可以支持成千上万的开放式连接。

　　APP爬取相关库：

　　1.Charles 是一个网络抓包工具，相比 Fiddler，其功能更为强大且跨平台支持得更好。

　　2.mitmproxy 是一个支持HTTP和HTTPS的抓包工具，类似于Fiddler，Charles的功能，只不过它通过控制台的形式操作。

　　3.Android

　　以上就是关于Python爬虫常用库的简单介绍，希望能帮助大家更好了解Python爬虫。

香港主机台湾主机美国主机日本主机韩国主机海外主机

香港服务器租用国内主机宝塔面板奇亚主机主机节点挖矿主机

上一篇：语言功能：PHP是如何工作的，这些常用功能你知道吗

是一个爬虫：python爬虫需要什么库,常用库都有哪些

关于Yingsoo

海外云主机

海外物理机

海外高防主机

海外专用主机

云安全与CDN