文章详情页

python 爬虫解析效率如何提升?

浏览：263日期：2022-06-29 17:26:48

问题描述

现在采用的是在windows 环境下采用多线程的方式进行爬取,使用beautifulsoup+lxml进行解析.

N个爬取线程->解析队列->1个解析线程->存储队列->1个存储线程

整个执行程序的效率卡在计算密集的解析线程中，如果只是增加解析线程数量的话，反而增加线程切换开销速度变慢。

请问下有什么办法可以较为明显的提升解析效率？

根据两位大腿的说明准备采用异步爬取->解析队列->N个解析进程->存储队列->存储线程

准备开工

问题解答

回答1：

其实我觉得, 你在前面N个爬取线程可以换成协程/线程池实现, 因为你在频繁创建线程本省一种性能耗费, 用线程池虽然可以减少这部分的损耗, 但是上下文切换还是无法避免, 所以协程这方面, 应该是比较合适的.1个解析线程换成进程池,多开几个进程去计算密集处理, 其余应该可以不用改, 如果还想再搞, 将核心部分用c/c++ 重写咯, 希望可以帮到你

回答2：

我的做法是多进程。多进程的好处是当单机性能不够的时候，可以随时切换为分布式爬虫。

回答3：

可以网上找下tornade异步爬虫吧,我正在用这个

Python 编程

上一条：python - 想做一个批量ping的工具，请问用什么方法更快更好一点？下一条：python - django中找不到css等静态文件

相关文章：

1. Docker for Mac 创建的dnsmasq容器连不上/不工作的问题2. 如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？3. docker网络端口映射，没有方便点的操作方法么？4. docker api 开发的端口怎么获取？5. 前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~6. docker images显示的镜像过多，狗眼被亮瞎了，怎么办？7. docker容器呢SSH为什么连不通呢？8. spring-mvc - spring-session-redis HttpSessionListener失效9. javascript - 关于用户登录和信息存储的问题10. docker start -a dockername 老是卡住，什么情况？

排行榜

					
					spring-mvc - spring-session-redis HttpSessionListener失效
Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
docker容器呢SSH为什么连不通呢？
docker api 开发的端口怎么获取？
docker网络端口映射，没有方便点的操作方法么？
docker images显示的镜像过多，狗眼被亮瞎了，怎么办？
前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~
如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？
javascript - 关于用户登录和信息存储的问题
docker start -a dockername 老是卡住，什么情况？
docker gitlab 如何git clone？
				

热门标签

python 爬虫 解析效率如何提升?

python 爬虫解析效率如何提升?