文章详情页

使用python scrapy框架,循环爬取URL, 每次运行一段时间后直接卡死,没有任何报错

浏览：120日期：2022-06-28 18:15:35

问题描述

每次运行半小时左右, 直接卡死, log里没有任何报错, 卡死的时候CPU占用率非常高

我在setting.py里设置了download timeout,不是超时的原因

ctrl-c无法正常退出, ctrl-z退出以后, 继续执行还是同样的问题, 半小时后再次卡死

使用python scrapy框架,循环爬取URL, 每次运行一段时间后直接卡死,没有任何报错

问题解答

回答1：

先TOP看看是内否过高，还是CPU过高，再找到是被哪些进程占用了如果都是你的爬虫进程，那就得排查代码，看看是不是哪里一直未被释放

总之从各方面去排查吧

回答2：

strace

Python 编程

上一条：python2 qt5 关于如何判断字符串为空下一条：python - dateutil.parser 处理不完整时间字符串

排行榜

					
					boot2docker无法启动
webpack - vue-cli写的项目（本地跑没有问题），准备放到Nginx服务器上，有什么配置需要改的？还有怎么部署？
微信公众号发送模板消息返回错误41000
这是什么情况？？？
Android明明可以直接分享，为什么还要用微信开放平台、微博开放平台的sdk？
javascript - 一个字符串转换成数字,例子就是a="2,322.222",b=’1,211.21’,如何在angualr中执行相减
java - 单元测试对dao层的测试有什么好的实践方案？
angular.js - ui-router多视图嵌套，如果保障各个ui-view下的css相互独立
javascript - mongodb 数据更新疑问？
css3 - 父级元素为fixed定位下，子元素绝对定位问题
css3写不规则样式背景
				

热门标签