文章详情页

python - Scrapy存在内存泄漏的问题。

浏览：253日期：2022-06-27 09:37:33

问题描述

再编写爬虫的时候，总是跑了一段时间（不会超过12个小时）就会被OOM掉。很是无奈！！！根据官方的文档，使用这个prefs()但是实在找不出问题的所在。

Live ReferencesHtmlResponse 42 oldest: 753s agoMySuteSpider1 oldest: 2964s agoRequest 32412 oldest: 2920s agoSelector 42 oldest: 751s agoTripItem 37 oldest: 751s ago

爬虫的处理是获取所有页面的a标签的链接：

#获取域名的后缀def get_domain_suffix(domain): if ’com’ in tldextract.extract(domain).suffix:return True return False#拼接域名。只存主域名def save_domain(domain): domain_name = tldextract.extract(domain).domain suffix_name = tldextract.extract(domain).suffix return domain_name + ’.’ + suffix_name#获取域名ipdef get_domain_ip(domain): try:ip = socket.gethostbyname(domain)return ip except:return ’114.114.114.114’# 获取域名所在的国家def get_domain_ct_iso(ip): GEO = geoip2.database.Reader(’/var/test/geodb/GeoLite2-City.mmdb’) r = GEO.city(ip) return r.country.iso_codeclass MyDomainSpider(scrapy.Spider): name = ’my_domain’ start_urls = [’http://xxx.com ] def parse_items(self, response):item = TripItem()for url in response.xpath(’//a/@href’).extract(): if url.startswith(’http’): domain = urlparse.urlparse(url).netloc if get_domain_tw(domain) or get_domain_ct_iso(get_domain_ip(domain)) == ’US’:item[’domain’] = save_domain(domain)item[’ip’] = get_domain_ip(domain)item[’datetime’] = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')yield item def parse(self, response):for url in response.xpath(’//a/@href’).extract(): if url.startswith(’http’):domain = urlparse.urlparse(url).netlocif get_domain_tw(domain) or get_domain_ct_iso(get_domain_ip(domain)) == ’US’: yield scrapy.Request(url, callback=self.parse_items)

请指教一下谢谢

问题解答

回答1：

yield item 是不是得落地，存文件或者db，不然一直存内存了

Python 编程

上一条：python - 在使用Pycharm时经常看到如下的样式，小括号里红色的部分是什么意思呢？下一条：javascript - 请教如何获取百度贴吧新增的两个加密参数

相关文章：

1. docker 17.03 怎么配置 registry mirror ?2. tp6 事务闭包操作问题3. python打开.py文件的时候出现window无法打开该文件是怎么回事呢？4. 主从复制 - MySQL 主从延迟 300s 以上，求大神解答5. docker gitlab 如何git clone？6. web服务器 - ubuntu下布置apache加wsgi加python7. css - 图片的宽度发生变化而高度却没有相应变？8. dockerfile - 为什么docker容器启动不了？9. javascript - sublime快键键问题10. javascript - 微信小程序如何实现这种左滑动出现删除的办法？有相关api吗？

排行榜

					
					javascript - 微信小程序 如何实现这种左滑动出现删除的办法？有相关api吗？
javascript - sublime快键键问题
主从复制 - MySQL 主从延迟 300s 以上，求大神解答
dockerfile - 为什么docker容器启动不了？
docker gitlab 如何git clone？
python打开.py文件的时候出现window无法打开该文件是怎么回事呢？
web服务器 - ubuntu下布置apache加wsgi加python
tp6 事务闭包操作问题
css - 图片的宽度发生变化而高度却没有相应变？
docker 17.03 怎么配置 registry mirror ?
java - 单例服务解决多进程写文件
				

热门标签