文章详情页

python - Scrapy ItemLoader数据清洗疑问

浏览：269日期：2022-06-30 08:28:51

问题描述

在使用scrapy抓取数据时，利用itemloader这个类，使用selector取出的值为空时，进入scrapy.Field()里调用filter()，selector取值不为空的确返回'有值'，如果selector取出[]或'',那么value进入filter()之后，并不会返回'无值'

def filter(value): if value:return '有值' else:return '无值' # 下面就简写了，熟悉的应该能看的懂 scrapy.Field(filter())

有什么办法将抓取为空的值，经过filyer()之后变成'无值'

问题解答

回答1：

谢邀~不太了解Scrapy，所以题主这个我不太好说我用PHP自己写的爬虫大体思路是：1.先是根据正则和一些循环，把要收集的页面放到队列里，按类别分类，例如分页的列表页一个队列，列表里的数据内容页一个队列。2.然后利用xpath来爬取相关内容页的数据，爬取的过程中对一些爬取到的数据进行如题主所需的那样进行处理。3.组装数据，按照自己所需的标准保存数据。

大体就是这样，我绝对大部分爬虫框架也大概都是这种思路吧，无非是在此基础上增加了，反爬机制，多线程，多进程，增量爬取等等功能。所以，题主找到你这个框架的爬取数据那里进行处理或组装数据的地方进行处理都行。

Python 编程

上一条：python - 面对一串含有乱码的字符串，如何取下需要的信息下一条：python - 编码问题求助

相关文章：

1. docker容器呢SSH为什么连不通呢？2. docker images显示的镜像过多，狗眼被亮瞎了，怎么办？3. Docker for Mac 创建的dnsmasq容器连不上/不工作的问题4. 请问“由于 Cookie “PHPSESSID”的“SameSite”属性设置为“None”，但缺少“Secure”属性，此 Cookie 未来将被拒绝。”请问出现这个问题怎么办？5. 前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~6. docker api 开发的端口怎么获取？7. golang - 用IDE看docker源码时的小问题8. docker start -a dockername 老是卡住，什么情况？9. 如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？10. docker网络端口映射，没有方便点的操作方法么？

排行榜

					
					Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
docker容器呢SSH为什么连不通呢？
golang - 用IDE看docker源码时的小问题
docker api 开发的端口怎么获取？
docker网络端口映射，没有方便点的操作方法么？
docker start -a dockername 老是卡住，什么情况？
请问“由于 Cookie “PHPSESSID”的“SameSite”属性设置为“None”，但缺少“Secure”属性，此 Cookie 未来将被拒绝。”请问出现这个问题怎么办？
docker images显示的镜像过多，狗眼被亮瞎了，怎么办？
前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~
如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？
angular.js - angular中的a标签不起作用
				

热门标签