文章详情页

python - scrapy 爬取pages比实际进入items的多得多？

浏览：207日期：2022-07-23 10:55:26

2017-05-12 23:39:52 [scrapy.extensions.logstats] INFO:Crawled 3000 pages (at 61 pages/min), scraped 454 items (at 10 items/min)

为什么我使用scrapy爬取的时候访问pages要比实际进入items的的多的多?就是爬了半天items里没有几条数据入库的有什么办法解决么？

问题解答

回答1：

重定向了，你看到了吧，重定向就得请求两个页面啊。还有就是看有不有页面解析发生了错误。

Python 编程

上一条：算法 - python ahocorasick 从本地文件读取文本，进行关键字匹配，匹配失败下一条：运行python程序时出现“应用程序发生异常”的内存错误？

相关文章：

1. dockerfile - 为什么docker容器启动不了？2. 前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~3. docker内创建jenkins访问另一个容器下的服务器问题4. javascript - weex和node,js到底是怎样一个关系呢？5. docker gitlab 如何git clone？6. docker镜像push报错7. 取不出SQL得到的当前页8. 编辑管理员信息时，为什么没有修改过的内容会为空？9. javascript - react native在run-android时出现这个错误该怎么解决？大神赐教10. MySQL分表之后如何做排序的问题

排行榜

					
					javascript - weex和node,js到底是怎样一个关系呢？
docker镜像push报错
dockerfile - 为什么docker容器启动不了？
docker gitlab 如何git clone？
docker内创建jenkins访问另一个容器下的服务器问题
前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~
angular.js - 不适用其他构建工具，怎么搭建angular1项目
微信开放平台 - ios APP能不能打开微信然后通过微信跳转到指定的URL？
javascript - react native在run-android时出现这个错误该怎么解决？大神赐教
javascript - js 面向对象
取不出SQL得到的当前页
				

热门标签