文章详情页
python - scrapy抓取知网response的内容重复
浏览:130日期:2022-06-27 08:47:44
问题描述
遍历请求翻页的url
for i in range(3): yield Request('http:xx/page/%s'%str(i),callback=self.parse_page)
结果response请求成功 但是每次内容都一样的没变化都是第一次请求时的内容,但是用postman分别请求分页的url就没有这问题。= = 是被ban了吗 之前就不会这样
问题解答
回答1:那就要分析一下用postman或者浏览器访问时请求的header头和用scrapy请求头有什么区别
回答2:被反爬识别到了
回答3:看下控制台打印的log,看看是否正确抓取了下一页2017-06-29 09:26:13 [scrapy] DEBUG: Scraped from <200 http:xx/page/x>,注意最后一个x(http:xx/page/x)是否是变化的
相关文章:
1. python的bs4如何筛选出h1标签中的内容2. node.js下载失败,求大神解释3. 运行PHP项目显示空白4. node.js - vue搭建环境- vue init webpack my-project无响应5. linux - 编译时提示头文件#include <mysql/mysql.h>不存在,百度之后也没解决6. css - 如何让某个 div 内的样式初始化7. javascript - 如何把从公共库请求来的视频URL进行加密8. python3.x - 在android手机的qpython上安装python的模块是用manylinux1版本的吗?9. html5 - 做PC的全屏页面的时候,该怎么设计这个页面在所有屏幕分辨率上不变形?10. javascript - select事件不冒泡解释
排行榜
