文章详情页

网页爬虫 - Python爬虫如何正确判断页面是否可以爬取？

浏览：219日期：2022-09-03 13:50:21

问题描述

用Python27些爬虫，想要爬取一些网站，我需要判断网页是否可以爬取，第一反应是通过状态码来判断，但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面，可他的状态码却是200，结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题，但是现在也不能用状态码来判断了，请问还有什么方法可以正确判断一个页面是不是404该不该爬？

问题解答

回答1：

首先， 200 状态码，是网络连接状态，所以你只判断200并不能满足所有网站。

其次，写爬虫嘛，你应该实际去看看这些网站的规则是什么，可以先人工判断下，找找规律，比如看看网页返回内容是不是有什么特点之类的。

回答2：

做个网页内容的判断，如果他网页里面没有内容就直接返回。

回答3：

就算是页面状态码200，返回的404页面，应该和正常能爬取的页面html有不同的html元素吧，根据有没有特定的html元素来判断是不是404页面也行的

Python 编程

上一条：python - Flask内如何跳转至其他页面。下一条：Python做扫描，发包速度实在是太慢了，有优化的方案吗？

相关文章：

1. docker 17.03 怎么配置 registry mirror ?2. tp6 事务闭包操作问题3. python打开.py文件的时候出现window无法打开该文件是怎么回事呢？4. 主从复制 - MySQL 主从延迟 300s 以上，求大神解答5. docker gitlab 如何git clone？6. web服务器 - ubuntu下布置apache加wsgi加python7. css - 图片的宽度发生变化而高度却没有相应变？8. dockerfile - 为什么docker容器启动不了？9. javascript - sublime快键键问题10. javascript - 微信小程序如何实现这种左滑动出现删除的办法？有相关api吗？

排行榜

					
					javascript - 微信小程序 如何实现这种左滑动出现删除的办法？有相关api吗？
javascript - sublime快键键问题
主从复制 - MySQL 主从延迟 300s 以上，求大神解答
dockerfile - 为什么docker容器启动不了？
docker gitlab 如何git clone？
python打开.py文件的时候出现window无法打开该文件是怎么回事呢？
web服务器 - ubuntu下布置apache加wsgi加python
tp6 事务闭包操作问题
css - 图片的宽度发生变化而高度却没有相应变？
docker 17.03 怎么配置 registry mirror ?
java - 单例服务解决多进程写文件
				

热门标签