网页爬虫 - Python 爬虫中如何处理验证码?
问题描述
最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:
另外一种就是出来一些特定字符,需要按顺序点击的:
我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……
问题解答
回答1:这个本身用验证码技术就是防止爬虫之类的网络程序的,我所知道的破解验证码就是用人工智能的图像识别那块,好像有类似的函数可用,但是准确率都不会太高的
回答2:验证码问题,一可以转到专业服务商提供的API(他们用机器学习或者人工),如优优图,二是自己写验证码识别程序,提供一个项目供参考:https://github.com/luyishisi/...
回答3:有一种方案是在浏览器手动登陆然后把cookies提取出来直接在爬虫里包在请求里发出去。
回答4:图片一好处理,验证码就是张图片,通过图片处理可以获取验证码(ocr技术);图片二比较麻烦,如果用第一种方法的话,它的数字覆盖在文字上面了,在获取图片内容的时候难度比较大,第二种方法我没有什么好方法,希望有这方面经验的同学帮忙解答一下
回答5:验证码就是用来反制机器和爬虫的,如果验证码能让你的自动化爬虫轻松绕过,那还能叫验证码么?楼主还是先搞清楚验证码是个怎么机制,再来看看是否真如你想象中能够轻松绕过.总而言之,除非人家网站的验证码实现有漏洞,否则你是无法绕过验证码机制的,你只能识别出验证码上的文字,比如OCR(Optical Character Recognition)技术就是用来解决这个问题的.OCR是指电子设备(如扫描仪)检查纸上打印的字符.通过检测暗/亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程.
验证码识别基本步骤:1.预处理2.灰度化3.二值化4.去噪5.分割6.识别
总而言之,验证码识别门槛高,成本也高,避无可避.比如下图,验证码东倒西歪,还重叠,识别起来有难度.
可以用一个验证码服务像是我在用的9eu。
回答7:最省事的方式就是把cookie拿出来写在代码里,不过cookie是有时效性的
回答8:应对复杂的验证码,比较高效省时的方法应是对接到打码平台,交由他们的人工处理。
相关文章:
1. python - 求一个在def中可以实现调用本def满足特定条件continue效果的方法(标题说不太清楚,请见题内描述)2. $fields = $values = [];这条代码一直定义不了,一直报错,老师的源码也是被报错的,执行不了,请问该怎么解决这个问题3. mysql多表联合查询优化的问题4. 数据库设计 - MySQL数据库主键问题5. MYSQL新建用户设置可以远程访问的问题6. linux - 为什么我在mysql的my.cnf下找不到bind-address?7. node.js - 我想让最后进入数据库的数据,在前台最先展示,如何做到?8. MySQL中的enum类型有什么优点?9. mysql字符串排序问题10. mysql 5.7单表300万数据,性能严重下降,如何破?
![$fields = $values = [];这条代码一直定义不了,一直报错,老师的源码也是被报错的,执行不了,请问该怎么解决这个问题](http://www.haobala.com/attached/image/news/202205/093622cb60.png)