Python爬虫的乱码问题?
问题描述
使用python实现模拟登陆并爬取返回页面的时候出现了乱码,目标网页的编码使用utf-8
相关代码:
#coding=utf-8import urllibimport urllib2headers={ ’Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate’, ’Accept-Language’:’zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3’, ’Connection’:’keep-alive’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.73 Safari/537.36’}payload={ ’_eventId’:’submit’, ’lt’:’_cF2A0EB3F-D044-046C-6F4A-C828DE0ACE8E_k8B4BE5F5-4CAD-375D-0DDC-FB84A18445DF’, ’password’:’’, ’submit’:’登 录’, ’username’:’’}payload=urllib.urlencode(payload)request = urllib2.Request(posturl, payload, headers)print requestresponse = urllib2.urlopen(request)text = response.read()print text
控制台输出信息:
第一次遇见这种乱码比较懵逼
问题解答
回答1:urllib2没有处理压缩的问题,你要使用gzip解压,比如这样
from StringIO import StringIOimport gzipif response.info().get(’Content-Encoding’) == ’gzip’: buf = StringIO(text) f = gzip.GzipFile(fileobj=buf) data = f.read()
总结urllib2比较底层,建议使用requests
相关文章:
1. docker start -a dockername 老是卡住,什么情况?2. python运行后没有任何反馈要怎么排查3. java内存模型的happens-before语义顺序问题4. java - 配置tomcat免安装版,无法启动 返回错误码45. 请问下在VueJS中v-for 怎么拿到循环次数的变量呢?6. javascript - QQ自带浏览器中,点击返回,就刷新页面,关闭按钮不出现,有没有人知道是怎么回事???7. Mysql 关于 FOUND_ROWS() 和 ROW_COUNT() 函数8. logging - Python日志, 时间应该使用UTC时间还是本地时间?9. 鼠标过导航标签时,无效果,请问如何查找问题10. html5 - 现在做了个宣传用的H5需要获取openid
