linux - python 抓取公众号文章遇到验证问题
问题描述
linux 下抓取微信公众号文章遇到验证问题!!!!!!!!
这是我要抓取的人民日报链接:http://mp.weixin.qq.com/profile?src=3×tamp=1492739045&ver=1&signature=bSSQMK1LY77M4O22qTi37cbhjhwNV7C9V4aor9HLhAvbGc2ybWX*qg3WqxntZ7iq0kvYe87oPpcSJKFdmGMx5g==1:首先浏览器上访问是正常的。2:linux下访问提示需要验证,以下是简单的代码
url = http://mp.weixin.qq.com/profile?src=3×tamp=1492738883&ver=1&signature=bSSQMK1LY77M4O22qTi37cbhjhwNV7C9V4aor9HLhAvbGc2ybWX*qg3WqxntZ7iq2xTLUTfxAMzK79UGvalY1A==response = urllib2.urlopen(url)print response.read()
访问的结果如下:
补充说明下公众号链接的获取方式:1:先访问链接:http://weixin.sogou.com/weixi...2:再获取人民日报公众号的链接进行跳转。
问题解答
回答1:都不模拟header请求头的,就能抓取吗,建议先模拟request header再试一下
回答2:# coding: utf-8import requestsheaders = {}headers[’User-Agent’] = ’Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0’url = ’http://mp.weixin.qq.com/profile?src=3×tamp=1492739045&ver=1&signature=bSSQMK1LY77M4O22qTi37cbhjhwNV7C9V4aor9HLhAvbGc2ybWX*qg3WqxntZ7iq0kvYe87oPpcSJKFdmGMx5g==’r = requests.get(url, headers=headers)print r.text回答3:

现在在请求中加了header后,返回的错误是这样的。请各位大神麻烦再支下招
回答4:用request可以,本地环境Mac OSX , python3.6.1import requestsheaders = {’user-agent’ : ’Mozilla/5.0’}respon = requests.get(’http://mp.weixin.qq.com/profile?src=3×tamp=1492831080&ver=1&signature=bSSQMK1LY77M4O22qTi37cbhjhwNV7C9V4aor9HLhAvbGc2ybWX*qg3WqxntZ7iqB7vsPUlOS3zhl-8n5FUODg==’, headers = headers)respon.encoding = ’utf-8’print(respon.text)内容在红色框那一行


相关文章:
1. css - flex换行后如何设置行距?(direction:row+warp:warp)2. Java 在内部类中访问变量。需要宣布为最终3. 默认输出类型为json,如何输出html4. javascript - 请问div是个链接,鼠标移上去能出现一个div,比如查看更多按钮,怎么做?5. angular.js - angular如何获取一段html代码赋值到另一个地方,html里面的ng-click事件还要能生效?6. mysql - sql数据还原7. javascript - 求帮助 , ATOM不显示界面!!!!8. nginx - 使用wordpress搭建博客,怎么实现真实服务器使用HTTP,然后使用UPYUN的HTTPS加密?9. html5和Flash对抗是什么情况?10. javascript - js中递归与for循环同时发生的时候,代码的执行顺序是怎样的?

网公网安备