网页爬虫 - python 爬取网站 并解析非json内容
问题描述
小弟刚学会获得json的内容,但今天爬的网站返回的并不是json内容 并且会有一个随机数的生成在每次请求链接的后面
不知道会不会影响我要爬的内容
需要获得内容是下图中间的内容
网站链接 http://www.szse.cn/main/discl...
我自己尝试的代码:
import requestsdir = ’/Users/S1Lence/Desktop/new_html/szse/许可类重组问询函’headers = {’Host’: ’www.szse.cn’, ’Referer’: ’http://www.szse.cn/main/disclosure/jgxxgk/wxhj/’, ’User-Agent’: ’Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36’ }payload= {’ACTIONID’: ’7’, ’AJAX’: ’AJAX-TRUE’, ’CATALOGID’: ’main_wxhj’, ’TABKEY’: ’tab1’, ’selecthjlb’: ’许可类重组问询函’, ’tab1PAGENO’: ’1’, ’tab1PAGECOUNT’: ’7’, ’tab1RECORDCOUNT’: ’63’, ’REPORT_ACTION’: ’navigate’}res = requests.post(’http://www.szse.cn/szseWeb/FrontControllere’, data=payload)print(res.text)
输出的内容并不是我想要的 求解应该怎么爬
问题解答
回答1:把他的header信息拷过来用。。
回答2:你post的url地址写错了,应该是
http://www.szse.cn/szseWeb/FrontController.szse
相关文章:
1. python - 能通过CAN控制一部普通的家用轿车吗?2. python - beautifulsoup获取网页内容的问题3. Python爬虫如何爬取span和span中间的内容并分别存入字典里?4. mysql优化 - 关于mysql分区5. html5 - 只用CSS如何实现input框的宽度随框里输入的内容长短自动适应?6. 人工智能 - python 机器学习 医疗数据 怎么学7. centos7 编译安装 Python 3.5.1 失败8. mysql - 分库分表、分区、读写分离 这些都是用在什么场景下 ,会带来哪些效率或者其他方面的好处9. python - Django内使用filter过滤时间,只认年份不认月份是怎么回事?10. c++ - 请问MySQL_Connection::isReadOnly 怎么解决?
