文章详情页

python - 如何爬取带有日期选择的ajax网站？

浏览：210日期：2022-09-20 16:55:54

问题描述

需要爬取三峡水库的实时水情数据，可以在网页中选择日期显示水情信息，如果一天天选择再复制数据发现很是耗时，我现在需要将下图中三峡水利枢纽2014年-2016年每天的数据爬下来。

python - 如何爬取带有日期选择的ajax网站？

网址如下：http://www.ctgpc.com.cn/sxjt/...

通过浏览器自带的检查工具，右键检查元素，查看 network，查看调用的 ajax API 地址：初步分析后发现是通过ajax调用了以下网址，并用POST传递了一个日期数据，例如今天2017-02-15给该网址：http://www.ctgpc.com.cn/eport...

Header如下：

python - 如何爬取带有日期选择的ajax网站？

Response如下：

python - 如何爬取带有日期选择的ajax网站？

之前有搜索到类似的问题：https://segmentfault.com/q/10...但是按照回答并没能解决我的疑惑，因此在这里求助各位前辈，麻烦大家了

问题解答

回答1：

可以利用requests库模拟post提交。从游览器检查工具可以看到传的参数是time:2017-02-07。定义data={'time': 日期譬如2017-02-07}。然后你可以写个循环，循环一次日期往后加一天。然后就r = requests.post('url', data=data, header=****)。取出数据保存入库。每次循环嫌慢的话，可以加上gevent这个协程库加快速度，看你也就想抓2年的数据循环365*2次就OK了

回答2：

你已经看到了那个包含数据的请求，那么你的问题是什么呢？

回答3：

抓包，再模拟post或get看看下面的内容Python爬虫联想词视频和代码https://zhuanlan.zhihu.com/p/...

跟黄哥学Python爬虫抓取代理IP和验证。https://zhuanlan.zhihu.com/p/...跟黄哥学Python爬虫抓取代理IPhttps://zhuanlan.zhihu.com/p/...

回答4：

都已经拿到Json串了，数据更好拿了啊

Python 编程

上一条：python - pyInstaller 打包py文件，可以生成成功，但是在warn.txt中报missing module，以至于不能运行下一条：关于python正则表达式中函数findall的用法？

相关文章：

1. mysql连表排序2. Browser-sync安装失败问题3. java - 安卓调用c++lib4. java基础，求解答。5. javascript - nodejs关于进程间发送句柄的一点疑问6. mysql - SELECT 多個資料表及多個欄位7. css3 - transform的顺序不同为何会使元素的形状不同。8. 垃圾回收 - java 如何手动回收对象9. css3:flex排版问题10. 请问一下用notepad++可以照着你这样来编吗？为什么我用notepad++编辑的时候那个容器那里颜色是黑的，不会像其他变量那样变颜色。