文章详情页

python - 请教这个页面中的这两个信息能否不用无头浏览器爬取到?

浏览：202日期：2022-09-22 16:46:47

问题描述

在爬取'http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm'这个页面的时候, 发现'擅长'和'执业经历'这两个信息通过beautifulsoup是取不到的, 我选取这两个信息的代码如下:

soup.select(’#full_DoctorSpecialize’).get_text(strip=True)soup.select(’#full’).get_text(strip=True)

查询页面发现这两个信息好像是通过JS查询的结果, 除了把网页全部正则表达式匹配的方法, 请教各位: 1, 这两个信息能否直接取到? 2, 除了类似'Selenium'这样的工具, 是否还有其他方式能够取到这两个信息?3, 能否通过分析查询接口的方式解决?

谢谢

问题解答

回答1：

可能这个页面，你要抓的这个数据，是页面加载后，使用js渲染出来的。也就是说，这个#full_DoctorSpecialize里面的数据是ajax，从服务器上拿回来的。具体要如何拿这样的数据，你可以百度下 phantomjs ，你一定会有收获的。

回答2：

这2个信息可以直接获取，只是信息包含在JS块中BigPipe.onPageletArrive({这个里面}) , 可以通过正则表达式获取。这个里面是一段JSON格式的字符串。匹配之后转换为json还是很容易处理的。想要通过查询接口获取的话，应该是可以的，不过得分析JS代码，这个太麻烦，可以通过抓包工具来抓它的http请求。然后看看是那个请求返回的数据。相比较而言还是写正则匹配比较快。

回答3：

这个就像楼上说的是js渲染的，内容在js代码里面，可以正则匹配js代码里面的元素，得到你想要的信息

Python 编程

上一条：python3 snmp大家都用什么扩展模块下一条：PYTHON 根目录主程序导入子目录下的所有模块，提示模块找不到

相关文章：

1. Python如何利用Selenium或者PhantomJS爬取动态网页内容2. 关docker hub上有些镜像的tag被标记““This image has vulnerabilities””3. Python, for-else, while-else是否造成了语义歧义 ( 增加心智负担 )?4. Docker for Mac 创建的dnsmasq容器连不上/不工作的问题5. docker镜像push报错6. docker - 如何修改运行中容器的配置7. 怎么在phpstudy中用phpexcel上传数据到MYSQL？8. macos - 无法source activate python279. mysql按照时间热度排序10. 网站建设 - 如何在基于nginx上搭建的wordpress中自定义文件夹和网页文件？

排行榜

					
					Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
docker - 如何修改运行中容器的配置
关docker hub上有些镜像的tag被标记““This image has vulnerabilities””
docker镜像push报错
Python, for-else, while-else是否造成了语义歧义 ( 增加心智负担 )?
Python如何利用Selenium或者PhantomJS爬取动态网页内容
怎么在phpstudy中用phpexcel上传数据到MYSQL？
javascript - 编程，算法的问题
极光推送 - Android app消息推送 百度 极光 个推 信鸽哪个好一些？
css - 定位为absolute的父元素中的子元素 如何设置在父元素的下面？
node.js - koa2 如何获取参数？
				

热门标签