文章详情页

python - beautifulsoup获取网页内容的问题

浏览：342日期：2022-06-30 08:43:35

问题描述

我要的是这个里面的内容<p class='talk-article__body talk-transcript__body'>

PYTHON代码：

neirong=soup.find(’p’,{’class’:’talk-article__body talk-transcript__body’})

但是返回的结果是空。这个选择器是不是写错了？

问题解答

回答1：

neirong=soup.find_all(’p’,class_=’talk-article__body talk-transcript__body’)

https://www.crummy.com/softwa...

回答2：

参照：https://www.crummy.com/softwa...中给出的说明，正确的使用方式是：neirong=soup.find(’p’,class_=’talk-article__body talk-transcript__body’)

为了获取p包含的内容，进一步调用neirong.contents即可

回答3：

neirong = soup.select(’.talk-article__body.talk-transcript__body’)回答4：

你从浏览器看到的内容有js动态生成的,用bs匹配不到,我发现看到的比较奇怪的class名基本都是js生成的

回答5：

使用find_all吧,find不能用于class

回答6：

个人觉得用BeautifulSoup来解析网页的时候，如果楼主打算通过css特性来进行元素的定位的话，最好还是使用soup.select()，这个方法可以用class的value当参数也可以用标签的的attribute当参数，很方便，用于搜索单一标签最好用，同时参数支持css选择器字符串，比如：soup.select('#id > .class a.title').

soup.find()方法目前好像用的不多，不知道是不是BeautifulSoup4弃用了。现在一般只要出现find，就是find_all()等方法。以上详细参考“超级汤”的中文文档：http://beautifulsoup.readthed...

Python 编程

上一条：python - 编码问题求助下一条：python - 版本号对比方法优化

相关文章：

1. docker网络端口映射，没有方便点的操作方法么？2. docker api 开发的端口怎么获取？3. spring-mvc - spring-session-redis HttpSessionListener失效4. golang - 用IDE看docker源码时的小问题5. 前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~6. docker容器呢SSH为什么连不通呢？7. Docker for Mac 创建的dnsmasq容器连不上/不工作的问题8. 如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？9. docker images显示的镜像过多，狗眼被亮瞎了，怎么办？10. docker不显示端口映射呢？

排行榜

					
					spring-mvc - spring-session-redis HttpSessionListener失效
Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
docker容器呢SSH为什么连不通呢？
golang - 用IDE看docker源码时的小问题
docker api 开发的端口怎么获取？
docker网络端口映射，没有方便点的操作方法么？
docker images显示的镜像过多，狗眼被亮瞎了，怎么办？
前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~
如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？
angular.js - angular中的a标签不起作用
dockerfile - 为什么docker容器启动不了？
				

热门标签