文章详情页

python - 正则表达式匹配html的问题。

浏览：192日期：2022-09-05 14:29:29

问题描述

<dd class='gray6'> 中文 中文 中文内容 #需要抓取的内容</dd>用BeautifulSoup html.parser解析的网页，现在用re模块想抓取**第7行**的中文内容，放在一个组里面（.*?）。正则老是匹配不上，用换行符也匹配不上，不知道怎么写了。。。

问题解答

回答1：

既然你都用bs4解析了，为什么不用它提取哪？bs4内有一个stripped_string的函数正好满足你的需要。

回答2：

import repattern = re.compile(r’.*?(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> 中文 中文 中文内容 #需要抓取的内容</dd>’’’print(pattern.search(str).group(1))===> 中文内容 #需要抓取的内容回答3：

const re = /^(.*)</dd>$/

这样可以不?

Python 编程

上一条：python - 这段函数如何改写比较优雅?下一条：python - 如何在scrapy中带cookie访问？

相关文章：

1. docker-compose中volumes的问题2. 关于docker下的nginx压力测试3. javascript - vue的element-ui(饿了吗UI) webpack打包时externals无法分离4. Docker for Mac 创建的dnsmasq容器连不上/不工作的问题5. docker - 各位电脑上有多少个容器啊？容器一多，自己都搞混了，咋办呢？6. 如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？7. docker gitlab 如何git clone？8. 前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~9. docker images显示的镜像过多，狗眼被亮瞎了，怎么办？10. docker绑定了nginx端口外部访问不到

排行榜

					
					关于docker下的nginx压力测试
Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
docker-compose中volumes的问题
javascript - vue的element-ui(饿了吗UI) webpack打包时externals无法分离
docker - 各位电脑上有多少个容器啊？容器一多，自己都搞混了，咋办呢？
docker gitlab 如何git clone？
docker images显示的镜像过多，狗眼被亮瞎了，怎么办？
前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~
如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？
Android "1"=="1" 到底是true还是false
docker容器呢SSH为什么连不通呢？
				

热门标签