文章详情页
python - 正则表达式匹配html的问题。
浏览:145日期:2022-09-05 14:29:29
问题描述
<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文内容 #需要抓取的内容</dd>用BeautifulSoup html.parser解析的网页,现在用re模块想抓取**第7行**的中文内容,放在一个组里面(.*?)。正则老是匹配不上,用换行符也匹配不上,不知道怎么写了。。。
问题解答
回答1:既然你都用bs4解析了,为什么不用它提取哪?bs4内有一个stripped_string的函数正好满足你的需要。
回答2:import repattern = re.compile(r’</span>.*?</span>(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文内容 #需要抓取的内容</dd>’’’print(pattern.search(str).group(1))===> 中文内容 #需要抓取的内容回答3:
const re = /^</span>(.*)</dd>$/
这样可以不?
相关文章:
1. docker - 各位电脑上有多少个容器啊?容器一多,自己都搞混了,咋办呢?2. javascript - weex和node,js到底是怎样一个关系呢?3. nignx - docker内nginx 80端口被占用4. docker gitlab 如何git clone?5. dockerfile - 为什么docker容器启动不了?6. docker安装后出现Cannot connect to the Docker daemon.7. javascript - 修改表单多选项时和后台同事配合的问题。8. golang - 用IDE看docker源码时的小问题9. 我在centos容器里安装docker,也就是在容器里安装容器,报错了?10. redis - 究竟是选择微信小程序自带的统计工具还是自己开发一个数据统计的代码?
排行榜

网公网安备