文章详情页

python - 关于代码的优化问题

浏览：265日期：2022-08-17 09:32:17

问题描述

我新手写的代码，用来处理爬虫下来的htm文件内容,虽然解决问题，但是会有遗漏文件不处理。爬虫是爬一些文章的网站下来的，和网页另存为没什么区别。

想大神们帮我看看我的代码，怎么优化不会有遗漏。比较小白的代码，麻烦了！！！

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’’’, ’’, threetxt) fivetxt=re.sub(’”’, ’'’, fourtxt) sixtxt=re.sub(’“’, ’'’, fivetxt)endstr=re.sub(’–’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

问题解答

回答1：

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

Python 编程

上一条：python - mysql 如何设置通用型字段? 比如像mongodb那样下一条：python 如何实现PHP替换图片链接

相关文章：

1. nignx - docker内nginx 80端口被占用2. docker-compose 为何找不到配置文件？3. docker-compose中volumes的问题4. docker gitlab 如何git clone？5. docker images显示的镜像过多，狗眼被亮瞎了，怎么办？6. docker绑定了nginx端口外部访问不到7. docker网络端口映射，没有方便点的操作方法么？8. golang - 用IDE看docker源码时的小问题9. docker容器呢SSH为什么连不通呢？10. debian - docker依赖的aufs-tools源码哪里可以找到啊？

排行榜

					
					nignx - docker内nginx 80端口被占用
docker-compose中volumes的问题
docker gitlab 如何git clone？
docker images显示的镜像过多，狗眼被亮瞎了，怎么办？
docker-compose 为何找不到配置文件？
Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
关docker hub上有些镜像的tag被标记““This image has vulnerabilities””
docker容器呢SSH为什么连不通呢？
golang - 用IDE看docker源码时的小问题
debian - docker依赖的aufs-tools源码哪里可以找到啊？
docker网络端口映射，没有方便点的操作方法么？
				

热门标签