文章详情页

python - 怎么用爬虫批量抓取网页中的图片？

浏览：220日期：2022-06-27 11:03:37

如图，通过network查看加载图片，要一张一张右键保存很麻烦，有没有办法写个爬虫批量抓取这里的图片》？

问题解答

回答1：

这个需求, 如果你会爬虫其实很简单, 不外乎几个步骤:

首页或者有图片的页面, 通过正则或者其他框架, 获取图片的url

通过requests库或者urllib库, 访问上面图片url的地址

以二进制的形式, 写入本地硬盘

参考代码:

import re, requestsr = requests.get('http://...页面地址..')p = re.compile(r’相应的正则表达式匹配’)image = p.findall(r.text)[0] # 通过正则获取所有图片的urlir = requests.get(image) # 访问图片的地址sz = open(’logo.jpg’, ’wb’).write(ir.content) # 将其内容写入本地print(’logo.jpg’, sz,’bytes’)

更多详情, 可以参考学习requests官方文档: requests文档

回答2：

可以的，爬虫五个部分:调度程序url去重下载器网页解析数据存储对于下载图片的思路是:获取图片所在网页内容，解析img标签，得到图片地址，然后便利图片网址，下载每张图片，将下载过的图片地址保存在布隆过滤器中，避免重复下载，每次下载一张图片时，通过网址检查是否下载过，当图片下载到本地后，可以将图片路径保存在数据库中，图片文件保存在文件夹中，或者直接将图片保存在数据库中。python使用request+beautifulsoup4java使用jsoup

回答3：

如果多个网站或者一个网站需要爬到很深的情况下，楼上的方式直接递归或者深度遍历就OK

Python 编程

上一条：python - Scrapy的spider在IDE中方便运行调试下一条：python3.x - 为什么设置了.pth文件，python还是找不到模块？

相关文章：

1. javascript - js 多维数组的问题2. Java中main方法里面的参数一定要是String []args吗？3. html - 关于CSS实现border的0.5px设置？4. css3 - CSS优先级问题5. css - 如何讓圖片像雲一樣的行為？6. html5 - 目前公司App 嵌入H5页面做个手机支付功能没有做过所以请求各位有经验的给个思路7. javascript - node.js中stat() access() open() readFile()都能判断文件是否存在？8. font-family - 我引入CSS3自定义字体没有效果？9. css - 图片的宽度发生变化而高度却没有相应变？10. html5 - canvas中的mousedrag事件，为什么鼠标拖出canvas，然后再次移入canvas，drag事件还触发

排行榜

					
					javascript - js 多维数组的问题
Java中main方法里面的参数一定要是String []args吗？
font-family - 我引入CSS3自定义字体没有效果？
html - 关于CSS实现border的0.5px设置？
html5 - 目前  公司App 嵌入H5页面  做个 手机支付功能  没有做过  所以 请求各位有经验的  给个思路
css3 - CSS优先级问题
javascript - node.js中stat() access() open() readFile()都能判断文件是否存在？
css - 如何讓圖片像雲一樣的行為？
CSS3可否做出这个效果？
android - 微信的@功能如何实现的？
mysql - sql 左连接结果union右连接结果，导致重复性计算怎么解决？
				

热门标签