文章详情页

网页爬虫 - Java爬虫已获取图片链接但是无法下载图片

浏览：241日期：2023-12-10 14:58:56

问题描述

利用爬虫在html中获取的相应图片资源src的代码是这样的

但是再通过代码将资源转成链接的形式下载图片的时候，就报了400的错误

网页爬虫 - Java爬虫已获取图片链接但是无法下载图片

然而，我使用chrome去测试链接是否存在是，发现，真正对方网站服务器能够识别的是

网页爬虫 - Java爬虫已获取图片链接但是无法下载图片

也就是说我通过网页获得图片资源的链接是http://www.neofactory.co.jp/i... 2.jpg然而，正常能够获取图片的链接是http://www.neofactory.co.jp/i...

请各位大神指导之后应该怎么办，我在网上查了好多资料，还是没有解决办法。ps:奇怪的是我用Firefox的话，上面的那个链接也能得到图片，我就百思不得其解了。

代码:

public class Image {

private String urlNeo='';public String getUrlNeo() { return urlNeo;}public void setUrlNeo(String urlNeo) { this.urlNeo = urlNeo;}public String getHtml() throws Exception{ ArrayList<String> list=new ArrayList<String>();String line=''; String Html=''; URL url=new URL(urlNeo); URLConnection connection=url.openConnection(); InputStream in=connection.getInputStream(); InputStreamReader isr=new InputStreamReader(in); BufferedReader br=new BufferedReader(isr); while((line=br.readLine())!=null){Html+=line;list.add(line); } br.close(); isr.close(); in.close(); return Html;}public String getImgSrc() throws Exception{ String html=getHtml(); String IMGURL_REG_xpath='//p[1]/p[2]/p[2]/p/node()'; String imginfomation=''; JXDocument jxDocument = new JXDocument(html); imginfomation=(jxDocument.sel(IMGURL_REG_xpath).toString()).substring(1,jxDocument.sel(IMGURL_REG_xpath).toString().length() - 1); return imginfomation;}public List<String> getImgXpath() throws Exception{ String str=''; String IMGSRC_REG = 'img.product.w.*.jpg'; List<String> list1=new ArrayList<String>(); List<String> list2=new ArrayList<String>(); String listimg = getImgSrc(); Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(listimg); while (matcher.find()) {list1.add(matcher.group()); } for(int i=1;i<=(list1.size()/2);i++){int j=i*2;list2.add(list1.get(j-1)); } return list2;}public void download(String admin_no) throws Exception{ List<String> list=new ArrayList<String>(); list=getImgXpath(); for(String img:list){System.out.println(img);String url='http://www.neofactory.co.jp/'+img;URL uri=new URL(url);URLConnection con=uri.openConnection();con.setConnectTimeout(5000);InputStream in=con.getInputStream();byte[] buf=new byte[1024];int length=0; File sf=new File('D:item_neo_photo'+admin_no);if(!sf.exists()){ sf.mkdirs();}String[] a=img.split('/');OutputStream os=new FileOutputStream(sf.getPath()+''+a[a.length-1]);while((length=in.read(buf))!=-1){ os.write(buf, 0, length);}os.close();in.close(); }}

}

问题解答

回答1：

直接把域名+获取的img src属性拼起来不行么

回答2：

url编码下

java

上一条：java - 关于While,break的问题下一条：java - 关于多线程notify的问题

相关文章：

1. 系统重装后，恢复mysql5.5？2. Java中main方法里面的参数一定要是String []args吗？3. docker绑定了nginx端口外部访问不到4. javascript - node.js中stat() access() open() readFile()都能判断文件是否存在？5. html5 - 目前公司App 嵌入H5页面做个手机支付功能没有做过所以请求各位有经验的给个思路6. font-family - 我引入CSS3自定义字体没有效果？7. mysql - sql 左连接结果union右连接结果，导致重复性计算怎么解决？8. css3 - CSS优先级问题9. css - 如何讓圖片像雲一樣的行為？10. android - 微信的@功能如何实现的？

排行榜

					
					系统重装后，恢复mysql5.5？
Java中main方法里面的参数一定要是String []args吗？
docker绑定了nginx端口 外部访问不到
html5 - 目前  公司App 嵌入H5页面  做个 手机支付功能  没有做过  所以 请求各位有经验的  给个思路
javascript - node.js中stat() access() open() readFile()都能判断文件是否存在？
CSS3可否做出这个效果？
font-family - 我引入CSS3自定义字体没有效果？
javascript - js 多维数组的问题
android - 微信的@功能如何实现的？
mysql - sql 左连接结果union右连接结果，导致重复性计算怎么解决？
css3 - CSS优先级问题
				

热门标签