Java中用爬虫进行解析的实例方法
我们都知道可以用爬虫来找寻一些想要的数据,除了可以使用python进行操作,我们最近学习的java同样也支持爬虫的运行,本篇小编就教大家用java爬虫来进行网页的解析,具体内容请往下看:
1、springboot项目,引入jsoup
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>
2、准备解析对象
Content.javapackage com.asia.pojo;import lombok.AllArgsConstructor;import lombok.Data;import lombok.NoArgsConstructor;@Data@NoArgsConstructor@AllArgsConstructorpublic class Content { private String title; private String img; private String price;}
3、爬虫工具类
HtmlParseUtil.javapackage com.asia.utils;import java.net.URL;import java.net.URLDecoder;import java.util.ArrayList;import java.util.List;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import com.asia.pojo.Content;public class HtmlParseUtil {public static void main(String[] args) throws Exception {new HtmlParseUtil().parseJD('西瓜').forEach(System.out::println);}public List<Content> parseJD(String keywords) throws Exception {String url = 'https://search.jd.com/Search?keyword=' + URLDecoder.decode(keywords, 'GBK');// 解析网页.(Jsoup返回Document就是浏览器的Document对象)Document document = Jsoup.parse((new URL(url)), 30000);Element element = document.getElementById('J_goodsList');Elements elements = element.getElementsByTag('li');List<Content> list = new ArrayList<Content>();for (Element el : elements) {String src = el.getElementsByTag('img').eq(0).attr('data-lazy-img');String price = el.getElementsByClass('p-price').eq(0).text();String name = el.getElementsByClass('p-name').eq(0).text();list.add(new Content(name, src, price));}return list;}}
到此这篇关于Java中用爬虫进行解析的实例方法的文章就介绍到这了,更多相关Java中如何使用爬虫进行解析内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网!
相关文章:
1. asp.net core服务限制堆内存大小的操作方法2. 解决Django响应JsonResponse返回json格式数据报错问题3. Python爬取12306车次信息代码详解4. python 制作python包,封装成可用模块教程5. Python文字截图识别OCR工具实例解析6. Python使用paramiko连接远程服务器执行Shell命令的实现7. python实现处理mysql结果输出方式8. 解决python脚本中error: unrecognized arguments: True错误9. Python 实现将某一列设置为str类型10. 通过vue如何设置header

网公网安备