文章详情页

Java中用爬虫进行解析的实例方法

浏览：25日期：2022-08-19 10:50:30

我们都知道可以用爬虫来找寻一些想要的数据，除了可以使用python进行操作，我们最近学习的java同样也支持爬虫的运行，本篇小编就教大家用java爬虫来进行网页的解析，具体内容请往下看：

1、springboot项目，引入jsoup

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>

2、准备解析对象

Content.javapackage com.asia.pojo;import lombok.AllArgsConstructor;import lombok.Data;import lombok.NoArgsConstructor;@Data@NoArgsConstructor@AllArgsConstructorpublic class Content { private String title; private String img; private String price;}

3、爬虫工具类

HtmlParseUtil.javapackage com.asia.utils;import java.net.URL;import java.net.URLDecoder;import java.util.ArrayList;import java.util.List;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import com.asia.pojo.Content;public class HtmlParseUtil {public static void main(String[] args) throws Exception {new HtmlParseUtil().parseJD('西瓜').forEach(System.out::println);}public List<Content> parseJD(String keywords) throws Exception {String url = 'https://search.jd.com/Search?keyword=' + URLDecoder.decode(keywords, 'GBK');// 解析网页.（Jsoup返回Document就是浏览器的Document对象）Document document = Jsoup.parse((new URL(url)), 30000);Element element = document.getElementById('J_goodsList');Elements elements = element.getElementsByTag('li');List<Content> list = new ArrayList<Content>();for (Element el : elements) {String src = el.getElementsByTag('img').eq(0).attr('data-lazy-img');String price = el.getElementsByClass('p-price').eq(0).text();String name = el.getElementsByClass('p-name').eq(0).text();list.add(new Content(name, src, price));}return list;}}

到此这篇关于Java中用爬虫进行解析的实例方法的文章就介绍到这了,更多相关Java中如何使用爬虫进行解析内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

Java

上一条：java 注解默认值操作下一条：Java 利用binarySearch实现抽奖计算逻辑

相关文章：

1. python 解决pycharm运行py文件只有unittest选项的问题2. Python预测2020高考分数和录取情况3. 通过实例解析Python return运行原理4. python 实现单例模式的5种方法5. Python趣味挑战之turtle库绘画飘落的银杏树6. Python os库常用操作代码汇总7. Python变量格式化输出实现原理解析8. python 工具字符串转numpy浮点数组的实现9. Python安装Jupyter Notebook配置使用教程详解10. python中的np.argmax() 返回最大值索引号

排行榜

					
					通过实例解析Python return运行原理
python 实现单例模式的5种方法
python中的np.argmax() 返回最大值索引号
Java swing 图像处理多种效果实现教程
Java简单高效实现分页功能
使用java代码实现一个月内不再提醒,通用到期的问题
详解Jackson的基本用法
Python安装Jupyter Notebook配置使用教程详解
Python趣味挑战之turtle库绘画飘落的银杏树
Java 跨域问题的处理方式
Python os库常用操作代码汇总
				

热门标签