文章详情页

java - 如何用正则提取html内容

浏览：227日期：2023-12-04 08:35:21

问题描述

<p class='info-detail-head-classify-subname'><a href='https://www.haobala.com/wenda/11492.html' target='_blank'>财富</a></p> 想用java 提取财富两个字请问用正则怎么提取用jsoup会不会简单一点

问题解答

回答1：

可以使用jsoup和regex, 推荐使用jsoup!jsoup document:https://jsoup.org/cookbook/in...http://www.open-open.com/jsoup/

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element;import java.util.regex.Matcher; import java.util.regex.Pattern;public class Main { public static void main(String[] args) {// 方法１: jsoup String html = '<p class='info-detail-head-classify-subname'><a href='https://www.haobala.com/wenda/11492.html' target='_blank'>财富</a></p>';Document doc = Jsoup.parse(html); Element element = doc.getElementById('info_detail_head_classify_type'); System.out.println(element.text());// 方法2: regex Pattern r = Pattern.compile('<a.*>(.*)</a>'); Matcher m = r.matcher(html); if (m.find()) {System.out.println(m.group(1)); }} }回答2：

<a[^>]*>([^<]*)</a>

取<a></a>中的内容

HTML

上一条：java - 反射数组:为什么每次获取Modifiers都是public,abstract,以及final下一条：java - Kafka:如果消息的保存策略被设置为2天，那么在一个消息被发布的两天时间内，它都是可以被消费的。之后它将被丢弃以释放空间。

相关文章：

1. golang - 用IDE看docker源码时的小问题2. docker start -a dockername 老是卡住，什么情况？3. 在windows下安装docker Toolbox 启动Docker Quickstart Terminal 失败！4. node.js - win10如何安装并使用babel？5. mysql - 如何在ubuntu 安裝環境？6. linux - kali镜像下不能识别tf卡大小7. css - 关于父元素div滚动条不正确问题8. 如何不用一条一条删除MySQL数据9. node.js - 大用户量怎么做同时推送10. MySQL 书籍推荐

排行榜

					
					golang - 用IDE看docker源码时的小问题
docker start -a dockername 老是卡住，什么情况？
node.js - win10如何安装并使用babel？
在windows下安装docker  Toolbox 启动Docker Quickstart Terminal 失败！
css - 关于父元素div滚动条不正确问题
linux - kali镜像下不能识别tf卡大小
mysql - 如何在ubuntu 安裝環境？
微信支付 - python做微信企业付款出现CA证书错误
angular.js - angularjs如何动态改变ng-model值，在controller中获取input中输入的值并组合post发送到后台
objective-c - 使用axios 通过vuex mutation修改数据   getter第一次获取失败 第二次成功
mysql - 一个sql的问题
				

热门标签