正则工具类-匹配格式相同的多个组

本文介绍了一种使用正则表达式从文本中提取特定模式信息的方法,并通过几个实例展示了如何利用该方法来抓取不同格式的数据。文章首先定义了一个名为`patternParseGroup`的工具方法,用于解析目标字符串并返回所有匹配的子串集合。随后,通过三个具体的例子演示了该方法的应用场景,包括提取超链接、匹配花括号内的内容及图片源地址。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

工具方法:


       /**
	 * 解析target,并返回pattern匹配到的结果集合,不包括整个字符都匹配的情况
	 * @param target
	 * @param pattern
	 * @return
	 */
	public static List<String> patternParseGroup(String target, String pattern) {
		List<String> result = new ArrayList<String>();
		
		// 如果不添加Pattern.DOTALL,那么匹配到字符串中的换行(\n)时,匹配会提前结束。导致后面字符的匹配不到
		Pattern p = Pattern.compile(pattern, Pattern.DOTALL);
		Matcher m = p.matcher(target);
		while (m.find()) {
			int count = m.groupCount();
			for (int i = 0; i < count; i++) {
				// 忽略整个字符匹配的情况,所以跳过了m.group(0)
				result.add(m.group(i + 1));
			}
		}
		return result;
	}

测试方法:

        public static void main(String[] args) {
		System.out.println(patternParseGroup("<a href=\"http://www.99.com.cn/pifu/\" target=\"_blank\">皮肤科</a>", "href=\"(.*)\">(.*)<"));
		// 这里的‘?’,是勉强模式,也叫最小匹配。即找到最小的结果就停止。这种方法可以匹配到格式相同的多个组
		// 而没有‘?’的,是贪婪模式,也叫最大匹配。即找到最大的结果才停止。
		System.out.println(patternParseGroup(" {A0111} 和 {A0117}  ", "\\{(.*?)\\}"));
		
		String img = "<img src=\"000\" ><img data-src=\"111\" width=\"\" src=\"222\"> xxx <img src=\"000\" > xxx <img data-src=\"333\" width=\"\" src=\"44+44\">";
    	System.out.println(patternParseGroup(img, "<img.*?data-src=\"(.*?)\".*?src=\"(.*?)\">"));
	}

输出:

[http://www.99.com.cn/pifu/" target="_blank, 皮肤科]
[A0111, A0117]
[111, 222, 333, 444]



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值