正则表达式(Regular expressions)本质上是一个微小的且高度专业化的编程语言,它被嵌入到高级语言中供程序员使用。正则表达式通过指定一些规则来描述那些你希望匹配的字符串集合,比如Email地址,IP地址。正则表达式的强大之处在于一些特殊符号的应用,特殊符号定义了字符集合、子组匹配、模式重复次数。
正则可看做一门DSL语言,用于解决很多场景下的字符串匹配、筛选问题。
基本概念
可视化网站:https://www.debuggex.com/
不局限于某一种语言,但是在每种语言中有细微的差别。本文只讲Java。
模式修正符
模式修正符,实际上就是特殊的字母,可以一次使用一个,也可以连续使用多个。模式修正符是对整个正则表达式调优使用,是对正则表达式功能的扩展。正则表达式的公式:'/原子和元字符/模式修正符'
,其中正斜线为边界符。
模式修正符 | 说明 |
---|---|
i | 表示在和模式进行匹配进不区分大小写 |
m | 将模式视为多行,使用^和$表示任何一行都可以以正则表达式开始或结束 |
s | 如果没有使用这个模式修正符号,元字符中的”.”默认不能表示换行符号,将字符串视为单行 |
x | 表示模式中的空白忽略不计 |
e | 正则表达式必须使用在preg_replace替换字符串的函数中时才可以使用 |
A | 以模式字符串开头,相当于元字符^ |
Z | 以模式字符串结尾,相当于元字符$ |
U | 正则表达式默认是贪婪匹配模式,使用该模式修正符可以取消贪婪模式 |
Java API
java.util.regex 包下,主要包括以下三个类:Pattern、Matcher、PatternSyntaxException。
Pattern类
Pattern对象是一个正则表达式的编译表示,没有公共构造方法。要创建一个Pattern对象,你必须首先调用其公共静态编译方法,它返回一个Pattern对象。该方法接受一个正则表达式作为它的第一个参数。
Matcher类
Matcher对象是对输入字符串进行解释和匹配操作的引擎,也没有公共构造方法。调用Pattern对象的matcher方法来获得一个Matcher对象。
PatternSyntaxException
非强制异常类,它表示一个正则表达式模式中的语法错误。
StackOverflowError
2、问题分析
正则表达式引擎分成两类,一类称为DFA(确定性有穷自动机),另一类称为NFA(非确定性有穷自动机)。两类引擎要顺利工作,都必须有一个正则式和一个文本串。DFA捏着文本串去比较正则式,看到一个子正则式,就把可能的匹配串全标注出来,然后再看正则式的下一个部分,根据新的匹配结果更新标注。NFA是捏着正则式去比文本,吃掉一个字符,就把它跟正则式比较,匹配就记下来,然后接着往下干。一旦不匹配,就把刚吃的这个字符吐出来,一个个的吐,直到回到上一次匹配的地方。
DFA与NFA机制上的不同带来5个影响:
- DFA 对于文本串里的每一个字符只需扫描一次,比较快,但特性较少;NFA要翻来覆去吃字符、吐字符,速度慢,但是特性丰富,所以反而应用广泛,当今主要的正则表达式引擎,如Perl、Ruby、Python的re模块、Java和.NET的regex库,都是NFA的。
- 只有NFA才支持lazy和backreference等特性;
- NFA急于邀功请赏,所以最左子正则式优先匹配成功,因此偶尔会错过最佳匹配结果;DFA则是“最长的左子正则式优先匹配成功”。
- NFA缺省采用greedy量词;
- NFA可能会陷入递归调用的陷阱而表现得性能极差。
在使用正则表达式的时候,底层是通过递归方式调用执行的,每一层的递归都会在栈线程的大小中占一定内存,如果递归的层次很多,就会报出stackOverFlowError异常。所以在使用正则的时候其实是有利有弊的。
Java程序中,每个线程都有自己的Stack Space。这个Stack Space不是来自Heap的分配。所以Stack Space的大小不会受到-Xmx和-Xms的影响,这2个JVM参数仅仅是影响Heap的大小。Stack Space用来做方法的递归调用时压入Stack Frame。所以当递归调用太深的时候,就有可能耗尽Stack Space,爆出StackOverflow的错误。Stack Space的大小随着OS,JVM以及环境变量的大小而发生变化。一般说来默认的大小是512K。在64位的系统中,这个Stack Space值会更大。一般说来,Stack Space为128K是够用的。这时你说需要做的就是观察。如果你的程序没有爆出StackOverflow的错误,可以使用-Xss来调整Stack Space的大小为128K。(eg:-Xss128K)
文章开头的问题可以简单理解为方法的嵌套调用层次太深,上层的方法栈一直得不到释放,导致栈空间不足。
下面我们要做的就是了解一些正则性能的优化点,规避这种深层次的递归调用。
3、Java 正则的一些优化点
3.1 Pattern.compile() 预编译表达式
如果在程序中多次使用同一个正则表达式,一定要用Pattern.compile()编译,代替直接使用Pattern.matches()。如果一次次对同一个正则表达式使用Pattern.matches(),例如在循环中,没有编译的正则表达式消耗比较大。因为matches()方法每次都会预编译使用的表达式。另外,记住你可以通过调用reset()方法对不同的输入字符串重复使用Matcher对象。
3.2 留意选择(Beware of alternation)
类似“(X|Y|Z)”的正则表达式有降低速度的坏名声,所以要多留心。首先,考虑选择的顺序,那么要将比较常用的选择项放在前面,因此它们可以较快被匹配。另外,尝试提取共用模式;例如将“(abcd|abef)”替换为“ab(cd|ef)”。后者匹配速度较快,因为NFA会尝试匹配ab,如果没有找到就不再尝试任何选择项。(在当前情况下,只有两个选择项。如果有很多选择项,速度将会有显著的提升。)选择的确会降低程序的速度。在我的测试中,表达式“.(abcd|efgh|ijkl).”要比调用String.indexOf()三次——每次针对表达式中的一个选项——慢三倍。
3.3 减少分组与嵌套
如果你实际并不需要获取一个分组内的文本,那么就使用非捕获分组。例如使用“(?:X)”代替“(X)”。
总结下来就是:减少分支选择、减少捕获嵌套、减少贪婪匹配
4、解决方案
4.1 临时工方案
try…catch…/增加-Xss,治标不治本,不推荐。
4.2 优化正则才是王道
4.2.1 语法层面优化
根据 3.2 提到的,这样优化下:final String TEST_REGEX = “([=+\s\p{P}A-Za-z0-9\u4E00-\u9FA5])+”;
经测试,JVM 参数不变的情况下,for 循环 100w 次直到 OOM 都不会再发生文章开头的栈溢出的问题。
4.2.2 业务逻辑层面优化
由于我不清楚作者的业务场景,不好做业务优化,总的原则是当你的正则太复杂时,可以考虑逻辑拆分,或者部分不走正则,如果把正则当做万能工具可能会得不偿失。
总结:在字符串查找与匹配领域,正则可以说几乎是“万能”的,但是许多场景下,它的代价不容小觑,如何写出高效率、可维护的正则或者怎么能避开正则都是值得咱们思考的问题。
NFA引擎正则性能优化Tips
- 优先选择最左端的匹配结果
- 标准量词优先匹配
比如’.[0-9][0-9]‘ 来匹配字符串”abcd12efghijklmnopqrstuvw”,这时候的匹配方式是‘.’先匹配了整行,但是不能满足之后的两个数字的匹配,所以‘.*’就退还一个字符‘w’,还是无法匹配,继续退还一个‘v’,循环退还字符到‘2’发现匹配了一个,但是还是无法匹配两个数字,所以继续退还‘1’ - 谨慎使用捕获性括号(),选择使用非捕获性括号(?:expression)
捕获性括号需要消耗一部分内存 - 使用字符组代替分支(替换)条件
例如用[a-d] 代替 a|b|c|d避免不必要的回溯 - 不要滥用字符组(单个字符时不要用字符组)
\.
代替[.]
- 使用锚点
^ $ \b
加速定位 - 从两次中提取必须元素
a{2,4}
写成aa{0,2}
- 提取多选结构开头的相同字符
the|this 改成th(?:e|is)
- 选择字符串中最常出现的字符串放到分支最前面
- 能懒则懒,不要贪婪
在 * + {m,n}后面加上问好?就会变成非贪婪模式
总结:引用CFC4N大牛的一句话 滥用. 点号 * 星号 +加号 ()括号 是不环保,不负责任的做法 ! - 简单字符串处理应避免使用正则表达式
在线工具
http://tool.chinaz.com/regex
实例
校验数字
- 数字:
^[0-9]*$
- n位的数字:
^\d{n}$
- 至少n位的数字:
^\d{n,}$
- m-n位的数字:
^\d{m,n}$
- 零和非零开头的数字:
^(0|[1-9][0-9]*)$
- 非零开头的最多带两位小数的数字:
^([1-9][0-9]*)+(.[0-9]{1,2})?$
- 带1-2位小数的正数或负数:
^(-)?\d+(.\d{1,2})?$
- 正数、负数、和小数:
^(-|+)?\d+(.\d+)?$
- 有两位小数的正实数:
^[0-9]+(.[0-9]{2})?$
- 有1~3位小数的正实数:
^[0-9]+(.[0-9]{1,3})?$
- 非零的正整数:
^[1-9]\d$ 或 ^([1-9][0-9]){1,3}$ 或 ^+?[1-9][0-9]*$
- 非零的负整数:
^-[1-9][]0-9"$ 或 ^-[1-9]\d$
- 非负整数:
^\d+$ 或 ^[1-9]\d*|0$
- 非正整数:
^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
- 非负浮点数:
^\d+(.\d+)?$ 或 ^[1-9]\d.\d|0.\d[1-9]\d|0?.0+|0$
- 非正浮点数:
^((-\d+(.\d+)?)|(0+(.0+)?))$
或^(-([1-9]\d.\d|0.\d[1-9]\d))|0?.0+|0$
- 正浮点数:
^[1-9]\d.\d|0.\d[1-9]\d$
或^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))$
- 负浮点数:
^-([1-9]\d.\d|0.\d[1-9]\d)$
或^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))$
- 浮点数:
^(-?\d+)(.\d+)?$
或^-?([1-9]\d.\d|0.\d[1-9]\d|0?.0+|0)$
校验字符
- 汉字:
^[\u4e00-\u9fa5]{0,}$
- 英文和数字:
^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
- 长度为3-20的所有字符:
^.{3,20}$
- 由26个英文字母组成的字符串:
^[A-Za-z]+$
- 由数字、26个英文字母或者下划线组成的字符串:
^\w+$ 或 ^\w{3,20}$
- 中文、英文、数字包括下划线:
^[\u4E00-\u9FA5A-Za-z0-9_]+$
- 可以输入含有
^%&',;=?$\"
等字符:[^%&',;=?$\x22]+
- 禁止输入含有~的字符:
[^~\x22]+
特殊需求表达式
- Email地址:
^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 Internet URL:[a-zA-z]+://[^\s] 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=])?$
4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5 电话号码(区号有三位和四位两种,中间是连字符-,后面跟着七位或者8位;还有两种没有区号):^((\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 国内电话号码(只考虑两种形式4-7&3-8):\d{3}-\d{8}|\d{4}-\d{7}
7 身份证号(15位、18位数字):^\d{15}|\d{18}$
8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$
或^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12个月(01~09和10~12):^(0?[1-9]|1[0-2])$
14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15 钱的输入格式:
16 1.有四种钱的表示形式我们可以接受:“10000.00” 和 “10,000.00”, 和没有 “分” 的 “10000” 和 “10,000”:1[0-9]$
17 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符”0″不通过,所以我们采用下面的形式:^(0|[1-9][0-9])$
18 3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9])$
19 4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:2+(.[0-9]+)?$
20 5. 小数点后面至少应该有1位数,所以”10.”是不通过的,但是 “10” 和 “10.2” 是通过的:^[0-9]+(.[0-9]{2})?$
21 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$
22 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
23 8.1到3个数字,后面跟着任意个逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
24 “+“可以用”“替代如果你觉得空字符串也可以接受的话;最后别忘了在用函数时去掉去掉那个反斜杠。 - xml文件:
^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$
27 双字节字符:[^\x00-\xff]
(包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
29 HTML标记:<(\S?)[^>]>.?</\1>|<.? />
(这个仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力)
30 行首尾空白字符:^\s|\s$或(^\s)|(\s$)
(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等)
31 腾讯QQ号:[1-9][0-9]{4,}
(腾讯QQ号从10000开始)
-
中国邮政编码(6位数字):
[1-9]\d{5}(?!\d)
-
IP地址:
\d+.\d+.\d+.\d+
-
IP地址:
((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
-
校验基本日期格式:
/^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/;
-
校验密码强度
密码的强度必须是包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。
^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
-
由数字、26个英文字母或下划线组成的字符串
^\\w+$
-
校验身份证号码
15位:
^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$
18位:
^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$
-
校验日期
“yyyy-mm-dd“ 格式的日期校验,已考虑平闰年。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
-
校验金额,精确到2位小数:
^[0-9]+(.[0-9]{2})?$
-
校验手机号(国内 13、14、15、18开头的手机号):
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
-
判断IE的版本,用于浏览器版本兼容:
^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$
-
校验IPv4地址:
\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b
-
校验IP-v6地址:
(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
-
检查URL的前缀
区分HTTPS和HTTP,通过下面的表达式可以取出一个url的前缀然后再逻辑判断。
if (!s.match(/^[a-zA-Z]+:\\/\\//)) {
s = 'http://' + s;
}
- 提取URL链接:
^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
- 文件路径及扩展名校验:
^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"<>|]+\\.txt(l)?$
- 提取网页中的颜色代码Color Hex Codes:
\\#([a-fA-F]|[0-9]){3,6}
- 提取网页图片:
\\< *[img][^\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
- 提取html页面超链接
(<a\\s*(?!.*\\brel=)[^>]*)(href="https?://)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)></a\\s*(?!.*\\brel=)[^>
- 精炼CSS,搜索相同属性值的CSS
^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
- 抽取HMTL注释:
<!--(.*?)-->
- 匹配HTML标签:
\\s]+))?)+\\s*|\\s*)/?>
- 手机号校验:
^(0|86|17951)?(13[0-9]|15[012356789]|17[0-9]|18[0-9]|14[57])[0-9]{8}$
- 手机正则匹配:
^0?1[34578]\d{9}$
其他小技巧
Eclipse批量删除代码中的注释
ctrl+f 在 find栏输入/\*{1,2}[\s\S]*?\*/
正则表达式
勾选 regular项,点 replace all;Eclipse可以查找项目,查找工作集,查找工作空间,还可以按选中查找。
参考
模式修正符使用介绍
20个正则表达式
65条最常用正则表达式
Java 正则表达式 StackOverflowError 问题及其优化
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/142194.html