正则表达式的使用与匹配原理解析
参考内容:
《编译原理》
这两天一直在时不时的和 Neo4j 图数据库打交道。它的查询语句可以使用正则表达式,有一段时间没有自己写过正则表达式了,现在处于能看懂别人写的正则表达式,但是自己写不出来,语法规则都忘了。为了方便接下来的工作,所以特地复习复习正则表达式的语法。因为在业务问题中遇到了正则表达式性能问题,索性查了点资料回顾了下正则表达式的原理,文章先讲正则表达式的使用再讲正则表达式的原理。
正则表达式简介
正则表达式是用来匹配字符串的一系列匹配符,具备简介高效的特点,在很多语言中都有支持(java、python、javascript、php 等等)。在 windows 的 cmd 命令中也同样支持,例如使用命令dir j*
,那么只会罗列出所有以 j 开头的文件和文件夹。
正则表达式基本语法
正则表达式在在不同语言的支持语法略有不同,本文采用 JS 的进行说明。JS 中使用正则表达式的方法为str.match(/表达式/)
,即需要加两个斜杠。以下所有的代码段第一行为代码,第二行为返回结果,实验是在 chrome 控制台进行的。
一直认为最好的学习方式就是实际操作,理论谁都能讲一大堆,但是实际做没做出来还真不知道。一个奇葩现象就是教软件工程的老师可能并没有在软件行业待过。
普通匹配符
普通匹配符能匹配与之对应的字符,默认区分大小写。
正则标记符
i :不区分大小写
g :全局匹配
m :多行匹配(暂不管它,我用的少)
参数直接加在最后一个斜杠的后面,比如"Hello Regx".match(/regx/i)
,可以加多个参数。
之前是表达式一旦匹配成功,就不再向字符串后面查找了,加上 g 后,表示进行全局查找。最后返回的是一个数组。
多匹配符
\d :匹配数字,即 0~9
\w :匹配数字、字母、下划线
. :匹配除换行的所有字符
需要注意的是,上面所有的匹配符都只能匹配一个字符。
自定义匹配符
比如中国的手机号都是以 1 开头,第二位只能是 3、4、5、7、8,第 3 位只要是数字就行。如何匹配这样的字符串?
[] :匹配[]中的任意一个字符
如果在 [] 添加了 ^,代表取反。即 [\^] 表示除了中括号中的字符都满足。
修饰匹配次数
我们的手机号有 11 位,除了前 2 位有要求,其他 9 位度没有要求,那么是不是正则表达式就应该这样写呢?
很明显,这样写太麻烦,肯定有更好的方式,这里就可以修饰一下匹配次数啦。
? :最多出现 1 次
\+ :至少出现 1 次
\* :出现任意次数
{} :分下面四种情况
* {n}代表前面的匹配符出现 n 次
* {n, m}出现次数在 n~m 之间
* {n, }至少出现 n 次
* {, m}最多出现 m 次
例子很简单,一看就懂,不浪费时间。
完整匹配
按照上面的写***出现下面的问题。
^ :在 [] 中代表取反,但在外面代表从开始匹配
$ :代表持续匹配到结束
特殊符号
到这里发现正则表达式确实很强大,仅仅几个简单的符号就能匹配字符串,但是如果我们要匹配的字符本身就是前面用到的符号怎么办呢?
匹配像 $、^等特殊符号时,需要加转义字符\
条件分支
比如现在想匹配图片的文件名,包括 jpg、png、jpeg、gif 等等,这是多个选项,所以需要像编程语言一样,应该具备条件分支结构。
| :条件分支
() :有两层含义
* 括号中的内容成为一个独立的整体
* 括号的内容可以进行分组,单独匹配,若不需要此功能,则( ?: )
贪婪与懒惰
因为在正则表达式中,默认是贪婪模式,尽可能多的匹配,可以在修饰数量的匹配符后面添加 ?,则代表懒惰。
到这里应该都能明白如何使用正则表达式了,大部分场景应该都能解决,遇到自己解决不了的问题那就直接查资料吧,这里推荐一个学习正则表达式的网站Learn-regex,更为详细的内容推荐看由[老姚](https://www.zhihu.com/people/qdlaoyao/activities)写的[JavaScript 正则表达式迷你书](https://raw.githubusercontent.com/qdlaoyao/js-regex-mini-book/master/JavaScript正则表达式迷你书(1.1 版).pdf)。下面继续讲一下正则表达式的原理,顺便想试试 Apple Pencil 的手感如何,图画的太丑不要嫌弃哈。
有穷自动机
正则表达式的规则不是很多,这些规则也很容易就能理解,但是正则表达式并不能用来直接识别字符串,我们还需要引入一种适合转换为计算机程序的模型,我们引入的就是有穷自动机。
在编译原理中通过构造有穷自动机把正则表达式编译成识别器,识别器以字符串x
作为输入,当x
是语言的句子时回答是
,否则回答不是
,这正是我们使用正则表达式时需要达到的效果。
有穷自动机分为确定性有穷自动机(DFA)和*非确定性有穷自动机(NFA)*,它们都能且仅能识别正则表达式所表示的语言。它们有着各自的优缺点,DFA 导出的识别器时间复杂度是多项式的,它比 NFA 导出的识别器要快的多,但是 DFA 导出的识别器要比与之对应的 NFA 导出的识别器大的多。
大部分正则表达式引擎都是使用 NFA 实现的,也有少部分使用 DFA 实现。从我们写正则表达式的角度来讲,DFA 实现的引擎要比 NFA 实现的引擎快的多,但是 DFA 支持的功能没有 NFA 那么强大,比如没有捕获组一类的特性等等。
我们可以用带标记的有向图来表示有穷自动机,称之为转换图,其节点是状态,有标记的边表示转换函数。同一个字符可以标记始于同一个状态的两个或多个转换,边可以由输入字符符号标记,其中 NFA 的边还可以用``ε
``标记。
之所以一个叫有确定和非确定之分,是因为对于同一个状态与同一个输入符号,NFA 可以到达不同的状态。下面看两张图就能明白上面那一长串的文字了。
图中两个圈圈的状态表示接受状态,也就是说到达这个状态就表示匹配成功。细心的你应该发现了两张图所表示的正则表达式是一样的,这就是有穷自动机神奇的地方,每一个 NFA 我们都能通过算法将其转换为 DFA,所以我们先根据正则表达式构建 NFA,然后再转换成相应的 DFA,最后再进行识别。
上图的画法在正则表达式很简单的时候还可以,如果遇到很复杂的正则表达式画起来还是挺费力的,如果想对自动机有更加深入的认识可以自行查阅相关资料。下面的图片是使用正则可视化工具生成的,对应的正则表达式是^-?\d+(,\d{3})*(\.\d{1,2})?$
,它所匹配的字符串是数字/货币金额(支持负数、千分位分隔符)
。
回溯
NFA 引擎在遇到多个合法的状态时,它会选择其中一个并记住它,当匹配失败时引擎就会回溯到之前记录的位置继续尝试匹配。这种回溯机制正是造成正则表达式性能问题的主要原因。下面我们通过具体的例子来看看什么是回溯。
正则 | 文本
-- | --
ab{1,3}c | abbbc
a
b{1,3}c | a
bbbc
ab{1,3}
c | ab
bbc
ab{1,3}
c | abb
bc
ab{1,3}
c | abbb
c
ab{1,3}c
| abbbc
上表中展示的是使用ab{1,3}c
匹配abbbc
的过程,如果把匹配字符串换成abbc
,在第五步就会出现匹配失败的情况,第六步会回到上一次匹配正确的位置,进而继续匹配。这里的第六步就是「回溯」
正则 | 文本 | 备注
-- | -- | --
ab{1,3}c | abbc
a
b{1,3}c | a
bbc
ab{1,3}
c | ab
bc
ab{1,3}
c | abb
c
ab{1,3}
c | abb
c | 匹配失败
ab{1,3}c
| abb
c | 回溯
ab{1,3}c
| abbc
会出现上面这种情况的原因在于正则匹配采用了回溯法。回溯法采用试错的思想,它尝试分步的去解决一个问题。在分步解决问题的过程中,当它通过尝试发现现有的分步答案不能得到有效的正确的解答的时候,它将取消上一步甚至是上几步的计算,再通过其它的可能的分步解答再次尝试寻找问题的答案。它通常采用最简单的递归来实现,在反复重复上述的步骤后可能找到一个正确的答案,也可能尝试所有的步骤后发现该问题没有答案,回溯法在最坏的情况下会导致一次复杂度为指数时间的计算。
上面一段的内容来源于维基百科,精简一下就是深度优先搜索算法。贪婪量词、惰性量词、分支结构等等都是可能产生回溯的地方,在写正则表达式时要注意会引起回溯的地方,避免导致性能问题。
John Graham-Cumming 在他的博文 [Details of the Cloudflare outage on July 2, 2019](https://blog.cloudflare.com/details-of-the-cloudflare-outage-on-july-2-2019/) 中详细记录了因为一个正则表达式而导致线上事故的例子。该事故就是因为一个有性能问题的正则表达式,引起了灾难性的回溯,进而导致了 CPU 满载。
上面是引起事故的正则表达式,出问题的关键部分在.*(?:.*=.*)
中,就是它引起的灾难性回溯导致 CPU 满载。那么我们应该怎么减少或避免回溯呢?无非是提高警惕性,好好写正则表达式;或者使用 DFA 引擎的正则表达式。
[0-9] 与 \d 的区别
此问题来源于Stackoverflow,题主遇到的问题是\d
比[0-9]
的效率要低很多,并且给出了如下的测试结果,可以看到\d
比[0-9]
慢了差不多一倍。
出现这个性能问题的原因在于\d
匹配的不仅仅是0123456789
,\d
匹配的是所有的 Unicode 的数字,你可以从 Unicode Characters in the 'Number, Decimal Digit' Category 中看到所有在 Unicode 中属于数字的字符。
此处多提一嘴,[ -~]
可以匹配 ASCII 码中所有的可打印字符,你可以查看 ASCII 码中的可显示字符,就是从" "
(32)至"~"
(126)的字符。
工具/资源推荐
正则表达式确实很强大,但是它那晦涩的语法也容易让人头疼抓狂,不论是自己还是别人写的正则表达式都挺头大,好的是已经有人整理了常用正则大全,也大神写了个叫做 [VerbalExpressions](http://verbalexpressions.github.io/) 的小工具,主流开发语言的版本它都提供了,可以让你用类似于自然语言的方式来写正则表达式,下面是它给出的一个 JS 版示例。
版权声明: 本文为 InfoQ 作者【Guanngxu】的原创文章。
原文链接:【http://xie.infoq.cn/article/c32d76af810ae69c7a5e8551a】。文章转载请联系作者。
评论