lex 命令中的扩展的正则表达式

本文深入解析正则表达式的基本概念、运算符、转义字符及其在编程中的实际应用，涵盖匹配规则、边界匹配、约束条件等内容，并提供常见实例以辅助理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在 lex 说明文件中指定扩展的正则表达式与在 sed 或者 ed 命令中所使用的方法相似。

扩展的正则表达式指定了要匹配的字符串的集合。表达式包含文本字符和运算符字符。文本字符与正在被比较的字符串中的相应字符匹配。运算符字符指定重复次数、选项和其他功能。

数字和字母表的字母被认为是文本字符。例如，扩展的正则表达式 integer 与字符串 integer 匹配，表达式 a57D 搜索字符串 a57D。

注意：/ 约束条件/，//之间的是约束条件，^是开始字符，$是结束字符，不起作用的情况下可以前面加^,并以+$是结束字符

1、。句点符号表示任意一个字符；

2、[ ] 方括号表示匹配可以匹配方括号中的任意点单个字符，方括号只允许匹配单个字符。

3、| “或”符号表示小括号的任意一组字符，它不能和方括号使用，只能和小括号使用。

4、表示匹配次数的符号，它们都是对前面的指定字符起作用

*：表示匹配0次或多次

？：表示匹配0次或一次

+：表示至少匹配一次

{n}：表示匹配n次

{n，m}：表示从n次到m次

5、“否”符号 “^”符号称为“否”符号。如果用在方括号内，“^”表示不想要匹配的字符。

6、边界匹配符

^ 一行的开始

$ 一行的结尾

\b 一个单词的边界

\B 一个非单词的边界

\G 前一个匹配的结束

7、转义字符

转义符号“\”转义后代表的含义如下：
s：匹配单个的空格符
S：用于匹配除单个空格符之外的所有字符。
d：用于匹配从0到9的数字，相当于“/[0-9]/”。
w：用于匹配字母，数字或下划线字符，相当于“/[a-zA-Z0-9_]/”。
W：用于匹配所有与w不匹配的字符，相当于“/[^a-zA-Z0-9_]/”。
D：用于匹配任何非10进制的数字字符。
.：用于匹配除换行符之外的所有字符，如果经过修饰符“s”的修饰，“.”可以代表任意字符。

常见实例：

1、非空匹配：/\S+/

2、表示字符串不含空格：^[\s]*$

3、如果想不包括空格及其它空白字符 ^[^\s]*＄

4、要插入一个反斜杠，那就得用"\\\\"，尤其在java代码中。关于unicode的编码可以查看电脑菜单中的

附件——系统工具——字符映射表,注意要判断字符串中是中括号“[”和“]”，在java代码中采用这样的方法：（加两个\\）String constraint = "^[\\u005b\\u005d]+$";

5、数字和字母的组合，不能只是数字或只是字母：/(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{2,})$/

6、字符串是否为连续的中文字符(不包含英文及其他任何符号和数字)：/^[\u4e00-\u9fa5]+$/

7、输入必须是双字节字符：/^[^\x00-\xff]+$/

8、不能输入中文/^[^\u4e00-\u9fa5]+$/ （中文字符不止 \u4E00-\u9FA5 这个区，还有 \uF900-\uFA2D 这个区）

9、字符串仅包含英文，不包含其它的：/^[a-zA-Z]+$/

10、字符串仅包含数字，不包含其它的：/^\d+$/

11、字符串仅包含数字、英文和下划线：/^\w+$/

12、字符串仅包含数字、英文和下划线且不能为空：/\w+/

13、字符串仅包含数字、英文和下划线和空格：/^[\w\s]+$/

14、小数点后只能两位，如果小数点后便没有数字的话，不能出现小数点：/^[0-9]+$|^[0-9]+\.[0-9]{1,2}$/

15、可包含大小写英文字母，数字，字符_,字符-：^[A-Za-z0-9_-]+$

16、字符串仅包含数字、英文且不能为空/^[0-9a-zA-Z_]*$/

17、输入只包含中文、数字和字母：/^[a-z\A-Z\d\u4E00-\u9FA5]+$/

18、字母和数字的组合，不能单独输入字母或数字：/(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{2,})$/

19、输入字母和数字的组合，6位到15位：/([a-zA-Z0-9]{6,15})?/

20、电话号码的验证：/([0-9]{3,4}[-][0-9]{6,8}([-][0-9]{3,6})?)?/

21、电子邮件的验证：/(\w+@(\w+\.)+\w{2,3})?/

22、 Ip地址的验证表达式：/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/

23、必须为正数，且数字第一个不能为0：/^([1-9][0-9]*)$/

24、日期判断正则表达式：

YYYY-MM-DD基本上把闰年和2月等的情况都考虑进去了
^((((1[6-9]|[2-9]\d)\d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]\d|3[01]))|(((1[6-9]|[2-9]\d)\d{2})-(0?[13456789]|1[012])-(0?[1-9]|[12]\d|30))|(((1[6-9]|[2-9]\d)\d{2})-0?2-(0?[1-9]|1\d|2[0-8]))|(((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00))-0?2-29-))$

下面的是加了时间验证的
^((((1[6-9]|[2-9]\d)\d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]\d|3[01]))|(((1[6-9]|[2-9]\d)\d{2})-(0?[13456789]|1[012])-(0?[1-9]|[12]\d|30))|(((1[6-9]|[2-9]\d)\d{2})-0?2-(0?[1-9]|1\d|2[0-8]))|(((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00))-0?2-29-)) (20|21|22|23|[0-1]?\d):[0-5]?\d:[0-5]?\d$

25、只能输入数字：“^[0-9]*$”

26、只能输入n位的数字：“^\d{n}$”

27、只能输入至少n位数字：“^\d{n,}$”

28、只能输入m-n位的数字：“^\d{m,n}$”

29、只能输入零和非零开头的数字：“^(0|[1-9][0-9]*)$”

30、只能输入有两位小数的正实数：“^[0-9]+(.[0-9]{2})?$”

31、只能输入有1-3位小数的正实数：“^[0-9]+(.[0-9]{1,3})?$”

32、只能输入非零的正整数：“^\+?[1-9][0-9]*$”

33、只能输入非零的负整数：“^\-[1-9][0-9]*$”

34、只能输入长度为3的字符：“^.{3}$”

35、只能输入由26个英文字母组成的字符串：“^[A-Za-z]+$”

36、只能输入由26个大写英文字母组成的字符串：“^[A-Z]+$”

37、只能输入由26个小写英文字母组成的字符串：“^[a-z]+$”

38、只能输入由数字和26个英文字母组成的字符串：“^[A-Za-z0-9]+$”

39、只能输入由数字、26个英文字母或者下划线组成的字符串：“^\w+$”

40、匹配特定数字：

^[1-9]d*$　　 //匹配正整数

^-[1-9]d*$ 　 //匹配负整数

^-?[1-9]d*$　　 //匹配整数

Pattern p = Pattern.compile("^(-?[1-9]\\d*)|0|[1-9]\\d*+$");

^[1-9]d*|0$　 //匹配非负整数（正整数 + 0）

^-[1-9]d*|0$　　 //匹配非正整数（负整数 + 0）

^[1-9]d*.d*|0.d*[1-9]d*$　　 //匹配正浮点数

^-([1-9]d*.d*|0.d*[1-9]d*)$　 //匹配负浮点数

^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$　 //匹配浮点数

^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）

^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$　　//匹配非正浮点数（负浮点数 + 0）

41、验证用户密码:“^[a-zA-Z]\w{5,17}$”正确格式为：以字母开头，长度在6-18之间，只能包含字符、数字和下划线。

42、验证是否含有^%&',;=?$\"等字符：“[^%&',;=?$\x22]+”

43、只能输入汉字：“^[\u4e00-\u9fa5],{0,}$”

44、验证Email地址：“^\w+[-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

45、验证Email地址：/.+@.+\.[a-z]+/

46、验证InternetURL：“^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$”

47、验证电话号码：“^($\d{3,4}$|\d{3,4}-)?\d{7,8}$” 正确格式为：“XXXX-XXXXXXX”，“XXXX-XXXXXXXX”，“XXX-XXXXXXX”， “XXX-XXXXXXXX”，“XXXXXXX”，“XXXXXXXX”。

48、匹配国内电话号码：d{3}-d{8}|d{4}-d{7}匹配形式如 0511-4405222 或 021-87888822

49、验证身份证号（15位或18位数字）：“^\d{15}|\d{}18$”

50、验证一年的12个月：“^(0?[1-9]|1[0-2])$” 正确格式为：“01”-“09”和“1”“12”

51、验证一个月的31天：“^((0?[1-9])|((1|2)[0-9])|30|31)$” 正确格式为：“01”“09”和“1”“31”。

52、匹配空行的正则表达式：/\n[\s| ]*\r/ 可以用来删除空白行

53、匹配HTML标记的正则表达式：/<(.*)>.*<\/\1>|<(.*) \/>/

54、匹配首尾空格的正则表达式：/(^\s*)|(\s*$)/

55、匹配腾讯QQ号：[1-9][0-9]{4,}腾讯QQ号从10000开始

56、匹配中国邮政编码：[1-9]d{5}(?!d) 中国邮政编码为6位数字

57、匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

58、验证录入的数据只能介于114-116之间，包括小数：/^(114|115|116)(\.\d+)?$/

运算符

下面的列表描述了如何使用运算符指定扩展的正则表达式：

Character

与字符 Character

匹配。示例：a 与文字字符 a 匹配；b 与文字字符 b 匹配，而 c 与文字字符 c 匹配。

"String"

匹配引号中扩起来的字符串，即使字符串包含运算符。

示例：要阻止 lex 命令将 $（美元符号）解释为运算符，请将该符号括在引号中。

\Character 或 \Digits

转义字符。当位于字符串中使用的字符类运算符之前时，\ 字符表明运算符符号代表文字字符，而不是运算符。有效转义序列包括：

提醒

退格

换页

换行符（不要在表达式中使用真正的换行符。）

跳格

纵向制表符

反斜杠

\Digits

其编码由 Digits 字符串指定的一位、两位或者三位八进制整数所表示的字符。

\xDigits

其编码由 Digits 字符串指定的十六进制字符序列所表示的字符。

当 \ 字符位于某字符前面，而该字符不在前面的转义序列列表中，那么 lex 命令按字面解释字符。

示例：\c 被解释为 c 字符不变，[\^abc] 表示包含字符 ^abc 的字符类。

注：千万不要在 lex 命令中使用 \0 或者 \x0。

[List]

基于 lex 命令被调用的语言环境，与被扩起来的范围 ([x-y]) 或者被扩起来的列表 ([xyz]) 中的任一字符匹配。所有运算符符号（除了下述例外）在括号表达式中失去它们的特殊含义：-（短划线）、^（插入标记）和\（反斜杠）。

示例：[abc-f] 与 en_US 语言环境中的 a、b、c、d、e 或 f 匹配。

[:Class:]

如当前语言环境中的 LC_TYPE 类别中所定义的，与属于 [::] 定界符之间所指定的字符类的任何字符匹配。下面的字符类名称被所有的语言环境所支持：

<code style="font-family: 'MS Courier New', Courier, monospace;"><span class="ph b" style="font-weight: bold;">alnum   cntrl  lower   space

alpha   digit   print  upper

blank  graph   punct   xdigit</span></code>

lex 命令还识别用户定义的字符类名。[::] 运算符仅在 [] 表达式中有效。

示例：在当前语言环境中，[[:alpha:]] 与 alpha 字符类中的任何都字符匹配，但是 [:alpha:] 仅与字符 :、a、l、p 和 h 匹配。

[.CollatingSymbol.]

作为单个字符与 [..] 定界符中指定的整理符号匹配。[..] 运算符仅在 [ ] 表达式中有效。对于当前语言环境，整理符号必须是有效整理符号。

示例：[[.ch.]] 与 c 和 h 都匹配，但是 [ch] 则与 c 或 h 匹配。

[=CollatingElement=]

与 [==] 定界符中指定的整理元素以及属于其等价类的所有整理元素匹配。[==] 运算符仅在 [] 表达式中有效。

示例：如果 w 和 v 属于同一个等价类，那么 [[=w=]] 与 [wv] 相同并且与 w 或者 v 匹配。如果 w 不属于等价类，那么 [[=w=]] 仅与 w 匹配。

[^Character]

与除了 ^（插入标记）后的字符之外的任何字符匹配。结果字符类仅由单字节字符组成。^ 符号后面的字符可以是多字节字符。但是，要此运算符与多字节字符匹配，您必须在定义部分将 %h 和 %m 设为大于零。

示例：[^c] 与 c 之外的任何字符匹配。

CollatingElement-CollatingElement

在字符类中，指示为当前语言环境定义的整理顺序中的字符范围。范围必须为升序。结束范围点必须核对与起始范围点相等或者更高。因为范围基于当前语言环境的整理顺序，所给的范围可能与不同的字符匹配，这取决于调用 lex 命令的语言环境。

Expression?

与 ? 运算符前紧挨着的表达式的零个或一个具体值匹配。

示例：ab?c 与 ac 或 abc 匹配。

句点字符 (.)

与换行符以外的任何字符匹配。为了使句点字符 (.) 与多字节字符匹配，必须在 lex 说明文件的定义部分中将 %z 设为大于 0。如果未设置 %z，那么句点字符 (.) 仅与单字节字符匹配。

Expression*

与 * 运算符之前紧挨着的表达式的零个或更多具体值匹配。例如，a* 为任意数目（包括零个）连续的 a 字符。在复杂表达式中与零个具体值匹配的作用更明显。

示例：表达式 [A-Za-z][A-Za-z0-9]* 指示以字母字符开头的所有字母数字字符串，包括仅为一个字母字符的字符串。您能使用该表达式识别使用计算机语言的标识。

Expression+

与 + 运算符之前紧挨着的模式的一个或更多具体值匹配。

示例：a+ 与一个或者更多 a 的实例匹配。同样，[a-z]+ 与所有小写字母字符串匹配。

Expression|Expression

指示与 |（管道）运算符之前或之后的表达式匹配。

示例：ab|cd 与 ab 或者 cd 匹配。

(Expression)

与圆括号中的表达式匹配。()（圆括号）运算符用于分组，并使圆括号中的表达式被读入 yytext 数组。圆括号中的组可用于代替任何其他模式的任何单个字符。

示例：(ab|cd+)?(ef)* 与诸如以下的字符串匹配：abefef、efefef、cdef 或者 cddd；但是与 abc、abcd 或者 abcdef 不匹配。

^Expression

仅当 Expression 在行起始处且 ^（插入标记）运算符是表达式中的第一个字符时指示匹配。

示例：^h 与行首的 h 匹配。

Expression$

仅当 Expression 在行末尾且 $（美元符号）运算符是表达式的最后一个字符时指示匹配。

示例：h$ 与行尾的 h 匹配。

Expression1/Expression2

仅当 Expression2 紧跟在 Expression1 之后时指示匹配。/（斜杠）运算符仅将第一个表达式读入 yytext 数组。

示例：ab/cd 与字符串 ab 匹配，但后面必须跟有 cd，然后才会将 ab 读到 yytext 数组。

注：在单个扩展的正则表达式中仅能使用一个 / 尾部上下文运算符。^（插入标记）和 $（美元符号）运算符不可与 / 运算符用于同一个表达式，因为它们指示尾部上下文的特殊情况。

{DefinedName}

与您在定义部分定义的名称匹配。

示例：如果您定义 D 为数字，那么 {D} 匹配所有的数字。

{Number1,Number2}

与它前面紧挨着的模式的 Nubmer1 到 Number2 的具体值匹配。允许使用表达式 {Number} 和 {Number,}，它们精确匹配表达式前的模式的 Number 的具体值。

示例：xyz{2,4} 与 xyzxyz、xyzxyzxyz 或 xyzxyzxyzxyz 匹配。这有别于 +、* 和 ? 运算符，因为这些运算符仅与紧挨着前面的字符匹配。要仅与时间间隔表达式前的字符匹配，请使用分组运算符。例如，xy(z{2,4}) 与 xyzz、xyzzz 或者 xyzzzz 匹配。

<StartCondition>

只有在词法分析器位于指示的启动条件中时，才执行关联的操作。

示例：如果行首是启动条件 ONE，那么 ^（插入标记）运算符等于表达式 <ONE>。

要将运算符字符作为文本字符使用，请使用下述之一的转义序列：" "（双引号）或者 \（反斜杠）。" " 运算符表示其中包含的即为文本。那么，下面的示例与字符串 xyz++ 匹配：

<code style="font-family: 'MS Courier New', Courier, monospace;">xyz"++"</code>

可以给字符串的一部分加引号。给普通的文本字符加引号不起作用。例如，下面的表达式与前面的示例相等：

<code style="font-family: 'MS Courier New', Courier, monospace;">"xyz++"</code>

要确保文本被解释为文本，请给不是字母或者数字的所有字符加引号。

将运算符字符转换为文本字符的另一种方法是在运算符字符前面加上 \（反斜杠）字符。例如，下面的表达式等价于上述示例：

<code style="font-family: 'MS Courier New', Courier, monospace;">xyz\+\+</code>