使用 [[ string =~ regex ]] 在 shell 中进行字符串匹配

最编程 2024-07-12 20:39:51

...

Shell 中的 [[ string =~ regex ]] 结构可以用来测试一个字符串是否符合某个正则表达式的模式。这种语法结构在 Shell 脚本中经常被用来进行字符串的匹配和替换操作，尤其是在处理文本数据时非常方便实用。

下面将详细介绍如何使用 [[ string =~ regex ]] 结构在 Shell 中完成正则表达式匹配操作。

基础语法

[[ string =~ regex ]] 这个语法结构包含了两个部分，其中 string 是要测试的字符串，regex 则是正则表达式。当 string 包含了 regex 表示的模式时，这个表达式会返回成功，否则返回失败。举个例子：

if [[ "hello" =~ ^he.*$ ]]; then
  echo "Matched!"
else
  echo "Not Matched!"
fi

在这个例子中，程序会输出 "Matched!"，因为字符串 "hello" 符合正则表达式 he.* 的模式。^ 表示字符串的开始，$ 表示字符串的结束，.*表示任意个任意字符。

正则表达式语法

正则表达式是一门非常强大的语言，它可以描述特定模式的文本字符串。了解正则表达式的基本语法是进行字符串匹配的前提条件。下面列举一些常用的正则表达式元字符及其含义：

.: 匹配任意单个字符。
*: 匹配 0 个或多个前面的字符。
+: 匹配 1 个或多个前面的字符。
?: 匹配 0 个或 1 个前面的字符。
{n}: 匹配前面的字符刚好 n 次。
{n,m}: 匹配前面的字符至少 n 次，但不超过 m 次。
[]: 匹配字符集中任意一个字符。
[^]: 匹配除了字符集中的任意一个字符以外的字符。
|: 匹配左右两边任意一个表达式。

这里只列举了常用的几个元字符，更多的语法可以参考其他教程或者文档。需要注意的是，在正则表达式中，有些字符必须进行转义才能匹配，比如 \. 表示匹配一个点号。

实例

接下来通过一些实例来进一步说明 [[ string =~ regex ]] 结构的使用方法。

匹配手机号码

下面的脚本演示了如何利用正则表达式匹配手机号码：

#!/bin/bash

# 判断输入的字符串是否为手机号码
read -p "请输入手机号码：" phone

if [[ "$phone" =~ ^1[3456789][0-9]{9}$ ]]; then
  echo "输入的手机号码 $phone 是合法的"
else
  echo "输入的手机号码 $phone 不合法"
fi

在上面的脚本中，用到了正则表达式 ^1[3456789][0-9]{9}$ 来匹配手机号码。其中，^ 表示字符串的开始，$ 表示字符串的结束，[3456789] 表示 3、4、5、6、7、8、9 中的任意一个数字，[0-9]{9} 表示后面要有 9 个数字。如果输入的字符串符合这个模式，那么就说明这是一个合法的手机号码。

去掉文本中的注释

下面的脚本演示了如何利用正则表达式去掉文本文件中的注释：

#!/bin/bash

# 去掉文件中的注释
while read line; do
  # 利用正则表达式去掉行首是空白字符的行内的所有空白字符，去掉从 # 开始的内容(即注释内容)。
  echo "$line" | sed -e 's/^[[:space:]]*//g' -e 's/[[:space:]]*#.*$//g'
done < file.txt

在上面的脚本中，利用 sed 工具来替换文本中的注释。其中，^[[:space:]]* 匹配行首的空白字符（包括空格、制表符等），[[:space:]]*#.*$ 则匹配从 # 开始到行尾的任意字符。将这两个正则表达式进行替换即可去掉注释部分。具体解释如下：

s：表示替换操作。
/g：表示全局替换。如果没有该选项，则只会替换每行第一个匹配项。
[[:space:]]*：表示匹配0个或多个空白字符（包括空格、制表符等）。
#.*：表示匹配#开头的注释，.*表示匹配0个或多个任意字符。
$：表示匹配行末。
//：表示将匹配到的内容替换为空，即删除。

lisi@test:~$ echo -e "#1\n2 #22\n3#333\n4####"
#1
2 #22
3#333
4####
lisi@test:~$ echo -e "#1\n2 #22\n3#333\n4####\n"
#1
2 #22
3#333
4####

lisi@test:~$ echo -e "#1\n2 #22\n3#333\n4####\n" | sed 's/[[:space:]]*#.*$//g'

2
3
4

lisi@test:~$ echo -e "#1\n2 #22\n3#333\n4####\n" | sed -e '/^[[:space:]]*$/d' -e 's/[[:space:]]*#.*$//g'

2
3
4
lisi@test:~$

总结

在 Shell 脚本中，通过 [[ string =~ regex ]] 结构可以方便地进行字符串的正则表达式匹配操作。使用正则表达式可以更为灵活地处理文本数据，从而避免冗长、复杂的字符串操作。需要注意的是，正则表达式的语法非常丰富，我们应该根据实际需求灵活运用，以达到更好的效果。

上一篇：正则表达式（检查规则）

下一篇： golang 的正则检查（验证字符串是否符合正则表达式）

使用 [[ string =~ regex ]] 在 shell 中进行字符串匹配

基础语法

正则表达式语法

实例

匹配手机号码

去掉文本中的注释

总结

使用 [[ string =~ regex ]] 在 shell 中进行字符串匹配

Java中如何使用正则表达式进行字符串匹配和替换？