Perl正则表达式常见错误与避坑指南

漏写分隔符，匹配直接报错

写 ref="/tag/2034/" style="color:#E3A3CF;font-weight:bold;">Perl 正则时，很多人习惯性地直接写模式，比如 m/^abc/，却忘了加闭合的斜杠。正确的写法应该是 m/^abc$/ 或使用其他分隔符如 m|^abc$|。漏掉结束符号会导致语法错误，程序直接挂掉。

# 错误写法（缺少结束分隔符）
m/^abc

# 正确写法
m/^abc$/
m|^abc$|

忘记转义特殊字符

在处理文件名或 URL 时，经常要匹配点号（.）、星号（*）或括号。但点号在正则里代表“任意字符”，如果不转义，就会出问题。比如想匹配 config.txt，写成 /config.txt/ 其实会匹配 config1txt、configatxt 等。

# 错误：点号未转义
if ($str =~ /config.txt/) { }

# 正确：加上反斜杠
if ($str =~ /config\.txt/) { }

忽略大小写时不加修饰符

从日志中提取信息时，用户输入可能大小写混杂。比如要找 “error”，但日志里写的是 “Error” 或 “ERROR”。这时候不加 i 修饰符，就会漏掉数据。

# 只匹配小写
if ($line =~ /error/) { }

# 加 i 后忽略大小写
if ($line =~ /error/i) { }

用变量拼接正则时没用 qr//

当你要动态构建正则，比如搜索用户输入的关键词，直接用字符串拼接容易出错。更安全的方式是使用 qr// 来预编译模式。

my $keyword = 'some.file';
# 错误：特殊字符未处理
if ($text =~ /$keyword/) { } # . 会被当作通配符

# 正确：转义或使用 qr//
my $safe_pattern = qr/\Q$keyword\E/;
if ($text =~ /$safe_pattern/) { }

贪婪匹配导致结果过长

默认情况下，Perl 正则中的量词是贪婪的。比如从 HTML 片段中提取标题，写成 <title>.*)</title>，可能会一口气匹配到文档末尾最后一个 </title>。这时候应该用非贪婪模式。

# 贪婪匹配，可能超出预期
$text =~ m|<title>(.*)</title>|;

# 改成非贪婪
$text =~ m|<title>(.*?)</title>|;

忘记检查匹配是否成功

有些人写了匹配语句就默认一定能取到结果，但实际上如果文本不符合预期，$1 可能为空甚至引发警告。尤其是在批量处理文件时，漏判会导致后续操作出错。

if ($line =~ /User: (\w+)/) {
    print "找到用户：$1\n";
} else {
    print "这行没有用户信息\n";
}

在替换中滥用 $&、$`、$'

虽然 $& 能拿到整个匹配内容，$` 是前面部分，$' 是后面部分，但它们会拖慢所有正则性能。更好的方式是用捕获组明确指定。

# 不推荐使用 $&
if ($str =~ /pattern/) {
    print "前后分别是：$` 和 $'\n";
}

# 推荐用括号捕获
if ($str =~ /(before)(pattern)(after)/) {
    print "前后分别是：$1 和 $3\n";
}