写点什么

涨姿势啦!Go 语言中正则表达式初始化的最佳实践

作者:左诗右码
  • 2024-08-07
    上海
  • 本文字数:3326 字

    阅读完需:约 11 分钟

涨姿势啦!Go语言中正则表达式初始化的最佳实践

在 Go 语言开发中,正则表达式是一个强大的工具,用于处理字符串匹配和提取。


然而,正则表达式的编译过程是比较耗费性能的,因此在初始化正则表达式时需要考虑性能和代码的可读性。本文将讨论两种主要的正则表达式初始化方式,并给出最佳实践建议。

为什么正则表达式编译耗费性能?

在 Go 语言中,编译正则表达式会消耗性能,主要原因在于正则表达式编译过程的复杂性和底层实现细节。以下是几个关键原因:


  1. 解析和转换

  2. 正则表达式在使用之前需要解析成一个中间表示(例如,抽象语法树)。

  3. 解析过程需要对正则表达式的每个字符进行分析,并将其转换为相应的正则操作。这需要进行多次字符串操作和条件判断。

  4. 构建状态机

  5. 正则表达式在解析后需要被转换为一种状态机(如 NFA(非确定性有限自动机)或 DFA(确定性有限自动机))。

  6. 构建状态机涉及创建状态和转换,并将正则表达式的各个部分映射到这些状态和转换上。

  7. 这个过程需要处理正则表达式的所有特性,包括字符集、重复、分组、回溯等。

  8. 优化和预处理

  9. 为了提高匹配性能,编译器会尝试对正则表达式进行优化,比如消除冗余状态、合并相似的状态、提前匹配常见的简单模式等。

  10. 这些优化需要额外的计算和内存。

  11. 内存分配

  12. 在编译过程中,需要分配内存来存储中间表示、状态机、优化数据等。

  13. 多次内存分配和释放会增加垃圾回收的负担,从而影响性能。

  14. 复杂性增长

  15. 正则表达式的复杂性会直接影响编译时间。复杂的正则表达式包含更多的字符集、重复、分组等,会增加编译器的工作量。

  16. 编译时间和资源消耗通常会随着正则表达式的复杂性呈非线性增长。

举个栗子🌰

以下是一个简单的示例,演示编译正则表达式的消耗:


package main
import ( "fmt" "regexp" "time")
func main() { start := time.Now()
// 编译正则表达式 pattern := `^(?:[a-z0-9!#$%&'*+/=?^_` + "`" + `{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_` + "`" + `{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|\[IPv6:[0-9a-fA-F]{1,4}(?::[0-9a-fA-F]{1,4}){7}\])\])$` re, err := regexp.Compile(pattern) if err != nil { fmt.Println("Error compiling regex:", err) return }
duration := time.Since(start) fmt.Printf("Regex compiled in %s\n", duration)
// 使用正则表达式 testStr := "example@example.com" fmt.Println("Match:", re.MatchString(testStr)) fmt.Printf("end in %s\n", time.Since(start))}
复制代码


我们看一下打印结果如何:



在上述示例中,我们编译一个复杂的正则表达式,并测量其耗时。可以看到,编译复杂的正则表达式确实需要一定时间

优化建议

为了减少正则表达式编译的性能消耗,可以采取以下措施:


  1. 预编译

  2. 在程序初始化时就编译所有正则表达式,并将编译后的 regexp 对象缓存起来。这样在后续使用中就不需要重复编译。


还是以上的代码逻辑,只不过,此时我们在编译正则的时候调整到包级别


package main
import ( "fmt" "regexp" "time")
var ( pattern = `^(?:[a-z0-9!#$%&'*+/=?^_` + "`" + `{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_` + "`" + `{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|\[IPv6:[0-9a-fA-F]{1,4}(?::[0-9a-fA-F]{1,4}){7}\])\])$` re = regexp.MustCompile(pattern))
func main() { start := time.Now()
duration := time.Since(start) fmt.Printf("Regex compiled in %s\n", duration)
// 使用正则表达式 testStr := "example@example.com" fmt.Println("Match:", re.MatchString(testStr)) fmt.Printf("end in %s\n", time.Since(start))}
复制代码


然后我们再看一下代码执行耗时情况:



我们可以看一下,只是做了一个简单的代码调整,代码执行耗时就减少了好几倍!


  1. 简化正则表达式

  2. 尽量简化正则表达式,使其易于解析和构建状态机。

  3. 分段处理

  4. 对于特别复杂的匹配需求,可以将其分解为多个简单的正则表达式,并分段处理。


通过这些优化措施,可以显著减少正则表达式编译的性能消耗。


其中,预编译时,我们还可以有两种方式可以选择:

1. 预编译——包级别变量初始化

直接在包级别声明并初始化正则表达式变量是一种简单直接的方式,适合简单的初始化需求。


package main
import ( "fmt" "regexp")
var emailRegex = regexp.MustCompile(`^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$`)
func main() { testStr := "example@example.com" fmt.Println("Match:", emailRegex.MatchString(testStr))}
复制代码


优点


  • 代码简洁,易于理解。

  • 初始化过程非常直接。


缺点


  • 无法处理初始化错误。

  • 当初始化逻辑变复杂时,代码可读性降低。

2. 预编译——在 init 函数中初始化

将正则表达式的初始化逻辑放在 init 函数中,可以为复杂的初始化逻辑提供更多灵活性,适合需要进行错误处理或初始化多个变量的情况。


package main
import ( "fmt" "log" "regexp")
var emailRegex *regexp.Regexp
func init() { var err error emailRegex, err = regexp.Compile(`^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$`) if err != nil { log.Fatalf("Failed to compile regex: %v", err) }}
func main() { testStr := "example@example.com" fmt.Println("Match:", emailRegex.MatchString(testStr))}
复制代码


优点


  • 适合处理复杂的初始化逻辑。

  • 可以进行错误处理,使程序更健壮。

  • 初始化逻辑更加清晰,有利于代码维护。


缺点


  • 相对于包级别变量初始化,代码稍显冗长。

实际例子

对于简单的正则表达式初始化,可以直接使用包级别变量:


package main
import ( "fmt" "regexp")
var emailRegex = regexp.MustCompile(`^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$`)
func main() { testStr := "example@example.com" fmt.Println("Match:", emailRegex.MatchString(testStr))}
复制代码


对于复杂的初始化逻辑,使用 init 函数会更适合:


package main
import ( "fmt" "log" "regexp")
var ( emailRegex *regexp.Regexp phoneRegex *regexp.Regexp urlRegex *regexp.Regexp)
func init() { var err error
emailRegex, err = regexp.Compile(`^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$`) if err != nil { log.Fatalf("Failed to compile email regex: %v", err) }
phoneRegex, err = regexp.Compile(`^\+?[1-9]\d{1,14}$`) if err != nil { log.Fatalf("Failed to compile phone regex: %v", err) }
urlRegex, err = regexp.Compile(`https?://[^\s/$.?#].[^\s]*`) if err != nil { log.Fatalf("Failed to compile URL regex: %v", err) }}
func main() { testEmail := "example@example.com" testPhone := "+1234567890" testURL := "https://www.example.com"
fmt.Println("Email Match:", emailRegex.MatchString(testEmail)) fmt.Println("Phone Match:", phoneRegex.MatchString(testPhone)) fmt.Println("URL Match:", urlRegex.MatchString(testURL))}
复制代码

选择依据

选择使用包级别变量初始化还是 init 函数初始化,主要取决于初始化的复杂性和错误处理需求:


  • 包级别变量初始化:适用于简单的初始化,不需要错误处理。

  • init 函数中初始化:适用于复杂的初始化逻辑,需要错误处理或多个变量初始化。

结论

在 Go 语言中初始化正则表达式时,应根据具体需求选择合适的初始化方式。对于简单的初始化,可以直接使用包级别变量,而对于复杂的初始化逻辑,使用 init 函数会更为合理。这不仅可以提高代码的可读性和维护性,还能确保程序的健壮性。

发布于: 10 分钟前阅读数: 5
用户头像

左诗右码

关注

全网同名,欢迎关注交流。 2018-11-22 加入

三观比五官更正,思想比套路更深。常用技术栈PHP、Go、Python,享受编程,平时爱好写点文章。V公主号:「左诗右码」,欢迎关注交流。

评论

发布
暂无评论
涨姿势啦!Go语言中正则表达式初始化的最佳实践_Go_左诗右码_InfoQ写作社区