正则表达式(Regular Expression)是处理文本模式匹配的强大工具,广泛应用于数据提取、验证和格式化。以下是核心知识点:

基础语法速览

  • 字符匹配a 匹配字母 a[abc] 匹配任意单个字符
  • 量词* 匹配前一个字符0次或多次,+ 匹配1次或多次
  • 定位符^ 匹配字符串开头,$ 匹配字符串结尾
  • 分组与捕获() 用于分组,(?:) 用于非捕获分组

实用示例

import re

# 验证邮箱格式
email_pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
print(re.match(email_pattern, "example@domain.com"))  # 输出 <re.Match object; span=(0, 16), match='example@domain.com'>

# 提取URL中的域名
url = "https://www.example.com/path?query=123"
domain = re.search(r'https?://([^/]+)', url).group(1)
print(domain)  # 输出 www.example.com

常见应用场景

  • 表单输入验证 ✅
  • 日志文件分析 🔍
  • 数据清洗 🧹
  • 文本替换与重构 🔄

扩展阅读

如需深入了解正则表达式进阶技巧,可访问 正则表达式高级用法教程 获取更多实例。

正则表达式
regex_pattern