正则表达式(Regular Expression)是处理文本模式匹配的强大工具,广泛应用于数据提取、验证和格式化。以下是核心知识点:
基础语法速览
- 字符匹配:
a
匹配字母a
,[abc]
匹配任意单个字符 - 量词:
*
匹配前一个字符0次或多次,+
匹配1次或多次 - 定位符:
^
匹配字符串开头,$
匹配字符串结尾 - 分组与捕获:
()
用于分组,(?:)
用于非捕获分组
实用示例
import re
# 验证邮箱格式
email_pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
print(re.match(email_pattern, "example@domain.com")) # 输出 <re.Match object; span=(0, 16), match='example@domain.com'>
# 提取URL中的域名
url = "https://www.example.com/path?query=123"
domain = re.search(r'https?://([^/]+)', url).group(1)
print(domain) # 输出 www.example.com
常见应用场景
- 表单输入验证 ✅
- 日志文件分析 🔍
- 数据清洗 🧹
- 文本替换与重构 🔄
扩展阅读
如需深入了解正则表达式进阶技巧,可访问 正则表达式高级用法教程 获取更多实例。