一篇文章彻底搞懂python正则表达式

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配,Python自1.5版本起增加了re模块,这篇文章主要给大家介绍了如何通过一篇文章彻底搞懂python正则表达式的相关资料,需要的朋友可以参考下

一篇文章彻底搞懂python正则表达式,久久派带你了解更多相关信息。

目录
  • 前言
  • 1. 正则表达式的基本概念
  • 2. python的正则表达式re模块
  • 3. 正则表达式语法
    • (1)匹配单个字符
    • (2)匹配多个字符
    • (3)边界匹配
    • (4)分组匹配
  • 4. re模块相关方法使用
    • 总结

      前言

      有时候字符串匹配解决不了问题,这个时候就需要正则表达式来处理。因为每一次匹配(比如找以什么开头的,以什么结尾的字符串要写好多个函数)都要单独完成,我们可以给它制定一个规则。

      主要应用:爬虫的时候需要爬取各种信息,使用正则表达式可以很方便的处理需要的数据。

      1. 正则表达式的基本概念

      1. 使用单个字符串来描述匹配一系列符合某个语法规则的字符串。
      2. 是对字符串操作的一种逻辑公式。
      3. 应用场景:处理文本和数据。
      4. 正则表达式过程:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功,否则失败。

      2. python的正则表达式re模块

      import re

      匹配过程:r\’imooc\’是原字符串,先生成Pattern对象,从头开始找,得到一个Match(或Search等)实例,最后有一个匹配结果。

      一篇文章彻底搞懂python正则表达式

      # 用find和startswith找字符串str1 = \'imooc python\'print(str1.find(\'11\'))-1print(str1.find(\'imooc\'))0print(str1.startswith(\'imooc\'))True

      使用正则表达式:

      import repa = re.compile(r\'imooc\')   #  compile生成一个pattern对象,r\'imooc\'读原字符串,否则需要转义ma = pa.match(str1)  # 匹配不到返回为None,返回一个对象print(ma)<re.Match object; span=(0, 5), match=\'imooc\'>print(ma.group())  # 返回一个字符串或字符串组成的元组ma.groups()imoocprint(ma.span())  # 返回所在字符串的位置print(ma.string)  # 返回原字符串print(ma.re)     # 返回实例(0, 5)imooc pythonre.compile(\'imooc\')

      # 匹配大小写,后面加上大写pa = re.compile(r\'imooc\', re.I)print(pa)re.compile(\'imooc\', re.IGNORECASE)ma = pa.match(\'imooc python\')print(ma.group())imoocma = pa.match(\'Imooc python\')print(ma.group())Imooc

      # 如果只有一个,可以直接生成一个match对象,也可以达到同样的效果ma = re.match(r\'imooc\', str1)print(ma)print(ma.group())<re.Match object; span=(0, 5), match=\'imooc\'>imooc

      3. 正则表达式语法

      基本语法:适用于多种语言。

      (1)匹配单个字符

      一篇文章彻底搞懂python正则表达式

      1)\’.\’ 的匹配,可以匹配除了\\n外所有字符

      ma = re.match(r\'a\', \'a\')print(ma.group())ma = re.match(r\'a\', \'b\')print(type(ma))  # 再调ma.group()则报错a<class \'NoneType\'># 用.匹配字符ma = re.match(r\'.\', \'b\')print(ma.group())ma = re.match(r\'.\', \'0\')print(ma.group())b0# 匹配{}中的字符ma = re.match(r\'{.}\', \'{0}\')print(ma.group())ma = re.match(r\'{..}\', \'{01}\')print(ma.group()){0}{01}

      2)[…]匹配字符集

      # []匹配字符集ma = re.match(r\'{[abc]}\', \'{a}\')print(ma.group())ma = re.match(r\'{[abc]]}\', \'{d}\')  # 匹配不到,则报错print(ma.group())ma = re.match(r\'{[a-z]]}\', \'{d}\')print(ma.group()) # 匹配a-z中任意一个字符{a}{d}ma = re.match(r\'{[a-zA-Z]}\', \'{A}\')print(ma.group()){A}ma = re.match(r\'{[a-zA-Z0-9]}\', \'{0}\')print(ma.group()){0}

      3) \\w 匹配a-zA-Z0-9, \\W匹配非单词字符

      ma = re.match(r\'{[\\w]}\', \'{A}\')print(ma.group())ma = re.match(r\'{[\\w]}\', \'{ }\')print(ma.group())  # 匹配不到ma = re.match(r\'{[\\W]}\', \'{ }\')print(ma.group()){A}{ }

      4)字符集[]匹配

      ma = re.match(r\'[[\\w]]\', \'[a]\')print(ma.group())  # 匹配不到# 匹配[]需要加转义\\ma = re.match(r\'\\[[\\w]\\]\', \'[a]\')print(ma.group())[a]

      (2)匹配多个字符

      一篇文章彻底搞懂python正则表达式

      1) *匹配

      ma = re.match(r\'[A-Z][a-z]\', \'Aa\')print(ma.group())ma = re.match(r\'[A-Z][a-z]\', \'A\')print(ma.group()) # 匹配不到ma = re.match(r\'[A-Z][a-z]*\', \'Aa\')print(ma.group())ma = re.match(r\'[A-Z][a-z]*\', \'Aagfagsagaha\')print(ma.group())ma = re.match(r\'[A-Z][a-z]*\', \'Aa123\')print(ma.group())AaAAagfagsagahaAa

      2)+匹配

      # 匹配下划线或字符开头的无限次ma = re.match(r\'[_a-zA-Z]+[_\\w]*\', \'10\')print(ma.group())   # 匹配不到ma = re.match(r\'[_a-zA-Z]+[_\\w]*\', \'_hte10\')print(ma.group())_hte10

      3)?匹配

      # 匹配0-99,01则不对 ma = re.match(r\'[1-9]?[0-9]\', \'90\')print(ma.group())ma = re.match(r\'[1-9]?[0-9]\', \'9\')print(ma.group())ma = re.match(r\'[1-9]?[0-9]\', \'09\')print(ma.group())  # 只匹配到09090

      4){m} / {mn}匹配

      # 匹配邮箱,匹配6次ma = re.match(r\'[a-zA-Z0-9]{6}\', \'abc123\')print(ma.group())abc123ma = re.match(r\'[a-zA-Z0-9]{6}\', \'abc12\')print(ma.group()) # 少一个则匹配不到ma = re.match(r\'[a-zA-Z0-9]{6}\', \'abc1234\')print(ma.group()) # 多则匹配前6个abc123ma = re.match(r\'[a-zA-Z0-9]{6}@163.com\', \'abc123@163.com\')print(ma.group())abc123@163.com# 匹配6-10位的邮箱ma = re.match(r\'[a-zA-Z0-9]{6, 10}@163.com\', \'abc123@163.com\')print(ma.group())

      4)*? /+? /??匹配 (尽可能少匹配)

      ma = re.match(r\'[0-9][a-z]*\', \'1abc\')print(ma.group())ma = re.match(r\'[0-9][a-z]*?\', \'1abc\')print(ma.group())  # 只匹配11abc1ma = re.match(r\'[0-9][a-z]+?\', \'1abc\')print(ma.group()) # 只匹配一次1a

      (3)边界匹配

      一篇文章彻底搞懂python正则表达式

      ma = re.match(r\'[\\w]{4,10}@163.com\', \'imooc@163.com\')print(ma.group())imooc@163.comma = re.match(r\'[\\w]{4,10}@163.com\', \'imooc@163.comabc\')  # 后面加上abc,match从头开始匹配,则可以找到print(ma.group())imooc@163.comma = re.match(r\'[\\w]{4,10}@163.com&\', \'imooc@163.comabc\')print(ma.group())  # 匹配不到ma = re.match(r\'^[\\w]{4,10}@163.com&\', \'imooc@163.comabc\')print(ma.group())  # 匹配不到ma = re.match(r\'^[\\w]{4,10}@163.com&\', \'imooc@163.com\')print(ma.group())  # 加上^和$,限制开头结尾imooc@163.com

      # 指定开头结尾ma = re.match(r\'\\Aimooc[\\w]*\', \'imoocpython\')print(ma.group())ma = re.match(r\'\\Aimooc[\\w]*\', \'iimoocpython\')print(ma.group())  # 匹配不到imoocpython

      (4)分组匹配

      一篇文章彻底搞懂python正则表达式

      这里不再举例。

      4. re模块相关方法使用

      以上举例都是match,从头到尾匹配,查找子串就不合适了

      # 在一个字符串中查找匹配1:search(pattern, string, flags=0)# 找到匹配,返回所有匹配部分的列表2:findall(pattern, string, flags=0)# 将字符串中匹配正则表达式得部分替换为其它,repl可以替换函数3:sub(pattern, repl, string, count=0, flags=0)# 根据匹配分割字符串,返回分割字符串组成的列表4:split(pattern, string, maxsplit=0, flags=0)

      # searchimport restr1 = \'imooc videonum = 1000\'print(str1.find(\'1000\'))  # 数字改变则失效17info = re.search(r\'\\d+\', str1)print(info.group())1000str1 = \'imooc videonum = 10000\'info = re.search(r\'\\d+\', str1)print(info.group())10000

      # findall# 当有多个数字时str2 = \'a=100, b=200, c=300\'info = re.search(r\'\\d+\', str2)print(info.group())100info = re.findall(r\'\\d+\', str2)print(info.group())[100, 200, 300]

      # sub 替换str3 = \'imooc videonum = 1000\'info = re.sub(r\'\\d+\', \'1001\', str3)print(info)imooc videonum = 1001

      # split# 分割str3 = \'imooc:C C++ Java\'print(re.split(r\':| \', str4))[imooc, C, C, Java]

      以上即为python中的正则表达式的一些知识总结。

      总结

      到此这篇关于python正则表达式的文章就介绍到这了,更多相关python正则表达式内容请搜索趣讯吧以前的文章或继续浏览下面的相关文章希望大家以后多多支持趣讯吧!

      版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/20323.html

      (0)
      nan
      上一篇 2021-09-02
      下一篇 2021-09-02

      相关推荐

      发表回复

      登录后才能评论