數(shù)量詞
來,繼續(xù)加深對正則表達(dá)式的理解,這部分理解一下數(shù)量詞,為什么要用數(shù)量詞,想想都知道,如果你要匹配幾十上百的字符時,難道你要一個一個的寫,所以就出現(xiàn)了數(shù)量詞。
數(shù)量詞的詞法是:{min,max} 。min 和 max 都是非負(fù)整數(shù)。如果逗號有而 max 被忽略了,則 max 沒有限制。如果逗號和 max 都被忽略了,則重復(fù) min 次。比如,b[1-9][0-9]{3}b,匹配的是 1000 ~ 9999 之間的數(shù)字( “b” 表示單詞邊界),而 b[1-9][0-9]{2,4}b,匹配的是一個在 100 ~ 99999 之間的數(shù)字。
下面看一個實(shí)例,匹配出字符串中 4 到 7 個字母的英文
import re a = 'java*&39android##@@python' # 數(shù)量詞 findall = re.findall('[a-z]{4,7}', a) print(findall)
輸出結(jié)果:
['java', 'android', 'python']
注意,這里有貪婪和非貪婪之分。那么我們先看下相關(guān)的概念:
貪婪模式:它的特性是一次性地讀入整個字符串,如果不匹配就吐掉最右邊的一個字符再匹配,直到找到匹配的字符串或字符串的長度為 0 為止。它的宗旨是讀盡可能多的字符,所以當(dāng)讀到第一個匹配時就立刻返回。
懶惰模式:它的特性是從字符串的左邊開始,試圖不讀入字符串中的字符進(jìn)行匹配,失敗,則多讀一個字符,再匹配,如此循環(huán),當(dāng)找到一個匹配時會返回該匹配的字符串,然后再次進(jìn)行匹配直到字符串結(jié)束。
上面例子中的就是貪婪的,如果要使用非貪婪,也就是懶惰模式,怎么呢?
如果要使用非貪婪,則加一個 ? ,上面的例子修改如下:
import re a = 'java*&39android##@@python' # 貪婪與非貪婪 re_findall = re.findall('[a-z]{4,7}?', a) print(re_findall)
輸出結(jié)果如下:
['java', 'andr', 'pyth']
從輸出的結(jié)果可以看出,android 只打印除了 andr ,Python 只打印除了 pyth ,因?yàn)檫@里使用的是懶惰模式。
當(dāng)然,還有一些特殊字符也是可以表示數(shù)量的,比如:
?:告訴引擎匹配前導(dǎo)字符 0 次或 1 次 +:告訴引擎匹配前導(dǎo)字符 1 次或多次 *:告訴引擎匹配前導(dǎo)字符 0 次或多次
把這部分的知識點(diǎn)總結(jié)一下,就是下面這個表了:
貪 婪? | 惰 性 | 描 述 |
?? | ?? | 零次或一次出現(xiàn),等價于{0,1} |
+ | +? | 一次或多次出現(xiàn) ,等價于{1,} |
* | *? | 零次或多次出現(xiàn) ,等價于{0,} |
{n} | {n}? | 恰好 n 次出現(xiàn) |
{n,m} | {n,m}? | 至少 n 次枝多 m 次出現(xiàn) |
{n,} | {n,}?? | 至少 n 次出現(xiàn) |
?