C#正則表達(dá)式之Regex類用法詳解

2020-01-20 22:08:25

字體：大中小

供稿：網(wǎng)友

Regex 類表示不可變（只讀）的正則表達(dá)式。它還包含各種靜態(tài)方法，允許在不顯式創(chuàng)建其他類的實(shí)例的情況下使用其他正則表達(dá)式類。

正則表達(dá)式基礎(chǔ)概述

什么是正則表達(dá)式

在編寫(xiě)字符串的處理程序時(shí)，經(jīng)常會(huì)有查找符合某些復(fù)雜規(guī)則的字符串的需要。正則表達(dá)式就是用于描述這些規(guī)則的工具。換句話說(shuō)，正則表達(dá)式就是記錄文本規(guī)則的代碼。

通常，我們?cè)谑褂肳INDOWS查找文件時(shí)，會(huì)使用通配符（*和?）。如果你想查找某個(gè)目錄下的所有Word文檔時(shí)，你就可以使用*.doc進(jìn)行查找，在這里，*就被解釋為任意字符串。和通配符類似，正則表達(dá)式也是用來(lái)進(jìn)行文本匹配的工具，只不過(guò)比起通配符，它能更精確地描述你的需求――當(dāng)然，代價(jià)就是更復(fù)雜。

一、C#正則表達(dá)式符號(hào)模式

字　　符	描　　述
/	轉(zhuǎn)義字符，將一個(gè)具有特殊功能的字符轉(zhuǎn)義為一個(gè)普通字符，或反過(guò)來(lái)
^	匹配輸入字符串的開(kāi)始位置
$	匹配輸入字符串的結(jié)束位置
*	匹配前面的零次或多次的子表達(dá)式
+	匹配前面的一次或多次的子表達(dá)式
?	匹配前面的零次或一次的子表達(dá)式
{n}	n是一個(gè)非負(fù)整數(shù)，匹配前面的n次子表達(dá)式
{n,}	n是一個(gè)非負(fù)整數(shù)，至少匹配前面的n次子表達(dá)式
{n,m}	m和n均為非負(fù)整數(shù)，其中n<=m，最少匹配n次且最多匹配m次
?	當(dāng)該字符緊跟在其他限制符（*，+，?，{n}，{n,}，{n，m}）后面時(shí)，匹配模式盡可能少的匹配所搜索的字符串
.	匹配除“/n”之外的任何單個(gè)字符
(pattern)	匹配pattern并獲取這一匹配
(?:pattern)	匹配pattern但不獲取匹配結(jié)果
(?=pattern)	正向預(yù)查，在任何匹配pattern的字符串開(kāi)始處匹配查找字符串
(?!pattern)	負(fù)向預(yù)查，在任何不匹配pattern的字符串開(kāi)始處匹配查找字符串
x\|y	匹配x或y。例如，‘z\|food'能匹配“z”或“food”。‘(z\|f)ood'則匹配“zood”或“food”
[xyz]	字符集合。匹配所包含的任意一個(gè)字符。例如，‘[abc]'可以匹配“plain”中的‘a(chǎn)'
[^xyz]	負(fù)值字符集合。匹配未包含的任意字符。例如，‘[^abc]'可以匹配“plain”中的‘p'
[a-z]	匹配指定范圍內(nèi)的任意字符。例如，‘[a-z]'可以匹配'a'到'z'范圍內(nèi)的任意小寫(xiě)字母字符
[^a-z]	匹配不在指定范圍內(nèi)的任意字符。例如，‘[^a-z]'可以匹配不在‘a(chǎn)'～‘z''內(nèi)的任意字符
/b	匹配一個(gè)單詞邊界，指單詞和空格間的位置
/B	匹配非單詞邊界
/d	匹配一個(gè)數(shù)字字符，等價(jià)于[0-9]
/D	匹配一個(gè)非數(shù)字字符，等價(jià)于[^0-9]
/f	匹配一個(gè)換頁(yè)符
/n	匹配一個(gè)換行符
/r	匹配一個(gè)回車(chē)符
/s	匹配任何空白字符，包括空格、制表符、換頁(yè)符等

/S	匹配任何非空白字符
/t	匹配一個(gè)制表符
/v	匹配一個(gè)垂直制表符。等價(jià)于/x0b和/cK
/w	匹配包括下劃線的任何單詞字符。等價(jià)于‘'[A-Za-z0-9_]'
/W	匹配任何非單詞字符。等價(jià)于‘[^A-Za-z0-9_]'

說(shuō)明：

由于在正則表達(dá)式中“ / ”、“ ? ”、“ * ”、“ ^ ”、“ $ ”、“ + ”、“（”、“）”、“ | ”、“ { ”、“ [ ”等字符已經(jīng)具有一定特殊意義，如果需要用它們的原始意義，則應(yīng)該對(duì)它進(jìn)行轉(zhuǎn)義，例如希望在字符串中至少有一個(gè)“ / ”，那么正則表達(dá)式應(yīng)該這么寫(xiě)： //+ 。

二、在C#中，要使用正則表達(dá)式類，請(qǐng)?jiān)谠次募_(kāi)頭處添加以下語(yǔ)句：

復(fù)制代碼代碼如下:

using System.Text.RegularExpressions;

三、RegEx類常用的方法

1、靜態(tài)Match方法

使用靜態(tài)Match方法，可以得到源中第一個(gè)匹配模式的連續(xù)子串。

靜態(tài)的Match方法有2個(gè)重載，分別是

Regex.Match(string input, string pattern);
Regex.Match(string input, string pattern, RegexOptions options);

第一種重載的參數(shù)表示：輸入、模式

第二種重載的參數(shù)表示：輸入、模式、RegexOptions枚舉的“按位或”組合。

RegexOptions枚舉的有效值是：
Complied表示編譯此模式
CultureInvariant表示不考慮文化背景
ECMAScript表示符合ECMAScript，這個(gè)值只能和IgnoreCase、Multiline、Complied連用
ExplicitCapture表示只保存顯式命名的組
IgnoreCase表示不區(qū)分輸入的大小寫(xiě)
IgnorePatternWhitespace表示去掉模式中的非轉(zhuǎn)義空白，并啟用由#標(biāo)記的注釋
Multiline表示多行模式，改變?cè)址鸮和$的含義，它們可以匹配行的開(kāi)頭和結(jié)尾
None表示無(wú)設(shè)置，此枚舉項(xiàng)沒(méi)有意義
RightToLeft表示從右向左掃描、匹配，這時(shí)，靜態(tài)的Match方法返回從右向左的第一個(gè)匹配
Singleline表示單行模式，改變?cè)址?的意義，它可以匹配換行符

注意：Multiline在沒(méi)有ECMAScript的情況下，可以和Singleline連用。Singleline和Multiline不互斥，但是和ECMAScript互斥。

2、靜態(tài)的Matches方法

這個(gè)方法的重載形式同靜態(tài)的Match方法，返回一個(gè)MatchCollection，表示輸入中，匹配模式的匹配的集合。

3、靜態(tài)的IsMatch方法

此方法返回一個(gè)bool，重載形式同靜態(tài)的Matches，若輸入中匹配模式，返回true，否則返回false。
可以理解為：IsMatch方法，返回Matches方法返回的集合是否為空。

四、RegEx類的實(shí)例

1.字符串替換

例如我想把如下格式記錄中的NAME值修改為WANG

string line="ADDR=1234;NAME=ZHANG;PHONE=6789";
Regex reg = new Regex("NAME=(.+);");
string modified = reg.Replace(line, "NAME=WANG;");

修改后的字符串為 ADDR=1234;NAME=WANG;PHONE=6789

2.字符串匹配

例如我想提取剛才那條記錄中的NAME值

Regex reg = new Regex("NAME=(.+);");
Match match=reg.Match(line);
string value=match.Groups[1].Value;

3、Match實(shí)例3

文本中含有"speed=30.2mph",需要提取該速度值，但是速度的單位可能是公制也可能是英制，mph,km/h,m/s都有可能；另外前后可能有空格。

string line="lane=1;speed=30.3mph;acceleration=2.5mph/s";
Regex reg=new Regex(@"speed/s*=/s*([/d/.]+)/s*(mph|km/h|m/s)*");
Match match=reg.Match(line);

那么在返回的結(jié)果中match.Groups[1].Value將含有數(shù)值，而match.Groups[2].Value將含有單位。

4、再比如，解碼gps的GPRMC字符串，只需

Regex reg = new Regex(@"^/$GPRMC,[/d/.]*,[A|V],(-?[0-9]*/.?[0-9]+),([NS]*),(-?[0-9]*/.?[0-9]+),([EW]*),.*");

就可以獲得經(jīng)度、緯度值，而以前需要幾十行代碼。

五、System.Text.RegularExpressions命名空間的說(shuō)明

該名稱空間包括8個(gè)類，1個(gè)枚舉，1個(gè)委托。他們分別是：

Capture: 包含一次匹配的結(jié)果；
CaptureCollection: Capture的序列；
Group: 一次組記錄的結(jié)果，由Capture繼承而來(lái)；
GroupCollection：表示捕獲組的集合
Match: 一次表達(dá)式的匹配結(jié)果，由Group繼承而來(lái)；
MatchCollection: Match的一個(gè)序列；
MatchEvaluator: 執(zhí)行替換操作時(shí)使用的委托；
Regex：編譯后的表達(dá)式的實(shí)例。
RegexCompilationInfo：提供編譯器用于將正則表達(dá)式編譯為獨(dú)立程序集的信息
RegexOptions 提供用于設(shè)置正則表達(dá)式的枚舉值
Regex類中還包含一些靜態(tài)的方法：
Escape: 對(duì)字符串中的regex中的轉(zhuǎn)義符進(jìn)行轉(zhuǎn)義；
IsMatch: 如果表達(dá)式在字符串中匹配，該方法返回一個(gè)布爾值；
Match: 返回Match的實(shí)例；
Matches: 返回一系列的Match的方法；
Replace: 用替換字符串替換匹配的表達(dá)式；
Split: 返回一系列由表達(dá)式?jīng)Q定的字符串；
Unescape:不對(duì)字符串中的轉(zhuǎn)義字符轉(zhuǎn)義。