a亚洲精品_精品国产91乱码一区二区三区_亚洲精品在线免费观看视频_欧美日韩亚洲国产综合_久久久久久久久久久成人_在线区

首頁 > 編程 > regex > 正文

正則基礎之 /b 單詞邊界

2020-01-20 22:21:57
字體:
來源:轉載
供稿:網友
1概述
“/b”匹配單詞邊界,不匹配任何字符。
“/b”匹配的只是一個位置,這個位置的一側是構成單詞的字符,另一側為非單詞字符、字符串的開始或結束位置。“/b”是零寬度的。
基本上所有的資料里都會說“/b”是單詞邊界,但是關于“單詞”的范圍卻是少有提及。通常情況下,正則表達式中所謂的“單詞”,就是由“/w”所定義的字符所組成的子串。
“/b”表示所在位置的一側為單詞字符,另一側為非單詞字符、字符串的開始或結束位置,也就相當于
(?<!/w)(?=/w)|(?<=/w)(?!/w)
思考:以下寫法為什么不等價于“/b”
(?<=/W)(?=/w)|(?<=/w)(?=/W)
2/w的范圍
即然涉及到“/w”,那就要先考察一下它的范圍。
在支持ASCII碼的語言中,如JavaScript,“/w”等價于[a-zA-Z0-9_] ;
在支持Unicode的語言中,如.NET,默認情況下,“/w”除可以匹配[a-zA-Z0-9_]外,還可以匹配一些Unicode字符集,如漢字,全角數字等等。
幾乎所有常見的語言都遵循這樣一個規律,只有Java是個例外。在Java中,“/w”的表現是比較奇怪的,Java是支持Unicode的,但Java的正則中的“/w”卻是等價于[a-zA-Z0-9_]的。
先來看一下“/w”在幾種語言中匹配的例子
JavaScript
復制代碼 代碼如下:

<script language="javascript">
var str = "abc_123中文_d3=efg漢字%";
var reg = //w+/g;
var arr = str.match(reg);
if(arr != null)
{
for(var i=0;i<arr.length;i++)
{
document.write(arr[i] + "<br />");
}
}
</script>
//JavaScript中輸出
abc_123
_d3
efg

C#
復制代碼 代碼如下:

string test = "abc_123中文_d3=efg漢字%";
MatchCollection mc = Regex.Matches(test, @"/w+");
foreach (Match m in mc)
{
richTextBox2.Text += m.Value + "/n";
}
//C#中輸出
abc_123中文_d3
efg漢字

Java
復制代碼 代碼如下:

String test = "abc_123中文_d3=efg漢字%";
String reg = "http://w+";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
System.out.println(m.group());
}
//Java中輸出
abc_123
_d3
efg

可以看到,“/w”在Java中的輸出和JavaScript中是一樣的,都是只支持ASCII字符。
3 /b的范圍
常見語言中“/w”的范圍確定了,那么是不是可以認為“/b”的匹配范圍與“/w”也是一致的呢?
再看下下面的例子:
源字符串:abc_123中文_d3=漢字efg
正則表達式:./b.
JavaScript
復制代碼 代碼如下:

<script language="javascript">
var str = "abc_123中文_d3=efg漢字%";
var reg = /./b./g;
var arr = str.match(reg);
if(arr != null)
{
for(var i=0;i<arr.length;i++)
{
document.write(arr[i] + "<br />");
}
}
</script>
//JavaScript中輸出
3中
文_
3=
g漢

C#
復制代碼 代碼如下:

string test = "abc_123中文_d3=efg漢字%";
MatchCollection mc = Regex.Matches(test, @"./b.");
foreach (Match m in mc)
{
richTextBox2.Text += m.Value + "/n";
}
//C#中輸出
3=
字%

Java
復制代碼 代碼如下:

String test = "abc_123中文_d3=efg漢字%";
String reg = ".//b.";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
System.out.println(m.group());
}
//Java中輸出
3=
字%

可以看到,Java的輸出和.NET是一致的,“/b”在Java中是支持Unicode的。
所以總的來說,Java中的“/w”是很奇怪的,而“/b”是與其它語言表現一致的,在使用時需要注意。
4 /b應用場景
4.1 基礎應用
“/b”一般應用在需要匹配某一單詞字符組成的子串,但這一字符不能包含在同樣由單詞字符組成的更長的子串中。
比如要替換掉一段英文中的單詞“to”,而“today”顯然不在替換的范圍內,所以正則可以用“/bto/b”來限定。
用得比較多的場景是在HTML標簽的匹配中,用以區分相互包含的標簽,比如要過濾掉<b>、</b>、<p…>、<img…>等標簽,但要保留<br />標簽,正則可以寫成“<(/?b|p|img)/b[^>]*>”。
舉例:統計以“,”分割的元素中“3”的個數
string test = "137,1,33,4,3,6,21,3,35,93,2,98";
int count = Regex.Matches(test, @"/b3/b").Count; //結果:2
4.2 進階應用
稍復雜一些的應用通常都是與其它一些正則語法規則一起使用的,參考一個帖子
求一正則表達式
4.3 特殊情況
“/b”用在正則中,通常情況下都是表示單詞邊界的,只有在字符組中,它表示的是退格鍵,即
[a-z/b]
此處的“/b”表示的是退格鍵,而不是單詞邊界。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 久久精品首页 | 成人妇女免费播放久久久 | 国产精品一区久久久久 | 欧洲精品乱码久久久久蜜桃 | 老牛嫩草一区二区三区眼镜 | 91小视频 | 久久国产一区二区三区 | 高清国产一区二区三区四区五区 | 在线播放91 | 在线观看欧美一区 | 免费日本视频 | 久久久中文 | 综合激情av| 午夜精品一区二区三区在线播放 | 国产人久久人人人人爽 | 久久精品一区视频 | 国产午夜视频 | 欧美一区二区三区视频 | 国产黄色在线播放 | 欧美在线www | 理论片91 | 国产亚洲欧美一区 | 希崎av在线 | 免费黄色在线观看 | 超碰97久久| 一区二区精品 | 国产精品欧美久久久久一区二区 | 日本成人中文字幕在线观看 | 中文字幕一区日韩精品欧美 | 很黄很黄的网站 | 欧美不卡一区二区 | 亚洲欧美综合一区 | 久久久日韩精品一区二区三区 | 亚洲手机在线观看 | 一区二区三区日本 | 亚洲欧洲一区二区三区 | 日本久久www成人免 亚洲成人av | 欧美一区二区三区aa大片漫 | 久草免费在线视频 | 国产在线一区二区三区 | 国产高清无av久久 |