正則表達式話題

/(	(	[^()]	\|	/(([^()])*/)	)*	/)
<font>	(	(?!</?font>).	\|	(<font>((?!</?font>).)*</font>)	)*	</font>

PHP 和 GRETA 的簡便之處在于，匹配嵌套(n-1)層的表達式用 (?R) 表示：
/(	(	[^()]	\|	(?R)	)*	/)

第四步，依此類推，可以編寫出匹配有限(n)層的表達式。這種方式寫出來的表達式，雖然看上去很長，但是這種表達式經過編譯后，匹配效率仍然是很高的。

2. 非貪婪匹配的效率

可能有不少的人和我一樣，有過這樣的經歷：當我們要匹配類似 "<td>內容</td>" 或者 "[b]加粗[/b]" 這樣的文本時，我們根據

當發現

然而，當一個表達式中，有多個非貪婪匹配時，或者多個未知匹配次數的表達式時，這個表達式將可能存在效率上的陷阱。有時候，匹配速度慢得莫名奇妙，甚至開始懷疑正則表達式是否實用。

效率陷阱的產生：

在本站基礎文章里，對非貪婪匹配的描述中說到：“如果少匹配就會導致整個表達式匹配失敗的時候，與貪婪模式類似，非貪婪模式會最小限度的再匹配一些，以使整個表達式匹配成功。”

具體的匹配過程是這樣的：

"非貪婪部分" 先匹配最少次數，然后嘗試匹配 "右側的表達式"。
如果右側的表達式匹配成功，則整個表達式匹配結束。如果右側表達式匹配失敗，則 "非貪婪部分" 將增加匹配一次，然后再嘗試匹配 "右側的表達式"。
如果右側的表達式又匹配失敗，則 "非貪婪部分" 將再增加匹配一次。再嘗試匹配 "右側的表達式"。
依此類推，最后得到的結果是 "非貪婪部分" 以盡可能少的匹配次數，使整個表達式匹配成功。或者最終仍然匹配失敗。

當一個表達式中有多個非貪婪匹配，以表達式 "d(/w+?)d(/w+?)z" 為例，對于第一個括號中的 "/w+?" 來說，右邊的 "d(/w+?)z" 屬于它的 "右側的表達式"，對于第二個括號中的 "/w+?" 來說，右邊的 "z" 屬于它的 "右側的表達式"。

當 "z" 匹配失敗時，第二個 "/w+?" 會 "增加匹配一次"，再嘗試匹配 "z"。如果第二個 "/w+?" 無論怎樣 "增加匹配次數"，直至整篇文本結束，"z" 都不能匹配，那么表示 "d(/w+?)z" 匹配失敗，也就是說第一個 "/w+?" 的 "右側" 匹配失敗。此時，第一個 "/w+?" 會增加匹配一次，然后再進行 "d(/w+?)z" 的匹配。循環前面所講的過程，直至第一個 "/w+?" 無論怎么 "增加匹配次數"，后邊的 "d(/w+?)z" 都不能匹配時，整個表達式才宣告匹配失敗。

其實，為了使整個表達式匹配成功，貪婪匹配也會適當的“讓出”已經匹配的字符。因此貪婪匹配也有類似的情況。當一個表達式中有較多的未知匹配次數的表達式時，為了讓整個表達式匹配成功，各個貪婪或非貪婪的表達式都要進行嘗試減少或增加匹配次數，由此容易形成一個大循環的嘗試，造成了很長的匹配時間。本文之所以稱之為“陷阱”，因為這種效率問題往往不易察覺。

舉例：，將花費較長一段時間才能判斷出匹配失敗。

效率陷阱的避免：

避免效率陷阱的原則是：避免“多重循環”的“嘗試匹配”。并不是說非貪婪匹配就是不好的，只是在運用非貪婪匹配的時候，需要注意避免過多“循環嘗試”的問題。

情況一：對于只有一個非貪婪或者貪婪匹配的表達式來說，不存在效率陷阱。也就是說，要匹配類似 "<td> 內容 </td>" 這樣的文本，表達式 "

情況二：如果一個表達式中有多個未知匹配次數的表達式，應防止進行不必要的嘗試匹配。

比如，對表達式 "<script language='(.*?)'>(.*?)</script>" 來說，如果前面部分表達式在遇到 "<script language='vbscript'>" 時匹配成功后，而后邊的 "(.*?)</script>" 卻匹配失敗，將導致第一個 ".*?" 增加匹配次數再嘗試。而對于表達式真正目的，讓第一個 ".*?" 增加匹配成“vbscript'>”是不對的，因此這種嘗試是不必要的嘗試。

因此，對依靠邊界來識別的表達式，不要讓<script language='([^']*)'>(.*?)</script>" 更好。

上一篇：Javascrp中幾個常用的字符串驗證

下一篇：正則表達式不包含align該怎么寫

發表評論 共有條評論

用戶名: 密碼:

驗證碼: 匿名發表

學習交流

更多

羅技g502鼠標靈敏度怎么設置?

電腦鍵盤出問題了該怎么辦? 鍵

羅技g502鼠標靈敏度怎么設置?
羅技g502鼠標靈敏度怎么設置?...

快剪輯自帶水印可以消除，只需簡單設置12-24

飛鴿傳書好友列表顯示異常？或許是這兩個原因12-24

下載網頁中視頻的方法~~12-24

教你用拼音打出來不認識的字~~12-24

帝國cms分類信息的所在地在的修改09-08

將網站地圖和友情鏈接table樣式改為div+css09-08

用帝國cms實現不規則新聞或信息調用（應大站09-08

帝國調用DZ論壇精華帖09-08

用靈動標簽調用discuz和phpwind的最新貼子09-08

熱門圖片

更多

校園甜美的背影，洋溢著青春爛漫的回憶

芭蕾舞蹈表演，真實美到極致

春節臨近，各地春節彩燈高高掛

冬日黃山云海與晚霞相映成輝

肉食主義者的最愛美食烤肉圖片

夏日甜心草莓美食圖片

人逢知己千杯少，喝酒搞笑圖集

搞笑試卷，學生惡搞答題

猜你喜歡的新聞

脫離小米成立獨立公司 POCOX2新機即將上市

李大腦門過安檢搞笑視頻各種姿勢演繹默劇

《笑傲江湖4》李大腦門過安檢李大腦門精彩

淘寶獨家牽手春晚：10億補貼+清空5萬人購物車

吳忌寒卸任比特大陸法定代表人 CFO劉路遙接

支付寶發2019年度賬單網友：2020年少花錢，多

重慶棒棒10年用肩膀扛出一套房，你呢？

雷軍2020新年全員信：“5G+AIoT”五年投500億

春運售票超3億張！售票總量再創歷史新高

Windows10市場份額全球第一微軟是否再無敵

猜你喜歡的關注

去除內容中的html

轉換文本為超連接和Email格式的代碼

正則表達式regular expression詳述（一）

正則表達式regular expression詳述（二）

17種正則表達式

正則表達式練習器

ubbcode簡單實用

在ASP中用正則表達式對象來校驗數據的合法

JScript中正則表達函數的說明與應用

截字符串去除HTML標記

a亚洲精品_精品国产91乱码一区二区三区_亚洲精品在线免费观看视频_欧美日韩亚洲国产综合_久久久久久久久久久成人_在线区

正則表達式話題

引言

1. 表達式的遞歸匹配

2. 非貪婪匹配的效率