編寫高質量的js之正確理解正則表達式回溯

2020-03-16 20:56:21

字體：大中小

來源：轉載

供稿：網友

當一個正則表達式掃描目標字符串時，從左到右逐個掃描正則表達式的組成部分，在每個位置上測試能不能找到一個匹配。對于每一個量詞和分支，都必須確定如何繼續進行。如果是一個量詞（如*、+?或者{2,}），那么正則表達式必須確定何時嘗試匹配更多的字符；如果遇到分支（通過|操作符），那么正則表達式必須從這些選項中選擇一個進行嘗試。

當正則表達式做出這樣的決定時，如果有必要，它會記住另一個選項，以備返回后使用。如果所選方案匹配成功，正則表達式將繼續掃描正則表達式模板，如果其余部分匹配也成功了，那么匹配就結束了。但是，如果所選擇的方案未能發現相應匹配，或者后來的匹配也失敗了，正則表達式將回溯到最后一個決策點，然后在剩余的選項中選擇一個。繼續這樣，直到找到一個匹配，或者量詞和分支選項的所有可能的排列組合都嘗試失敗后放棄這一過程，然后移動到此過程開始位置的下一個字符上，重復此過程。

例如，下面的代碼演示了這一過程是如何通過回溯處理分支的。

/h(ello|appy) hippo/.test("hello there, happy hippo");

上面一行正則表達式用于匹配“hello hippo”或“happy hippo”。測試一開始要查找一個h，目標字符串的第一個字母恰好就是h，立刻就找到了。接下來，子表達式（ello|appy）提供了兩個處理選項。正則表達式選擇最左邊的選項（分支選擇總是從左到右進行），檢查ello 是否匹配字符串的下一個字符，確實匹配，然后正則表達式又匹配了后面的空格。

然而，在接下來的匹配中正則表達式“走進了死胡同”，因為hippo 中的h 不能匹配字符串中的下一個字母t。此時正則表達式還不能放棄，因為它還沒有嘗試過所有的選擇，隨后它回溯到最后一個檢查點（在匹配了首字母h 之后的那個位置上）并嘗試匹配第二個分支選項。但由于匹配沒有成功，而且也沒有更多的選項了，正則表達式認為從字符串的第一個字符開始匹配是不能成功的，因此它從第二個字符開始重新進行查找。正則表達式沒有找到h，繼續向后找，直到第14 個字母才找到，它匹配happy 的那個h。隨后正則表達式再次進入分支過程，這次ello 未能匹配，但在回溯之后的第二次分支中，它匹配了整個字符串“happy hippo”，匹配成功了。

再如，下面代碼演示了帶重復量詞的回溯。

var str = "<p>Para 1.</p>" +"<img src='smiley.jpg'>" +"<p>Para 2.</p>" +"<div>Div.</div>";/<p>.*<//p>/i.test(str);

正則表達式先匹配了字符串開始的3個字母<p>，然后是.*。點號表示匹配除換行符以外的任意字符，星號這個“貪婪”量詞表示重復零次或多次，匹配盡量多的次數。因為目標字符串中沒有換行符，正則表達式將匹配剩下的全部字符串！不過由于正則表達式模板中還有更多內容需要匹配，所以正則表達式嘗試匹配<。由于在字符串末尾匹配不成功，因此每次回溯一個字符，繼續嘗試匹配<，直到正則表達式回到</div>標簽的<位置。接下來嘗試匹配//（轉義反斜杠），匹配成功，然后匹配p，匹配不成功。正則表達式繼續回溯，重復此過程，直到第二段末尾時終于匹配了</p>。匹配返回成功需要從第一段頭部一直掃描到最后一個的末尾，這可能不是我們想要的結果。

將正則表達式中的“貪婪”量詞*改為“懶惰”（又名“非貪婪”）量詞*?，以匹配單個段落。“懶惰”量詞的回溯工作以相反方式進行。當正則表達式/<p>.*?<//p>/推進到.*?時，首先嘗試全部跳過，然后繼續匹配<//p>。

這樣做是因為*?匹配零次或多次，盡可能少重復，盡可能少意味著可以重復零次。但是，當隨后的<在字符串的這一點上匹配失敗時，正則表達式回溯并嘗試下一個最小的字符數：1個。正則表達式繼續像這樣向前回溯到第一段的末尾，在那里量詞后面的<//p>得到完全匹配。

如果目標字符串只有一個段落，那么此正則表達式的“貪婪”版本和“懶惰”版本是等價的，但嘗試匹配的過程不同。

當一個正則表達式占用瀏覽器幾秒甚至更長時間時，問題原因很可能是回溯失控。為說明此問題，給出下面的正則表達式，它的目標是匹配整個HTML文件。此表達式被拆分成多行是為了適合頁面顯示。與其他正則表達式不同，JavaScript在沒有選項時可使點號匹配任意字符，包括換行符，所以此例中以[/s/S]匹配任意字符。

/<html>[/s/S]*?<head>[/s/S]*?<title>[/s/S]*?<//title>[/s/S]*?<//head>[/s/S]*?<body>[/s/S]*?<//body>[/s/S]*?<//html>/

此正則表達式匹配在正常HTML 字符串時工作良好，但當目標字符串缺少一個或多個標簽時，就會變得十分糟糕。例如</html>標簽缺失，最后一個[/s/S]*?將擴展到字符串的末尾，因為在那里沒有發現</html>標簽，然后正則表達式將查看此前的[/s/S]*?隊列記錄的回溯位置，使它們進一步擴大。正則表達式嘗試擴展倒數第二個[/s/S]*?—用它匹配</body>標簽，就是此前匹配過正則表達式模板<//body>的那個標簽，然后繼續查找第二個</body>標簽，直到字符串的末尾。當所有這些步驟都失敗時，倒數第三個[/s/S]*?將被擴展，直至字符串的末尾，依此類推。

此類問題的解決辦法在于盡可能具體地指出分隔符之間的字符匹配形式，如模板“.*?”用于匹配雙引號包圍的一個字符串。用更具體的[^"/rn]*取代過于寬泛的.*?就去除了回溯時可能發生的幾種情況，如嘗試用點號匹配引號，或者擴展搜索超出預期范圍。

在HTML 的例子中解決辦法不是那么簡單。不能使用否定字符類型，如用[^<]替代[/s/S]，因為在搜索過程中可能會遇到其他類型的標簽。但是，可以通過重復一個非捕獲組來達到同樣效果，它包含一個回溯（阻塞下一個所需的標簽）和[/s/S]（任意字符）元序列。這樣可以確保中間位置上查找的每個標簽都會失敗。然后，更重要的是，[/s/S]模板在回溯過程中阻塞的標簽在被發現之前不能被擴展。應用此方法后對正則表達式的最終修改如下：

/<html>(?:(?!<head>)[/s/S])*<head>(?:(?!<title>)[/s/S])*<title>(?:(?!<//title>)[/s/S])*<//title>(?:(?!<//head>)[/s/S])*<//head>(?:(?!<body>)[/s/S])*<body>(?:(?!<//body>)[/s/S])*<//body>(?:(?!<//html>)[/s/S])*<//html>/

雖然這樣做消除了潛在的回溯失控，并允許正則表達式在匹配不完整HTML字符串失敗時的使用時間與文本長度呈線性關系，但是正則表達式的效率并沒有提高。像這樣為每個匹配字符進行多次前瞻，缺乏效率，而且成功匹配過程也相當慢。匹配較短字符串時使用此方法相當不錯，而匹配一個HTML 文件可能需要前瞻并測試上千次。

注：相關教程知識閱讀請移步到正則表達式頻道。

上一篇：正則表達式{n,m}量詞(至少n次，最多m次)

下一篇：js Abba逆向前瞻正則匹配實例