今天想改一下JS的高亮的配色,憋了一下午憋出了這個這個正則表達式。
下面這老長老長了的玩意兒是個正則表達式,看到了別嚇壞了。
現在,我們可以來慢慢分析它。仔細看這個正則表達式你會發現,它們是很多個正則表達式用|連接起來的。現在,我們把它用|分割,逐個分析。
這是第二個,這個正則表達式是用來匹配字符串的。字符串可以在單引號和雙引號中,所以我們匹配這兩個的任意一個。這里需要用一個括號把它括起來表示它是一個獲取匹配(“獲取匹配”的“獲取”是名詞),因為在結束的地方還需要匹配這個字符。在匹配字符串結束的地方可以用后向引用/3來匹配字符串開始的字符,也就是開始時的引號種類。如果你從這整個正則表達式的開頭開始數,你就會發現["']外面的括號是整個正則表達式中的第三個獲取匹配。這就是字符串的頭尾部分,中間的部分由于字符串是可以包含轉義的,所以我們一旦遇到反斜杠就直接跳過它后面那個字符,因為反斜杠后面包含的是轉義。但是這僅僅是匹配轉義,所以我們要用或運算|連接一個匹配非轉義的表達式,那就是[^//]。可是這個是匹配非反斜杠的任何字符,它可以包含換行,而JS中的字符串是不允許寫成換行的。所以我們需要加個/n讓它不匹配換行。由于我們使用了或來連接,而或的優先級非常低,所以需要在旁邊加上括號來修正優先級。如果使用普通的括號就會占用一個獲取匹配,所以我們要使用(?:)來完成一個非獲取匹配。
這是第3、4、5、6個,這些只是匹配一些關鍵字,由于需要的顏色不同所以被分組了。這沒什么好說的,跳過。
這是第七個,它的作用是匹配普通的變量名。如果變量名的字符不消耗掉,后面匹配數字的就有可能會把變量名中的數字匹配輸出來。所以這一步是必須的。你會發現這一步沒有任何獲取匹配,因為變量名的顏色是默認顏色,我們不獲取它。根據JS的命名規則,變量名是不能以數字開頭的,所以我們用[^/W/d]|/$匹配一個變量的開頭。后面則可以匹配數字、字母、下劃線、美元符號,任意次。這樣變量名就被消耗掉了。
這是第八個,匹配數字的。由于數字的表達方式有兩種,所以我們要分開寫。|的左邊是16進制的數字寫法。右邊是普通的數字寫法,這個可以包含小數和科學計數法。由于小數和科學計數法都是可選存在的,所以我們把它括號起來,后面加上問號作為可選匹配。
這是第九個,匹配正則表達式的。前面有個非獲取匹配,匹配非括號的結束。因為如果存在括號,那么斜桿就有可能表示的是除號而不是正則表達式了。后面就是正則表達式的匹配,和字符串的匹配類似,只不過最后多了一個[gim]*。這是正則表達式的三種匹配模式,也是屬于正則表達式的范疇,所以我們要匹配并獲取它。
最后一個是匹配所有上面沒有匹配到的字符,我們必須匹配到每一個字符。因為它們都需要做一次HTML轉義。
這樣,這個長長的正則就分析完了。下面是實現的例子。
//輸出結果
document.write(code);
//HTML的轉義函數
function htmlEncode(e){
var i,s;
for(i in s={
"&":/&/g,""":/"/g,"'":/'/g,
"<":/</g,">":/>/g,"<br/>"://n/g,
" ":/ /g," "://t/g
})e=e.replace(s[i],i);
return e;
};
</script>
由于今天在趕這篇文章,沒時間做這個代碼的優化了。應該還有很多小漏洞,不過整體思路就是這樣。這樣無論是JS還是其它什么語言,代碼高亮都可以直接正則匹配出來。
新聞熱點
疑難解答
圖片精選