正則表達式學習教程之回溯引用backreference詳解

2020-03-16 20:55:39

字體：大中小

來源：轉載

供稿：網友

本文實例講述了正則表達式回溯引用backreference。分享給大家供大家參考，具體如下：

在所有例子中正則表達式匹配結果包含在源文本中的【和】之間，有的例子會使用Java來實現，如果是java本身正則表達式的用法，會在相應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

一、問題引入

一個在HTML頁面中匹配標題標簽（H1—H6）的問題：

文本：

<body><h1>Welcome to my page</H1>Content is divided into twosections:<br><h2>Introduction</h2>Information about me.<H2>Hobby</H2>Information about my hobby.<h2>This is invalid HTML</h3></body>

正則表達式：<[hH][1-6]>.*?</[hH][1-6]>

結果：

<body>
【<h1>Welcome to my page</H1>】
Content is divided into twosections:<br>
【<h2>Introduction</h2>】
Information about me.
【<H2>Hobby</H2>】
Information about my hobby.
【<h2>This is invalid HTML</h3>】
</body>

分析：模式<[hH][1-6]>匹配任何一級標題的開始標簽，而且不區分大小寫，在這個例子中它匹配到了<h1>、<h2>，</[hH][1-6]>匹配到了</h1>、</h2>、</h3>；這里使用了懶惰型元字符來匹配標簽中的文本，否則會匹配到從第一個開始標簽到最后一下結束標簽之間的內容。但是從結果可以看出，有一個無效的標簽也匹配上了，即<h2></h3>，它們根本不能配對。要解決這個問題，就需要使用到回溯引用（backreference）。

二、回溯引用匹配

回溯引用是指模式的后半部分引用在前半部分中定義的子表達式。至于子表達式的使用、劃分和引用，在前面已經介紹過了?，F在來解決前面的例子：

文本：

<body><h1>Welcome to my page</H1>Content is divided into twosections:<br><h2>Introduction</h2>Information about me.<H2>Hobby</H2>Information about my hobby.<h2>This is invalid HTML</h3></body>

正則表達式：<[hH]([1-6])>.*?</[hH]/1>

結果：

分析：首先匹配開始標題標簽的模式<[hH]([1-6])>，使用括號把[1-6]做為子表達式，而匹配結束標題標簽模式為</[hH]/1>，其中/1表示引用第一個子表達式，即([1-6])，如果([1-6])匹配到的是1，那/1也匹配到1，如果匹配到2，那/1也匹配到2，所以最后一個無效的標題標簽就不會被匹配到了。

希望本文所述對大家JavaScript程序設計有所幫助。

注：相關教程知識閱讀請移步到正則表達式頻道。

上一篇：正則表達式教程之操作符及說明詳解

下一篇：JS基礎教程——正則表達式示例(推薦)