[回憶篇]Javascript中正則表達式

轉自CSDN,5年前寫的第一篇技術類的文章,當時還是個小菜鳥,一轉眼5年過去了

https://blog.csdn.net/webgeek/article/details/8617138

----------------------------------------------------------------------說正事分割線------------------------------------------------------------------------------------

javascript 正則表達式-貪婪模式與懶惰模式

前段時間對自己以前了解的正則表達式的基礎知識做了一個總結,有了基礎知識已經能夠能應付大多數情況,像字符串匹配、正則替換、校驗等;但是再使用的過程中你可能發現一個問題,就是當使用重復元字符匹配數量時,總是會盡可能長的去匹配,而有時這恰恰不是你想要的。看下面的例子:

谷歌百度

你希望匹配出每個鏈接的html內容。如果你用 會首先匹配到整個字符串,而不是你希望的谷歌百度

為什么會出現這種情況呢?這就是正則表達式的貪婪模式。當出現重復數量的時候,會盡可能的多匹配。上述的正則表達式中 . 表示任意字符,* 代表可以重復出現任意個,根據正則表達式的貪婪個性,不匹配到最后才怪呢。就像人一樣,有貪婪就有懶惰,一個?就可以讓正則立刻改變本性,這時的正則就表現懶惰模式的本性了。

修改后的正則表達式為:,這時就可以匹配出每個連接的html了。

測試用例為:

package org.buzheng.test;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class Test {

public static void main(String[] args) throws Exception {

String value = "谷歌百度";

System.out.println("貪婪模式:");

Pattern pattern = Pattern.compile("");

Matcher matcher = pattern.matcher(value);

while (matcher.find()) {

System.out.println(matcher.group(0));

}

System.out.println("貪婪模式:");

pattern = Pattern.compile("");

matcher = pattern.matcher(value);

while (matcher.find()) {

System.out.println(matcher.group(0));

}

}

}

最后總結一下數量元字符懶惰模式的常用寫法(其實就是多了一個?):

x*? 0個或者任意個x, 最少匹配

x?? 0個或這1個x, 最少匹配

x+? 至少1個x, 最少匹配

x{n,}? 至少n個x, 最少匹配

x{n,m}? 至少n個x,至多m個x, 最少匹配

--------------------------------------------------

javascript 正則表達式-零寬斷言

http://buzheng.org/blog/regex-zero-width-assertion/

正則表達式里面比較高級的應用就屬于零寬斷言了。那么什么是零寬斷言呢?拆分法從字面上分析一下,零寬,即寬帶為0,意味者不會返回匹配的字符,以為匹配的是當前字符的位置。斷言,就是預言、假設,意味著從此處假設存在什么情況。那么零寬斷言的意思就是假定從此位置開始滿足某種情況。

根據斷言字符串位于當前位置的前后關系,分為正向和反向斷言,根據斷言肯定和否定的語氣,又有正向否定斷言和反向否定斷言。肯定即斷言存在該字符串、否定即相反的意思:存在的不是該字符串,總之概念比較繞口,下表介紹的時候順便給出英文:

(?=X) 正向斷言,假定該位置后跟的是X

zero-width positive lookahead

(?!X) 正向否定斷言,假設該位置后跟的不是X

zero-width negative lookahead

(?<=X) 反向斷言,假設該位置前跟的是X

zero-width positive lookbehind

(?

zero-width negative lookbehind

舉例:

(?=X) 正向斷言

[^s]+?(?=ing) 來匹配 having doing listing,會匹配出 hav, do, list,注意:并不會匹配出ing,因為ing是零寬斷言的部分。

(?!X) 正向否定斷言

一個用戶注冊功能的密碼有如下要求:由數字和字母組成,并且要同時含有數字和字母,且長度要在8-16位之間。

如何分析需求?拆分!這就是軟件設計的一般思路了。于是乎,拆分需求如下:

1,不能全部是數字

2,不能全部是字母

3,必須是數字或字母

只要能同時滿足上面3個要求就可以了,寫出來如下:

^(?![0-9]+$)(?![a-zA-Z]+$)[0-9A-Za-z]{8,16}$

分開來注釋一下:

^ 匹配一行的開頭位置

(?![0-9]+$) 預測該位置后面不全是數字

(?![a-zA-Z]+$) 預測該位置后面不全是字母

[0-9A-Za-z] {8,16} 由8-16位數字或這字母組成

$ 匹配行結尾位置

(?<=X) 反向斷言

(?<=hell)[a-z]+ 來匹配test hellen hellas helloween,會匹配出 en, as, oween

(?

[a-z]+(?

注:所有的案例都在UE下進行測試。

----------------------------------------------------------------

javascript中的遞歸

遞歸做為一種算法在程序設計語言中廣泛應用.是指函數/過程/子程序在運行過程中直接或間接調用自身而產生的重入現象.遞歸是計算機科學的一個重要概念,遞歸的方法是程序設計中有效的方法,采用遞歸編寫程序能使程序變得簡潔和清晰.。

遞歸函數:把直接或間接地調用自身的函數稱為遞歸函數。函數的構建通常需要一個函數或者一個過程來完成。在數學上,關于遞歸函數的定義如下:對于某一函數f(x),其定義域是集合A,那么若對于A集合中的某一個值X0,其函數值f(x0)由f(f(x0))決定,那么就稱f(x)為遞歸函數。

遞歸函數是在一個函數通過調用自身的情況下去解決的。方式如下:

JavaScript代碼

function factorial(num)

{

if(num <= 1)

{

return 1;

}

else

{

return num*factorial(num-1);

}

}

但是這在js里面可能會出現錯誤:

JavaScript代碼

var anotherFactorial = factorial;

factorial=null;

alert(anoterFactorial(4));

因為在調用anoterFactorial時內部的factorial已經不存在了。

解決方法是通過arguments.callee來解決。

如下:

JavaScript代碼

function factorial(num)

{

if(num <= 1)

{

return 1;

}

else

{

return num*arguments.callee(num-1);

}

var anotherFactorial = factorial;

factorial = null;

alert(anotherFactorial(4));

}

如果在一個很復雜的程序中我們可能只需要調用一次該函數,為了函數的精簡我們當然要努力較少函數名的定義,這是很自然會想到用匿名函數來直接執行。但是如果是匿名函數如何實現遞歸?arguments.callee正好派上用場,他指代的就是當前執行的函數的引用。

arguments.callee

在 javascript函數體內,標識符arguments具有特殊含義。它是調用對象的一個特殊屬性,用來引用Arguments對象。 Arugments對象就像數組,注意這里只是像并不是哈。javascript函數體內,arguments像數組(并不是真的數組,是一個 Arguments對象,再次強調)一樣,有length屬性,可以代 表傳給函數的參數的個數。

引用一個形式參數可以用參數名,也可以用arguments[]數組形式,其中arguments[0]表示第一個參數。所以,javascript中Arguments對象是函數的實際參數,下面,我們一起來進入這神奇的國度,一窺究竟。

arguments.length屬性:js不會主動為你判斷你到底給函數傳了多少個參數,如果你多傳了,多余的部分就沒有被使用,如果你少傳了,那么沒傳的參數值就是undefined

所以我們可以借助arguments的length屬性來檢測調用函數時是否使用了正確數目的實際參數,因為javascript是不會為你做這些事的。

JavaScript代碼

function f(x,y,z)

{

//首先檢查傳遞的參數數量是否正確

if(arguments.length != 3)

{

throw new Error("function f called with " + arguments.length + "arguments ,but it not 3 arguments.");

}

//下面運行真正的函數

}

arguments還為我們提供了這樣一種可能,就是為一個函數傳任意數目的實際參數:比如說,我想判斷你傳給我的一些數字的大小,取出最大的那個,對,沒錯,你傳多少參數都行,但是前提是你要傳數字,因為我在函數內部懶得判斷了。

JavaScript代碼

function max()

{

var m = Number.NEGATIVE_INFINITY;//Number.NEGATIVE_INFINITY JavaScript內最小的數字了

for(var i = 0; i < arguments.length; i++)

{

//只要有任何一個參數比m大,那么m就變成了這個參數的值

if(arguments[i] > m)

m = arguments[i];

}

return m;

}

怎么樣?這個方法很巧妙吧?

說明一下arguments與真正傳的形式參數是一致的:比如,你給函數傳了一個叫param的參數,并且只有這一個參數,那么param與arguments[0]都是對這個參數值的引用,改變其中一個值,即改變了二者所有的值。

JavaScript代碼

function change(param)

{

//比如我傳的param為simaopig,那么alert就是simaopig,

//如果啥也沒傳就會alert undefined

alert(param);

//用arguments[0]改變了這個參數的值

arguments[0] = 'xiaoxiaozi';

//沒錯,這個值變成了xiaoxiaozi

alert(param);

}

arguments的callee屬性:arguments的callee屬性是用來引用當前正在執行的函數,這對未命名的函數調用自身非常有好處。

現在用arguments的這個callee簡單的實現。

JavaScript代碼

//用函數直接量,采用 arguments.callee屬性實現遞歸函數

var result = function(x){

if(x<=1) return 1;

return x*arguments.callee(x-1);

};

在最后提醒大家一點,既然這個arguments這么厲害,那么我們就不要為變量命名為arguments 了,事實上arguments是javascript的保留字之一。

-----------------------------------------------------------

常用的JavaScript驗證正則表達式

匹配中文字符的正則表達式: [u4e00-u9fa5]

評注:匹配中文還真是個頭疼的事,有了這個表達式就好辦了

匹配雙字節字符(包括漢字在內):[^x00-xff]

評注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)

匹配空白行的正則表達式:ns*r

評注:可以用來刪除空白行

匹配HTML標記的正則表達式:< (S*?)[^>]*>.*?|< .*? />

評注:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對于復雜的嵌套標記依舊無能為力

匹配首尾空白字符的正則表達式:^s*|s*$

評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式

匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

評注:表單驗證時很實用

匹配網址URL的正則表達式:[a-zA-z]+://[^s]*

評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求

匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

評注:表單驗證時很實用

匹配國內電話號碼:d{3}-d{8}|d{4}-d{7}

評注:匹配形式如 0511-4405222 或 021-87888822

匹配騰訊QQ號:[1-9][0-9]{4,}

評注:騰訊QQ號從10000開始

匹配中國郵政編碼:[1-9]d{5}(?!d)

評注:中國郵政編碼為6位數字

匹配身份證:d{15}|d{18}

評注:中國的身份證為15位或18位

匹配ip地址:d+.d+.d+.d+

評注:提取ip地址時有用

匹配特定數字:

^[1-9]d*$    //匹配正整數

^-[1-9]d*$   //匹配負整數

^-?[1-9]d*$   //匹配整數

^[1-9]d*|0$  //匹配非負整數(正整數 + 0)

^-[1-9]d*|0$   //匹配非正整數(負整數 + 0)

^[1-9]d*.d*|0.d*[1-9]d*$   //匹配正浮點數

^-([1-9]d*.d*|0.d*[1-9]d*)$  //匹配負浮點數

^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$  //匹配浮點數

^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$   //匹配非負浮點數(正浮點數 + 0)

^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$  //匹配非正浮點數(負浮點數 + 0)

評注:處理大量數據時有用,具體應用時注意修正

匹配特定字符串:

^[A-Za-z]+$  //匹配由26個英文字母組成的字符串

^[A-Z]+$  //匹配由26個英文字母的大寫組成的字符串

^[a-z]+$  //匹配由26個英文字母的小寫組成的字符串

^[A-Za-z0-9]+$  //匹配由數字和26個英文字母組成的字符串

^w+$  //匹配由數字、26個英文字母或者下劃線組成的字符串

在使用RegularExpressionValidator驗證控件時的驗證功能及其驗證表達式介紹如下:

只能輸入數字:“^[0-9]*$”

只能輸入n位的數字:“^d{n}$”

只能輸入至少n位數字:“^d{n,}$”

只能輸入m-n位的數字:“^d{m,n}$”

只能輸入零和非零開頭的數字:“^(0|[1-9][0-9]*)$”

只能輸入有兩位小數的正實數:“^[0-9]+(.[0-9]{2})?$”

只能輸入有1-3位小數的正實數:“^[0-9]+(.[0-9]{1,3})?$”

只能輸入非零的正整數:“^+?[1-9][0-9]*$”

只能輸入非零的負整數:“^-[1-9][0-9]*$”

只能輸入長度為3的字符:“^.{3}$”

只能輸入由26個英文字母組成的字符串:“^[A-Za-z]+$”

只能輸入由26個大寫英文字母組成的字符串:“^[A-Z]+$”

只能輸入由26個小寫英文字母組成的字符串:“^[a-z]+$”

只能輸入由數字和26個英文字母組成的字符串:“^[A-Za-z0-9]+$”

只能輸入由數字、26個英文字母或者下劃線組成的字符串:“^w+$”

驗證用戶密碼:“^[a-zA-Z]w{5,17}$”正確格式為:以字母開頭,長度在6-18之間,

只能包含字符、數字和下劃線。

驗證是否含有^%&’,;=?$”等字符:“[^%&',;=?$x22]+”

只能輸入漢字:“^[u4e00-u9fa5],{0,}$”

驗證Email地址:“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”

驗證InternetURL:“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$”

驗證電話號碼:“^((d{3,4})|d{3,4}-)?d{7,8}$”

正確格式為:“XXXX-XXXXXXX”,“XXXX-XXXXXXXX”,“XXX-XXXXXXX”,

“XXX-XXXXXXXX”,“XXXXXXX”,“XXXXXXXX”。

驗證身份證號(15位或18位數字):“^d{15}|d{}18$”

驗證一年的12個月:“^(0?[1-9]|1[0-2])$”正確格式為:“01”-“09”和“1”“12”

驗證一個月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$”

正確格式為:“01”“09”和“1”“31”。

匹配中文字符的正則表達式: [u4e00-u9fa5]

匹配雙字節字符(包括漢字在內):[^x00-xff]

匹配空行的正則表達式:n[s| ]*r

匹配HTML標記的正則表達式:/< (.*)>.*|< (.*) />/

匹配首尾空格的正則表達式:(^s*)|(s*$)

匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

匹配網址URL的正則表達式:http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?

(1)應用:計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)

String.prototype.len=function(){return this.replace([^x00-xff]/g,”aa”).length;}

(2)應用:javascript中沒有像vbscript那樣的trim函數,我們就可以利用這個表達式來實現

String.prototype.trim = function()

{

return this.replace(/(^s*)|(s*$)/g, “”);

}

(3)應用:利用正則表達式分解和轉換IP地址

function IP2V(ip) //IP地址轉換成對應數值

{

re=/(d+).(d+).(d+).(d+)/g //匹配IP地址的正則表達式

if(re.test(ip))

{

return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1

}

else

{

throw new Error(”Not a valid IP address!”)

}

}

(4)應用:從URL地址中提取文件名的javascript程序

s=”http://www.9499.net/page1.htm”;

s=s.replace(/(.*/){0,}([^.]+).*/ig,”$2″) ; //Page1.htm

(5)應用:利用正則表達式限制網頁表單里的文本框輸入內容

用 正則表達式限制只能輸入中文:onkeyup=”value=”/blog/value.replace(/["^u4E00-u9FA5]/g,”) ” onbeforepaste=”clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^u4E00-u9FA5]/g,”))”

用 正則表達式限制只能輸入全角字符: onkeyup=”value=”/blog/value.replace(/["^uFF00-uFFFF]/g,”) ” onbeforepaste=”clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^uFF00-uFFFF]/g,”))”

用 正則表達式限制只能輸入數字:onkeyup=”value=”/blog/value.replace(/["^d]/g,”) “onbeforepaste= “clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^d]/g,”))”

用 正則表達式限制只能輸入數字和英文:onkeyup=”value=”/blog/value.replace(/[W]/g,””) “onbeforepaste=”clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^d]/g,”

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。