轉自CSDN,5年前寫的第一篇技術類的文章,當時還是個小菜鳥,一轉眼5年過去了
https://blog.csdn.net/webgeek/article/details/8617138
----------------------------------------------------------------------說正事分割線------------------------------------------------------------------------------------
javascript 正則表達式-貪婪模式與懶惰模式
前段時間對自己以前了解的正則表達式的基礎知識做了一個總結,有了基礎知識已經能夠能應付大多數情況,像字符串匹配、正則替換、校驗等;但是再使用的過程中你可能發現一個問題,就是當使用重復元字符匹配數量時,總是會盡可能長的去匹配,而有時這恰恰不是你想要的。看下面的例子:
你希望匹配出每個鏈接的html內容。如果你用 會首先匹配到整個字符串,而不是你希望的谷歌和百度。
為什么會出現這種情況呢?這就是正則表達式的貪婪模式。當出現重復數量的時候,會盡可能的多匹配。上述的正則表達式中 . 表示任意字符,* 代表可以重復出現任意個,根據正則表達式的貪婪個性,不匹配到最后才怪呢。就像人一樣,有貪婪就有懶惰,一個?就可以讓正則立刻改變本性,這時的正則就表現懶惰模式的本性了。
修改后的正則表達式為:,這時就可以匹配出每個連接的html了。
測試用例為:
package org.buzheng.test;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Test {
public static void main(String[] args) throws Exception {
System.out.println("貪婪模式:");
Pattern pattern = Pattern.compile("");
Matcher matcher = pattern.matcher(value);
while (matcher.find()) {
System.out.println(matcher.group(0));
}
System.out.println("貪婪模式:");
pattern = Pattern.compile("");
matcher = pattern.matcher(value);
while (matcher.find()) {
System.out.println(matcher.group(0));
}
}
}
最后總結一下數量元字符懶惰模式的常用寫法(其實就是多了一個?):
x*? 0個或者任意個x, 最少匹配
x?? 0個或這1個x, 最少匹配
x+? 至少1個x, 最少匹配
x{n,}? 至少n個x, 最少匹配
x{n,m}? 至少n個x,至多m個x, 最少匹配
--------------------------------------------------
javascript 正則表達式-零寬斷言
http://buzheng.org/blog/regex-zero-width-assertion/
正則表達式里面比較高級的應用就屬于零寬斷言了。那么什么是零寬斷言呢?拆分法從字面上分析一下,零寬,即寬帶為0,意味者不會返回匹配的字符,以為匹配的是當前字符的位置。斷言,就是預言、假設,意味著從此處假設存在什么情況。那么零寬斷言的意思就是假定從此位置開始滿足某種情況。
根據斷言字符串位于當前位置的前后關系,分為正向和反向斷言,根據斷言肯定和否定的語氣,又有正向否定斷言和反向否定斷言。肯定即斷言存在該字符串、否定即相反的意思:存在的不是該字符串,總之概念比較繞口,下表介紹的時候順便給出英文:
(?=X) 正向斷言,假定該位置后跟的是X
zero-width positive lookahead
(?!X) 正向否定斷言,假設該位置后跟的不是X
zero-width negative lookahead
(?<=X) 反向斷言,假設該位置前跟的是X
zero-width positive lookbehind
(?
zero-width negative lookbehind
舉例:
(?=X) 正向斷言
[^s]+?(?=ing) 來匹配 having doing listing,會匹配出 hav, do, list,注意:并不會匹配出ing,因為ing是零寬斷言的部分。
(?!X) 正向否定斷言
一個用戶注冊功能的密碼有如下要求:由數字和字母組成,并且要同時含有數字和字母,且長度要在8-16位之間。
如何分析需求?拆分!這就是軟件設計的一般思路了。于是乎,拆分需求如下:
1,不能全部是數字
2,不能全部是字母
3,必須是數字或字母
只要能同時滿足上面3個要求就可以了,寫出來如下:
^(?![0-9]+$)(?![a-zA-Z]+$)[0-9A-Za-z]{8,16}$
分開來注釋一下:
^ 匹配一行的開頭位置
(?![0-9]+$) 預測該位置后面不全是數字
(?![a-zA-Z]+$) 預測該位置后面不全是字母
[0-9A-Za-z] {8,16} 由8-16位數字或這字母組成
$ 匹配行結尾位置
(?<=X) 反向斷言
(?<=hell)[a-z]+ 來匹配test hellen hellas helloween,會匹配出 en, as, oween
(?
[a-z]+(?
注:所有的案例都在UE下進行測試。
----------------------------------------------------------------
javascript中的遞歸
遞歸做為一種算法在程序設計語言中廣泛應用.是指函數/過程/子程序在運行過程中直接或間接調用自身而產生的重入現象.遞歸是計算機科學的一個重要概念,遞歸的方法是程序設計中有效的方法,采用遞歸編寫程序能使程序變得簡潔和清晰.。
遞歸函數:把直接或間接地調用自身的函數稱為遞歸函數。函數的構建通常需要一個函數或者一個過程來完成。在數學上,關于遞歸函數的定義如下:對于某一函數f(x),其定義域是集合A,那么若對于A集合中的某一個值X0,其函數值f(x0)由f(f(x0))決定,那么就稱f(x)為遞歸函數。
遞歸函數是在一個函數通過調用自身的情況下去解決的。方式如下:
JavaScript代碼
function factorial(num)
{
if(num <= 1)
{
return 1;
}
else
{
return num*factorial(num-1);
}
}
但是這在js里面可能會出現錯誤:
JavaScript代碼
var anotherFactorial = factorial;
factorial=null;
alert(anoterFactorial(4));
因為在調用anoterFactorial時內部的factorial已經不存在了。
解決方法是通過arguments.callee來解決。
如下:
JavaScript代碼
function factorial(num)
{
if(num <= 1)
{
return 1;
}
else
{
return num*arguments.callee(num-1);
}
var anotherFactorial = factorial;
factorial = null;
alert(anotherFactorial(4));
}
如果在一個很復雜的程序中我們可能只需要調用一次該函數,為了函數的精簡我們當然要努力較少函數名的定義,這是很自然會想到用匿名函數來直接執行。但是如果是匿名函數如何實現遞歸?arguments.callee正好派上用場,他指代的就是當前執行的函數的引用。
arguments.callee
在 javascript函數體內,標識符arguments具有特殊含義。它是調用對象的一個特殊屬性,用來引用Arguments對象。 Arugments對象就像數組,注意這里只是像并不是哈。javascript函數體內,arguments像數組(并不是真的數組,是一個 Arguments對象,再次強調)一樣,有length屬性,可以代 表傳給函數的參數的個數。
引用一個形式參數可以用參數名,也可以用arguments[]數組形式,其中arguments[0]表示第一個參數。所以,javascript中Arguments對象是函數的實際參數,下面,我們一起來進入這神奇的國度,一窺究竟。
arguments.length屬性:js不會主動為你判斷你到底給函數傳了多少個參數,如果你多傳了,多余的部分就沒有被使用,如果你少傳了,那么沒傳的參數值就是undefined
所以我們可以借助arguments的length屬性來檢測調用函數時是否使用了正確數目的實際參數,因為javascript是不會為你做這些事的。
JavaScript代碼
function f(x,y,z)
{
//首先檢查傳遞的參數數量是否正確
if(arguments.length != 3)
{
throw new Error("function f called with " + arguments.length + "arguments ,but it not 3 arguments.");
}
//下面運行真正的函數
}
arguments還為我們提供了這樣一種可能,就是為一個函數傳任意數目的實際參數:比如說,我想判斷你傳給我的一些數字的大小,取出最大的那個,對,沒錯,你傳多少參數都行,但是前提是你要傳數字,因為我在函數內部懶得判斷了。
JavaScript代碼
function max()
{
var m = Number.NEGATIVE_INFINITY;//Number.NEGATIVE_INFINITY JavaScript內最小的數字了
for(var i = 0; i < arguments.length; i++)
{
//只要有任何一個參數比m大,那么m就變成了這個參數的值
if(arguments[i] > m)
m = arguments[i];
}
return m;
}
怎么樣?這個方法很巧妙吧?
說明一下arguments與真正傳的形式參數是一致的:比如,你給函數傳了一個叫param的參數,并且只有這一個參數,那么param與arguments[0]都是對這個參數值的引用,改變其中一個值,即改變了二者所有的值。
JavaScript代碼
function change(param)
{
//比如我傳的param為simaopig,那么alert就是simaopig,
//如果啥也沒傳就會alert undefined
alert(param);
//用arguments[0]改變了這個參數的值
arguments[0] = 'xiaoxiaozi';
//沒錯,這個值變成了xiaoxiaozi
alert(param);
}
arguments的callee屬性:arguments的callee屬性是用來引用當前正在執行的函數,這對未命名的函數調用自身非常有好處。
現在用arguments的這個callee簡單的實現。
JavaScript代碼
//用函數直接量,采用 arguments.callee屬性實現遞歸函數
var result = function(x){
if(x<=1) return 1;
return x*arguments.callee(x-1);
};
在最后提醒大家一點,既然這個arguments這么厲害,那么我們就不要為變量命名為arguments 了,事實上arguments是javascript的保留字之一。
-----------------------------------------------------------
常用的JavaScript驗證正則表達式
匹配中文字符的正則表達式: [u4e00-u9fa5]
評注:匹配中文還真是個頭疼的事,有了這個表達式就好辦了
匹配雙字節字符(包括漢字在內):[^x00-xff]
評注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
匹配空白行的正則表達式:ns*r
評注:可以用來刪除空白行
匹配HTML標記的正則表達式:< (S*?)[^>]*>.*?|< .*? />
評注:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對于復雜的嵌套標記依舊無能為力
匹配首尾空白字符的正則表達式:^s*|s*$
評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式
匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
評注:表單驗證時很實用
匹配網址URL的正則表達式:[a-zA-z]+://[^s]*
評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求
匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評注:表單驗證時很實用
匹配國內電話號碼:d{3}-d{8}|d{4}-d{7}
評注:匹配形式如 0511-4405222 或 021-87888822
匹配騰訊QQ號:[1-9][0-9]{4,}
評注:騰訊QQ號從10000開始
匹配中國郵政編碼:[1-9]d{5}(?!d)
評注:中國郵政編碼為6位數字
匹配身份證:d{15}|d{18}
評注:中國的身份證為15位或18位
匹配ip地址:d+.d+.d+.d+
評注:提取ip地址時有用
匹配特定數字:
^[1-9]d*$ //匹配正整數
^-[1-9]d*$ //匹配負整數
^-?[1-9]d*$ //匹配整數
^[1-9]d*|0$ //匹配非負整數(正整數 + 0)
^-[1-9]d*|0$ //匹配非正整數(負整數 + 0)
^[1-9]d*.d*|0.d*[1-9]d*$ //匹配正浮點數
^-([1-9]d*.d*|0.d*[1-9]d*)$ //匹配負浮點數
^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$ //匹配浮點數
^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$ //匹配非負浮點數(正浮點數 + 0)
^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$ //匹配非正浮點數(負浮點數 + 0)
評注:處理大量數據時有用,具體應用時注意修正
匹配特定字符串:
^[A-Za-z]+$ //匹配由26個英文字母組成的字符串
^[A-Z]+$ //匹配由26個英文字母的大寫組成的字符串
^[a-z]+$ //匹配由26個英文字母的小寫組成的字符串
^[A-Za-z0-9]+$ //匹配由數字和26個英文字母組成的字符串
^w+$ //匹配由數字、26個英文字母或者下劃線組成的字符串
在使用RegularExpressionValidator驗證控件時的驗證功能及其驗證表達式介紹如下:
只能輸入數字:“^[0-9]*$”
只能輸入n位的數字:“^d{n}$”
只能輸入至少n位數字:“^d{n,}$”
只能輸入m-n位的數字:“^d{m,n}$”
只能輸入零和非零開頭的數字:“^(0|[1-9][0-9]*)$”
只能輸入有兩位小數的正實數:“^[0-9]+(.[0-9]{2})?$”
只能輸入有1-3位小數的正實數:“^[0-9]+(.[0-9]{1,3})?$”
只能輸入非零的正整數:“^+?[1-9][0-9]*$”
只能輸入非零的負整數:“^-[1-9][0-9]*$”
只能輸入長度為3的字符:“^.{3}$”
只能輸入由26個英文字母組成的字符串:“^[A-Za-z]+$”
只能輸入由26個大寫英文字母組成的字符串:“^[A-Z]+$”
只能輸入由26個小寫英文字母組成的字符串:“^[a-z]+$”
只能輸入由數字和26個英文字母組成的字符串:“^[A-Za-z0-9]+$”
只能輸入由數字、26個英文字母或者下劃線組成的字符串:“^w+$”
驗證用戶密碼:“^[a-zA-Z]w{5,17}$”正確格式為:以字母開頭,長度在6-18之間,
只能包含字符、數字和下劃線。
驗證是否含有^%&’,;=?$”等字符:“[^%&',;=?$x22]+”
只能輸入漢字:“^[u4e00-u9fa5],{0,}$”
驗證Email地址:“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”
驗證InternetURL:“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$”
驗證電話號碼:“^((d{3,4})|d{3,4}-)?d{7,8}$”
正確格式為:“XXXX-XXXXXXX”,“XXXX-XXXXXXXX”,“XXX-XXXXXXX”,
“XXX-XXXXXXXX”,“XXXXXXX”,“XXXXXXXX”。
驗證身份證號(15位或18位數字):“^d{15}|d{}18$”
驗證一年的12個月:“^(0?[1-9]|1[0-2])$”正確格式為:“01”-“09”和“1”“12”
驗證一個月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$”
正確格式為:“01”“09”和“1”“31”。
匹配中文字符的正則表達式: [u4e00-u9fa5]
匹配雙字節字符(包括漢字在內):[^x00-xff]
匹配空行的正則表達式:n[s| ]*r
匹配HTML標記的正則表達式:/< (.*)>.*|< (.*) />/
匹配首尾空格的正則表達式:(^s*)|(s*$)
匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
匹配網址URL的正則表達式:http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?
(1)應用:計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
String.prototype.len=function(){return this.replace([^x00-xff]/g,”aa”).length;}
(2)應用:javascript中沒有像vbscript那樣的trim函數,我們就可以利用這個表達式來實現
String.prototype.trim = function()
{
return this.replace(/(^s*)|(s*$)/g, “”);
}
(3)應用:利用正則表達式分解和轉換IP地址
function IP2V(ip) //IP地址轉換成對應數值
{
re=/(d+).(d+).(d+).(d+)/g //匹配IP地址的正則表達式
if(re.test(ip))
{
return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1
}
else
{
throw new Error(”Not a valid IP address!”)
}
}
(4)應用:從URL地址中提取文件名的javascript程序
s=”http://www.9499.net/page1.htm”;
s=s.replace(/(.*/){0,}([^.]+).*/ig,”$2″) ; //Page1.htm
(5)應用:利用正則表達式限制網頁表單里的文本框輸入內容
用 正則表達式限制只能輸入中文:onkeyup=”value=”/blog/value.replace(/["^u4E00-u9FA5]/g,”) ” onbeforepaste=”clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^u4E00-u9FA5]/g,”))”
用 正則表達式限制只能輸入全角字符: onkeyup=”value=”/blog/value.replace(/["^uFF00-uFFFF]/g,”) ” onbeforepaste=”clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^uFF00-uFFFF]/g,”))”
用 正則表達式限制只能輸入數字:onkeyup=”value=”/blog/value.replace(/["^d]/g,”) “onbeforepaste= “clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^d]/g,”))”
用 正則表達式限制只能輸入數字和英文:onkeyup=”value=”/blog/value.replace(/[W]/g,””) “onbeforepaste=”clipboardData.setData(’text’,clipboardData.getData(’text’).replace(/[^d]/g,”