解析規(guī)則學(xué)習(xí)--正則解析

俗話說，無規(guī)矩不成方圓，任何事物都是有著他的規(guī)律的，尤其對于日志數(shù)據(jù)更需要進行規(guī)范管理，才能更好的被我們使用。話不多說，下面簡單聊聊我自己的一些認(rèn)識吧。

解析規(guī)則重要概念
??通常對于一條日志，我們看一大串日志的時候特別累，尤其是各種開發(fā)/運維大大們，每天看著大量的日志，很容易頭昏眼花的，這就需要我們能夠?qū)⑦@大量的日志規(guī)范管理起來，能夠快速便捷的看到需要的關(guān)鍵字段及發(fā)生時間等。

下面說下日志數(shù)據(jù)的幾個概念：

event（事件）: 一條日志稱為一個事件，即對該條日志進行有效信息提取

timestamp（時間戳）: 這里的timestamp指日志發(fā)生的時間，準(zhǔn)確的發(fā)生時間可以幫我們快速定位

field（字段）: 即需要抽取出來的關(guān)鍵字段

日志的解析
??日志解析的主要作用就是抽取用戶需要的字段，便于用戶快速搜索。

例如這樣一條日志：

217.197.192.20 - - [04/Jul/2016:19:24:47] "GET /product.screen?productId=DC-SG-G02&JSESSIONID=SD3SL10FF7ADFF5228 HTTP 1.1" 200 1331 "http://www.buttercupgames.com/cart.do?action=addtocart&itemId=EST-16&productId=DC-SG-G02" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; BOIE9;ENUS)" 142

要抽取出如下字段：

"productId": "DC-SG-G02",
"verb": "GET",
"JSESSIONID": "SD3SL10FF7ADFF5228",
"menu": "product.screen",
"response": "200",
"bytes": "1331",
"clientIp": "217.197.192.20",
"httpversion": "1.1",
"timestamp": "04/Jul/2016:19:24:47"

這就需要通過配置解析規(guī)則來提取出相應(yīng)的字段。

下面我們就簡單介紹一下最常用也最好用的正則解析。

正則表達(dá)式概念

??正則表達(dá)式，又稱規(guī)則表達(dá)式，通常被用來檢索、替換那些符合某個模式(規(guī)則)的文本。
??正則表達(dá)式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規(guī)則字符串”，然后用這個“規(guī)則字符串”來對原始字符串進行過濾。
??正則表達(dá)式由一些普通字符和一些元字符（metacharacters）組成。普通字符包括大小寫的字母和數(shù)字，而元字符則具有特殊的含義。

限定字符

限定符用來指定正則表達(dá)式的一個給定組件必須要出現(xiàn)多少次才能滿足匹配。有*或+或?或{n}或{n,}或{n,m}共6種。

限定字符	描述
\	可以理解為“轉(zhuǎn)義字符”
*	匹配子表達(dá)式0次或任意多次，等價于{0,}。
+	匹配子表達(dá)式1次或多次(至少1次)，+等價于{1,}。
?	匹配子表達(dá)式0次或1次，或指明一個非貪婪限定符。
.	匹配除“\r\n”之外的任何單個字符。
{n}	n是一個非負(fù)整數(shù)，匹配確定的n次。
{n,}	n是一個非負(fù)整數(shù)，至少匹配n次。 “{1,}”等價于“o+”。“{0,}”則等價于“o*”。
{n,m}	m和n均為非負(fù)整數(shù)，其中n<=m。最少匹配n次且最多匹配m次。請注意在逗號和兩個數(shù)之間不能有空格。

*、+和?限定符都是貪婪的，因為它們會盡可能多的匹配文字，只有在它們的后面加上一個?就可以實現(xiàn)非貪婪或最小匹配。
例如，搜索 HTML 文檔，查找括在 H1 標(biāo)記內(nèi)的章節(jié)標(biāo)題，如下：

<H1>介紹正則表達(dá)式</H1>

貪婪：匹配從小于符號 (<) 到大于符號 (>) 之間的所有內(nèi)容：

/<.*>/

非貪婪：只匹配開始和介紹 H1 標(biāo)記：

/<.*?>/

如果只想匹配開始的 H1 標(biāo)簽：

/<\w+?>/

定位字符

定位符能夠快速將正則表達(dá)式固定到行首或行尾，也能夠用來描述字符串或單詞的邊界，^ 和 $ 分別指字符串的開始與結(jié)束，\b 描述單詞的前或后邊界，\B 表示非單詞邊界。

定位字符	描述
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如：“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。
\B	匹配非單詞邊界。例如：“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”
^	匹配輸入字符串的開始位置。若在方括號表達(dá)式中使用，此時它表示不接受該字符集合。
$	匹配輸入字符串的結(jié)尾位置。
[	標(biāo)記一個中括號表達(dá)式的開始。
{	標(biāo)記限定符表達(dá)式的開始。

注意：不能將限定符與定位符一起使用。由于在緊靠換行或者字邊界的前面或后面不能有一個以上位置，因此不允許諸如 ^* 之類的表達(dá)式。

捕獲分組

捕獲分組，顧名思義，分組就是用小括號里將指定子表達(dá)式包裹起來，而捕獲就是在使用小括號指定一個子表達(dá)式后，匹配這個子表達(dá)式的文本（即匹配的內(nèi)容）

字符分組	描述
(pattern)	標(biāo)記一個子表達(dá)式的開始和結(jié)束位置,將( 和 ) 之間的表達(dá)式定義為“組”（group），匹配pattern并獲取這一匹配。
(?:pattern)	非獲取匹配，匹配pattern但不獲取匹配結(jié)果，不進行存儲供以后使用。
(?=pattern)	非獲取匹配，正向肯定預(yù)查，在任何匹配pattern的字符串開始處匹配查找字符串，該匹配不需要獲取供以后使用。預(yù)查不消耗字符，也就是說，在一個匹配發(fā)生后立即開始下一次匹配的搜索，而不是從包含預(yù)查的字符之后開始。
(?!pattern)	非獲取匹配，正向否定預(yù)查，在任何不匹配pattern的字符串開始處匹配查找字符串，該匹配不需要獲取供以后使用。
(?<name>pattern)	匹配,并pattern捕獲文本到名稱為name的組里

字符匹配

方括號表示某些字符允許在一個字符串中的某一特定位置出現(xiàn)

字符	描述
[xyz]	字符集合。匹配所包含的任意一個字符。例如：“[abc]”可以匹配“plain”中的“a”。
[^xyz]	負(fù)值字符集合。匹配未包含的任意字符。例如：“[^{abc]”可以匹配“plain”中的“plin”。[},]匹配除逗號外的 0或者多個非逗號字符， ([^,] \ ) 將這些非逗號字符標(biāo)記為\1，這樣可以在之后的替換模式表達(dá)式中引用它， ([^,]*\ ), 我們必須找到0或者多個非逗號字符后面跟著一個逗號，并且非逗號字符那部分
[a-z]	字符范圍。匹配指定范圍內(nèi)的任意字符。例如：“[a-z]”可以匹配“a”到“z”范圍內(nèi)的任意小寫字母字符。注意:只有連字符在字符組內(nèi)部時,并且出現(xiàn)在兩個字符之間時,才能表示字符的范圍。
[^a-z]	負(fù)值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如：“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。

在方括號里可以用'^' 表示不希望出現(xiàn)的字符，'^' 應(yīng)在方括號里的第一位。（如："%[^a-zA-Z]%"表示兩個百分號中不應(yīng)該出現(xiàn)字母）。

其他常用字符

常用字符	描述
\d	匹配一個數(shù)字字符。等價于[0-9]。
\D	匹配一個非數(shù)字字符。等價于[^0-9]。
\s	匹配任何不可見字符，包括空格、制表符、換頁符等等。
\S	匹配任何可見字符。
\w	匹配包括下劃線的任何單詞字符。類似但不等價于“[A-Za-z0-9_]”，這里的"單詞"字符使用Unicode字符集。
\W	匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。

實例應(yīng)用
1、匹配日期：

28 十月 2016 08:38:01,745 INFO 1477530920004|616 frame.login.Login

正則表達(dá)式：

^ \d{2} \S* \d{4} \d{2}:\d{2}:\d{2},\d+

其中，\d表示匹配數(shù)值，\d{2}表示匹配2位數(shù)值，\S表示匹配非空字符
常用于多行合并

2、對規(guī)范日志提取字段

2016-05-14 23:24:47 worker01 25629 INFO Accepted password for root from 192.168.31.182 port 52119 ssh2

正則表達(dá)式：

(?<timestamp>\S+ \S+) (?<hostname>\S+) (?<pid>\S+) (?<LogLevel>\S+) (? <msg>.*)

其中，\S 表示匹配非空字符，\S+ 表示匹配連續(xù)的非空字符，(?<key>value) 表示提取字段名為key 的字段，其值為value， . 表示匹配除“\r\n”之外任何單詞字符，* 表示匹配0或多個字符。

3、對xml日志提取字段

<ns3:ConsumerId>0006</ns3:ConsumerId><ns3:TranSeqNo>1234567890</ns3:TranSeqNo>

正則表達(dá)式：

((<(\w* :)?ConsumerId>)(?<ConsumerId>[^<])(</(\w:)?ConsumerId>))
((<(\w* :)?TranSeqNo>)(?<TranSeqNo>[^<])(</(\w:)?TranSeqNo>))

其中，\w表示匹配包括下劃線的任何單詞字符，表示匹配0或多個字符，[^<]表示匹配除 < 外的任何字符。
常用于在xml日志中，根據(jù)提取字段的規(guī)范格式，輸入正則表達(dá)式進行匹配

4、字節(jié)轉(zhuǎn)碼

00000000h: 30 30 30 30 34 35 34 35 3c 3f 78 6d 6c 20 76 65 ; 00004545<?xml.ve
00000010h: 72 73 69 6f 6e 3d 22 31 2e 30 22 20 65 6e 63 6f ; rsion="1.0".enco
00000020h: 64 69 6e 67 3d 22 55 54 46 2d 38 22 3f 3e 3c 53 ; ding="UTF-8"?><S
00000030h: 53 56 42 3e 3c 54 41 63 42 6c 63 56 69 65 77 52 ; SVB>

正則表達(dá)式：

([0-9a-fA-F]{2} ){3,30}

[ ] 中的內(nèi)容是可選字符集
[0-9a-fA-F] 表示要求字符范圍在0-9,a-f,A-F之間
{3,30}表示數(shù)字字符串長度合法為3到30，即為[0-9a-fA-F]中的字符出現(xiàn)次數(shù)的范圍是3到30次。

5、常用數(shù)字匹配

^[1-9]\d* $ ? //匹配正整數(shù) 　　
^-[1-9]\d* $ ? //匹配負(fù)整數(shù) 　　
^-?[1-9]\d* $　//匹配整數(shù) 　　
^[1-9]\d* |0$　//匹配非負(fù)整數(shù)（正整數(shù) + 0）　　
^-[1-9]\d* |0$　//匹配非正整數(shù)（負(fù)整數(shù) + 0）　　
^\s* |\s* $ ??//匹配首尾空白字符的正則表達(dá)式
\n\s* \r ?? //匹配空白行的正則表達(dá)式

6、限制輸入6-20個字母、數(shù)字、下劃線

/^(\w){6,20}$/

\w：用于匹配字母，數(shù)字或下劃線字符
^ 表示打頭的字符要匹配緊跟^后面的規(guī)則
$ 表示打頭的字符要匹配緊靠$前面的規(guī)則

7、限制只能輸入5-20個以字母開頭、可帶數(shù)字、“_”、“.”的字串

/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/

^[a-zA-Z]{1} 表示第一個字符要求是字母。
([a-zA-Z0-9]|[.]){4,19} 表示從第二位開始的一個長度為4到19位的字符串是由大小寫字母、數(shù)字以及特殊字符集[.]組成。

持續(xù)更新中。。。。

最后編輯于：2017.12.10 04:47:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,936評論 6贊 535
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,744評論 3贊 421
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,879評論 0贊 381
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,181評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點故事閱讀 71,935評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,325評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,384評論 3贊 443
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,534評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,084評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 40,892評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,067評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,623評論 5贊 362
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,322評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,735評論 0贊 27
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,990評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,800評論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 48,084評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

解析規(guī)則學(xué)習(xí)--正則解析

解析規(guī)則學(xué)習(xí)--正則解析

正則表達(dá)式概念

限定字符

定位字符

捕獲分組

字符匹配

其他常用字符

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

解析規(guī)則學(xué)習(xí)--正則解析

正則表達(dá)式概念

限定字符

定位字符

捕獲分組

字符匹配

其他常用字符

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频