解析規(guī)則學(xué)習(xí)--正則解析

俗話說,無規(guī)矩不成方圓,任何事物都是有著他的規(guī)律的,尤其對于日志數(shù)據(jù)更需要進行規(guī)范管理,才能更好的被我們使用。話不多說,下面簡單聊聊我自己的一些認(rèn)識吧。

解析規(guī)則重要概念
??通常對于一條日志,我們看一大串日志的時候特別累,尤其是各種開發(fā)/運維大大們,每天看著大量的日志,很容易頭昏眼花的,這就需要我們能夠?qū)⑦@大量的日志規(guī)范管理起來,能夠快速便捷的看到需要的關(guān)鍵字段及發(fā)生時間等。

下面說下日志數(shù)據(jù)的幾個概念:

  • event(事件): 一條日志稱為一個事件,即對該條日志進行有效信息提取
  • timestamp(時間戳): 這里的timestamp指日志發(fā)生的時間,準(zhǔn)確的發(fā)生時間可以幫我們快速定位
  • field(字段): 即需要抽取出來的關(guān)鍵字段

日志的解析
??日志解析的主要作用就是抽取用戶需要的字段,便于用戶快速搜索。

例如這樣一條日志:

217.197.192.20 - - [04/Jul/2016:19:24:47] "GET /product.screen?productId=DC-SG-G02&JSESSIONID=SD3SL10FF7ADFF5228 HTTP 1.1" 200 1331 "http://www.buttercupgames.com/cart.do?action=addtocart&itemId=EST-16&productId=DC-SG-G02" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; BOIE9;ENUS)" 142

要抽取出如下字段:

"productId": "DC-SG-G02",
"verb": "GET",
"JSESSIONID": "SD3SL10FF7ADFF5228",
"menu": "product.screen",
"response": "200",
"bytes": "1331",
"clientIp": "217.197.192.20",
"httpversion": "1.1",
"timestamp": "04/Jul/2016:19:24:47"

這就需要通過配置解析規(guī)則來提取出相應(yīng)的字段。

下面我們就簡單介紹一下最常用也最好用的正則解析。

正則表達(dá)式概念

??正則表達(dá)式,又稱規(guī)則表達(dá)式,通常被用來檢索、替換那些符合某個模式(規(guī)則)的文本。
??正則表達(dá)式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,然后用這個“規(guī)則字符串”來對原始字符串進行過濾。
??正則表達(dá)式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義。

限定字符

限定符用來指定正則表達(dá)式的一個給定組件必須要出現(xiàn)多少次才能滿足匹配。有*或+或?或{n}或{n,}或{n,m}共6種。

限定字符 描述
\ 可以理解為“轉(zhuǎn)義字符”
* 匹配子表達(dá)式0次或任意多次,等價于{0,}。
+ 匹配子表達(dá)式1次或多次(至少1次),+等價于{1,}。
? 匹配子表達(dá)式0次或1次,或指明一個非貪婪限定符。
. 匹配除“\r\n”之外的任何單個字符。
{n} n是一個非負(fù)整數(shù),匹配確定的n次。
{n,} n是一個非負(fù)整數(shù),至少匹配n次。
“{1,}”等價于“o+”。“{0,}”則等價于“o*”。
{n,m} m和n均為非負(fù)整數(shù),其中n<=m。最少匹配n次且最多匹配m次。
請注意在逗號和兩個數(shù)之間不能有空格。

*、+和?限定符都是貪婪的,因為它們會盡可能多的匹配文字,只有在它們的后面加上一個?就可以實現(xiàn)非貪婪或最小匹配。
例如,搜索 HTML 文檔,查找括在 H1 標(biāo)記內(nèi)的章節(jié)標(biāo)題,如下:

<H1>介紹正則表達(dá)式</H1>

貪婪:匹配從小于符號 (<) 到大于符號 (>) 之間的所有內(nèi)容:

/<.*>/

非貪婪:只匹配開始和介紹 H1 標(biāo)記:

/<.*?>/

如果只想匹配開始的 H1 標(biāo)簽:

/<\w+?>/

定位字符

定位符能夠快速將正則表達(dá)式固定到行首或行尾,也能夠用來描述字符串或單詞的邊界,^ 和 $ 分別指字符串的開始與結(jié)束,\b 描述單詞的前或后邊界,\B 表示非單詞邊界。

定位字符 描述
\b 匹配一個單詞邊界,也就是指單詞和空格間的位置。
例如:“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
\B 匹配非單詞邊界。
例如:“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”
^ 匹配輸入字符串的開始位置。
若在方括號表達(dá)式中使用,此時它表示不接受該字符集合。
$ 匹配輸入字符串的結(jié)尾位置。
[ 標(biāo)記一個中括號表達(dá)式的開始。
{ 標(biāo)記限定符表達(dá)式的開始。

注意:不能將限定符與定位符一起使用。由于在緊靠換行或者字邊界的前面或后面不能有一個以上位置,因此不允許諸如 ^* 之類的表達(dá)式。

捕獲分組

捕獲分組,顧名思義,分組就是用小括號里將指定子表達(dá)式包裹起來,而捕獲就是在使用小括號指定一個子表達(dá)式后,匹配這個子表達(dá)式的文本(即匹配的內(nèi)容)

字符分組 描述
(pattern) 標(biāo)記一個子表達(dá)式的開始和結(jié)束位置,將( 和 ) 之間的表達(dá)式定義為“組”(group),匹配pattern并獲取這一匹配。
(?:pattern) 非獲取匹配,匹配pattern但不獲取匹配結(jié)果,不進行存儲供以后使用。
(?=pattern) 非獲取匹配,正向肯定預(yù)查,在任何匹配pattern的字符串開始處匹配查找字符串,該匹配不需要獲取供以后使用。預(yù)查不消耗字符,也就是說,在一個匹配發(fā)生后立即開始下一次匹配的搜索,而不是從包含預(yù)查的字符之后開始。
(?!pattern) 非獲取匹配,正向否定預(yù)查,在任何不匹配pattern的字符串開始處匹配查找字符串,該匹配不需要獲取供以后使用。
(?<name>pattern) 匹配,并pattern捕獲文本到名稱為name的組里

字符匹配

方括號表示某些字符允許在一個字符串中的某一特定位置出現(xiàn)

字符 描述
[xyz] 字符集合。匹配所包含的任意一個字符。例如:“[abc]”可以匹配“plain”中的“a”。
[^xyz] 負(fù)值字符集合。匹配未包含的任意字符。例如:“[abc]”可以匹配“plain”中的“plin”。[,]匹配除逗號外的 0或者多個非逗號字符, ([^,] \ ) 將這些非逗號字符標(biāo)記為\1,這樣可以在之后的替換模式表達(dá)式中引用它, ([^,]*\ ), 我們必須找到0或者多個非逗號字符后面跟著一個逗號,并且非逗號字符那部分
[a-z] 字符范圍。匹配指定范圍內(nèi)的任意字符。例如:“[a-z]”可以匹配“a”到“z”范圍內(nèi)的任意小寫字母字符。注意:只有連字符在字符組內(nèi)部時,并且出現(xiàn)在兩個字符之間時,才能表示字符的范圍。
[^a-z] 負(fù)值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如:“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。

在方括號里可以用'^' 表示不希望出現(xiàn)的字符,'^' 應(yīng)在方括號里的第一位。(如:"%[^a-zA-Z]%"表示兩個百分號中不應(yīng)該出現(xiàn)字母)。

其他常用字符

常用字符 描述
\d 匹配一個數(shù)字字符。等價于[0-9]。
\D 匹配一個非數(shù)字字符。等價于[^0-9]。
\s 匹配任何不可見字符,包括空格、制表符、換頁符等等。
\S 匹配任何可見字符。
\w 匹配包括下劃線的任何單詞字符。類似但不等價于“[A-Za-z0-9_]”,這里的"單詞"字符使用Unicode字符集。
\W 匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。

實例應(yīng)用
1、匹配日期:

28 十月 2016 08:38:01,745 INFO 1477530920004|616 frame.login.Login

正則表達(dá)式:

^ \d{2} \S* \d{4} \d{2}:\d{2}:\d{2},\d+

其中,\d表示匹配數(shù)值,\d{2}表示匹配2位數(shù)值,\S表示匹配非空字符
常用于多行合并

2、對規(guī)范日志提取字段

2016-05-14 23:24:47 worker01 25629 INFO Accepted password for root from 192.168.31.182 port 52119 ssh2

正則表達(dá)式:

(?<timestamp>\S+ \S+) (?<hostname>\S+) (?<pid>\S+) (?<LogLevel>\S+) (? <msg>.*)

其中,\S 表示匹配非空字符,\S+ 表示匹配連續(xù)的非空字符,(?<key>value) 表示提取字段名為key 的字段,其值為value, . 表示匹配除“\r\n”之外任何單詞字符,* 表示匹配0或多個字符。

3、對xml日志提取字段

<ns3:ConsumerId>0006</ns3:ConsumerId><ns3:TranSeqNo>1234567890</ns3:TranSeqNo>

正則表達(dá)式:

((<(\w* :)?ConsumerId>)(?<ConsumerId>[^<])(</(\w:)?ConsumerId>))
((<(\w* :)?TranSeqNo>)(?<TranSeqNo>[^<])(</(\w:)?TranSeqNo>))

其中,\w表示匹配包括下劃線的任何單詞字符,表示匹配0或多個字符,[^<]表示匹配除 < 外的任何字符。
常用于在xml日志中,根據(jù)提取字段的規(guī)范格式,輸入正則表達(dá)式進行匹配

4、字節(jié)轉(zhuǎn)碼

00000000h: 30 30 30 30 34 35 34 35 3c 3f 78 6d 6c 20 76 65 ; 00004545<?xml.ve
00000010h: 72 73 69 6f 6e 3d 22 31 2e 30 22 20 65 6e 63 6f ; rsion="1.0".enco
00000020h: 64 69 6e 67 3d 22 55 54 46 2d 38 22 3f 3e 3c 53 ; ding="UTF-8"?><S
00000030h: 53 56 42 3e 3c 54 41 63 42 6c 63 56 69 65 77 52 ; SVB>

正則表達(dá)式:

([0-9a-fA-F]{2} ){3,30}

[ ] 中的內(nèi)容是可選字符集
[0-9a-fA-F] 表示要求字符范圍在0-9,a-f,A-F之間
{3,30}表示數(shù)字字符串長度合法為3到30,即為[0-9a-fA-F]中的字符出現(xiàn)次數(shù)的范圍是3到30次。

5、常用數(shù)字匹配

^[1-9]\d* $ ? //匹配正整數(shù)   
^-[1-9]\d* $ ? //匹配負(fù)整數(shù)   
^-?[1-9]\d* $ //匹配整數(shù)   
^[1-9]\d* |0$ //匹配非負(fù)整數(shù)(正整數(shù) + 0)   
^-[1-9]\d* |0$ //匹配非正整數(shù)(負(fù)整數(shù) + 0)   
^\s* |\s* $ ??//匹配首尾空白字符的正則表達(dá)式
\n\s* \r ?? //匹配空白行的正則表達(dá)式

6、限制輸入6-20個字母、數(shù)字、下劃線

/^(\w){6,20}$/

\w:用于匹配字母,數(shù)字或下劃線字符
^ 表示打頭的字符要匹配緊跟^后面的規(guī)則
$ 表示打頭的字符要匹配緊靠$前面的規(guī)則

7、限制只能輸入5-20個以字母開頭、可帶數(shù)字、“_”、“.”的字串

/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/

^[a-zA-Z]{1} 表示第一個字符要求是字母。
([a-zA-Z0-9]|[.]){4,19} 表示從第二位開始的一個長度為4到19位的字符串是由大小寫字母、數(shù)字以及特殊字符集[.]組成。

持續(xù)更新中。。。。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,936評論 6 535
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,744評論 3 421
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,879評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,181評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,935評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,325評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,384評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,534評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,084評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,892評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,623評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,322評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,735評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,990評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,800評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 48,084評論 2 375

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,799評論 18 139
  • 推薦幾個正則表達(dá)式編輯器 Debuggex :https://www.debuggex.com/ PyRegex:...
    木易林1閱讀 11,525評論 9 151
  • 幾個正則表達(dá)式編輯器 Debuggex :https://www.debuggex.com/ PyRegex:ht...
  • 初衷:看了很多視頻、文章,最后卻通通忘記了,別人的知識依舊是別人的,自己卻什么都沒獲得。此系列文章旨在加深自己的印...
    DCbryant閱讀 4,039評論 0 20
  • 畫圖 "{1} {0} {1}".format("hello", "world") # 設(shè)置指定位置'world...
    ericsunn閱讀 269評論 0 0