俗話說,無規(guī)矩不成方圓,任何事物都是有著他的規(guī)律的,尤其對于日志數(shù)據(jù)更需要進行規(guī)范管理,才能更好的被我們使用。話不多說,下面簡單聊聊我自己的一些認(rèn)識吧。
解析規(guī)則重要概念
??通常對于一條日志,我們看一大串日志的時候特別累,尤其是各種開發(fā)/運維大大們,每天看著大量的日志,很容易頭昏眼花的,這就需要我們能夠?qū)⑦@大量的日志規(guī)范管理起來,能夠快速便捷的看到需要的關(guān)鍵字段及發(fā)生時間等。
下面說下日志數(shù)據(jù)的幾個概念:
- event(事件): 一條日志稱為一個事件,即對該條日志進行有效信息提取
- timestamp(時間戳): 這里的timestamp指日志發(fā)生的時間,準(zhǔn)確的發(fā)生時間可以幫我們快速定位
- field(字段): 即需要抽取出來的關(guān)鍵字段
日志的解析
??日志解析的主要作用就是抽取用戶需要的字段,便于用戶快速搜索。
例如這樣一條日志:
217.197.192.20 - - [04/Jul/2016:19:24:47] "GET /product.screen?productId=DC-SG-G02&JSESSIONID=SD3SL10FF7ADFF5228 HTTP 1.1" 200 1331 "http://www.buttercupgames.com/cart.do?action=addtocart&itemId=EST-16&productId=DC-SG-G02" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; BOIE9;ENUS)" 142
要抽取出如下字段:
"productId": "DC-SG-G02",
"verb": "GET",
"JSESSIONID": "SD3SL10FF7ADFF5228",
"menu": "product.screen",
"response": "200",
"bytes": "1331",
"clientIp": "217.197.192.20",
"httpversion": "1.1",
"timestamp": "04/Jul/2016:19:24:47"
這就需要通過配置解析規(guī)則來提取出相應(yīng)的字段。
下面我們就簡單介紹一下最常用也最好用的正則解析。
正則表達(dá)式概念
??正則表達(dá)式,又稱規(guī)則表達(dá)式,通常被用來檢索、替換那些符合某個模式(規(guī)則)的文本。
??正則表達(dá)式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,然后用這個“規(guī)則字符串”來對原始字符串進行過濾。
??正則表達(dá)式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義。
限定字符
限定符用來指定正則表達(dá)式的一個給定組件必須要出現(xiàn)多少次才能滿足匹配。有*或+或?或{n}或{n,}或{n,m}共6種。
限定字符 | 描述 |
---|---|
\ | 可以理解為“轉(zhuǎn)義字符” |
* | 匹配子表達(dá)式0次或任意多次,等價于{0,}。 |
+ | 匹配子表達(dá)式1次或多次(至少1次),+等價于{1,}。 |
? | 匹配子表達(dá)式0次或1次,或指明一個非貪婪限定符。 |
. | 匹配除“\r\n”之外的任何單個字符。 |
{n} | n是一個非負(fù)整數(shù),匹配確定的n次。 |
{n,} | n是一個非負(fù)整數(shù),至少匹配n次。 “{1,}”等價于“o+”。“{0,}”則等價于“o*”。 |
{n,m} | m和n均為非負(fù)整數(shù),其中n<=m。最少匹配n次且最多匹配m次。 請注意在逗號和兩個數(shù)之間不能有空格。 |
*、+和?限定符都是貪婪的,因為它們會盡可能多的匹配文字,只有在它們的后面加上一個?就可以實現(xiàn)非貪婪或最小匹配。
例如,搜索 HTML 文檔,查找括在 H1 標(biāo)記內(nèi)的章節(jié)標(biāo)題,如下:
<H1>介紹正則表達(dá)式</H1>
貪婪:匹配從小于符號 (<) 到大于符號 (>) 之間的所有內(nèi)容:
/<.*>/
非貪婪:只匹配開始和介紹 H1 標(biāo)記:
/<.*?>/
如果只想匹配開始的 H1 標(biāo)簽:
/<\w+?>/
定位字符
定位符能夠快速將正則表達(dá)式固定到行首或行尾,也能夠用來描述字符串或單詞的邊界,^ 和 $ 分別指字符串的開始與結(jié)束,\b 描述單詞的前或后邊界,\B 表示非單詞邊界。
定位字符 | 描述 |
---|---|
\b | 匹配一個單詞邊界,也就是指單詞和空格間的位置。 例如:“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。 |
\B | 匹配非單詞邊界。 例如:“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er” |
^ | 匹配輸入字符串的開始位置。 若在方括號表達(dá)式中使用,此時它表示不接受該字符集合。 |
$ | 匹配輸入字符串的結(jié)尾位置。 |
[ | 標(biāo)記一個中括號表達(dá)式的開始。 |
{ | 標(biāo)記限定符表達(dá)式的開始。 |
注意:不能將限定符與定位符一起使用。由于在緊靠換行或者字邊界的前面或后面不能有一個以上位置,因此不允許諸如 ^* 之類的表達(dá)式。
捕獲分組
捕獲分組,顧名思義,分組就是用小括號里將指定子表達(dá)式包裹起來,而捕獲就是在使用小括號指定一個子表達(dá)式后,匹配這個子表達(dá)式的文本(即匹配的內(nèi)容)
字符分組 | 描述 |
---|---|
(pattern) | 標(biāo)記一個子表達(dá)式的開始和結(jié)束位置,將( 和 ) 之間的表達(dá)式定義為“組”(group),匹配pattern并獲取這一匹配。 |
(?:pattern) | 非獲取匹配,匹配pattern但不獲取匹配結(jié)果,不進行存儲供以后使用。 |
(?=pattern) | 非獲取匹配,正向肯定預(yù)查,在任何匹配pattern的字符串開始處匹配查找字符串,該匹配不需要獲取供以后使用。預(yù)查不消耗字符,也就是說,在一個匹配發(fā)生后立即開始下一次匹配的搜索,而不是從包含預(yù)查的字符之后開始。 |
(?!pattern) | 非獲取匹配,正向否定預(yù)查,在任何不匹配pattern的字符串開始處匹配查找字符串,該匹配不需要獲取供以后使用。 |
(?<name>pattern) | 匹配,并pattern捕獲文本到名稱為name的組里 |
字符匹配
方括號表示某些字符允許在一個字符串中的某一特定位置出現(xiàn)
字符 | 描述 |
---|---|
[xyz] | 字符集合。匹配所包含的任意一個字符。例如:“[abc]”可以匹配“plain”中的“a”。 |
[^xyz] | 負(fù)值字符集合。匹配未包含的任意字符。例如:“[abc]”可以匹配“plain”中的“plin”。[,]匹配除逗號外的 0或者多個非逗號字符, ([^,] \ ) 將這些非逗號字符標(biāo)記為\1,這樣可以在之后的替換模式表達(dá)式中引用它, ([^,]*\ ), 我們必須找到0或者多個非逗號字符后面跟著一個逗號,并且非逗號字符那部分 |
[a-z] | 字符范圍。匹配指定范圍內(nèi)的任意字符。例如:“[a-z]”可以匹配“a”到“z”范圍內(nèi)的任意小寫字母字符。注意:只有連字符在字符組內(nèi)部時,并且出現(xiàn)在兩個字符之間時,才能表示字符的范圍。 |
[^a-z] | 負(fù)值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如:“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。 |
在方括號里可以用'^' 表示不希望出現(xiàn)的字符,'^' 應(yīng)在方括號里的第一位。(如:"%[^a-zA-Z]%"表示兩個百分號中不應(yīng)該出現(xiàn)字母)。
其他常用字符
常用字符 | 描述 |
---|---|
\d | 匹配一個數(shù)字字符。等價于[0-9]。 |
\D | 匹配一個非數(shù)字字符。等價于[^0-9]。 |
\s | 匹配任何不可見字符,包括空格、制表符、換頁符等等。 |
\S | 匹配任何可見字符。 |
\w | 匹配包括下劃線的任何單詞字符。類似但不等價于“[A-Za-z0-9_]”,這里的"單詞"字符使用Unicode字符集。 |
\W | 匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。 |
實例應(yīng)用
1、匹配日期:
28 十月 2016 08:38:01,745 INFO 1477530920004|616 frame.login.Login
正則表達(dá)式:
^ \d{2} \S* \d{4} \d{2}:\d{2}:\d{2},\d+
其中,\d表示匹配數(shù)值,\d{2}表示匹配2位數(shù)值,\S表示匹配非空字符
常用于多行合并
2、對規(guī)范日志提取字段
2016-05-14 23:24:47 worker01 25629 INFO Accepted password for root from 192.168.31.182 port 52119 ssh2
正則表達(dá)式:
(?<timestamp>\S+ \S+) (?<hostname>\S+) (?<pid>\S+) (?<LogLevel>\S+) (? <msg>.*)
其中,\S 表示匹配非空字符,\S+ 表示匹配連續(xù)的非空字符,(?<key>value) 表示提取字段名為key 的字段,其值為value, . 表示匹配除“\r\n”之外任何單詞字符,* 表示匹配0或多個字符。
3、對xml日志提取字段
<ns3:ConsumerId>0006</ns3:ConsumerId><ns3:TranSeqNo>1234567890</ns3:TranSeqNo>
正則表達(dá)式:
((<(\w* :)?ConsumerId>)(?<ConsumerId>[^<])(</(\w:)?ConsumerId>))
((<(\w* :)?TranSeqNo>)(?<TranSeqNo>[^<])(</(\w:)?TranSeqNo>))
其中,\w表示匹配包括下劃線的任何單詞字符,表示匹配0或多個字符,[^<]表示匹配除 < 外的任何字符。
常用于在xml日志中,根據(jù)提取字段的規(guī)范格式,輸入正則表達(dá)式進行匹配
4、字節(jié)轉(zhuǎn)碼
00000000h: 30 30 30 30 34 35 34 35 3c 3f 78 6d 6c 20 76 65 ; 00004545<?xml.ve
00000010h: 72 73 69 6f 6e 3d 22 31 2e 30 22 20 65 6e 63 6f ; rsion="1.0".enco
00000020h: 64 69 6e 67 3d 22 55 54 46 2d 38 22 3f 3e 3c 53 ; ding="UTF-8"?><S
00000030h: 53 56 42 3e 3c 54 41 63 42 6c 63 56 69 65 77 52 ; SVB>
正則表達(dá)式:
([0-9a-fA-F]{2} ){3,30}
[ ] 中的內(nèi)容是可選字符集
[0-9a-fA-F] 表示要求字符范圍在0-9,a-f,A-F之間
{3,30}表示數(shù)字字符串長度合法為3到30,即為[0-9a-fA-F]中的字符出現(xiàn)次數(shù)的范圍是3到30次。
5、常用數(shù)字匹配
^[1-9]\d* $ ? //匹配正整數(shù)
^-[1-9]\d* $ ? //匹配負(fù)整數(shù)
^-?[1-9]\d* $ //匹配整數(shù)
^[1-9]\d* |0$ //匹配非負(fù)整數(shù)(正整數(shù) + 0)
^-[1-9]\d* |0$ //匹配非正整數(shù)(負(fù)整數(shù) + 0)
^\s* |\s* $ ??//匹配首尾空白字符的正則表達(dá)式
\n\s* \r ?? //匹配空白行的正則表達(dá)式
6、限制輸入6-20個字母、數(shù)字、下劃線
/^(\w){6,20}$/
\w:用于匹配字母,數(shù)字或下劃線字符
^ 表示打頭的字符要匹配緊跟^后面的規(guī)則
$ 表示打頭的字符要匹配緊靠$前面的規(guī)則
7、限制只能輸入5-20個以字母開頭、可帶數(shù)字、“_”、“.”的字串
/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/
^[a-zA-Z]{1} 表示第一個字符要求是字母。
([a-zA-Z0-9]|[.]){4,19} 表示從第二位開始的一個長度為4到19位的字符串是由大小寫字母、數(shù)字以及特殊字符集[.]組成。
持續(xù)更新中。。。。