原文:http://521cto.blog.51cto.com/950229/945683
利用awk自身變量NR和FNR來處理多個文件2012年 07月 27日 星期五 22:31:10 CST這里不再介紹awk的基本用法,如果連基本用法都不知道的同學先提前學習下基本用法,再看下面的介紹,本文簡單介紹了如何使用數組,以及對awk自身變量NR和FNR的意義和區別進行介紹,并以實例的方式展示。數組也是變量,但是數組可以保存一組值或者一組元素,每個元素可以通過下標訪問。awk的數組跟其他程序設計語言的數組有所不同:1、不需要正式定義,一個數組在使用時被定義;2、數組元素的初始值為0或空字符串,除非他們被顯示的指定初始化;3、數組可以自動擴展;4、下標可以使字符串。
NR:表示awk開始執行程序后所讀取的數據行數。FNR:awk當前讀取的記錄數,其變量值小于等于NR(比如當讀取第二個文件時,FNR是從0開始重新計數,而NR不會)。
NR==FNR:用于在讀取兩個或兩個以上的文件時,判斷是不是在讀取第一個文件。
awk處理多個文件的基本語法是:awk -F分隔符 'BEGIN { 初始化 } { 循環執行部分 } END { 結束處理 }' file_list1 file_list2其中BEGIN和END可以省略,-F也可以使用默認,循環執行部分,是按行對文件進行處理的。
下面通過兩個實例來理解NR和FNR:
1, 對于單個文件NR 和FNR 的 輸出結果一樣的 :文件內容如下:
[root@tech tmp]# cat a
a b c d
a b d c
a c b d
[root@tech tmp]# cat b
aa bb cc dd
aa bb dd cc
aa cc bb dd
對單個文件處理:
[root@tech tmp]# awk '{ print NR,$0 }' a
1 a b c d
2 a b d c
3 a c b d
[root@tech tmp]# awk '{ print FNR,$0 }' a
1 a b c d
2 a b d c
3 a c b d
2, 但是對于多個文件,NR和FNR代表的含義和區別:
[root@tech tmp]# awk '{ print NR,$0 }' a b
1 a b c d
2 a b d c
3 a c b d
4 aa bb cc dd
5 aa bb dd cc
6 aa cc bb dd
[root@tech tmp]# awk '{ print FNR,$0 }' a b
1 a b c d
2 a b d c
3 a c b d
1 aa bb cc dd
2 aa bb dd cc
3 aa cc bb dd
再看一個例子關于NR和FNR的典型應用:
現在有兩個文件格式如下:
[root@tech tmp]# cat account
李四|000002
張三|000001
王五|000003
趙六|000004
[root@tech tmp]# cat cdr
000001|10
000001|20
000002|30
000002|15
000002|45
000003|40
000003|25
000004|60
執行如下代碼
張三|000001|10
張三|000001|20
李四|000002|30
李四|000002|15
李四|000002|45
王五|000003|40
王五|000003|25
趙六|000004|60
執行如下代碼
[root@tech tmp]# awk -F | 'NR==FNR { a[$2]=$0; next } { print a[$1]"|"$2 }' account cdr
張三|000001|10
張三|000001|20
李四|000002|30
李四|000002|15
李四|000002|45
王五|000003|40
王五|000003|25
趙六|000004|60
注釋:
當NR=FNR為真時,判斷當前讀入的是第一個文件account,然后使用{ a[$2]=$0; next }循環將account文件的每行記錄都存入數組a,并使用$2第2個字段作為下標引用.
當NR=FNR為假時,判斷當前讀入了第二個文件cdr,然后跳過{a[$2]=$0;next},對第二個文件cdr的每一行都無條件執行{ print a[$1]"|"$2 },此時變量$1為第二個文件的第一個字段,與讀入第一個文件時,采用第一個文件第二個字段$2為數組下標相同.因此可以在此使用a[$1]引用數組。
再比如:file11 billchen mp2 allenquan zhanghu3 collenswang jieru
file21 shenzhen guangdong2 jinan shandong3 nanchang jiangxi
我們用awk來處理文件:
1、先看下面兩個例子:[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2collenswang jieruallenquan zhanghubillchen mp
當NR==FNR時,執行a[$2]=$3,以$2為下標,以$3為值,循環執行。
注意區別:將上面例子$2改為NR[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file21 mp2 zhanghu3 jieru
當NR==FNR時,執行a[NR]=$3,以NR為下標,以$3為值,循環執行。
2、再看下面兩個例子:[root@tech tmp]# awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2nanchang jiangxishenzhen guangdongjinan shandong
當NR!=FNR時,執行a[$2]=$3,以$2為下標,以$3為值,循環執行。
注意區別:將上面例子$2改為NR[root@tech tmp]# awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file24 guangdong5 shandong6 jiangxi當NR!=FNR時,執行a[NR]=$3,以NR為下標,以$3為值,循環執行。
3、再將它們組合起來進行多文件處理:[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2collenswang jieruallenquan zhanghubillchen mp--------nanchang jiangxishenzhen guangdongjinan shandong
當NR==FNR時,執行a[$2]=$3,以$2為下標,以$3為值,當NR!=FNR時,執行b[$2]=$3,循環執行。
注意區別:將上面例子$2改為NR[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file21 mp2 zhanghu3 jieru--------4 guangdong5 shandong6 jiangxi當NR==FNR時,執行a[NR]=$3,以NR為下標,以$3為值,當NR!=FNR時,執行b[NR]=$3,循環執行。
下面是我將命令單獨摘出供大家對比:awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2
注:awk把一串連續的空格符合制表符(即空白串)當做一個默認分隔符可以去掉: -F' ' ,上述命令可以簡寫如下:awk 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2awk 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2上面簡寫命令讀者可以運行測試,結果跟原來的是一樣的。
以下是我的詳細運行結果,仔細對比即可找到規律:[root@tech tmp]# more file1 file2::::::::::::::file1::::::::::::::1 billchen mp2 allenquan zhanghu3 collenswang jieru::::::::::::::file2::::::::::::::1 shenzhen guangdong2 jinan shandong3 nanchang jiangxi[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2collenswang jieruallenquan zhanghubillchen mp[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file21 mp2 zhanghu3 jieru[root@tech tmp]# awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2nanchang jiangxishenzhen guangdongjinan shandong[root@tech tmp]# awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file24 guangdong5 shandong6 jiangxi[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2collenswang jieruallenquan zhanghubillchen mp--------nanchang jiangxishenzhen guangdongjinan shandong[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file21 mp2 zhanghu3 jieru--------4 guangdong5 shandong6 jiangxi感謝各位前輩的指點,以及對awk相關知識的貢獻,同時謝謝以下參考頁面的原作者。本地同名文件以附件的形式上傳了,讀者可以下載參考。
參考頁面:1、http://blog.163.com/xychenbaihu@yeah/blog/static/132229655201222771550599/2、http://www.linuxidc.com/Linux/2012-05/61174.htm