grep、cut、awk、sed文本處理

《LinuxShell腳本攻略》筆記,Chap-4:讓文本飛



簡介

shell腳本可以將sed, awk, grep, cut等這類優(yōu)美的工具組合在一起,用于解決文本處理相關(guān)問題。


正則表達式

正則表達式是一種用于文本匹配的形式小巧、具有高度針對性的編程語言。只依靠通配符技術(shù),能夠匹配的文本范圍相當有限。

正則表達式基本組成:

正則表達式 描述
^ 行起始標記
$ 行尾標記
. 匹配任意一個字符
[] 匹配包含在[]中的任意一個字符
[^] 匹配出[^]之外任意一個字符
[-] 匹配[]中范圍內(nèi)的任意一個字符
重復0或1次
+ 重復>=1次
* 重復>=0次
() 創(chuàng)建一個用于匹配的子串
{n} 重復n次
{n, } 重復>=n次
{n,m} 重復n到m次
\ 轉(zhuǎn)義字符
豎線l 匹配豎線l兩邊任意一項



POSIX字符類

POSIX字符類(POSIX character class),是一個形如[:...:]的特殊元序列,它用于匹配特定的字符范圍。

正則表達式 描述 栗子
[:alnum:] 字母與數(shù)字字符 [[:alnum:]]+
[:alpha:] 字母字符 [[:alpha:]]{4}
[:blank:] 空格與制表符 [[:blank:]]*
[:digit:] 數(shù)字字符 [[:digit:]]?
[:lower:] 小寫字母 [[:lower:]]{5,}
[:upper:] 大寫字母 ([[:upper:]]+)?
[:punct:] 標點符號 [[:punct:]]
[:space:] 所有空白字符 [[space:]]+



元字符

元字符(meta character),是一種Perl風格的正則表達式,只有一部分文本處理工具支持它。

正則表達式 描述 栗子
\b 單詞邊界 \bcool\b匹配cool,不匹配cooling
\B 非單詞邊界 cool\B匹配cooling,不匹配cool
\d 單個數(shù)字字符 b\dd匹配b2b,不匹配bcd
\D 單個非數(shù)字字符 b\Db匹配bcb,不匹配b2b
\w 單個單詞字符(數(shù)字,字母和_) \w匹配1或a,不匹配@
\W 單個非單詞字符 \W匹配@,不匹配1或a
\s 單個空白字符 x\sx匹配x x,不匹配xx
\S 單個非空白字符 x\Sx匹配xKx,不匹配xx
\n 換行符 \n匹配一個新行
\r 回車 \r匹配回車


#匹配一個ipv4地址
[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}

#匹配一個郵箱地址
[\w]+@[\w]\.com


用grep在文件中搜索文本

grep命令是Unix中用于文本搜索的工具,它能夠接受正則表達式和通配符。

grep "匹配文本/通配符" file1 file2... --color=auto #重點標記匹配
grep -E "正則表達式" file
egrep "正則" file

grep -v #反向匹配
grep -c #統(tǒng)計匹配行數(shù)
grep -n #打印出匹配的行號
grep -o #唯一匹配
grep -l "匹配" file1 file2    #返回匹配的文件名
grep -R #遞歸匹配
grep -i #忽略大小寫
grep -e "匹配1" -e "匹配2"  #匹配多個樣式
grep -f match.txt file1 #從match.txt文件讀取匹配
grep "匹配" --include=*.{sh,txt} --exclude=*.log --exclude-dir=/home/user -r /home    #包括或排除文件
-A/-B n #輸出匹配 之后/之前 n行
-C n    #輸出匹配 前后 n行


用cut按列切分文件

cut是一個將文本按列進行切分的小工具,它也可以指定每列定界符。在cut的術(shù)語中,每列都是一個字段。

#制表符'\t' 是cut默認的定界符
cut -d' ' -f1 1.txt #-d指定分隔符,-f打印第幾個字段
cut -f1,2,3 #打印1,2,3列
-c字符;   -b字節(jié);
cut -c 1-5 1.txt    #打印1-5字符
cut -c -2 1.txt #打印前2個字符
cut -c 3-   #打印第3個字符到行尾


統(tǒng)計特定文件詞頻

#單詞解析可以用 關(guān)聯(lián)數(shù)組,正則表達式配合sed,awk,grep等工具來完成
#關(guān)聯(lián)數(shù)組中,將單詞作為數(shù)組索引,單詞次數(shù)作為數(shù)組值
egrep -o "\b[:alpha:]+\b"   #匹配單詞


sed入門

sed是stream editor(流編輯器)的縮寫,它是文本處理中非常重要的工具。能夠完美地配合正則表達式使用。

#sed - stream editor for filtering and transforming text
#字符/在sed中最為定界符使用

#替換
#sed 's/匹配樣式/替代字符串/'
sed 's/pattern/repalce/' file   #替換
sed -i 's/pattern/repalce/' file    #將替換應用于file

echo "1.txt" > 1.txt && sed 's/txt/haha' 1.txt  #在輸出中用haha替換txt
sed -i 's/txt/haha/' 1.txt  #將1.txt文件中的txt用haha替換掉
#-i選項替換原文件

echo "hahaha" | sed 's/ha/HA/g' #全部替換
echo "hahaha"   | sed 's/ha/HA/2g'  #指定位置替換,從第2處開替換全局

#移除匹配樣式的行
sed '/pattern/d
sed '/^$/d' ##移除空白行

#在sed中用&標記已匹配字符串
echo "A wonderful goal" | sed 's/\w\+/[&]/g'    #\w\+匹配每一個單詞

#子串匹配標記\1,\2...
echo "1st 2nd 3rd" | sed 's/\(\w\+\) \(\w\+\) \(\w\+\)/\2 \1 \3/'
2nd 1st 3rd
#將\2和\1交換次序,(),+等在sed中要轉(zhuǎn)義,否則要報錯

#組合多個表達式
sed 'expression1; expression2; ...
echo "aabbcc" | sed 's/a/A/; s/b/B/; s/c/C/g'
AaBbCC

#雙引號 " " 內(nèi)的特殊符號(如$等),可以保有原本的特性
#單引號 ' ' 內(nèi)的特殊字符則僅為一般字符(純文本)
#引用
text=hello
echo 'hello world' | sed "s/$text/HELLO/"
HELLO world


awk入門

awk被設計用于數(shù)據(jù)流,它可以對列和行進行操作。

#awk ‘begin{print "start"} pattern {command} end{print "end"}’ file
awk '{sum += $1}; {print sum}'
#awk腳本由:begin塊、end塊和能使用模式(pattern)匹配的通用語句塊 組成
#3個部分都是可選的
#awk也可以從stdin中讀取內(nèi)容
cat /etc/passwd | awk -F: '{print $1}'  #-F指定界定符

#awk中的特殊變量
#NR:記錄數(shù)量(number of records),對應于當前行號
#NF:字段數(shù)量(number of fields),對應于當前行的字段數(shù)
#$0:執(zhí)行過程中當前行的文本內(nèi)容
#$1,$2...$NF:第1個/2個.../最后一個 字段的內(nèi)容
echo -e "L1 1\nL2 22\nL3 333" | awk '{print NR NF $0 $1 $2}'
# NR NF $0      $1  $2 $NF=最后一個=$2
  1  2  L1 1    L1  1  1
  2  2  L2 22   L2  2  2
  3  2  L3 333  L3  3  3

#將外部變量傳遞給awk
#-v選項可將外部值傳遞給awk
#  -v var=val  --assign=var=val
var='12345'
echo | awk -v v1=$var '{print v1}'
#多個變量
var1=111; var2=222
echo | awk '{print v1,v2}' v1=$var1 v2=$var2
#變量來自文件而非標準輸入
awk '{print v1,v2}' v1=$var1 v2=$var2 file

#用樣式對awk進行過濾處理
awk 'NR < 3,NR==4' 1.txt    #行號<5的行
awk '/linux/' 1.txt #匹配帶有l(wèi)inux的行(可用re)
awk '!/linux/' 1.txt #!匹配不帶linux的行

#設置定界符
awk -F: '{print $1}' /etc/passwd
awk '{FS=":"} {print $1}' /etc/passwd
awk '{FS=":"; print $1}' /etc/passwd

#從awk中讀取命令輸出,用getline讀取行
echo | awk '{"grep root /etc/passwd" | getlin out; print out}'
root:x:0:0:root:/root:/bin/bash

#在awk中使用循環(huán)
awk '{for(i=1;i<4;i++) {print $i}}' 2.txt   #輸出第1,2,3列


對文件中的行、單詞、字符進行迭代

#迭代文件中的每一行
echo -e "1\n22\n333" | while read line;do echo $line;done
grep "bash" /etc/passwd | while read line;do echo $line;done
#1
#22
#333

#迭代一行中的每一個單詞
echo "1 22 333" | while read line;do for word in $line;do echo $word;done;done
#1
#22
#333

#迭代一個單詞中的每一個字符
echo "abc" | while read line;
do
    for word in $line;
    do
        for((i=0;i<${#word};i++));
        do
            echo ${word:i:1};
        done;
    done;
done
#寫成一行
echo "abc" | while read line; do for word in $line; do for((i=0;i<${#word};i++)); do echo ${word:i:1}; done; done; done
#a
#b
#c
#${#word}返回變量word的長度


按列合并文件

可以使用paste命令實現(xiàn)列拼接

#paste - merge(整合) lines of files
echo -e  "1\n2\n3" > 1.txt && echo -e "Line1\nLine2\nLine3" > 2.txt
paste 1.txt 2.txt
1   Line1
2   Line2
3   Line3
#默認定界符是制表符,用-d指定
paste 1.txt 2.txt -d','


打印文件或行中的第n個單詞或n列

awk -F':' '{print $1,$3}' file1
cut -d':' -f 1,3 file1


打印不同行或樣式之間的文本

awk 'NR==1,NR==10' /etc/passwd
awk 'NR==1,NR==10' /etc/passwd | awk -F":" '{print $1,$NF}' #打印特定行內(nèi)的特定列

awk '/start_pattern/, /end_pattern/' file   #打印start到end之間的內(nèi)容,可使用re
awk '/root/, /zhang/' /etc/passwd   #打印root到zhang之間內(nèi)容
awk '/^ro.?t/, /bash$/' /etc/pass


以逆序形式打印行

可以使用awk, tac完成。tac就是反過來的cat。

#tac - 反轉(zhuǎn)顯示文件中的行,行內(nèi)的內(nèi)容無法用tac反向排列
tac 1.txt
awk '{lifo[NR]=$0; lno=NR} END{ for(;lno>-1;lno--) {print lifo[lno]};}' 1.txt


解析文本中的電子郵件和URL

從給定的文件中解析出所需要的文本是我們從事文本處理時的一項任務。

#egrep

#匹配一個郵箱地址
egrep -o '[a-zA-Z0-9.]+@[0-9a-zA-Z.]+\.[a-zA-Z]{2,4}' emails.txt

#匹配一個URL地址
egrep -o "http://[a-zA-Z0-9.]+\.[a-zA-Z]{2,3}" urls.txt


打印某個樣式之前/之后n行

grep "zhang" /etc/passwd -A 5   #Ater
grep "zhang" /etc/passwd -B 5   #Before
grep "zhang" /etc/passwd -C 5   #前后五行都打印


在文件中移除包含某個單詞的句子

只要能寫出正確的正則表達式(Regular Expression),那就手到擒來

sed 's/[^.]*handsome boy[^.]*\.//g' file.txt    #句子以.結(jié)束


文本切片與參數(shù)操作

#替換變量內(nèi)容中的部分文字
var="One two three"
echo ${var/t/T} #只替換了一個
#One Two three

#指定字符串起始位置和長度
#${變量:開始部分:長度}
${vari:start:length}
echo {var:0:2}  #On
echo {var:1:6}  #ne two

#起始字符的索引是0,將最后一個字符索引記為-1
echo ${var:(-1)}    #e
echo ${var:(-3):3}  #ree
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容

  • linux資料總章2.1 1.0寫的不好抱歉 但是2.0已經(jīng)改了很多 但是錯誤還是無法避免 以后資料會慢慢更新 大...
    數(shù)據(jù)革命閱讀 12,218評論 2 33
  • 知識點 sort uniq cut wc sed命令 awk命令 crontab定時器 sort sort 命令對...
  • 本文承接之前寫的三十分鐘學會AWK一文,在學習完AWK之后,趁熱打鐵又學習了一下SED,不得不說這兩個工具真的堪稱...
    mylxsw閱讀 4,417評論 3 74
  • sed與awk實例 文本間隔 在每一行后面增加一空行 將原來的所有空行刪除并在每一行后面增加一空行。這樣在輸出的文...
    stuha閱讀 1,912評論 0 21
  • 基礎命令 主要的命令和快捷鍵 Linux系統(tǒng)命令由三部分組成:cmd + [options]+[operation...
    485b1aca799e閱讀 1,119評論 0 0