第四章 Linux常用shell命令-4.8 字符串和文本处理

字符串和文本处理超级中要，特别是对于想从事Linux开发或者运维管理的初学者。这些命令必定要会用，至少要知道有这几个强劲的命令，什么情况下需要使用这些命令，在需要的时候，知道有这样的方法，然后可以再去查询使用方法，说实话，我也不精通这些命令的高级用法，但是在进行shell编程（shell编程后续会有专门章节介绍），进行文件处理，知道什么情况该使用什么命令了，然后再在网上搜寻详细的用法，也是可以的。

另外，这里面许多内容也是摘抄网络，只做了简单整理，如有侵权，请联系我删除。

grep: 用于查找文件里符合条件的字符串
sed:利用脚本来处理文本文件,用来自动编辑一个或多个文件、简化对文件的反复操作、编写转换程序等
awk:一种处理文本文件的语言，是一个强劲的文本分析工具

这三个命令，一般也被称为Linux三剑客，可见其重大性。

1) grep

描述

Linux grep 命令用于查找文件里符合条件的字符串。

grep 指令用于查找内容包含指定的范本样式的文件，如果发现某文件的内容符合所指定的范本样式，预设 grep 指令会把含有范本样式的那一列显示出来。

语法

grep [-abcEFGhHilLnqrsvVwxy][-A<显示行数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][–help][范本样式][文件或目录…]

参数

-a 或 –text : 不要忽略二进制的数据。
-A<显示行数> 或 –after-context=<显示行数> : 除了显示符合范本样式的那一列之外，并显示该行之后的内容。
-b 或 –byte-offset : 在显示符合样式的那一行之前，标示出该行第一个字符的编号。
-B<显示行数> 或 –before-context=<显示行数> : 除了显示符合样式的那一行之外，并显示该行之前的内容。
-c 或 –count : 计算符合样式的列数。
-C<显示行数> 或 –context=<显示行数>或-<显示行数> : 除了显示符合样式的那一行之外，并显示该行之前后的内容。
-d <动作> 或 –directories=<动作> : 当指定要查找的是目录而非文件时，必须使用这项参数，否则grep指令将回报信息并停止动作。
-e<范本样式> 或 –regexp=<范本样式> : 指定字符串做为查找文件内容的样式。
-E 或 –extended-regexp : 将样式为延伸的正则表达式来使用。
-f<规则文件> 或 –file=<规则文件> : 指定规则文件，其内容含有一个或多个规则样式，让grep查找符合规则条件的文件内容，格式为每行一个规则样式。
-F 或 –fixed-regexp : 将样式视为固定字符串的列表。
-G 或 –basic-regexp : 将样式视为普通的表明法来使用。
-h 或 –no-filename : 在显示符合样式的那一行之前，不标示该行所属的文件名称。
-H 或 –with-filename : 在显示符合样式的那一行之前，表明该行所属的文件名称。
-i 或 –ignore-case : 忽略字符大小写的差别。
-l 或 –file-with-matches : 列出文件内容符合指定的样式的文件名称。
-L 或 –files-without-match : 列出文件内容不符合指定的样式的文件名称。
-n 或 –line-number : 在显示符合样式的那一行之前，标示出该行的列数编号。
-o 或 –only-matching : 只显示匹配PATTERN 部分。
-q 或 –quiet或–silent : 不显示任何信息。
-r 或 –recursive : 此参数的效果和指定”-d recurse”参数一样。
-s 或 –no-messages : 不显示错误信息。
-v 或 –invert-match : 显示不包含匹配文本的所有行。
-V 或 –version : 显示版本信息。
-w 或 –word-regexp : 只显示全字符合的列。
-x –line-regexp : 只显示全列符合的列。
-y : 此参数的效果和指定”-i”参数一样。

看到上面的介绍，是不是有点晕，这么多参数，怎么记得住，的确，我也记不住，这个命令是我常常用的，但是我也只记得最基本的用法，许多参数至今都没有使用过。所以，你也记得几个最常用的参数就行了，当使用上不满足的时候，再来看看是否有一些高级用法，可以满足你的使用。

实例：

a>在当前目录中，查找文件名中后缀是 file 字样的文件中包含 test 字符串的文件，并打印出该字符串的行。此时，可以使用如下命令：

grep test *file

结果如下所示：

$ grep test test* #查找前缀有“test”的文件包含“test”字符串的文件
testfile1:This a Linux testfile! #列出testfile1 文件中包含test字符的行
testfile_2:This is a linux testfile! #列出testfile_2 文件中包含test字符的行
testfile_2:Linux test #列出testfile_2 文件中包含test字符的行

b>以递归的方式查找符合条件的文件。例如，查找指定目录/etc/acpi 及其子目录（如果存在子目录的话）下所有文件中包含字符串”update”的文件，并打印出该字符串所在行的内容，使用的命令为：

grep -r update /etc/acpi

输出结果如下：

$ grep -r update /etc/acpi #以递归的方式查找“etc/acpi” #下包含“update”的文件 
/etc/acpi/ac.d/85-anacron.sh:# (Things like the slocate updatedb cause a lot of IO.) Rather than 
/etc/acpi/resume.d/85-anacron.sh:# (Things like the slocate updatedb cause a lot of
IO.) Rather than 
/etc/acpi/events/thinkpad-cmos:action=/usr/sbin/thinkpad-keys--update

3、反向查找。前面各个例子是查找并打印出符合条件的行，通过”-v”参数可以打印出不符合条件行的内容。

查找文件名中包含 test 的文件中不包含test 的行，此时，使用的命令为：

grep -v test *test*

结果如下所示：

$ grep-v test* #查找文件名中包含test 的文件中不包含test 的行
testfile1:helLinux!
testfile1:Linis a free Unix-type operating system.
testfile1:Lin
testfile_1:HELLO LINUX!
testfile_1:LINUX IS A FREE UNIX-TYPE OPTERATING SYSTEM.
testfile_1:THIS IS A LINUX TESTFILE!
testfile_2:HELLO LINUX!
testfile_2:Linux is a free unix-type opterating system.

场景： 系统报警显示了时间，但是日志文件太大无法直接 cat 查看。(查询含有特定文本的文件，并拿到这些文本所在的行)

解决：

grep -n '2019-10-24 00:01:11' *.log

查看符合条件的日志条目。

Linux 里利用 grep 和 find 命令查找文件内容

从文件内容查找匹配指定字符串的行：

$ grep "被查找的字符串" 文件名

例子：在当前目录里第一级文件夹中寻找包含指定字符串的 .in 文件

grep "thermcontact" /.in

从文件内容查找与正则表达式匹配的行：

$ grep –e "正则表达式" 文件名

查找时不区分大小写：

$ grep –i "被查找的字符串" 文件名

查找匹配的行数：

$ grep -c "被查找的字符串" 文件名

从文件内容查找不匹配指定字符串的行：

$ grep –v "被查找的字符串" 文件名

从根目录开始查找所有扩展名为 .log 的文本文件，并找出包含 “ERROR” 的行：

解释一下：“|”这个竖杆分隔符，表明将find / -type f -name “*.log” 命令的输出作为xargs grep “ERROR”命令行的输入

$ find / -type f -name "*.log" | xargs grep "ERROR"

例子：从当前目录开始查找所有扩展名为 .in 的文本文件，并找出包含 “thermcontact” 的行：

find . -name "*.in" | xargs grep "thermcontact"

2) sed

描述

Linux sed 命令是利用脚本来处理文本文件。

sed 可依照脚本的指令来处理、编辑文本文件。

Sed 主要用来自动编辑一个或多个文件、简化对文件的反复操作、编写转换程序等。

语法

sed [-hnV][-e<script>][-f<script文件>][文本文件]

参数

参数说明：

-e<script>或–expression=<script> 以选项中指定的script来处理输入的文本文件。
-f<script文件>或–file=<script文件> 以选项中指定的script文件来处理输入的文本文件。
-h或–help 显示协助。
-n或–quiet或–silent 仅显示script处理后的结果。
-V或–version 显示版本信息。

动作说明：

a ：新增， a 的后面可以接字串，而这些字串会在新的一行出现(目前的下一行)～
c ：取代， c 的后面可以接字串，这些字串可以取代 n1,n2 之间的行！
d ：删除，由于是删除啊，所以 d 后面一般不接任何咚咚；
i ：插入， i 的后面可以接字串，而这些字串会在新的一行出现(目前的上一行)；
p ：打印，亦即将某个选择的数据印出。一般 p 会与参数 sed -n 一起运行～
s ：取代，可以直接进行取代的工作哩！一般这个 s 的动作可以搭配正规表明法！例如 1,20s/old/new/g 就是啦！

实例

在testfile文件的第四行后添加一行，并将结果输出到标准输出，在命令行提示符下输入如下命令：

sed -e 4a
ewLine testfile

第一查看testfile中的内容如下：

$ cat testfile #查看testfile 中的内容
HELLO LINUX! 
Linux is a free unix-type opterating system.
This is a linux testfile! 
Linux test

使用sed命令后，输出结果如下（没有真正改变实际文件）：

$ sed -e 4a
ewline testfile #使用sed 在第四行后添加新字符串
HELLO LINUX!  
Linux is a free unix-type opterating system.
This is a linux testfile! 
Linux test
newline

以行为单位的新增/删除

将 /etc/passwd 的内容列出并且列印行号，同时，请将第 2~5 行删除！

| 表明将| 前面的输出（即nl /etc/passwd）作为| 后面（sed '2,5d'）的输入，这样就不会真正改变到文件。nl是表明带行号输出文件的内容。

[root@www ~]# nl /etc/passwd | sed '2,5d'
1 root:x:0:0:root:/root:/bin/bash
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown.....(后面省略).....

sed 的动作为 '2,5d' ，那个 d 就是删除！由于 2-5 行给他删除了，所以显示的数据就没有 2-5 行罗～另外，注意一下，原本应该是要下达 sed -e 才对，没有 -e 也行啦！同时也要注意的是， sed 后面接的动作，请务必以 '' 两个单引号括住喔！

只要删除第 2 行

nl /etc/passwd | sed '2d'

要删除第 3 到最后一行

nl /etc/passwd | sed '3,$d'

在第二行后(即是加在第三行)加上“drink tea”字样！

[root@www ~]# nl /etc/passwd | sed '2a drink tea'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
drink tea
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin.....(后面省略).....

那如果是要在第二行前

nl /etc/passwd | sed '2i drink tea'

如果是要增加两行以上，在第二行后面加入两行字，例如 Drink tea or ….. 与 drink beer?

[root@www ~]# nl /etc/passwd | sed '2a Drink tea or ......
drink beer ?'
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
Drink tea or ......
drink beer ?
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin.....(后面省略).....

每一行之间都必须要以反斜杠『』来进行新行的添加喔！所以，上面的例子中，我们可以发目前第一行的最后面就有存在。

以行为单位的替换与显示

将第2-5行的内容取代成为『No 2-5 number』呢？

[root@www ~]# nl /etc/passwd | sed '2,5c No 2-5 number'
1 root:x:0:0:root:/root:/bin/bashNo 
2-5 number
6 sync:x:5:0:sync:/sbin:/bin/sync.....(后面省略).....

透过这个方法我们就能够将数据整行取代了！

仅列出 /etc/passwd 文件内的第 5-7 行

[root@www ~]# nl /etc/passwd | sed -n '5,7p'
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

可以透过这个 sed 的以行为单位的显示功能，就能够将某一个文件内的某些行号选择出来显示。

数据的搜寻并显示

搜索 /etc/passwd有root关键字的行

nl /etc/passwd | sed '/root/p'
1  root:x:0:0:root:/root:/bin/bash
1  root:x:0:0:root:/root:/bin/bash
2  daemon:x:1:1:daemon:/usr/sbin:/bin/sh
3  bin:x:2:2:bin:/bin:/bin/sh
4  sys:x:3:3:sys:/dev:/bin/sh
5  sync:x:4:65534:sync:/bin:/bin/sync....下面忽略

如果root找到，除了输出所有行，还会输出匹配行。

使用-n的时候将只打印包含模板的行。

nl /etc/passwd | sed -n '/root/p'
1 root:x:0:0:root:/root:/bin/bash

数据的搜寻并删除

删除/etc/passwd所有包含root的行，其他行输出

nl /etc/passwd | sed '/root/d'
2 daemon:x:1:1:daemon:/usr/sbin:/bin/sh
3 bin:x:2:2:bin:/bin:/bin/sh....下面忽略#第一行的匹配root已经删除了

数据的搜寻并执行命令

搜索/etc/passwd,找到root对应的行，执行后面花括号中的一组命令，每个命令之间用分号分隔，这里把bash替换为blueshell，再输出这行：

nl /etc/passwd | sed -n '/root/{s/bash/blueshell/;p;q}' 
1 root:x:0:0:root:/root:/bin/blueshell

最后的q是退出。

数据的搜寻并替换

除了整行的处理模式之外， sed 还可以用行为单位进行部分数据的搜寻并取代。基本上 sed 的搜寻与替代的与 vi 相当的类似！他有点像这样：

sed 's/要被取代的字串/新的字串/g'

先观察原始信息，利用 /sbin/ifconfig 查询 IP

eth0表明你机器上的网卡，有可能你机器上的网卡名称不是eht0，请修改成你机器上相应的网卡名称，列如enp0s3。可以用ifconfig来查看你机器上的网卡名称。

[root@www ~]# /sbin/ifconfig eth0
eth0 Link encap:Ethernet HWaddr 00:90:CC:A6:34:84
inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0
inet6 addr: fe80::290:ccff:fea6:3484/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1.....(以下省略).....

本机的ip是192.168.1.100。

将 IP 前面的部分予以删除

[root@www ~]# /sbin/ifconfig eth0 | grep 'inet addr' | sed 's/^.*addr://g'
192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0

接下来则是删除后续的部分，亦即： 192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.0

将 IP 后面的部分予以删除

[root@www ~]# /sbin/ifconfig eth0 | grep 'inet addr' | sed 's/^.*addr://g' | sed 's/Bcast.*$//g'
192.168.1.100

多点编辑

一条sed命令，删除/etc/passwd第三行到末尾的数据，并把bash替换为blueshell

nl /etc/passwd | sed -e '3,$d' -e 's/bash/blueshell/'
1 root:x:0:0:root:/root:/bin/blueshell
2 daemon:x:1:1:daemon:/usr/sbin:/bin/sh

-e表明多点编辑，第一个编辑命令删除/etc/passwd第三行到末尾的数据，第二条命令搜索bash替换为blueshell。

直接修改文件内容(危险动作)

sed 可以直接修改文件的内容，不必使用管道命令或数据流重导向！不过，由於这个动作会直接修改到原始的文件，所以请你千万不要随意拿系统配置来测试！我们还是使用文件 regular_express.txt 文件来测试看看吧！

regular_express.txt 文件内容如下：

[root@www ~]# cat regular_express.txt
runoob.
google.
taobao.
facebook.
zhihu-
weibo-

利用 sed 将 regular_express.txt 内每一行结尾若为 . 则换成 !

[root@www ~]# sed -i 's/.$/!/g' regular_express.txt
[root@www ~]# cat regular_express.txt
runoob!
google!
taobao!
facebook!
zhihu-
weibo-
:q:q

利用 sed 直接在 regular_express.txt 最后一行加入 # This is a test:

[root@www ~]# sed -i '$a # This is a test' regular_express.txt
[root@www ~]# cat regular_express.txt
runoob!
google!
taobao!
facebook!
zhihu-
weibo-# This is a test

由於 $ 代表的是最后一行，而 a 的动作是新增，因此该文件最后新增 # This is a test！

sed 的 -i 选项可以直接修改文件内容，这功能超级有协助！举例来说，如果你有一个 100 万行的文件，你要在第 100 行加某些文字，此时使用 vim 可能会疯掉！由于文件太大了！那怎办？就利用 sed 啊！透过 sed 直接修改/取代的功能，你甚至不需要使用 vim 去修订！

更多实例

删除：d命令

$ sed '2d' example—–删除example文件的第二行。

$ sed '2,$d' example—–删除example文件的第二行到末尾所有行。

$ sed '$d' example—–删除example文件的最后一行。

$ sed '/test/'d example—–删除example文件所有包含test的行。

替换：s命令

$ sed 's/test/mytest/g' example—–在整行范围内把test替换为mytest。如果没有g标记，则只有每行第一个匹配的test被替换成mytest。

$ sed -n 's/^test/mytest/p' example—–(-n）选项和p标志一起使用表明只打印那些发生替换的行。也就是说，如果某一行开头的test被替换成mytest，就打印它。

$ sed 's/^192.168.0.1/&localhost/' example—–&；符号表明替换换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加localhost，变成192.168.0.1localhost。

$ sed -n 's/(love)able/1rs/p' example—–love被标记为1，所有loveable会被替换成lovers，而且替换的行会被打印出来。

$ sed 's#10#100#g' example—–不论什么字符，紧跟着s命令的都被认为是新的分隔符，所以，“#”在这里是分隔符，取代了默认的“/”分隔符。表明把所有10替换成100。

选定行的范围：逗号

$ sed -n '/test/,/check/p' example—–所有在模板test和check所确定的范围内的行都被打印。

$ sed -n '5,/^test/p' example—–打印从第五行开始到第一个包含以test开始的行之间的所有行。

$ sed '/test/,/check/s/$/sed test/' example—–对于模板test和check之间的行，每行的末尾用字符串sed test替换。

多点编辑：e命令

$ sed -e '1,5d' -e 's/test/check/' example—–(-e）选项允许在同一行里执行多条命令。如例子所示，第一条命令删除1至5行，第二条命令用check替换test。命令的执行顺序对结果有影响。如果两个命令都是替换命令，那么第一个替换命令将影响第二个替换命令的结果。

$ sed –expression='s/test/check/' –expression='/love/d' example—–一个比-e更好的命令是–expression。它能给sed表达式赋值。

从文件读入：r命令

$ sed '/test/r file' example—–file里的内容被读进来，显示在与test匹配的行后面，如果匹配多行，则file的内容将显示在所有匹配行的下面。

写入文件：w命令

$ sed -n '/test/w file' example—–在example中所有包含test的行都被写入file里。

追加命令：a命令

$ sed '/^test/a\—>this is a example' example<—–'this is a example'被追加到以test开头的行后面，sed要求命令a后面有一个反斜杠。

插入：i命令

$ sed '/test/i\

new line

————————-' example

如果test被匹配，则把反斜杠后面的文本插入到匹配行的前面。

总之，sed命令在处理文本上很强劲，虽然不必定都能记住，但你要清楚这个命令有什么用，需要的时候可以使用起来。

3) awk

描述

AWK 是一种处理文本文件的语言，是一个强劲的文本分析工具。

之所以叫 AWK 是由于其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。

语法

awk [选项参数] 'script' var=value file(s)或

awk [选项参数] -f scriptfile var=value file(s)

参数

-F fs or –field-separator fs
指定输入文件折分隔符，fs是一个字符串或者是一个正则表达式，如-F:。

-v var=value or –asign var=value
赋值一个用户定义变量。

-f scripfile or –file scriptfile
从脚本文件中读取awk命令。

-mf nnn and -mr nnn
对nnn值设置内在限制，-mf选项限制分配给nnn的最大块数目；-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能，在标准awk中不适用。

-W compact or –compat, -W traditional or –traditional
在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样，所有的awk扩展都被忽略。

-W copyleft or –copyleft, -W copyright or –copyright
打印简短的版权信息。

-W help or –help, -W usage or –usage
打印全部awk选项和每个选项的简短说明。

-W lint or –lint
打印不能向传统unix平台移植的结构的警告。

-W lint-old or –lint-old
打印关于不能向传统unix平台移植的结构的警告。

-W posix
打开兼容模式。但有以下限制，不识别：/x、函数关键字、func、换码序列以及当fs是一个空格时，将新行作为一个域分隔符；操作符**和**=不能取代^和^=；fflush无效。

-W re-interval or –re-inerval
允许间隔正则表达式的使用，参考(grep中的Posix字符类)，如括号表达式[[:alpha:]]。

-W source program-text or –source program-text
使用program-text作为源代码，可与-f命令混用。

-W version or –version
打印bug报告信息的版本。

实例：

log.txt文本内容如下：

2 this is a test
3 Are you like awk
This's a test
10 There are orange,apple,mongo

用法一：

awk '{[pattern] action}' {filenames} # 行匹配语句 awk '' 只能用单引号

实例：

# 每行按空格或TAB分割，输出文本中的1、4项

$ awk '{print $1,$4}' log.txt
---------------------------------------------
2 a
3 like
This's
10 orange,apple,mongo

# 格式化输出

%-8s 表明输出8个字符的字符串, 不够8个字符左对齐

%-10s 表明输出10个字符的字符串, 不够10个字符左对齐

$ awk '{printf "%-8s %-10s
",$1,$4}' log.txt
---------------------------------------------
2        a         
3        like      
This's             
10       orange,apple,mongo

用法二：

awk -F #-F相当于内置变量FS, 指定分割字符

实例：

# 使用”,”分割

$ awk -F, '{print $1,$2}' log.txt
---------------------------------------------
2 this is a test
3 Are you like awk
This's a test
10 There are orange apple

# 或者使用内建变量

$ awk 'BEGIN{FS=","} {print $1,$2}' log.txt
---------------------------------------------
2 this is a test 
3 Are you like awk 
This's a test 
10 There are orange apple

# 使用多个分隔符，先使用空格分割，然后对分割结果再使用”,”分割

$ awk -F '[ ,]' '{print $1,$2,$5}' log.txt
---------------------------------------------
2 this test
3 Are awk
This's a 
10 There apple

用法三：

awk -v # 设置变量

实例：

赋值，这里赋值a=1, $1表明每行第一个字母

$ awk -va=1 '{print $1,$1+a}' log.txt
---------------------------------------------
2 3
3 4
This's 1
10 11

赋值a=1,b=s


$ awk -va=1 -vb=s '{print $1,$1+a,$1b}' log.txt
---------------------------------------------
2 3 2s
3 4 3s
This's 1 This'ss
10 11 10s

awk还有许多更高级的用法，我们这里不做探讨。大家有兴趣可以深入研究。

以上几个命令，我除了grep用的比较多，其他两个命令实则用的不多，但我还是要强调一下，这几个命令很在处理文本的时候很重大，特别当你要写一个shell脚本来做一些文本处理的时候，必定会用到这几个命令，我们公司的测试人员就用的很熟，由于他们测试时，常常会写一些自动化的测试脚本，也就常常会用到这些命令。我们后续再讲解shell编程的时候，可以回过头来再看看，到时也会再举具体的例子来说明。