Linux awk命令详解2-白红宇

Linux awk命令详解2

阅读量：5901 次

发布时间：2019-06-19

本文共 10242 字，大约阅读时间需要 34 分钟。

8. 文件长度相加

在目录中查看文件时，如果想快速查看所有文件的长度及其总和，但要排除子目录，使用ls -l命令，然后管道输出到a w k，a w k首先剔除首字符为d（使用正则表达式）的记录，然后将文件长度列相加，并输出每一文件长度及在E N D部分输出所有文件的长度。

本例中，首先用ls -l命令查看一下文件属性。注意第二个文件属性首字符为d，说明它是一个目录，文件长度是第5列，文件名是第9列。如果系统不是这样排列文件名及其长度，应适时加以改变。

下面的正则表达式表明必须匹配行首，并排除字符d，表达式为^ [ ^ d ]。

使用此模式打印文件名及其长度，然后将各长度相加放入变量t o t中。

[sam@chenwy sam]$ ls -l | awk '/^[^d]/ {print $9"\t"$5} {tot+=$5} END {print "total KB:" tot}'

...................

total KB:174144

或者：ls -l | awk '$1 !~ /^d/ {print $0"\t"$5} {tot+=$5} END {print "total KB:" tot}'

内置的字符串函数

awk内置字符串函数

g s u b ( r, s ) 在整个$ 0中用s替代r

g s u b ( r, s , t ) 在整个t中用s替代r

i n d e x ( s , t ) 返回s中字符串t的第一位置

l e n g t h ( s ) 返回s长度

m a t c h ( s , r ) 测试s是否包含匹配r的字符串

s p l i t ( s , a , f s ) 在f s上将s分成序列a

s p r i n t ( f m t , e x p ) 返回经f m t格式化后的e x p

s u b ( r, s ) 用$ 0中最左边最长的子串代替s

s u b s t r ( s , p ) 返回字符串s中从p开始的后缀部分

s u b s t r ( s , p , n ) 返回字符串s中从p开始长度为n的后缀部分

复制代码

g s u b函数有点类似于s e d查找和替换。它允许替换一个字符串或字符为另一个字符串或字符，并以正则表达式的形式执行。第一个函数作用于记录$ 0，第二个g s u b函数允许指定目标，然而，如果未指定目标，缺省为$ 0。

i n d e x（s，t）函数返回目标字符串s中查询字符串t的首位置。l e n g t h函数返回字符串s字符长度。

m a t c h函数测试字符串s是否包含一个正则表达式r定义的匹配。s p l i t使用域分隔符f s将字符串s划分为指定序列a。

s p r i n t函数类似于p r i n t f函数（以后涉及），返回基本输出格式f m t的结果字符串e x p。

s u b（r，s）函数将用s替代$ 0中最左边最长的子串，该子串被（ r）匹配。

s u b（s，p）返回字符串s在位置p后的后缀。s u b s t r（s，p，n）同上，并指定子串长度为n。

现在看一看a w k中这些字符串函数的功能。

1. gsub

要在整个记录中替换一个字符串为另一个，使用正则表达式格式， /目标模式/，替换模式/。例如改变学生序号4 8 4 2到4 8 9 9：

[root@Linux_chenwy root]# cd /usr/sam

[root@Linux_chenwy sam]# awk 'gsub(/4842/,4899){print $0}' grade.txt

J.Troll 07/99 4899 Brown-3 12 26 26

复制代码

[root@Linux_chenwy sam]# awk 'gsub(/4842/,4899)' grade.txt

J.Troll 07/99 4899 Brown-3 12 26 26

复制代码

2. index

查询字符串s中t出现的第一位置。必须用双引号将字符串括起来。例如返回目标字符串B u n n y中n y出现的第一位置，即字符个数。

[root@Linux_chenwy sam]# awk 'BEGIN {print index("Bunny","ny")}' grade.txt

复制代码

3. length

返回所需字符串长度，例如检验字符串J . Tr o l l返回名字及其长度，即人名构成的字符个数

[root@Linux_chenwy sam]# awk '$1=="J.Troll" {print length($1)" "$1}' grade.txt

7 J.Troll

复制代码

还有一种方法，这里字符串加双引号。

[root@Linux_chenwy sam]# awk 'BEGIN{print length("A FEW GOOD MEN")}'

复制代码

4. match

m a t c h测试目标字符串是否包含查找字符的一部分。可以对查找部分使用正则表达式，返回值为成功出现的字符排列数。如果未找到，返回0，第一个例子在A N C D中查找d。因其不存在，所以返回0。第二个例子在A N C D中查找D。因其存在，所以返回A N C D中D出现的首位置字符数。第三个例子在学生J . L u l u中查找u。

[root@Linux_chenwy sam]# awk 'BEGIN{print match("ANCD",/d/)}'

[root@Linux_chenwy sam]# awk 'BEGIN{print match("ANCD",/D/)}'

[root@Linux_chenwy sam]# awk '$1=="J.Lulu" {print match($1,"u")}' grade.txt

复制代码

5. split

使用s p l i t返回字符串数组元素个数。工作方式如下：如果有一字符串，包含一指定分隔符- ，例如A D2 - K P 9 - J U 2 - L P - 1，将之划分成一个数组。使用s p l i t，指定分隔符及数组名。此例中，命令格式为( " A D 2 - K P 9 - J U 2 - L P - 1 "，p a r t s _ a r r a y，" - "），s p l i t然后返回数组下标数，这里结果为4。

[root@Linux_chenwy sam]# awk 'BEGIN {print split("123-456-789",pats_array,"-")}'3

复制代码

还有一个例子使用不同的分隔符。

[root@Linux_chenwy sam]# awk 'BEGIN {print split("123#456#789",myarray,"#")}' 3

复制代码

这个例子中，s p l i t返回数组m y a r r a y的下标数。数组m y a r r a y取值如下：

myarray[1]=123

myarray[2]=456

myarray[3]=789

复制代码

结尾部分讲述数组概念。

6. sub

使用s u b发现并替换模式的第一次出现位置。字符串S T R包含‘poped popo pill’，执行下列s u b命令s u b（/ o p /，" o p "，S T R）。模式o p第一次出现时，进行替换操作，返回结果如下：‘pO Ped pope pill’。

如：学生J . Tr o l l的记录有两个值一样，“目前级别分”与“最高级别分”。只改变第一个为2 9，第二个仍为2 4不动，操作命令为s u b（/ 2 6 /，" 2 9 "，$ 0），只替换第一个出现2 4的位置。注意J . Tr o l l记录需存在。

[root@Linux_chenwy sam]# awk '$1=="J.Troll" sub(/26/,"29",$0)' grade.txt

M.Tans 5/99 48311 Green 8 40 44

J.Lulu 06/99 48317 green 9 24 29

P.Bunny 02/99 48 Yellow 12 35 28

J.Troll 07/99 4842 Brown-3 12 29 26

L.Tansl 05/99 4712 Brown-2 12 30 28

复制代码

7. substr

s u b s t r是一个很有用的函数。它按照起始位置及长度返回字符串的一部分。例子如下：

[root@Linux_chenwy sam]# awk '$1=="L.Tansl" {print substr($1,1,3)}' grade.txt

复制代码

上面例子中，指定在域1的第一个字符开始，返回其前面5个字符。

如果给定长度值远大于字符串长度， a w k将从起始位置返回所有字符，要抽取L Ta n s l - e y的姓，只需从第3个字符开始返回长度为7。可以输入长度9 9，a w k返回结果相同。

[root@Linux_chenwy sam]# awk '$1=="L.Tansl" {print substr($1,1,99)}' grade.txt

L.Tansl

复制代码

s u b s t r的另一种形式是返回字符串后缀或指定位置后面字符。这里需要给出指定字符串及其返回字串的起始位置。例如，从文本文件中抽取姓氏，需操作域1，并从第三个字符开始：

[root@Linux_chenwy sam]# awk '{print substr($1,3)}' grade.txt

Tans

Lulu

Bunny

Troll

Tansl

复制代码

还有一个例子，在B E G I N部分定义字符串，在E N D部分返回从第t个字符开始抽取的子串。

[root@Linux_chenwy sam]# awk 'BEGIN{STR="A FEW GOOD MEN"}END{print substr(STR,7)}' grade.txt

GOOD MEN

复制代码

8. 从s h e l l中向a w k传入字符串

a w k脚本大多只有一行，其中很少是字符串表示的。大多要求在一行内完成a w k脚本，这一点通过将变量传入a w k命令行会变得很容易。现就其基本原理讲

述一些例子。

使用管道将字符串s t a n d - b y传入a w k，返回其长度。

[root@Linux_chenwy sam]# echo "Stand-by" | awk '{print length($0)}'

复制代码

设置文件名为一变量，管道输出到a w k，返回不带扩展名的文件名。

[root@Linux_chenwy sam]# STR="mydoc.txt"

[root@Linux_chenwy sam]# echo $STR|awk '{print substr($STR,1,5)}'

mydoc

复制代码

设置文件名为一变量，管道输出到a w k，只返回其扩展名。

[root@Linux_chenwy sam]# STR="mydoc.txt"

[root@Linux_chenwy sam]# echo $STR|awk '{print substr($STR,7)}'

printf修饰符

- 左对齐

Wi d t h 域的步长，用0表示0步长

. p r e c 最大字符串长度，或小数点右边的位数

表9-7 awk printf格式

% c A S C I I字符

% d 整数

% e 浮点数，科学记数法

% f 浮点数，例如（1 2 3 . 4 4）

% g a w k决定使用哪种浮点数转换e或者f

% o 八进制数

% s 字符串

% x 十六进制数

按同样方式使用a w k得到同样结果。

[sam@chenwy sam]$ awk 'BEGIN{printf "%c\n",65}'

2. 格式化输出

打印所有的学生名字和序列号，要求名字左对齐， 1 5个字符长度，后跟序列号。注意\ n换行符放在最后一个指示符后面。输出将自动分成两列。

[root@chenwy sam]# awk '{printf "%-15s %s\n",$1,$3}' grade.txt

M.Tans 48311

J.Lulu 48317

P.Bunny 48

J.Troll 4842

L.Tansl 4712

复制代码

加入一些文本注释帮助理解报文含义。可在正文前嵌入头信息。注意这里使用p r i n t加入头信息。如果愿意，也可使用p r i n t f。

[root@chenwy sam]# awk 'BEGIN{print "Name\t\tS.Number"}{printf "%-15s %s\n",$1,$3}' grade.txt

Name S.Number

M.Tans 48311

J.Lulu 48317

P.Bunny 48

J.Troll 4842

L.Tansl 4712

复制代码

3.向一行a w k命令传值

在查看a w k脚本前，先来查看怎样在a w k命令行中传递变量。

在a w k执行前将值传入a w k变量，需要将变量放在命令行中，格式如下：

awk 命令变量=输入文件值

复制代码

（后面会讲到怎样传递变量到a w k脚本中）。

下面的例子在命令行中设置变量A G E等于1 0，然后传入a w k中，查询年龄在1 0岁以下的所有学生。

[root@chenwy sam]# awk '{if ($5<AGE) print $0}' AGE=10 grade.txt

M.Tans 5/99 48311 Green 8 40 44

J.Lulu 06/99 48317 green 9 24 26

复制代码

要快速查看文件系统空间容量，观察其是否达到一定水平，可使用下面a w k一行脚本。因为要监视的已使用空间容量不断在变化，可以在命令行指定一个触发值。首先用管道命令将df -k 传入a w k，然后抽出第4列，即剩余可利用空间容量。使用$ 4 ~ / ^ [ 0 - 9 ] /取得容量数值（1 0 2 4块）而不是d f的文件头，然后对命令行与‘ i f ( $ 4 < T R I G G E R )’上变量T R I G G E R中指定

的值进行查询测试。