Linux 和 Unix 系统中非常流行文本处理工具awk

🕗 发布于 2024-07-18 09:24 linux unix 运维

awk 是一种强大的文本处理工具，在 Linux 和 Unix 系统中非常流行。它主要用于模式扫描和处理语言，可以读取输入文件、为数据行中的字段指定操作，并基于这些操作输出数据。awk 程序通常由一系列的模式和动作对组成，模式指定了哪些数据行应被处理，而动作则定义了在这些行上应执行的操作。

基本语法

awk 'pattern { action }' input_file

用法：awk [options]  ‘{print NR,$0}’ file
-F   指定字段分隔符
NR   表示行号
$0   表示这一行的内容
$1   数字 某一列
$NF  最后一列

pattern：是可选的，用于指定哪些行应该被处理。如果省略，则处理所有行。
{ action }：是必需的，定义了当行匹配模式时应该执行的操作。
input_file：指定输入文件名。如果省略，则从标准输入读取数据。

示例

打印所有行

awk '{print}' filename

或简单地

awk 1 filename

这里，1 被视为总是为真的模式，因此所有行都会被打印。

打印第一列

awk '{print $1}' filename

$1 表示第一列。

打印第1~7列

[root@localhost ~]# head -10 /etc/passwd | awk -F ":" '{print $1,$2,$3,$4,$5,$6,$7}'
root x 0 0 root /root /bin/bash
bin x 1 1 bin /bin /sbin/nologin
daemon x 2 2 daemon /sbin /sbin/nologin
adm x 3 4 adm /var/adm /sbin/nologin
lp x 4 7 lp /var/spool/lpd /sbin/nologin
sync x 5 0 sync /sbin /bin/sync
shutdown x 6 0 shutdown /sbin /sbin/shutdown
halt x 7 0 halt /sbin /sbin/halt
mail x 8 12 mail /var/spool/mail /sbin/nologin
operator x 11 0 operator /root /sbin/nologin

打印当前记录（即整行）的内容

[root@localhost ~]# head -10 /etc/passwd | awk -F ":" '{print $0}'
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin

整个命令 head -10 /etc/passwd | awk -F “:” ‘{print $0}’ 的效果其实与仅执行 head -10 /etc/passwd 相同，因为 awk 命令在这里并没有对每行文本进行任何实质性的处理（除了指定了字段分隔符，但这个分隔符在 print $0 的上下文中并未被利用）

[root@localhost ~]# head -10 /etc/passwd | awk  '{FS=":"}{print $1,$2,$3,$4,$5,$6,$7}'
root:x:0:0:root:/root:/bin/bash      
bin x 1 1 bin /bin /sbin/nologin
daemon x 2 2 daemon /sbin /sbin/nologin
adm x 3 4 adm /var/adm /sbin/nologin
lp x 4 7 lp /var/spool/lpd /sbin/nologin
sync x 5 0 sync /sbin /bin/sync
shutdown x 6 0 shutdown /sbin /sbin/shutdown
halt x 7 0 halt /sbin /sbin/halt
mail x 8 12 mail /var/spool/mail /sbin/nologin
operator x 11 0 operator /root /sbin/nologin

在您提供的命令 head -10 /etc/passwd | awk '{FS=":"}{print $1,$2,$3,$4,$5,$6,$7}' 中，存在一个常见的 awk 使用误区。FS（字段分隔符）应该在处理任何记录之前设置，而不是在每条记录的处理块中单独设置。当您在 {FS=":"} 这样的代码块中设置 FS 时，它实际上对已经读取到当前记录（即行）没有影响，因为 awk 在读取记录时就已经决定了如何根据 FS 分割这条记录。

因此，您的命令实际上不会按预期工作，因为它在尝试打印字段时并没有正确地使用冒号作为字段分隔符。

正确的做法是在 awk 程序开始时就设置 FS，然后处理记录。这里是修改后的命令：

head -10 /etc/passwd | awk -F: '{print $1, $2, $3, $4, $5, $6, $7}'

注意，我已经将 -F: 直接传递给了 awk 命令，而不是在 awk 程序内部设置 FS。这样做可以在 awk 读取每行之前就将冒号设置为字段分隔符。

这个命令将输出 /etc/passwd 文件前10行中每行的前七个字段（如果存在的话）。这些字段通常包括用户名、密码占位符（通常是 x，表示密码存储在 /etc/shadow 中）、用户ID（UID）、组ID（GID）、用户全名或注释、家目录和登录Shell。不过，请注意，并非所有用户的记录都会有七个字段，特别是如果用户全名或注释字段为空或不存在时。但是，awk 会按照指定的字段数打印出内容，对于不存在的字段，它会打印空字符串。

对每行的第一个字段求和

awk '{sum += $1} END {print sum}' filename

这个命令会遍历文件中的每一行，将第一列的值累加到变量 sum 中，并在处理完所有行后打印总和。

过滤特定行

打印文件中第二列值大于 10 的所有行：

awk '$2 > 10 {print}' filename

[root@localhost ~]# vi score.txt
Marry   2143 78 84 77
Jack    2321 66 78 45
Tom     2122 48 77 71
Mike    2537 87 97 95
Bob     2415 40 57 62
Bigmao  8899 99 100 98

-- 计算总成绩shell角本
vi cat_call.awk
#!/bin/awk -f
#运行前
BEGIN {
    math = 0
    english = 0
    computer = 0
    printf "NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL\n"
    printf "---------------------------------------------\n"
}
#运行中
{
    math+=$3
    english+=$4
    computer+=$5
    printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5
}
#运行后
END {
    printf "---------------------------------------------\n"
    printf "  TOTAL:%10d %8d %8d \n", math, english, computer
    printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR
}

[root@localhost ~]# awk -f cat_call.awk score.txt
NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL
---------------------------------------------
Marry  2143     78       84       77      239
Jack   2321     66       78       45      189
Tom    2122     48       77       71      196
Mike   2537     87       97       95      279
Bob    2415     40       57       62      159
Bigmao 8899     99      100       98      297
---------------------------------------------
  TOTAL:       418      493      448 
AVERAGE:     69.67    82.17    74.67

使用 BEGIN 和 END 块

awk 'BEGIN {print "Start processing file..."} {print} END {print "File processing complete."}' filename

BEGIN 块在处理任何输入行之前执行，而 END 块在所有输入行处理完毕后执行。

[root@localhost ~]# head -10 /etc/passwd | awk  'BEGIN{FS=":";OFS="****"}{print $1,$2,$3,$4,$5,$6,$7}'
root****x****0****0****root****/root****/bin/bash
bin****x****1****1****bin****/bin****/sbin/nologin
daemon****x****2****2****daemon****/sbin****/sbin/nologin
adm****x****3****4****adm****/var/adm****/sbin/nologin
lp****x****4****7****lp****/var/spool/lpd****/sbin/nologin
sync****x****5****0****sync****/sbin****/bin/sync
shutdown****x****6****0****shutdown****/sbin****/sbin/shutdown
halt****x****7****0****halt****/sbin****/sbin/halt
mail****x****8****12****mail****/var/spool/mail****/sbin/nologin
operator****x****11****0****operator****/root****/sbin/nologin

[root@localhost ~]# head -10 /etc/passwd | awk  'BEGIN{FS=":"}{print $NF}'
/bin/bash
/sbin/nologin
/sbin/nologin
/sbin/nologin
/sbin/nologin
/bin/sync
/sbin/shutdown
/sbin/halt
/sbin/nologin
/sbin/nologin

使用外部变量

awk -v var=100 '{if ($1 > var) print $0}' filename

这里，-v var=100 定义了一个名为 var 的外部变量，并将其值设置为 100。然后，在 awk 程序内部使用这个变量来比较第一列的值。

进阶用法

awk 还可以进行更复杂的文本处理，如字符串操作、数组使用、自定义函数等。这些功能使得 awk 成为处理文本数据的强大工具。

注意事项

字段默认由空格或制表符分隔。可以通过 -F 选项更改字段分隔符。
awk 程序中的 { action } 可以包含多个语句，语句之间用分号分隔。
变量名区分大小写。

awk 的功能远不止于此，通过结合其内置函数和灵活的语法，你可以完成几乎任何文本处理任务。

原文地址：https://blog.csdn.net/zxrhhm/article/details/140509283

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【时时三省】单元测试简介
下一篇：20集两款ESP32开发板价格评估？-《MCU嵌入式AI开发笔记》

C# yolo10使用onnx推理
本篇总结C#端使用yolo10的onnx文件做模型推理，主要使用Microsoft.ML.OnnxRuntime.Gpu这个库。需要注意的是Microsoft.ML.OnnxRuntime 和 Mic
阅读更多2024-11-18
【软件测试】界面、功能、性能、可靠性、安全性（SQL注入、越权）、易用性测试，静态和动态测试
功能测试是为了确保程序以期望的⽅式运⾏⽽按功能要求对软件进⾏的测试，通过对⼀个系统的所有的特性和功能都进⾏测试确保符合需求和规范。软件测试是软件⽣命周期中的⼀个重要环节，具有较⾼的复杂性，对于软件测试
阅读更多2024-11-18
nfs服务器
NFS，网络文件系统）是FreeBSD支持的文件系统中的一种，它允许网络中的计算机（不同的计算机、不同的操作系统）之间通过TCP/IP网络共享资源，主要在unix系列操作系统上使用。在NFS的应用中，
阅读更多2024-11-18
金山云大数据面试题及参考答案
栈（Stack）栈是一种数据结构，它遵循后进先出（LIFO - Last In First Out）的原则。可以把栈想象成一个一端封闭的圆筒，元素只能从开口的一端进出。在计算机内存中，栈主要用于存储函
阅读更多2024-11-18
c++自制游戏（优化）
cout << "******************0、退出************************" << endl;cout <<
阅读更多2024-11-18
C++ -class
类的简介
阅读更多2024-11-18
Cobalt Strike 4.8 用户指南-第九节 Pivoting（跳板）
Pivoting，在本手册中，指的是"将一个受害机器转为其他攻击和工具的跳板"。的Beacon提供了多种pivoting选项。前提是Beacon处于交互模式。交互模式意味着一个Be
阅读更多2024-11-18
达梦 DG
以上步骤和命令提供了达梦DGswitchover的详细操作流程，确保在执行切换操作前，所有的检查和准备工作都已就绪，以保证切换过程的顺利进行。• 检查备库监听配置文件，如tnsnames.ora，并提
阅读更多2024-11-18
Mybatis查询ORACLE数据库相近字段名称的值在映射出来的对象中被覆盖
oracle数据库中有一个表，一个字段的名叫做HEA_MUR，一个字段的名叫HEAMUR，两个字段都是字符串类型。
阅读更多2024-11-18
用Redis实现分布式锁
它的核心思想是通过多个独立的 Redis 实例来增加容错性，确保即使某些实例发生故障或数据不同步，仍然能够提供高可用的分布式锁服务。通常情况下，锁是“非重入”的，也就是说，锁只能被持有它的客户端释放，
阅读更多2024-11-18