文本内容处理命令和正则表达式

🕗 发布于 2024-12-02 10:28 服务器 linux 运维

文本内容处理命令

grep

用来过滤文本内容，以匹配要查询的结果。

-m 数字匹配几次后停止：

grep -m 1 /root/etc/passwd #查找包含root的行

-v 取反

-i 忽略字符的大小写，默认的，可以不加

-n 显示匹配的行号

-c 统计匹配的行数

-o 仅显示匹配到的字符串

-q 静默模式

-A 数字 after 包含匹配到的行，以及后几行。

-B 数字包含匹配到的行，以及前几行

-C 数字包含匹配到的行，以及前后各几行

-w 匹配整个单词

-E 使用扩展正则表达式 egrep=grep -E

-f 匹配两个文件中的相同内容，以第一个文件的内容为准

-r 递归目录，查找文件内容，软连接的内容不包含

-R 递归目录，查找文件内容，包含软连接的内容

grep -m \# 匹配\#次后停止
grep -m 1 root /etc/passwd #多个匹配只取第一个

-A \# after, 后\#行
grep -A3 root /etc/passwd #匹配到的行后3行也显示出来
-B \# before, 前\#行
-C \# context, 前后各\#行

grep [] file 默认使用正则表达式来匹配模式
“^……”表示以……开头，“……$”表示以……结尾
“^$”表示空行
ifconfig ens33 |grep -Eo "[0-9]\+\.[0-9]\+\.[0-9]\+\.[0-9]\+"|head -1
ifconfig ens33 |grep -Eo "([0-9]{1,3}\.){3}[0-9]{1,3}"|head -1

sort

sort 对文本文件中的数据进行排序

sort -n 将字符串按数值排序

sort -M 将三字符的月份名按月份排序（常用于Linux日志文件每行起始的时间戳）

sort -b 排序时忽略起始的空白字符

sort -r 逆序排序（升序变降序，便于查看目录中哪些文件占用磁盘空间最多）

sort -R 随机排序

sort -f 选项忽略（fold）字符串中的字符大小写

sort -u 选项（独特，unique），合并重复项，即去重

sort -k 排序键从POS1位置开始，到POS2位置结束（如果指定了POS2的话）

sort -t 指定字段分隔符

例：sort -t ':' -k 3 -n /etc/passwd

uniq

uniq 单独使用是对连续重复的行去重
uniq -c   显示每行连续出现的次数
uniq -d   仅显示连续重复过的行
uniq -u   仅显示不曾连续重复的行

tr

格式：tr [选项]... SET1 [SET2]
# SET 是一组字符串，一般都可按照字面含义理解
tr -d 删除
tr -s 压缩
tr -c 用字符集2中的字符替换字符串1中字符集的补集，要求字符集为ASCII。

cut

cut -d (delimiter): 指明分隔符，默认tab
cut -f 想要获取的字段
   #: 第#个字段,例如 3
   #,#,#：离散的多个字段，例如 1,3,6
   #-#：连续的多个字段, 例如 1-6
   混合使用：1-3,7
cut -c 取每行第几个字符
cut -b 取每行第几个字符
cut --complement 排除指定的字段
cut --output-delimiter 替换分隔符

例：cut -d ":" -f 1-3 /etc/passwd       # 1-3表示1到3
   cut -d ":" -f 1,3 /etc/passwd       # 1,3表示1和3
   cut d ":" -f 1-3 --output-delimiter=" " /etc/passwd           # 将“：”分隔符替换为“空格”

split

split [-b ][-C ][-l ][要切割的文件][输出文件名前缀][-a ]

split -b<字节> 指定按多少字节进行拆分，也可以指定 k、M、G、T 等单位。
split -<行数>或-l<行数> 指定每多少行要拆分成一个文件。
输出文件名前缀：设置拆分后的文件的名称前缀，没有指定拆分后文件的命名方式的情况下，split 会默认采用 x 字符作为文件前缀，并在前缀后加上编号，默认从 aa 开始。
split -a<后缀长度>：默认的后缀长度是 2，也就是按 aa、ab、ac 这样的格式依次编号。

例

统计当前主机状态

ss -antp | grep -v '^State' | cut -d ' ' -f 1 | sort | uniq -c

统计nginx的访问日志当中多次出现的ip地址

cat /var/log/nginx/access.log | cut -d " " -f 1 | sort | uniq -c

正则表达式

通配符：用来匹配文件名或者目录名
*：任意一个或多个字符

?：任意的单个字符

匹配任意单个字符

[a-z]
[A-Z]
[0-9]

正则表达式

按照一定的格式和符号来匹配文件内容（命令输出的结果)

正则表达式的格式：

基本正则表达式 grep

扩展正则表达式 grep -E = egrep

使用正则表达式，匹配内容最好是用引号引起来。

元字符

.：任意单个字符
\：表示转义符
[0-9]：匹配文件内容的任意单个数字
[a-z]：匹配文件内容的任意单个小写字母
[A-Z]：匹配文件内容的任意单个大写字母
()：分组
[^]：取反
[:alnum:]：字母和数字，等价于**[0-9a-zA-Z]**
[:alpha:]：代表任何英文大小写字符，亦即 [A-Za-z]
[[:lower:]]：小写字母相当于 [a-z]
[[:upper:]]：大写字母相当于 [A-Z]
[[:blank:]]：空白字符（空格和制表符）
[:space:]：包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比 [:blank:] 包含的范围广
[:cntrl:]：不可打印的控制字符（退格、删除、警铃…）
[:digit:]：十进制数字
[:xdigit:]：十六进制数字
[:graph:]：可打印的非空白字符
[:print:]：可打印字符
[:punct:]：标点符号
\w：匹配单词构成部分，等价于**[[:alnum:]]**
\W：匹配非单词构成部分，等价于**[^_[:alnum:]]**
\S：匹配任何非空白字符。等价于 [^ \f\n\r\t\v]
\s：匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [\f\n\r\t\v]

匹配次数

*：任意字符，表示匹配前面的任意字符，0次，尽可能多的匹配
.*：匹配任意长度的字符，最少要有一次。也就是匹配所有
?：匹配前面的字符0次或者1次，可有可无
\+：匹配前面的字符，最少出现1次有且>=1
\{n\}：匹配前面的字符等于多少次
\{m,n\}：匹配前面的字符最少m次，最多n次
\{,n\}：匹配前面的最多n次，只要比n小，都算
\{n, \}：匹配前面的字符至少n次，只要比n大，都算
使用拓展正则表达式将"\"去掉即可

位置锚定

^：以什么开始
$：以什么结尾
^$：空行（tab或\n）
^root$ :匹配整个单词，且这一行只有这个单词
词首锚定：\b
词尾锚定：\b

例

显示/etc/passwd中以sh结尾的行

grep -E "sh$" /etc/passwd

查找/etc/inittab中含有“以s开头，并以d结尾的单词”模式的行

grep -E "\bs[a-z]*d\b" /etc/inittab

查找ifconfig命令结果中的1-255之间的整数

ifconfig ens33 | grep -Eo "\b[1-9]\b|\b[1-9][0-9]\b|\b1[0-9]{2}\b|\b2[0-4][0-9]\b|\b25[0-5]\b"

在/etc/passwd中取出默认shell为bash的行

grep -E "bash$" /etc/passwd

高亮显示passwd文件中冒号，及其两侧的字符

grep -E ".?:.?" /etc/passwd

原文地址：https://blog.csdn.net/CYL5913/article/details/144025369

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：正则表达式
下一篇：Java有关数组的相关问题

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

文本内容处理命令和正则表达式

文本内容处理命令

grep

sort

uniq

tr

cut

split

例

统计当前主机状态

统计nginx的访问日志当中多次出现的ip地址

正则表达式

正则表达式

相关文章