Shell编程之正则表达式与文本处理器

（1）正则表达式---通常用于判断语句中，用来检查某一字符串是否满足某一格式
（2）正则表达式是由普通字符与元字符组成
（3）普通字符包括大小写字母、数字、标点符号及一些其他符号
（4）元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式

1.2主要命令--grep

grep [选项]… 查找条件目标文件

常用选项	功能
-E	开启扩展（Extend）的正则表达式
-c	计算找到 '搜寻字符串' 的次数
-i	忽略大小写的不同，所以大小写视为相同
-o	只显示被模式匹配到的字符串
-v	反向选择，亦即显示出没有 '搜寻字符串' 内容的那一行！（反向查找，输出与查找条件不相符的行）
--color=auto	可以将找到的关键词部分加上颜色的显示
-n	顺便输出行号

2.基础正则表达式（BRE）

基础正则表达式常见元字符：(支持的工具：grep、egrep、sed、awk)

2.1特殊字符

特殊字符	描述	示例及解释
\	转义符，将特殊字符进行转义，忽略其特殊意义	a\.b匹配a.b，但不能匹配ajb，.被转义为特殊意义
^	匹配行首	^tux匹配以'tux`开头的行
$	匹配行尾	tux$匹配以tux结尾的行
.	匹配除换行符\r\n之外的任意单个字符	a.b匹配a和b之间任意一个字符
[list]	匹配list列表中的一个字符	go[ola]d匹配gold、good、goad，也可以是[a-z]匹配所有小写字母
[^list]	匹配任意不在list列表中的一个字符	[^a-z]匹配任意非小写字母的字符
*	匹配前面子表达式0次或者多次	goo*d匹配god、good、gooooood
\{n\}	匹配前面的子表达式n次	go\{2\}d~匹配good、[0-9]\{2\} 匹配两位数字
\{n,\}	匹配前面的子表达式不少于n次	go\{2,\}d匹配good、goood等、[0-9]\{2,\}匹配两位及两位以上数字
\{n,m\}	匹配前面的子表达式n到m次	go\{2,3\}d匹配good、goood、[0-9]\{2,3\}`匹配两位到三位数字

注：egrep、awk使用{n}、{n, }、{n, m}匹配时“{}"前不用加"\”

2.2定位符

^ 匹配输入字符串开始的位置
$ 匹配输入字符串结尾的位置

2.3非打印字符

\n 匹配一个换行符
\r 匹配一个回车符
\t 匹配一个制表符

3.扩展正则表达式(ERE)

通常情况下会使用基础正则表达式就已经足够了，但有时为了简化整个指令，需要使用范围更广的扩展正则表达式

下面举几个例子说明：

+ 作用：重复一个或者一个以上的前一个字符

？作用：零个或者一个的前一个字符

| 作用：使用或者（or）的方式找出多个字符

() 作用：查找“组”字符串

()+ 作用：辨别多个重复的组

4.元字符操作的案列

查找特定字符以及反向选择

利用中括号“[]”来查找集合字符以及查找包含重复单个字符

大小写字母查找"a-z"或"A-Z"以及数字查找

查找行首“^”与行尾字符“$”

“^”符号在元字符集合“[]”符号内外的作用是不一样的

查找任意一个字符“.”与重复字符“*”

查找连续字符范围“{}”

二、命令小工具

1.cut：列截取工具

用法：

cut命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出

如果不指定File参数，cut命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一

选项	功能
-b	按字节截取
-c	按字符截取，常用于中文
-d	指定以什么为分隔符截取，默认为制表符
-f	通常和-d一起

2.sort排序

是一个以行为单位对文件内容进行排序的工具，也可以根据不同的数据类型来排序。例如数据和字符的排序就不一样

选项	功能
-t	指定分隔符，默认使用[Tab]吧键或空格分隔
-k	指定排序区域，哪个区间排序
-n	按照数字进行排序，默认是以文字形式排序
-u	等同于uniq，表示相同的数据仅显示一行，注意：如果行尾有空格去重就不成功
-r	反向排序，默认是升序，-r就是降序
-o	将排序后的结果转存至指定文件

3.uniq去重

主要用于去除连续的重复行
注意：是连续的行，所以通常和sort结合使用先排序使之变成连续的行再执行去重操作，否则不连续的重复行他不能去重

选项	功能
-c	对重复的行进行计数
-d	仅显示重复行
-u	仅显示出现一次的行

4.tr删除

它可以用一个字符来替换另一个字符，或者可以完全除去一些字符，也可以用它来除去重复字符

选项	功能
-d	删除字符
-s	删除所有重复出现的字符，只保留第一个

cat fruit | tr " ' " '/'

如果想替换单引号则需要用双引号把单引号引起来，反斜杠转义也不行

原文地址：https://blog.csdn.net/2201_75444658/article/details/140643180

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：centos系统使用mysqldump数据备份与恢复
下一篇：【算法刷题】【力扣】| 最长回文子串|

VirtualBox 网络设置
VirtualBox 提供了多种网络设置方式，每种方式都有其特定的应用场景和优缺点。在选择网络设置方式时，需要根据实际需求进行综合考虑。如果需要虚拟机像独立的物理计算机一样与外部网络中的其他设备进行通
阅读更多2024-09-19
什么是 SSL 代理？
SSL 的作用是保证您的数据在您的设备和互联网之间传输时的安全。当您访问安全网站时，您的连接会使用 SSL 加密，因此您共享的任何数据都是加密的，不会被窥探。SSL 代理不仅会加密您的通信数据，还会修
阅读更多2024-09-19
【分立元件】案例：新人加了个TVS管为什么可能导致系统不能正常工作
TVS是一种限压型的过压保护器，它将过高的电压钳制至一个安全范围，藉以保护后面的电路，有着比其它保护元件更快的反应时间，这使TVS可用在防护lighting、switching、ESD等快速破坏性瞬态
阅读更多2024-09-19
python 绘制 y=x^3 图像
Matplotlib 是Python中一个绘图库，支持跨平台运行，可以生成出版级别的图形，能够输出的图形包含折线图，散点图，曲线图，直方图，饼状图，条形图以及坐标图，其强大的绘画能力能够使得用户对数据
阅读更多2024-09-19
记忆化搜索
记忆化搜索 OJ题
阅读更多2024-09-19
朴素贝叶斯 (Naive Bayes)
朴素贝叶斯算法尽管假设特征独立，但在许多实际应用中表现良好。其简洁、有效的特性在文本分类、垃圾邮件过滤和推荐系统等多个领域中得到广泛应用。
阅读更多2024-09-19
【强化学习系列】Gym库使用——创建自己的强化学习环境2：拆解官方标准模型源码/规范自定义类+打包自定义环境
本文记录在创建自定义gym环境中的报错与规范化问题，帮助后续矢量化环境创建
阅读更多2024-09-19
supermap iclient3d for cesium中entity使用
目标将西南石油大学部分区域围起来，然后引个标签显示名称，最后弄个飞机绕学校飞（这个时间有点晚了，明天弄)飞机的位置也要在写在外面，会和标签重合，所以重新创建一个对象,然后就是加载一个飞机，文档里面说了
阅读更多2024-09-19
vim的配置文件
个人的配置文件是隐藏的，不进行配置的话一般是没有这个文件的，需要自己创建。，共有两个，一个是公共的、所有用户的。vim 的配置文件名是。，一个是私有的、个人的。私有的配置文件位于**
阅读更多2024-09-19
阿里1688一面总结
发布-订阅模式，即当实验发生变更时，就发出一个变更事件，然后，每台机器感知到这个变更事件后，清空本地缓存，触发reload操作。为了避免大量请求打到DB，可以对查询请求进行加锁，保证相同的实验只有一个
阅读更多2024-09-19

Shell编程之正则表达式与文本处理器

一、正则表达式

1.引言--什么是正则表达式

1.1正则表达式的功能

1.2主要命令--grep

2.基础正则表达式（BRE）

2.1特殊字符

2.2定位符

2.3非打印字符

3.扩展正则表达式(ERE)

4.元字符操作的案列

二、命令小工具

1.cut：列截取工具

2.sort排序

3.uniq去重

4.tr删除

相关文章