【Linux】文本处理三剑客：grep、sed 和 awk

grep 'pattern' file.txt # 查找文件中包含 'pattern' 的行
grep -i 'pattern' file.txt # 忽略大小写，查找 'pattern'
grep -r 'pattern' /path/to/dir # 递归查找指定目录下所有文件
grep -v 'pattern' file.txt # 查找不包含 'pattern' 的行
grep -l 'pattern' *.txt # 显示包含 'pattern' 的文件名

示例

假设我们有一个日志文件 logs.txt，想查找所有包含错误信息的行：

grep 'error' logs.txt

这个命令会返回所有包含 error 字符串的行。如果我们想查找所有大小写不敏感的错误信息，可以加上 -i 选项：

grep -i 'error' logs.txt

2. sed - 流编辑器

sed（Stream Editor）是一个功能强大的文本流编辑工具，主要用于文本替换、删除、插入、转换等任务。与 grep 主要用于查找不同，sed 允许我们直接修改文本内容。

基本用法

sed 's/old/new/' file.txt # 替换文件中的第一个 'old' 为 'new'
sed -i 's/old/new/' file.txt # 直接修改文件，将 'old' 替换为 'new'
sed '2d' file.txt # 删除第 2 行
sed '1,3d' file.txt # 删除第 1 到第 3 行
sed 's/^\s*//g' file.txt # 删除每行开头的空格

示例

假设我们要将文件 config.txt 中所有的 localhost 替换为 127.0.0.1：

sed -i 's/localhost/127.0.0.1/g' config.txt

如果想删除文件的第一行，可以使用：

sed '1d' file.txt

而如果想删除每行开头的多余空格，则可以使用：

sed 's/^\s*//g' file.txt

3. awk - 强大的文本处理语言

awk 是一种功能强大的编程语言，专门用于文本和数据处理。与 grep 和 sed 主要处理文本行不同，awk 允许我们按照字段来处理文本，非常适合格式化、筛选和汇总数据。

基本用法

awk '{print $1}' file.txt # 打印文件每行的第一个字段 awk '{print $1, $3}' file.txt # 打印每行的第 1 和第 3 字段 awk '/pattern/ {print $0}' file.txt # 查找包含 'pattern' 的行 awk '{if ($1 > 100) print $1}' file.txt # 如果第 1 列大于 100，打印该列

示例

假设我们有一个 CSV 文件 data.csv，它记录了商品的价格和数量，我们想要筛选出价格大于 100 的商品，并打印它们的名称和价格：

awk -F ',' '$2 > 100 {print $1, $2}' data.csv

这里使用了 -F ',' 选项来指定逗号作为字段分隔符。$1 表示商品名称，$2 表示价格。

另外，如果我们想统计每行的字段数量，并只打印字段数大于 3 的行，可以使用：

awk 'NF > 3' file.txt

如何高效组合使用它们

这三款工具各有特点，但它们可以在命令行中组合使用，从而达到更复杂的文本处理效果。例如，你可以先使用 grep 查找包含特定字符串的行，然后使用 sed 进行替换，最后通过 awk 来提取和格式化数据。

示例：日志分析

假设我们有一个日志文件 app.log，我们想要：

查找所有包含 error 字符串的行。
将这些行中的 ERROR 替换为 WARNING。
提取并显示错误发生的时间（假设时间在每行的第一个字段）。

grep 'error' app.log | sed 's/ERROR/WARNING/g' | awk '{print $1, $0}'

这条命令首先用 grep 查找包含 error 的行，然后用 sed 替换 ERROR 为 WARNING，最后使用 awk 提取并显示每行的第一个字段（时间）。

总结

在 Linux 和类 Unix 系统中，grep、sed 和 awk 被称为“文本处理三剑客”，它们是处理文本数据的核心工具：

grep 用于查找文本中符合特定模式的行；
sed 用于对文本进行流编辑，可以替换、删除、插入等；
awk 是一种强大的文本处理语言，适用于字段操作和格式化输出。

通过这三款工具的巧妙组合，您可以高效地处理和分析文本数据，轻松应对各种日志分析、配置修改和数据清洗任务。如果你还没有掌握它们，强烈建议在日常工作中深入了解和使用这些工具，它们将极大地提高你的工作效率。

作者其他作品：

【Java】Spring循环依赖：原因与解决方法

OpenAI Sora来了，视频生成领域的GPT-4时代来了

[Java·算法·简单] LeetCode 14. 最长公共前缀详细解读

【Java】深入理解Java中的static关键字

[Java·算法·简单] LeetCode 28. 找出字a符串中第一个匹配项的下标详细解读

了解 Java 中的 AtomicInteger 类

算法题 — 整数转二进制，查找其中1的数量

深入理解MySQL事务特性：保证数据完整性与一致性

Java企业应用软件系统架构演变史

原文地址：https://blog.csdn.net/double222222/article/details/144354775

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：一次“okhttp访问间隔60秒，提示unexpected end of stream“的问题排查过程
下一篇：Linux update-alternatives 命令详解

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

【Linux】文本处理三剑客：grep、sed 和 awk

🌈个人主页：人不走空

💖系列专栏：算法专题

⏰诗词歌赋：斯是陋室，惟吾德馨

1. grep - 快速查找

基本用法

示例

2. sed - 流编辑器

基本用法

示例

3. awk - 强大的文本处理语言

基本用法

示例

如何高效组合使用它们

示例：日志分析

总结

作者其他作品：

相关文章