文件去除重复行

🕗 发布于 2024-11-15 02:18 bash 开发语言

1. python实现

def remove_duplicates(input_file, output_file):
    seen_lines = set()
    with open(input_file, 'r') as infile, open(output_file, 'w') as outfile:
        for line in infile:
            if line not in seen_lines:
                outfile.write(line)
                seen_lines.add(line)

# 使用示例
remove_duplicates('input.txt', 'output.txt')

2. shell实现排序并去重

sort input.txt | uniq > output.txt

3. shell实现保留原顺序去重

awk '!seen[$0]++' input.txt > output.txt

$0：$0 是 awk 中的内置变量，表示当前行的内容。每次处理一行时，$0 就是该行的文本。
seen[$0]：seen 是一个数组，seen[$0] 表示当前行内容 $0 是否已经在 seen 数组中记录过。
- 当 seen[$0] 为 0（或 null）时，表示这是第一次遇到这一行内容。
- 当 seen[$0] 为非零值时，表示这一行内容已经出现过。
++：自增运算符。seen[$0]++ 会在 seen[$0] 的当前值上加 1。
- 当 awk 第一次遇到某行内容时，seen[$0] 是 0，seen[$0]++ 之后会变为 1。
- 如果再次遇到同样的行，seen[$0] 就已经是 1，所以 seen[$0]++ 会继续增加，但这时返回的是非零值。
!seen[$0]++：! 是逻辑取反运算符，表示“非”的意思。
- !seen[$0]++ 的含义是：如果 seen[$0]++ 的结果为 0（即之前没见过该行），那么取反后为 true，表示输出该行内容。
- 如果 seen[$0]++ 的结果为非零（即之前见过该行），取反后为 false，不输出该行内容。

原文地址：https://blog.csdn.net/akdjfhx/article/details/143781713

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PyEcharts | 通过分析奥迪车购买数据来学习柱状折线复合图像的绘制方法
下一篇：LLM: AI Mathematical Olympiad (上)

第9章综合案例————众成远程教育
制作“众成远程教育”网页，本章项目页面布局要求如下:页面要求有最外层的 div-al，第二层嵌套上中下3行区域，分别为div-top.div-main和 div-footer。而 div-main 又
阅读更多2024-11-17
Python3语法基础（全，带示例）
信息技术类，对口高考，Python，教师：施恒锋
阅读更多2024-11-17
【鸿蒙开发】第十四章 Web组件的使用、基本属性与事件
Web组件用于在应用程序中显示Web页面内容，为开发者提供页面加载、页面交互、页面调试等能力。页面加载：Web组件提供基础的前端页面加载的能力，包括：加载网络页面、本地页面、html格式文本数据。页面
阅读更多2024-11-17
python基础知识（五）——文件上传
python基础知识（五）——文件上传
阅读更多2024-11-17
如何在uniapp中获取和修改Web项目的Cookie
在uniapp开发Web项目时，操作Cookie是常见的需求。本文将介绍如何在uniapp中获取和修改Web项目的Cookie，且不设置过期时间。
阅读更多2024-11-17
时钟之Canvas+JS版
上一篇介绍使用CSS+JS方式实现，但元素泰国单一。此篇将以HTML5的canvas标签结合JS来实现。HTML代码JS代码//计时器//钟表半径//时针刻度宽度//分针刻度宽度//时针宽度//分针宽
阅读更多2024-11-17
AI测试的主要研究方向介绍
这个框架将支持对不同主题的基础测试数据集进行文本分词、图像标注、特征筛选等加工处理，为不同AI医疗产品提供定制化的测试数据，解决医学数据模块的通用性与特定测试数据集需求之间的冲突，确保测试数据集既具有
阅读更多2024-11-17
CSS盒子的定位＞（下篇）#固定定位#笔记
固定定位其实是绝对定位的子类别，一个设置了的元素是相对于视窗固定的，就算页面文档发生了滚动，它也会一直待在相同的地方。
阅读更多2024-11-17
doris udf -- 避免使用递归CTE
在部门表里有部门id (dept_id) 和父部门id (parent_id) ，父部门id同时也是部门id。现在要查部门id下所有的子部门id，但是不知道部门层级，部门关系可能也会调整。
阅读更多2024-11-17
前端知识点---this的用法 , this动态绑定(Javascript)
在JavaScript中，this 是一个非常重要但是呢也让人难搞明白的关键字。**它的值不是在编写代码时静态确定的，而是在代码运行时动态绑定的。**这非常重要下面讲一下它 .在全局作用域中（即不在
阅读更多2024-11-17

文件去除重复行

1. python实现

2. shell实现排序并去重

3. shell实现保留原顺序去重

相关文章