ML 系列：机器学习和深度学习的深层次总结(06)— 提升数据质量

🕗 发布于 2024-09-25 12:24 机器学习 深度学习 人工智能

一、说明

在AI数据挖掘中，对原始数据的预处理是必须的技术手段，本篇将对数据预处理的一系列注意事项进行展示。

二、关于数据预处理

注意：在本章中，讨论的技术和方法基于 Roy Jafari 的《Hands-On Data Preprocessing in Python》一书，该书为理解和实施有效的数据预处理工作流提供了有价值的参考。

数据预处理是指在应用机器学习算法之前准备数据以进行分析的技术和过程。这些步骤包括数据清理、数据规范化、数据缩减、将原始数据转换和组织成算法可以轻松使用的格式。数据预处理的目的是提高数据质量、减少噪声并消除任何不一致或可能的错误。

数据清理涉及删除或更正数据中的任何错误、不一致或缺失值。数据转换涉及将数据转换为更适合分析的格式，例如将分类数据转换为数值数据或降低数据的维度。数据规范化涉及缩放数据以确保其位于特定范围内，这对于某些机器学习算法可能很重要。数据集成涉及将来自多个来源的数据合并到单个数据集中。数据缩减涉及通过仅选择最相关的特征或样本来减小数据集的大小。

数据清理的过程可能因项目而异，并且无法提供有关如何执行数据清理的清晰分步说明，但是，我们可以将数据清理过程分为三个级别，如下所示：

三、清理一级

此级别是指数据的明显清理，大多数可用数据不需要此阶段的清理。如果数据集具有以下特征，则我们认为该数据集位于第一级：

数据应具有标准结构。
列的标题应清晰且可编码。
每行数据都有一个唯一的标识符。

这种清理的一个例子可以认为我们有几个文本文件，如下图所示，如图 2 所示，这些数据没有适当的结构，应该以标准格式合并，以便对其进行分析。

在这里插入图片描述
在图 3 中，我们将文本数据以集成的方式转换为以下形式。

图 3.集成数据以达到数据清理的一级
在图 3 中，每一行都分配给一个文本文件，现在可以说这些数据处于数据清理的第一级。

四、清理二级

此级别是指解包、重组和重新构建表。与一级数据清理不同，在一级数据清理中，样品不需要特殊分析，而在此级别的清理中，通常需要进行分析。如前所述，图 3 中的数据处于第一级清洗，如果我们注意每一行的名称，我们可以提取城市、月份和日期的名称，现在如果我们想要第二级清洗数据，具体打开数据的名称，得到图 4。
在这里插入图片描述
图 4. 解压缩数据名称并向数据添加不同的列
在第二级数据清理中，可以进行更多的分析，例如以这样一种方式解包数据内容，即四个词的重复次数 [‘vote’， ‘tax’， ‘campaign’， ‘economy’] 并根据如图 5 所示向数据添加列，作为此分析的结果。
在这里插入图片描述
图 5. 解压缩数据内容并向数据添加不同的列
为了进一步分析，可以可视化添加的四列的不同值，如图 6 所示。

图 6. 可视化不同月份四个单词的重复次数

五、结论

在第 1 级中，我们清理了表格，但没有注意数据结构或记录的值。在第 2 级中，我们关注的是拥有一个能够支持我们分析目标的数据结构，但我们仍然没有太多关注记录值的正确性或适当性。这就是数据清理级别 3 的目标。在数据清理级别 III 中，我们将重点关注记录值，并采取措施确保解决与数据中记录的值相关的三个问题。首先，我们将确保检测到数据中的缺失值，我们知道发生这种情况的原因，并已采取适当的措施来解决这些问题。其次，我们将确保我们采取了适当的措施，以确保记录的值是正确的。第三，我们将确定已检测到数据中的极值点，并已采取适当措施解决它们。

原文地址：https://blog.csdn.net/gongdiwudu/article/details/142423309

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Java List初始化的六种方式
下一篇：力扣【118-杨辉三角】【数组-C语言】

假期旅行数仓项目--OLAP
项目流程： hive : hvie-site.xml启动mysql 的binlog日志配置flume-ng文件采集kafka—incdb 主题消费到的数据并上传至hdfsflume-config开启m
阅读更多2024-09-28
Unity 延迟时间 Threading.Tasks
Unity 延迟时间 Threading.Tasks
阅读更多2024-09-28
第52课 Scratch游戏入门：五子棋
会下五子棋么？五个颜色一样的棋子，横竖斜向有五个连在一起，就胜利，让我们一起来绘制一个五子棋的棋盘，同时一起开始下棋吧！
阅读更多2024-09-28
网络带宽对于服务器的影响
当服务器中的带宽不足时，会直接导致用户在访问网站的过程中，页面的加载时间过长，严重损害到用户的体验高，服务器会因为数据信息传输速率受到限制，导致处理用户请求的响应时间变得缓慢，影响到用户操作的及时反馈
阅读更多2024-09-28
使用rust+javascript+html5写一个问题记录的页面
为了实现一个简单的问题记录系统，我们可以使用Rust作为后端，JavaScript和HTML5作为前端。文件，即可看到一个简单的问题记录系统。请注意，这个示例仅用于演示目的，实际应用中需要考虑数据持久
阅读更多2024-09-28
Spring Boot 应用Kafka讲解和案例示范
Kafka 是一款高吞吐量、低延迟的分布式消息系统。本文将详细介绍如何在 Spring Boot 项目中使用 Kafka 进行消息接收与消费，并结合幂等和重试机制，确保消息消费的可靠性和系统的扩展性。
阅读更多2024-09-28
对抗攻击方法详解：梯度攻击、转移攻击与模型集成攻击
1. **基于梯度的攻击**是白盒场景下的强大攻击方法，但其对黑盒场景的适应性较差，且容易被对抗训练等防御策略抵消。2. **基于转移的攻击**通过生成具有迁移性的对抗样本提升了黑盒攻击的成功率，但在
阅读更多2024-09-28
产销皆下行，造势口碑遭“反噬”，魏建军能否重振长城汽车？
其中，欧拉品牌最为惨淡，累计销量仅4.17万辆，下滑幅度最大，同比下滑38.36%；同时，长城汽车首席增长官李瑞峰进一步补充道，从长城汽车的财报构成可以看出，坦克品牌和独有的皮卡品类优势，是品牌和利润
阅读更多2024-09-28
matlab处理语音信号
matlab有处理语音信号的函数wavread，不过已经过时了，现在处理语音信号的函数名称是audioread。另外发现在命令行中输入filterDesigner并回车会弹出一个窗口。% 播放音频%
阅读更多2024-09-28
Docker更换阿里容器镜像源
以Mac为例，
阅读更多2024-09-28