机器学习-4：机器学习的建模流程

🕗 发布于 2024-11-12 21:20 算法 数据结构 c语言 开发语言 二维数组

机器学习的建模流程

流程为：
原始数据 --> 数据预处理 --> 特征工程 --> 建模 --> 验证。

原始数据收集

所有AI或机器学习的基础就是数据，没有数据就什么都做不了，在搭建一个系统之前首要考虑的就是有没有足够多的数据可以支撑这个AI系统。数据是最重要的，如何收集数据的策略也是最重要的，很多人说AI的策略就是数据的收集策略。很大程度上数据质量的高低决定了模型的稳定性或效果，所以收集数据这一步非常关键。

数据预处理

如果数据中包含了很多噪音，那可以通过预处理的方法降噪或剔除脏数据。如果有数据格式不一致，字段不对齐等问题，无法后续做统一处理，那也可以通过数据的预处理搞定，规范化数据以保证后续模型的准确性。
实际中，数据预处理是很繁琐的，是很多AI工程师不想触碰的工作，但实际这个工作极其重要，如果数据预处理做不好那数据质量就有问题，后面所有环节都会受到影响，导致机器学习效果差，通常会花大量精力做数据的预处理工作。

特征工程

指从数据或样本里提取出对预测结果有价值的信息，每个应用场景所涉及的特征是不一样的，整个提取有效特征的过程就叫特征工程（Feature Engineering）。
实际工作中我们会花大量精力在特征工程里，这一步非常非常重要，而且它直接影响整个系统的效果。甚至说模型的重要性未必高于特征工程的重要性，所以我们会花50%以上的时间在特征工程这个环节。
经过特征工程后的每一个数据都可以转换成向量或者矩阵或张量这种数值类型，然后这个数就可以直接作为模型的输入，进入建模阶段。

建模

建模阶段就是使用各种各样的模型去尝试，看哪个模型带来的效果是最好的，该环节主要做的事情有几点：1，做一些调参的工作，指我们不断的调整模型，使这个模型可以达到最优的效果。2，改造，当发现模型不太满足实际的需求了，可以对模型做一些改造，然后再调参。

验证

训练出来的模型到底怎么样，如果不好的话可能需要重新做一些前面做过的事情，这个环节非常重要。每个项目都需要一个明确的，独特的评估标准，如果评估通过（比如正确率到达某个标准）就可以上线。
建模的时候都会把给定的数据分成训练数据和测试数据，主要是为了验证模型的好坏，只有通过测试数据才能看到模型训练得到底行不行。

喜欢的朋友记得点赞、收藏、关注哦！！！

原文地址：https://blog.csdn.net/qq_24428851/article/details/143721472

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：深度学习服务器租赁AutoDL
下一篇：Spring Boot编程训练系统：开发与管理

@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
阅读更多2024-11-16
25浙江省考-28天学行测-Day5 & Day6-判断推理（中）
1、另有他因2、因果倒置3、否定此因4、根本原因5、三圈质疑1、排除他因2、四圈支持1、无论据有结论2、有论据有结论3、质疑论证过程4、严谨逻辑关系5、比例类论证1、解释说明2、增加论据3、断点
阅读更多2024-11-16
Rust 入门指南（零）：安装及 Cargo 管理器
系列第 0 篇，简单介绍了 Rust 的基本安装和配置流程，以及如何通过 Cargo 创建和管理项目。
阅读更多2024-11-16
Centos使用人大金仓ksql
Centos使用人大金仓ksql
阅读更多2024-11-16
多模态大模型简介
多模态大模型是机器学习领域的一个新兴趋势，它结合了文本、图像、音频等多种数据模态，以实现更全面和深入的信息理解和处理。这种模型能够处理跨模态任务，如图像标注、视觉问答、文本到图像的生成等，是人工智能领
阅读更多2024-11-16
javaScript交互补充2（动画函数封装）
如果多个元素都使用这个动画函数，每次都要var 声明定时器，我们可以给不同元素使用不同的定时器（自己用自己的定时器）核心原理：利用js是一门动态语言，可以很方便的给当前对象添加属性。缓动动画就是让元素
阅读更多2024-11-16
【鸿蒙开发】第十五章 H5与端侧交互、Cookies以及Web调试
Web组件支持在应用拦截到页面请求后自定义响应请求能力。开发者通过接口来实现自定义资源请求响应。自定义请求能力可以用于开发者自定义Web页面响应、自定义文件资源响应等场景。Web网页上发起资源加载请求
阅读更多2024-11-16
javaScript交互补充（元素的三大系列）
使用client系列的相关属性来获取元素可视区的相关信息，可以动态的得到该元素的边框大小，元素大小等。返回自身包括padding，内容区宽度，不含边框，返回数值不带单位。返回自身包括padding，内
阅读更多2024-11-16
django 过滤器的执行
默认情况下，会执行，特别是如果在中配置了它，或者没有禁用它。禁用过滤器：可以通过在APIView中设置来禁用过滤器，避免执行。手动调用过滤器：如果需要，你可以在视图中手动调用来过滤查询集。自定义过滤器
阅读更多2024-11-16
在Ubuntu 24.04 LTS上安装飞桨PaddleX
首先，请运行“ubuntu-drivers devices”命令列出当前可用的硬件设备，确保Ubuntu 24.04.1 LTS已发现安装在桌面计算机中的英伟达显卡，如下图所示。是基于飞桨框架构建的一
阅读更多2024-11-16

机器学习-4：机器学习的建模流程

机器学习的建模流程

原始数据收集

数据预处理

特征工程

建模

验证

相关文章