机器学习基础概念

🕗 发布于 2024-10-09 03:08 机器学习 人工智能 深度学习

一、基本讲的就是下面这些词汇：

数据集，训练，测试

示例，样例

样本

属性，特征，属性值

属性空间，样本空间，输入空间

特征向量

标记空间，输出空间

假设，真相，学习器

讲解词汇不一定标准，但肯定是尽量让读者听明白。

二、基本概念解释

示例：

图2-1

数据集：拿到所有数据，构成的一个集合。

训练：拿到数据建立模型的过程

测试：使用数据（与训练用的数据不相同的另一组数据）对于模型进行测试，也就是判断模型产生的结果是否理想的过程。有可能是判断模型做的好不好，有可能是给串数据，真的需要模型提供结果。

示例：表示一条数据，比如图2-1中的1数据，如果没有最后的“是”，它就是一条示例。

样例：比如1数据，如果包括最后的“是”，它就是一条样例。

样本：这个词比较含糊，它可能是说一条数据，比如1数据，它也可能指这些所有的数据的采样，所以要根据上下文进行理解。

属性：这是指最上一面的一排，比如色泽，根蒂等，但注意后面的“好瓜”并不是属性。属性也叫作特征。

属性值：就是指属性下面的一列，比如色泽对应的属性值就是青绿，乌黑。

属性空间，样本空间，输入空间：创造一个虚拟的维度空间，空间的维度的轴就是各个属性。

特征向量：任何一条数据在属性空间中就是一个点，一个点在代数的角度下都可以看作是向量（高中数学知识）

标记空间，输出空间：对于结果，也可以以不同的维度创造出一个空间。

三、进一步的概念

假设（hypothesis）：对于一个问题，我们对于它的解决方案，会提出假设。在机器学习中，我们是通过样本数据来找到模型来解决，这个模型实际就是假设。注意假设不一定为真相。

真相（ground-truth）：表示对于问题的正确答案。比如一个样本（x, y），样例1数据，其中x表示“青绿，蜷缩，混响”，y表示 “是”。那么y就表示x的真相。

学习器（learner）：一个学习算法给定示例和参数设置之后得到的结果。

分类：将数据进行离散地输出。比如输出类1，类2，类3，有限个地进行分类。

回归：将数据进行连续地输出。比如0-100，中间的结果可能有无限个。

二分类：将数据结果分成两部分。比如：好坏，大小，通常一类是正类，一类是负类。

其中有一个重要的性质：可交换。它表示这两类的结果是差不多的，这里我们不展开来讲。

多分类：将数据结果分成多类

无监督学习：在数据中，无样例结果。比如刚刚的例子中，无最后一列的“是”“否”。比如密度估计分类。

监督学习：在数据中，无样例结果。比如回归

（机器学习最基础的假设）我们假设有一个普遍的规律，所有所有总的分布都符合这个规律，那么我们手里的数据就是从这个分布中抽样出来的，未来没有见过的数据也是从这里抽样出来的。

未见样本（unseen instance）：对于机器学习，我们不但要把已有数据处理好，还要争取把未来的没有见过的数据处理好，这个就是未见样本。

未知分布：这个最大的分布就叫未知分布。

独立同分布（IID）：每个样本都是独立随机事件，也就是每个样本都是互不关联的。

泛化：一个模型处理新数据的能力，如果越强，就说泛化越强。从特殊到一般。

特化：和泛化相反，从一般到特殊。

原文地址：https://blog.csdn.net/m0_74431639/article/details/142400240

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Vue3中Watch的同步和异步
下一篇：TypeScript新手学习教程--数据类型

【QT Quick】页面布局：手动定位与坐标系转换
在这篇教程中，我们将详细介绍在 QT Quick 中如何手动定位元素以及坐标系转换的概念和应用。手动定位不仅仅是指定 `x`、`y` 坐标，更涉及坐标系的管理。我们会从最基本的手动定位开始，逐步扩展到
阅读更多2024-10-10
Springboot——使用poi实现excel动态图片导入解析
最近要实现一个导入导出的功能点，需要能将带图片的列表数据导出到excel中，且可以导入带图片的excel列表数据。考虑到低代码平台的表头与数据的不确定性，技术框架上暂定使用Apache-POI。
阅读更多2024-10-10
scanMiR：使用R语言预测 miRNA 结合位点
是一类小型、单链的非编码RNA分子，包含21至23个核苷酸。在植物、动物和一些病毒中发现的miRNA，参与RNA沉默和基因表达的转录后调控。切割mRNA链为两部分。通过缩短其poly(A)尾部使mRN
阅读更多2024-10-10
linux udev详解
Linux 2.6以后的内核引入了sysfs文件系统，sysfs被看成是与proc、devfs和devpty同类别的文件系统，该文件系统是一个虚拟的文件系统，它可以产生一个包括所有系统硬件的层级视图，
阅读更多2024-10-10
Go Gin 框架与 HTML 模板学习笔记
Gin是 Go 语言中常用的高性能轻量级 HTTP Web 框架，适合快速开发 RESTful API 和 Web 应用。Gin 支持 HTML 模板渲染，基于 Go 标准库，提供了安全、高效的模板功
阅读更多2024-10-10
网络安全（黑客技术）2024年三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-10-10
BUU刷题-Pwn-inctf2018_wARMup(ARM版的栈迁移)
libc版本：ArmPwn学习_arm pwn 栈迁移-CSDN博客存在一个0x10的溢出点,太短了可能无法调用shellcode,又因为本题是使用qemu模拟出来的所以每个区段再靶场上都是可执行的所
阅读更多2024-10-10
BUU刷题-Pwn-codegate2018_melong(ARM的ret2libc)
libc版本：ARM PWN：Codegate2018_Melong详细讲解-爱代码爱编程 (icode.best)ctf-wiki ARM ROP Codegate2018_Melong题解_elf
阅读更多2024-10-10
IDEA上Mybatis介绍和使用
MyBatis是一款优秀的框架，用于简化JDBC的开发。
阅读更多2024-10-10
使用 Go 和 Gin 框架构建简单的用户和物品管理 Web 服务
在本项目中，我们使用 Go 语言和 Gin 框架构建了一个简单的 Web 服务，能够管理用户和物品的信息。该服务实现了两个主要接口：根据用户 ID 获取用户名称，以及根据物品 ID 获取物品名称。本文
阅读更多2024-10-10

机器学习基础概念

相关文章