自学内容网 自学内容网

机器学习基础概念

一、基本讲的就是下面这些词汇:

数据集,训练,测试

示例,样例

样本

属性,特征,属性值

属性空间,样本空间,输入空间

特征向量

标记空间,输出空间

假设,真相,学习器

讲解词汇不一定标准,但肯定是尽量让读者听明白。

二、基本概念解释

示例:

                                               图2-1

数据集:拿到所有数据,构成的一个集合。

训练:拿到数据建立模型的过程

测试:使用数据(与训练用的数据不相同的另一组数据)对于模型进行测试,也就是判断模型产生的结果是否理想的过程。有可能是判断模型做的好不好,有可能是给串数据,真的需要模型提供结果。

示例:表示一条数据,比如图2-1中的1数据,如果没有最后的“是”,它就是一条示例。

样例:比如1数据,如果包括最后的“是”,它就是一条样例。

样本:这个词比较含糊,它可能是说一条数据,比如1数据,它也可能指这些所有的数据的采样,所以要根据上下文进行理解。

属性:这是指最上一面的一排,比如色泽,根蒂等,但注意后面的“好瓜”并不是属性。属性也叫作特征。

属性值:就是指属性下面的一列,比如色泽对应的属性值就是青绿,乌黑。

属性空间,样本空间,输入空间:创造一个虚拟的维度空间,空间的维度的轴就是各个属性。

特征向量:任何一条数据在属性空间中就是一个点,一个点在代数的角度下都可以看作是向量(高中数学知识)

标记空间,输出空间:对于结果,也可以以不同的维度创造出一个空间。

三、进一步的概念

假设(hypothesis):对于一个问题,我们对于它的解决方案,会提出假设。在机器学习中,我们是通过样本数据来找到模型来解决,这个模型实际就是假设。注意假设不一定为真相。

真相(ground-truth):表示对于问题的正确答案。比如一个样本(x, y),样例1数据,其中x表示“青绿,蜷缩,混响”,y表示 “是”。那么y就表示x的真相。

学习器(learner):一个学习算法给定示例和参数设置之后得到的结果。

分类:将数据进行离散地输出。比如输出类1,类2,类3,有限个地进行分类。

回归:将数据进行连续地输出。比如0-100,中间的结果可能有无限个。

二分类:将数据结果分成两部分。比如:好坏,大小,通常一类是正类,一类是负类。

其中有一个重要的性质:可交换。它表示这两类的结果是差不多的,这里我们不展开来讲。

多分类:将数据结果分成多类

无监督学习:在数据中,无样例结果。比如刚刚的例子中,无最后一列的“是”“否”。比如密度估计分类。

监督学习:在数据中,无样例结果。比如回归

(机器学习最基础的假设)我们假设有一个普遍的规律,所有所有总的分布都符合这个规律,那么我们手里的数据就是从这个分布中抽样出来的,未来没有见过的数据也是从这里抽样出来的。

未见样本(unseen instance):对于机器学习,我们不但要把已有数据处理好,还要争取把未来的没有见过的数据处理好,这个就是未见样本。

未知分布:这个最大的分布就叫未知分布。

独立同分布(IID):每个样本都是独立随机事件,也就是每个样本都是互不关联的。

泛化:一个模型处理新数据的能力,如果越强,就说泛化越强。从特殊到一般。

特化:和泛化相反,从一般到特殊。


原文地址:https://blog.csdn.net/m0_74431639/article/details/142400240

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!