机器学习基础概念
一、基本讲的就是下面这些词汇:
数据集,训练,测试
示例,样例
样本
属性,特征,属性值
属性空间,样本空间,输入空间
特征向量
标记空间,输出空间
假设,真相,学习器
讲解词汇不一定标准,但肯定是尽量让读者听明白。
二、基本概念解释
示例:
图2-1
数据集:拿到所有数据,构成的一个集合。
训练:拿到数据建立模型的过程
测试:使用数据(与训练用的数据不相同的另一组数据)对于模型进行测试,也就是判断模型产生的结果是否理想的过程。有可能是判断模型做的好不好,有可能是给串数据,真的需要模型提供结果。
示例:表示一条数据,比如图2-1中的1数据,如果没有最后的“是”,它就是一条示例。
样例:比如1数据,如果包括最后的“是”,它就是一条样例。
样本:这个词比较含糊,它可能是说一条数据,比如1数据,它也可能指这些所有的数据的采样,所以要根据上下文进行理解。
属性:这是指最上一面的一排,比如色泽,根蒂等,但注意后面的“好瓜”并不是属性。属性也叫作特征。
属性值:就是指属性下面的一列,比如色泽对应的属性值就是青绿,乌黑。
属性空间,样本空间,输入空间:创造一个虚拟的维度空间,空间的维度的轴就是各个属性。
特征向量:任何一条数据在属性空间中就是一个点,一个点在代数的角度下都可以看作是向量(高中数学知识)
标记空间,输出空间:对于结果,也可以以不同的维度创造出一个空间。
三、进一步的概念
假设(hypothesis):对于一个问题,我们对于它的解决方案,会提出假设。在机器学习中,我们是通过样本数据来找到模型来解决,这个模型实际就是假设。注意假设不一定为真相。
真相(ground-truth):表示对于问题的正确答案。比如一个样本(x, y),样例1数据,其中x表示“青绿,蜷缩,混响”,y表示 “是”。那么y就表示x的真相。
学习器(learner):一个学习算法给定示例和参数设置之后得到的结果。
分类:将数据进行离散地输出。比如输出类1,类2,类3,有限个地进行分类。
回归:将数据进行连续地输出。比如0-100,中间的结果可能有无限个。
二分类:将数据结果分成两部分。比如:好坏,大小,通常一类是正类,一类是负类。
其中有一个重要的性质:可交换。它表示这两类的结果是差不多的,这里我们不展开来讲。
多分类:将数据结果分成多类
无监督学习:在数据中,无样例结果。比如刚刚的例子中,无最后一列的“是”“否”。比如密度估计分类。
监督学习:在数据中,无样例结果。比如回归
(机器学习最基础的假设)我们假设有一个普遍的规律,所有所有总的分布都符合这个规律,那么我们手里的数据就是从这个分布中抽样出来的,未来没有见过的数据也是从这里抽样出来的。
未见样本(unseen instance):对于机器学习,我们不但要把已有数据处理好,还要争取把未来的没有见过的数据处理好,这个就是未见样本。
未知分布:这个最大的分布就叫未知分布。
独立同分布(IID):每个样本都是独立随机事件,也就是每个样本都是互不关联的。
泛化:一个模型处理新数据的能力,如果越强,就说泛化越强。从特殊到一般。
特化:和泛化相反,从一般到特殊。
原文地址:https://blog.csdn.net/m0_74431639/article/details/142400240
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!