自学内容网 自学内容网

01 机器学习概述

目录

1. 基本概念

2. 机器学习三要素

3. 参数估计的四个方法

3.1  经验风险最小化

3.2  结构风险最小化

3.3  最大似然估计

3.4  最大后验估计

4. 偏差-方差分解

5. 机器学习算法的类型

6. 数据的特征表示

7.  评价指标


1. 基本概念

        机器学习Machine LearningML就是研究如何让计算机从数据中进行自动学习,得到某种知识(或规律)并利用学习到的规律(模型)对未知或无法观测的数据进行预测

        机器学习的任务,比如光学字符识别、语音识别、人脸识别等.这些任务的特点是,对于我们人类而言很容易完成,但我们不知道自己是如何做到的,因此也很难人工设计一个计算机程序来完成这些任务。比如:下图中的手写数字识别,对人来说认识0~9很简单,但对计算机来说却十分困难.。

        在计算机中,一切皆数据,包括声音、图片或视频,均会被计算机转换为数组读取!

2. 机器学习三要素

3. 参数估计的四个方法

       关于参数分布及先验后验的一些概念,可参看一下文章: 

https://zhuanlan.zhihu.com/p/506449599icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/506449599

3.1  经验风险最小化

       这种方法用于求解线性回归参数时,也叫 最小二乘法 Least Square Method LSM ): 

       由于这种方法要求(XX^T) 必须有逆矩阵(满秩),而实际情况是(XX^T)并不一定满秩,这会导致参数\textbf{w}^*有多个解.。因此,一般会对数据预处理,比如通过主成分分析消除不同特征之间的相关性,使其满秩。

3.2  结构风险最小化

        如果数据量大且特征非常多,那么特征间可能存在多重共线性,即使预处理了数据,也会使得最小二乘法计算结果不稳定。为了解决这个问题,Hoerl等人提出了岭回归(Ridge Regression),也就是给(XX^T)的对角线元素都加上一个常数\lambda,使(XX^T+\lambda I)满秩,这种方法表现在风险函数上即为(相较经验风险函数)增加了一个正则项:

3.3  最大似然估计

        最大似然估计 Maximum Likelihood Estimation MLE 是指找到一组参数使似然函数的值最大,也等价于对数似然函数的值最大。最大似然估计参数方法如下:

 可以看出最大似然估计的解和最小二乘法的解相同。

3.4  最大后验估计

        最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合我们可以给参数加上一些先验知识,即基于经验对要估计的参数加上一定的限制,这样得到的参数称为最大后验估计,计算方法如下:

可以看出,最大后验概率等价于平方损失的结构风险最小化,其中正则化系数\lambda =\sigma ^2/\nu ^2

由于贝叶斯求解复杂,最大后验概率是贝叶斯学派的一种近似手段,最大后验估计和最大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布

最大似然估计和贝叶斯估计可以分别看作频率学派和贝叶斯学派对需要估计参数的不同解释。

4. 偏差-方差分解

      关于偏差(bias)和方差(Variance)的概念可参看下面这篇文章:

偏差(bias)和方差(Variance)icon-default.png?t=N7T8https://blog.csdn.net/nanhuaibeian/article/details/102658419?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%81%8F%E5%B7%AE%E5%92%8C%E6%96%B9%E5%B7%AE&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-102658419.nonecase&spm=1018.2226.3001.4187

      针对于高偏差和高方差的解决措施,可参看我之前的文章:

《吴恩达机器学习 第二课 week3 学习算法(模型)进阶》icon-default.png?t=N7T8https://blog.csdn.net/weixin_43490087/article/details/139709608?spm=1001.2014.3001.5501

     偏差方差分解,是一种重要的分析技术,‌用于解释学习算法泛化能力。‌

     偏差方差分解将学习算法的期望误差分解为三个非负项的和,‌即样本真实噪声、‌偏差方差。‌这种分解帮助我们从统计学派的视角看待模型复杂度,‌提供了一种理解模型泛化性能的方法。‌如下:

5. 机器学习算法的类型

6. 数据的特征表示

       在实际应用中,数据的类型多种多样,比如文本、音频、图像、视频等,不同类型的数据,其原始特征(Raw Feature)的空间也不相同。而很多机器学习算法要求输入的样本特征是数学上可计算的,因此在机器学习之前我们需要将这些不同类型的数据转换为向量表示。

      (也有一些机器学习算法(比如决策树)不需要向量形式的特征)

 图像特征:表示为 𝑀 × 𝑁 维的向量,为了提高模型准确率,会经常加入一个额外的特征比如直方图宽高比、笔画数纹理特征边缘特征等。

文本特征:从文本形式转为向量形式一种简单的方式是使用词袋Bag-of-WordsBoW)模型,比如两个文本我 喜欢 读书我 讨厌 读书中共有”“喜欢”“”“读书四个词它们的BoW表示分别为[1 1 0 1]和[1 0 1 1]。

词袋模型将文本看作词的集合不考虑词序信息不能精确地表示文本信

一种改进方式是使用N元特征N-Gram Feature),即每𝑁 个连续词构成一个基本单元然后再用词袋模型进行表示以最简单的二元特征即两个词的组合特征)为例上面的两个文本中共有”“我喜欢”“我讨厌”“喜欢读书”“厌读书”“读书六个特征单元,随着 𝑁 的增长N 元特征的数量会指数上升,因此,在实际应用中,文本特征维数通常在十万或百万级别以上

特征工程(Feature Engineering)是指通过人工方式进行提取特征。一个成功的机器学习系统通常需要尝试大量的特征。

让机器自动地学习出有效的特征的研究内容,称为特征学习(Feature Learning),也叫表示学习Representation Learning)。

7.  评价指标

     (1)准确率(所有类别整体性能的平均

         最常用的评价指标为 准确率 Accuracy ):

     (2)错误率

       和准确率相对应的就是错误率Error Rate):

      (3)精确率和召回率(单个类进行性能估计

        准确率是所有类别整体性能的平均 如果希望对每个类都进行性能估计, 就需要计算 精确率 Precision 召回率 Recall ):

 

        精确率Precision),也叫精度查准率

        召回率 Recall ), 也叫 查全率:

        F F Measure 是一个综合指标 为精确率和召回率的调和平均

其中𝛽 用于平衡精确率和召回率的重要性一般取值为1𝛽 = 1时的F值称为F1 值。 


原文地址:https://blog.csdn.net/weixin_43490087/article/details/140444287

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!