自学内容网 自学内容网

什么是机器学习?

一、概念(维基百科

        机器学习是人工智能的一个分支。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论

二、主要特点

        机器学习的主要特点包括:

        1、数据驱动:机器学习模型的性能主要依赖于输入的数据。数据的质量和数量直接影响模型的准确性和泛化能力,所谓“Garbage in, garbage out”。

        2、模式识别:机器学习算法能够识别数据中的模式,这些模式可以是显式的(如分类标签)或隐式的(如特征之间的关系)。

        3、自动化:机器学习减少了人工/手工解决问题的需要,使计算机能够自动从数据中学习和改进,从而在生活中替代人工操作,提升效能。

        4、适应性:机器学习模型可以适应新的数据(即泛化能力),这也是其能够广泛应用于业务实践中的重要原因。

三、机器学习的主要分支

        1、监督学习:有监督的机器学习指的是模型从标记的训练数据中学习,并尝试预测未见过数据的标签(即训练数据是有标签的)。

        2、无监督学习:模型在没有标签的数据上进行训练,试图发现数据中的结构和模式。比如聚类学习,模型不需要关注数据是否有标签,仅仅通过特定的指标(如余弦相似度等)对样本进行类别聚合。

        3、半监督学习:半监督学习结合少量标记数据和大量未标记数据进行学习,涉及多种算法,包括自训练(Self-training)、标签传播(Label Propagation)、伪标签(Pseudo-Labeling)、一致性正则化(Consistency Regularization)等。

        4、强化学习:模型通过与环境的交互来学习,目标是最大化某种累积奖励。

        5、深度学习:一种特殊的机器学习方法,使用多层神经网络来学习数据的复杂模式。

四、机器学习与深度学习

        深度学习虽然从概念上是机器学习的子集,但笔者感觉深度学习在某些场合已经与机器学习有一定的界限了。比如在实际工作中,我们说用了一些机器学习模型,对方想到的基本都是逻辑回归、决策树、支持向量机等模型,却并不会想到CNN、LSTM这样的神经网络(对于这些模型,我们会说用了神经网络/深度学习模型)。因此,还是有必要对机器学习和深度学习做一个简单的对比:

        1、特征工程

                (1)机器学习:对数据质量要求高,往往需要大量的特征工程选出有效特征;

                (2)深度学习:特征工程显得不那么重要,部分场景下可以直接对数据建模;

        2、模型复杂度

                (1)机器学习:模型复杂度较低,参数较少,可解释性强;

                (2)深度学习:参数量较大,模型的决策过程存在“黑匣子”问题,可解释性较差;

        3、计算资源

                (1)机器学习:计算资源需求低,消费级cpu即可,推理速度快;

                (2)深度学习:计算资源要求高,部分模型需要GPU加速运算,推理速度相对较慢;

五、总结

        不论是机器学习模型还是深度学习模型都各有其优劣,我们很难说深度学习模型一定比机器学习模型要好,在实际工作中我们也不会一上来就用神经网络。具体问题还是要具体分析,很多时候我们会同时进行机器学习和深度学习的建模,比较更优者进行后续的优化和部署。有时候,对于标签量小、特征数少、特征取值有限的数据,机器学习模型表现远优于深度学习,果然你大爷还是你大爷!


原文地址:https://blog.csdn.net/ChaneMo/article/details/142359231

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!