机器学习杂笔记1：类型-数据集-效果评估-sklearn-机器学习算法分类

🕗 发布于 2024-11-21 06:40 机器学习 算法 sklearn

文章目录

1.类型

【1】监督学习：从成对的已经标记好的输入和输出经验数据作为一个输入进行学习，用来预测输出结果，是从有正确答案的例子中学习
任务：分类/回归

【2】无监督学习：在数据中发现一些规律
任务：聚类/降维

【3】半监督学习：介于监督学习与非监督学习之间的学习，一种增强学习，问题可以通过决策来获得反馈，但是反馈与某一个决策可能没有直接关系

2.数据集

三种类型

【1】训练集：用来进行训练（产生模型或算法）的数据集
规模：50%以上
问题：过度拟合

【2】测试集：用来专门进行测试已经学好的模型或者算法的数据集
规模：25%

【3】验证集：调整超参数变量
规模：余下部分

交叉验证

将数据集分成N块，使用N-1块进行训练，在另一块上测试。一次循环，直到每一块都测试过。

优点：
1.充分利用数据，在数据较少的情况下也能有较好的表现
2.交叉验证为模型的效果评估提供来比只有一个数据集更准确的方法

3.效果评估

1.无监督学习
真阳性（TP）：正确识别目标
假阳性（FP）：错误识别目标
真阴性（TN）：正确识别非目标
假阴性（FN）：错误识别非目标

【指标】
准确率（ACC）：（TP+TN）/（TP+TN+FP+FN）
精确率（P）：TP/（TP+FP）
召回率（R）：TP（TP+FN）

4.sklearn

sklearn.datasets.load_* 获取小规模数据集
sklearn.datasets.fetch_* 获取大规模数据

5.sklearn机器学习算法

【分类】
`K-近邻算法 sklearn.neighbors   
贝叶斯算法   sklearn.naive_bayes
逻辑回归 sklearn。linear_model.LogisticRegression
决策树与随机森林 sklearn.tree
  
 【回归】
 线性回归  sklearn.linear_model.LinearRegression
 岭回归   sklearn.linear_model.Ridge
【无监督学习】
聚类 sklearn。cluster.KMeans

七种数据分析方法

1.对比分析

对比数量差异
例如：时间维度上进行环比、同比、定基对比

2.细分分析

逐步分析：例如-销售额上涨，先拆分到国家、省、市、门店，对比分析哪个区域变大带来的，或者拆分到大的品类、在进行细分到某个小的单品

交叉细分：同时选取两个或者三个维度的变量综合分析对结果或者群体的影响（例如：四象限分析、RFM模型）

3.A/B测试（单一变量分析）

4.漏斗分析

漏斗图，展示某个特定流程中事件的变化情况，主要用于统计和计算转化率等关键数据
首先确定用户转化路径，之后通过量化每一步的转化率，来衡量一个商业或者产品的成败及可优化调整的点

一款电商类APP，从用户下载、访问、注册、浏览、交易，计算每一步的数值及漏斗比例

5.留存分析

用来分析用户参与情况/活跃程度的分析模型

常见留存指标有次日留存、七日留存、十五日留存、月留存等，表示目标用户在一段时间后回访产品或回到产品中完成某个行为的比例

6.相关分析

研究现象之间是否存在某种依存关系

方法：散点图、相关系数等

分类：单相关、复相关、偏相关

7.聚类分析

将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程

常见应用：用户细分、异常检测

原文地址：https://blog.csdn.net/LLX_002/article/details/143896689

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：深度学习：如何复现神经网络
下一篇：Linux运行脚本报错：deploy.sh: 4: local: not in a function

MySQL系列之身份鉴别（安全）
MySQL的身份鉴别是数据库安全的核心命题之一。在每日“拧螺丝”的工作中，我们的开发人员可能会忽略这个问题。正因如此，博主以这个契机，向大家做一次专题介绍。看过此文，相信你能够“上应付得了等保，下对得
阅读更多2024-11-21
uni app下开发AI运动小程序解决方案
开发者可以根据实际需求，自由选择并调用相应的接口，以实现丰富的功能，如通过相机抽帧控制来精确捕捉画面，利用人体识别技术来检测并跟踪人体动作，或是通过姿态识别与相似度比较功能来分析并比较用户的体态特征，
阅读更多2024-11-21
AI时代，百度的三大主义
这样的表态，在当时的环境下需要极大的勇气，事后证明，这其实就是全球主流的AI方向。目前在百度智能云的千帆大模型平台上，已经累计精调了3.3万个大模型，开发出了77万个企业级应用，百度智能云已经拥有中国
阅读更多2024-11-21
nwjs崩溃复现、 nwjs-控制台手动操纵、nwjs崩溃调用栈解码、剪切板例子中、nwjs混合模式、xdotool显示nwjs所有进程窗口列表
nwjs崩溃调用栈解码
阅读更多2024-11-21
【设计模式】【创建型模式（Creational Patterns）】之单例模式
这些实现都遵循了单例模式的基本原则：确保一个类只有一个实例，并提供一个全局访问点。每种语言的实现方式有所不同，但核心思想是一致的。
阅读更多2024-11-21
C++篇之多态
类成员函数前⾯加virtual修饰，那么这个成员函数被称为虚函数。注意⾮成员函数不能加virtual修饰。
阅读更多2024-11-21
java 设计模式模板方法模式
java 设计模式，模板方法模式，springboot，SpringCloudAlibaba，Springboot+Vue
阅读更多2024-11-21
Vue前端开发子组件向父组件传参
在父组件中，如果需要获取子组件中的数据，有两种方式，一种是在子组件中自定义事件，父组件绑定该事件，当触发自定义事件时，向父组件传入参数；另一种是先通过ref属性给子组件命名，然后在父组件中就可以调用$
阅读更多2024-11-21
【STM32】时钟系统
在我们学习STM32之前，我们需要先了解STM32系列芯片的时钟系统，这个是我们学习这个芯片的基础。为什么时钟系统这么重要呢？举个例子，如果把STM32比作我们的整个人体，那么时钟就是维持我们人体正常
阅读更多2024-11-21
华为云鸿蒙应用入门级开发者认证考试题库(理论题和实验题）
华为云鸿蒙应用入门级开发者认证题库，包含了大部分HCCDA考试认证题目
阅读更多2024-11-21