机器学习线性回归学习笔记

🕗 发布于 2024-11-20 02:12 机器学习 线性回归学习

线性回归

前面介绍了很多分类算法，分类的目标变量是标称型数据，回归是对连续型的数据做出预测。

标称型数据（Nominal Data）是统计学和数据分析中的一种数据类型，它用于分类或标记不同的类别或组别,数据点之间并没有数值意义上的距离或顺序。例如，颜色（红、蓝、绿）、性别（男、女）或产品类别（A、B、C）。

标称数据的特点：

无序性：标称数据的各个类别之间没有固有的顺序关系。例如，“性别”可以分为“男”和“女”，但“男”和“女”之间不存在大小、高低等顺序关系。
非数值性：标称数据不能进行数学运算，因为它们没有数值含义。你不能对“颜色”或“品牌”这样的标称数据进行加减乘除。
多样性：标称数据可以有很多不同的类别，具体取决于研究的主题或数据收集的目的。
比如西瓜的颜色,纹理,敲击声响这些数据就属于标称型数据,适用于西瓜分类

连续型数据（Continuous Data）表示在某个范围内可以取任意数值的测量，这些数据点之间有明确的数值关系和距离。例如，温度、高度、重量等

连续型数据的特点包括：

可测量性：连续型数据通常来源于物理测量，如长度、重量、温度、时间等，这些量是可以精确测量的。
无限可分性：连续型数据的取值范围理论上是无限可分的，可以无限精确地细分。例如，你可以测量一个物体的长度为2.5米，也可以更精确地测量为2.53米，甚至2.5376米，等等。
数值运算：连续型数据可以进行数学运算，如加、减、乘、除以及求平均值、中位数、标准差等统计量。

在数据分析中，连续型数据的处理和分析方式非常丰富，常见的有：

描述性统计：计算均值、中位数、众数、标准差、四分位数等，以了解数据的中心趋势和分布情况。
概率分布：通过拟合概率分布模型，如正态分布、指数分布、伽玛分布等，来理解数据的随机特性。
图形表示：使用直方图、密度图、箱线图、散点图等来可视化数据的分布和潜在的模式。
回归分析：建立连续型变量之间的数学关系，预测一个或多个自变量如何影响因变量。

假设一个线性方程：

ax+by+c=0

求这些回归系数（a、b、c）的过程就是回归。一旦有了这些回归系数，再给定输入，做预测就非常容易了。具体的做法是用回归系数乘以输入值，再将结果全部加在一起，就得到了预测值。

线性回归

说到回归，一般都是指线性回归（linear regression）。线性回归意味着可以将输入项分别乘以一些常量，再将结果加起来得到输出。线性回归是机器学习中一种有监督学习的算法,回归问题主要关注的是因变量(需要预测的值)和一个或多个数值型的自变量(预测变量)之间的关系.

需要预测的值:即目标变量,target _y

影响目标变量的因素:,可以是连续值也可以是离散值

因变量和自变量之间的关系:即模型,model,就是我们要求解的

比如1个包子是2元 3个包子是6元预测5个包子多少钱

列出方程:

带入:

2=w*1+b

6=w*3+b

轻易求得 w=2 b=0

模型(x与y的关系):

预测 x=5 时 target_y=2*5+0=10元

上面的方程式我们人类很多年以前就知道了,但是不叫人工智能算法,因为数学公式是理想状态,是100%对的,而人工智能是一种基于实际数据求解最优最接近实际的方程式,这个方程式带入实际数据计算后的结果是有误差的.

人工智能中的线性回归:数据集中,往往找不到一个完美的方程式来100%满足所有的y目标

我们就需要找出一个最接近真理的方程式

损失函数

数据: [[4.2, 3.8]，[4.2, 2.7]，[2.7, 2.4]，[0.8, 1.0]，[3.7, 2.8]，[1.7, 0.9]，[3.2, 2.9]]

我们假设这个最优的方程是:

y=wx+b

这样的直线随着w和b的取值不同可以画出无数条。

我们有很多方式认为某条直线是最优的,其中一种方式:均方差

就是每个点到线的竖直方向的距离平方求和再平均，最小时，这条直接就是最优直线。

预测目标：y1=wx+b，实际值y2通过数据已知，

误差：loss=y2-y1

由于数据点有的落在在预测直线上方，有的落在在预测直线下方，因此我们将误差平方，再累加起来。我们将损失定为：

假设b=0，由于yi与xi都已知，我们会得到一个e关于w的方程，当e最小时，w的值即是我们需要求的值。（即损失最小时，回归系数的值）

原文地址：https://blog.csdn.net/qq_71751106/article/details/143805921

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：经验笔记：从生成 SSH 密钥到成功连接测试（以Gitee为例）
下一篇：git根据远程分支创建本地新分支

深入理解 AWS Route 53 加权路由策略：实现多区域负载均衡
在当今的云计算环境中，有效管理和分配流量对于确保应用程序的高可用性和性能至关重要。AWS Route 53 的加权路由策略提供了一个强大的工具来实现这一目标。在本文中，我们将深入探讨加权路由策略的概念
阅读更多2024-11-21
Elasticsearch：如何部署文本嵌入模型并将其用于语义搜索
如何部署文本嵌入模型并将其用于语义搜索。它使你能够生成文本的向量表示并对生成的向量执行向量相似性搜索。示例中使用的模型在上公开可用。该示例使用来自的公共数据集。它由来自 Microsoft Bing
阅读更多2024-11-21
深入理解CRC：通信可靠性的关键
循环冗余校验（CRC, Cyclic Redundancy Check）是现代数据传输和存储中不可或缺的技术，用于提高系统的可靠性和数据完整性。CRC的强大之处在于其能够高效检测并定位传输错误，确保数
阅读更多2024-11-21
低速接口项目之串口Uart开发(一)——串口UART
在 RS-232 标准中，最常用的配置是八个数据位+无奇偶校验+一个停止位，按照一个完整的字节包括一位起始位、8 位数据位、一位停止位即总共十位数据来算，要想完整的实现这十位数据的发送，就需要 11个
阅读更多2024-11-21
网络安全基础
相对性、时效性、相关性、不确定性、复杂性以及重要性等。指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或者恶意的原因而遭受到破坏、更改、泄露，系统连续可靠正常地运行，网络服务不中断。1、机密
阅读更多2024-11-21
Docker1：认识docker、在Linux中安装docker
Docker：快速构建、运行、管理应用的工具。简单来说，帮助我们部署项目、以及项目依赖的各种组件。Docker是一个典型的运维工具。以上就是在Linux中，安装docker的全部详细过程，感兴趣就关注
阅读更多2024-11-21
基于Springboot+Vue医院急诊系统(源码+PPT+LW+调试部署)
基于Spring Boot + Vue的医院急诊系统，旨在为患者提供便捷的医院急诊服务，同时提升医院的信息化管理水平。系统分为前台和后台两部分，前台功能包括医生信息、医院病房、医院论坛、医院资讯、个人
阅读更多2024-11-21
Gin 框架中的表单处理与数据绑定
Gin框架允许注册自定义验证规则。import ("regexp"// 注册自定义验证规则})首先，根据表单的需要定义一个或多个结构体。这些结构体应该清晰地反映表单数据的结构和类型
阅读更多2024-11-21
CAAS 和 IAAS
和是两种云服务模式，分别代表不同层次的云计算服务。
阅读更多2024-11-21
Spark 分布式计算中网络传输和序列化的关系（二）
Spark 中序列化和网络传输的优化直接关系到分布式计算的整体性能。结合高效的序列化工具（如 Kryo）和合理的网络传输策略（如压缩、分区优化），可以显著提高数据处理效率。中，网络传输和序列化是数据处
阅读更多2024-11-21

机器学习 线性回归 学习笔记

线性回归

线性回归

损失函数

相关文章

机器学习线性回归学习笔记