机器学习——简单线性回归、逻辑回归

🕗 发布于 2024-11-13 11:28 python 机器学习 笔记学习

简单线性回归

线性回归用于预测一个连续的数值输出（因变量），其模型假设输入特征（自变量）和输出之间存在线性关系。基本的线性回归模型如下：

损失函数

线性回归通常通过最小二乘法来估计回归系数。最小二乘法的目标是最小化预测值和真实值之间的差异，即最小化损失函数。对于线性回归，损失函数通常是均方误差:

参数优化

通过梯度下降算法更新回归系数和偏置项，逐步减少损失函数的值。

优点：

简单易懂，计算效率高
可解释性强，系数的符号和大小能直接反映特征对输出的影响

缺点：

对异常值敏感，容易受到影响
无法处理数据的多重共线性问题

代码示例

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 示例数据
X = np.array([[650], [800], [1200], [1500], [1800], [2000], [2300], [2500]])
y = np.array([150, 180, 240, 290, 330, 350, 390, 410])

# 数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 模型并训练
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 输出模型的系数和截距
print("模型系数:", model.coef_)
print("截距:", model.intercept_)

# 预测结果
print("实际价格:", y_test)
print("预测价格:", y_pred)

# 可视化结果
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体字体
plt.scatter(X, y, color="blue", label="实际数据") 
plt.plot(X, model.predict(X), color="red", label="预测直线")  # 预测直线
plt.legend()
plt.show()

逻辑回归

逻辑回归用于分类问题，尤其是二分类问题。尽管名字中有“回归”，它实际上是一个分类算法。逻辑回归通过对线性回归的输出进行sigmoid函数转换，将其映射到0到1之间，从而得到一个概率值，用于判断输入样本属于某个类别的概率。

线性模型

激活函数（sigmoid函数）

正类概率（类别1）

损失函数（对数似然函数）

逻辑回归的目标是找到最优的参数 www，使得模型对训练数据的预测概率最大。

参数优化

逻辑回归使用梯度下降或类似的方法（如随机梯度下降）来优化损失函数。通过计算损失函数相对于参数w的梯度并不断调整w的值，可以找到最优的参数。

分类决策

当 P(Y=1∣X)≥0.5时，预测为正类，否则预测为负类。

示例代码

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 示例数据
data = pd.DataFrame({
    '年龄': [22, 25, 28, 32, 35, 40, 45, 50, 60],
    '年收入': [2.5, 5.0, 6.5, 7.5, 8.5, 10.0, 12.5, 15.0, 20.0],
    '购买': [0, 0, 0, 1, 1, 1, 1, 0, 1]
})

# 划分特征和标签
X = data[['年龄', '年收入']]
y = data['购买']

# 数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)

print("预测结果:", y_pred)
print("准确率:", accuracy)

原文地址：https://blog.csdn.net/weixin_74268817/article/details/143606108

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Spring Boot 多环境开发配置详解：Profiles 的使用指南
下一篇：C++初阶——list

【C++】list 类深度解析：探索双向链表的奇妙世界
本文深度解析了 C++ 标准库中的 list 类。首先阐述学习 list 类的原因，其具有高效插入删除操作优势，如双向链表结构使插入删除只需调指针，时间复杂度常数级；内存管理灵活，节点分散存储避免内存
阅读更多2024-11-16
常用List工具类（取交集、并集等等）
【代码】常用List工具类（取交集、并集等等）
阅读更多2024-11-16
宝塔面板从 Nginx 切换到 Caddy：详细教程
宝塔面板从 Nginx 切换到 Caddy
阅读更多2024-11-16
计算机网络中的数据包传输机制详解
数据包是网络通信的基本单位，它包含了控制信息（如源地址、目的地址等）和用户数据（即有效载荷）。根据不同的网络协议，数据包的结构会有所不同。数据包的传输机制是计算机网络的核心内容之一，它涉及到数据的封装
阅读更多2024-11-16
LinkedList 源码分析
仅仅在头尾插入或者删除元素的时候时间复杂度近似 O(1)，其他情况增删元素的平均时间复杂度都是 O(n)。底层数据结构是链表，内存地址不连续，只能通过指针来定位，不支持随机快速访问，所以不能实现。是一
阅读更多2024-11-16
【泛型 Plus】Kotlin 的加强版类型推断：@BuilderInference
视频先行下面是视频内容的脚本文案原稿分享。小剧场面试官：「既然协程和泛型你都熟悉，flow() 函数是怎么实现类型推断的有了解过吗？」求职者：「嗯……」求职者：「嗯……在Kotlin协程中，flow
阅读更多2024-11-16
20.UE5UI预构造，开始菜单
如果我们直接再画布上设计我们的按钮，我们需要为每一个按钮进行编辑，复用性太差，能不能在其他的UI蓝图中编辑好，随后就好像其他元素（文本，button）一样，直接放入到我们的画布中？为了在复用时，可以自
阅读更多2024-11-16
支持向量机SVM——基于分类问题的监督学习算法
支持向量机SVM是一种常用于分类问题的监督学习算法。文章主要从基础公式角度讲解它的基本原理，涉及线性和非线性情况。
阅读更多2024-11-16
鸿蒙生态下的安全隐私保护：打造用户信任的应用体验
作为开发者，在享受鸿蒙生态系统带来的广阔市场机遇的同时，也面临着保障用户数据安全和隐私保护的重要责任。同时，开发者需要向用户提供清晰的信息收集和使用的说明，让用户了解自己的数据如何被使用。总的来说，在
阅读更多2024-11-16
基本数据类型：Kotlin、Dart (Flutter)、Java 和 C++ 的比较
本文比较了 Kotlin、Dart (Flutter)、Java 和 C++ 中的基本数据类型，并探讨了有符号和无符号整数的区别。文章还详细解释了二进制补码的计算方式和其在计算机系统中的应用。理解这些
阅读更多2024-11-16

机器学习——简单线性回归、逻辑回归

简单线性回归

逻辑回归

相关文章