【机器学习】基础知识：拟合度（Goodness of Fit）

🕗 发布于 2024-12-10 13:01 机器学习 人工智能

拟合度概念及意义

拟合度（Goodness of Fit）是衡量统计模型对数据解释能力的指标，用于评价模型对观测数据的拟合效果。在回归分析、分类模型或其他预测模型中，拟合度是模型性能的重要衡量标准。

1. 拟合度的作用

拟合度的主要作用包括：

评估模型质量：衡量模型对实际数据的解释程度，帮助判断模型是否合理。
变量筛选：通过拟合度分析，确定哪些变量对模型贡献较大。
模型选择：在多个候选模型中，选择拟合度更高的模型。

2. 拟合度的常用指标

回归分析中的拟合度指标

决定系数 $R^2$
$R^2$ 表示解释变量（自变量）能够解释响应变量（因变量）变异的比例：
- SSR：残差平方和，表示模型未能解释的变异。
- SST：总平方和，表示观测值的总变异。
$R^2$ 范围为 0 到 1，值越接近 1，模型拟合效果越好。
调整 $R^2$
调整 $R^2$ 引入了模型自由度的惩罚，适用于变量较多的模型：
$\text{Adjusted } R^2 = 1 - \left( \frac{\text{SSR} / (n - k - 1)}{\text{SST} / (n - 1)} \right)$
其中，n 是样本数，k 是自变量数。
均方误差（MSE）
衡量模型预测值与真实值之间的平均误差平方：
$\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$
值越小，模型拟合越好。
均方根误差（RMSE）
均方误差的平方根：
$\text{RMSE} = \sqrt{\text{MSE}}$

分类模型中的拟合度指标

准确率（Accuracy）
Accuracy = 正确分类的样本数 / 总样本数
F1 分数
F1 分数结合了准确率和召回率，适用于类别不平衡的场景：
$F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$
对数似然（Log-Likelihood）
用于衡量模型与数据的匹配程度，特别是在广义线性模型中。

3. 拟合度与过拟合

过拟合（Overfitting）是拟合度分析中的一个重要问题。当模型过于复杂时，尽管拟合度指标（如 $R^2$ 可能较高，但模型对新数据的泛化能力较差。因此，需通过交叉验证等方法评估模型的真实性能。

4. 提高模型拟合度的方法

特征工程：选择相关性强的变量，剔除冗余或噪声变量。
正则化：使用 L1 或 L2 正则化限制模型复杂度，防止过拟合。
非线性模型：若线性模型拟合度较低，可以尝试使用非线性模型。
增加样本量：更多的数据可以提高模型的稳定性和泛化能力。

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

# 示例数据
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1.1, 2.0, 2.9, 4.1, 5.2])

# 线性回归模型
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

# 拟合度指标
r2 = r2_score(y, y_pred)  # 决定系数 R^2
mse = mean_squared_error(y, y_pred)  # 均方误差
rmse = np.sqrt(mse)  # 均方根误差

print(f"R^2: {r2:.4f}")
print(f"MSE: {mse:.4f}")
print(f"RMSE: {rmse:.4f}")

输出结果

R^2: 0.9960
MSE: 0.0086
RMSE: 0.0927

6. 总结

拟合度是衡量模型质量的重要标准。不同场景中可选择适合的拟合度指标（如 $R^2$ 、MSE 或 F1 分数）进行评估。此外，在提升拟合度的同时需警惕过拟合现象，确保模型具有良好的泛化能力。

原文地址：https://blog.csdn.net/IT_ORACLE/article/details/144339183

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【数据结构】堆的概念、结构、模拟实现以及应用
下一篇：认识Java中的异常(半成品)

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14