【21天学习AI底层概念】day13 （kaggle新手入门教程）Exercise: Underfitting and Overfitting

🕗 发布于 2025-01-16 12:52 人工智能 学习 机器学习

网址：https://www.kaggle.com/code/meirou674/exercise-underfitting-and-overfitting/edit

代码

1.回顾

# Code you have previously used to load data
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor


# Path of the file to read
iowa_file_path = '../input/home-data-for-ml-course/train.csv'

home_data = pd.read_csv(iowa_file_path)
# Create target object and call it y
y = home_data.SalePrice
# Create X
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Specify Model
iowa_model = DecisionTreeRegressor(random_state=1)
# Fit Model
iowa_model.fit(train_X, train_y)

# Make validation predictions and calculate mean absolute error
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE: {:,.0f}".format(val_mae))

# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.machine_learning.ex5 import *
print("\nSetup complete")

输出：
Validation MAE: 29,653
没做优化前，模型的MAE

2.Step 1: Compare Different Tree Sizes

以下封装一个计算MAE的方法，入参是最大节点数、训练集、验证集，输出MAE

def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

以下是精髓，找到最佳的“最大节点数”，代码过于简洁，看不懂，解释放在后面

candidate_max_leaf_nodes = [5, 25, 50, 100, 250, 500]
# Write loop to find the ideal tree size from candidate_max_leaf_nodes
scores = {leaf_nodes:get_mae(leaf_nodes,train_X, val_X, train_y, val_y) for leaf_nodes in candidate_max_leaf_nodes}

# Store the best value of max_leaf_nodes (it will be either 5, 25, 50, 100, 250 or 500)
best_tree_size = min(scores,key=scores.get)
print(best_tree_size)

好的！我们来一步步拆解这段代码并解释每一部分的含义。

原代码：

scores = {leaf_size: get_mae(leaf_size, train_X, val_X, train_y, val_y) for leaf_size in candidate_max_leaf_nodes}
best_tree_size = min(scores, key=scores.get)

第一行代码解释

scores = {leaf_size: get_mae(leaf_size, train_X, val_X, train_y, val_y) for leaf_size in candidate_max_leaf_nodes}

1. 这是一个字典推导式：

字典推导式的格式是：{key: value for item in iterable}。
它会生成一个字典，key 和 value 是动态计算出来的。

2. 代码作用：

遍历列表 candidate_max_leaf_nodes 中的每个值，把每个值命名为 leaf_size。
调用函数 get_mae()，传入当前的 leaf_size 和其他参数（train_X, val_X, train_y, val_y），计算出一个误差值（MAE，平均绝对误差）。
把 leaf_size 作为字典的键（key），对应的误差值作为值（value），组成一个新的字典 scores。

3. 假设数据：

candidate_max_leaf_nodes = [5, 10, 20]
每次 get_mae() 的结果可能是：
- get_mae(5, ...) = 0.25
- get_mae(10, ...) = 0.20
- get_mae(20, ...) = 0.30
最终生成的 scores：
```
scores = {5: 0.25, 10: 0.20, 20: 0.30}
```

第二行代码解释

best_tree_size = min(scores, key=scores.get)

1. `min()` 函数作用：

找出 scores 字典中某个键，使得对应的值最小。
key=scores.get 表示比较的是字典中每个键对应的值，而不是直接比较键本身。

2. 分解步骤：

遍历 scores 中的键（如 5, 10, 20）。
对于每个键，计算对应的值（如 0.25, 0.20, 0.30）。
找出值最小的键，作为 best_tree_size。

3. 继续用假设数据：

scores = {5: 0.25, 10: 0.20, 20: 0.30}
最小值是 0.20，对应的键是 10。
所以 best_tree_size = 10。

总结这段代码的作用

遍历不同的叶子节点数量（leaf_size），计算每个数量下模型的误差（MAE）。
从中找出误差最小的叶子节点数量，赋值给 best_tree_size。

补充：字典推导式和 `min()` 的简单例子

字典推导式：

numbers = [1, 2, 3, 4]
squares = {x: x**2 for x in numbers}
print(squares)  # 输出：{1: 1, 2: 4, 3: 9, 4: 16}

`min()` 用法：

values = {5: 10, 3: 7, 8: 2}
result = min(values, key=values.get)
print(result)  # 输出：8，因为值 2 是最小的，键是 8

3.Step 2: Fit Model Using All Data

第一步算出最佳的“最大节点数”，第二步就可以建一个新的决策树模型，它的max_leaf_nodes=best_tree_size，用整个数据集去训练模型了

# Fill in argument to make optimal size and uncomment
final_model = DecisionTreeRegressor(max_leaf_nodes=best_tree_size,random_state=1)

# fit the final model and uncomment the next two lines
final_model.fit(X, y)

最终，我们基于现有的数据集，训练出了一个最可靠的模型，如果我们得到一批新的X，那么就可以预测y了！（我觉得效果应该也不好，但肯定比优化前好了，数学真伟大）

原文地址：https://blog.csdn.net/keira674/article/details/145161042

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：STM32H7通过CUBEMX初始化移植LWIP，DHCP建立RAW TCP服务器，不停发成功
下一篇：ESXI 安装教程(3) ---vCenter Server 安装

计算机组成原理--笔记一
存储程序”，将指令以二进制的形式输入到计算机的主存储器中。。。特点，· 计算机有五大部分组成。· 指令和数据以同等地位存于存储器中，可按地址寻访。· 指令和数据用二进制表示。· 指令由操作码和地址码组
阅读更多2025-01-16
MySQL表的增删改查(基础)-下篇
承接上篇文章对MySQL的增删改查进行补充
阅读更多2025-01-16
HPM6700——以太网通信lwip_udpecho_freertos_socket
本示例展示在FreeRTOS系统下的UDP回送通讯PC 通过以太网发送UDP数据帧至MCU，MCU将接收的数据帧回发至PC。
阅读更多2025-01-16
c语言----------内存管理
类型作用域生命周期auto变量一对{}内当前函数static局部变量一对{}内整个程序运行期extern变量整个程序整个程序运行期static全局变
阅读更多2025-01-16
VUE3 组件的使用
组件注册是 Vue.js 开发中的一个基础概念，掌握了组件的注册方式（局部注册和全局注册）以及生命周期钩子、传值机制（props和事件）和插槽等功能，你就能在 Vue 中高效地构建和组织应用程序。通过
阅读更多2025-01-16
RTX 5090 加持，科研服务器如何颠覆 AI 深度学习构架?
RTX 5090 的 Tensor Core 对 FP16 半精度数据的加速支持，结合混合精度训练技术，在保证精度的同时，大幅减少内存占用与计算时间，极大缩短训练周期。在材料科学的量子计算研究中，RT
阅读更多2025-01-16
Mono里运行C#脚本27—X86_64指令寄存器初步了解mono_arch_regname
Mono里运行C#脚本27—X86_64指令寄存器初步了解mono_arch_regname通过前面的分析，我们知道一个程序要运行，要么解释执行，要么编译后执行。JIT是采用即时编译的技术，显然是把程
阅读更多2025-01-16
C# 特性（Attributes）详解
特性（Attributes）是 C# 提供的一种强大的元数据机制，用于在代码中添加描述性信息。它可以附加到程序的各种部分（类、方法、属性、字段等），供运行时或编译时使用。内置特性继承自类。csharp
阅读更多2025-01-16
SQL 中的 JOIN：INNER、LEFT、RIGHT、FULL、Cross、Self 和 Natural Join
JOIN 是一种 SQL 操作符，用于根据相关列将两个或多个表中的数据行组合在一起。在数据库设计中，数据通常分散在多个表中，通过 JOIN 操作可以将这些表中的数据组合起来，以便进行查询和分析。INN
阅读更多2025-01-16
Hessian矩阵 && 通过符号计算解析 Hessian 矩阵
首先，明确需要优化的目标函数 (fxfx) )，其中 (x\mathbf{x}x) 是机器人状态或控制变量。构建Hessian矩阵的关键在于计算目标函数的二阶偏导数，可通过解析或数值方法实现，具体取决
阅读更多2025-01-16