XGBOOST、LightGBM、CATBoost

🕗 发布于 2024-11-21 20:52 机器学习

本文介绍几种不同的 GBDT 优化算法：

XGBoost
XGBoost 对损失函数展开二阶导，使得提升树能逼近真是损失，增加正则项防止过拟合，XGBoost 公式：
L( $y_i$ , $\hat{y}_i$ ): 损失函数
$\Omega(f_k)$ : 正则项

分类点增加了二阶导：
G：一阶导数
H：二阶导数

# 安装依赖
pip install xgboost

import numpy as np
from cart import TreeNode, BinaryDecisionTree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from utils import cat_label_convert

### 准备数据
from sklearn import datasets
# 导入鸢尾花数据集
data = datasets.load_iris()
# 获取输入输出
X, y = data.data, data.target
# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=43)  

import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt

# 设置模型参数
params = {
    'booster': 'gbtree',
    'objective': 'multi:softmax',   
    'num_class': 3,     
    'gamma': 0.1,
    'max_depth': 2,
    'lambda': 2,
    'subsample': 0.7,
    'colsample_bytree': 0.7,
    'min_child_weight': 3,
    'eta': 0.001,
    'seed': 1000,
    'nthread': 4,
}


dtrain = xgb.DMatrix(X_train, y_train)
num_rounds = 200
model = xgb.train(params, dtrain, num_rounds)
# 对测试集进行预测
dtest = xgb.DMatrix(X_test)
y_pred = model.predict(dtest)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print ("Accuracy:", accuracy)
# 绘制特征重要性
plot_importance(model)
plt.show();

在这里插入图片描述

LightGBM
XGBoost 需找最优分裂点的计算复杂度可以估计为：特征数 x 分裂点数量 x 样本量，LightGBM 对 XGBoost 算法通过这三方面进行优化。

直方图优化（Histogram-Based）：按桶计算特征值的分裂点而不是去尝试每一个分裂点，每个桶中包含多个特征值。
互斥特征合并（Exclusive Feature Bundling）：把多个互斥的特征进行合并，可以有效的减少特征数量。
叶子策略（Leaf-Wise）：叶子生长策略相对于按层生长的策略，优势在于只保留有效降低损失值的节点，缺点是如果正则值设置的不合适，有可能产生过拟合。

# 安装依赖
pip install lightgbm
# 导入相关模块
import lightgbm as lgb
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
# 导入iris数据集
iris = load_iris()
data = iris.data
target = iris.target
# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=43)
# 创建lightgbm分类模型
gbm = lgb.LGBMClassifier(objective='multiclass',
                         num_class=3,
                         num_leaves=31,
                         learning_rate=0.05,
                         n_estimators=20)
# 模型训练
gbm.fit(X_train, y_train, eval_set=[(X_test, y_test)])
# 预测测试集
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration_)
# 模型评估
print('Accuracy of lightgbm:', accuracy_score(y_test, y_pred))
lgb.plot_importance(gbm)
plt.show();

在这里插入图片描述

CatBoost
CatBoost 算法是使用类别特征的 Boost 框架，使用目标变量统计算法而不是 OneHot 编码，通过排序提升让后面的角色树只能前面的数据，而不能看到后面决策树所能看到的数据库，这个可以大大提升训练效果。

#安装依赖
pip install catboost
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import catboost as cb
from sklearn.metrics import f1_score

# 读取数据
data = pd.read_csv('./adult.data', header=None)
# 变量重命名
data.columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 
                'marital-status', 'occupation', 'relationship', 'race', 'sex', 
                'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']
# 标签转换
data['income'] = data['income'].astype("category").cat.codes
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(data.drop(['income'], axis=1), data['income'],
                                                    random_state=10, test_size=0.3)
# 配置训练参数
clf = cb.CatBoostClassifier(eval_metric="AUC", depth=4, iterations=500, l2_leaf_reg=1,
                            learning_rate=0.1)
# 类别特征索引
cat_features_index = [1, 3, 5, 6, 7, 8, 9, 13]
# 训练
clf.fit(X_train, y_train, cat_features=cat_features_index)
# 预测
y_pred = clf.predict(X_test)
# 测试集f1得分
print(f1_score(y_test, y_pred))

在这里插入图片描述

总结

本文介绍了三种 GBDT 的优化算法，可以根据实际情况进行选择。

原文地址：https://blog.csdn.net/hawk2014bj/article/details/143916570

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【JAVA】Java基础—面向对象编程：常用API与数据结构—字符串、数组的使用
下一篇：快速简单的视频下载器——lux

网络中的数据传输格式
这里划分为四层来看主机A向主机B发送数据的前提：主机A知道主机B的IP地址。
阅读更多2024-11-21
基于YOLOv8深度学习的扰乱公共秩序打架异常行为检测系统研究与实现(PyQt5界面+数据集+训练代码)
随着智能监控技术和人工智能的发展，基于深度学习的行为检测技术在公共安全和防范领域中发挥着越来越重要的作用。传统的监控系统通常依赖于人工监控，这不仅耗费大量的人力和时间，且容易因为人的疲劳或疏忽而漏检关
阅读更多2024-11-21
【网络】网络抓包与协议分析
通过网络抓包来查看各种协议，并分析各种协议的功能
阅读更多2024-11-21
np.matmul和np.dot和@有什么区别与联系
，因为这两个函数/运算符主要设计用于矩阵乘法。运算符需要将数组转换为二维形式（例如，通过。可以直接处理一维数组的点积。注意：对于一维数组的点积，
阅读更多2024-11-21
代码随想录算法训练营第二十一天 | 93.复原IP地址 | 78.子集
自己实现中遇到哪些困难一句话讲明白问题分类组合问题和分割问题都是收集树的叶子节点子集问题是找树的所有节点！切割字符串问题回顾昨天的切割回文子串，和今天的切割ip地址，都是需要将字符串拆分成 n 份。只
阅读更多2024-11-21
理解加密：常见算法及其应用
加密技术在现代信息安全中扮演着重要角色。对称加密和非对称加密各有优缺点，适用于不同的场景，而哈希算法则主要用于确保数据的完整性。在选择加密算法时，应考虑安全性、性能和数据的性质。
阅读更多2024-11-21
40分钟学 Go 语言高并发：Go语言核心回顾
这些核心概念的深入理解对于编写高质量的Go代码至关重要。建议通过实践和不断重构来加深对这些概念的理解。在后续的高并发编程中，这些基础知识将会反复用到。
阅读更多2024-11-21
python获取本地电脑的ip和mac地址
获取 IP 地址在 Python 中，可以使用socket模块来获取本地 IP 地址。以下是一个简单的示例代码：登录后复制 import socketdef get_local_ip():
阅读更多2024-11-21
VideoCrafter模型部署教程
VideoCrafter是一个功能强大的AI视频编辑和生成工具，它结合了深度学习和机器学习技术，为用户提供了便捷的视频制作和编辑体验。本文详细介绍了如何实现该模型的本地部署使用。
阅读更多2024-11-21
浪潮云启操作系统（InLinux） bcache宕机问题分析
本文以一次真实的内核宕机问题为切入点，结合实际操作案例，详细展示了如何利用工具 `crash`对内核转储（kdump）进行深入分析和调试的方法。通过对崩溃日志的解读、函数调用栈的梳理、关键地址的定位以
阅读更多2024-11-21

XGBOOST、LightGBM、CATBoost

总结

相关文章