CatBoost模型Python代码——用CatBoost模型实现机器学习

🕗 发布于 2024-07-23 13:44 python 机器学习 开发语言

一、CatBoost模型简介

1.1适用范围

CatBoost（Categorical Boosting）是一种基于梯度提升的机器学习算法，特别适用于处理具有类别特征的数据集。它可以用于分类、回归和排序任务，并且在处理具有大量类别特征的数据时表现优异。典型应用包括但不限于：

电子商务中的推荐系统
客户行为分析
财务风险评估
医疗数据分析

1.2原理

CatBoost使用梯度提升决策树（GBDT）作为其核心算法。其主要特点包括：

处理类别特征：CatBoost原生支持类别特征，并在内部使用目标编码（target encoding）来处理它们，从而减少了类别变量处理的复杂性。
顺序增强（Ordered Boosting）：在构建每棵树时，CatBoost通过引入一种新的顺序提升方法来避免传统梯度提升中的预测偏差问题。
随机分片：为了进一步减少过拟合，CatBoost在每次树构建时随机分割数据集。

1.3优点

高效处理类别特征：无需复杂的预处理步骤。
减少过拟合：通过顺序增强和随机分片技术。
易于使用：内置了许多默认的优化参数，适合初学者和快速原型开发。
高性能：在许多实际应用中表现优于其他GBDT算法（如XGBoost和LightGBM）。

1.4缺点

模型训练时间较长：尽管有许多优化，训练时间可能比其他简单模型更长。
内存占用较高：在处理大规模数据时，内存需求较大。

二、实现CatBoost模型的Python代码

下面是一个使用CatBoost进行分类任务的完整Python代码示例，包含详细注释。

2.1导入必要的包和测试数据

import pandas as pd
from catboost import CatBoostClassifier, Pool
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_curve, auc
import matplotlib.pyplot as plt
import seaborn as sns

# 加载Titanic数据集
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
data = pd.read_csv(url)

# 查看数据集的列名
print("Columns in the dataset:", data.columns)

2.2简单的数据预处理

# 简单的数据预处理
# 填充缺失值
# data['Age'].fillna(data['Age'].median(), inplace=True)
# data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

# 将Sex和Embarked转换为类别型特征
data['Sex'] = data['Sex'].astype('category')
# data['Pclass'] = data['Pclass'].astype('Pclass')

# 选择特征和目标
features = ['Pclass', 'Sex', 'Age', 'Siblings/Spouses Aboard', 'Parents/Children Aboard', 'Fare']
target = 'Survived'

X = data[features]
y = data[target]

2.3构建CatBoost模型

# 分割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建CatBoost数据池
categorical_features = ['Sex', 'Pclass']
train_pool = Pool(X_train, y_train, cat_features=categorical_features)
test_pool = Pool(X_test, y_test, cat_features=categorical_features)

# 初始化并训练CatBoost分类器
model = CatBoostClassifier(
    iterations=1000,
    learning_rate=0.1,
    depth=6,
    loss_function='Logloss',  # 二分类任务使用'Logloss'
    verbose=100  # 每100次迭代打印一次信息
)

# 训练模型
model.fit(train_pool)

# 在测试集上进行预测
y_pred = model.predict(test_pool)
y_pred_proba = model.predict_proba(test_pool)[:, 1]

2.4模型评估

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')
print(classification_report(y_test, y_pred))

模型评估输出结果如下：

0:learn: 0.6538633total: 159msremaining: 2m 39s
100:learn: 0.2814504total: 891msremaining: 7.93s
200:learn: 0.2007734total: 1.68sremaining: 6.68s
300:learn: 0.1536222total: 2.45sremaining: 5.69s
400:learn: 0.1220845total: 3.19sremaining: 4.77s
500:learn: 0.0961718total: 3.95sremaining: 3.93s
600:learn: 0.0810769total: 4.7sremaining: 3.12s
700:learn: 0.0694396total: 5.45sremaining: 2.33s
800:learn: 0.0598153total: 6.2sremaining: 1.54s
900:learn: 0.0527771total: 6.93sremaining: 761ms
999:learn: 0.0474017total: 7.67sremaining: 0us
Accuracy: 0.8033707865168539
              precision    recall  f1-score   support

           0       0.84      0.85      0.84       111
           1       0.74      0.73      0.74        67

    accuracy                           0.80       178
   macro avg       0.79      0.79      0.79       178
weighted avg       0.80      0.80      0.80       178

Feature: Pclass, Importance: 16.480181005946406
Feature: Sex, Importance: 24.322199798316337
Feature: Age, Importance: 27.28642174968946
Feature: Siblings/Spouses Aboard, Importance: 5.125530737270014
Feature: Parents/Children Aboard, Importance: 3.006729091175773
Feature: Fare, Importance: 23.77893761760206

2.5可视化特征重要性（可选）

# 可视化特征重要性（可选）
plt.figure(figsize=(10, 6))
plt.barh(X.columns, feature_importances)
plt.xlabel('Feature Importance')
plt.title('CatBoost Feature Importances')
plt.show()

特征重要性输出结果如下：

2.6绘制混淆矩阵

# 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()

绘制混淆矩阵输出结果如下：

2.7绘制ROC曲线

# 绘制ROC曲线
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='blue', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='gray', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc='lower right')
plt.show()

绘制ROC曲线输出结果如下：

原文地址：https://blog.csdn.net/qq_41698317/article/details/140531984

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：昇思25天学习打卡营第15天|K近邻算法实现红酒聚类
下一篇：Python 机器学习求解 PDE 学习项目——PINN 求解一维 Poisson 方程

VirtualBox 网络设置
VirtualBox 提供了多种网络设置方式，每种方式都有其特定的应用场景和优缺点。在选择网络设置方式时，需要根据实际需求进行综合考虑。如果需要虚拟机像独立的物理计算机一样与外部网络中的其他设备进行通
阅读更多2024-09-19
什么是 SSL 代理？
SSL 的作用是保证您的数据在您的设备和互联网之间传输时的安全。当您访问安全网站时，您的连接会使用 SSL 加密，因此您共享的任何数据都是加密的，不会被窥探。SSL 代理不仅会加密您的通信数据，还会修
阅读更多2024-09-19
【分立元件】案例：新人加了个TVS管为什么可能导致系统不能正常工作
TVS是一种限压型的过压保护器，它将过高的电压钳制至一个安全范围，藉以保护后面的电路，有着比其它保护元件更快的反应时间，这使TVS可用在防护lighting、switching、ESD等快速破坏性瞬态
阅读更多2024-09-19
python 绘制 y=x^3 图像
Matplotlib 是Python中一个绘图库，支持跨平台运行，可以生成出版级别的图形，能够输出的图形包含折线图，散点图，曲线图，直方图，饼状图，条形图以及坐标图，其强大的绘画能力能够使得用户对数据
阅读更多2024-09-19
记忆化搜索
记忆化搜索 OJ题
阅读更多2024-09-19
朴素贝叶斯 (Naive Bayes)
朴素贝叶斯算法尽管假设特征独立，但在许多实际应用中表现良好。其简洁、有效的特性在文本分类、垃圾邮件过滤和推荐系统等多个领域中得到广泛应用。
阅读更多2024-09-19
【强化学习系列】Gym库使用——创建自己的强化学习环境2：拆解官方标准模型源码/规范自定义类+打包自定义环境
本文记录在创建自定义gym环境中的报错与规范化问题，帮助后续矢量化环境创建
阅读更多2024-09-19
supermap iclient3d for cesium中entity使用
目标将西南石油大学部分区域围起来，然后引个标签显示名称，最后弄个飞机绕学校飞（这个时间有点晚了，明天弄)飞机的位置也要在写在外面，会和标签重合，所以重新创建一个对象,然后就是加载一个飞机，文档里面说了
阅读更多2024-09-19
vim的配置文件
个人的配置文件是隐藏的，不进行配置的话一般是没有这个文件的，需要自己创建。，共有两个，一个是公共的、所有用户的。vim 的配置文件名是。，一个是私有的、个人的。私有的配置文件位于**
阅读更多2024-09-19
阿里1688一面总结
发布-订阅模式，即当实验发生变更时，就发出一个变更事件，然后，每台机器感知到这个变更事件后，清空本地缓存，触发reload操作。为了避免大量请求打到DB，可以对查询请求进行加锁，保证相同的实验只有一个
阅读更多2024-09-19