CatBoost 中对分类特征进行目标变量统计编码公式解析

🕗 发布于 2024-11-12 09:03 机器学习 集成学习 boosting CatBoost 人工智能

公式 14-2 是 CatBoost 中对分类特征进行目标变量统计编码的一种改进版本，加入了平滑项，用于处理稀疏数据和类别样本不足的情况。下面是对公式的详细解释：

公式 14-2

$\hat{x}_k^i = \frac{\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}] Y_{\sigma_j} + a \cdot p}{\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}] + a}$

公式的意义

公式用于计算分类特征 $x_k$ 的目标变量统计值 $\hat{x}_k^i$ 。
统计值 $\hat{x}_k^i$ 是基于当前样本 $i$ 之前的训练样本数据计算得到的。
通过引入平滑参数 $a$ 和全局目标变量均值 $p$ ，公式能够避免统计值在样本数量较少时过于极端或不稳定。

公式中的符号含义

$\hat{x}_k^i$ ：
- 表示第 $i$ 个样本在分类特征 $k$ 上的目标变量统计值。
$x_{\sigma_j,k}$ 和 $x_{\sigma_i,k}$ ：
- $x_{\sigma_j,k}$ ：第 $j$ 个样本在分类特征 $k$ 上的取值。
- $x_{\sigma_i,k}$ ：第 $i$ 个样本在分类特征 $k$ 上的取值。
指示函数 $[x_{\sigma_j,k} = x_{\sigma_i,k}]$ ：
- 当 $x_{\sigma_j,k} = x_{\sigma_i,k}$ 时，其值为 1；否则为 0。
- 用于选择与当前样本 $i$ 的特征值 $x_{\sigma_i,k}$ 相同的样本。
$Y_{\sigma_j}$ ：
- 样本 $j$ 的目标变量值。
$a$ ：
- 平滑参数，控制全局均值 $p$ 对目标统计值的影响。
  - 如果 $a$ 较大，则统计值更依赖全局均值 $p$ ；
  - 如果 $a$ 较小，则统计值更依赖于当前类别的历史统计值。
$p$ ：
- 全局目标变量均值，即所有样本目标变量 $Y$ 的平均值：
  $\frac{\sum_{j=1}^n Y_j}{n}$
  $n$ 为总样本数。
$\sigma$ ：
- 表示样本的排列顺序，确保计算过程中只使用当前样本之前的数据。
分子：
- 包含两部分：
  - $\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}] Y_{\sigma_j}$ ：
    当前样本之前，与 $x_{\sigma_i,k}$ 特征值相同的样本目标值之和。
  - $\cdot p$ ：
    平滑项，表示全局目标均值对统计值的贡献。
分母：
- 同样包含两部分：
  - $\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}]$ ：
    当前样本之前，与 $x_{\sigma_i,k}$ 特征值相同的样本数量。
  - $a$ ：
    平滑因子，防止分母为零。

公式分解与逐步解释

1. 未引入平滑项时的目标统计值

目标统计值是当前类别目标变量的历史加权均值：
$\hat{x}_k^i = \frac{\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}] Y_{\sigma_j}}{\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}]}$

问题：当 $i - 1$ 中满足 $x_{\sigma_j,k} = x_{\sigma_i,k}$ 的样本数量较少时（稀疏类别或训练早期），分母较小，统计值可能过于极端。

2. 引入平滑项后的目标统计值

通过加入全局目标均值 $p$ 和权重因子 $a$ ，使得统计值更平滑、更鲁棒：

当样本数量较多时：
- 分母中的 $a$ 对总值的贡献较小，公式更依赖于当前类别的目标统计。
当样本数量较少时：
- 分母中的 $a$ 占比较大，公式更依赖于全局均值 $p$ 。

这有效缓解了稀疏类别问题。

计算步骤

定位与当前样本 $x_{\sigma_i,k}$ 特征值相同的历史样本：
- 遍历当前样本之前的所有样本 $\dots, i-1$ ，使用指示函数 $[x_{\sigma_j,k} = x_{\sigma_i,k}]$ 筛选出特征值相同的样本。
累加目标变量 $Y$ ：
- 对筛选出的样本目标变量 $Y_{\sigma_j}$ 求和，得到该类别的目标值总和。
加上平滑项：
- 将全局目标均值 $p$ 乘以平滑参数 $a$ ，作为额外的平滑贡献。
计算分母：
- 累加与当前样本 $x_{\sigma_i,k}$ 特征值相同的历史样本数量，再加上平滑参数 $a$ 。
计算目标统计值：
- 将分子除以分母，得到平滑后的目标统计值。

公式的作用

解决稀疏类别问题：
- 当类别 $x_{\sigma_i,k}$ 的样本数量较少时，统计值会更依赖于全局均值 $p$ ，从而避免过拟合。
避免数据泄漏：
- CatBoost 通过排序提升方法（Ordered Boosting），保证计算当前样本的目标统计值时，仅使用当前样本之前的历史数据，避免目标变量泄漏。
提高模型稳定性：
- 引入平滑项 $a$ 和全局均值 $p$ ，使得模型在稀疏数据或早期训练阶段更加稳定。

示例

假设有如下数据：

样本 $i$	分类特征 $x_i$	目标值 $Y_i$
1	A	1
2	B	0
3	A	1
4	A	0
5	B	1

全局目标均值：
$\frac{1 + 0 + 1 + 0 + 1}{5} = 0.6$

平滑因子：
$a = 2$

计算 $\hat{x}_k^3$ （第 3 行，类别 $A$ ）：

历史样本中 $x_{\sigma_j,k} = x_{\sigma_3,k} = A$ ：
- 第 1 行： $Y_1 = 1$ 。
- 所以，分子为：
  $\sum_{j=1}^{2} [x_{\sigma_j,k} = x_{\sigma_3,k}] Y_{\sigma_j} + a \cdot p = 1 + 2 \cdot 0.6 = 2.2$
- 分母为：
  $\sum_{j=1}^{2} [x_{\sigma_j,k} = x_{\sigma_3,k}] + a = 1 + 2 = 3$
目标统计值：
$\hat{x}_k^3 = \frac{2.2}{3} \approx 0.733$

原文地址：https://blog.csdn.net/u013172930/article/details/143695529

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

2024年网络安全（黑客技术）三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-11-15
数据结构Python版
2.3.3 双链表双链表和链表一样，只不过每个节点有两个链接——一个指向后一个节点，一个指向前一个节点。此外，除了第一个节点，双链表还需要记录最后一个节点。每个结点为DLinkNode类对象，包括存储
阅读更多2024-11-15
连接数据库导出数据库信息支持excel pdf html markdown
1. java -jar运行后连接数据库即可，支持多种数据库。2.支持多种导出格式。
阅读更多2024-11-15
【解决】Layout 下创建槽位后，执行 Image 同步槽位位置后表现错误的问题。
开发平台：Unity 6.0编程语言：CSharp编程平台：Visual Studio 2022。
阅读更多2024-11-15
乐理的学习（简谱过渡五线谱）
调号在五线谱开头标注多个“♯”或“♭”每个“♯”或“♭”对应一个音符位置的升降，比如：C大调（无升降）是自然大调的基础形式，不需要额外调号。G大调：在调号中添加一个“F♯”，表示所有的F都要弹F♯。D
阅读更多2024-11-15
CSS回顾-颜色单位详解
本文介绍了 CSS 中的颜色单位相关知识。包括颜色名称、十六进制颜色值、RGB、RGBA、HSL、HSLA 等颜色单位的表示方式、特点及使用场景。还阐述了颜色单位之间（颜色名称与十六进制、十六进制与
阅读更多2024-11-15
Spring Boot中集成Redis与MySQL
用途：将键或简单的值序列化为字符串。适用场景：通常用于键的序列化，确保键在 Redis 中以字符串存储，以便于直接查看和管理。用途：将对象序列化为 JSON 格式的字符串，并支持 JSON 反序列化回
阅读更多2024-11-15
linux配置nginx
状态如果是Active: active (running)则是正常的。
阅读更多2024-11-15
C03S04-Linux网络之软件仓库、SSH和NFS
SSH是一种安全通道协议，主要用于远程登录到服务器、执行远程命令、传输文件以及管理服务器等。默认的端口号是TCP/22。NFS（网络文件系统，Network File System）是一种件系统协议，
阅读更多2024-11-15
无人机飞手在保家卫国上重要性技术详解
无人机飞手通过操作无人机上的通信设备，可以将侦察到的情报信息及时传输给指挥系统，同时也可以接收指挥系统的指令进行任务调整。无人机飞手经过专业培训，不仅掌握了无人机在不同气候、地形条件下的飞行技巧，还具
阅读更多2024-11-15

CatBoost 中对分类特征进行目标变量统计编码 公式解析