【漫话机器学习系列】021.类别特征（Categorical Feature）

🕗 发布于 2024-12-27 02:53 机器学习 人工智能

类别特征（Categorical Feature）

类别特征（Categorical Feature）是指取值为有限的、不连续的类别或标签的数据特征。在机器学习和数据分析中，类别特征经常用于描述对象的分类属性，例如颜色、性别、职业等。

1. 类别特征的特点

离散性：类别特征的值是离散的，不具有连续性。
有限性：类别特征的取值范围通常是有限的，例如颜色（红、绿、蓝）。
无序性：某些类别特征没有明确的大小顺序关系，例如职业类型。
可能存在层级关系：某些类别特征可能具有内在顺序关系，例如学历（高中 < 本科 < 硕士）。

2. 类别特征的常见类型

标称变量（Nominal Variable）
- 没有顺序关系的类别特征。
- 例子：颜色（红、绿、蓝）、职业（医生、教师、工程师）。
有序变量（Ordinal Variable）
- 存在顺序关系的类别特征，但无法量化差距大小。
- 例子：评级（差、一般、好）、学历（高中、本科、硕士）。

3. 类别特征的处理方法

(1) 编码

在将数据输入机器学习模型前，类别特征需要转换为数值形式：

标签编码（Label Encoding）
将类别值映射为整数。
例子：{红: 0, 绿: 1, 蓝: 2}
缺点：可能引入错误的顺序关系，适合有序变量。
独热编码（One-Hot Encoding）
使用二进制向量表示类别值。
例子：
- 红：1, 0, 0
- 绿：0, 1, 0
- 蓝：0, 0, 1
  
  常用于标称变量，避免顺序关系问题。
目标编码（Target Encoding）
将类别映射为目标变量的统计信息（如均值）。
例子：对于目标值 y，将类别 x 替换为类别内 y 的均值。
频率编码（Frequency Encoding）
将类别映射为其在数据集中出现的频率。
例子：颜色红的频率为 0.5，绿为 0.3，蓝为 0.2。

(2) 特征嵌入（Embedding）

将高维类别特征映射到低维稠密向量空间中，适用于深度学习模型。

使用神经网络学习的嵌入层，例如 TensorFlow 或 PyTorch 中的 Embedding 层。

(3) 聚合统计特征

计算类别特征的相关统计特征，常用于增强模型性能：

平均值、方差、中位数等。
例子：计算某职业类型的平均收入。

4. 类别特征在机器学习中的挑战

类别数目过多：
- 可能导致维度过高（独热编码的高维问题）。
- 可通过合并类别、降维或频率截断等方法处理。
类别未见（Unseen Categories）：
- 测试集可能包含训练集中未见过的类别。
- 可用频率编码或目标编码来减少影响。
类别不均衡：
- 某些类别的数据过少，可能导致模型偏差。
- 可通过数据采样、类别合并或数据增强方法处理。

5. 示例代码

以下是对类别特征进行常用处理的代码示例：

import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# 示例数据
data = {'Color': ['Red', 'Green', 'Blue', 'Green', 'Red'], 
        'Size': ['S', 'M', 'L', 'M', 'S'], 
        'Target': [1, 0, 1, 0, 1]}
df = pd.DataFrame(data)

# 标签编码
label_encoder = LabelEncoder()
df['Color_LabelEncoded'] = label_encoder.fit_transform(df['Color'])

# 独热编码
onehot_encoder = OneHotEncoder(sparse=False)
color_onehot = onehot_encoder.fit_transform(df[['Color']])
df_onehot = pd.DataFrame(color_onehot, columns=onehot_encoder.get_feature_names_out(['Color']))
df = pd.concat([df, df_onehot], axis=1)

# 目标编码
target_mean = df.groupby('Color')['Target'].mean()
df['Color_TargetEncoded'] = df['Color'].map(target_mean)

print(df)

输出结果

   Color Size  Target  ...  Color_Green  Color_Red  Color_TargetEncoded
0    Red    S       1  ...          0.0        1.0                  1.0
1  Green    M       0  ...          1.0        0.0                  0.0
2   Blue    L       1  ...          0.0        0.0                  1.0
3  Green    M       0  ...          1.0        0.0                  0.0
4    Red    S       1  ...          0.0        1.0                  1.0

6. 应用场景

电子商务：商品类别、用户类别、支付方式等。
金融：职业类型、婚姻状况、信用评级等。
医学：疾病类别、药品类型、患者类别等。

7. 总结

类别特征在实际问题中非常常见，是数据分析和机器学习建模的重要组成部分。
通过选择合适的处理方法，模型可以更准确地理解类别特征的含义并提高预测性能。

原文地址：https://blog.csdn.net/IT_ORACLE/article/details/144709765

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：用 Python 从零开始构建 LLaMA 3
下一篇：【安全编码】Web平台如何设计防止重放攻击

Blazor项目中使用EF读写 SQLite 数据库
《信管通低代码信息管理系统应用平台》开发环境就是Blazor，其中的数据库访问就是使用SQLite数据库。SQLite 是一种轻量级的嵌入式数据库。可以使用Blazor通过EF读写SQLite数据库
阅读更多2024-12-27
macrodroid通过http请求控制手机运行宏
路径随意填,最好不要有特殊符号,不然浏览器识别链接会出错,然后确认(底下http服务器设置可以自定义一个端口)新建动作-媒体-播放/停止声音,声音通道我走的闹钟通道。例:http请求手机播放指定MP3
阅读更多2024-12-27
C# OpenCV机器视觉:漫水填充
经过这次漫水填充的疯狂冒险，阿强不仅学会了怎么用 C# 和 OpenCvSharp 这两个 “神器” 搞定图像处理，还悟出了一个听起来很厉害的人生道理：在这复杂得像迷宫一样的工作环境里，要像个机灵的小
阅读更多2024-12-27
【每日学点鸿蒙知识】私仓搭建、resources创建文件夹、hvigor如何动态设置版本、SM3摘要算法、SP存储报错等
/ SM3Hash// 摘要算法名// 数据量较少时，可以只做一次update，将数据全部传入，接口未对入参长度做限制使用的uint8ArrayToString方法为解密中解码的方法，在此应该用转ba
阅读更多2024-12-27
后端开发如何高效使用 Apifox？
后端开发人员如何使用 Apifox? 超详细文字教程讲解，还不快来一起看看!
阅读更多2024-12-27
python之打印、变量、格式化输出
我的python第一篇文章：print打印
阅读更多2024-12-27
PDF书籍《手写调用链监控APM系统-Java版》第8章插件与链路的结合：Gson插件实现
本人阅读了的大部分核心代码，也了解了相关的文献，对此深有感悟，特此借助巨人的思想自己手动用JAVA语言实现了一个系统。作者已经将过程写成一部书籍，奈何没有钱发表，如果您知道渠道可以联系本人。一定重谢。
阅读更多2024-12-27
CultureLLM 与 CulturePark：增强大语言模型对多元文化的理解
本文介绍团队刚刚在加拿大温哥华召开的顶会NeurIPS 2024上发表的两篇系列工作：CultureLLM 和CulturePark。此项研究以生成文化数据并训练文化专有模型为主要手段，旨在提升已有基
阅读更多2024-12-27
37 Opencv SIFT 特征检测
【代码】37 Opencv SIFT 特征检测。
阅读更多2024-12-27
解线性方程组
直接三角分解（LU分解，Doolittle分解）A=TM分解（追赶法，Crout分解，克劳特分解）平方根法（Cholesky分解，乔列斯基分解）矩阵的范数
阅读更多2024-12-27