sklearn特征选取之RFE

🕗 发布于 2024-09-21 17:57 sklearn 人工智能 python 算法 数据结构

sklearn.feature_selection.RFE 是一种递归特征消除（Recursive Feature Elimination, RFE）方法，用于通过反复训练模型和消除不重要的特征，逐步减少特征数量，最终选择最重要的特征。它是一种用于特征选择的算法，特别适合线性模型或其他对特征权重敏感的模型。

1. 语法

from sklearn.feature_selection import RFE

RFE(estimator, n_features_to_select=None, step=1, verbose=0)

2. 参数说明

estimator: 模型对象。用于拟合数据的学习器，它需要有一个 coef_ 或 feature_importances_ 属性，可以是诸如线性回归、决策树等模型。例如，LinearRegression()、LogisticRegression() 或 DecisionTreeClassifier() 等。
n_features_to_select: 整数或 None。要选择的特征数量。如果为 None，则选择一半的特征。
step: 整数或浮点数。每次迭代中要删除的特征数量：
- 如果是整数，则每次移除指定数量的特征。
- 如果是浮点数（范围为 0 到 1），则每次移除当前剩余特征数量的一部分（比例）。
verbose: 整数。控制冗长模式，设置为 1 时，会输出详细的进度信息，通常用于调试。

3. 返回值

RFE.fit(X, y): 返回拟合好的 RFE 对象，可以查看和分析所选择的特征。
- support_: 一个布尔数组，指示哪些特征是被选中的（True 表示被选中）。
- ranking_: 每个特征的排名，数值越小表示该特征越重要，1 表示被选中的特征。
- n_features_: 被选择的特征数量。

4. 示例

(1) 基本用法：选择 5 个特征

from sklearn.datasets import make_friedman1
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

# 生成样本数据
X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)

# 创建线性回归模型
model = LinearRegression()

# 创建 RFE 对象，选择 5 个特征
rfe = RFE(estimator=model, n_features_to_select=5)

# 训练 RFE
rfe.fit(X, y)

# 查看哪些特征被选择了
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)

输出：

Selected features: [False  True  True False  True False  True  True False False]
Feature ranking: [6 1 1 7 1 4 1 1 2 3]

rfe.support_ 输出一个布尔值数组，表示哪些特征被选择了（True 表示选中）。
rfe.ranking_ 输出特征的重要性排名，1 表示被选中的特征。

(2) 使用 `step` 参数递归减少特征

# 每次迭代移除 2 个特征
rfe = RFE(estimator=model, n_features_to_select=5, step=2)
rfe.fit(X, y)

# 查看最终选择的特征
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)

使用 step=2，每次迭代中移除 2 个不重要的特征，直到剩下 5 个特征。

(3) 使用决策树进行特征选择

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 使用决策树模型
model = DecisionTreeClassifier()

# 创建 RFE 对象，选择 2 个特征
rfe = RFE(estimator=model, n_features_to_select=2)
rfe.fit(X, y)

# 输出选择的特征
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)

输出：

Selected features: [ True False False  True]
Feature ranking: [1 3 2 1]

通过决策树选择 2 个特征，输出显示第 1 和第 4 个特征被选择。

5. 应用场景

降维: RFE 可以通过递归地删除不重要的特征，减少特征维度，有助于提高模型的性能并减少过拟合。
特征选择: 通过选择对目标变量最重要的特征，RFE 可以提高模型的可解释性。
模型优化: 减少不必要的特征有助于加快模型的训练速度。

6. 注意事项

选择合适的 estimator: RFE 依赖于 estimator 的 coef_ 或 feature_importances_ 属性，因此必须选择支持这些属性的模型，如线性回归、逻辑回归、决策树、随机森林等。
step 参数的设置: step 参数的选择可以影响计算效率。较大的 step 可以减少迭代次数，较小的 step 可以更精细地筛选特征。

7. 与其他特征选择方法的对比

与 SelectKBest: SelectKBest 是一种一次性选择前 k 个最重要特征的方法，而 RFE 是递归消除不重要特征，逐步选择最重要的特征。
与 RFECV: RFECV 是 RFE 的增强版，通过交叉验证自动选择最佳特征数量，而 RFE 需要手动指定特征数量。

RFE 是一个强大的特征选择工具，特别适合使用线性模型或决策树模型进行递归特征选择。

原文地址：https://blog.csdn.net/weixin_37522117/article/details/142383357

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C++拷贝构造函数
下一篇：C++ 字符串最后一个单词的长度（牛客网）

Nuxt.js 应用中的 schema：beforeWrite 事件钩子详解
钩子为开发者提供了一个灵活的接口，以便在写入 JSON Schema 之前进行必要的修改和验证。这使得开发者可以在构建过程中插入自定义逻辑，有助于提高应用的稳定性和准确性。钩子允许开发者在 JSON
阅读更多2024-11-17
Python习题 249：判断两个单词为相同字母异序词
（编码题）编写一个函数，判断两个单词（字符串）中有相同的单词（字符），即相同字母异序词。
阅读更多2024-11-17
第四章：ArkTS 语句全解：从基础到高级的控制流与异常处理
本文详细介绍了 ArkTS 中的多种语句，这些语句对于构建程序逻辑、控制执行流程和处理异常至关重要。
阅读更多2024-11-17
Vue.js中computed的使用方法
在Vue.js中，computed 属性是基于它们的依赖进行缓存的响应式属性。这意味着只要computed属性依赖的源数据（如data中的属性）没有发生变化，多次访问computed属性会立即返回之前
阅读更多2024-11-17
【团标】《软件造价评估实施规程》（T-BSCEA002—2023）-标准解读系列14
而对于软件造价业务开展过程中，基准数据以及相关调整因子的选取判定、评估工作开展具体步骤环节、造价输出成果要求（如造价清单、造价报告）等，《软件造价评估实施规程》（T-BSCEA002—2023）则提供
阅读更多2024-11-17
效益登记册&效益管理计划
-全生命周期会update。集商业论证、组织战略计划和其他相关项目集自标。定义管理效益所需的角色和职责;
阅读更多2024-11-17
我手搓了个“自动生成标书”的开源大模型工具
最近我写开源商业文章明显更新少了，不是我不写文章了，而是开源商业化进展很顺利，我写文章的时间都被各种写标书占满了。作为一个开源原生的商业公司，白鲸开源公司的员工几乎都是程序员，而让这些开源贡献者写标书
阅读更多2024-11-17
奥迪股份如何通过升级至SAP S/4HANA实现财务与后勤的高效整合？
为了避免成本高昂的临时解决方案，奥迪公司希望将所有工厂后勤（后勤和生产的一部分）同时迁移到SAP S/4HANA，并集成到生产模板“Progress”中。随着多个项目的筹备，奥迪股份公司在 2023
阅读更多2024-11-17
linux逻辑卷练习
从新硬盘制作三个分区每个分区都 3GB大小，将三个分区只作为物理卷，通过这三个物理卷创建卷组通过卷组生成一个逻辑卷，大小为7G，再将逻辑卷调整到10G。物理卷（physical volume）：简
阅读更多2024-11-17
Vagrant 没了 VirtualBox 的话可以配 Qemu
之前一直是用 Vagrant 搭配 VirtualBox 在 Mac 下使用 Linux 虚拟机，因为不需要用到 Linux 桌面，用 Vagrant 操作虚拟机非常方便。有些尚未听说过，还有一些虽说
阅读更多2024-11-17