随机森林（Random Forest, RF）筛选回归数据（处理异常值）

🕗 发布于 2024-11-18 07:10 随机森林回归算法数学建模

下面是一个完整的 MATLAB 代码示例，用于实现随机森林（Random Forest, RF）回归，执行 5 折交叉验证，并根据预测误差删除误差较大的行，将处理后的数据保存为新的 Excel 文件。

% 导入数据
data = readmatrix('data.xlsx');

% 提取特征矩阵和输出向量
features = data(:, 1:end-1);
output = data(:, end);

% 设置 5 折交叉验证
cv = cvpartition(size(data, 1), 'KFold', 5);

% 存储预测误差
errors = zeros(size(data, 1), 1);

% 进行 5 折交叉验证
for fold = 1:cv.NumTestSets
    % 获取训练和测试索引
    trainIdx = cv.training(fold);
    testIdx = cv.test(fold);
    
    % 训练随机森林回归模型
    Mdl = TreeBagger(100, features(trainIdx, :), output(trainIdx), ...
                     'Method', 'regression');
    
    % 对测试集进行预测
    predictions = predict(Mdl, features(testIdx, :));
    
    % 计算误差（绝对误差）
    errors(testIdx) = abs(predictions - output(testIdx));
end

% 设置误差阈值（例如，使用误差的 95% 分位数作为阈值）
threshold = prctile(errors, 95);

% 标记误差较大的行
outlierIdx = errors > threshold;

% 打印检测到的误差较大行的数量
fprintf('检测到的误差较大行数量: %d\n', sum(outlierIdx));

% 删除误差较大的行
cleanedData = data(~outlierIdx, :);

% 保存清理后的数据到新的 Excel 文件
writematrix(cleanedData, 'cleaned_data.xlsx');

disp('清理后的数据已保存为 "cleaned_data.xlsx".');

代码解释

readmatrix('data.xlsx')：导入 Excel 数据文件，假设数据是数值型。
特征和输出提取：
- features = data(:, 1:end-1) 提取前面的特征。
- output = data(:, end) 提取最后一列作为输出。
5 折交叉验证：
- cvpartition 设置 5 折交叉验证分区。
- 在每一折中，训练随机森林模型并计算测试集上的预测误差。
误差计算：
- 计算预测值与实际值的绝对误差并存储。
设置阈值：
- 使用误差的 95% 分位数作为阈值来标记误差较大的行。
删除误差较大的行：
- 将误差大于阈值的行标记为异常并删除。
输出到 Excel 文件：
- writematrix(cleanedData, 'cleaned_data.xlsx') 将清理后的数据保存为 cleaned_data.xlsx。

调整和扩展

误差类型：可以根据需要更改误差计算方法，例如平方误差或相对误差。
阈值选择：prctile(errors, 95) 表示使用误差的 95% 分位数作为阈值，可以根据具体需求调整。
随机森林参数：TreeBagger(100, ...) 中的 100 表示树的数量，可以根据数据集规模调整。

改变 95% 分位数会影响异常检测的严格程度，即哪些数据点会被标记为误差较大并被删除。以下是使用不同分位数的影响：

1. 分位数的定义

分位数是将数据按照一定比例进行划分。例如，95% 分位数表示数据中有 95% 的值低于该数值，5% 的值高于该数值。

2. 设置高分位数（如 95%）

影响：使用 95% 分位数作为阈值意味着将数据中误差最大的 5% 标记为异常值并删除。这样可以有效地识别并删除极端误差点。
优点：能排除误差较大的数据点，从而提高整体数据集的质量。
缺点：如果 95% 分位数过于严格，可能会误删一些有意义的数据点，尤其是在数据集中存在较大的正常误差范围时。

3. 降低分位数（如 90% 或 80%）

影响：降低分位数（例如使用 90%）会标记更多的数据点为异常值。更多数据会被标记为误差较大并被删除。
优点：更严格的筛选标准，适合在高精度要求的应用中使用。
缺点：过低的分位数会删除过多的数据，可能导致样本量不足或重要数据被删除。

4. 提高分位数（如 98% 或 99%）

影响：提高分位数（如使用 98% 或 99%）会减少被标记为异常值的数据点，仅删除极少数误差特别大的数据点。
优点：适合在数据中噪声较多但误差范围较广的情况下使用，避免删除潜在的正常数据。
缺点：可能无法完全清除误差较大的异常值，降低清理数据的效果。

5. 选择分位数的考虑因素

数据的分布：如果数据误差的分布比较集中，较高的分位数（如 95% 或 98%）适合用来排除极端点。如果误差分布较分散或有多个异常点，较低的分位数（如 90%）可能更合适。
应用场景：在精度要求高的场景中，适当降低分位数会更严格地筛选数据。在对误差容忍度较高的场景中，可以提高分位数以保留更多数据。

示例解释

95% 分位数：如果设置为 prctile(errors, 95)，只会删除误差最大的 5% 数据点，保留 95% 的数据。
90% 分位数：如果设置为 prctile(errors, 90)，删除误差最大的 10% 数据点。
99% 分位数：删除误差最大的 1% 数据点。

总结

调整分位数会影响异常检测的严格性。高分位数意味着更保守的清理，删除更少的数据，适合希望尽可能保留数据的应用；低分位数则意味着更严格的筛选，适合希望消除尽可能多异常数据的应用。选择合适的分位数应根据数据特征和具体应用需求进行。

原文地址：https://blog.csdn.net/subject625Ruben/article/details/143840058

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：华为USG5500防火墙配置NAT
下一篇：无人机场景 - 目标检测数据集 - 车辆检测数据集下载「包含VOC、COCO、YOLO三种格式」

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14