自学内容网 自学内容网

【机器学习】机器学习实验方法与原则(详解)

• 训练集、验证集与测试集

训练集与测试集

训练集( 作业 ):模型可见样本标签,用于训练模型,样本数有限
        • 在训练集上表现好的模型,在其他未见样本上一定表现好吗?小心 过拟合
未见样本( 所有没做过的题 )往往有指数级别或无穷多个
未见

测试集( 考试 ):用于评估模型在可能出现的未见样本上的表现
        • 尽可能与训练集 互斥 ,即测试样本尽量 不在训练集中出现 ,为什么?
        这是因为测试集的目的是评估模型的泛化能力,即模型在未见过的数据上的表现。如果测试            集中包含了训练集中的样本,那么模型在测试集上的表现可能会被过度乐观地评估,因为模            型已经在训练过程中见过这些样本,从而可能记住了这些数据的特征,而不是真正地学习到            了泛化规律。
        • 估计 模型在整个未见样本上的表现

训练集与测试集的划分方式

随机 划分
        • 按比例,例如 9:1 8:2
        • 固定数目,例如测试集从全部样本中采样 1w 个,其余为训练集
留一 化分( leave-one-out
        • 一个样本作测试,其余样本训练:常用于 K 近邻等算法的性能评估
特殊 划分
        • 按时间划分 ,例如 1-5 月气象数据作训练, 6 月气象数据作测试
        • 推荐系统中,常把 每个用户交互序列的最后一个样本 作测试,其余作训练

验证集

训练集 中额外分出的集合,一般用于 超参数 的调整
        • 训练轮次、正则化权重、学习率等等
为什么不在训练集上调整超参数?过拟合训练集
为什么不在测试集上调整超参数?过拟合测试集
        • 针对当前测试集调出的参数可能只在当前测试集上较好
        • 使得测试集结果偏高,不能反映实际在所有未见样本上的效果
        • 类比:针对某场考试的知识点分布作重点复习,不能准确反映学生对所有知识的掌握程度。
        • 举例:机器学习竞赛中,针对公开部分的测试数据过度调参,不一定在隐藏的全部测试数              据上表现好。

随机重复实验

测一次就足够了吗?
        • 极端情况:二分类中分类器 随机 输出, 恰好 测试集都对了(效果最好?)
数据 随机性
        • 由数据集划分带来的评价指标波动
模型 随机性
        • 由模型或学习算法本身带来的评价指标波动
        • 例如:神经网络初始化、训练批次生成
数据随机性
        • (数据足够多时)增多测试样本
        • (数据量有限时)重复多次划分数据集
模型随机性
        • 更改随机种子重复训练、测试
        • 注意 :保持每次得到的评价指标 独立同分布 (iid)
        • 报告结果:评价指标的 均值

                • 样本标准差(个体离散程度,反映了个体对样本均值的代表性)  

                • 标准误差(样本均值的离散程度,反映了样本均值对总体均值的代表性) 

• K折交叉验证

随机把数据集分成 K 个相等大小的不相交子集

优点: 数据利用率高 ,适用于数据较少时
缺点:训练集互相有交集, 每一轮之间并不满足独立同分布
增大 K ,一般情况下:
        • 所估计的模型效果 偏差( bias )下降
        • 所估计的模型效果 方差( variance )上升
        • 计算代价上升,更多轮次、训练集更大
• K 一般取 5 10

原文地址:https://blog.csdn.net/chen695969/article/details/136796982

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!