自学内容网 自学内容网

知识点梳理-sklearn进行数据集的获取, 划分和可视化

Scikit-learn数据集获取
    1.获取数据集
        sklearn.datasets
        1.小数据集
            sklearn.datasets.load_*()
            从本地获取
        2.大数据集
            sklearn.datasets.fetch_*()
            从网上下载
            subset--表示获取的数据集类型(train/test/all)
            默认下载训练数据集(train)
    2.数据集返回值
        返回类型为bunch--字典类型
        返回值属性:
            data:特征数据数组
            target:目标数组
            feature_names: 特征名
            target_names: 目标名
            DESCR: 数据集介绍
    3.数据可视化
        import seaborn as sns
        sns.Implot()
        参数:
        x, y--具体x/y轴索引值(列名)
        data--数据集的具体数据
        hue--目标值(列名)
        fit_reg--是否进行线性拟合, 默认为True, 英文全称fit regression
    4.数据集划分
        from sklearn.selection import train_test_split()
        参数:
        x--特征值数据
        y--目标值数据
        test_size-测试集所占比例(0.2-0.3为宜)
        random_state--产生随机数种子, 确保每次划分的结果一致
        返回值:
        返回值内容顺序: 
            1.训练集特征值 x_train
            2.测试集特征值 x_test
            3.训练集目标值 y_train
            4.测试集目标值 y_test

jupyter常用快捷键:
    1.查看函数参数: 
        将光标放在函数名或参数后面,按住Shift+Tab键,会弹出函数帮助文档窗口。
 


原文地址:https://blog.csdn.net/JR521314/article/details/142742419

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!