知识点梳理-sklearn进行数据集的获取, 划分和可视化
Scikit-learn数据集获取
1.获取数据集
sklearn.datasets
1.小数据集
sklearn.datasets.load_*()
从本地获取
2.大数据集
sklearn.datasets.fetch_*()
从网上下载
subset--表示获取的数据集类型(train/test/all)
默认下载训练数据集(train)
2.数据集返回值
返回类型为bunch--字典类型
返回值属性:
data:特征数据数组
target:目标数组
feature_names: 特征名
target_names: 目标名
DESCR: 数据集介绍
3.数据可视化
import seaborn as sns
sns.Implot()
参数:
x, y--具体x/y轴索引值(列名)
data--数据集的具体数据
hue--目标值(列名)
fit_reg--是否进行线性拟合, 默认为True, 英文全称fit regression
4.数据集划分
from sklearn.selection import train_test_split()
参数:
x--特征值数据
y--目标值数据
test_size-测试集所占比例(0.2-0.3为宜)
random_state--产生随机数种子, 确保每次划分的结果一致
返回值:
返回值内容顺序:
1.训练集特征值 x_train
2.测试集特征值 x_test
3.训练集目标值 y_train
4.测试集目标值 y_test
jupyter常用快捷键:
1.查看函数参数:
将光标放在函数名或参数后面,按住Shift+Tab键,会弹出函数帮助文档窗口。
原文地址:https://blog.csdn.net/JR521314/article/details/142742419
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!