鸢尾花Iris训练数据和测试数据的分割和训练数据的散点图矩阵绘制

🕗 发布于 2024-11-27 19:36 线性代数 python 机器学习 散点图矩阵

鸢尾花Iris训练数据和测试数据的分割和训练数据的散点图矩阵绘制

鸢尾花Iris训练数据和测试数据的分割和训练数据的散点图矩阵绘制

一、训练数据和测试数据

1.1 训练数据（training data）

用于构建机器学习模型的数据，叫作训练数据（training data）或训练集（training set）。

1.2 测试数据（test data）

用于评估模型性能的数据，称作测试数据（test data）或测试集（test set）或留出集（hold-out set）。

1.3 泛化能力 (Generalization ability)

泛化能力 (Generalization ability) 指的是一个模型在未见过的数据上的表现能力。它衡量一个模型学习到的知识是否能够推广到新的、不同的数据，而不是仅仅在训练数据上表现良好。一个具有良好泛化能力的模型，即使面对训练数据中未出现的情况，也能做出准确的预测或决策。

二、训练数据和测试数据分割

2.1 训练数据和测试数据的比例

训练数据与测试数据的分配比例可以是随意的，但是以25%的数据作为测试数据是一种好的经验法则。
训练集和测试集: 评估泛化能力的关键在于将数据集分成训练集和测试集。模型在训练集上进行学习，然后在从未见过数据的测试集上进行评估。测试集上的表现才是对泛化能力的真正检验。

2.2 Python中scikit-learn中训练数据和测试数据分割方法

在scikit-learn中，可以使用train_test_split函数进行数据集的分割。
例如，以鸢尾花数据集分割程序为例子：

## 1. 从sklearn中加载数据集datasets
from sklearn import datasets
## 2.取出datasets数据集中的鸢尾花数据赋值给iris
iris = datasets.load_iris()    #iris为字典类型数据

## 3. 数据集分割为训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris['data'],iris['target'],random_state=0)

## 4.对训练集结构进行查看
print('X_train shape:{}'.format(X_train.shape))
print('y_train shape:{}'.format(y_train.shape))

## 5.对测试集结构进行查看
print('X_test shape:{}'.format(X_test.shape))
print('y_test shape:{}'.format(y_test.shape))

运行结果：
在这里插入图片描述
图1 运行结果

三、基于散点图矩阵的数据观察

3.1 安装pandas工具包

在电脑cmd指令窗，输入如下代码

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成如图2所示。

在这里插入图片描述
图2 pandas工具包安装过程

3.2 安装mglearn工具包

在电脑cmd指令窗，输入如下代码

pip install mglearn -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成如图3所示。

在这里插入图片描述
图3 mglearn工具包安装过程

3.3 绘制散点图矩阵

在绘制散点图矩阵前，除了安装pandas工具包、mglearn工具包外，还需要安装了sklearn工具包，matplotlib工具包等。
绘制散点图矩阵代码如下：

## 1. 从sklearn中加载数据集datasets
from sklearn import datasets
## 2.取出datasets数据集中的鸢尾花数据赋值给iris
iris = datasets.load_iris()    #iris为字典类型数据

## 3. 数据集分割为训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris['data'],iris['target'],random_state=0)

## 4.对训练集结构进行查看
print('X_train shape:{}'.format(X_train.shape))
print('y_train shape:{}'.format(y_train.shape))

## 5.对测试集结构进行查看
print('X_test shape:{}'.format(X_test.shape))
print('y_test shape:{}'.format(y_test.shape))


## 6.散点图矩阵绘制
import matplotlib.pyplot as plt     #使用缩减的plt代替matplotlib
import pandas as pd
import mglearn
from pandas.plotting import scatter_matrix
iris_dataframe=pd.DataFrame(X_train,columns=iris.feature_names)
grr=scatter_matrix(iris_dataframe,c=y_train,figsize=(16,16),marker='o',hist_kwds={'bins':20},s=60,alpha=.8,cmap=mglearn.cm3)
plt.show()   #图显示

运行结果如图4所示：
在这里插入图片描述
图4 Iris数据集的散点图矩阵，按类别标签着色

四、总结

本文以鸢尾花数据iris数据为例，首先介绍了鸢尾花Iris数据分割为训练数据和测试数据并对train_test_split函数进行使用分割，最后对训练数据的散点图矩阵绘制进行了代码介绍并绘图。

原文地址：https://blog.csdn.net/qq_18937049/article/details/144043023

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：WonderJourney 学习笔记
下一篇：没有了

从根源分析，调试，定位和解决MacOS ld: unsupported tapi file type ‘!tapi-tbd‘ in YAML file
发现是最后一个spam是调用/usr/local/Cellar/gcc/14.2.0_1/bin/../libexec/gcc/x86_64-apple-darwin20/14/collect2。这个
阅读更多2025-01-23
MYSQL学习笔记(五)：单行函数(字符串、数学、日期时间、条件判断、信息、加密、进制转换函数)讲解
前言：MySQL 函数会对传递进来的参数进行处理，并返回一个处理结果，也就是返回一个值。MySQL 包含了大量并且丰富的函数，这里只讲解一部分，剩下的比较罕见的函数我们可以到「MySQL 参考手册」查
阅读更多2025-01-23
springboot基于微信小程序的手机银行系统
Spring Boot基于微信小程序的手机银行系统是一种结合现代Web技术和移动应用优势的创新金融服务平台。
阅读更多2025-01-23
Linux之socket编程（下）
基于TCP的socket编程
阅读更多2025-01-23
自动化实现的思路变化
2、解决关联接口的参数传递。有的接口直接，存在参数的传递，一般的思路，就是将这个参数设置为变量。4、将数据和代码分离。将原本的直接传值，改成使用变量进行传递。将数值放在统一的位置进行维护。总会有些东西
阅读更多2025-01-23
可扩展性设计架构模式——开闭原则
在架构设计中，遵循开闭原则（Open/ClosedPrinciple,OCP）是实现可扩展性的关键。这个原则指导我们设计系统时，应使其对新增功能开放，而对现有代码的修改封闭。这样，当系统需求变化或需要
阅读更多2025-01-23
C# OpenCV机器视觉:交通标志识别
在一个狂风呼啸的夜晚，阿强的小屋里却灯火通明，电脑屏幕散发着幽蓝的光，仿佛在召唤一场奇妙冒险。阿强像个即将出征的骑士，紧盯着屏幕上那一组组让人眼花缭乱的交通标志图片，嘴里嘟囔着：“这马路上的标志简直就
阅读更多2025-01-23
大模型从零开始——提示工程 Prompt
Prompt 的四个基本元素——任务说明、上下文、问题和输出格式，对于大语言模型生成的效果具有显著影响。这些元素的精心设计和组合构成了 Prompt 工程的核心。在此基础上，Prompt 工程包括多种
阅读更多2025-01-23
Matlab实现TCN-LSTM时间卷积神经网络结合长短期记忆神经网络多特征分类预测（附模型研究报告）
Matlab实现TCN-LSTM时间卷积神经网络结合长短期记忆神经网络多特征分类预测（附模型研究报告）
阅读更多2025-01-23
工厂模式 - 工厂方法模式、抽象工厂模式
工厂模式是一种非常实用的设计模式，它将对象的创建与使用分离，使得代码更加灵活、可扩展。工厂方法模式适用于创建单一产品，而抽象工厂模式适用于创建一组相关的产品。在实际开发中，根据具体需求选择合适的工厂模
阅读更多2025-01-23

鸢尾花Iris训练数据和测试数据的分割和训练数据的散点图矩阵绘制