机器学习K近邻算法——分类问题K近邻算法示例

🕗 发布于 2024-10-12 11:02 机器学习 近邻算法分类

针对“数据8.1”，讲解分类问题的K近邻算法，以V1（转型情况）为响应变量，以V2（存款规模）、V3（EVA）、V4（中间业务收入）、V5（员工人数）为特征变量。

1 变量设置及数据处理

#K近邻算法#载入分析所需要的模块和函数import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsRegressorfrom sklearn.neighbors import KNeighborsClassifier, RadiusNeighborsClassifierfrom sklearn.metrics import mean_squared_errorfrom mlxtend.plotting import plot_decision_regions

data=pd.read_csv(r'数据8.1.csv')X = data.drop(['V1'],axis=1)#设置特征变量，即除V1之外的全部变量y = data['V1']#设置响应变量，即V1X_train, X_test, y_train, y_test =  train_test_split(X,y,test_size=0.3, random_state=123)scaler = StandardScaler()scaler.fit(X_train)X_train_s = scaler.transform(X_train)X_test_s = scaler.transform(X_test)

2 构建K近邻分类算法模型

#K近邻算法(K=1)model = KNeighborsClassifier(n_neighbors=1)model.fit(X_train_s, y_train)pred = model.predict(X_test_s)model.score(X_test_s, y_test)#K近邻算法(K=33)model = KNeighborsClassifier(n_neighbors=33)model.fit(X_train_s, y_train)pred = model.predict(X_test_s)model.score(X_test_s, y_test)

3 如何选择最优的K值

scores = []ks = range(1, 33)for k in ks:    model = KNeighborsClassifier(n_neighbors=k)    model.fit(X_train_s, y_train)    score = model.score(X_test_s, y_test)    scores.append(score)max(scores)index_max = np.argmax(scores)print(f'最优K值: {ks[index_max]}')#K近邻算法(选取最优K的图形展示)plt.rcParams['font.sans-serif'] = ['SimHei']#本代码的含义是解决图表中中文显示问题。plt.plot(ks, scores, 'o-')#绘制K取值和模型预测准确率的关系图plt.xlabel('K')#设置X轴标签为“K”plt.axvline(ks[index_max], linewidth=1, linestyle='--', color='k')plt.ylabel('预测准确率')plt.title('不同K取值下的预测准确率')plt.tight_layout()

4 最优模型拟合效果图形展示

model = KNeighborsClassifier(n_neighbors=9)#选取前面得到的最优K值9构建K近邻算法模型model.fit(X_train_s, y_train)#基于训练样本进行拟合pred = model.predict(X_test_s)#对响应变量进行预测t = np.arange(len(y_test))#求得响应变量在测试样本中的个数，以便绘制图形。plt.rcParams['font.sans-serif'] = ['SimHei']#本代码的含义是解决图表中中文显示问题。plt.plot(t, y_test, 'r-', linewidth=2, label=u'原值')#绘制响应变量原值曲线。plt.plot(t, pred, 'g-', linewidth=2, label=u'预测值')#绘制响应变量预测曲线。plt.legend(loc='upper right')#将图例放在图的右上方。plt.grid()plt.show()plt.savefig('最优模型拟合效果图形展示.png')

5 绘制K近邻分类算法ROC曲线

scaler = StandardScaler()scaler.fit(X)X_s = scaler.transform(X)plt.rcParams['font.sans-serif'] = ['SimHei']#本代码的含义是解决图表中中文显示问题。from sklearn.metrics import RocCurveDisplay,roc_curve# 计算ROC曲线的值fpr, tpr, thresholds = roc_curve(y, model.predict_proba(X_s)[:, 1])# 使用RocCurveDisplay绘制ROC曲线display = RocCurveDisplay(fpr=fpr, tpr=tpr)display.plot()# 对角线plt.plot([0, 1], [0, 1], color='navy', linestyle='--')# 显示图形plt.show()plt.savefig('K近邻算法ROC曲线.png')

6 运用两个特征变量绘制K近邻算法决策边界图

X2 = X.iloc[:, 0:2]#仅选取V2存款规模、V3EVA作为特征变量model = KNeighborsClassifier(n_neighbors=9)#使用K近邻算法，K=9scaler = StandardScaler()scaler.fit(X2)X2_s = scaler.transform(X2)model.fit(X2_s, y)#使用fit方法进行拟合model.score(X2_s, y)#计算模型预测准确率plt.rcParams['font.sans-serif'] = ['SimHei']#解决图表中中文显示问题plot_decision_regions(np.array(X2_s), np.array(y), model)plt.xlabel('存款规模')#将x轴设置为'存款规模'plt.ylabel('EVA')#将y轴设置为'EVA'plt.title('K近邻算法决策边界')#将标题设置为'K近邻算法决策边界'plt.show()plt.savefig('K近邻算法决策边界.png')

K近邻算法的决策边界是不规则形状，这一边界将所有参与分析的样本分为两个类别，右侧区域为已转型网点区域，左下方区域是未转型网点区域，边界较为清晰，分类效果也比较好，体现在各样本的实际类别与决策边界分类区域基本一致。

7 普通KNN算法、带权重KNN、指定半径KNN三种算法对比

models = []models.append(('KNN', KNeighborsClassifier(n_neighbors=9)))models.append(('KNN with weights', KNeighborsClassifier(n_neighbors=9, weights='distance')))models.append(('Radius Neighbors', RadiusNeighborsClassifier(radius=100)))#基于验证集法results = []for name, model in models:    model.fit(X_train_s, y_train)    results.append((name, model.score(X_test_s, y_test)))for i in range(len(results)):    print('name: {}; score: {}'.format(results[i][0], results[i][1]))

基于10折交叉验证法

models = []models.append(('KNN', KNeighborsClassifier(n_neighbors=9)))models.append(('KNN with weights', KNeighborsClassifier(n_neighbors=9, weights='distance')))models.append(('Radius Neighbors', RadiusNeighborsClassifier(radius=10000)))results = []for name, model in models:    kfold = KFold(n_splits=10)    cv_result = cross_val_score(model, X_s, y, cv=kfold)    results.append((name, cv_result))for i in range(len(results)):    print('name: {}; cross_val_score: {}'.format(results[i][0], results[i][1].mean()))

基于10折交叉验证法下带权重KNN算法的预测准确率是最优的，达到了0.73；其次为普通KNN算法，预测准确率达到了0.69；指定半径KNN算法表现非常差，在指定半径为10000时（之所以取这么大，是因为本例中如果把半径设得很小，会导致很多测试样本无法找到近邻值），预测准确率只有0.24。

原文地址：https://blog.csdn.net/qq_45932996/article/details/142767832

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：this,this指向
下一篇：【Spring详解】Maven从安装到应用(Maven Help插件的安装)-国内源的配置(中央仓库及私服的概念)

PyQt基本功能
pyqt5创建基本窗口以及工具栏和菜单栏
阅读更多2024-10-12
可看见车辆行人的高清实时视频第4辑
建中镇位于瓮安县西南部，距县城18公里，距省会贵阳仅56公里，有全国最大的黄金芽种植示范基地，茶园种植面积3.56万亩，年生产加工茶叶8000吨以上，产值2.5亿以上。以“中山纪念亭”为发端，名为“四
阅读更多2024-10-12
springboot+react实现移动端相册（上传图片到oss/ 批量删除/ 查看图片详情等功能）
这是首个利用AI+自有知识构建的简易相册系统，项目是react构造前端+spring boot构造后端。其中还在后端配置了阿里云的OSS，将图片都存储在阿里云中。Java后端结构及代码。
阅读更多2024-10-12
Java的数据类型与变量
即程序运行期间固定不变的量。System.out.println("Hello World")；语句，不论程序何时运行，输出的都是Hello World，其实"Hell
阅读更多2024-10-12
2025秋招倒计时---招联金融
直接扫下方二维码，或点击内推官网https://wecruit.hotjob.cn/SU61025e262f9d247b98e0a2c2/mc/position/campus，使用内推码 igcefb
阅读更多2024-10-12
zynq 添加lwip库
在自己的项目属性中.
阅读更多2024-10-12
登录前端笔记（一）：pinia管理用户数据
②组件里使用：把导出的方法useCounterStore 在组件里执行后，得到实例对象counterStore ，后使用对象里的属性。二、官网简单实例（定义store【state与action】后组件
阅读更多2024-10-12
自动化运维：提升效率、降低风险的利器
在中国快速发展的数字化时代，企业面临着越来越多的IT运维挑战。为了应对这些挑战，自动化运维成为了一种不可或缺的解决方案。自动化运维通过利用先进的技术和工具，可以显著提高运维效率，降低风险，并为中国企业
阅读更多2024-10-12
10.12 标准IO
编写2个.c文件,save.c 和 load.c save.c负责：使用fprintf将3个学生的所有信息保存到文件中去 load.c负责：使用fscanf读取文件中的3个学生的信息，将读取到的数
阅读更多2024-10-12
第四十五章创建和添加 SAML 令牌 - 变体：不使用 BinarySecurityToken
可以忽略此令牌，而改用标识证书的信息；接收方使用此信息从相应位置检索证书。如果指定凭证集作为第一个参数（正如我们在这个变体中所做的那样），则默认引用选项是证书的指纹。的方法在中将属性指定为 XML、字
阅读更多2024-10-12