【Python机器学习】k-近邻算法简单实践——电影分类

🕗 发布于 2024-07-25 08:40 机器学习 python 近邻算法分类

k-近邻算法（KNN）的工作原理是：存在一个样本数据集合，也被称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系，输入没有标签的数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。

一般来说，我们只选择样本数据集中出现次数最多的分类，作为新数据分类。

分类场景：通过电影中打斗镜头和接吻镜头，使用k-近邻算法分类爱情片和动作片。

参考数据：

电影名称	打斗镜头	接吻镜头	电影类型
aaa	3	104	爱情片
bbb	2	100	爱情片
ccc	1	81	爱情片
ddd	101	10	动作片
eee	99	5	动作片
fff	98	2	动作片
zzzzz	18	90	？？？

k近邻算法的一般流程：

1、收集数据

2、准备数据

3、分析数据

4、训练算法

5、测试算法

6、使用算法

准备：使用Python导入数据

首先，导入所需模块：

from numpy import *
import operator

第一个是科学计算包Numpy；第二个是运算符模块。

然后创建createDataSet函数，它创建数据集合标签：

def createDataSet():
    group=array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]])
    labels=['A','A','A','B','B','B']
    return group,labels

这里有6组数据，每组数据有2个已知属性/特征值。

实施kNN分类算法：

运行kNN算法，为每组数据分类：首先，k-近邻算法伪代码：

对未知类别属性的数据集中的每个点依次执行以下操作：

1、计算已知类别数据集中的点与当前点之间的距离；

2、按照距离递增次序排队；

3、选取与当前点距离最小的k个点；

4、确定前k个点所在类别的出现频率；

5、返回前k个点出现频率最高的类别作为当前点的预测分类。

实际Python代码：

def classify0(inX,dataSet,lables,k):
    dataSetSize=dataSet.shape[0]
    #举例计算
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    sqDistinaces=sqDiffMat.sum(axis=1)
    distances=sqDistinaces**0.5
    sortedDistIndicies=distances.argsort()
    #选择举例最小的前k个点
    classCount={}
    for i in range(k):
        voteIlabel=lables[sortedDistIndicies[i]]
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
        #print(classCount)
    #排序
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

classify0()函数有4个输入参数：用于分类的输入向量是inX，输入的训练样本集为dataSet，标签向量为labels，最后的参数k表示用于选择最近邻居的数目，其中标签向量的元素数目和矩阵dataSet的行数相同。

计算完所有点之间的距离后，可以对数据按照从小到大的次序排序。然后，确定前k个距离最小元素所在的主要分类，输入k总是正整数；最后，将classCount字典分解为元组列表，然后使用程序第2行导入运算符模块的itemgetter方法，按照第二个元素的次序对元组进行排序。

实际运行：

group,lables=createDataSet()
print(classify0([18,90],group,lables,3))

原文地址：https://blog.csdn.net/weixin_39407597/article/details/140666974

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：CSS 基础知识
下一篇：深入解析 Java 集合类：ArrayList、LinkedList、Vector

excel如何快速选中某个数字或者某串数字
鼠标光标放在某个数字或者某串数字的末尾，进行双击鼠标左键即可（就会选中当前鼠标光标前相邻的所有数字）：
阅读更多2024-09-17
面试官问：请描述一次你成功解决问题的经历？
面试官为什么要这么问？面试官问你描述一次成功解决问题的经历，主要是为了评估你的几个关键方面：问题解决能力：了解你在面对挑战时的思维方式和应对策略。决策能力：考察你在压力下做出明智决定的能力。沟通技巧：
阅读更多2024-09-17
VLMEvalKit 评测实践:InternVL2 VS Qwen2VL
多模态技术的突破，正在改变我们理解和交互世界的方式。无论是强大的感知能力、复杂的推理分析，还是图文融合的创新应用，InternVL2 与 Qwen2-VL 展现了大模型的无限可能。
阅读更多2024-09-17
mybatis开启日志
步骤很详细，直接上教程……
阅读更多2024-09-17
MySQL——数据库的高级操作（一）数据备份与还原（1）数据的备份
MySQL——数据库的高级操作（一）数据备份与还原（1）数据的备份
阅读更多2024-09-17
Blender渲染太慢怎么办？blender云渲染已开启
此次，渲染101云渲染农场正式加入了对Blender的全面支持，涵盖Blender的所有版本，不论是较新的Blender 4.0还是早期版本，都可轻松对接渲染101平台服务。不论是小型独立项目还是大型
阅读更多2024-09-17
ubuntu安装mysql 8.0忘记root初始密码，如何重新修改密码
修改my.cnf文件，在文件新增 skip-grant-tables，在启动mysql时不启动grant-tables，授权表。5.注释掉skip-grant-tables后重启mysql。2、修改m
阅读更多2024-09-17
JVM面试真题总结（十一）
总的来说，Java内存模型主要解决了多线程环境下共享数据的一致性、可见性等问题，是Java并发编程的基础。这种模型的好处是，由于启动类加载器是最顶部的加载器，因此它加载的都是最可信任的类库（Java的
阅读更多2024-09-17
Ubuntu 软件仓库镜像使用帮助
选择镜像。
阅读更多2024-09-17
用于稀疏自适应深度细化的掩码空间传播网络 CVPR2024
图像引导的深度补全是一项通过利用稀疏深度测量和RGB图像来估计密集深度图的任务；它通过估算深度来填充未测量的区域。由于许多深度传感器（如LiDAR和飞行时间相机（ToF））只能提供稀疏的深度图，这项任
阅读更多2024-09-17

【Python机器学习】k-近邻算法简单实践——电影分类

参考数据：

准备：使用Python导入数据

实施kNN分类算法：

相关文章