推荐算法（基于用户/物品的协同过滤算法）

🕗 发布于 2024-11-22 13:29 推荐算法算法 机器学习 人工智能

1.1 推荐算法概述

信息过载的时代。信息消费者面临的问题是如何收集到自己感兴趣的信息。对于信息生产者来说，高效地把信息推送给感兴趣的信息消费者，而不是淹没在信息互联网的海洋之中，也非常困难。如何从大量的数据信息中获取有价值的信息成为关键问题。由此，推荐系统便应运而生，得到了广泛的应用。

推荐流程示意：

推荐系统首先收集、处理客户的数据，通过分析客户的特征，为客户推荐最合适的商品。

1.1.1常见评价指标

用户信任度
预测准确度
覆盖率
多样性
实时性

1.1.3 推荐系统面临的挑战

1．冷启动问题

冷启动问题主要分为三类：

用户冷启动:指新用户情况下，如何给新用户做个性化推荐的问题。
系统冷启动: 指新系统情况下，只有物品的信息没有用户及行为，如何进行推荐。
物品冷启动:指新物品情况下，如何将新推出的物品推荐给可能的感兴趣用户。

2．多目标优化问题

影响推荐系统性能的因素非常多，因此推荐系统可以看作一个多目标优化问题。怎样能综合考虑这些繁杂的影响因素，达到理想的推荐效果，也是一个有挑战的问题。

3．多源的异构数据

推荐系统的数据来自于各种数据源、各种格式，例如用户信息、物品信息、用户和用户的关系，以及用户和物品的关系。数据源还经常是异构的，存在文字、网页、图片、声音、视频等丰富的格式。内容的多源和异构性都是需要解决的问题。

4．时效问题

像新闻这样的产品，有时效性要求。另一方面，用户的兴趣会改变，要进行跟踪更新。

1.1.4 常见的推荐算法

随着推荐系统的广泛应用，推荐算法也不断发展。目前来说，推荐算法可以粗略分为几个大类：

协同过滤推荐算法
基于内容的推荐算法
基于图结构的推荐算法
混合推荐算法。

1.2 协同过滤推荐算法

协同过滤(Collaborative Filtering，CF)概念是1992年提出的，并被GroupLens在1994年应用在新闻过滤中。目前的协同过滤推荐算法可以按数据维度分为两类：

基于用户的协同过滤算法。
基于物品的协同过滤算法。

1.2.1基于用户的(user-based)协同过滤算法

在日常交往中，可以观察一个人的朋友们的喜好，借此推测这个人的兴趣偏好，从而为他推荐他可能喜欢的内容。基于协同过滤的算法就是基于这个想法。首先使用特定的方式找到与一个用户相似的用户集合，即他的“朋友们”。分析这些相似用户的喜好，将这些“朋友们”喜欢的东西推荐给该用户。

算法流程如图所示：

下面对算法流程进行详细介绍。

首先，系统需要采集用户、项目的相关数据，构建一个用户-物品评分矩阵，例如如下表所示的信息矩阵。

接下来，要计算用户和用户之间的相似度。相似度根据距离计算，如欧式距离、余弦距离等。假设用户数据为N维的，则用户U和用户V 两个向量的欧式距离为：

欧式距离得到的结果是一个非负数，最大值是正无穷。显然，距离越大相似度越小，即相似度与距离负相关。另外，为方便使用，通常希望相似度值是在某个具体范围内。所以，可以将上面的欧氏距离进行变换，转换到（0，1］。

余弦相似度也是经常使用的相似度度量方法，它计算的是两个向量之间夹角的余弦值。余弦相似度的结果范围为［一1，1］。仍然使用上面假设的N维的用户数据，则用户U和用户v 两个向量的余弦相似度如下。

对于每个候选物品i，用户U对它感兴趣的程度f（u，i）可以通过其他用户的喜欢程度与用户间的相似度来计算，公式如下。

其中：

P(u,k)：与用户U最相似的前k个用户的集合。
N(i)：喜欢物品i的用户集合（i一般为用户U未喜欢过的物品）。
v:与用户U最相似的前k个用户集合中，喜欢过物品i的用户。
sim_uv：用户U和用户V的相似度。
r_vi：用户V对物品i的喜欢程度。

下面使用例子进行详细讲解。在某个电子商务平台上，收集到的用户对物品的评价结果数据如表所示。下面对用户 U1，提取两个相邻用户（k=2）的历史偏好，预测用户U1对12物品的评分。

1.2.2基于物品的(item-based)协同过滤算法

算法基于以下假设，同一个用户对相似项目的评分存在相似性。当测算用户对某不项目的评分时，可以根据用户对若干相似项目的评分进行估计。
例如，喜欢看电影的小明，对影片《少林寺》《醉拳》和《一代宗师》的评价比较高，由于电影《叶间》与上述电影的相似度较高，那么影片《时间》很可能是他感兴趣的。
基于物品的协同过滤算法的想法本质上与基于用户的协同过滤算法类似，可以使用前文介绍的用户相似度公式计算项目间的相似度。相似度与预测的计算过程都类似。预测某个用户U对某个项目i的评分r_ui的计算如下：

其中：

r_vi：用户V对物品i的喜欢程度。
G(i,k)：与物品i最相似的前k个物品集合。
N(u)：U喜欢过的物品集合。
j:与物品i最相似的前k个物品集合中，用户喜欢过的物品。
sim_ij：物品i和物品j的相似度。

基于物品的协同过滤推荐算法原理上和基于用户的协同过滤推荐算法类似，只是在计算邻居时采用物品作为对象，而不是从用户的维度。将所有用户对某个物品的喜欢程度作为一个向量，计算物品之间的相似度，得到某物品的相似物品。然后，根据用户历史的评价数据，预测当前用户对没评价过的物品的评分，对物品排序后作为推荐。

基于下表的数据，使用基于物品的协同过滤推荐算法，计算用户U2对物品I2的评分。

原文地址：https://blog.csdn.net/qq_55882840/article/details/143863923

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：星盘跨境依托云器 Lakehouse 实现实时离线一体化、湖仓一体化数据架构升级，支持全域数据高效分析
下一篇：STL中vector实现——简单易懂版

《图像形态学运算全解析：原理、语法及示例展示》
简介：本文详细介绍了图像形态学中的多种运算，包括腐蚀、膨胀、开运算、闭运算、形态学梯度运算、礼帽运算以及黑帽运算。分别阐述了各运算的原理、语法格式，并通过 Python 代码结合具体示例图片（如er
阅读更多2024-11-25
大连环保公益管理系统｜Java｜SSM｜Vue｜前后端分离
2⃣️：管理端：首页、个人中心、用户管理、用户环保币管理、环保币入账管理、环保币扣减管理、商品兑换管理、加入环保社团管理、活动报名管理、众筹支持管理、环保活动管理。4⃣️：环保社团端：首页、个人中心、
阅读更多2024-11-25
微信小程序条件渲染与列表渲染的全面教程
在微信小程序的开发中，条件渲染和列表渲染是构建动态用户界面的重要技术。通过条件渲染，我们可以根据不同的状态展示不同的内容，而列表渲染则使得我们能够高效地展示一组数据。本文将详细讲解这两种渲染方式的用法
阅读更多2024-11-25
docker基础命令
docker基础命令
阅读更多2024-11-25
【FPGA开发】Vivado自定义封装IP核，绑定总线
一般xilinx官方的bd中涉及的总线，都会可以直接映射的选，如果是自己定义的总线协议，也可以增加自定义。想把连接ram的端口绑定在一起，这样在BD中连线时，就不用一根根的拉线，就可以一个总线搞定。在
阅读更多2024-11-25
MATLAB 批量读取endnote导出的参考文献
endnote中有很多分组文件夹，如果批量导出。
阅读更多2024-11-25
实验二系统响应及系统稳定性
（1）学会运用Matlab 求解离散时间系统的零状态响应；（2）学会运用Matlab 求解离散时间系统的单位取样响应；（3）学会运用Matlab 求解离散时间系统的卷积和。
阅读更多2024-11-25
Spring：AOP切入点表达式
对于AOP中切入点表达式，我们总共会学习三个内容，分别是语法格式通配符和书写技巧。
阅读更多2024-11-25
【JavaEE进阶】 JavaScript
创建数组有两种⽅式1. 使⽤ new 关键字创建// Array 的 A 要⼤写2. 使⽤字⾯量⽅式创建 [常⽤]// 数组中保存的内容称为 "元素"注意: JS 的数组不要求元素
阅读更多2024-11-25
Java SE 与 Java EE：基础与进阶的探索之旅
Java SE 是 Java 的标准版，它提供了 Java 语言的基础、JDBC 数据库连接操作、I/O 流操作、网络通信、多线程等技术。Java SE 是 Java 平台的基础，用于开发和部署桌面、
阅读更多2024-11-25