【自学笔记】推荐系统

🕗 发布于 2024-11-18 18:53 笔记 机器学习 人工智能

文章目录

引入
- 一些记号
- 原理
协同过滤算法
- 使用
- 均值归一化
基于内容的推荐
- 原理
- 基于TensorFlow的代码
从大目录里推荐
- 检索
- 排名

引入

在这里插入图片描述

一些记号

记号	含义	其他
$n$	总人数
$m$	总样本数
$k$	特征数
$y_{i}^{(j)}$	第 $j$ 个人对第 $i$ 个样本的评分	$y_{i,j} \in [0,1]$ ，若未评分则为 $n o n e$
$x^{(i)}$	第 $i$ 个样本的特征向量
$w^{(j)}$ , $b^{(j)}$	第 $j$ 个人的超参数
$\lambda$	正则化参数

原理

用已有的样本集拟合第 $j$ 个人的兴趣曲线 $f^{(j)}(x) = w^{(j)}\cdot x + b^{(j)}$
第 $j$ 个人的损失函数为:

$J(w^{(j)},b^{(j)})=\frac{1}{2}\sum_{i: y_{i}^{(j)} ≠ none}(f^{(j)}(x^{(i)})-y_{i}^{(j)})^{2}+\frac{\lambda}{2}||w^{(j)}||$ ，其中 $||\cdot||$ 为某范数

我们可以将 $n$ 个人统一起来一起拟合出总损失函数：

$J\begin{pmatrix} w^{(1)} & w^{(2)} & ... & w^{n}\\ b^{(1)} & b^{(2)} & ... & b^{n}\end{pmatrix} =\sum_{j=1}^{n}J(w^{(j)},b^{(j)})=\sum_{j=1}^{n}(\frac{1}{2}\sum_{i: y_{i}^{(j)} ≠ none}(w^{(j)}\cdot x^{(i)}+b^{(j)}-y_{i}^{(j)})^{2}+\frac{\lambda}{2}||w^{(j)}||)$

最后，用梯度下降等方法使损失函数最小化，得到 $w$ 和 $b$

注意，该算法假设了我们知道每一个样本的所有特征 $x_{i}$

协同过滤算法

在这里插入图片描述
假设我们已经有了一些人的评分 $y$ 和他们的超参数 $w$ 和 $b$ ，我们可以反过来预测样本的特征 $x$ 。使用同样的方法:

$J(x_{i})=\frac{1}{2}\sum_{j: y_{i}^{(j)} ≠ none}(w^{(j)} \cdot x^{(i)} + b^{(j)}-y_{i}^{(j)})^{2}+\frac{\lambda}{2}||x^{(i)}||$
$J(x_{1}, x_{2}, ..., x_{m}) = \sum_{i=1}^{m}J(x_{i})=\sum_{i=1}^{m}(\frac{1}{2}\sum_{j: y_{i}^{(j)} ≠ none}(w^{(j)} \cdot x^{(i)} + b^{(j)}-y_{i}^{(j)})^{2}+\frac{\lambda}{2}||x^{(i)}||)$

合并一下，在这里我们其实最开始能获取的数据只有每个人对每个样本的评分，所以 $w$ ， $b$ ， $x$ 都是超参数，我们可以一起计算：

$J=\frac{1}{2}\sum_{(i, j): y_{i}^{(j)}≠none}(w^{(j)}\cdot x^{(i)}+b^{(j)}-y_{i}^{(j)})^{2}+\frac{\lambda_{1}}{2}\sum_{j=1}^{n}||w^{(j)}||+\frac{\lambda_{2}}{2}\sum_{i=1}^{m}||x^{(i)}||$

注意，这样计算后得到的特征参数 $x$ 可能会很难得到实际解释，但的确是某些样本的共同特征。此外，协同过滤算法很难冷启动，即在很少用户参与评分的情况下很难取得好的效果。

使用

我们的最终目标是预测出为 $n o n e$ 的部分，来决定是否为用户推荐这些内容。
将用户的 $w$ 和 $b$ 以及内容的特征 $x$ 输入进模型，我们得到值 $\cdot x + b$ ，采用激活函数 $g(z)=\frac{1}{1+e^{-z}}$ 得到 $P (y = 1∣ w, b, x)$ 。
此外，我们可以调整一下损失函数的形式，来适应这个激活函数：

原先： $L_{i}^{(j)} = g(f(w^{(j)}, b^{(j)}, x_{i})) - y_{i}^{(j)} = g(w^{(j)}\cdot x^{(i)} + b^{(j)}) - y_{i}^{(j)}$
现在： $L_{i}^{(j)} = -y_{i}^{(j)}log(f(w^{(j)}, b^{(j)}, x^{(i)}))-(1-y_{i}^{(j)})log(1-f(w^{(j)}, b^{(j)}, x^{(i)}))$
损失函数变为： $\sum_{(i, j): y_{i}^{(j)}≠none} L_{i}^{(j)}$

均值归一化

对于样本 $i$ ，我们对它的所有评分取均值得到 $u_{i}:=mean\left \{ y_{i}^{(j)} ≠ none \right \}$ ，然后，在线性拟合函数中加入归一化操作 $f(w^{(j)},b^{(j)},x^{(i)}) = w^{(j)} \cdot x^{(i)}+b^{(j)} + u_{i}$
这样做可以简化梯度计算，更显著的变化是，如果人没有为任何样本打分，那代入TA的初始参数 $w=\vec{0}$ 和 $b = 0$ 后，每个样本的得分会变成其他人打分的平均值，更符合实际用途。

基于内容的推荐

原理

根据用户的信息，我们训练一个模型来预测他们的喜好 $v_{u}$ ：
在这里插入图片描述
基于样本的信息，我们训练一个模型来预测它们的特征 $v_{m}$

然后，用激活函数 $g(v_{u} \cdot v_{m})$ 来判断是否要将样本推荐给该用户。

构造损失函数 $\sum_{(i, j): y_{i}^{(j)} ≠ none}(v_{u}^{(j)}\cdot v_{m}^{(i)}-y_{i}^{(j)})^{2}+\text{NN regularzation term}$

寻找与样本 $i$ 相似的样本： $min \ ||v_{m}^{(k)} - v_{m}^{(i)}||$

基于TensorFlow的代码

在这里插入图片描述

从大目录里推荐

当样本量很大时，每一次都完整跑一遍内积非常费时间，通常在实际应用中，会进行以下两个操作：检索和排名

检索

检索（Retrieval）步骤的目的是从庞大的候选集合中快速筛选出一小部分最有可能满足用户需求的项目。这个步骤通常需要高效且能够处理大规模数据。常见的检索方法包括：
（1）倒排索引（Inverted Index）：倒排索引是一种数据结构，用于快速查找包含某个特定词的文档。它将每个词映射到包含该词的文档列表。
（2）哈希（Hashing）：通过哈希函数将高维数据映射到低维空间，以便快速查找相似的项目。
（3）近似最近邻搜索（Approximate Nearest Neighbor Search, ANNS）：通过近似算法（如LSH、HNSW等）在高维空间中快速找到最接近的邻居。
（4）机器学习模型（如DSSM、BERT等）：使用深度学习模型对用户查询和候选项目进行编码，计算相似度并进行排序。

我们需要做的是平衡检索样本的数量，检索越多的样本会使准确度提高，但会使时间成本增加。

排名

使用上述模型计算样本与用户喜好之间的相似度，并进行排名

原文地址：https://blog.csdn.net/qq_40432278/article/details/143829026

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【jvm】方法区是否存在GC
下一篇：Linux 下网络套接字(Socket) 与udp和tcp 相关接口

在Google Cloud Platform (GCP) 中用Pub/Sub+Dataflow+BigQuery构建数据处理仓库
Pub/Sub：作为消息队列，Pub/Sub 用于接收和传输实时数据流。它能够处理高吞吐量的消息，并将数据分发到多个订阅者。Dataflow：用于数据处理和转换。Dataflow 支持流式和批处理，可
阅读更多2024-11-18
【备忘录】Gin框架
Gin是一个轻量级、高性能的Go语言Web框架，其设计灵感来源于Martini，但相较于Martini，其性能提升了约40倍。Gin基于HTTP路由构建，并提供了丰富的中间件支持，非常适合用于构建高并
阅读更多2024-11-18
系统编译问题
cd “PWD/BUILDE。
阅读更多2024-11-18
C++: string(二)
1 我们这章学习了string的成员函数，在https://legacy.cplusplus.com/网站中可以把接口分为按不同标准分成好多类(如下面Capacity,Element access)，
阅读更多2024-11-18
机器学习基础05_随机森林&线性回归
机器学习；随机森林；线性回归；最小二乘法
阅读更多2024-11-18
AIGC中的图像生成：基于GAN的实现
接下来，我们定义生成器和判别器的网络结构。# 生成器nn.ReLU(),nn.ReLU(),nn.ReLU(),nn.Linear(1024, 28 * 28), # MNIST图像大小nn.Tanh
阅读更多2024-11-18
MYSQL 修改表的结构
在项目的实际开发中，随着版本的迭代和需求的变更，经常会对表结构进行调整，比如向现有表中添加列，删除列，或者修改某列的列名、数据类型或长度，这时就需要对表进行修改操作。RENAME [TO | AS]
阅读更多2024-11-18
基于YOLOv8深度学习的智慧农业野生蓝莓成熟度小目标检测系统研究与实现(PyQt5界面+数据集+训练代码)
随着智慧农业技术的不断进步，传统农业逐渐向自动化、智能化转型，特别是在果实成熟度检测领域，精确、及时的检测手段已成为提升农业生产效率和优化资源配置的重要工具。
阅读更多2024-11-18
Linux防火墙
表是用于网络地址转换（Network Address Translation，NAT）的表之一，用于修改数据包的源 IP 地址、目标 IP 地址或端口号，以实现网络地址的映射和转换。iptables
阅读更多2024-11-18
LeetCode39：组合总和
这个代码其实就是和前面的组合总是是一样的，但是呢，主要一点是，这个for循环里面的backtracking的不是i + 1了，而是i,因为当前i可以去取当前的元素，而i + 1是不能去当前的元素的。
阅读更多2024-11-18