WDL（Wide & Deep Learning for Recommender Systems）——Google经典CTR预估模型

🕗 发布于 2024-07-22 19:52 深度学习 人工智能 推荐算法

一、文章简介

Wide & Deep Learning for Recommender Systems这篇文章介绍了一种结合宽线性模型和深度神经网络的方法，以实现推荐系统中的记忆和泛化。这种方法在Google Play商店的应用推荐系统中进行了评估，展示了其显著的性能提升。

推荐系统中的记忆和泛化

为了实现记忆和泛化，Wide & Deep模型结合了宽线性模型和深度神经网络：

1.宽组件（Wide Component）

宽组件的主要功能是实现记忆，即捕捉特征之间的频繁共现关系。这部分模型采用线性模型，利用交叉乘积特征来捕捉特征之间的高阶关系。

1). 原始输入特征和交叉乘积特征

原始输入特征：这些是从用户和上下文数据中提取的直接特征。例如，用户的安装应用、语言、年龄等。
交叉乘积特征：通过交叉乘积转换生成的新特征，这些特征通过组合原始特征来捕捉特征间的交互。例如，“AND(gender=female, language=en)”表示女性用户使用英语。

2). 公式

宽组件的线性组合公式：

$\operatorname{Wide}(\mathbf{x})=\mathbf{w}_{\text {wide }}^T[\mathbf{x}, \phi(\mathbf{x})]$

其中：

$\mathbf{x}$ 是原始输入特征向量。
$\phi(\mathbf{x})$ 是交叉乘积特征向量。
$\mathbf{W}_{\text {wide }}$ 是宽组件的权重向量。

3). 记忆功能

宽组件通过权重向量 $\mathbf{W}_{\text {wide }}$ 学习特征间的共现关系。例如，如果某用户安装了Netflix且展示了Pandora，则特征“AND(user_installed_app=netflix, impression_app=pandora)”的值为1，模型可以利用这个信息来进行记忆。

2.深组件（Deep Component）：

深组件的主要功能是实现泛化，即学习特征之间的潜在关系，处理未见过的新特征组合。深组件通过深度神经网络来实现，能够更好地捕捉复杂的非线性关系。

1).嵌入层

类别特征嵌入：将高维稀疏的类别特征转化为低维稠密的嵌入向量。每个类别特征（如“language=en”）被映射到一个32维的嵌入向量。公式：

$\mathbf{e} = Embedding (x)$

其中， $\mathbf{e}$ 是嵌入向量， $\mathbf{x}$ 是类别特征。

2).隐藏层

连接嵌入和稠密特征：将所有嵌入向量和稠密特征连接在一起，形成一个约1200维的稠密向量。
多层感知器：通过多层感知器（MLP）进行处理，通常包括3个ReLU层，每层执行非线性变换，捕捉复杂的特征关系

$\mathbf{a}^{(l)}=f\left(\mathbf{W}^{(l)} \mathbf{a}^{(l-1)}+\mathbf{b}^{(l)}\right)$

其中：

$\mathbf{a}^{(l)}$ 是第 $l$ 层的激活值。
$\mathbf{W}^{(l)}$ 是第 $l$ 层的权重矩阵。
$\mathbf{b}^{(l)}$ 是第 $l$ 层的偏置向量。
$f$ 是激活函数，通常为 $ReLU$ 。

3).泛化功能

深组件通过嵌入层和多层感知器学习特征之间的非线性关系，能够处理以前未见过的新特征组合。例如，通过学习用户的行为模式和上下文信息，模型可以生成新的推荐。

3).实例代码

import tensorflow as tf

# 创建一个简单的模型，包括一个嵌入层、一个隐藏层和一个输出层
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=4, output_dim=32, input_length=1),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(64, activation='relu'),  # 隐藏层
    tf.keras.layers.Dense(1)  # 输出层
])

# 编译模型
model.compile(optimizer='adam', loss='mse')

# 打印嵌入层的权重（训练前）
print("嵌入层权重（训练前）:")
print(model.layers[0].get_weights()[0])

# 创建简单的数据
import numpy as np
x_train = np.array([[0], [1], [2], [3]])
y_train = np.array([1.0, 2.0, 3.0, 4.0])

# 训练模型
model.fit(x_train, y_train, epochs=100, verbose=0)

# 打印嵌入层的权重（训练后）
print("嵌入层权重（训练后）:")
print(model.layers[0].get_weights()[0])

3.结合记忆和泛化

宽组件和深组件的输出通过加权和进行组合，作为最终的预测结果。在训练过程中，这两部分是同时优化的，使得模型能够平衡记忆和泛化的需求。具体过程如下：

1).计算宽组件的输出：

宽组件的输出是原始输入特征和交叉乘积特征的线性组合：

$\operatorname{Wide}(\mathbf{x})=\mathbf{w}_{\text {wide }}^T[\mathbf{x}, \phi(\mathbf{x})]$

2).计算深组件的输出：

深组件的输出是嵌入层和多层感知器处理后的结果：

$\operatorname{Deep}(\mathbf{x})=\mathbf{w}_{\text {deep }}^T \mathbf{a}^{\left(l_f\right)}$

其中， $\mathbf{a}^{\left(l_f\right)}$ 是深度模型最后一层的激活值。

3).组合输出：

宽组件和深组件的输出通过加权和进行组合，作为最终的预测值：

$P(Y=1 \mid \mathbf{x})=\sigma\left(\mathbf{w}_{\text {wide }}^T[\mathbf{x}, \phi(\mathbf{x})]+\mathbf{w}_{\text {deep }}^T \mathbf{a}^{\left(l_f\right)}+b\right)$

其中， $\sigma$ 是sigmoid激活函数， $\mathbf{w}_{\text{wide}}$ 和 $\mathbf{w}_{\text{deep}}$ 分别是宽组件和深组件的权重向量， $\mathbf{a}^{\left(l_f\right)}$ 是深组件最后一层的激活值， $b$ 是偏置项。

4).损失函数和优化：

使用逻辑损失函数（logistic loss function）进行联合训练，通过反向传播算法同时优化宽组件和深组件的参数：

$L=-\frac{1}{N} \sum_{i=1}^N\left[y_i \log \left(\hat{y}_i\right)+\left(1-y_i\right) \log \left(1-\hat{y}_i\right)\right]$

其中：

$N$ 是样本的数量。
$y_i$ 是第 $i$ 个样本的实际标签（0 或 1）。
$\hat{y}_i$ 是第 $i$ 个样本的预测概率，即样本属于类别 1 的概率。
$\log$ 是自然对数。

损失函数的意义

当实际标签 $y_i$ 为 1 时，损失函数的第一项 $y_i \log \left(\hat{y}_i\right)$ 起作用，第二项为零。这部分损失鼓励模型将 $\hat{y}_i$ 尽可能地接近 1。
当实际标签 $y_i$ 为 0 时，损失函数的第二项 $\left(1-y_i \right )\log\left(1-\hat{y}_i \right )$ 起作用，第一项为零。这部分损失鼓励模型将 $\hat{y}_i$ 尽可能地接近 0。

通过最小化这个损失函数，模型会在预测时更加准确地反映实际标签。

逻辑损失函数的特性

凸性：逻辑损失函数是一个凸函数，这意味着存在全局最优解（证明见下一篇博客）。
概率解释：逻辑损失函数直接反映了模型预测概率的准确性，能够有效处理不平衡数据集。

4.结论与意义

Wide & Deep模型成功结合了记忆和泛化的优势，在推荐系统中表现出色。
实际应用中，通过在线实验验证了其有效性和改进。
提供了开源实现，为进一步研究和应用提供了基础。

原文地址：https://blog.csdn.net/weixin_41570231/article/details/140470955

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：算法day05 master公式估算递归时间复杂度归并排序小和问题堆排序
下一篇：Python字符串介绍

医学数据分析实训项目十基于深度残差神经网络的皮肤癌检测
皮肤镜图像是检查皮肤癌黑色素瘤的主要手段。本实践项目通过构建深度残差神经网络提取皮肤镜图像的高维特征，使用残差学习防止网络梯度退化，降低网络训练的难度，实现黑色素瘤的有效识别。实践项目所使用的数据集由
阅读更多2024-09-20
提升工作效率，引领编程新时代
&emsp;&emsp;&emsp;&emsp;---
阅读更多2024-09-20
滑动窗口(7)_串联所有单词的字串
滑动窗口(7)_串联所有单词的字串,困难级别题目?思路对照样秒AC!!!
阅读更多2024-09-20
Redis性能测试redis-benchmark
你可以获取 Redis 的性能数据，帮助优化配置和硬件资源。如果有特定的场景或命令需要测试，可以详细说明，我可以提供更具体的建议！会输出每个命令的吞吐量（请求每秒）和其他性能指标。这些指标可以帮助你了
阅读更多2024-09-20
ChartLlama: A Multimodal LLM for Chart Understanding and Generation论文阅读
多模态大型语言模型在大多数视觉语言任务中表现出令人印象深刻的表现。但是，该模型通常缺乏对特定域数据的理解能力，尤其是在解释图表图片时。这主要是由于缺乏相关的多模态指令微调数据集。在本文中，我们利用 G
阅读更多2024-09-20
react hooks--useMemo
相当于计算属性!!!useMemo实际的目的也是为了进行性能的优化。◼ 如何进行性能的优化呢？ useMemo返回的也是一个 memoized（记忆的）值； 在依赖不变的情况下，多次定义的时候，
阅读更多2024-09-20
zookeeper向管控平台上报状态
report_status_to_zookeeper() 方法二：第一个 worker 进程上报如果你希望使用第一个工作进程来上报状态，而不是主进程，可以使用进程 ID 来判断： import os
阅读更多2024-09-20
深蓝学院-- 量产自动驾驶中的规划控制算法小鹏
来源：深蓝学院：《量产自动驾驶中的规划控制算法》
阅读更多2024-09-20
加密与安全_三种常见的注入攻击
注入攻击是指攻击者通过传递恶意数据，将这些数据当作代码在目标系统中执行。这类攻击的本质是数据与代码的边界被打破，导致数据被误执行。SQL注入（SQL Injection）：攻击者通过恶意构造的SQL语
阅读更多2024-09-20
Prompt最佳实践｜如何用参考文本让ChatGPT答案更精准？
想象一下，你正在参加一个烹饪比赛，而你的目标是制作出世界上最美味的蛋糕。尽管你对烹饪充满热情，你却不知道那个秘密配方。这时，组织者给了你一个选择：使用一本包含世界顶级糕点师秘密配方的烹饪书。这本书正是
阅读更多2024-09-20