推荐系统 # 二、推荐系统召回：协同过滤 ItemCF/UserCF、离散特征处理、双塔模型、自监督学习、多路召回、曝光过滤

🕗 发布于 2024-10-20 08:48 学习

推荐系统召回

2.1 ItemCF：基于物品的协同过滤

请添加图片描述

这里的 Sim() 不是指物品本身的相似度，而是指喜欢物品的受众群体之间的相似度，上面的公式没有考虑喜欢的程度。
考虑喜欢程度公式修改如下：本质是余弦相似度

请添加图片描述
线上环境：

缺点：社群对算法的误导

请添加图片描述

2.2 Swing 召回

请添加图片描述

2.3 UserCF: 基于用户的协同过滤

请添加图片描述

缺点：热门的物品无法越无法反应用户的兴趣，需要降低热门物品的权重

请添加图片描述

2.4 离散特征处理

请添加图片描述

2.5 矩阵补充

请添加图片描述

矩阵补充方法在实践中效果不好。

请添加图片描述

对向量做归一化，让他们的二范数全都等于1，那么余弦相似度和内积相似度相等。

2.6 双塔模型

2.6.1 模型结构

请添加图片描述

2.6.2 双塔模型的训练

请添加图片描述

Pointwise 训练

请添加图片描述

这里的1:2或者1:3是经验值。

Pairwise 训练

请添加图片描述

Listwise 训练

请添加图片描述
【说明】上面有笔误，下面的这行都是“-”

之前的召回模型设计是最后一层做后期融合，这里的错误设计在前期就做了融合。这里的计算量太大了（要算预估值的话必须1-1对比才行）。

2.6.3 正负样本

请添加图片描述

简单负样本

请添加图片描述

Batch内负样本

请添加图片描述

在线上做召回的时候不用减掉log $p_i$

困难负样本

请添加图片描述
工业界中的负样本训练数据：

混合几种负样本
50%的负样本是全体物品（简单负样本）
50%的负样本是没通过排序的物品（困难负样本）

常见错误

曝光但未点击的作为负样本

2.6.4 线上召回和模型更新

线上召回

模型更新：全量更新 vs 增量更新

增量更新：每隔几十分钟，发布最新的 ID Embedding

2.6.5 双塔模型、自监督学习

自监督的目的是把物品塔训练的更好。

损失函数：

纠偏：

到这里是双塔模型同时训练用户塔和物品塔的过程。

自监督物品塔训练：

$/ a lp ha$ ：超参数

2.7 Deep Retrieval 召回

2.7.1 索引

2.7.2 预估模型

2.7.3 线上召回

2.7.4 训练

补充几点：

双塔使用单向量召回，导致召回结果集中在单个topic上。字节做deep retrieval的目的是多兴趣召回（multi-interest）。deep retrieval召回多条路径，每条路径是一个兴趣点，所以属于multi-interest。
据说抖音已经下掉了deep retrieval，因为有了更好的模型。
这是抖音实际在用的multi-interest retrieval，建议读一下：Trinity: Syncretizing Multi-/Long-tail/Long-term Interests All in
One

PS：双塔模型也有改进版处理 multi-interest 的情况，多点建模比多边好计算

2.8 其他召回通道：地理位置召回、作者召回、缓存召回

GeoHash 召回

同城召回

作者召回

关注作者召回

交互作者召回

相似作者召回

缓存召回

2.9 曝光过滤 & Bloom Filter

原文地址：https://blog.csdn.net/qq_33583069/article/details/142553795

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20
Java IO 基础知识
IO 即，输入和输出。数据输入到计算机内存的过程即输入，反之输出到外部存储（比如数据库，文件，远程主机）的过程即输出。数据传输过程类似于水流，因此称为 IO 流。IO 流在 Java 中分为输入流和输
阅读更多2024-10-20
STM32传感器模块编程实践(七) MLX90614红外测温模块简介及驱动源码
本文介绍了MLX90614红外测温模块，通过探测物体红外辐射能量的大小和波长的分布来检测物体的表面温度。学会用STM32驱动MLX90614，可以广泛的用在额温枪、门禁等人体温度项目。
阅读更多2024-10-20
STM32学习笔记---SPI与W25Q64
SPI与W25Q24学习笔记，基于SPI底层通信协议使用W25Q24存储芯片
阅读更多2024-10-20
《计算机视觉》—— 基于dlib库的人检检测
使用dlib库的人脸检测器来检测人脸，并在检测到的人脸周围绘制矩形框。
阅读更多2024-10-20
RabbitMQ 发布确认模式
RabbitMQ 的发布确认模式（Publisher Confirms）是一种机制，用于确保消息在被 RabbitMQ 服务器成功接收后，发布者能够获得确认。这一机制在高可用性和可靠性场景下尤为重要，
阅读更多2024-10-20
在 Linux 系统中设置 Service 服务开机自启的详细指南
在 Linux 中，服务是后台运行的进程，它们在系统启动时开始运行，并且在系统关闭时停止。systemd：大多数现代 Linux 发行版（如 CentOS 7+、Ubuntu 16.04+、Debia
阅读更多2024-10-20
如何在word里面给文字加拼音？
第1步，这是一个专业的给汉字加拼音的软件，注音准确率在98%以上，并且效率也非常高，就算是几十万字的word文档也能轻松完成加拼音的操作。起始给word里的汉字加拼音的方法非常多，小编就找到了一些专门
阅读更多2024-10-20
CGAL专篇-CGAL概述
CGAL概述
阅读更多2024-10-20
【Linux 从基础到进阶】磁盘I/O性能调优
磁盘I/O性能是决定服务器整体性能的关键因素之一。磁盘I/O性能的瓶颈常常会影响数据库、文件系统以及虚拟化平台等关键应用的响应时间。因此，磁盘I/O调优是系统管理员不可忽视的任务。本文将介绍影响磁盘I
阅读更多2024-10-20

推荐系统 # 二、推荐系统召回：协同过滤 ItemCF/UserCF、离散特征处理、双塔模型、自监督学习、多路召回、曝光过滤

推荐系统召回

2.1 ItemCF：基于物品的协同过滤

2.2 Swing 召回

2.3 UserCF: 基于用户的协同过滤

2.4 离散特征处理

2.5 矩阵补充

2.6 双塔模型

2.6.1 模型结构

2.6.2 双塔模型的训练

Pointwise 训练

Pairwise 训练

Listwise 训练

2.6.3 正负样本

简单负样本

Batch内负样本

困难负样本

常见错误

2.6.4 线上召回和模型更新

线上召回

模型更新：全量更新 vs 增量更新

2.6.5 双塔模型、自监督学习

2.7 Deep Retrieval 召回

2.7.1 索引

2.7.2 预估模型

2.7.3 线上召回

2.7.4 训练

2.8 其他召回通道：地理位置召回、作者召回、缓存召回

GeoHash 召回

同城召回

作者召回

关注作者召回

交互作者召回

相似作者召回

缓存召回

2.9 曝光过滤 & Bloom Filter

相关文章