召回10 Deep Retrieval召回

🕗 发布于 2024-09-30 01:14 人工智能 机器学习

Deep Retrieval召回：给定用户特征采用beam search算法召回路径，根据路径召回物品，对物品排序，最终用分数高的物品作为召回结果。

双塔模型是将向量表征作为用户和物品之间的中介。

Deep Retrieval是将路径作为用户和物品之间的中介。

神经网络判断用户对物品的兴趣，物品表证则是把物品映射到路径。

索引：

把物品和路径关联起来。一个物品可以表示为多条路径，路径可以有重合的节点。

物品到路径的索引：

训练神经网络时使用该索引。

路径到物品的索引：

线上做召回的时候使用该索引。给定一条路径会取回多个物品作为召回的结果。

预估模型：

Deep Retrieval设计神经网络，给定用户特征可以预估用户对路径的兴趣分数。使用该神经网络，可以根据用户特征召回多条路径。

以下假定结构有三层：p1 p2 p3三个向量是三个神经网络的输出。

向量p1 p2 p3分别是对第一层、第二层、第三层k个节点的打分，都是k维向量。根据分数选出每一层的一个节点a 、b、c。用户特征向量x不变，对节点a做embadding得到emb(a)，对x和emb(a)做connection再输入神经网络。三层神经网络不共享参数。

选出三层中的节点a 、b、c.

线上召回：

beam search召回路径

减少计算量，应用于机器学习和Lp。超参数beam size最大，计算量越大，search结果越好。

例子，设置超参数为1，选择每一层最高分节点，即p1向量中元素最大的节点。

beam search算法理论：

上面的例子即贪心算法，独立对p1 p2 p3最大化，但不一定保证三项乘积最大，即选择的路径未必是最优路径。

设置超参数为4：

训练：

离线训练，只使用正样本，只要点击过就算正样本。

通过最小化损失函数来学习神经网络的参数。

以用户为中介，计算用户与路径的兴趣分数，进而得到物品与路径的相关性score，score越高说明路径和物品的关联越大，可以把路径作为物品的表征。

概括：

总结：

双塔模型是将向量表征作为用户和物品之间的中介。

Deep Retrieval是将路径作为用户和物品之间的中介。

原文地址：https://blog.csdn.net/DEVIL_hym/article/details/142638984

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ExpansionPanelList组件的用法
下一篇：【无标题】

雷池+frp 批量设置proxy_protocol实现真实IP透传
内网部署safeline，通过frp让外网访问内部web网站服务，让safeline记录真实外网攻击IP
阅读更多2024-10-08
git&SVN提交规范
使用规范的提交消息可以让项目更加模块化、易于维护和理解，同时也便于自动化工具（如发布工具或 Changelog 生成器）解析和处理提交记录。通过编写符合规范的提交消息，可以让团队和协作者更好地理解项目
阅读更多2024-10-08
【包教包会】速通LLM《从头开始构建大型语言模型》免费pdf分享
书中详细介绍了如何规划和编写LLM的所有部分，准备适合LLM训练的数据集，以及如何使用人类反馈确保LLM遵循指令等关键步骤。在当今人工智能技术飞速发展的时代，大型语言模型（LLM）作为聊天机器人、文本
阅读更多2024-10-08
雷池+frp 批量设置proxy_protocol实现真实IP透传
内网部署safeline，通过frp让外网访问内部web网站服务，让safeline记录真实外网攻击IP
阅读更多2024-10-08
获取yolov8自带的数据集并开始训练
这些文件包含了关于每个数据集的路径、类别数、类别标签等信息，帮助模型正确地加载和解析数据集，以便进行训练和推理。每个 YAML 文件针对不同的数据集（比如 COCO、Brain Tumor、Globa
阅读更多2024-10-08
Python | 第八章 | 数据容器-2
1、元组(tuple)可以存放多个不同类型数据，元组是不可变序列tuple不可变是指当你创建了tuple时候，它就不能改变了，也就是说它也没有 append(), insert()这样的方法，但它也有
阅读更多2024-10-08
在java中使用redis
redis-java
阅读更多2024-10-08
HarmonyOS Next元服务开发快速入门案例
在resources>base>element>string.json中修改“app_name”值，该值表示“应用名称”。开源协议使用：Apache License 2.0 ，代码包
阅读更多2024-10-08
不动产证ocr识别场景解析、房产证识别API
不动产证OCR识别技术通过提供快速、准确的信息转换能力，不仅优化了多个行业的工作流程，还提高了数据处理的效率和准确性。随着技术的不断进步和应用场景的不断扩展，OCR技术在不动产领域的应用将越来越广泛，
阅读更多2024-10-08
算法题题解：合并两个有序链表（C语言和java实现）
LeetCode原题: 21. 合并两个有序链表C语言版java版谢谢观看！如果觉得博客对您有用的话，还请帮我点点赞，加个关注，一起学习算法。
阅读更多2024-10-08