机器学习-点击率预估-论文速读-20240916

🕗 发布于 2024-09-21 15:49 机器学习 人工智能

1. [经典文章] 特征交叉: Factorization Machines, ICDM, 2010

分解机（Factorization Machines）

摘要

本文介绍了一种新的模型类——分解机（FM），它结合了支持向量机（SVM）和分解模型的优点。与SVM一样，FM可以处理任何实值特征向量。与SVM不同的是，FM使用分解参数对所有变量间的相互作用进行建模，因此即使在具有巨大稀疏性的问题中（如推荐系统），也能估计相互作用，而SVM在这种情况下会失败。我们展示了FM的模型方程可以在线性时间内计算，因此可以直接优化FM。与非线性SVM不同，不需要进行对偶形式的转换，模型参数可以直接估计，而不需要支持向量。我们展示了FM与SVM的关系以及FM在稀疏设置中参数估计的优势。另一方面，有许多不同的分解模型，如矩阵分解、并行因子分析或专门的模型如SVD++、PITF或FPMC。这些模型的缺点是它们不适用于一般预测任务，而只适用于特殊的输入数据。此外，它们的模型方程和优化算法是为每个任务单独派生的。我们展示了FM只需通过指定输入数据（即特征向量）就可以模仿这些模型。这使得即使是没有分解模型专业知识的用户也能轻松应用FM。

算法模型:

$y(x) = w_{0} + \sum_{i}w_{i}x_{i} + \sum_{i=1}^{n}\sum_{j=i+1}^{n}<\mathbf{v}_{i}, \mathbf{v}_{j}>x_{i}x_{j}$

模型核心参数: $w_{0} \in \mathcal{R}, \mathbf{w} \in \mathcal{R}^{n}, \mathbf{V} \in \mathcal{R}^{n \times k}$

创新点

稀疏数据下的参数估计：FM能够在极端稀疏的数据环境中估计参数，这是传统SVM难以做到的。
线性复杂度：FM具有线性时间复杂度，可以直接在原始形式中优化，而不需要依赖于支持向量。
通用性：FM是一个通用预测器，可以处理任何实值特征向量，与特定任务的分解模型不同。

算法模型

分解机模型：FM通过分解参数来模拟特征间的所有可能交互，而不是使用完全参数化的方式。
模型方程：FM的模型方程可以在线性时间内计算，并且只依赖于线性数量的参数。
优化：FM可以使用梯度下降方法（如随机梯度下降）有效学习模型参数。

实验效果

Netflix数据集：FM在Netflix数据集上的评分预测误差（RMSE）比SVM表现得更好，展示了在稀疏问题上的优势。
ECML Discovery Challenge 2009：FM在标签推荐任务中与PITF模型相比，展现了可比的预测质量。

推荐阅读指数：★★★★☆

推荐理由：
- 创新性：FM结合了SVM的泛化能力和分解模型的优势，特别是在处理稀疏数据方面提供了新的解决方案。
- 实用性：FM的线性复杂度和直接优化能力使其能够扩展到大型数据集，如Netflix，具有实际应用价值。
- 理论深度：文章深入探讨了FM与SVM以及其他分解模型的理论联系，为理解FM的工作原理提供了坚实的理论基础。

2. [经典文章] 兴趣建模: Deep Interest Network for Click-Through Rate Prediction, KDD, 2018

深度兴趣网络用于点击率预测

摘要

点击率（CTR）预测在工业应用中是一项基本任务，例如在线广告。最近，基于深度学习的模型被提出，它们遵循类似的嵌入（Embedding）和多层感知器（MLP）范式。这些方法首先将大规模稀疏输入特征映射到低维嵌入向量，然后以分组的方式转换为固定长度的向量，最后将它们连接起来输入到多层感知器（MLP）中，以学习特征之间的非线性关系。然而，固定长度向量的使用将成为一个瓶颈，它为嵌入&MLP方法捕捉用户从丰富的历史行为中的多样化兴趣带来了困难。在本文中，我们提出了一种新颖的模型：深度兴趣网络（DIN），通过设计局部激活单元来适应性地从针对特定广告的历史行为中学习用户兴趣的表示。这种表示向量因不同的广告而异，极大地提高了模型的表现能力。此外，我们开发了两种技术：小批量感知正则化和数据自适应激活函数，这些技术可以帮助训练具有数亿参数的工业深度网络。在两个公共数据集以及阿里巴巴真实生产数据集上的实验表明，所提出方法的有效性，与最先进的方法相比，取得了优越的性能。DIN已成功部署在阿里巴巴的在线展示广告系统中，服务于主要流量。

创新点

局部激活单元：DIN通过局部激活单元关注与特定候选广告相关的用户历史行为，从而适应性地计算用户兴趣的表示向量。
小批量感知正则化：提出一种正则化技术，仅计算每个小批量中出现的特征的L2范数，减少了计算量。
数据自适应激活函数：设计了一种新的激活函数，根据输入数据的分布自适应调整激活点，提高了模型性能。

算法模型

深度兴趣网络（DIN）：引入局部激活单元，通过考虑历史行为与候选广告的相关性，适应性地学习用户兴趣的表示。
小批量感知正则化：针对大规模稀疏特征的工业深度网络训练，仅对每个小批量中非零特征的参数进行正则化计算。
数据自适应激活函数（Dice）：一种基于数据分布自适应调整激活点的激活函数。

实验效果

公共数据集：在Amazon和MovieLens数据集上，DIN相比于基线模型和其他深度模型，显示出优越的性能。
阿里巴巴数据集：在具有超过20亿样本的阿里巴巴数据集上，DIN实现了显著的性能提升，AUC比基线模型提高了6.08%。
在线A/B测试：在阿里巴巴的在线展示广告系统中，DIN贡献了高达10.0%的CTR和3.8%的RPM提升。

推荐阅读指数：★★★★☆

推荐理由：
- 创新性：DIN模型通过局部激活单元和自适应激活函数，有效地捕捉了用户多样化的兴趣，提高了CTR预测的准确性。
- 实用性：提出的技术已经在阿里巴巴的广告系统中得到实际应用，证明了其在工业级应用中的有效性和可扩展性。
- 技术深度：文章详细介绍了DIN模型的设计和实现，以及针对大规模稀疏数据的优化技术，对相关领域的研究者和工程师具有较高的参考价值。

3. [每日新文] Intelligent maritime question-answering and recommendation system based on maritime vessel activity knowledge graph

C Xie, Z Zhong, L Zhang - Ocean Engineering, 2024

基于船舶活动知识图谱的智能海事问答与推荐系统

摘要

传统的海事交通管理通常依赖于定位数据进行数据挖掘，而没有结合其他多源数据来分析船舶活动，这无法进行全面的海事知识挖掘。因此，本研究整合了轨迹、海事事故文本和地理数据等多源数据，创建了一个船舶活动知识图谱。在此基础上，开发了基于双向问答注意力图神经网络的问答模型，以及基于注意力增强的联合知识传播和用户偏好图神经网络的个性化推荐模型。前者帮助用户从船舶活动知识图谱中提取有价值的信息，后者根据用户的历史查询信息预测用户的潜在兴趣，并自动推荐船舶实体。实验结果表明，所提出的问答模型在MVA问答数据集上，与最先进的基线模型相比，F1分数提高了2.31%-10.09%。同样，所提出的个性化推荐模型在MVA个性化推荐数据集上，与最先进的基线模型相比，点击率预测准确率提高了2.46%-7.05%。

创新点

多源数据融合：整合了轨迹、海事事故文本和地理数据等多源数据，构建了船舶活动知识图谱。
双向问答注意力图神经网络：开发了一种新的问答模型，可以更有效地从知识图谱中提取信息。
个性化推荐模型：基于注意力增强的联合知识传播和用户偏好图神经网络，预测用户潜在兴趣并进行推荐。

算法模型

问答模型：基于双向问答注意力图神经网络。
推荐模型：基于注意力增强的联合知识传播和用户偏好图神经网络。

实验效果

问答模型：在MVA问答数据集上，F1分数比基线模型提高了2.31%-10.09%。
推荐模型：在MVA个性化推荐数据集上，点击率预测准确率比基线模型提高了2.46%-7.05%。

推荐阅读指数：★★★★☆

推荐理由：
- 创新性：文章提出了结合多源数据构建知识图谱，并基于此开发了问答和推荐模型，具有较高的创新性。
- 实用性：模型在实际数据集上表现优异，具有较好的应用前景。
- 技术深度：文章详细介绍了算法模型的设计和实现，对相关领域的研究者有较高的参考价值。

点评: 这篇论文整体创新一般，简单了解下文章研究问题即可，不值得深入分析。

4. [每日新文] MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction, RecSys, 2024.

MLoRA: 用于点击率预测的多域低秩自适应网络

摘要

点击率（CTR）预测是工业中的一项基本任务，尤其是在电子商务、社交媒体和流媒体中。它直接影响网站收入、用户满意度和用户留存。然而，实际的生产平台通常包含多个领域以满足不同客户的需求。传统的CTR预测模型在多域推荐场景中表现不佳，面临数据稀疏和跨域数据分布差异的挑战。本文提出了一种多域低秩自适应网络（MLoRA），通过为每个领域引入专门的LoRA模块来增强模型在多域CTR预测任务中的性能，并且可以应用于各种深度学习模型。我们在几个多域数据集上评估了所提出的方法。实验结果表明，与最先进的基线相比，MLoRA方法取得了显著的改进。此外，我们在阿里巴巴的生产环境中部署了它，在线A/B测试结果表明其在实际生产环境中的优越性和灵活性。

创新点

多域低秩自适应网络（MLoRA）：提出了一种新的CTR预测框架，通过为每个领域引入低秩自适应模块来提高模型的适应性和性能。
LoRA模块：利用低秩结构对大型预训练模型进行微调，有效学习领域数据的知识，同时减少参数数量。
模型无关性：MLoRA是一个通用框架，可以轻松应用于各种基于深度学习的CTR模型。

算法模型

MLoRA：通过在每个领域中引入LoRA模块，模型能够更有效地学习每个领域的数据分布。
LoRA模块：在每个全连接层中注入可训练的低秩矩阵，以实现参数的高效微调。
两阶段训练策略：先在大规模预训练数据上训练基础网络，然后在微调阶段添加MLoRA网络并冻结基础网络，专注于更新A和B以学习每个领域的个性化信息。

实验效果

数据集：在Taobao、Amazon和Movielens数据集上进行了实验。
性能提升：与基线模型相比，MLoRA在所有数据集上都实现了性能提升，平均提升0.5%。
在线A/B测试：在阿里巴巴.COM电子商务网站上部署后，CTR提高了1.49%，订单转化率提高了3.37%，付费买家数量提高了2.71%。

推荐阅读指数：★★★★☆

推荐理由：
- 创新性：MLoRA通过引入LoRA模块，有效地解决了多域CTR预测中的挑战，如数据稀疏和领域间的差异性。
- 实用性：MLoRA已经在阿里巴巴的生产环境中得到应用，证明了其在实际大规模推荐系统中的有效性和可扩展性。
- 技术深度：文章详细介绍了MLoRA的设计和实现，以及在多域CTR预测问题上的实验验证，对相关领域的研究者和工程师具有较高的参考价值。

点评: 这篇论文将LoRA应用到点击率预估问题，算法应用创新为主，整体数学模型相对简单，值得一看。

原文地址：https://blog.csdn.net/fyf2007/article/details/142300934

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：RabbitMQ 高级特性——发送方确认
下一篇：无人机集群路径规划：雾凇优化算法（ rime optimization algorithm，RIME）求解无人机集群路径规划，提供MATLAB代码

电脑插入U盘，电脑显示新增了，但是双击却显示请将磁盘插入
`CHKDSK 无法供 RAW 驱动器使用` 表明内存卡的文件系统已损坏或丢失，当前处于 **RAW 文件系统** 状态。RAW 表示文件系统无法识别，可能由以下原因导致：
阅读更多2024-11-19
【论文阅读】InstructIR: High-Quality Image Restoration Following Human Instructions
图像恢复是一个基本问题，旨在从退化的图像中恢复出高质量的清晰图像。All-In-One 图像恢复模型能够利用退化特定的信息作为提示，引导恢复模型有效地恢复多种类型和不同程度的退化图像。本研究提出了首个
阅读更多2024-11-19
【Next】字体修改
next/font 包括任何字体文件的内置自动自托管。首先从 next/font/google 导入您想要使用的字体作为函数。（可以按住 ctrl 点进去 google 查看所有字体）然后导入该字体函
阅读更多2024-11-19
Springboot基于GIS的旅游信息管理系统
项目编号：springbootA100基于GIS的旅游信息管理系统是在旅游业迅速发展、旅游需求日益多样化的背景下应运而生的一套综合性信息管理平台，它通过整合旅游资源、提供实时信息、优化服务流程，旨在为
阅读更多2024-11-19
【gitlab】gitlabrunner部署
v /root/gitrunner/config:/etc/gitlab-runner \ ///gitlab-runner的配置目录，挂载在宿主机上方便修改,里面有config.toml配置文
阅读更多2024-11-19
【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）
在科技日新月异的今天，人工智能领域正以前所未有的速度发展，AIGC（人工智能生成内容）成为其中最耀眼的明珠。从其应用场景的不断拓展，到对各行业的深刻变革，AIGC 的影响力无处不在。本报告汇总洞察深入
阅读更多2024-11-19
面向 Java 程序员的 SQLite 替代品
以及 json/xml 格式的数据，反正你听说过和没听说过的数据源都被 esProc 做好了访问接口，只要简单的一两句代码就可以读写。不同的是，SPL 脚本是解释执行的，在修改后就会立即生效，不像存储
阅读更多2024-11-19
无人机电源,270V直流电源,如何供地面通电维护及启动用
270V 直流电源是为无人机地面启动设计的一款高性能电源设备，其输出功率150KVA，并且能够根据不同需求进行定制，输出电压范围在 1-310V 之间连续可调，同时还提供拖车式及柜式组装式等多种定制方
阅读更多2024-11-19
【taro react】 ---- 解决 input 、textarea 层级穿透
使用 alwaysEmbed 在安卓没有效果；使用 input 标签和 view 标签切换，存在抖动问题；使用 visibility: hidden 不能对 input 进行聚焦；使用 positio
阅读更多2024-11-19
提供一个集中式的数字媒体模板库，涵盖各类设计模板（如海报、视频片头、社交媒体帖子等），支持关键词、标签、风格等多维度搜索，帮助用户快速定位所需模板。
1. 模板库管理与搜索具体作用：提供一个集中式的数字媒体模板库，涵盖各类设计模板（如海报、视频片头、社交媒体帖子等），支持关键词、标签、风格等多维度搜索，帮助用户快速定位所需模板。使用方式：用户可通过
阅读更多2024-11-19

机器学习-点击率预估-论文速读-20240916

1. [经典文章] 特征交叉: Factorization Machines, ICDM, 2010

摘要

算法模型:

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

2. [经典文章] 兴趣建模: Deep Interest Network for Click-Through Rate Prediction, KDD, 2018

摘要

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

3. [每日新文] Intelligent maritime question-answering and recommendation system based on maritime vessel activity knowledge graph

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

4. [每日新文] MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction, RecSys, 2024.

摘要

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

相关文章