PyTorch广告点击率预测（CTR）利用深度学习提升广告效果

🕗 发布于 2025-01-23 14:54 深度学习 pytorch 人工智能 ctr python

广告点击率预测（CTR，Click-Through Rate Prediction）是在线广告领域中的重要任务，它帮助广告平台根据用户的兴趣预测广告的点击概率，从而提高广告投放的效果和广告商的收益。随着深度学习的快速发展，传统的广告点击率预测方法已逐渐被基于神经网络的模型所取代，深度学习在此领域的应用带来了显著的提升。

本文将通过实现一个简单的深度学习广告点击率预测模型，介绍如何利用PyTorch构建一个广告点击率预测系统。

广告点击率预测问题

广告点击率预测问题可以描述为：给定一组广告和用户的特征，预测用户点击该广告的概率。这类任务通常是一个二分类问题——用户点击广告与否，标签为1或0。

在广告点击率预测中，输入特征通常包括用户的历史行为、广告的特征（如广告类型、广告主题、展示位置等）以及用户的环境特征（如时间、设备等）。模型的任务是从这些特征中学习到有效的信息，并做出准确的预测。

数据集结构

为了实现广告点击率预测，我们假设数据集的结构如下：

用户ID	广告ID	时间戳	用户年龄	用户性别	广告类型	展示位置	点击标签
1	1001	1609459200	25	0	视频	首页	1
2	1002	1609459260	30	1	图片	侧边栏	0
3	1003	1609459320	22	0	视频	首页	1
…	…	…	…	…	…	…	…

用户ID：表示用户的唯一标识符。
广告ID：表示广告的唯一标识符。
时间戳：表示广告展示的时间。
用户年龄：表示用户的年龄。
用户性别：表示用户的性别，0为女性，1为男性。
广告类型：表示广告的类型（如视频广告、图片广告等）。
展示位置：表示广告展示的页面位置（如首页、侧边栏等）。
点击标签：表示用户是否点击广告，1表示点击，0表示未点击。

在实际应用中，数据集会非常庞大，并且包含多种类型的特征。为了让模型能够处理这些特征，我们通常需要将分类特征（如性别、广告类型等）进行数值化或独热编码。

广告点击率预测模型的构建

1. 数据集准备

首先，我们需要一个包含广告和用户特征的数据集。这里我们假设数据集中包含多个特征列，最后一列为标签（点击与否）。我们将使用 pandas 来加载数据，利用 train_test_split 将数据分为训练集和测试集。

import pandas as pd
from sklearn.model_selection import train_test_split

# 加载数据
def load_data(file_path):
    df = pd.read_csv(file_path)
    features = df.iloc[:, :-1].values  # 所有特征
    labels = df.iloc[:, -1].values     # 最后一列标签
    return features, labels

2. 构建数据加载器

我们使用PyTorch的 Dataset 类来构建自定义数据集，并利用 DataLoader 来批量加载数据。这样可以更高效地进行模型训练。

from torch.utils.data import Dataset, DataLoader

class CTRDataset(Dataset):
    def __init__(self, features, labels):
        self.features = torch.tensor(features, dtype=torch.float32)
        self.labels = torch.tensor(labels, dtype=torch.float32)
    
    def __len__(self):
        return len(self.features)
    
    def __getitem__(self, idx):
        return self.features[idx], self.labels[idx]

3. 构建深度学习模型

在本例中，我们使用一个简单的多层感知机（MLP）模型。该模型由三个全连接层组成，通过ReLU激活函数进行非线性变换，最终输出一个介于0和1之间的概率值。

import torch.nn as nn

class CTRModel(nn.Module):
    def __init__(self, input_dim):
        super(CTRModel, self).__init__()
        self.fc1 = nn.Linear(input_dim, 128)  # 第一层
        self.fc2 = nn.Linear(128, 64)         # 第二层
        self.fc3 = nn.Linear(64, 1)           # 输出层
        self.sigmoid = nn.Sigmoid()           # 输出概率
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))  # 激活函数 ReLU
        x = torch.relu(self.fc2(x))  # 激活函数 ReLU
        x = self.fc3(x)              # 输出层
        return self.sigmoid(x)       # 预测点击率概率

4. 训练与评估

我们使用二元交叉熵损失函数（BCELoss）和Adam优化器来训练模型。在每个epoch结束后，我们评估模型在测试集上的准确度。

import torch.optim as optim

# 定义训练过程
def train(csv_file, num_epochs=10, lr=0.001):
    features, labels = load_data(csv_file)
    x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

    # 创建数据加载器
    train_dataset = CTRDataset(x_train, y_train)
    test_dataset = CTRDataset(x_test, y_test)
    train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
    test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

    # 初始化模型、损失函数和优化器
    input_dim = features.shape[1]
    model = CTRModel(input_dim)
    criterion = nn.BCELoss()  # 二元交叉熵损失函数
    optimizer = optim.Adam(model.parameters(), lr)

    # 训练过程
    model.train()
    for epoch in range(num_epochs):
        running_loss = 0.0
        for inputs, labels in train_loader:
            optimizer.zero_grad()
            outputs = model(inputs).squeeze(1)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader):.4f}')
    
    # 训练完成后，评估模型
    evaluate(model, test_loader)

# 评估过程
def evaluate(model, val_loader):
    model.eval()  # 设置为评估模式
    correct = 0
    total = 0
    with torch.no_grad():
        for inputs, labels in val_loader:
            outputs = model(inputs).squeeze(1)
            predicted = (outputs >= 0.5).float()  # 将输出转化为0或1
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    
    accuracy = correct / total
    print(f'Accuracy: {accuracy:.4f}')

总结

通过这个简单的深度学习模型，我们实现了一个广告点击率预测系统。利用PyTorch，我们可以非常方便地构建神经网络模型，训练并进行评估。通过不断优化模型架构和特征工程，我们有可能进一步提升广告点击率的预测准确度。

随着广告行业的不断发展，点击率预测的需求将会越来越大，借助深度学习的强大能力，我们可以不断优化广告投放策略，达到更加精确的预测结果。希望本文的内容能为你搭建广告点击率预测系统提供帮助。

原文地址：https://blog.csdn.net/qq233325332/article/details/145302118

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：如何统计字符串中单词出现的次数
下一篇：Spring Boot整合Thymeleaf、JDBC Template与MyBatis配置详解

【玩转全栈】----基于ModelForm完成用户管理页面
在学完前面的部门管理案例后，自己独立写出个用户管理应该不难，基本逻辑和大致代码都和前面一样，大家可以自己试试。
阅读更多2025-01-23
深圳云盟智慧科技公司智慧停车管理系统GetVideo存在SQL注入漏洞
深圳云盟智慧科技公司开发的智慧停车管理系统，结合云平台和智能硬件，提供全方位的停车管理解决方案。系统可以覆盖停车场的入口、出口、车位监控、停车计费等功能，支持用户通过移动端进行预约、支付等操作，提升停
阅读更多2025-01-23
小盒科技携手体验家，优化智能教育服务体验，打造在线教育新高度
「小盒科技」携手体验家，通过基于关键场景的触点体验监测，实时收集用户反馈，快速响应并融入产品优化，进一步打磨每一个教育环节，从课程设计到交互界面，力求让用户感受到无缝衔接的学习体验，实现覆盖用户全生命
阅读更多2025-01-23
OpenAI战略转型：从安全研发到市场竞争
OpenAI正经历从安全导向向市场竞争导向的战略转型，通过开发类似《Her》电影中的AI助手等产品来满足用户需求。在技术层面，其GPT-4模型在多模态处理方面取得重大突破，能够实时处理文本、音频等多种
阅读更多2025-01-23
Vue3+Element Plus 实现 el-table 表格组件滚动是否触底监听判断
一种在 Vue3+Element Plus 项目实现 el-table 中监听竖向滚动是否触底判断的方法
阅读更多2025-01-23
Scala语言的编程范式
通过以上的讨论，我们可以看到，Scala语言汇聚了面向对象编程和函数式编程的优点，使得开发者能够灵活地选择最适合当前任务的编程范式。无论是在处理复杂的逻辑时使用函数式编程，还是在组织大型应用时使用面向
阅读更多2025-01-23
【详解】神经网络的发展历程
本文将详细描述神经网络的发展历程
阅读更多2025-01-23
Harmonyos之多目标构建产物实践
多目标产物在HarmonyOS系统中的应用主要体现在软件开发与分发方面，特别是针对不同用户群体、不同业务场景的需求进行定制化开发。多目标产物为开发者提供了更加灵活和高效的开发方式，使得应用能够更好地适
阅读更多2025-01-23
HarmonyOS Next 应用UI生成工具介绍
UI Generator用于快速生成可编译、可运行的HarmonyOS UI工程，支持基于已有UI布局文件（XML），快速生成对应的HarmonyOS UI代码，其中包含HarmonyOS基础工程、页
阅读更多2025-01-23
GitCode 助力 AutoTable：共创 MyBatis 生态的自动表格管理新篇章
在 MyBatis Flex 的兼容性拓展方面，AutoTable 拥有 2 位贡献者和 1 位核心开发者的专注投入，已完成 2 次代码合并，并接受了来自社区的 5 个 Issue，团队迅速解决了其中
阅读更多2025-01-23