自学内容网 自学内容网

2024年第三届钉钉杯大学生大数据挑战赛初赛赛题浅析

一图流

题目

涉及模型

所需背景知识

综合难度

题量

题目复杂度

初赛A:烟草营销案例数据分析

ARIMA, SARIMA, Prophet, 线性回归, LSTM, 随机森林, XGBoost

时间序列分析, 机器学习, 数据预处理, 统计学

中等

3个主要问题

涉及时间序列预测和集成学习模型

初赛B:医疗门诊患者及用药数据案例分析

RNN, LSTM, 线性回归, SVM, 集成学习(如Stacking, Blending)

时间序列分析, 机器学习, 数据预处理, 医疗数据分析

中等偏上

3个主要问题

涉及时间序列预测和集成学习模型, 医疗数据复杂性较高

AB题综合难度不大,难度可以视作0.4个国赛,题量可以看作0.35个国赛题量。适合于国赛前队伍练手,队伍内磨合。竞赛获奖率50%,八月底出成绩,参赛人数3000队左右。

A:烟草营销案例数据分析

1. 问题背景

烟草是我国重要的国家税收和财政收入来源。国家对烟草实行专卖制度,对烟草及其制品的生产和流通进行严格管理。数据来自某地区近些年多种品牌的烟草销售情况,已做脱敏和数据变换处理。

2. 解决问题

预测分析

1. 销量预测:

   - 使用历史销售数据构建两个不同类型的时间序列预测模型,分别对A1、A2品牌的未来销量进行预测。

   - 模型选择可以包括ARIMA模型、SARIMA模型、Prophet模型等。

2. 销售金额预测:

   - 使用历史销售数据构建两个不同类型的时间序列预测模型,分别对A3、A4品牌的销售金额进行预测。

   - 模型选择可以包括线性回归模型、LSTM神经网络模型等。

3. 集成学习:

   - 在上述分别对销量及销售金额预测模型的基础上,构建集成学习模型,实现对A5品牌的销量和销售金额的联合预测。

   - 可以考虑集成不同的预测模型,如随机森林、XGBoost等,以提高预测精度。

数据处理与模型选择

- 数据预处理:处理缺失值、异常值,进行数据归一化。

- 特征选择:选择影响销量和销售金额的重要特征,进行特征工程。

- 模型评估:使用准确率(Accuracy)、F1-score、AUC面积等指标评估模型性能。

B:医疗门诊患者及用药数据案例分析

1. 问题背景

智慧医疗的出现解决了传统医疗管理系统的不完善等问题。数据来自某医院近些年门诊医疗数据,已做脱敏和数据变换处理。

2. 解决问题

预测分析

1. 康复医学科一病房门诊收入预测:

   - 以日期、患者人数、药品总收入、当日病房收入为基础输入数据,构建两个不同类型的时间序列预测模型,分别预测门诊收入数据。

   - 模型选择可以包括RNN、LSTM等神经网络模型。

2. 康复医学科二病房门诊收入预测:

   - 以相同的输入数据,构建两个不同类型的时间序列预测模型,分别预测门诊收入数据。

   - 模型选择可以包括线性回归、支持向量机(SVM)等。

3. 集成学习:

   - 结合上述两个模型,构建集成学习模型,针对康复医学科三病房,预测门诊收入数据。

   - 可以考虑使用集成学习方法,如Stacking、Blending等,以提高预测准确性。

数据处理与模型选择

- 数据预处理:处理缺失值、异常值,进行数据归一化。

- 特征选择:选择影响门诊收入的重要特征,进行特征工程。

- 模型评估:使用准确率(Accuracy)、F1-score、AUC面积等指标评估模型性能。


原文地址:https://blog.csdn.net/qq_33690821/article/details/140712960

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!