R语言医学数据分析实践-糖尿病风险预测实战

🕗 发布于 2024-10-19 05:28 r语言数据分析 开发语言

6.9.1 数据集背景

糖尿病是一种常见且严重的慢性疾病，对患者的健康有重大影响。为了帮助预测糖尿病的发生，我们可以利用机器学习算法和医疗数据进行分析。

原始数据来自美国加利福尼亚大学UGI机器学习数据库中的PimaIndianDiabetes数据集。该数据集的研究对象为亚利桑那州凤凰城附近的皮马印第安人，共包含768条数据记录，数据项包括８个医学预测变量和１个结果变量，如图6-14所示。具体属性包括：怀孕次数（Pregnancies）、血糖浓度（Glucose）、年龄（Age）、血压（BloodPressure）、肱三头肌皮脂厚度（SkinThickness）、胰岛素含量（Insulin）、身体质量指数（BMI）、糖尿病遗传系数（DiabetesPedigreeFunction）和结果（OutCome，1代表患糖尿病，0代表未患糖尿病）。在PimaIndianDiabetes数据集中，Outcome为1的有268例，即糖尿病患者人数；Outcome为0的有500例，即未患糖尿病的人数。

图6-14

本实战的目的是基于数据集中确定的诊断测量指标，来预测患者是否患有糖尿病。数据集中包含的所有患者都是年龄至少21周岁的皮马印第安女性。

首先加载必需的R包：

#加载必需的R包
library(tidyverse)
library(caret)
library(corrplot)

tidyverse包实际上是一些常用R包的集合，包括ggplot2（可视化）、dplyr（数据操作）、tidyr（数据）对齐、tibble（更现代的数据框）、stringr（字符串操作）。加载tidyverse包后，可以直接使用其余包中的函数。

R语言的caret机器学习包对于想要精通机器学习的人来说是必不可少的，它涵盖了数据预处理、数据分割、特征选择、模型训练和调参以及强大的可视化等方面。通过caret包，用户可以方便地实现机器学习的各个阶段，从而提高工作效率和模型性能。

corrplot包提供了一个用于相关矩阵的可视化探索工具。

下面首先对数据进行一些基本的探索性分析，R代码如下：

#查看数据集的前几行
head(diabetes_data)
#概览数据集的统计摘要
summary(diabetes_data)

代码运行结果如图6-15所示。在R语言中，summary()函数是一个重要的统计分析函数，用于计算一维统计特征并生成摘要。在R语言的统计分析中，summary()函数常用于数据预处理和探索性分析，以获取描述性统计量。它可以提供最小值、最大值、四分位数等信息。

图6-15

绘制特征之间相关性矩阵的R代码如下：

correlation_matrix <- cor(diabetes_data[, -9])
corrplot(correlation_matrix, method = "color")

代码的运行结果如图6-16所示。

图6-16

6.9.2 数据预处理

在建立预测模型之前，我们需要对数据进行清洗处理。通常，我们需要处理缺失值和标准化特征等。对于缺失值，有两种常见的处理方式：删除包含缺失值的行和填充缺失值。在本例中，数据集已经是干净的且没有缺失值，因此不需要处理缺失值。对于特征，我们使用factor()函数将diabetes_data$Outcome转换为因子变量。通过将糖尿病标签转换为因子变量，可以确保在逻辑回归模型中正确处理分类变量，使模型能够理解糖尿病标签作为分类变量的含义，并进行相应的预测。

接下来，我们可以将数据集分为训练集和测试集，以便在建立预测模型时进行模型评估。R代码如下：

#设置随机种子以保证结果的可重复性
set.seed(123456)
diabetes_data$Outcome <- factor(diabetes_data$Outcome)
#将数据集分为训练集和测试集（70%训练集，30%测试集）
train_index <- createDataPartition(diabetes_data$Outcome, p = 0.7, list = FALSE)
train_data <- diabetes_data[train_index, ]
test_data <- diabetes_data[-train_index, ]

6.9.3 模型建立

现在，我们可以选择适当的机器学习算法来建立糖尿病预测模型。逻辑回归的另一个重要作用是基于概率来判定类别。因此，在本例中，我们将使用逻辑回归算法。R代码如下：

#创建逻辑回归模型
logistic_model <- train(
  Outcome~ .,
  data = train_data,
  method = "glm",
  family = "binomial"
)

在这里，我们构建了逻辑回归模型，“Outcome~ .”指定了目标变量（Outcome）与所有其他变量之间的关系，其中“.”表示使用除了目标变量之外的所有其他变量；“data = train_data”指定了模型使用的训练数据集；“method = "glm"”指定了使用的建模方法，即逻辑回归模型；family参数指定了响应分布为binominal（二项式）。逻辑回归模型是一种广义线性模型，用于建模二分类问题。

在测试集上进行预测的R代码如下：

predictions <- predict(logistic_model, test_data)

6.9.4 模型评估

最后，我们可以评估预测模型的性能，以了解其在糖尿病预测方面的准确性。输出混淆矩阵的R代码如下：

confusion_matrix <- confusionMatrix(predictions, test_data$Outcome)
print(confusion_matrix)

代码的运行结果如图6-17所示。

图6-17

输出模型的准确率、敏感度和特异度的R代码如下：

accuracy <- confusion_matrix$overall['Accuracy']
sensitivity <- confusion_matrix$byClass['Sensitivity']
specificity <- confusion_matrix$byClass['Specificity']
print(paste("准确率：", accuracy))
print(paste("敏感度：", sensitivity))
print(paste("特异度：", specificity))

代码的运行结果如图6-18所示。

图6-18

我们对测试集进行了预测，并评估了模型的性能。通过混淆矩阵和评估指标，我们可以得到模型的准确率、敏感度和特异度等性能指标，从而对模型的预测能力有一个全面的了解。

以上是基于PimaIndians糖尿病数据集的糖尿病预测分析的源代码和步骤。通过这些步骤，我们可以利用机器学习算法对糖尿病进行预测，从而提供一定的决策支持和指导。注意，这里的代码和步骤只是一个示例，实际应用中需要根据具体情况进行调整和改进。

原文地址：https://blog.csdn.net/brucexia/article/details/143035163

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PyQt入门指南二十一 QProgressBar进度条组件实现方法
下一篇：【图像去噪】论文精读：HINet: Half Instance Normalization Network for Image Restoration

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

R语言医学数据分析实践-糖尿病风险预测实战

6.9.1 数据集背景

6.9.2 数据预处理

6.9.3 模型建立

6.9.4 模型评估

相关文章