9. 机器学习汇总（数据、模型、流程、心血管疾病预测）

🕗 发布于 2024-07-24 13:24 机器学习 人工智能

1. 数据

表格类数据 tabular data
互相独立，互不影响
离散型数据的数字化：
- zero index（状态很少时）
  - 0,1,2,…, N-1
- one - hot（状态比较多时）
  - 1个特征变N个特征
  - [0, 0, 1, …, 0]
连续型数据的数字化问题：
- 直接使用原始数据即可
预处理：
- 中心化：
  - 以零为中心，正负都有
  - x - mu
- 归一化：
  - 把数据变为[0, 1]
  - (x - _min) / (_max - _min)
- 规范化：
  - 减去均值，除以标准差
  - (x - mu) / sigma

2. 模型

分类：
- KNN（K紧邻）
  - 简单，好理解
  - 规则+数据（非典型人工智能算法）
  - 惰性计算
  - 训练时很快
  - 预测时很慢
  - 准确率中等
- 高斯朴素贝叶斯（GNB）
  - 本质是利用了条件概率/贝叶斯公式
  - 计算每个类别的概率，然后选择最大的
  - 前提假设：
    - 特征互相条件独立
    - 满足高斯分布
    - 使用概率密度函数的值代替概率
  - 训练时很快
  - 预测时很快
  - 准确率偏低
- 决策树：
  - 利用信息论中的熵的内涵
  - 模型训练的过程，就是降低熵（混乱程度）的过程
  - 分类问题：
    - 信息熵（标准计算）
      - -[p1log(p1) + p2log(p2) + … pn*log(pn)]
    - 基尼系数（工程化简）
      - [p1*(1-p1) + p2*(1-p2) + … + pn*(1-pn)]
  - 回归问题：
    - 方差
  - 剪枝算法：
    - 样本越多，越容易构建出一棵很复杂的树！
    - 如果不加限制，决策树会一直分裂到底，容易过拟合，层数很深
    - 策略：限制最大深度；每次分裂的最小样本数等
    - 好处：算法可以很复杂，也可以很简单！！！
    - 这是集成学习的基础！！！
  - 训练时速度中等
  - 推理时速度较快
  - 解释性比较好，树的每一次判断都清晰可见
  - 可以对特征进行重要性排序
- 支持向量机
  - 适合于：少样本、少特征！
  - 最强个体！
  - 把事儿办了 VS 把事儿办好
  - 低维空间分不开的数据，映射到高纬分开！
  - 训练时：很慢！
  - 推理时：很慢！
  - 准确率：很好！
- 逻辑回归：
  - 属于深度学习！
  - 二分类算法！
  - 看上去非常二，实际上很重要！
  - 打分函数！
  - sigmoid概率模拟
- 随机森林：
  - 集成学习！！！
  - base estimator：
    - 决策树
  - 随机：
    - 行级随机（对样本进行了随机采样）
    - 列级随机（最多使用了根下N的特征）
  - 森林：
    - 多棵决策树构成（默认：100棵）
  - Bagging + Voting 的融合体
  - 训练时，速度比较快！
  - 测试时，速度比较快！
  - 准确率：比较好！
- 其它集成学习：
  - AdaBoost
  - GradientBoost
  - XGBoost
  - LightGBM
  - …
回归：
- KNN
- 决策树
- 线性回归
- 支持向量机
- 随机森林
- 集成学习！！！
聚类：
- KMeans K均值算法
降维：
- PCA 主成分分析法

3. 流程

分析问题，搞定输入和输出；
- 输入：哪些特征？如何数字化？
- 输出：分类？回归？
根据输入和输出，构建数据集！
遴选一种算法，完成输入到输出的映射！
模型评估、部署、上线应用！

4. 代码（预测心血管疾病）

4.0 读入数据，数据规范化处理

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import numpy as np
import time

# 读取数据
X=[]
y=[]
file_name='./心血管疾病数据集.csv'
with open(file = file_name,mode='r',encoding='utf8') as f:
    line_first = np.array(f.readline().strip().split(','))
    for line in f:  
        if line:
            line = f.readline().strip().split(',')
            X.append(line[:-1])
            y.append(line[-1])

# 将数据转为numpy数组
X=np.array(X)
y=np.array(y)

# 把所有数据都转为float类型
X=X.astype(float)
y=y.astype(float)
# 删掉第1列id
X=X[:,1:]

# 切分数据
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2)

# 数据预处理（规范化）
_mean = X_train.mean(axis=0)
_std = X_train.std(axis=0)
X_train = (X_train-_mean)/(_std+1e-9)
X_test = (X_test-_mean)/(_std+1e-9)

4.1 KNN

"""
    测试1：KNN
"""
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5)
# 取一个时间戳
start_fit = time.time()
knn.fit(X=X_train, y=y_train)
# 取一个时间戳
start_predict = time.time()
y_pred = knn.predict(X=X_test)
# 取一个时间戳
stop_predict = time.time()
# 评估
acc = ( y_pred== y_test).mean()

# 打印结果
print(f"""KNN: 
 --> 训练耗时：{start_predict-start_fit} 秒；
 --> 推理耗时：{stop_predict-start_predict} 秒；
 --> 准确率：{acc} ;""")

KNN:
–> 训练耗时：0.04751253128051758 秒；
–> 推理耗时：1.3453574180603027 秒；
–> 准确率：0.6402857142857142 ;

4.2 高斯朴素贝叶斯

"""
    测试2：高斯朴素贝叶斯
"""
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
# 取一个时间戳
start_fit = time.time()
gnb.fit(X=X_train, y=y_train)
# 取一个时间戳
start_predict = time.time()
y_pred = gnb.predict(X=X_test)
# 取一个时间戳
stop_predict = time.time()
# 评估
acc = ( y_pred== y_test).mean()

# 打印结果
print(f"""GNB: 
 --> 训练耗时：{start_predict-start_fit} 秒；
 --> 推理耗时：{stop_predict-start_predict} 秒；
 --> 准确率：{acc} ;""")

GNB:
–> 训练耗时：0.009502649307250977 秒；
–> 推理耗时：0.0010018348693847656 秒；
–> 准确率：0.5931428571428572 ;

4.3 决策树

"""
    测试3：决策树
"""
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier()
# 取一个时间戳
start_fit = time.time()
dtc.fit(X=X_train, y=y_train)
# 取一个时间戳
start_predict = time.time()
y_pred = dtc.predict(X=X_test)
# 取一个时间戳
stop_predict = time.time()
# 评估
acc = ( y_pred==y_test).mean()

# 打印结果
print(f"""DTC: 
 --> 训练耗时：{start_predict-start_fit} 秒；
 --> 推理耗时：{stop_predict-start_predict} 秒；
 --> 准确率：{acc} ;""")

DTC:
–> 训练耗时：0.11947154998779297 秒；
–> 推理耗时：0.002510547637939453 秒；
–> 准确率：0.6367142857142857 ;

4.4 随机森林

"""
    测试4：随机森林
"""
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()
# 取一个时间戳
start_fit = time.time()
rfc.fit(X=X_train, y=y_train)
# 取一个时间戳
start_predict = time.time()
y_pred = rfc.predict(X=X_test)
# 取一个时间戳
stop_predict = time.time()
# 评估
acc = ( y_pred==y_test).mean()

# 打印结果
print(f"""RFC: 
 --> 训练耗时：{start_predict-start_fit} 秒；
 --> 推理耗时：{stop_predict-start_predict} 秒；
 --> 准确率：{acc} ;""")

RFC:
–> 训练耗时：3.7813894748687744 秒；
–> 推理耗时：0.18322372436523438 秒；
–> 准确率：0.715 ;

4.5 支持向量机

"""
    测试5：支持向量机
"""
from sklearn.svm import SVC
svc = SVC()
# 取一个时间戳
start_fit = time.time()
svc.fit(X=X_train, y=y_train)
# 取一个时间戳
start_predict = time.time()
y_pred = svc.predict(X=X_test)
# 取一个时间戳
stop_predict = time.time()
# 评估
acc = ( y_pred==y_test).mean()

# 打印结果
print(f"""SVC: 
 --> 训练耗时：{start_predict-start_fit} 秒；
 --> 推理耗时：{stop_predict-start_predict} 秒；
 --> 准确率：{acc} ;""")

SVC:
–> 训练耗时：22.884344339370728 秒；
–> 推理耗时：10.314218997955322 秒；
–> 准确率：0.7188571428571429 ;

原文地址：https://blog.csdn.net/weixin_38566632/article/details/140627701

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：从等保测评看行业安全趋势：洞察与预测
下一篇：axios在vue中的使用

推荐系统与大模型
目前大模型在推荐系统取得巨大进展的同时也上主要一些的问题。主要有以下三点。1. Position Bias.在推荐系统的生成语言建模范式中，用户行为序列和推荐候选序列等各种信息以文本序列描述的形式输入
阅读更多2024-11-19
element-ui】使用el_upload上传文件无法动态修改action
问题：最近在使用el_upload上传文件时，发现无法动态修改action的值，进行提交时，caseId2还是默认值null。原因：el-upload的先执行上传，后执行action里的响应，也就是赋
阅读更多2024-11-19
JavaScript 如何获取本机IP地址
获取本机IP地址是前端工程师经常需要处理的问题。JavaScript 有几种方法可以获取客户端的IP地址。下面是三种获取本机IP的方法。
阅读更多2024-11-19
如何用 JavaScript 复制到剪贴板
以上就是几种在 JavaScript 中实现文本复制到剪贴板的方法。随着技术的发展，建议尽量使用最新的异步剪贴板 API，但为了兼容性，可以结合使用方法。希望本文能够帮助你更好地理解和应用这些 API
阅读更多2024-11-19
【第29章】MyBatis-Plus之分页插件
的分页插件提供了强大的分页功能，支持多种数据库，使得分页查询变得简单高效。属性名类型默认值描述overflowbooleanfalse溢出总页数后是否进行处理maxLimitLong单页分页条数限制d
阅读更多2024-11-19
weixin-java-miniapp 微信小程序登陆
1. 用户在小程序中选择使用微信授权登录功能。2. 小程序调用 `` 接口，向发起登录请求。3. 微信服务器验证小程序的合法性，如果合法，会返回一个。4. 小程序。5. 后台服务器接收到 **code
阅读更多2024-11-19
都2023年了，Servlet还有必要学习吗？一文带你快速了解Servlet
不得不说，Servlet 确实是一门古老的技术了，现在很少有公司直接使用 Servlet 来写项目了，大家都在用 SpringMVC-Spring-MyBatis / SpringBoot 做开发了，
阅读更多2024-11-19
掌握Java中集合的交集与并集操作
本文还有配套的精品资源，点击获取简介：集合操作是编程中的基础任务，涉及找出多个集合的共有元素（交集）和所有不同元素的总和（并集）。本文介绍如何在Java中利用 HashSet 和 St
阅读更多2024-11-19
Java 环境配置——Java 语言的安装、配置、编译与运行
正确配置 Java 开发环境是进行 Java 开发的第一步。通过本文的详细介绍，读者应能够在不同操作系统上安装和配置 JDK，并熟练编写、编译和运行 Java 程序。随着技术的发展，Java 生态系统
阅读更多2024-11-19
java 配置多数据源
mysql和clickhouse多数据源配置。
阅读更多2024-11-19