系统聚类的分类数确定——聚合系数法

🕗 发布于 2024-11-10 12:29 聚类分类数据挖掘

breast_cancer数据集分析——乳腺癌诊断

#读取乳腺癌数据
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

:Number of Instances: 569

:Number of Attributes: 30 numeric, predictive attributes and the class

:Attribute Information:
    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

    The mean, standard error, and "worst" or largest (mean of the three
    worst/largest values) of these features were computed for each image,
    resulting in 30 features.  For instance, field 0 is Mean Radius, field
    10 is Radius SE, field 20 is Worst Radius.

    - class:
            - WDBC-Malignant
            - WDBC-Benign

:Summary Statistics:

===================================== ====== ======
                                        Min    Max
===================================== ====== ======
radius (mean):                        6.981  28.11
texture (mean):                       9.71   39.28
perimeter (mean):                     43.79  188.5
area (mean):                          143.5  2501.0
smoothness (mean):                    0.053  0.163
compactness (mean):                   0.019  0.345
concavity (mean):                     0.0    0.427
concave points (mean):                0.0    0.201
symmetry (mean):                      0.106  0.304
fractal dimension (mean):             0.05   0.097
radius (standard error):              0.112  2.873
texture (standard error):             0.36   4.885
perimeter (standard error):           0.757  21.98
area (standard error):                6.802  542.2
smoothness (standard error):          0.002  0.031
compactness (standard error):         0.002  0.135
concavity (standard error):           0.0    0.396
concave points (standard error):      0.0    0.053
symmetry (standard error):            0.008  0.079
fractal dimension (standard error):   0.001  0.03
radius (worst):                       7.93   36.04
texture (worst):                      12.02  49.54
perimeter (worst):                    50.41  251.2
area (worst):                         185.2  4254.0
smoothness (worst):                   0.071  0.223
compactness (worst):                  0.027  1.058
concavity (worst):                    0.0    1.252
concave points (worst):               0.0    0.291
symmetry (worst):                     0.156  0.664
fractal dimension (worst):            0.055  0.208
===================================== ====== ======

:Missing Attribute Values: None

:Class Distribution: 212 - Malignant, 357 - Benign

:Creator:  Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian

:Donor: Nick Street

:Date: November, 1995

This is a copy of UCI ML Breast Cancer Wisconsin (Diagnostic) datasets.
https://goo.gl/U2Uwz2

Features are computed from a digitized image of a fine needle
aspirate (FNA) of a breast mass.  They describe
characteristics of the cell nuclei present in the image.

Separating plane described above was obtained using
Multisurface Method-Tree (MSM-T) [K. P. Bennett, "Decision Tree
Construction Via Linear Programming." Proceedings of the 4th
Midwest Artificial Intelligence and Cognitive Science Society,
pp. 97-101, 1992], a classification method which uses linear
programming to construct a decision tree.  Relevant features
were selected using an exhaustive search in the space of 1-4
features and 1-3 separating planes.

The actual linear program used to obtain the separating plane
in the 3-dimensional space is that described in:
[K. P. Bennett and O. L. Mangasarian: "Robust Linear
Programming Discrimination of Two Linearly Inseparable Sets",
Optimization Methods and Software 1, 1992, 23-34].

This database is also available through the UW CS ftp server:

ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/

.. dropdown:: References

  - W.N. Street, W.H. Wolberg and O.L. Mangasarian. Nuclear feature extraction
    for breast tumor diagnosis. IS&T/SPIE 1993 International Symposium on
    Electronic Imaging: Science and Technology, volume 1905, pages 861-870,
    San Jose, CA, 1993.
  - O.L. Mangasarian, W.N. Street and W.H. Wolberg. Breast cancer diagnosis and
    prognosis via linear programming. Operations Research, 43(4), pages 570-577,
    July-August 1995.
  - W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniques
    to diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994)
    163-171.

.. 乳腺癌数据集：

威斯康星州乳腺癌（诊断）数据集
--------------------------------------------

**数据集特征：**

：实例数： 569

属性数 30 个数字、预测属性和类

:属性信息：
    - 半径（从中心到周边各点距离的平均值）
    - 纹理（灰度值的标准偏差）
    - 周长
    - 面积
    - 平滑度（半径长度的局部变化）
    - 紧凑性（周长^2 / 面积 - 1.0）
    - 凹度（轮廓凹陷部分的严重程度）
    - 凹点（轮廓凹陷部分的数量）
    - 对称性
    - 分形维度（“海岸线近似值” - 1）

    平均值、标准误差和 “最差 ”或最大值（三个最差/最大值的平均值
    计算出每幅图像的这些特征的平均值、标准误差和 “最差 ”或最大值（三个最差/最大值的平均值）、
    得出 30 个特征值。 例如，字段 0 是平均半径，字段
    10 为半径 SE，字段 20 为最差半径。

    - 类别
            - WDBC-恶性
            - WDBC-良性

:统计摘要：

===================================== ====== ======
                                        最小值 最大值
===================================== ====== ======
半径（平均值）：                        6.981 28.11
纹理（平均值）：                         9.71 39.28
周长（平均值）：                        43.79 188.5
面积（平均值）：                        143.5 2501.0
平滑度（平均值）：                      0.053 0.163
密实度（平均值）：                      0.019 0.345
凹度（平均值）：                          0.0 0.427
凹点（平均值）：                          0.0 0.201
对称性（平均值）：                      0.106 0.304
分形维度（平均值）：                     0.05 0.097
半径（标准误差）：                      0.112 2.873          
纹理（标准误差）：                       0.36 4.885      
周长（标准误差）：                      0.757 21.98   
面积（标准误差）：                      6.802 542.2               
平滑度（标准误差）：                    0.002 0.031
紧凑性（标准误差）：                    0.002 0.135      
凹度（标准误差）：                        0.0 0.396      
凹点（标准误差）：                        0.0 0.053    
对称性（标准误差）：                    0.008 0.079         
分形维度（标准误差）：                  0.001 0.03  
半径（最差）：                          7.93 36.04
纹理（最差）：                         12.02 49.54
周长（最差）：                         50.41 251.2
面积（最差）：                         185.2 4254.0
平滑度（最差）：                       0.071 0.223
紧凑性（最差）：                       0.027 1.058
凹度（最差）：                           0.0 1.252
凹点（最差）：                           0.0 0.291
对称性（最差）：                       0.156 0.664
分形维度（最差）：                     0.055 0.208
===================================== ====== ======

:缺失属性值： 无

:类别分布：212 - 恶性，357 - 良性

:Creator：  William H. Wolberg 博士、W. Nick Street、Olvi L. Mangasarian

:Donor： 尼克-斯切特

:Date： 1995 年 11 月

这是 UCI ML 乳腺癌威斯康星（诊断）数据集的副本。
https://goo.gl/U2Uwz2

根据乳腺肿块的细针穿刺（FNA）数字化图像计算特征。
乳腺肿块的细针抽吸（FNA）的数字化图像计算得出的。 它们描述了
图像中细胞核的特征。

上述分离平面是通过
多面方法树（MSM-T）[K. P. Bennett，“通过线性规划构建决策树”。
通过线性规划构建决策树"。第四届
中西部人工智能与认知科学学会论文集》、
pp. 97-101, 1992]，这是一种使用线性规划来构建决策树的分类方法。
编程来构建决策树的分类方法。 相关特征
在 1-4 个特征和 1-3 个分离平面的空间内进行穷举搜索，选出相关特征。
特征和 1-3 个分离平面的空间中进行穷举搜索，选出相关特征。

实际用于获取三维空间中分离平面的线性规划
在三维空间中的分离平面的实际线性编程方法见以下文献：
[K. P. Bennett 和 O. L. Mangasarian：
"Robust Linear Robust Linear Programming Discrimination of Two Linearly Inseparable Sets"、
Optimization Methods and Software 1, 1992, 23-34]。

该数据库也可通过华盛顿大学计算机科学与技术系的 ftp 服务器获取：

ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/

.下拉菜单：： 参考文献

  - W.N. Street、W.H. Wolberg 和 O.L. Mangasarian. 核特征提取
    用于乳腺肿瘤诊断。IS&T/SPIE 1993 国际电子成像研讨会。
    电子成像： 科学与技术》，第 1905 卷，第 861-870 页、
    加利福尼亚州圣何塞，1993 年。
  - O.L. Mangasarian、W.N. Street 和 W.H. Wolberg。乳腺癌诊断和
    通过线性规划的预后。运筹学》，43（4），第 570-577 页、
    1995年7月-8月。
  - W.H. Wolberg、W.N. Street 和 O.L. Mangasarian。机器学习技术
    从细针抽吸物诊断乳腺癌。癌症通讯 77 (1994)
    163-171.

威斯康星州乳腺癌数据集简介

from sklearn import datasets

# 加载威斯康星州乳腺癌数据集
cancer_data = datasets.load_breast_cancer()

# 特征数据
X = cancer_data.data

# 目标变量
y = cancer_data.target

威斯康星州乳腺癌数据集是scikit-learn（sklearn）库中一个常用的内置数据集，用于分类任务。该数据集包含了从乳腺癌患者收集的肿瘤特征的测量值，以及相应的良性（benign）或恶性（malignant）标签。以下是对该数据集的简单介绍：

数据集名称：威斯康星州乳腺癌数据集（Breast Cancer Wisconsin Dataset）
数据集来源：数据集最初由威斯康星州医院的Dr. William H. Wolberg收集。
数据集特征：数据集包含30个数值型特征，这些特征描述了乳腺肿瘤的不同测量值，如肿瘤的半径、纹理、对称性等。
目标变量：数据集的目标变量是二分类的，代表肿瘤的良性（benign）或恶性（malignant）状态。良性表示肿瘤是非恶性的，恶性表示肿瘤是恶性的。
样本数量：数据集包含569个样本，其中良性样本357个，恶性样本212个。
数据集用途：该数据集被广泛用于分类任务、特征选择、模型评估等机器学习任务和实验中。

在使用sklearn库时，可以通过调用datasets.load_breast_cancer()函数加载威斯康星州乳腺癌数据集。加载后的数据集包含两个主要部分：data和target。data存储特征数据，target存储目标变量（标签）数据。

#读取乳腺癌数据
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target
#显示数据集
print(data.DESCR)
#显示数据dataframe结果
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df.head()
#写入csv文件
df.to_csv('breast_cancer.csv', index=False)

聚合系数法确定最优聚类数。

#使用聚合系数确定最佳聚类数
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
sil = []
for i in range(2,11):
    model = AgglomerativeClustering(n_clusters=i)
    y_pred = model.fit_predict(X)
    sil.append(silhouette_score(X, y_pred))
plt.plot(range(2,11), sil)
plt.show()

谱系图绘制


#根据最佳聚类数绘制树状图
from scipy.cluster.hierarchy import dendrogram, ward
model = AgglomerativeClustering(n_clusters=2)
    
y_pred = model.fit_predict(X)
linkage_array = ward(X)
dendrogram(linkage_array)
ax = plt.gca()
ax.set_xlabel("Sample index")
ax.set_ylabel("Cluster distance")
bounds = ax.get_ybound()
ax.plot(bounds, [40, 40], '--', c='k')
ax.plot(bounds, [5, 5], '--', c='k')
plt.show()

原文地址：https://blog.csdn.net/2301_76574743/article/details/143582314

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：5G NR gNB 逻辑架构及其功能拆分选项
下一篇：2024网鼎杯web1+re2 wp

基本定时器---内部时钟中断
STM32单片机的基本定时器介绍
阅读更多2024-11-15
高效稳定！新加坡服务器托管方案助力企业全球化布局
在全球化的商业环境中，企业对于高效、稳定的服务器托管方案的需求日益迫切。作为亚洲的服务器托管中心，新加坡凭借其独特的地理位置、稳定的政治环境、先进的科技设施以及开放的市场政策，为企业提供了理想的服务器
阅读更多2024-11-15
我要学kali-linux之shell脚本编程1
学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无
阅读更多2024-11-15
【网络安全】公钥基础设施
公钥基础设施（Public Key Infrastructure，简称PKI）是一种基于公钥密码学的系统，它提供了一套完整的解决方案，用于管理和保护通过互联网传输的信息。PKI的核心功能包括密钥管理、
阅读更多2024-11-15
PGMP-练练03 ❥(^_-)
由于项目集负责向组织提供收益，因此项目集经理、项目集团队成员、项目经理和团队成员以及其他项目集利益相关者都在收益管理中具有关键角色和责任。项目集 A 正在实现计划收益，然而项目集 B 的项目集经理刚
阅读更多2024-11-15
【c++笔试强训】（第八篇）
其中，有个游戏是这样的：首先，让 n 个小朋友们围成一个大圈，小朋友们的编号是0~n-1。然后，随机指定一个数 m ，让编号为0的小朋友开始报数。每次喊到 m-1 的那个小朋友要出列唱首歌，然后可以在
阅读更多2024-11-15
C语言之中缀表达式转换为波兰表达式、逆波兰表达式
C语言之中缀表达式转换为波兰表达式、逆波兰表达式，通过将运算符号压入栈、弹出栈等操作实现普通（中缀）表达式和前缀后缀（波兰、逆波兰）表达式之间的转换。
阅读更多2024-11-15
curl 安装最新版
配置编译参数：/usr/local为指定的安装路径，--with-ssl表示需要支持ssl。为了使curl能支持ssl功能，需要提前安装openssl，执行下列指令进行安装。库文件在对应的lib路径，
阅读更多2024-11-15
Conda环境与Ubuntu环境移植详解
迁移Conda环境是数据科学和机器学习开发中的一项重要任务。通过YAML文件迁移或直接复制环境文件夹的方法，可以在不同设备间无缝切换Conda环境，确保项目依赖的一致性。在进行环境迁移时，需要注意CU
阅读更多2024-11-15
Java面向对象高级2
感觉就是有时候简化代码用的？
阅读更多2024-11-15

系统聚类的分类数确定——聚合系数法

breast_cancer数据集分析——乳腺癌诊断

威斯康星州乳腺癌数据集简介

聚合系数法确定最优聚类数。

谱系图绘制

相关文章