原始研究的文章

前面。Artif。智能。,2023年2月06
秒。医学和公共卫生
卷5 - 2022 | https://doi.org/10.3389/frai.2022.1055294

Qluster:一个易于实现的通用工作流健壮的集群的健康数据

西里尔Esnault ¹ ^*

梅丽莎我踏¹

波林Guilmin¹

Jean-Daniel Zucker ^2、3

¹Quinten,巴黎,法国
²Bondy UMMISCO巴黎索邦大学,太少了,,法国
³巴黎索邦大学、INSERM NUTRIOMICS,巴黎,法国

探索健康数据的聚类算法可以更好地描述感兴趣的人群寻求sub-profiles组成。这因此加强医学知识,无论是对疾病或有针对性的人口在现实生活中。然而,与许多准则存在的所谓的常规biostatistical方法,科学数据的标准化方法在临床研究仍然是一个小话题讨论。这导致一个重大变化数据科学项目的执行,是否在算法方面,设计方法的可靠性和可信度。吝啬的和明智的选择的路径的算法和实现在每个阶段,本文提出了Qluster,实际工作流执行聚类任务。的确,这工作流程使得(1)genericity之间达成妥协的应用程序(例如可用在小或大数据、连续、分类或混合变量,在高维数据库),(2)易于实现(需要几包,一些算法,一些参数,…),和(3)鲁棒性(例如,使用经过验证的算法和健壮的包,评估集群的稳定性,噪声和多重共线性的管理)。此工作流可以很容易地自动化和/或经常应用于广泛的聚类项目。它可能是有用的经验几乎为零的数据科学家使数据聚类更容易和更健壮,和更有经验数据的科学家们正在寻找一个简单的和可靠的解决方案经常执行初步数据挖掘。的合成文献数据聚类以及科学理论支持提议也提供了工作流程。最后,详细的工作流应用程序提供了一个具体的用例,以及一个实际的讨论数据科学家。 An implementation on the Dataiku platform is available upon request to the authors.

1。介绍

重视公共卫生健康数据,研究,和医学的发展。任何数据相关的健康状况,结果,和个人或人群的生活质量。健康数据可以收集持续的病人护理过程中(例如,索赔数据、医疗记录、行政数据)或作为一个正式的临床试验项目的一部分。

健康数据分析,聚类方法是一个主要工具,寻找口袋内同质异构的人口,发现不同疾病表型,阶段的疾病或疾病的变化结果(弗兰提et al ., 2022)。精确了解病人患有疾病的集群最终允许的整体改进他们的护理(Windgassen et al ., 2018)。在这方面,有大量文献讨论聚类任务,选择适当的聚类方法是(Obembe Oyelade, 2019),大数据的聚类算法(Shirkhorshidi et al ., 2014),聚类方法定性/混合数据(亨尼希和廖,2013),评估聚类质量的方法,稳定,集群的数量(兰格et al ., 2004;Nietto和玛丽亚,2017),或者进行深入比较统计分析方法(耆那教的,2010;Nagpal et al ., 2013)。

缤纷的方法很难对大多数数据科学家选择和系统应用的一种方法完成,相当快,和满意的鲁棒性的角度对临床他们试图回答的问题。数据科学家的确面临着一个非常广泛的选择的算法及其实现(包括R和Python),尤其是,根据数据的性质和他们的体积。此外,相反更多的“传统”bio-statistical方法在临床研究中,缺乏明确的指导方针使用哪个数据科学方法会导致一个更大的主观性的选择方法,特别是在临床数据的聚类。这使得统计分析计划数据科学家提出的观察性研究,获得的结果更多的变量。

聚类过程包括许多决策步骤,从数据准备一步集群的稳定性和集群的评价描述。作者的知识,并没有一个单一的、简化工作流程在文献中很容易实现对专家和非专业健康数据科学家(R或Python使用现成的工具),充分的文献支持,泛型(例如,无论自然连续/二进制/分类/混合-或- /大)的数据量,促进其常规的应用程序。最接近这一目标的文章侧重于过程自动化(autoML,例如,Kamoshida Fuyuki, 2020)或聚类方法比较(Wiwie et al ., 2015)。本研究(显然)不假装强加一个解决聚类问题的经验和文献都表明,没有单一的解决方案(指在特定集群任务jonkleinberg (2002)]。然而,本研究旨在提供给数据科学家通过一个简单的框架,可用于指导日常实践在各种各样的情况下。因此,本文旨在:

我健康数据科学家、公司或机构需要一个通用工作流routine-possibly automated-clustering项目数据的各种类型和数量(例如,为初步数据挖掘),或

二世健康数据科学家与经验有限,他们正在寻找文献的概述和可访问和可重用工作流与具体实际的建议迅速实现一个完整的无监督聚类方法适应不同的项目。

在本文中,我们提出在第二节,不同的合成方法与无监督聚类在文学和R或Python实现的关系。在第三节,我们提出Qluster通用工作流为集群表格数据的性质和大小,而考虑(1)文献指南如何执行强大的集群,和(2)R的可用性和易用性或Python实现用户对数据的科学家。然后,在第四节中,我们详细描述此工作流通过循序渐进的应用程序开放获取心血管疾病¹训练数据集来帮助数据科学家重新这个工作流的项目和具体的建议。然后,我们提供一个实际讨论第五节和第六节总结。数据科学家还发现部分2和4中所有必要的文学(理论基础)来支持此工作流的使用,大大促进了写作的乏味的工作统计分析计划与创新方法(数据科学)在临床研究。

2。数据聚类统计理论基础和文献综述

本节讨论的最先进的聚类方法聚类过程(参考图1步骤2 - 4。第二步将讨论在本节和第四节通过一个说明性的例子)。

图1

图1。一般的聚类过程(它是分为四个步骤。步骤1对应于问题的识别和数据的收集。第二步是一个预处理步骤,包括不同的数据转换。步骤3的聚类是数据本身,在步骤4的解释集群对原始数据。每个盒子的内容(步骤)的例子,而不是步骤必须遵循。

2.1。无监督聚类方法的概述

通常定义,集群的任务分组的一组对象,这样的对象在同一组(称为集群)更相似(在某种意义上)彼此比其他组(集群)”(奥尔特曼和Krzywinski, 2017年)。这样一个任务是用来均匀的子集观测组织更好地理解他们的全球异质性。尤其是,这是真正的临床数据分析来描述疾病异质性,分层患者和获得目标人群的概要文件。聚类的结果一般任务是一项任务的输入数据到一个固定数量的集群。两种聚类方法通常是根据这样的本质区分任务:硬和软聚类方法。硬聚类中的每个对象提供了一个分区数据集被分配给一个且只有一个集群。软或模糊聚类生成一个模糊分区提供一定程度的每个对象到一个给定的集群成员。这使可能性表达对象同时属于多个集群。的注意,一个集群的定义本身不是非常精确的,这部分解释了为什么有那么多的聚类算法(Estivill-Castro 2002)。

在机器学习领域,聚类方法属于所谓的无监督学习方法。集群领域不应混淆的子群的发现,也旨在发现团体但以监督的方式,例如,识别的结果或预测因素的预后因素治疗效果的一个结果(周et al ., 2019;Esnault et al ., 2020)。在文献中存在的许多聚类算法(徐和唐纳德,2010;法赫德et al ., 2014;艾哈迈德汗,2019)可分为根据集群模型(如质心、连通性、分布、密度、和图)。在各种各样的方法,他们是三个主要类型,所有生产的硬盘分区的观察(图2从图1中,它是适应法赫德et al ., 2014):

•Partitioning-based方法²(例如,K——(MacQueen 1967),K-medoid (金和加威,2010年),帕姆(Ng,汉,1994年),K模式(黄1997年),K原型(黄1998年),克拉拉(考夫曼和Rousseeuw, 2009年)和FCM (Bezdek et al ., 1984)]。

•Hierarchical-based方法(例如,BIRCH (Zhang et al ., 1996)、治疗(古et al ., 1998)和岩(古et al ., 2000)]。

•Density-based方法(例如,DBSCAN (酯et al ., 1996)和DENCLUDE (Hinneburg Keim, 1998)]。

图2

图2。一个聚类算法的分类系统。盒子下面列出著名算法相应的类型。

的第一个类型的方法被认为是最受欢迎的聚类算法易于实现,简单,效率和成功经验(耆那教的,2010)。它旨在直接获得一个数据分区K集群。Partitioning-based方法需要设置数量K集群的很少先天的但可以使用几种已知的方法估计的数据(Caliński Harabasz, 1974;Milligan和玛莎,1985年;戈登,1999;Halkidi et al ., 2001;Meilă2007;亨尼希和廖,2013;亨尼希,2014)。这些包括优化的内部效度指标反映集群的密实度和分离(例如,平均轮廓宽度,Davies-Bouldin指数,Calinski-Harabasz指数和邓恩指数)。同样,一些partitioning-based方法依赖于随机初始化不同K-centroids能导致不同的输出(局部最优),不可复制的集群,错误的或空的集群。一些解决方案,例如K——+ +算法,包括智能质心初始化方法K则算法(亚瑟和Vassilvitskii, 2007年)。目标是分散的初始质心随机分配第一重心,然后选择其他重心基于最大距离的平方。因此,这个想法是尽量把重心从一个另一个。同样,PAM算法是一种确定性的K-medoid算法直接集成了一个名为构建的初始化过程。在构建阶段,选择第一个medoid有最低成本,成本是所有距离到所有其他点。

的第二个类型产生集群的层次结构,称为系统树图,尤其有用,当一个人需要一些在不同层级(即硬盘分区。,从一个宏观的视野与几组微视觉与许多组)。这些分层的方法有一个主要缺点,一旦执行步骤(合并或分裂),这不是消除,可能做出错误的决策不可能正确的:他们常常贪婪算法,优化当地标准没有回溯,而聚类问题是(定义)一个全局优化问题。此外,hierarchical-based方法通常有更高的时间和空间复杂性比partitioning-based方法和依赖于多个输入参数,把更多的空间留给主观性的选择设置,直接影响生成的簇(法赫德et al ., 2014)。一些研究也表明,hierarchical-based算法导致聚类结果比分区算法,表明后者非常适合聚类大型数据集不仅由于其相对较低的计算需求,也相当甚至更好的聚类性能(赵和Karypis, 2002年;Kaushik Bhawana, 2014)。

的第三类型的方法不明确需要集群的数量,也不依赖于距离阈值从一个“中心”(像partitioning-based方法一样)。相反,density-based方法依赖于估计的密度观测执行分区。这样的方法是,从这个意义上说,更多的地方和允许我们代表集群的拓扑是唯一的距离引起的少使用(如超球面当使用partitioning-based欧几里得距离的方法)。然而,这种策略可能被关联到一个更大的倾向overfit设置hyper-parameters数据和更大的困难。

这三个主要类型的方法之外,还有很多其他的聚类方法包括基于网格的方法(如。Wave-Cluster (Sheikholeslami et al ., 1998)和斯汀(王et al ., 1997)]。他们执行聚类的网格,而不是对整个数据集。也有基于模型的方法,优化数据之间的配合和预定义的模型,假设潜在的混合物产生的数据概率分布如混合物密度模型(EM (2008年,和Serafim吗)、概念聚类[蜘蛛网费舍尔,1987)和神经网络模型[索姆(奥·钱皮一起和伊夫,2000年)]。最近,一系列新方法聚类基于深度学习出现了(Aljalbout et al ., 2018);它们主要用于集群的非结构化数据。深层神经网络(款)可以有效的方法将高维数据空间映射到低维特征空间。然而,款通常需要大型数据集和程序因果可解释性的集群(架构款不容易理解所学的表示)。最后,最近的图聚类方法更特别关注发现网络中的节点集或图表中有更多的连接组比外集(Sieranoja Pasi 2022)。更多信息类型的聚类算法及其适用性的数据类型(分类、文本、多媒体、流和时间序列),请参考Oyelade et al。(2019)。

2.2。选择一个合适的聚类方法

选择合适的方法使用依赖于许多方面(法赫德et al ., 2014;艾哈迈德汗,2019)如:

我的能力处理所需的类型的数据(二进制/名义/序数/数值),

2数据的维数(指如米塔尔et al ., 2019),

三世的数据的大小(小到大数据),

iv可靠的实现软件的可用性(例如,R和最受欢迎的两个统计软件进行数据的科学家)。

Partitioning-based方法是由许多变异直接处理连续(K则,PAM、克拉拉和FCM)、分类(K模式和K-medoid)和混合变量(K原型和卡米拉(自由/开源软件和Marianthi, 2018)]。此外,一些算法的能力直接处理输入不同矩阵有助于pre-transformation所需的原始数据转换成数据的类型在聚类之前,使用适合距离措施(例如,McCane和迈克尔,2008年)。这个策略,特别是用于分类或混合数据转换成数字数据,有更多的文学和算法软件中实现连续数据(例如,scikit-learn³在Python中,或集群⁴和FPC⁵R包。后者两个包提供大量的集群和集群稳定性评估方法和函数来计算不同矩阵和描述结果)。另一个已知的选择由one-hot-encoding分类数据为二进制变量并将后者视为连续的(例如,李和Latecki, 2017年)。然而,需要减轻体重的变量,所以没有更多的重量给原始变量形式。最后,降维方法,比如因子分析(主成分分析(PCA)连续数据,多个对应分析(MCA)对于定性数据,和混合数据的因子分析(FAMD)混合数据(小量,2017页),可以使用集群作为第一步之前将数据转换成数值(即组件。,在每个维度的坐标观测)。

因子分析聚类任务的还有许多其他的优点,如减少维度(使容易聚类任务),减少噪音(通过删除最后一个组件,只有承受随机噪声,导致一种更健壮的无监督学习),和处理变量携带类似的信息和/或高度相关(小量,2017页)。在定性数据的情况下,一个方便的实践适应集群级别观察MCA异质性是采用两步的顺序,串联的方法(Arabie和休伯特,1994):在第一步中,分类变量的低维表示通过大脑中动脉;在第二步中,一些各种各样的集群分析用来确定一组相对同质的低维数据的基础上,观察组。除了的两步序贯方法可以实现,采用此方法可以有实质性的原因(绿色和Abba, 1995年)。替代方法包括使用同时MCA和聚类方法在一个框架的低维数据可以选择促进集群的识别(一杯啤酒,1987;DeSarbo et al ., 1991;De Soete和卡罗尔,1994年)。然而,这些方法没有实现(R和Python),阻碍他们的使用在一个集群工作流。最后,选择组件的数量一直是关键的一步。这可能是基于几种方法包括置换测试(Takane和黄,2002),cross-validation-based方法(兄弟et al ., 2008;Josse et al ., 2012),或方法基于所携带的信息量的每个维度,要么相比平均价值相当于凯撒的统治在PCA (Lorenzo-Seva 2011),或用一块小石子(克劳森,1998;庄士贤,2010)。后一种方法被发现执行相当好,是最常用的选择最优数量的维度(茨威格和韦恩,1986年;Bandalos Boehm-Kaufman, 2010)。它包含的下降曲线的弯曲(即所谓的“肘”)指示最佳维数(如果没有明显的手肘,一个可以选择组件平面出现之前)的数量。它改编自PCA (卡特尔,1996)和使用的上下文对应分析(科斯塔et al ., 2013)。所有因子分析方法可以在著名的特别是在RFactoMineR⁶在Python包,王子⁷GitHub库(尽管对于后者的问题仍然是开放的)。方法估算的维数保持在R在许多包等FactoMineR和missMDA⁸,或在使用交叉验证方法factoextra⁹包(例如,小石子的情节)。在Python中,最好的作者的知识,一个需要代码应用这些方法没有发现特定功能。

因素分析是否执行作为第一步,需要选择一个距离测量是至关重要的,有些是只有适当的类型的数据,或者在某些情况下首选。事实上,连续数据需要适当的距离措施获得不同矩阵(例如,欧几里得和曼哈顿距离),而分类数据广泛处理简单的匹配方法(例如,汉明距离对于对称措施,相当于曼哈顿距离对二进制变量,和不对称Jaccard相似性系数措施扶持积极共生在消极的)。相结合的方法来处理复杂的数据可以由上述方法,比如高尔半岛的距离(即。,简单的匹配方法和曼哈顿距离)。

最后,需要小心注意一些方面在处理大量数据时。事实上,候选算法必须分别或同时处理高维度和大量的观测(包括异常值/嘈杂的数据),这使得困难,有时甚至不可能,不同矩阵计算。同样,快速运行时间是至关重要的以大数据为集群需要进行几次,特别是评估集群稳定和优化集群hyperparameters(例如,在第四节的用例中,集群复制550倍)。一些策略存在处理大量数据,如依赖算法复杂性较低的(例如,K模式和FCM O (n), (法赫德et al ., 2014)]。然而,后者是迅速有限计算时间线性增长的数据的大小。替代方法包括在近似(Sieranoja Pasi 2019)或整个数据集的子集概括他们(如前集群规模较小的数据集。、小批量K——(斯卡利,2010),克拉拉(考夫曼和Rousseeuw, 2009年)和CLARANS (Ng和加威,2002)]。

克拉拉算法的扩展K-medoids方法(例如,PAM),这是更健壮K方法算法最小化时的相异而不是平方欧氏距离之和(金和加威,2010年)。克拉拉允许处理数据包含大量的观测(超过几千)使用抽样方法,以减少计算时间和内存存储问题。整个数据集,而不是寻找medoids克拉拉认为数据的小样本和PAM算法适用于生成一组最优的medoids。克拉拉多次重复抽样和聚类过程以减少抽样偏差。在实践中,它的力量在于可能调整的样本数量和样本大小,为了使计算时间可接受和存储在RAM中。这确实是必要的,使集群的稳定性评估和最好的分区被发现通过重复多次聚类过程。克拉拉相比,CLARANS礼物之间的权衡成本和使用样本获取聚类的有效性。Mini-batchK则,克拉拉和CLARANS都可以发现在R(例如,分别集群,FPC,QTCAT¹⁰包),在Python中(例如,分别scikitlearn,pycluster¹¹,pyclustering¹²)。请注意虽然质量和维护在GitHub库(QTCAT, pycluster,pyclustering)不能保证目前的作者。

2.3。集群的方法描述

集群产生的聚类算法的可解释性仍然是最重要的挑战之一在临床资料分析中,通常就是这样与机器学习算法(Vellido 2020)。实际上,最好的结果才有意义,如果他们被最终用户可判断的。传统方法不能提供共识如何描述集群,这是更有效的卫生部门,集群的解释是一种医学知识的数据本身(Kiselev et al ., 2019)。

最简单但最有效的方法是计算相关内部和重要性使用初始变量描述性统计识别映射生成的集群基于意味着或中间值(分别地。比例)连续(分别地。分类)变量。这可以通过执行完成clusterwise分布与总体分布,以及使用假设检验来确定输入变量的集群之间的差异具有统计学意义(Bousquet et al ., 2015)。这样致力于实现集群的描述可能会发现R(如。,cluster.varstats ()功能FPC包还提供了表和图)和我们所知,没有这样的功能在Python中被发现。

选择简化集群的描述步骤可能包括学习可判断的多级监督分类器(如决策树)集群标签(结果)突出特征和特异性与每组相关联。其他方法提出包括集群的可解释性直接聚类算法中,而不是作为一个步骤完成之后(Bertsimas et al ., 2021),特别是通过添加相关的可调参数解释能力(例如,请参考Saisubramanian et al ., 2020,GitHub上发现的Python实现¹³)。

最后,为集群的可视化方法使他们更容易解释,如主成分分析、多维标度(Torgerson 1952),t-SNE (Van der Maaten和辛顿,2008年),统一多方面的近似和投影(UMAP,麦克因尼斯et al ., 2018)。

2.4。聚类有效性和稳定性评价的方法

聚类评估步骤是一个重要的阶段增加信心的结果,由评估聚类有效性和稳定性。

关于聚类的有效性,可以首先区分外部效度指标(雷和Pasi 2016),可以用来比较与地面集群获得真理,这是很少知道。内部效度指标,评估一个数据分区的善良使用大量继承了数据,如紧密(如最大成对intra-cluster距离),连通性(例如,连接度量),或分离(Bezdek和朋友,1998;Handl et al ., 2005)。邓恩有效性指数和轮廓系数都是常用的指标,特别是定义最优数量的集群,他们都评估(即分离。inter-cluster距离)在密实度(intra-cluster距离)。尽管先前的工作已经证明没有单一集群内部验证指数优于其他指标,Arbelaitz et al。(2013)一组集群内部验证指标相比在许多不同的场景中,表明轮廓系数在大多数情况下产生最好的结果。替代品存在估算集群的数量在一个数据集的聚类方法,如“差距统计”比较within-cluster色散与预期的变化在一个适当的参考零分布(Tibshirani et al ., 2001)。

关于集群的稳定性,提出了几种方法的文献,通过重复多次聚类过程条件下不同的起源。这些包括过程中使用生物信息学,每次删除一列(Handl et al ., 2005;达塔和Somnath, 2006)。组之间的几个指标可以计算集群(布洛克et al ., 2008的平均比例),比如non-overlap (APN)的平均距离(广告),和品质因数(FOM)。这些方法特别是提出clValid¹⁴R包和它的主要功能clValid ()。后者包括许多聚类算法(K则,戴安娜,范妮,索姆、SOTA PAM,克拉拉和艾格尼丝),并允许直接评估集群的稳定性通过“确认”的论点。

其他方法包括在原始数据扰动,要么使用引导(埃夫隆,1979;埃夫隆Tibshirani, 1994)、喧哗和/或抽样方法(亨尼希,2008)。然后常用Jaccard相似性统计作为评估指标稳定,通过计算相似性的原始集群重新取样数据到最相似的簇。这些方法的实现FPCR包,特别是clusterboot ()函数。后者是一个详尽的计划,还允许使用各种算法聚类(例如,K则,层次聚类,正常的混合模型,PAM,克拉拉的DBSCAN,和谱聚类),方便生成数据科学家,比较,评估集群的稳定性。

对于Python,虽然有包评估集群的内部效度(轮廓系数,兰德指数,Caliński-Harabasz指数(Caliński Harabasz, 1974),尤其是看到sklearn.cluster库),没有发现Python库评估产生集群的稳定性。这加强了Python的事实不包括R整个聚类过程一样容易,因为没有Python包,包括所有感兴趣的步骤(集群生成、内部效度评价聚类优化集群稳定性评价,和集群描述),如FPCR包。

最后,合作的方法来测试集群的稳定性数据集是在文献中几乎没有提及。这将包括预分配的观察测试设置为从学习获得集群组,和集群测试数据集来检查好分配。然而,没有发现实现R或Python。我们可以看到一个简化应用程序的两个独立的数据集的聚类圣皮埃尔et al。(2020)。

3所示。Qluster工作流

3.1。研究目标

许多统计学家/数据科学家面临大量的数据聚类的算法和实现。这可能很难管理集群研究和分析可能产生的策略,不够严谨,没有两厢情愿,或者不适应的问题。这是特别,任何统计学家/数据科学家在合同研究组织提供支持的医疗保健行业,谁有责任进行聚类分析,但仍小有经验的使用它们。我们的目标是提出一个实际工作流数据科学家,因为它genericity应用(例如,可用在小或大数据,连续,分类或混合变量,在高维数据库),同时保留简单的实现和使用(需要几包、算法、参数…)和鲁棒性和可靠性的方法(例如,集群的稳定性评价,使用经过验证的算法和健壮的包,嘈杂的管理和/或共线的数据)。因此这个工作流的目标是不能解决所有情况,但提出一个简单的和健壮的基础,是尽可能通用。在某种程度上,一个选择,旨在“全局最优实践但不是最优的。这个通用的工作流可以是有用的经验几乎为零的数据科学家使数据聚类更容易和更健壮,和更有经验数据的科学家们正在寻找一个简单的和可靠的解决方案经常执行初步数据挖掘。

3.2。方法

的标准¹⁵定义的属性所需的工作流程如下:

•标准实现genericity:适用于小型和大型数据,适用性连续或分类或混合数据,和管理的高维度。

•标准实现易于实现和使用:使用的包数量,使用的算法,参数调整,使用“全包”包覆盖在最好的情况下一般的聚类过程。

•标准实现鲁棒性和可靠性:噪声数据的管理、多重共线性的方法考虑集群稳定评估,包使用的可靠性(如托管网站,声望,…),和可靠性的算法(如声望、文学,…)。

面临的巨大多样性包¹⁶和算法,考虑我们的目标保持实现的简单性和使用所需的通用工作流,我们专注于方便¹⁷包的主要算法和步骤一般聚类流程(参考图1)。方便包可以包含函数为集群,集群优化集群评价、集群稳定性评价和描述(聚类算法套件)。对于Python,我们认为该模块sklearn.cluster从scikit-learn图书馆。为R,以下方案选择:FPC,集群,线索,clValid。所有这些实现、功能和算法组成他们被认为是健壮的,因此,满足标准的一部分实现鲁棒性和可靠性。

3.3。初步工作

当相关,我们匹配选择的实现定义的标准(参考表1R包和skikit-learn图书馆,和附录A聚类算法组成)。

表1

表1。描述选择的软件实现。

表1表明,无论是集群R包也不sklearn-cluster模块在Python允许集群的稳定性的评价。如第二节所述,一个人应该代码这一步自己在Python中,或链接(如果可能)与其他包选择R R的包,FPC2021年最下载并提供的最内部的评估指标。线索和FPC通过引导但只有评估集群稳定FPC包括其他方法如喧哗,所推荐的两种方法的互补性亨尼希(2008)。clValid另一方面提出了更简单的方法,主要用于生物学、集群的稳定性评价通过移除一个接一个的变量。

的表附录A创建基于表1法赫德et al。(2014),我们适合我们的目的。总的来说,附录A显示所有的算法包含在选择包满足所有属性寻求genericity而言,简单的使用和实现,鲁棒性。例如,克拉拉和Mini-batchK——都可以很好的处理大量数据,在一定程度上适应了高维度和依靠一些参数进行优化。然而,他们只适用于连续数据和不,特别适合嘈杂的数据。也与克拉拉,Mini-batchK则只包括在scikit-learn Python模块。

第一个合成工作强调了需要克服的困难。

3.4。Qluster

基于文献综述(第二节)和前期工作(3.3节),我们提出了Qluster工作流程(参考图3一起),一组方法,代表了一个很好的平衡数据科学家使集群在一个实际的健康数据,高效、稳定和简单的方法。它涵盖了集群生成步骤(步骤3)通过1 -因子分析,2 -数据聚类和3 -稳定性评估。因子分析的输出(PCA、MCA、或FAMD)的矩阵的坐标上的个人的阶乘维度,即。表的连续变量,允许然后PAM算法的聚类。深入讨论Qluster工作流程,请参考第五节。

图3

图3。Qluster工作流(彩色垫步对应的详细图1)。

总而言之,Qluster试图通过推广聚类任务通用的框架是:

•适应任何性质的变量,直言,连续,或两者的组合。这是通过将所有的数据在一个连续的环境(即文学的成熟和简单流程)使用因子分析方法[MCA仅供分类数据或FAMD混合数据(2004页,)]。正如2.2节中提到的,后者还允许处理共线性,高维,噪音。这也使得聚类算法的工作更容易,因为有更少的变量来处理和更清晰的信息集群(因子分析方法本身就是为了发现概要文件为组件的更丰富的信息)。

•适应任何体积的数据集大或者小的数据。事实上,同一partitioning-based算法(PAM),要么完全应用在合理规模的数据集或一个大的样本¹⁸使用相同的数据集(克拉拉算法)pamk ()函数的FPCR包。除了这个实用选择方面,PAM在(常用)K确定性算法则根据其能力和处理曼哈顿距离,这是不太敏感的离群值比欧氏距离(金和加威,2010年)。此外,帕姆而闻名简单的使用(更少的参数,例如,与DBSCAN或桦木(法赫德et al ., 2014),也是在一个易于使用的详尽的实施方案(不是理由,例如,CLARANS,卡米拉,小批量K——、DENCLUE和刺痛,适合大型数据集,但评估集群稳定需要大量的代码开发数据科学家)。更多细节的选择聚类算法可以在第五节中找到。

此外,Qluster工作流仅仅依赖四个最先进的R包,允许数据科学家快速管理数据的不同性质和数量和执行强大的集群:

•集群和集群稳定性评估任务执行使用FPCR包(功能pamk ()和clusterboot ()分别)。R选择/ Python因为前提供所有所需的聚类方法,也没有包包括所有感兴趣的集群被发现后一种方法的步骤(我们会自己代码的一些步骤,请参考第二节的更多细节)。的clusterboot ()函数提供了许多方法来评估集群的稳定,但一个选择两个追随者对于日常实践和互补的亨尼希(2008):引导、喧哗。

•使用因子分析的部分是处理FactoMineRR包(功能PCA (), MCA (),FAMD ()、连续、分类和混合数据,分别,后者功能泛化其他人)。这一步是可选的情况下只有连续变量的输入。¹⁹选择最优数量的组件,一个建议对小数据使用确定性交叉验证技术的实现missMDA包(函数estim_ncpFAMD estim_ncpMCA estim_ncpPCA () () ()(Josse et al ., 2012)]。此方法需要计算时间高,标准的“肘”的方法在一块小石子是适合大数据,使用factoextraR包(函数fviz_eig ()]。

最后,Qluster工作流是可操作和可实现端到端(见附录B实现在Dataiku的照片^20.平台。根据客户要求提供:contact@quinten-france.com)。

这个通用的工作流,可用在大多数情况下,可以通过下面的伪代码描述(算法1):

算法1

算法1。Qluster伪代码。

4所示。详细的工作流程方法

4.1。心血管疾病的数据集和目标

心血管疾病²¹数据集包括70000或没有心血管疾病患者和12个变量(其中有五个是连续的)。

以下原始变量(使用原始变量的名称在斜体):

1。(天,转化成岁)年龄

2。身高(厘米)高度

3所示。体重(公斤)重量

4所示。性别(M / F)性别

5。收缩压(SBP)(毫米汞柱)ap_hi

6。舒张压(菲律宾)(毫米汞柱)ap_lo

7所示。胆固醇(类别1:正常,2:高于正常,3:远高于正常)胆固醇

8。葡萄糖(类别1:正常,2:高于正常,3:远高于正常)gluc

9。吸烟(Y / N)烟

10。酒精摄入量(Y / N)艾可

11。身体活动(Y / N)活跃的

12。是否存在心血管疾病(Y / N)有氧运动

本节的目标是提供详细的应用Qluster工作流提出在第三节以下的用例:心血管疾病患者的表型特征(患者的一个子集有氧运动= Y)。这代表了34979例(约50%的整个数据集)。

4.2。一步一步Qluster工作流的应用程序

以下部分细节的应用Qluster工作流心血管数据集,以帮助科学家们使用它自己的项目。额外的元素在第二节的支持目前的方法时也提供了有关。我们第一次数据集的预处理,尤其是一些连续变量的转换为定性数据,在应用一个MCA之前,这是一个探索协会的数据简化技术在多个分类变量(Greenacre 1984;沃里克et al ., 1989;Murtagh 2005;Greenacre Blasius, 2006;Nishisato 2019)。然后,考虑到大型数据库的,克拉拉算法和优化。最后,集群的集群的稳定性评估和一个简短的解释。

4.2.1。准备数据准备

4.2.1.1。特性推导和选择

首先,身体质量指数(BMI)创建的变量是身高和体重(奥尔特加et al ., 2016)。然后,离群值被定义为每个检测定量变量的阈值高于或低于该值更有可能是不准确的。可接受的值应该在以下范围:18岁≤年龄< 120,10≤BMI < 100、SBP≤400,和菲律宾≤200奥尔特加et al ., 2016;梅奥诊所²²、法语水平的建议²³]。为简单起见,患者至少有一个离群值被移除的分析(敏感性分析可以执行)。定量变量被离散,以创建变量的临床意义和支持使用MCA算法(参考表2)。

表2

表2。描述工程的量化特征。

一个额外的二进制高血压变量是基于创建的high_sbp和high_dbp变量作为高血压患者的一个代理(高血压= 1,如果high_sbp= 1,high_dbp= 1;其他的高血压= 0 (威廉姆斯et al ., 2018)]。

最后,变量选择歧视病人必须选择根据他们的医疗相关的背景下研究。为此,用户必须始终考虑的结果,他将获得是否包含一个变量。特别是,用户要求自己积极歧视集群的一个变量是否寻求:考虑到两种常见变量年龄和种族的例子,如果他们正在积极包括聚类步骤中,它会创建组年轻还是年老,白人和非白种患者。如果不是,这样的变量可以保持被动分析生成的集群和评估后验对这些变量可能的异质性。在这个用例中,我们删除了身高,体重,和收缩压和舒张压的特性,用于创建上面列出的派生功能并不是有用的单独集群。

最后,我们获得了数据库的34134名患者和11个变量。

4.2.1.2。处理低流行特征和模式

聚类变量与低流行率已知数据分析是一个挑战,尤其是对技术非常敏感数据和/或异常情况下(如。、回归分析和因子分析(Fahrmeir et al ., 2013)]。最常见的技术包括收集罕见的形式在更高的频率组或丢弃有关模式和/或变量。此外,二进制变量聚类研究人群的患病率较低可能被丢弃的分析或分组在适当的时候与其他特性。

将区分任意阈值的10%,消除特征的罕见的模式聚类特征。这是符合建议使用多重对应分析之前,over-weighs罕见的形式和多模变量(Le Roux Rouanet, 2010;迪弗朗哥,2016)。在可能的情况下,形式与< 10%的患病率是基于医学相关性分组与他人。因此,吸烟(8.3%烟= Yes)和酒精摄入量(5.2%艾可= Yes)变量被排除在外,只用于集群数据后验集群描述。

此外,一些形式聚合后的两个变量:

•葡萄糖(gluc):方法2(高于正常,8.8%)和3(远高于正常,9.5%)被分组到一个形态2(高于正常)。

•BMI (身体质量指数):形式“减持”(0.5%)和“正常”被分成一个形态“体重与正常”。

最后,数据集用于执行MCA包含9个分类变量的总数(年龄、BMI、high_sbp, high_dbp、高血压、gluc,性别,胆固醇,和身体活动)。

4.2.2。执行多个对应分析

与其他因子分析方法(例如,PCA和CA), MCA捕获数据异构性与聚类分析相结合,通过集群的观察人群中显示独特的模式(Buuren和黑,1989年;黄et al ., 2006;三、Hiroshi 2015;van de Velden et al ., 2017;外种皮et al ., 2021)。

MCA组件使用的数量决定使用标准的小石子情节通过识别曲线的“肘”(与PCA方法广泛应用(卡特尔,1996)虽然约束特征值严格高于阈值0.11相当于皇帝的统治PCA(即。1 /C与C分类变量)的数量。

基于小石子情节(参考图4),三个维度都选择,第三个标记清楚肘部曲线(相关特征值:0.12;相关比例的方差解释说:9.8%)。

图4

图4。小石子块方差解释维度从一个MCA(特征值的红色,0.11)。

此外,解释用途,特征值修正使用Benzecri修正²⁴考虑到二进制编码方案用于MCA创造了人为因素,因此,减少了惯性解释(Greenacre 1984)。三大组件收集惯性与Benzecri方法校正后的99.9%(更多细节附录D)。

4.2.3。集群的数据

4.2.3.1。参数规格

通过使用的克拉拉算法pamk ()功能FPCR包(版本2.2 5),一个可靠的集群方案灵活的程序,和主要参数如下:

•距离测量:不同使用曼哈顿距离矩阵计算。后者更健壮和敏感异常值低于标准的欧几里得距离(金和加威,2010年)。

•数量K从3-11集群:

——集群的数量是优化平均轮廓宽度(ASW)质量标准,这是一个内部效度指标反映了集群的密实度和分离。反潜战是基于轮廓的宽度,计算所有病人最好的样本,即。,用于获得集群medoids和生成集群(Rousseeuw 1987)。

——集群测试的范围是决心使识别表型相似的子组,而不是解释产生过多的子组。

•样本和样本大小的数量:100个样本5%的研究人口规模(1706名患者)。

——实验表明,五个样本大小40 + 2 C (C变量输入的数量)给满意的结果(考夫曼和Rousseeuw, 1990年)。然而,这些数字增加推荐(如果可行),限制抽样偏差和汇聚成最好的解决方案。同样,样本容量越高,越高代表整个数据集。我们,因此,建议预试材料计算参数值多少次是可以接受的考虑输入数据集的大小和工作流程的其他措施(包括集群稳定评估步骤中,最耗时的)。

其他参数包括输入数据不能修改的non-scaling获得MCA的观测空间。

4.2.3.2。结果

获得了最优反潜战的池三个集群(反潜战:0.42,请参考图5)。

图5

图5。每组的平均轮廓宽度集群(K= 3-11)。

同质性和分离性集群的进一步研究通过分析轮廓宽度的患者最好的样本用于生成medoids,使用集群fviz轮廓()功能factoextraR包。提醒一下,轮廓宽度特征集群的凝聚力和分离的其他集群:一个积极为患者(分别消极的)轮廓宽度是正确的(分别是不正确的)联系自己的集群。

图6显示了一个高水平的intra-cluster凝聚力和重要性可分性只有少数病人(在集群2和3)有负的剪影。Clusterwise轮廓宽度也都积极(反潜战的0.42、0.47和0.30,为集群1、2和3,分别)。

图6

图6。轮廓宽度为每个病人在每个三个集群(红线对应于平均轮廓宽度)。

4.2.4。集群的稳定性评估

4.2.4.1。参数规格

为了评估集群健壮性、集群进行了几次在一群随机修改。这允许产生扰动下新版本的原始集群和,因此,评估集群的稳定性。集群的稳定性是所有高扰动下的新版本的集群生成类似于原始的集群。数据扰动步是使用两种方法执行,根据结果可以提供互补的信息亨尼希(2007):引导和噪声的方法。

•引导的方法:

——这种方法在于执行集群4.2.3节中描述B= 50[即引导数据。随机抽样,替换(埃夫隆,1979;埃夫隆Tibshirani, 1994),使用clusterboot ()功能FPCR包(5)2.2版本。

- Jaccard相似性度量是用于计算,对于每一个集群,集群之间的距离从白手起家获得病人的样本和原始集群。它是由新的集群之间的共同点的患者数量和原始集群除以总数量的不同的病人认为(即。,呈现在原始新或集群)。

——对于每一个集群,提供了以下结果:

▪Jaccard相似的均值统计。

▪集群的次数是“溶解”,定义为一个Jaccard相似性值≤0.5。这个值显示不稳定。

▪集群的次数是“恢复”,定义为一个Jaccard相似性值≥0.75。该值指示稳定。有一些理论理由考虑Jaccard相似性值较小或等于0.5的信号“溶解集群”,请参考亨尼希(2008)。在0.6和0.75之间,集群可能会被视为表示模式的数据,但准确点应该属于这些集群是高度怀疑。

•噪声的方法:

——这种方法在于执行集群4.2.3节中描述B= 50嘈杂的数据和不同的噪声值,使用clusterboot ()功能FPCR包。

▪噪声级值:从1到10%

——每个集群的次数是“溶解”和“恢复”提供,以及Jaccard相似的均值统计,根据噪声值。

4.2.4.2。结果

集群都是更稳定的Jaccard相似性统计和恢复集群的数量很高,和溶解集群的数量很低。

结果的数据扰动步骤如下所示:

•引导方法,集群1、2和3都有Jaccard相似性统计100%的50岁以上的迭代。三个集群是恢复100%的引导迭代,体现了很高的稳定性与替代重采样。

•噪声的方法,1、2、3在最坏的情况(噪音)2% Jaccard相似性统计为100%,98%,和96%,分别50多个迭代。三个集群是恢复100%的迭代不管噪声级(从1到10%),具很高的稳定噪音。

不管采用何种方法,结果似乎是非常健壮的,当然可以解释为数据库的大尺寸和小数量的集群保留在合成数据。集群的稳定性可能更变量在实际情况下。

值得注意的是,clusterboot ()函数也可以提供有用的结果和情节集群的稳定性(直方图Jaccard相似数据的集群,每个集群的摘要信息,等等),但是我们没有提供他们在本文中自获得Jaccard相似性指标都在100%左右。

4.2.5。集群的解释

描述性统计(比例和升力值)计算的变量包括或不聚类的步骤。集群1 (n= 12272(36.0%)]组患者都有舒张压和收缩压值高,因此高血压。这些病人略高于平均水平远高于正常胆固醇值(18.5%比17.7%),高于正常血糖值(20.0%比18.3%)。相反,病人从集群2和3n= 15477(45.3%)和n= 6385(18.7%),分别在81%和87%之间有正常的舒张压和收缩压值,和没有高血压。2集群相比,患者从集群3更多远高于正常胆固醇值(26.6%比8.5%),高于正常血糖值(57.3%比0.8%)。

病人从集群1和2集群整体小于3(年龄≤55:54.7%和51.8%比65.9%)。病人从集群1和3比集群总体上更加肥胖2(41.4%和44.5%比21.8%)。

总结,心血管疾病患者中,集群1收集患者高血压、集群2收集病人健康(尽管同龄的集群1),和集群3集稍微年长患者胆固醇和高水平的血糖(尽管没有高血压)。有趣的是,集群1的描述是一致的贫穷的生活方式(升力值1.21和1.28的烟和酒,分别)虽然这并没有积极参与聚类。指表3为更多的细节。

表3

表3。患病率和提升价值的形态和集群。

5。讨论

在本节中,我们将首先讨论的一些限制Qluster工作流和可能的改进,然后讨论选择参数和实际应用的工作流。

5.1。限制和主张加强此工作流

5.1.1。当大数据太大

经常在数据挖掘中,一个限制问题的数据的大小。很明显,对于大规模数据,非常高的行数,具体算法,如基于网格的方法或树冠pre-clustering算法(McCallum et al ., 2000)算法所需的规模。

更具体地说,在这种情况下,因子分析计算可能是不可能的,因为它需要进行矩阵计算和反相矩阵的大小n^*p(n个人,p二进制变量)。请注意,在分类变量的情况下,你可能喜欢用盎格鲁-撒克逊MCA方法应用CA算法在伯特表(p^*p)而不是完整的析取表(n^*p),这在计算时间和效率,因此,更适合大数据也实现MCA ()函数FactoMineR(Greenacre 2007)]。同样,在非常大的数据的情况下,克拉拉算法可能过于耗时的计算我们仍然需要保持足够的样本和观察每样本的代表性。所有这些原因,表明简单地分析一个随机样本的原始数据集可能非常代表后者同时允许使用Qluster工作流。也请注意,主成分分析()和FAMD ()已知为计算比拿更多的时间吗MCA ()。也建议(如果可能的话)将数据转换成一种类型(连续只或分类)数据准备步骤。事实上,上游比例的混合数据很困难,和计算时间FAMD更重要。选择可能包括不使用该工作流但算法快走(非常)等大型数据小批量K——用于连续变量或one-hot-encoded分类变量。然而,除了单纯依赖欧几里得距离,这些策略可能不允许之前使用因子分析由于数据的大小,对集群的稳定性也不容易,妥善评估。

相反,当列数大于的行数(p>n),降维的一步通过因子分析方法更有意义容易管理的高维度数据。然而,在最极端的情况下p> >n方法,标准因素可能无法产生一致的加载向量的估计。此外,结果很难解释。在这种情况下,标准化的方法可能是一个解决方案来提高健壮性、一致性和可解释性的结果(例如,处罚PCA,李et al ., 2012)。也建议相关变量的子集被选中之前分析(如果可能的话)。

5.1.2中。概括性的工作流缺失的数据

缺失值管理是不包括在这个工作流,它是,因此,假定没有缺失值的数据集。的确,这两个因素的方法(PCA、MCA、FAMD)和提出的聚类方法(PAM,克拉拉,…)需要数据没有缺失值。然而,这个工作流可以很容易地推广到缺失的数据,使用相同的missMDA包作为执行的选择最优数量的维度在因素分析中,为了转嫁第一步使用因子方法缺失值。后者是最先进的方法(如处理缺失值。、功能imputeMCA imputePCA (), (),imputeFAMD ()对于简单的罪名(Audigier et al ., 2013),可以,因此,容易集成和/或用于一个自动化的工作流处理缺失数据。此外,这个R包可以执行多个罪名(MIMCA MIPCA (), (),MIFAMD ())的评估不确定估算值和增加信心的结果(Josse小量,2011)。从这个意义上说,Qluster工作流可以很容易地修改以达到艺术的状态丢失的数据管理(参考附录E的一个例子Qluster工作流用于处理缺失值)。

5.1.3。讨论使用因子分析的第一步

因子分析允许各种结构化数据转换为连续的数据,在处理大型、共线、噪声和高维数据。它还促进集群通过聚合组均匀信息维度。然而,它不能保证结果将“更好”或“好”的因素分析聚类的过程。同样,因子分析的选择在这个工作流有瑕疵,包括下列事项:

•使用的包不能处理的顺序变量。后者必须被视为绝对的或连续的。

•观察×组件矩阵是连续的,尽管一些原始变量可以分类。这可以防止用户支持(相关)积极同现负面通过Jaccard相似系数同现。

选择使用特征选择方法可能包括数据降维,或手动,通过分组、转换和/或删除变量根据临床经验。

5.1.4。讨论使用单一K-medoid算法

为了提供一个简单,但通用工作流和健壮的实际使用相同的方法在许多应用程序中,我们已经做了仔细的选择算法和软件包。特别是,决定使用PAM /克拉拉算法是基于等许多方面的事实是:

•最著名之一,研究,和使用算法的社区,对于一般用途,

•适合连续变量(即。在文献中,最成熟的)。

•针对集群(即最常见的用例。硬盘分区),

•适用于曼哈顿距离、离群值距离不敏感,与它对应的欧几里得距离(K),则

•确定的,由于其内部medoid初始化过程,与基础K集群算法,则可能会导致不一致的或不可复制,

•需要一些参数设置(如。相反,桦树和DBSCAN,请参考法赫德et al。(2014)),

•非常实现在一个公认的参考(R包FPC包)促进其使用在一个完整的和健壮的聚类方法,

•可用在同一个R函数(pamk ()不管的数据量。

然而,很明显,其他算法的选择可能是经常使用,包括那些包含在FPCR包内促进其集成工作流(例如,DBSCAN和HAC)。特别是,众所周知,与非几何和/或集群大小不均,DBSCAN是更适当的K则和PAM。同样,如果最终的目标是获得一个等级,而不是一个独特的硬盘分区,用户可能更喜欢一种算法如肝,这可以很容易地使用该包在这个工作流。然而,其他参数调优的存在或缺乏兼容大量数据将使工作流程更复杂。同样重要的是要注意,此工作流并不打算取代更深入的工作数据科学家找到适合一个特定的案例研究。更有经验的科学家可以使用通用的数据Qluster工作流第一次看数据,但鼓励这个工作流的一般原则适应他们的案例研究(例如,找到最合适的算法)。这样的适应性将是检查的工作流程的初始目的:genericity的应用程序,同时保持实现的简单性和可靠性/方法的鲁棒性。

同样,用户可能希望基准数聚类算法所显示亨尼希(2020)。的比较方法的解决方案可以基于信息的措施(例如,熵和互信息),内部效度的措施(如剪影,请参考2.4节。),set-matching(即。从第一个集群,每个集群映射最类似的第二集群和集群计算召回,精度或任何其他措施),并对计算(包括专用的可视化工具,请参考Achtert et al。(2012)]。直接实施这些策略clusterbenchstats ()函数的FPCR包或的clValid ()的函数clValidR包。然而,我们的目标是提出一个简单易用的工作流,该complexification-which还会大大影响计算时间和记忆能力是留给用户的自由裁量权。此外,相乘的算法和参数的组合力量更多地依赖一个纯粹的统计标准(例如,反潜战)选择“最好”的聚类的数据,尽管这可能不能反映最好的临床意义上的分区。事实上,反潜战仍是一个标准描述的平均分离性在所有的集群,及其最佳可能错过(组)的结果是临床相关和/或用于所需的目标。²⁵如果数据科学家想要比较不同的算法,我们建议而不是完全探索一个精心挑选的第一个算法的结果,与他人在挑战之前,为了减少对唯一的依赖反潜战的选择标准。因此,本文持相反观点的auto-ML文学首先提倡全面调查的吝啬的工作流精心挑选的算法,而不是直接覆盖广泛的算法的可能性。最近关于这个主题,读者可能会感兴趣的研究领域meta-clustering (Caruana et al ., 2006)和整体聚类方法(格林et al ., 2004;Alqurashi和王出版社,2019年)。第一个旨在产生几个分区结果,这样用户可以选择那些最有用。第二个目的是结合几种方法的聚类提出一个双方同意的结果。

是5.1.5。讨论集群的稳定性评估的步骤

工作流中的引导和噪声方法选择,因为他们都是相同的功能clusterboot ()从同一个包pamk ()推荐的和互补的亨尼希(2007)。然而,其他方法也可以使用敏感性分析,包括那些提出了相同的FPC包中。此外,虽然这一步允许集群进行评估,数据科学家应该记住,稳定并不是唯一重要的有效性criterion-clusters非常僵化的聚类方法得到的可能是稳定但也无效,如前所述亨尼希(2008)。最后,尽管几种选择了尝试管理尽可能离群值,如使用K-medoid算法和曼哈顿距离,Qluster工作流等问题并没有完全解决异常值和极端值。一个解决方案可能是手动定义阈值来检测极值作为预处理步骤(如第四节中的案例研究),或使用更复杂的统计方法等杨et al。(2021)。

5.1.6。讨论集群的解释

集群的描述并不覆盖Qluster工作流。然而,许多方法存在解释集群(参见2.3节)。数据科学家可以很容易地推广Qluster集群使用的描述功能已经出现FPC包为了不使工作流程太复杂,如plotcluster ()和cluster.varstats ()以下推荐的方法亨尼希(2004)。

5.1.7。讨论的类型的数据支持的Qluster工作流

虽然一般,但Qluster工作流不涵盖所有类型的数据,很明显,对于医学成像数据,组学数据,或数据信号的形式,专门方法必须考虑。然而,大多数表格数据可以加工使用Qluster工作流。在这方面,虽然Qluster工作流是专门设计的医疗数据分析,它可以很容易地应用于其他领域。

5.2。讨论和建议的实际使用工作流

5.2.1。使用集群稳定作为优化准则

集群稳定性评估可以被视为一种准则进行优化,通过迭代这一步为了让这个属性聚类过程本身的一个组成部分。例如,稳定措施可以用来选择最优数量的集群,假设正确的聚类结果更稳定的集群(弗兰提和雷,2020)。

然而,要注意引导和噪音的方法比简单的方法计算昂贵如删除一个接一个的变量(生物测量方法和提出的clValidR包)。也可能没有明显的优化聚类簇的稳定性,如果两个建议方法不给类似的结果。噪声方法相比,例如引导方法更有可能产生稳定的结果数据集的大小增加PAM的情况下,随着样本代表性的比例增加的克拉拉。

5.2.2。如果结果不满意?

集群的终极意义的问题并不在此工作流。应该注意的是,没有结果可能由于本身,因为它可以描述人口不能被描述的几个均匀子组(因为这样的子组不存在或者因为使用的变量不允许我们找到它们)。然而,很明显,在数据挖掘过程中,我们可以考虑循环回到此工作流通过改变某些参数如果结果不满意或集群的一个重要的标准没有考虑开始时(例如,集群的最大数量)。更普遍的是,数据科学家鼓励记住,集群的最终目标往往是生成结果的临床相关性和有用性。在这个意义上,正如5.1节中提到的,它不是禁止放松一个纯粹的统计标准,如反潜战(其最佳可能错过一些相关的子组,因为它是一个指标的总体可分性),以更好地代表人口的多样性研究,或支持一代的假设的情况下统计最优只给广泛的结果不够具体的初始目标。

同样,消极的轮廓值认为太轻蔑地集群中的有效性分析(解释为集群故障)。事实上,消极的轮廓描述病人,平均而言,比病人更接近病人从另一个集群从自己的集群。因此,患者消极的轮廓可能的潜在的集群,之间的关系,因此,被认为是潜在的关于疾病历史和表型复杂性的额外信息,比如一个集群的自然进化。因此,建议患者负轮廓的分析被包括在工作流,以更好地评估他们是否反映了“坏”集群或更好地理解这种疾病的关键。

5.2.3。如果最优数量的集群范围的最低K吗?

的情况下的最优数量的集群是最低的K在第四节(在我们的示例中),我们建议(如果合适的话),数据科学家测试值较低K挑战获得最佳。类似地,如果获得最优K= 2,数据科学家应该测试数据集是否应该分成两个集群,使用Duda-Hart均匀性测试,测试零假设在整个数据集。这可以通过使用相同的pamk ()函数通过建立最低的K1,或直接使用dudahart2 ()函数(也在FPCR包)。在任何情况下,如果研究的主要目标是提供细粒度的知识人口,它仍将可以提供与最优结果K最初获得的,记住inter-cluster分离性和intra-cluster同质性的水平并不比那些将获得较少的集群。

5.2.4。使用这个工作流通常

的Qluster工作流可以轻松地自动对数据科学家和组织,需要常规方法来集群临床资料。事实上,数据科学家可能创建一个应用此工作流的主要功能,包括通过设置数据的本质(分类/连续/混合),体积(正常/大),每个调用的函数和参数相关。然而,值得一提的是,输入数据的质量和组织的结构被发现的因素可能不允许当前工作流每次识别相关的结果。在这种情况下,数据科学家可以参考上面给出的迹象,或者如果有必要,考虑一种方法更适应他的数据。

6。结论

在本文中,我们提出Qluster一个实际的工作流数据科学家,因为它genericity应用(例如,可用在小或大数据,连续,分类,或混合变量,和数据库的高维的),同时保持了简单的实现和使用(例如,需要几包和算法,一些参数调优,…),和鲁棒性和可靠性的方法(例如,集群的稳定性评价,使用经过验证的算法和健壮的包,和嘈杂或共线数据管理)。因此,它并不依赖于任何创新的方法本身而是在仔细的选择和组合的聚类方法实用目的和鲁棒性。

数据聚类是一个艰巨的任务对于许多数据科学家们面临着大量文献和大量的算法和实现。我们相信,Qluster能(1)提高分析的质量开展此类研究(参考的一部分Qluster的鲁棒性和可靠性标准),促进和缓解集群研究(参考Qlustergenericity标准和简单的使用)提高技能科学家们的一些统计学家/数据(参考文献综述的一般原则Qluster)。此工作流还可用于更有经验的数据科学家首次探索数据之前的设计更深入的分析。

最后,此工作流可以完全实施,使用脚本工具或数据科学平台支持使用R包。作为一个说明性的例子中,我们做了一个实现的Dataiku平台Qluster工作流处理Kaggle数据集(参考附录B)。这个实现是可用的免费版,可以在请求(电子邮件:contact@quinten-france.com)。

数据可用性声明

公开的数据集进行分析。这些数据可以在这里找到:https://www.kaggle.com/sulianova/cardiovascular-disease-dataset。

作者的贡献

在这项研究中先生和PG贡献非常明显。CE和J-DZ是主要的贡献者写作和方法论。所有作者参与写作手稿,导致的修订手稿,并阅读和批准提交的版本。

确认

团队要感谢马丁Montmerle发起的科学研究,导致这项研究工作。团队还要感谢马丁Montmerle博士文森特•诺琴Valentin Masdeu,皮埃尔Tang和山姆Ekhtiari仔细审查这篇文章。最后,团队要感谢Quinten提供机会进行这项研究。

的利益冲突

CE、先生和PG受雇于Quinten。

其余作者宣称,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

脚注

1。^https://www.kaggle.com/sulianova/cardiovascular-disease-dataset?select=cardio_train.csv

2。^进一步的细节,请参阅Celebi (2014)。

3所示。^https://scikit-learn.org/stable/

4所示。^https://cran.r-project.org/web/packages/cluster/index.html

5。^https://cran.r-project.org/web/packages/fpc/index.html

6。^https://cran.r-project.org/web/packages/FactoMineR/index.html

7所示。^https://github.com/MaxHalford/prince

8。^https://cran.r-project.org/web/packages/missMDA/index.htmlpackages

9。^https://cran.r-project.org/web/packages/factoextra/index.html

10。^https://rdrr.io/github/QTCAT/qtcat/man/clarans.html

11。^https://github.com/daveti/pycluster

12。^https://pyclustering.github.io/

13。^https://github.com/sandysa/Interpretable集群

14。^https://cran.r-project.org/web/packages/clValid/index.html

15。^讨论其他可能的标准和方法将它们集成到工作流是在5.1节(例如,管理缺失的数据和异常值)。

16。^例如,凹口任务视图聚类分析:https://cran.r-project.org/web/views/Cluster.html。

17所示。^如方便R包:https://towardsdatascience.com/a-comprehensive-list-of-handy-r-packages-e85dad294b3d。

18岁。^大数据的概念,以及如何修复hyperparameters样品和sampsize在克拉拉算法,可能会有所不同根据用户的系统的计算能力。一个建议用户预先测试不同的场景中这些阈值适应他们自己的设置。为指导,此工作流应用于案例研究4节(34134年观察和九个变量)带着5 h和30分钟8 cpu和10 GB的RAM。

19所示。^值得注意的是,连续数据的标准化建议在使用PCA之前,不要给予过多的重要性与最大方差的变量。

20.^https://www.dataiku.com/

21。^Kaggle:www.kaggle.com/sulianova/cardiovascular-disease-dataset。

22。^https://www.mayoclinic.org/diseases conditions/high -血- pressure/diagnosis treatment/drc - 20373417 #: % CB % 9 c:文本= % 20的血液% % 20 20压力低于2080% % % 20 20毫米汞柱

23。^奖赏en电荷des患者成年atteints d 'hypertension arterielle essentielle -霸权主义个性来2005。https://www.has-sante.fr/upload/docs/application/pdf/2011-09/hta_2005-recommandations.pdf。

24。^可能更喜欢Benzecri Greenacre调整修正,这往往是比Benzecri校正不那么乐观。请注意,这两种方法目前不提出R包中实现,因此必须实现由数据科学家如果需要。R代码提供了Benzecri校正附录C。

25。^同样,用户可能想要对几种方法进行比较选择最优数量的集群,包括其他直接方法(例如,手肘方法总within-cluster平方之和)或方法基于统计测试(例如,差距统计)。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frai.2022.1055294/full补充材料

附录A。描述算法的选择定义genericity库的一些标准,易于实现和使用,和鲁棒性。

附录B。例子Dataiku Qluster工作流的实现的平台。

附录C。从MCA特征值R代码来实现Benzecri校正。

附录D。特征值和方差解释说有或没有Benzecri修正。

附录E。的例子Qluster工作流用于处理缺失值。

引用

Achtert E。、Goldhofer年代。、Kriegel H.-P。舒伯特,E。,Zimek, A. (2012). “Evaluation of clusterings – metrics and visual support,”2012年IEEE 28日数据工程国际会议(位于弗吉尼亚州阿灵顿),1285 - 1288。doi: 10.1109 / ICDE.2012.128