集群分析是什么完全初创者指南

Austin Chia为职业Foundry博客撰稿

何时数据分析大组数据数组,你可能会被信息量压倒

假设中建议基于相似点分离数据点 使事物更容易启动

你有没有听说过集群分析?

多数据专业人士识别离散分组的基本方式, 但仍有许多初创者对集群分析及其原理仍置之不理。

博客文章中,我们将向大家介绍集群分析概念、其优缺点、常用算法、评价方法以及实战应用

覆盖下方

  1. 集群分析:它是什么和它如何工作
  2. 集群分析有什么长处
  3. 聚类算法:用哪个
  4. 集群分析评价度量
  5. 实境集群分析应用
  6. 密钥外送

加入我们深入集群分析基础帮助启动

开工集群分析:它是什么和它如何工作

为了帮助你更好地了解集群分析,让我们重温定义优先

集群分析是什么

集群分析图示例
源码 : wikimedia公共

集群分析是一种统计技术,根据相似性或模式将不同对象、数据点或观察分组或集群分类

可视集群分析为查找数据自然分组

集群分析如何工作

集群分析包括分析一组数据并将相似观察归为不同的集群,从而识别数据底层模式和关系

集群分析广泛使用vwin德赢娱乐官网跨领域,如营销、生物学、社会学、图像识别和模式识别

集群分析因集群算法使用类型而异

二叉集群分析有什么长处

集群分析概念听起来棒极了-但实际好处何在?

列表中写道

识别群和关系

集群分析可帮助识别大数据集中的群和关系可能不易显.

深入理解数据底层结构

使用集群分析的最大好处可能是有能力查找大数据集相似点和异点,帮助识别新趋势和进一步研究机会

减少数据复杂性

集群分析可用于减少大数据集复杂性,更容易分析和解释数据

举例说,通过对相似对象分组,数据维度数可减少这可能带来快速简化分析的好处

聚类还可能有助于排除无关无相似性数据产生效果后,你将有一个更精简分析过程

改善视觉表示

集群分析往往产生数据集群可视化,例如散射图或叉度图

可视化可强工具传递复杂信息集群图对大多数人简单解析,这可选入演示文稿

3级聚类算法:用哪个

上面提到 当启动集群分析时 需要从合适的集群算法中选择

外头有几类集群算法 每种算法使用方式不同

以下是五大类聚类算法

开工中心聚类

中心聚类是一种聚类法类型,分治或拆分数据集类基于距离 他们的croid.

集群的中值或中值从数学上确定为集群所有点的平均值或中值

机器人集群图实例
源码 :通过 稀疏自创工作CC BY-SA3.0

k值聚类算法常用机器人聚类技术这种方法假设每个集群中心代表每个集群

目的是通过迭代最小化点与分配聚类小机器人之间的总距离查找给定数据集中最优k集群

以机器人为主的其他聚类方法包括模糊c-.

二叉连通性聚类

基于连通性聚类,又称层次聚类,基于属性近连通性分组数据点

简言之,这个方法确定集群基础是如何接近数据点思想是近距离对象比相距遥远对象更近关联

实施基于连通聚类时, 需要确定数据点使用并用距离度度测量相似性或异性

后构建连接度量(如图或网络)以建立数据点之间的关系

集群算法使用连通性信息分组数据点并分组反映底层相似性

典型可视化登盘树形像层次树形

3级分布式聚类

基于分布聚类汇总数据点

不同于基于croid集群,它使用统计模式识别数据内集群

分布式聚类使用的一些常用算法如下:

  • 高斯混合模型
  • 期望最大化

高斯混合模型中集群通过查找分布相似的数据点来确定

分布式聚类极易超配,聚类太依赖数据集,无法准确预测。

4级密度聚类

密度聚类是一种强而无监督机器学习技术,使我们能够发现数据集中稠密数据点集群

与其他集群算法不同,如K值和层次聚类,密度聚类可发现形状、大小或密度的集群

密度聚类处理噪声或异常数据集时或当我们事先对数据集群数不知情时特别有用

关键特征如下:

  • 可发现任意形状和大小集群
  • 可处理噪声异端
  • 无需事先说明集群数
  • 可处理非线性非参数数据集

列表中有一些常见密度聚类算法

  • DBSCAN使用噪声空间聚类
  • OFCICS(定点识别集群结构)
  • HDBSCAN(基于层次密度空间集群应用噪声

5级网格聚类

网格聚类分解高维数据集入单元(互连非重叠子区集)。

向每个单元格分配一个唯一标识符,称为单元格标识符,单元格内所有数据点都被视为同一集群的一部分。

网格聚类法高效分析大型多维数据集,因为它减少了搜索近邻所需的时间,这是多聚类方法中常见的一步。

4级集群分析评价度量

组合分析有几种评价尺度,选择合适的尺度取决于集群算法使用类型和数据理解

评价尺度可大致划分为两大类:

  1. 异常度量
  2. 固有度量

以下是群集分析常用评价度量

开工异常度量

异常度量使用地面真或外部信息评价集群算法性能

地面真数据标签数据确认每个数据点所属类或集群

异常度量当我们知道真标签并想评价集群算法的性能时使用

常用异端计量法包括:

  • F-measure/F-score:此度量判断集群算法的精度,即查看精度和回召
  • 纯度:本度量数据点分数正确分配到同类或集群
  • 兰德索引:这是测量集群算法真实标签和预测标签相似性的一个尺度,介于0至1之间高值表示组合性能更好

二叉固有度量

固有度量指集群分析评价度量,仅使用数据集内信息

换句话说,它们测量集群算法的质量 基于数据集内数据点关系可当我们没有数据前科或标签时使用

常用固有度量包括:

  • 轮廓评分:本度量每个数据点对其本身集群和所有其他集群的相似性和异性
  • Davies-Bouldin索引:本度计算集群内距离对集群间距离之比指数分数越低,聚类性能越好
  • Calinski-Harabasz索引: 并称差异比标准,本计量组间差异和组内差异之比Calinski-Harabasz比越高,集群定义越多

评估尺度可帮助比较不同集群算法和模型性能,优化集群参数并验证集群结果的精度和质量

使用多评价度量法确保集群算法有效性和为集群分析做出稳健决策总是推荐使用

5级实境集群分析应用

集群分析是一种强健无监督学习技术,在若干行业和领域广泛使用,用于数据分析集群分析实战应用

开工市场分割

公司分组分析分解客户基础

不同的客户属性分析,例如:

  • 岁数
  • 性别类
  • 购买行为
  • 位置定位

企业可以更好地了解客户基础并设计目标营销策略满足需求

二叉图像分割保健

医学从业者使用聚类技术分段图象分解受感染组织

技术使临床医生能够检测癌症或其它疾病的早期信号

3级推荐引擎

大公司如Netflix、Spotify和YouTube使用集群算法分析用户数据并推荐电影或产品

技术检验用户行为数据,如点击数、特定内容持续时间和重播数

这些数据点可分组查找用户偏好并改进对用户的现有建议

4级风险分析保险

保险公司利用聚类分析划分各种策略和客户风险水平

通过应用集群技术,保险公司可更好地量化保单风险并基于潜在风险收费溢价

5级社交媒体分析

社交媒体应用从用户收集大量数据最近围绕TikTok等应用或Meta新Twitter线程提醒良好

通过聚类和检查社会交互作用,用户可以基于年龄、人口学或购买行为划分成定向广告,提高广告总体使用率

6级密钥外送

如你所见集群分析是一种强健无监督学习技术

重想一下,这里有一些密钥外送

  • 分析数据时带来许多长处,例如精简分析以及通过可视化表示数据
  • 集群算法必须根据其类型仔细选择,以求最佳结果
  • 异常固有计量法必须评估以确定聚类的有效性
  • 集群分析可应用到不同行业

下一步是什么vwin德赢娱乐官网开始数据分析实用工作 试OrviceFoundryvwin德赢娱乐官网免费5天数据解析课程设置或更好,与程序顾问对话观察数据生涯如何适合你

vwin德赢娱乐官网数据分析内其他领域更多相关阅读,请查下下文:

职业Foundry是什么

职业Foundry网际学校面向面向技术生涯选择程序 并配专家导师教程 并成为准备工作设计师 开发师 分析师

深入了解程序
blog-footer-image