摘要
关于数据分析中的趋势分析、特征工程、因子分析这些专有名词的基本概念~
前言
以下为数据分析过程中常见的一些专用名词解析,记录下来以便随时翻阅,并进行查漏补缺~
趋势分析
集中趋势
集中趋势分析是指一组数据项某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
主要靠均值、中数、众数等统计指标来表示数据的集中趋势
- 均值(连续值):也称平均数,它是全部数据的算术平均。均值在统计学中具有重要的地位,是集中趋势的最主要测度值。
- 中位数(异常值):是一组数据排序后处于中间位置上的变量值
- 众数:是一组数据中出现次数最多的变量值。众数主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。
离中趋势
离中趋势是指一组数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势,又称标志变动度。
主要靠极差、四分差、平均差、方差、标准差等统计指标来研究数据的离中趋势。
-
极差(全距):极差=最大变量值-最小变量值
-
分位差:是从一组数据中剔除了一部分极端值之后重新计算的类似于极差的指标。常用的有四分位差等
四分位差=(第三个四分位数-第一个四分位数)/ 2
-
平均差:是数据组中各数据值与其算术平均数离差绝对值的算术平均数。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。
-
方差:数据组中各数据值与其算术平均数离差平方的算术平均数。
-
标准差:方差的平方根就是标准差。
正态分布的离中趋势:数据落在左右一倍标准差内的概率为69%,落在正负1.96倍的概率为95%,落在正负2.58倍的概率为99%
数据分布
偏态系数:数据平均值偏离状态的以一种衡量,值为正为正偏,为负为负偏
峰态系数:数据分布集中强度的衡量,值越大,顶越尖(正太分布的峰态系数一般是3)
正态分布
正态分布又名高斯分布,若随机变量X服从一个数学期望为μ、方差为σ^2 的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布
正态分布的密度函数的特点是:关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,图像是一条位于x轴上方的钟形曲线。
卡方分布
若n个相互独立的随机变量,均服从标准正态分布N(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为分布。
自由度:通俗讲,样本中独立或能自由变化的自变量的个数,称为自由度
卡方分布特点:卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大;卡方分布趋近于正态分布;随着自由度n的增大,卡方分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。
F分布
设X、Y为两个独立的随机变量,X服从自由度为n的卡方分布,Y服从自由度为m的卡方分布,这两个独立的卡方分布除以各自的自由度以后的比率服从F分布,即两个服从卡方分布的随机变量的比构成
F分布的特点:是一种非对称分布;它有两个自由度,即n-1(分子自由度)和m-1(分母自由度),且不同的自由度决定了F分布的形状。
T分布
假设X服从标准正态分布N(0,1),Y服从卡方 (n)分布,那么Z=X/sqrt(Y/n)的分布称为自由度为n的t分布,即正太分布的一个随机变量除于一个服从卡方分布的变量就是T分布
T分布的特点:以0为中心,左右对称的单峰分布;t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
数据分类
- 定类(类别):根据事物离散、无差别属性进行的分类(例如:性别、名族)
- 定序(顺序):可以界定数据的大小,但不能测定差值(例如:收入的低中高)
- 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点(乘除无意义,例如:摄氏温度)
- 定比(比率):可以界定数据大小,可测定差值,有绝对零点
单因子分析
-
异常值分析:连续异常值、离散异常值、知识异常值
-
对比分析:绝对数比较、相对数比较(结构、比例、比较、动态、强度);
时间维度、空间维度、经验于计划
-
结构分析:静态结构、动态结构
-
分布分析:直接获得概率分布、是否是正态分布、极大似然
多因子分析
-
假设检验
- 建设原假设H0(包括等号),H0的反命题为H1,也叫备择假设
- 选择检验统计量
- 根据显著水平(一般为0.05),确定拒绝域
- 计算p值或者样本统计值,做出判断(一般取双边检验p值)
-
正态检验 – scipy.stats.normaltest(偏度和峰度检验方法)
-
卡方检验(常用于两个因素之间有没有比较强的联系) – scipy.stats.chi2_contingency
-
T分布检验(常用于检验两组样本分布是否一致,例如临床医疗检验药物效果)-- scipy.stats.ttest_ind
-
F检验(常用在方差分析) – scipy.stats.f_oneway
-
相关系数:正相关、负相关、不相关(相关系数越大,越接近1,二者变化趋势越正向同步;相关系数越小,越接近-1,反向同步;相关系数趋近于0可以认为二者是没有关系的)
- pearson
- spearman(只和名次差有关,跟具体的数值关系不大)
-
线性回归:(最小二乘法)因变量和自变量的关系是线性的
- 决定系数越接近1,回归效果越好;越接近0,回归效果越差
- 残差不相关(DW检验)DW值范围0~4,值为2为残差不相关,接近于4代表残差正相关,接近于0代表残差负相关;好的回归残差应该是不相关的
-
主成分分析(PCA) – 降维
- 求 特征协方差矩阵
- 求协方差的特征值和特征向量
- 将特征值按照从大到小的顺序排序,选择其中最大的K个
- 将样本点投影到选区的特征向量上
-
奇异值分解(SVD)
-
LDA降维 – 线性判别式分析
核心思想:投影变换后同一标注内距离尽可能小;不同标注间距离尽可能大
特征工程
简而言之,特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是人工地去设计输入变量X。
目的
特征工程的目的就是获取更好的训练数据
- 特征越好,灵活性越强
- 特征越好,构建的模型越简单
- 特征越好,模型的性能越出色
步骤
- 特征使用:数据选择 – 可用性
- 特征获取:特征来源 – 特征的规整与存储
- 特征处理:数据清洗 – 特征预处理
- 特征监控:现有特征 – 新特征
关于数据清洗
-
数据清洗
- 数据样本抽样
- 样本要具备代表性
- 样本比例要平衡一级样本不平衡是如何处理
- 尽量考虑使用全量数据
- 异常值(空值)处理
- 识别异常值和重复值 – isnull() / duplicated()
- 直接丢弃(包括重复数据) – drop() / dropna() / drop_duplicated()
- 当是否有异常当作一个新的属性,替代原值 – fillna()
- 集中值指代 – fillna()
- 边界值指代 – fillna()
- 插值 – interpolate() – Series
特征预处理
- 数据样本抽样
-
特征预处理
-
标注(标记、标签、label)
-
特征选择 – 剔除与标注不相关或者冗余的特征
- 过滤思想
数据类型 可用方法 连续 — 连续 相关系数、假设检验 连续 — 离散(二值) 相关系数、连续二值化(最小Gini切分,最大熵增益切分) 连续 — 离散(非二值) 相关系数(定序) 离散(二值)— 离散(二值) 相关系数、熵相关、F分值 离散 — 离散(非二值) 熵相关,Gini,相关系数(定序) -
包裹思想 – 遍历特征子集
RFE算法:1、列出特征集合;2、构造简单模型,根据系数去掉弱特征;3、余下特征重复过程,直到评价指标下降较大或者低于阈值,停止
-
嵌入思想 – 根据一个简单模型来分析特征的重要性(正则化/正规化)
-
特征变换
-
对指化 – 先进行对指化,再进行归一化 – 函数Softmax
- 指数化 – 将数值进行指数化
- 对数化 – 数据缩放到较小的尺度内(例如:收入、声音分贝、地震震级)
-
离散化 – 将连续变量分成几段(tips:先排序)
- 等距
- 等宽
-
归一化
(x - xmin) / (xmax - xmin)
-
标准化
-
数值化
- 定类数据 – 标签化 (LabelEncode)
- 定序数据 – 独热 (One-HotEncode )
-
正规化 (1、用在每个对象的各个特征的表示,如特征矩阵的行;2、模型的参数,如回归模型)
L1 正规化 :xi / x的绝对值的和
L2 正规化(欧式距离) :xi / x的平方和的开方
-
-
特征降维
- PCA
- 奇异值
- LDA
-
特征衍生
- 加减乘除
- 求导与高阶求导
- 人工归纳
-
写在末尾
本文仅为数据分析学习过程中遇到的一些名词的解析,记录下来,供随时翻阅,达到查漏补缺的作用,未完待续~