偏度|定义,例子和公式
偏态是对分布不对称性的一种度量。当一个分布的左右两边不是镜像时,它就是不对称的。
分布可以有右(或正)、左(或负)或零偏度。右偏分布的峰值右侧较长,左偏分布的峰值左侧较长:
你可能想要计算分布的偏度为:
什么是零倾斜?
当一个分布有零倾斜时,它是对称的。它的左右两边是镜像。
正态分布有零倾斜,但它们不是唯一有零倾斜的分布。任何对称分布,如均匀分布或一些双峰(双峰)分布,也会有零倾斜。
检查一个变量是否具有倾斜分布的最简单方法是将其绘制在直方图中。例如,六周大的小鸡的体重如下面的直方图所示。
该分布近似对称,观测值在其峰值的左右两侧分布相似。因此,该分布具有近似为零的歪斜。
例如,小鸡的平均体重是261.3克,中位数是258克。平均值和中位数几乎相等。它们不是完全相等的因为样本分布的偏态很小。
虽然理论上的分布(如z分布)可以有零倾斜,实际数据几乎总是有至少一点倾斜。然而,如果一个分布接近对称,出于实际目的,例如验证模型假设,它通常被认为具有零倾斜。
什么是右偏(正偏)?
右偏分布的峰值右侧比左侧更长。右偏也称为正偏。
你可以用尾巴来考虑偏度。尾巴是分布的一个长而逐渐变细的末端。这表明在分布的一个极端端存在观测,但它们相对较少。右偏分布的右侧有一个长尾。
每年观测到的太阳黑子的数量,如下面的直方图所示,是右偏分布的一个例子。太阳黑子是太阳表面较暗、较冷的区域,天文学家在1749年至1983年间观测到。
分布是右偏的,因为它在峰值的右侧更长。右边有一个长尾,这意味着每隔几十年就会有一年观测到的太阳黑子数量远远高于平均水平。
的的意思是右偏分布的值总是大于中位数.这是因为极端值(尾部的值)对平均值的影响大于中位数。
例如,每年观测到的太阳黑子的平均数量为48.6个,大于39个的中位数。
什么是左偏(负偏)?
左偏分布的峰值左侧比右侧更长。换句话说,左偏分布的左侧有一个长尾。左偏也称为负偏。
考试成绩通常呈左偏分布,大多数学生表现相对较好,少数学生表现远低于平均水平。下面的直方图显示了印度学生在高中结束时参加的标准化考试中动物学部分的分数。
分布是左偏的,因为它在峰值的左边更长。左边的长尾代表了分数很低的一小部分学生。
例如,生态测试的平均分数为53.7分,低于中位数(55分)。
如何计算偏度
有几个公式可以测量偏度。最简单的一个是皮尔逊的中位数偏度。它利用了一个事实,即在倾斜分布中,平均值和中位数是不相等的。
皮尔逊中位数偏度告诉你有多少标准差分开均值和中值。
真实的观察很少有恰好为0的皮尔逊中位数偏度。如果数据的值接近0,则可以认为它具有零倾斜。对于怎样才算“足够接近”0并没有标准的约定(尽管本研究建议0.4和−0.4是大样本的合理边界)。
如果你的数据有偏差该怎么办
检查分布是否倾斜的一个原因是验证数据是否适合某个统计过程。许多统计程序假设变量或残差为正态分布.歪斜是分布与正态分布不同的一种常见方式。
如果你的统计过程需要一个正态分布,而你的数据是倾斜的,你通常有三个选择:
- 使用不同的模型.你可能想要选择一个不假设正态分布的模型。非参数测试或者广义线性模型更适合你的数据。
- 变换变量.另一种选择是转换一个倾斜的变量,使其倾斜程度降低。“变换”是指将相同的函数应用于一个变量的所有观测值。
倾斜类型 | 倾斜强度 | 转换 |
正确的 | 温和的 | 不要变换 |
温和的 | 平方根 | |
强大的 | 自然对数 | |
非常强烈的 | 以10为底的对数 | |
左 | 温和的 | 不要变换 |
温和的 | 反射*然后平方根 | |
强大的 | 然后是自然对数 | |
非常强烈的 | 反射*然后log以10为底 |
*在这种情况下,“reflect”的意思是采取最大的观察,K,然后减去每个观察到的K+ 1。请记住,反射反转了变量的方向及其与其他变量的关系(即,正关系变为负关系)。
由于每年观测到的太阳黑子数量是右偏的,你可以尝试通过转换变量来解决这个问题。你也可以忽略倾斜,因为线性回归对倾斜不是很敏感。
从一个平方根变换开始。如果这还不足以纠正倾斜,您可以转到下一个转换选项。
每年太阳黑子的数量 | 根数(每年太阳黑子数) |
5 | 2236年 |
11 | 3317年 |
16 | 4,000 |
23 | 4796年 |
... | ... |
当您在直方图上绘制转换后的变量时,您可以看到它现在有接近于零的倾斜。你可以用线性回归中转换后的变量替换每年太阳黑子的数量。线性回归的残差很可能是正态分布的。
实践问题
关于偏度的常见问题
引用这篇Scribbr文章
如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。