四分位范围|理解,计算和可视化IQR
在描述性统计,四分位范围告诉你分布中间一半的分布。
四分位数将任何从低到高的分布分成四个相等的部分。四分位间距(IQR)包含第二个和第三个四分位,或数据集的中间一半。
而范围给出了整个数据集的分布,四分位范围给出了数据集中间一半的范围。
计算四分位范围
四分位范围是用Q3值减去Q1值得到的:
公式 | 解释 |
---|---|
|
Q1是低于25%的分布的值,而Q3是低于75%的分布的值。
你可以认为Q1是前半段的中位数Q3是后半段的中位数。
寻找四分位范围的方法
虽然只有一个公式,但有各种不同的方法来识别四分位数。根据所使用的方法,您将获得不同的四分位范围值。
在这里,我们将讨论两种最常用的方法。方法的使用方式不同,这些方法也不同中位数.
排他性方法与包容性方法
的独家方法在识别Q1和Q3时排除了中位数,而包容方法在识别四分位数时包含中位数。
根据数据集是奇数还是偶数,寻找中位数的过程是不同的。
- 当你有一个奇数对于数据点,中位数是位于数据集中间的值。您可以在包容性方法和排他性方法之间进行选择。
- 与一个偶数对于数据点,中间有两个值,所以中位数就是它们的值的意思是.在这种情况下,更常用的是使用独占方法。
虽然在寻找四分位数范围的最佳方法上几乎没有共识,但独占的四分位数范围总是更大比包含四分位范围。
排他性四分位范围可能更适合大样本,而对于小样本,包容性四分位范围可能更有代表性,因为它是一个更窄的范围。
独占方法的步骤
为了查看独占方法如何手工工作,我们将使用两个示例:一个具有偶数个数的数据点,另一个具有奇数个数的数据点。
偶数数据集
我们将使用包含10个值的示例数据集完成四个步骤。
第一步:从低到高排列你的价值观。 |
---|
步骤2:找到中位数,然后将它下面的值与它上面的值分开。 |
对于偶数数据集,中位数是的意思是中间的两个值,所以你只需将数据集分成两部分。 |
第三步:找到Q1和Q3。 |
Q1是前半段的中值,Q3是后半段的中值。因为每一半都有奇数个值,所以每一半中间只有一个值。
|
步骤4:计算四分位范围。 |
奇数数据集
这次我们将使用一个有11个值的数据集。
第一步:从低到高排列你的价值观。 |
---|
步骤2:找到中位数,然后将它下面的值与它上面的值分开。 |
在奇数数据集中,中位数是列表中间的数字。中位数本身被排除在两部分之外:一半包含中位数以下的所有值,另一半包含中位数以上的所有值。
|
第三步:找到Q1和Q3。 |
Q1是前半段的中值,Q3是后半段的中值。由于每个半部分的大小都是奇数,所以每个半部分的中间只有一个值。
|
步骤4:计算四分位范围。 |
包含方法的步骤
包含和排除方法的几乎所有步骤都是相同的。不同之处在于数据集是如何分成两部分的。
包含方法有时是奇数数据集的首选方法,因为它不会忽略中位数,即这种类型数据集中的实值。
第一步:从低到高排列你的价值观。 |
---|
第二步:找到中位数。 |
中位数是位于数据集中间的数字。
|
步骤2:将列表分成两部分,并在两部分中都包含中位数。 |
中位数包括前半段的最高值和后半段的最低值。
|
第三步:找到Q1和Q3。 |
Q1是前半段的中值,Q3是后半段的中值。由于两半各包含偶数个值,所以Q1和Q3作为中间值的平均值来计算。
|
步骤4:计算四分位范围。 |
从这些例子中我们可以看出,使用包容性方法可以得到更小的IQR。在相同的数据集上,exclusive IQR为24,inclusive IQR为20。
四分位范围什么时候有用?
四分位间距是衡量倾斜分布可变性的一个特别有用的方法。
对于这些频率分布,中位数是最好的衡量标准集中趋势因为当所有的值从低到高排序时,它是恰好在中间的值。
除了中位数,IQR还可以让你大致了解你的大部分价值所在以及它们的聚集程度。
IQR对于数据集也很有用离群值.因为它是基于分布的中间部分,所以受极值的影响较小。
在箱形图中可视化四分位范围
一个箱线图,或盒须图,使用五位数直观地总结数据集总结.
每个分布都可以使用这五个数字进行组织:
- 最小值
- Q1:第25百分位
- 中位数
- Q3: 75%
- 最高值(第四季)
方框中的垂直线分别表示Q1、中位数和Q3,而末端的晶须分别表示最高值和最低值。
在箱线图中,框的宽度向您显示四分位范围。宽度越小,离散度越小,宽度越大,离散度越高。
包含四分位数范围的宽度小于独占四分位数范围。
箱形图对于显示偏态分布的集中趋势和离散度特别有用。
盒子的位置告诉你方向斜.靠近右边的方框表示分布呈负偏态,靠近左边的方框表示分布呈正偏态。
关于四分位范围的常见问题
- 计算四分位极差的两种主要方法是什么?
-
两种最常用的计算方法四分位范围是排他性和包容性的方法。
排他性方法在识别Q1和Q3时排除中位数,而包容性方法在识别四分位数时将中位数作为数据集中的一个值。
对于每一种方法,你都需要不同的步骤来找到中位数,Q1和Q3,这取决于你的样本容量是偶数还是奇数。排他性方法最适用于偶数样本量,而包容性方法通常用于奇数样本量。
引用这篇Scribbr文章
如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。