卡方(Χ²)分布|定义与示例

一个卡方检验(Χ2)分布是连续的概率分布这在很多假设检验中被使用。

卡方分布的形状由参数决定k。下图显示了不同值的卡方分布示例k

卡方分布

卡方分布是什么?

卡方检验(Χ2)分布是连续概率分布的一族。它们被广泛应用于假设测试,包括卡方拟合优度检验和卡方独立性检验。

卡方分布的形状是由参数k,表示自由度

现实世界中很少有观察结果遵循卡方分布。卡方分布的主要目的是假设检验,而不是描述真实世界的分布。

相比之下,大多数其他广泛使用的发行版,如正态分布泊松分布,可以分别描述新生儿出生体重或每年的疾病病例等有用的数据。

与标准正态分布的关系

卡方分布对于假设检验是有用的,因为它们与标准正态分布.标准正态分布,即均值为0,方差为1的正态分布,是许多重要分布的中心统计测试和理论。

想象一下随机样本的标准正态分布(Z).如果你把样本中所有的值平方,你就会得到卡方分布k= 1。

Χ21= (Z2

现在想象从两个标准正态分布(Z1而且Z2).如果你每次采样一对值,你把它们平方,然后把它们相加,你就会得到卡方分布k= 2。

Χ22= (Z12+ (Z22

更一般地说,如果你从k独立的标准正态分布然后平方和,你会得到卡方分布k自由度

Χ2k= (Z12+ (Z22+…+Zk2

卡方检验统计量(公式)

卡方测试假设检验测试统计数据遵循卡方分布零假设.皮尔逊卡方检验是第一个被发现的卡方检验,也是应用最广泛的。

Pearson卡方检验统计量为:

公式 解释
$X^2 = \sum {\frac {(O - E)^2}{E}}$ 在哪里

  • X²是卡方检验统计量
  • \和美元 是求和运算符(它的意思是“取的和”)
  • O美元 为观测频率
  • E美元 是期望频率

如果你对人口计算每个样本的Pearson卡方检验统计量,如果零假设成立,检验统计量将遵循卡方分布。

校对对你的论文有什么好处?

Scribbr编辑不仅纠正语法和拼写错误,还通过确保你的论文没有模糊的语言、多余的单词和尴尬的措辞来加强你的写作。

参见编辑示例

卡方分布的形状

我们可以看到卡方分布的形状如何随着自由度(k)通过观察卡方概率密度函数的图形来增加。概率密度函数是描述A的函数连续概率分布

k是一还是二

k为1或2时,卡方分布是一个倒“j”形的曲线。曲线开始时很高,然后下降,这意味着Χ²很有可能接近于零。

卡方分布k=1

k大于2

k大于2时,卡方分布呈驼峰状。曲线开始较低,上升,然后再次下降。Χ²非常接近或非常远离零的概率很低。Χ²的最可能值是Χ²−2。

k仅略大于2,分布在其峰值的右侧比其左侧长得多(即,它是强右偏态).

卡方分布k=3

作为k增加后,分布看起来越来越像a正态分布.事实上,当k大于90时,正态分布是卡方分布的一个很好的近似值。

卡方分布k = 90

卡方分布的性质

卡方分布从0开始,一直到无穷大。卡方分布从0开始,因为它描述了随机变量的平方和,平方数不可能是负数。

卡方分布的均值(μ)是其自由度,k。因为卡方分布是右偏的,所以均值大于中位数和模式。卡方分布的方差为2k。

卡方分布的性质
财产 价值
连续或离散 连续
的意思是 k
模式 k−2(当k> 2)
方差 2k
标准偏差 $ \ sqrt {2 k} $
范围 0到∞
对称 不对称的(右偏态),但越来越对称k增加。

卡方分布的例子应用

卡方分布出现在许多统计检验和理论中。以下是卡方分布的一些最常见的应用。

皮尔逊卡方检验

卡方分布最常见的应用之一是皮尔逊卡方检验。皮尔逊卡方检验是对分类数据.它们用于确定您的数据是否与您的预期有显著差异。皮尔逊卡方检验有两种类型:

例子:皮尔逊卡方检验
一家销售衬衫的公司想知道他们所有的衬衫颜色是否都一样受欢迎,所以他们记录了一周每种衬衫颜色的销量。

每种颜色衬衫的销售量
颜色 频率
红色的 30.
灰色的 29
黄色的 26
粉红色的 33
黑色的 56
白色 90
蓝色的 86

因为总共有350件衬衫售出,每种颜色50件的销量是完全相等的。很明显,每种颜色的销量并不是50。然而,这只是一个星期的样本,所以我们应该预料到数字会有一点不平等。

样本是否提供了足够的证据来得出结论,不同颜色的衬衫销售频率确实不同?

卡方拟合优度检验可以检验观察到的频率是否为显著不同于等频率。通过将皮尔逊卡方检验统计量与适当的卡方分布进行比较,该公司可以计算出这些衬衫销售值(或更极端的值)因偶然而发生的概率。

总体方差推断

卡方分布也可以用来推断总体的分布方差(σ²)或标准偏差(σ)。使用卡方分布,您可以测试假设,即总体方差等于某个值使用单方差检验或者计算总体方差的置信区间。

示例:单方差检验
大型工会希望确保所有资历相同的工人都能获得类似的工资。他们的目标是每小时工资的标准差小于2美元。

为了测试他们是否达到了目标,工会随机挑选了30名资历相同的工人。它发现样本的标准差是1.98美元。这略低于2美元,但这只是一个样本。是否有足够的证据得出结论,所有具有相同资历的工人的真实标准差都小于2美元?

工会可以使用单个方差的检验来找出标准偏差(σ)是否与$2有显著差异。

通过比较卡方检验统计量与适当的卡方分布,工会可以决定是否拒绝原假设

F分布的定义

卡方分布在定义F分布,用于方差分析

假设你从卡方分布中随机抽取样本,然后将样本除以k分布的。接下来,用不同的卡方分布重复这个过程。如果取两个分布值的比值,就会得到F分布。

非中心卡方分布

非中心卡方分布是卡方分布的一个更一般的版本。它被用于某些类型动力分析

非中心卡方分布有一个额外的参数称为λ (lambda)或非中心参数。该参数改变分布的形状,将峰值向右移动并增加方差随着λ的增加。

卡方分布k=5

λ参数通过定义的均值来工作正态分布卡方分布下.例如,您可以生成λ = 2和的非中心卡方分布k通过从三个正态分布中采样的值的平方和求和,每个正态分布的均值为2,方差为1,得到= 3。

卡方分布的常见问题

当自由度(k)增加时,卡方分布的形状会发生什么变化?

作为自由度(k)增加,卡方分布从一个向下的曲线变成了一个驼峰形状。随着自由度的进一步增加,驼峰从强右偏态到接近正常。

卡方分布有什么性质?

一个卡方分布是一个连续概率分布.卡方分布的形状取决于它自由度k.卡方分布的均值等于其自由度(k)及方差是2k.范围是0到∞。

引用这篇Scribbr文章

如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。

特尼,S.(2022年11月28日)。卡方(Χ²)分布|定义与示例。Scribbr。2023年1月3日,从//www.dandarfirm.com/statistics/chi-square-distributions/检索

这篇文章有用吗?
肖恩·特尼

在他的硕士和博士期间,Shaun学习了如何将科学和统计方法应用到他的生态学研究中。现在,他喜欢教学生如何为他们自己的论文和研究项目收集和分析数据。
Baidu