32统计基础- 分位数和百分位数

我们共检测了15个基因的表达。这是中位数,50%的基因表达量较高,50%的基因表达量较低。中位数(median)是分位数(quantile),由于它将数据分成包含一样数量数据的组。有时,这个分位数(中位数)被标记为0.5(由于它把数据分成两半),有时它被标记为50%(由于50%的数据在它上面,50%在它下面)。中位数是4.5,因此50%的分位数是4.5。

中位数是一个分位数,由于它将数据分成大小相等的组。这被称为0.5分位数或50%分位数。无论哪种表明法是“正确的”,您都可能看到它们。

32统计基础- 分位数和百分位数

目前我们又添加了两条线。连同第一条线,他们把数据分成4个大小一样的组。这些新线是分位数,由于它们将数据分成了同样大小的组。有0.25或25%分位数,由于有四分之一(或25%)的点小于它。0.75或75%分位数,由于四分之三(或75%)的点都小于它。

一般,分位数只是将数据划分为同等大小的组的行。这是定义。从定义上讲,百分位数(percentiles)只是将数据分成100个一样大小的组的分位数。不过,在实践中,这个术语要灵活得多。即使这个数据集不够大,不能分成100个组,我们依旧将中位数(或50%分位数)称为50百分位数。

32统计基础- 分位数和百分位数

一般,当我们将每个数据点划分到它自己的组时,会使用“分位数”和“百分位数”这两个术语。由于没有任何值小于底部的这个值,所以它被称为0%分位数,或第0个百分位数。

32统计基础- 分位数和百分位数

到目前为止,我已经向你们展示了一种计算分位数百分位数的方法,不过还有更多的方法。R的quantile()函数提供了9种不同的方法来计算分位数,每一种方法都会产生稍微不同的结果。这意味着,如果你的数据集很小,不要在分位数中存放太多数据,由于它们会在不同方法(和不同样本)之间发生很大变化。不过,当您的数据集很大时,所有的方法都会给出相当类似的结果。

© 版权声明

相关文章

暂无评论

none
暂无评论...