RNA-seq中的那些统计学问题(一)为什么是负二项分布?

RNA-Seq(RNA测序)是一种利用深度测序技术来测量样本中的RNA表达量的方法。在RNA-Seq数据分析中,统计学问题是至关重要的一环,特别是在模型假设和表达量差异的统计推断上。一个关键的统计学问题是:为什么RNA-Seq计数数据使用负二项分布来建模?主要原因有以下几点:

1.离散性和非负性:

RNA-Seq生成的读数是非负的整数计数,这与负二项分布的性质相符合。

2.过度离散(Overdispersion):

在生物学样本中,基因表达水平通常具有变异性,这种变异性往往超过了泊松分布所假设的均值和方差相等的程度。负二项分布相比泊松分布,可以通过一个额外的参数来建模这种过度离散,即允许方差大于均值。

3.生物学变异性:

不同个体之间的生物学差异会导致基因表达水平的变异。负二项分布能够通过引入一个与个体相关的随机效应来考虑这种生物学变异性。

4.技术变异:

测序深度不同、实验操作差异等技术因素也会引入变异。负二项分布模型可以通过引入样本特有的大小因子来校正不同样本间的技术变异。