differential expression for RNA-Seq data

rna-seqblog看到这篇paper,他们对流行的寻找差异基因的方法多了评测,压根没提到DEGSeq,我看到在bioconductor上面,DEGSeq的下载量只有DESeq、edgeR的一半,所以人家说‘流行的’就把DEGSeq排除在外了。

不过这里要说的主角是另一本书,在翻看前述论文时看到的,打来不禁有相见恨晚的感叹,原书还没看完,这里把里面的一些要点记录下来。
###microarray和sequencing
RNA-Seq相比microarray的优点已经被谈得够多了,这里作者同样讲了RNA-Seq的不足:

  • RNA-Seq数据有GC偏好
  • mapping的不确定对基因组不同区域的影响是不一样的
  • RNA-Seq比较不同处理下的基因表达水平有偏好性。RNA-Seq的统计方法对高counts的检测能力要比低counts强,也就是说RNA-Seq会倾向于将长度更长的基因算作差异(DE)基因。
  • RNA-Seq的高灵敏性带来的问题是,提取、富集RNA,RNA片段化和转化成cDNA的过程中都有更大的带来偏差的可能。如小RNA提取的方法强烈影响得到的序列集合。
  • RNA-Seq数据更复杂,数据分析可能是瓶颈。

###mapping
主要有两类方法:基于hash-tables;基于Burrows Wheeler Transform

  • hash-tables优点是可以找出用户指定的所有structural variants,确定是内存要求高。
  • BWT相比前者使用内存更经济,缺点是,BWT确认错配的方法涉及把每个read的大量可能组合进行比对,二这需要相当大的计算量。很多实现方法对此的处理是,不穷尽所有错配比对,这也就意味着一些正确的比对丢失了。

###RNA-Seq实验设计

  • 生物学重复重要性:如果我们比较一个癌症组织和一个正常组织,那么我们下的任何一个结论都不能推广到其癌组织群和正常组织群,因为分析过程没有考虑癌组织与癌组子和正常组织与正常组织间潜在的巨大差异。我们的结论仅适用于该研究的样本。
  • 上样的时候要考虑到不同lane,不同flow cell之间存在的系统差异
  • reads长度的确定。更长的reads花费多,但map到trancriptome会更多,对外显子-外显子间连接区分能力更强,发现更多的遗传变异,但是DE的发现来自reads密度,而不是序列覆盖度。总之,是用更长的reads来换取‘mappability’,还是用更深的测序深度换取更多的reads密度呢?作者给的答案是,投资与‘mappability’所获通常比较小。
  • paried-end reads: PE-reads可以有更多的reads map到转录组或基因组上,有助于发现结构变异,然而PE-reads带来的更多花费并不能增加检测DE的强度。

EOF