Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

2023-06-01 0 708

Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

原生动物mRNA组控制技术实现对一般而言细胞核展开详尽的mRNA组分析,其在导出细胞核同质性和鉴别新式细胞核鹦嘴鱼微观具有独有的竞争优势。目前,该控制技术已广为应用应用领域于微生物自然科学应用领域,比如说导出恶性肿瘤微环境细胞核组成、哺乳类胚胎发育等。

随着定序控制技术的迅猛发展,原生动物mRNA组定序控制技术也已成为微生物医学常规性辅助工具之一。不过,自然科学研究相关人员在企图应用应用领域原生动物mRNA组控制技术的时候也遭遇着自相矛盾的优先选择,比如说优先选择何种补植定序网络平台,采用哪种数学方式以及先期的微生物信息学数学方式的优先选择之类。

在此之前,源自人类文明细胞核图表国联的自然科学研究相关人员展开了几项综合型多服务中心自然科学研究,通过采用包涵人类文明、大鼠和狗细胞核的参照样本,比较了13种原生动物mRNA组定序业务流程的分野。结论发现相同业务流程在定量基因表达和辨识细胞核类别微观存在着明显差别。

日前,美国拜占庭艾玛理工学院分子微生物学服务中心的自然科学研究项目组在Nature Biotechnology刊登了专文“A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples”的自然科学微微生物学该文,自然科学研究相关人员结构设计了几项综合型的多服务中心研究,借以评估结果控制技术网络平台、样本共同组成和微生物信息学方式(包括后处理、常量和批号负面效应标定)的影响,并在最后为科研相关人员解决自然科学问题的控制技术网络平台和微生物信息方式的紧密结合提供了课堂教学辅导。

Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

该文刊登在Nature Biotechnology

该自然科学研究采用了三种定序网络平台:10x Genomics,Fluidigm C1, Fluidigm C1 HT和Takara Bio ICELL8;定序工作分别由五个自然科学研究服务中心完成:Loma Linda University(LLU), the National Cancer Institute(NCI), the US Food and Drug Administration(FDA)和Takara BioUSA(TBU)。样本微观,他们采用了有两个特征明显的参照细胞核系:源自同一供者的乳腺癌细胞核系(样本A)和“正常”B淋巴细胞核系(样本B)。然后采用3 或全长原生动物mRNA组定序方式对30,693个原生动物展开了定序,共生成了20个数据集。

针对产生的这20个数据集,自然科学研究相关人员对相同的数据后处理方式、数据标准化方式、批号负面效应矫正方式等展开了评估结果。

Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

e Biotechnology

定序深度与检测基因数的关系

首先,自然科学研究相关人员对序列深度与检测到的基因数量的关系展开了评估结果。正如预期的那样,随着定序深度的增加,检测到的基因数逐渐升高并最终趋于稳定。另外,对于癌细胞核(样本A)和B淋巴细胞核(样本B),随着定序深度的增加,每个细胞核检测到的基因数量迅速增加,特别是Fluidigm C1网络平台。不过,对于全长定序控制技术(C1_LLU和ICELL8),在10万次读取后,饱和速率较慢,在相同的定序深度增加情况下,与基于3’的定序控制技术相比,额外能够检测到的基因较少。

Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

数据预处理方式的比较

对基于UMI(Unique Molecular Identifier)的原生动物mRNA组定序数据,他们比较了三种后处理方式:Cell Ranger 3.1(10x Genomics)、UMI-tools和zUMIs。结论显示,三种方式在辨识细胞核数量和每个细胞核检测到的基因数量微观都存在差别。不过,Cell Ranger V3是最灵敏的细胞核条形码辨识方式,UMI-tools和zUMIs可以过滤大多数低基因或mRNA表达的细胞核,但每个细胞核内可检测到更多的基因。

对非基于UMI的原生动物mRNA组定序数据,他们比较了另外三种后处理方式:featureCounts、kallisto和RSEM。这些数据后处理业务流程包括去除低质量定序数据、基因组比对和基因计数。结论表明,三个相同的后处理方式检测到的基因数量的差别比较大。kallisto在全长mRNA组定序数据中发现了每个细胞核中更多的基因。此外,基于Fluidigm C1 HT 3’定序方式产生的数据中,kallisto方式检测到的每个细胞核的基因数与其它两个管道生成的基因序列有明显差别。

Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

technology

相同批号矫正算法的比较

如上所述,数据集之间的差别可能源自控制技术微观或微生物因素,针对这些控制技术微观带来的差别,在展开数据挖掘时是需要矫正的,否则将会影响最终的结论。自然科学研究者对七种标定批号效应的算法展开基准测试:Seurat version 3、fastMNN、mutual nearest neighbors(MNN)、Scanorama、BBKNN、Harmony、limma和ComBat。

或10%的乳腺癌细胞核(样本A)加入到B淋巴细胞核(样本B)中,用10x Genomics网络平台横跨两个服务中心定序得到。

结论显示,在去除批号负面效应和从B淋巴细胞核中分离乳腺癌细胞核方面,BBKNN、fastMNN和Harmony是最有效的;Seurat V3是将相同批号的相似细胞核聚集在一起的最佳方式之一,特别是对乳腺癌细胞核,但也会存在过度标定的现象,比如说将两种高度相同的细胞核类别融合在一起。另外,当只分析源自10x网络平台的数据时,Scanorama既能清晰地分离相同的细胞核,又能很好地将相似的细胞核组合在一起。

Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

综合上述的分析结论,自然科学研究相关人员对这些后处理方式和算法展开了综合排序,如图5所示,基于UMI的数据可以用文中所列的任何方式展开后处理,而kallisto则更适用于全长mRNA组定序数据的后处理

在跨服务中心数据集,特别是当数据集中存在大量不相似细胞核时,BBKNN表现最好,而limma和ComBat在两种类别的细胞核的跨网络平台、跨服务中心分离中表现最差。Seurat V3、fastMNN和Harmony都能很好地混合源自相同网络平台和位点的生物相同或相似样本的原生动物mRNA组数据。

Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

综上所述,该自然科学研究比较分析了6种原生动物mRNA组数据后处理业务流程、8种常量方式和7种批号校正算法,结论表明,原生动物mRNA组数据之间的确存在批号负面效应,不过,跨服务中心和相同网络平台的数据差别可以通过适当的计算方式展开纠正。同时,该自然科学研究也强调了优先选择适合的定序控制技术网络平台和分析数据算法的重要性。如下图所示,他们也根据本自然科学研究结论为科研相关人员优先选择最适合解决自然科学问题的控制技术网络平台和微生物信息方式的紧密结合提供了课堂教学辅导。

Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果

参照文献:

1.Chen, W., Zhao, Y., Chen, X. et al. A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples. Nat Biotechnol (2020).

2.Haghverdi, L., Lun, A. T. L., Morgan, M. D. & Marioni, J. C. Batch efects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors. Nat. Biotechnol. 36, 421–427 (2018).

3.Butler, A., Hofman, P., Smibert, P., Papalexi, E. & Satija, R. Integrating single-cell transcriptomic data across diferent conditions, technologies, and species. Nat. Biotechnol. 36, 411–420 (2018).

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务