北京基因组所(国家生物信息中心)等合作研发单细胞和空间转录组中环形RNA深度学习算法
环形RNA是一类普遍表达的非编码RNA,有较高的细胞类型及组织表达特异性,在器官发育及肿瘤爆发等历程中起着主要的调控作用�;沸蜶NA由3‘端的受体位点和5’端的供体位点共价毗连形成,这一历程被称为反向剪接,然而由于缺少poly(A)尾,环形RNA无法被经由polyA富集等转录组建库方法有用捕获。因此,环形RNA的表达信息在绝大部分单细胞以及空间转录组数据中缺失。为了获得富厚的单细胞及空间水平的环形RNA表达信息,需要研发新型环形RNA表达展望算法。
4001老百汇网站(国家生物信息中心)高远团队与4001老百汇网站北京生命科学研究院赵方庆团队团结研发了深度学习模子CIRI-deep,以准确展望差别样本间的差别剪接环形RNA。该模子从环形RNA调控机制角度出发,整合了3527个环形RNA特异的顺式元件以及1499个样本特异的反式因子作为输入特征,且不依赖于古板的反向剪接信号识别,可以在恣意转录组样本间展望差别剪接的环形RNA。评估效果批注,CIRI-deep可以实现多种转录组测序数据中差别剪接环形RNA的可靠展望,并在单细胞及空间水平实现细胞类型特异环形RNA的准确剖析,具有普遍的应用场景。
研究团队首先从397个深度测序的全转录组(total RNA-seq)样本中识别了凌驾2500万高度可信的环形RNA差别剪接事务。由于这些剪接事务笼罩了25小我私家体组织,使用它们作为训练集,使CIRI-deep具有优异的泛化性能。CIRI-deep在测试数据集上的AUROC值抵达了0.906,并且可以准确展望来自非训练集病理条件与正常样本间的环形RNA差别剪接。别的,在低深度测序的转录本中,CIRI-deep对差别环形RNA的展望效果优于基于reads数的统计磨练要领。
为相识释CIRI-deep的展望原理,研究团队研发了一种深度学习可诠释性剖析框架Adapted Integrated Gradient(AIG),以量化剖析组织特异环形RNA的调控因素及其孝顺。效果批注,相较于基因序列结构等顺式元件,RNA团结卵白等反式因子的表达水平对展望准确性的孝顺更大,且具有更强的组织特异性。该剖析框架验证了已知的环形RNA剪接的调控因素,如剪接位点,内含子区域的Alu元件,FUS卵白的表达等,也提醒了之前未发明的潜在调控因子如NOVA2,KHDRBS3等对环形RNA剪接的影响。
为了从polyA富集测序的单细胞以及空间转录组数据中挖掘环形RNA表达水平差别,研究团队进一步使用polyA数据训练了CIRI-deepA模子。效果批注,CIRI-deepA的展望体现大幅凌驾直接使用polyA数据推断差别剪接环形RNA的效果。在脑胶质瘤数据集上应用CIRI-deepA批注该模子可有用展望肿瘤细胞群体和康健细胞群体之间的差别剪接环形RNA。研究团队也将CIRI-deepA应用到了10X单细胞数据集上,准确展望了差别细胞群体的特异高表达环形RNA。另外,在空间转录组数据中,CIRI-deepA可用于展望空间区域特异高表达的环形RNA,并实现对环形RNA表达举行空间区域水平的可视化。使用CIRI-deepA展望的高度特异表达环形RNA,可进一步剖析差别区域的细胞类型组成。
综上所述,CIRI-deep模子可有用用于各转录组样本间推断差别剪接环形RNA,极大拓展了环形RNA的研究规模,为环形RNA研究提供了新的高效剖析要领。同时,CIRI-deepA模子可以提供单细胞及空间水平环形RNA的有用剖析,为挖掘细胞类型特异的环形RNA标记物提供了主要的要领学工具。
该效果以“CIRI-Deep Enables Single-Cell and Spatial Transcriptomic Analysis of Circular RNAs with Deep Learning”为题,于2月2日揭晓于Advanced Science?期刊。4001老百汇网站(国家生物信息中心)高远研究员以及北京生命科学研究院赵方庆研究员为本文的通讯作者,北京基因组研究所博士研究生周子菡和北京生命科学研究院张金阳副研究员为本文的配合第一作者。该研究获得了国家重点研发妄想、国家自然科学基金及中科院人才等项目的资助。
基于深度学习的环形RNA差别剪接展望算法CIRI-deep
论文链接
CIRI-deep在线测试版