北京基因组所等开发从低区分率Hi-C数据中提取高区分率3D基因组结构的新要领
高等真核生物的核内运动, 从基因转录,DNA的复制到DNA损伤修复等,都与基因组的三维空间结构息息相关。因此,3D基因组研究成为近年来的前沿热门领域。Hi-C是现在最常见的全基因组检测染色质三维结构的组学手艺。然而,由于Hi-C具有区分率相对较低,测序量要求极高的特点,在类似精准医学人群行列这样的大规模项目中,开展高精度的3D基因组研究在经济上险些无法实现。怎样低本钱快速的获得高区分率的染色质空间结构,成为大规�?�3D基因组研究的一大瓶颈。
4001老百汇网站张治华研究组与软件所李昂生研究组合作,开发了使用低区分率的Hi-C团结其他表观组数据,展望高区分率的染色质结构域和染色质相互作用的新要领,使得在大样本中,快速、低本钱获得染色质高精度结组成为一种可能。该研究以Decoding Topologically Associating Domains with Ultra-low resolution Hi-C Data by Graph Structural Entropy为题于8月15日在线揭晓于Nature Communications上。
该要领主要应用低区分率的Hi-C展望高区分率的染色质拓扑结构域(TAD)�;诶畎荷哦又奘莱さ慕峁剐畔㈧乩砺�,该研究创立性的把Hi-C数据看作是一个相互毗连的网络,开发了deDoc算法。新算法显著区别于目今的其他要领,可以直接用使用原始测序数据而不需要归一化。准确的归一化要领对其他的软件来说十分要害,不适当的归一化往往会获得糟糕甚至是过失的效果。别的,新算法对数据总量的依赖很是低。测试发明,纵然只使用低至十个单细胞的Hi-C数据聚合,也可以很清晰的判断出类似拓扑结构域的结构。由于deDoc的上述两个主要特征,使得deDoc可以成为在大人群行列中举行高精度三维基因组研究的主要工具。
张治华团队一直致力于染色质三维结构研究,此前研究开发了准确展望染色质相互作用的算法CISD_loop,该算法使用真核生物核小体在基因组上排布的不匀称性,从核小体的排布方法上来推断高精度的染色体相互作用位点,进一步引入低区分率的HI-C数据来展望染色质的相互作用。通过欠抽样实验,发明只要极低区分率的Hi-C数据,CISD_loop就可以高区分率展望染色质的相互作用。
上述源代码可以通过github下载,研究获得国家自然基金委和科技部“973”的项目资助。
deDoc
CISD_loop