首页/新闻中心

复旦大学类脑研究院生物医学AI赵兴明教授团队提出基于深度孪生神经网络的宏基因组分箱算法

发布时间:2022-05-15

宏基因组测序技术已经广泛运用于微生物的研究当中,研究者使用计算方法从测序数据中重构出大量来自于人类,动物以及环境的微生物基因组用于后续的分析研究。通常的处理流程包括测序数据的组装(Assembly)和分箱(Binning)。目前广泛使用的宏基因组分箱方法均为无监督(不依赖于参考基因组)的方法,忽略了参考基因组中的信息。复旦大学类脑研究院生物医学AI团队提出了一个半监督的宏基因组分箱算法.SemiBin(https://github.com/BigDataBiology/SemiBin),使用深度孪生网络结合了参考基因组中的信息,在GMGC(Global Microbial Gene Catalog) 数据库的10个环境中,均超越了目前最好的分箱算法。

SemiBin在多个模拟数据和真实数据集上取得了良好性能。在人类肠道、狗肠道、海洋以及土壤的真实环境中,使用单样本分箱情况下,相比于目前最好的分箱工具,SemiBin能够多重构出41.2%,72.0%,48.7%和61.0%的高质量基因组;使用多样本分箱,SemiBin能够多重构出17.5%,11.0%,30.7%和171.4%的高质量基因组(见图1)。SemiBin已经能够得到很好的分箱结果,但是物种注释以及模型的训练仍然需要很大的计算资源,限制了SemiBin在大型数据分析中的应用。为此,提出了SemiBin(pretrain),从多个样本中进行预训练,然后将训练得到的模型直接应用于其他的样本,可以大大加快分箱的速度。与此同时,SemiBin(pretrain)可以得到更好的结果,相比于Metabat2,SemiBin(pretrain)可以多重构出60.4%,99.2%,48.0%和74.6%的高质量基因组。


图片


图1. SemiBin在真实数据上的结果。(a)不同数量的样本用于预训练对于结果的影响;(b)4个真实环境中的benchmark结果。

这一研究成果已于2022年4月28日发表在Nature Communications期刊。复旦大学类脑智能科学与技术研究院生物医学AI团队的博士生潘少军是本研究的第一作者,赵兴明教授和Luis Pedro Coelho青年研究员为本论文的共同通讯作者。