M88体育-明升M88体育

M88体育-明升M88体育

M88体育-明升M88体育

媒体M88体育
首页 / 媒体M88体育 / 正文
【中国科学报】用大数据,“秒懂”功能基因朋友圈

■本报记者 李晨

科学家利用经典遗传学手段,克隆并解析了一批重要的功能基因。然而,在功能基因组提出二十几年后的今天,水稻和玉米中克隆的功能基因仍不到其所有基因的10%,已克隆基因的新功能也在不断被发现。

如何快速克隆功能基因、解析重要性状变异的分子机制,并全局解码重要作物的遗传变异奥秘,仍然面临巨大挑战。

M88体育-明升M88体育作物遗传改良全国重点实验室、湖北洪山实验室教授李林课题组,联合该校杨芳课题组、严建兵课题组,研究构建了玉米第一代多组学整合网络图谱,涉及基因组、转录组、翻译组和蛋白互作组多个遗传层级的200万个网络关系,并利用机器学习方法成功预测了一批重要功能基因, 鉴定出调控玉米开花期等重要性状的分子调控通路。相关研究成果近日在线发表于《自然-遗传学》。

中国农业大学教授田丰等当天在《植物学报》发表热点述评称,玉米多维组学整合网络的构建是玉米功能基因组学研究的重大进展,不仅为玉米重要性状新基因克隆、分子调控通路解析和玉米基因组进化分析提供了新工具, 也为玉米基因组设计育种提供了重要基因资源和分子模块,为玉米智能育种奠定了重要基础。

功能基因解析进展缓慢

2008年,中国科学院院士、M88体育-明升M88体育教授张启发在《分子植物》上发表了水稻功能基因组倡议(Rice 2020),计划在2020年解析水稻所有基因的功能。

彼时,多种农作物的功能基因组解析工作全面开花,越来越多的科研人员投入到这一庞大和艰巨的研究当中。

李林读博期间的主要工作就是克隆和解析一个玉米籽粒油分主效功能基因。他做了非常完善的分子与遗传实验,也做了分子育种应用的评估。

2010年,他将花费了5年时间精细定位并克隆的基因投给一本学术期刊。然而,信心满满的他却收到评审人的意见:这个基因已经被别人克隆研究过了。

“当时非常沮丧,认为花5年克隆一个基因太低效了。”于是,李林开始思考能不能快速全局解析基因功能。

与此同时,农作物功能基因组的全面解析并没有像预想的那样快速推进。

2013年,李林在美国做博士后期间,产生了通过生物大数据方法系统解析每一个基因功能的想法。

“那时我就在做eQTL定位与共表达网络,并以此解析玉米的全局基因的调控网络。”2013年底,李林在《公共科学图书馆-遗传》上发表了玉米最早的通过群体RNA-seq进行eQTL研究调控关系的论文。

当他希望进一步深入研究,拟从多维组学的角度构建各个尺度以及介尺度水平的基因与基因调控网络,从而全面解析生物遗传奥秘时,却被合作导师否定了。“可能他觉得工作量太大,是不可能完成的任务。”李林回忆说。

不过,这个想法却在李林心中扎下了根。2016年,李林回国成为M88体育-明升M88体育的教师。严建兵让他组织大家讨论未来的重大课题。此时,杨芳团队已经开发了高通量酵母双杂交系统,并开始解析作物蛋白组学的网络结构。

“我就把想法提出来与大家讨论,最终与杨芳老师一拍即合。得益于国内快速发展的科研实力、M88体育-明升M88体育的平台支持,条件成熟了,三个团队共同推动了这个宏大项目的开展。”李林说,他们正式拉开了在玉米基因组、转录组、翻译组,以及蛋白组学等水平构建玉米多维网络图谱的序幕。

锻造生物网络大数据之剑

生物学研究业已进入大数据时代。“基于生物大数据,从全局水平构建所有基因的上下游及分子伴侣网络已经成为可能,为我们全局解析尽可能多的基因功能,进而全面破解生物遗传变异的奥秘提供了前所未有的机会。”严建兵说。

生命体内部的基因,与人类社会中的人非常相似。要确定一个人在人类社会中的功能或者作用,可以通过他的家庭亲属关系、朋友圈关系,以及工作圈关系等了解。同样,要了解一个基因的功能,也就是要了解它在不同遗传层次下与其他基因的关系,甚至基于“物以类聚,人以群分”的逻辑,就可以推测出任何基因的功能。

基于此,他们在基因行使功能、传递遗传信息的不同层级(基因组、转录组、翻译组和蛋白互作组等)内部分别进行基因与基因关系的鉴定。

该研究对玉米全生育期不同组织/时期的样品进行多维组学大数据测定,获得了大量组学数据。杨芳介绍,他们使用高通量酵母系统构建了玉米蛋白互作网络,获得了36万多个蛋白-蛋白互作对。最终构建了玉米第一代多组学整合网络图谱,涉及200万个网络关系。

“这是首次如此全面地在一个物种中构建了基因组、转录组、翻译组以及蛋白组的网络大数据图谱,为全面系统解析玉米遗传变异机制提供了基础。”李林说。

革新经典遗传学研究的范式

基于成功构建的玉米多维网络大数据图谱,研究人员重构了玉米已经克隆的株型功能基因以及籽粒发育相关功能基因的分子网络。田丰等指出,截至目前, 玉米中共有63个调控籽粒发育的基因被克隆, 其中62个基因位于该团队此次发布的整合图谱中。他们成功预测并证实了1个未知功能的PPR蛋白能够影响玉米籽粒的皱缩。上述研究结果充分证明了该整合网络图谱具有强大的预测基因功能的能力。

研究团队重点关注了玉米重要农艺性状——开花期。为了保障大数据预测的准确性,他们与M88体育-明升M88体育理学院教授陈洪团队紧密合作,不断开发前沿人工智能算法,快速进行性状解析,为系统解析基因功能以及性状变异的遗传机制提供了新手段,在一定程度上革新了经典遗传学的研究范式。

2020年开始,他们在海南、湖北、山东和河北四地对预测结果进行分子实验与大田试验,确定了20个预测基因与开花期性状相关,并对其分子机制进行了初步阐释,加深了对玉米开花期的理解,为玉米开花期的智能设计育种提供了理论基础与基因资源。

田丰等人指出,基因组、表型组、转录组、蛋白组和代谢组等多维组学大数据,是利用机器学习等人工智能技术精准挖掘关键基因和分子模块进行基因组智能设计育种的基础。

论文评审人认为,该研究描述了一项庞大的实验工作,用以鉴定玉米基因组编码的大分子之间的复杂分子关系;构建了玉米不同生育期不同组织的综合分子网络图谱,对于整个玉米研究来说是一个重要的资源。特别是论文中机器学习对于网络大数据的挖掘应用,是一种创新性的功能基因分子网络图谱的解读方式。

李林告诉《中国科学报》,这篇论文已成功解析了玉米多维组学内部的网络关系,下一步他们要搞清楚多维组学之间的调控关系。此外,这一研究范式还可应用到水稻、小麦等其他作物的功能基因组研究上。

相关论文信息:

本文原载中国科学报2023年1月3日01版