M88体育-明升M88体育

M88体育-明升M88体育

M88体育-明升M88体育

科学研究
首页 / 科学研究 / 正文
我校精准营养与代谢团队开发基于文本挖掘的药物富集分析方法

M88体育-明升M88体育讯(通讯员 罗志辉)6月13日,我校生命科学技术学院、生物医学与健康学院、湖北洪山实验室陈振夏教授实验室联合信息学院章文教授研究开发了基于文本挖掘的药物富集分析方法DSEATM,该研究可用于揭示疾病的致病机制。相关成果以“DSEATM:drug set enrichment analysis uncovering disease mechanisms by biomedical text mining”为题发表在Briefings in bioinformatics上。

图1 DSEATM药物富集分析流程

随着科学文献的快速积累,文本挖掘成为了生物信息的一种常用技术手段。如何从大规模的文献信息中提取和整合生物医学信息是一个巨大的挑战。于是,该研究开发了基于文本挖掘的药物富集分析方法DSEATM。该方法基于美国国家医学图书馆截止至2019年的所有文献摘要和相关医学主题词表推荐词,在保留疾病和药物相关的医学术语后,对文献涉及的基因进行了提取,挖掘出关联的疾病-药物和药物-基因对,并以药物为桥梁,将疾病和基因关联起来,然后对基因集进行通路富集分析,进而达到药物富集分析的目的。

与直接的疾病研究不同,该方法主要通过综合多种药物的作用机制来解释疾病机理,因此可以提供区别于传统研究方法的新信息。与之前基于药物表达谱的药物富集方法相比,DSEATM在准确性、召回率、F1和AUC上都表现更佳,作为一种有潜力的疾病机制分析工具,可能为疾病研究带来新的视角。

我校生命科学技术学院、生物医学与健康学院、湖北洪山实验室博士生罗志辉,研究生王雅敏和信息学院朱丽达讲师为论文共同第一作者。陈振夏教授和章文教授为论文通讯作者。本研究受到国家自然科学基金、湖北省重点研发计划等项目的资助。

审核人:陈振夏

【英文摘要】

Disease pathogenesis is always a major topic in biomedical research. With the exponential growth of biomedical information, drug effect analysis for specific phenotypes has shown great promise in uncovering disease-associated pathways. However, this method has only been applied to a limited number of drugs. Here, we extracted the data of 4634 diseases, 3671 drugs, 112,809 disease–drug associations and 81,527 drug–gene associations by text mining of 29,168,919 publications. On this basis, we proposed a ‘Drug Set Enrichment Analysis by Text Mining (DSEATM)’ pipeline and applied it to 3250 diseases, which outperformed the state-of-theart method. Furthermore, diseases pathways enriched by DSEATM were similar to those obtained using the TCGA cancer RNA-seq differentially expressed genes. In addition, the drug number, which showed a remarkable positive correlation of 0.73 with the AUC, plays a determining role in the performance of DSEATM. Taken together, DSEATM is an auspicious and accurate disease research tool that offers fresh insights.