我校中医药创新研究院/交叉学科研究院本草基因组学团队于2025年6月在《The Innovation》杂志(中科院一区,Top 期刊)发表题为“Artificial Intelligence-Curated Repository of Gene-encoded Natural Diverse Components from Herbal Medicines”的研究性论文,这是我校继“本草智库”中药全产业链大模型后,在中医药数字化、智能化领域的又一重大突破,彰显了学校在中药资源挖掘与创新药物研发中的引领作用。中医药创新研究院/交叉学科研究院陈伟教授和余志银副研究员为论文共同第一作者,宋驰教授为论文通讯作者。
天然成分不仅是物种适应环境和共进化的产物,更是药物研发的宝库。但传统研究范式长期局限于次级代谢产物的范畴,忽视了小RNA(sRNA)和多肽等物质,这一认知缺口迫切要求我们构建新型分类框架,建立天然成分的新分类体系。
基于分子生物学中心法则,团队创新性地将天然成分划分成了基因直接编码成分(小RNA和多肽)和基因间接编码成分(次级代谢产物和碳水化合物)两大类。通过自主开发的基因组遍历算法结合转录组、小RNA测序、肽质谱等多组学技术实现了对全球八大权威药典收录的1,037个药用物种的天然多样性成分的挖掘与验证,并创新性整合自然语言处理、对抗生成网络、图卷积网络等人工智能算法实现成分的识别、分类与功能注释。
目前,GNDC收录了超过2.34亿个基因直接或间接编码的天然多样性成分,包括232万个次生代谢产物、22,977万条多肽、238万个小RNA和26万个碳水化合物。用户可通过https://cbcb.cdutcm.edu.cn/gndc/对GNDC进行访问,实现对药物物种天然多样性成分的浏览、查询与分析。
GNDC实现了基因组信息、成分信息与功能信息的整合,弥补了现有天然产物数据库在数据类型与功能解析方面的不足。作为目前全球规模最大的药用天然成分库,GNDC将为药物发现提供广阔的“化学空间”,加速“大数据驱动”模式下的药物发现进程,为传统药物研究带来颠覆性变革。
该研究得到了四川省重大科技专项项目的支持(2024ZDZX0019)。
全文链接:https://doi.org/10.1016/j.xinn.2025.101011
(供稿:中医药创新研究院/交叉学科研究院本草基因组学团队)