IT之家 4 月 14 日消息,随着生物测序技术突破,全球天然基因库已积累数十亿量级序列,其中蕴藏海量高价值功能基因。然而,当前仅有少数明星基因被深度挖掘,绝大多数仍处于“沉睡”状态。
4 月 9 日,中国科学院深圳先进技术研究院定量合成生物学全国重点实验室、合成生物学研究所娄春波团队与北京大学定量生物学中心钱珑团队合作在国际学术期刊 Science Advances 上发表研究论文,报道了全球首个面向合成生物学元件挖掘与生物制造应用的大语言模型 ——“SYMPLEX”,并将 SYMPLEX 模型应用于 mRNA 加帽酶基因的挖掘,展示了大语言模型赋能生物制造的巨大潜力。
图片
该模型通过融合领域大语言模型训练、合成生物专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件,并精准评估其工程化应用潜力。
研究团队将 SYMPLEX 应用于 mRNA 疫苗生物制造关键酶 —— 加帽酶的挖掘,成功获得多种高性能新型加帽酶。第三方公司实验验证显示,这些酶在催化效率上超越国际头部企业 New England Biolabs(NEB)商业化加帽酶 2 倍以上,显著提升了 mRNA 疫苗生产率和成本效益。
研究团队创造性地将大型语言模型(LLM)与结构化生物知识库深度融合,开发出 SYMPLEX 智能基因挖掘平台。
SYMPLEX 是强大的功能基因搜索引擎,通过自动化阅读和理解千万级体量的生物学文献,在基因、功能和知识水平上提取分析文献内容,并与专家数据库进行概念对齐、交互和基于先进生物信息技术的统计模式生成,从而提供证据链完整的高质量候选基因集合。
SYMPLEX 不仅有效规避了大语言模型幻觉,还能自动生成基因功能相关的细粒度知识树,引导科学家探索广泛的生物机制和分子过程。
SYMPLEX 大模型的技术路线及其与传统基因挖掘流程对比
▲ SYMPLEX 大模型的技术路线及其与传统基因挖掘流程对比对比结果表明,SYMPLEX 大模型在挖掘基因的深度、数量和多样性上均显著优于传统生物信息学方法,其挖掘的基因多样性也超越了现有蛋白质功能预测模型的边界。
SYMPLEX 挖掘结果多样性对比和细粒度知识树生成
▲ SYMPLEX 挖掘结果多样性对比和细粒度知识树生成目前,SYMPLEX 在线交互式平台已上线供研究人员免费使用。平台采用模块化设计,提供三个核心功能:
(1)文献智能提取引擎 PubEngine:支持高通量的文献智能检索分析与可视化交互。
(2)基因功能标注系统 GeneTagger:实现从分子机制到生物过程的细粒度自动化基因与功能提取。
(3)标准化知识中枢 GeneNorm:实现与专家知识库的概念对齐与标准化,支持知识树构建和功能模式识别。
IT之家附论文链接:
https://www.science.org/doi/full/10.1126/sciadv.adt0402
Read More