中国科学院天津工业生物技术研究所(以下简称:天津工业生物所)从2009年开始正式筹建,到2012年正式得到国家的批复成立,十多年来,围绕着工业生物学、合成生物学的核心力量,形成了全链条的国家级创新科技平台。
天津工业生物所是中国合成生物学领域的核心力量,由中国科学院和天津市人民政府共建,牵头组织承担了多项合成生物学、绿色生物制造等重点研发计划任务。
2019年,围绕生物计算设计,天津工业生物所成立生物设计中心平台实验室,但成立之初团队规模不大,开发人员数量不多,需要同时兼顾不同应用场景的不同开发需求。
在这样需求的牵引之下,天津工业生物所开始与亚马逊云科技共同探索生物技术和信息技术相结合(BT+IT)技术体系,以进一步推动合成生物学发展,以期能够为健康、能源、农业和环境等领域的科学研究提供技术支撑;开始尝试从以前的基于服务器端的开发模式,转向于云原生的开发模式。经过这几年的探索,天津工业生物所生物设计中心团队很好地借助云上力量,提升了科研的效率,加速了科研成果产出。
云原生Serverless架构可降低50%的总体拥有成本
工业生物(工业菌种)相当于IT的芯片,是实现串联整个生物技术的一个最关键核心,所以要设计好工业生物,非常需要IT技术的支撑。
围绕着天津工业生物的研究布局,无论是菌种还是酶,要被设计出来,需要强大的生物设计体系来支撑。要怎么去设计以提升工业生物的性能,怎么通过计算能力在数据处理分析上支撑设计,是合成生物学发展的一个壁垒。
在传统实验过程中,模块化、标准化是合成生物学区别于传统发酵行业的一个很明显的特征,借助工程学的可控性,意味着能够将各种软硬件进行合并,从而真正走向未来自动化与高通量,摆脱过往劳动密集型的研究模式,获得更高的技术能力。
在这个过程中,除了对于元件工具进行标准化以外,还需要对相关的实验流程进行模块化、标准化,这也是自动化研究中不可或缺的一部分。传统实验人员更多是基于经验进行人工设计,最终很容易由于人的疏忽导致整个构建失败。
天津工业生物所生物设计中心团队开发了第一个能够在所有操作类型、任何基因组位点和跨物种上进行精确、自动化和高通量编辑序列设计的云平台AutoESD。AutoESD 的开发采用了基于云端的无服务器架构,确保了高可靠性、稳健性和可扩展性,能够在几分钟内并行处理包含上千个编辑序列设计目标的数百个设计任务。
开发人员利用Amazon Step Functions实现可视化的工作流管理,实现了编辑序列设计工作流的串联,从而实现应用的快速构建和更新,同时快速查询处理异常任务;利用Amazon Lambda将不同的引物设计、同源臂设计等编辑序列设计模块封装打包,满足了具体功能的模块化开发要求,并方便地对功能模块进行管理和共享;利用Amazon DynamoDB提供毫秒级的动态资源响应性能,并自动扩展所需资源以应对增加的业务需求。这些Serverless服务帮助天津工业生物所团队进一步简化运维,使得开发人员可以专注于业务代码和创新
利用Amazon Serverless服务,可以让科研人员,不需要耗费大量的精力在IT的基础设施的繁杂的工作中,把精力更多地集中在业务场景,去构建和运行应用程序,在复杂任务编排或高性能计算的场景中去实现云原生架构,并从中获益。
首先,Serverless有更加灵活、更加快速的研发交付模式。其次,不需要管理服务器,所有服务器的弹性都是由亚马逊云科技来做托管,在任何规模下都有很好的性能表现。另外,在云原生的Serverless场景下,可以更细粒度的应用计费。最后,使用加密的密钥来对数据进行安全性管控。
总体来看,通过架构复用的这种方式,提高了研发的速度。并且因为全部使用Serverless服务,可以降低50%的总体拥有成本。
Amazon Neptune构建代谢图谱提升研究效率
细胞中的代谢调控非常复杂,一个特定的细胞功能往往由一系列不同类型的调控相互作用控制。而这些细胞中的不同类型的调控数据和代谢数据都是异质的,通常散落在不同的数据库里面,非常复杂,生物学家其实很难获得这些复杂的关系。
天津工业生物所采用的做法是,首先从文献、从各种不同的数据来源里面进行自动化搜集,包括各种不同的数据库、模型和不同文本的数据,然后构建了首个基于图数据库Amazon Neptune的大肠杆菌调控代谢关系知识图谱ERMer。借助Amazon Neptune图数据库工具,这个图谱实现了传统数据库无法做到的一些复杂的查询,包括一些AI的能力。
使用Amazon Neptune一方面可以将所有的复杂的高度关联的数据存储在图数据库里面,通过优化的图查询的语句来解决复杂的多步查询、最短路径检索等问题。另外一方面通过Amazon Neptune ML这种高度封装的图深度学习的框架服务,实现在低代码或者无代码情况下生成机器学习模型,取得很好的结果。
另外,数据和数据之间的关系关系的强度和权重对解决实际问题同样也有帮助。Amazon Neptune图数据库可以存储这些信息,自动化地去做一些数据的关联,并且可以通过图算法解决路径、图的优化问题。Amazon Neptune本身有开放、快速、可靠、简单四个特点,而不需要太多的运维和管理。
结 语
亚马逊云科技作为一家云厂商,希望基于云计算的能力,包括IT的能力,以及对于生命科学以及相关行业的理解,为科研工作提供更多的助力。
中国科学院天津工业生物技术研究所副所长王钦宏表示:“我们要借助亚马逊云科技强大的云计算能力、强大的数据处理能力、强大的计算平台,为我们认识生命、设计生命来提供一个更好的支撑。”
天津工业生物技术研究所生物设计中心主任马红武说:“中国科学院天津工业生物技术研究所肩负着国家工业生物技术发展的重任,并正在加速利用云计算推动相关技术的研发和成果落地。亚马逊云科技提供的图数据库和Serverless服务,突破传统的开发模式、提升研发效率、不断优化云上成本,生物技术和信息技术相结合的技术体系将进一步推动合成生物领域的发展和创新。”