摘要:新冠疫情全球流行,疫苗研制成为当务之急。mRNA 作为一种全新的疫苗类型,能够快速大规模生产, 因此成为科学家们攻克的主阵地之一。新冠疫情爆发后,RNA 设计领域世界知名专家、斯
新冠疫情全球流行,疫苗研制成为当务之急。
mRNA 作为一种全新的疫苗类型,能够快速大规模生产, 因此成为科学家们攻克的主阵地之一。
新冠疫情爆发后,RNA 设计领域世界知名专家、斯坦福大学生物化学系Rhiju Das教授关注到疫苗研发存在的一个非常棘手的问题:
找到一个既具有稳定二级结构,而且还有效的 mRNA 疫苗。
有多难?
首先是稳定性,mRNA 疫苗 脆弱 到在保存、运输过程中,就有可能因为降解而失效。
然后是有效性,需要找一个 mRNA 序列,能够翻译成特定的蛋白质 ( 抗原 ) 。
单是满足这两个条件,若是采用遍历的方式去寻找,那就需要查看10632个 mRNA 序列!
这是什么概念?用一台超级计算机来处理,即便一秒钟能计算一个新冠 RNA 序列的二级结构,哪怕是从宇宙诞生到现在 ( 130-140 亿年 ) ,连 潜在 mRNA 序列的亿万分之一都没算到。
仅靠科研人员的力量是远远不够的,那就 全民参赛 吧!
于是乎,Rhiju Das 教授便找到了百度,使用百度此前开源的LinearFold 算法,搭建一个疫苗设计公开赛,让全民参与进来,以游戏的形式,边玩边找这个 mRNA。
但正如刚才提到的,搜索空间是异常庞大,难道就没有办法在相对节省人力的情况下,就能够设计出满足条件的 mRNA 疫苗序列呢?
这个可以有。
现在, ( 可能 ) 拯救世界 的新算法,LinearDesign,来了!
LinearDesign:最快 16 分钟完成 mRNA 疫苗序列设计
其实,回顾近二十年的历史,随着全球化和城市化的深入发展,全球疫情爆发周期越来越短——从 2002 年的 SARS,到 2012 的 MERS,再到现如今的新冠病毒。
面对一次又一次的冠状病毒的侵袭,快速研制出特定疫苗成为了解决问题的一种途径。
那么,在 mRNA 疫苗如此庞大的搜索空间面前,LinearDesign 又能起到什么作用?
针对新冠病毒的 mRNA 疫苗序列,通常是以自然界存在的新冠刺突蛋白对应的 mRNA 段为基础,经过一些改动后作为备选序列。
但是这样的序列其二级结构通常是不够稳定的。如下图 ( A ) 展示的是新冠病毒刺突蛋白对应的 mRNA 二级结构,其能量为 -967.8 kcal/mol。
△图 A
这一能量衡量了 mRNA 二级结构的稳定性,能量越低(越负)表明越稳定。
mRNA 由多个核苷酸(共四种,分别是 A、U、C、G)串联而成,蛋白质由多个氨基酸(共 21 种)串联而成。每三个核苷酸(称为一个密码子)翻译成一个蛋白质。显而易见,三个核苷酸共有 4 的三次方共 64 种组合,那么必然有多个密码子对应一个氨基酸,也就是说有很多 mRNA 序列都可以翻译成同一个蛋白质(抗原)序列。具体来说,新冠病毒刺突蛋白(抗原)共有 1273 个氨基酸,能翻译成刺突蛋白的 mRNA 序列有 10 的 632 次方之多。如下图所示:
在保持翻译成的蛋白质不变的前提下,还可以选择其他的序列作为 mRNA 疫苗序列。下图 ( B ) 展示了从 1 万个随机序列中选取的能量最低的序列,能量为 -1149.8 kcal/mol。
△图 B
这一序列能量比 Wildtype 低一些,但是也并不是能量最低的序列。
那么能量最低的序列什么样子,其能量可以低到多少?有请LinearDesign算法来回答这个问题。
下图 ( C ) 便是 LinearDesign 设计出来的序列二级结构,其能量为 -2477.7 kcal/mol,比 A、B 低一倍还多。
△图 C
它的二级结构非常紧密,几乎所有的碱基都形成了碱基对。而碱基对越多,通常能量越低,结构越稳定。
从上面对比图可以看出,在新冠病毒的刺突蛋白序列上的计算机模拟实验表明,LinearDesign 算法可以设计出比 Wildtype 序列稳定得多的结构,而且设计时间只需要1 个半小时。
如果采用线性时间近似,所需时间可以进一步缩短到 16 分钟, 而相比于最稳定序列,线性近似算法设计出的序列与其能量仅相差 0.6%。
上图对比了刺突蛋白的野生型 mRNA、随机生成的 mRNA 序列、以及 LinearDesign 设计序列的稳定性和蛋白质表达水平。图中横坐标是衡量稳定性的参数 MFE,越低越好;纵坐标是衡量蛋白质表达水平的参数 CAI,越高越好,所以处于左上方的序列既稳定又能翻译更多蛋白质(抗原)。
野生型和随机生成的序列都集中在右下方,而 LinearDesign 设计的序列在左上方。其中最左侧的点是 LinearDesign 设计出的最稳定的序列,其 MFE 为 -2477.7 kcal/mol. 而随着调整 lambda 值(一个平衡 MFE 和 CAI 的超参数),可得到一条淡蓝色的曲线,这个曲线就是所有满足条件的 mRNA 序列中最优序列上界。粉色的曲线是近似算法设计出的序列,可以看到它和精确算法找出的序列(淡蓝色曲线)非常接近,但设计时间大大缩短。
更重要的是,LinearDesign 不仅有助于解决当下的新冠病毒问题,更是适用于所有的 mRNA 疫苗。
那么,LinearDesign 到底是如何做到这点的呢?
LinearDesign 原理:降低搜索空间至多项式级
主要面临的问题,就是如何解决如此庞大的搜索空间。
LinearDesign 通过动态规划算法,来将这一问题的搜索空间从指数级降低到多项式级。
具体来说,首先用确定有限状态自动机(DFA)来表达氨基酸和蛋白质,这样不同位置上密码子的选择就可以抽象为计算理论中常用的 DFA 图。
如下图,分别把三种氨基酸(A: methionine, B: valine, C: serine)以及终止密码子(D)抽象为 DFA 图。
在此基础上,将氨基酸的 DFA 串联起来,即可得到一段蛋白质序列的 DFA 图。如下图是示例序列 methionineleucine stop 的 DFA 图。
在有了 DFA 图后,要通过 DFA 找出二级结构最稳定的 mRNA 序列。
这里借用了计算语言学中常用的一个工具,随机上下文无关语法(SCFG)。RNA 二级结构可以通过 SCFG 构建语法树来表示。
mRNA 疫苗序列设计优化问题实际上是将单个 RNA 序列的二级结构计算(RNAfolding)推广到多个 RNA 序列。
在用 DFA 抽象表示多个 RNA 序列后,研究人员通过取 DFA 与 SCFG 的交集,来从多个 mRNA 序列中找到具有最稳定二级结构的序列。
下图给出了一个具体的例子,通过 DFA 和 SCFG 相交,生成出序列 methionine leucine stop 最优的 mRNA 序列为 AUGCUGUGA。
除此之外,研究人员还在此基础上,对算法做了如下扩展:
借用 LinearFold 思想,进一步将计算复杂度从三次方复杂度降低到线性,大幅度缩短设计 mRNA 序列所需要的时间;
从提供一个最优的 mRNA 序列,到可以提供前 k 个次优的 mRNA 序列作为备选。疫苗公司可以在这些备选中选出最适合生产的疫苗序列;
同时优化二级结构稳定性和蛋白质表达效率,设计出稳定性好、蛋白质表达效率高的 mRNA 疫苗序列。
CoV-Seq:数据、工具都呈上,大家一起来抗疫
解决了寻找稳定、有效 mRNA 之后,对于科学家来说其实还存在一个困扰。
为了了解新冠病毒的进化和各个基因的功能,科学家们需要从不同年龄段、性别、种族和疾病阶段的患者身上收集 SARS-CoV-2 基因组并进行全基因组测序。
然而,公共存储库每天都在迅速发布基因组序列,每周有成千上万的新序列。
那么,问题就来了:
为了跟上最新发展,科学家需要经常下载并重新整理新的数据集,这可能会花费大量时间和精力。
另一方面,对于生物信息学知识有限的科学家可能会发现,当他们拿到新序列时,很难快速有效的进行分析。
而且,目前没有可以自动注释 SARS-CoV-2 基因和基因突变的软件。
因此,百度开发了CoV-Seq 分析平台来解决上述问题。
CoV-Seq 由几个组件组成。
数据分析工具,该工具接受 FASTA 格式的序列并生成 VCF 格式的突变数据。工具会自动过滤低质量的序列并删除重复的序列,执行序列比对,调用并注释遗传变异。
Web 界面,无需任何编程即可快速分析自定义序列,包括交互式基因组可视化以及可供下载的分析结果。
独立脚本,以允许在本地计算机上进行高吞吐量的处理。
CoV-Seq 分析平台的论文已经上线:
进击的计算生物学硬实力
百度研究院开展 RNA 二级结构领域的研究,其实是在 2018 年刚刚开始。
但就是在这短短的 2 年时间里,百度研究院 RNA 团队,除了此次的 LinearDesign 外,还推出了 LinearFold、LinearPartition,研究成果相继被计算生物学领域顶级会议 ISMB 接收,引起业内的关注。
这也足以体现百度在生物计算研究领域的技术实力。
正所谓能力越大,责任越大。面对突如其来的疫情,百度于 1 月份对外免费开放了可以大大提升新冠 RNA 二级结构分析速度的 LinearFold 服务,引起了全世界科研机关、防疫机构和生物医学公司的广泛关注,多家机构联系百度,提出了建立后续合作的意向。
现如今,在此基础上,百度再次发力,提出的 LinearDesign 能够大大减少寻找 mRNA 疫苗序列的搜索空间,还提供了 CoV-Seq 这样方便的工具平台,让研究人员能够加速科研的进展。
不仅如此,这样的技术、工具组合,还大大降低了上手的门槛。
那么,就快快加入 全民抗疫 这场战斗中,在 LinearDesign 的基础上从更多维度继续优化 mRNA 疫苗序列。说不定找到最优 mRNA 疫苗序列的,就会是你。
拯救人类的重任,就交给你啦。
传送门
LinearDesign 论文地址:https://arxiv.org/abs/2004.10177
LinearDesign 网站链接:http://rna.baidu.com/
CoV-Seq 论文地址:
https://www.biorxiv.org/content/10.1101/2020.05.01.071050v1
CoV-Seq 网站链接:http://covseq.baidu.com/
作者系网易新闻 · 网易号 各有态度 签约作者
— 完 —
如何关注、学习、用好人工智能?
每个工作日,量子位AI 内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。
同时,AI 内参群为大家提供了交流和分享的平台,更好地满足大家获取 AI 资讯、学习 AI 技术的需求。扫码即可订阅:
了解 AI 发展现状,抓住行业发展机遇
AI 社群 | 与优秀的人交流
量子位 QbitAI · 头条号签约作者
\' \' 追踪 AI 技术和产品新动态
喜欢就点「在看」吧 !
相关文章推荐
新网新人专享,注册领SSL证书百元神券2022-09-15
新网与亚洲诚信达成战略合作,携手共建安全云生态2022-09-06
企业网站没有SSL证书,你将面临......2022-09-27
SSL协议、TLS协议,有什么区别?2022-09-26
网站跳出率高?可能是没装SSL证书2022-09-26