微软亚洲研究院副院长刘铁岩:以计算之矛攻新冠之盾
本站寻求有缘人接手,详细了解请联系站长QQ1493399855
智源导读:新冠肆虐以来,全世界众多计算机科学家都在研究利用计算机模拟新冠传播,制定防控策略,其中SEIR模型作为常用的流行病预测模型,被广泛讨论。微软亚洲研究院副院长刘铁岩近期在北京智源大会上发表了题为《以计算之矛攻新冠之盾》的主题演讲。在演讲中,刘铁岩指出之前SEIR模型的不足并介绍了新模型,为新冠疫情的预测和治疗提供了参考。
整理:蒋宝尚
校对:梦佳
刘铁岩博士,微软亚洲研究院副院长,IEEE会士, ACM杰出会员。他被聘为CMU、清华大学、中国科技大学兼职教授、诺丁汉大学荣誉教授。刘博士的先锋性研究促进了机器学习与信息检索之间的融合,被公认为“排序学习”领域的代表人物。近年来他在深度学习、分布式学习、强化学习等方面也颇有建树,在顶级国际会议和期刊上发表论文两百余篇,被引用三万次。他曾多次获得最佳(学生)论文奖、最高引用论文奖、最高引中国学者奖、CCF青竹奖、中国AI英雄风云榜技术创新人物奖、AMiner全球最有影响力学者奖(信息检索领域)等奖项。他的团队于2017年开源了LightGBM,目前已成为Kaggle比赛和KDD Cup中最受欢迎的机器学习工具之一;于2018年帮助微软在中英新闻翻译任务上达到了人类专家的水平;于2019年研发了史上最强麻将AI Suphx,在国际知名麻将平台“天凤”上荣升十段,稳定段位显著超越人类顶级选手。
01
新冠疫情发展现状
图1:疫情在各个国家的发展状态
新冠疫情自去年开始在全世界肆虐,现世卫组织的最新数据表明已有超过1.7亿的人群感染了新冠疫情,由此呼吁各界人士利用自己的专业特长共同抗击疫情发展。
图2:新冠疫情的两个侧面
流行病学和病毒学是新冠疫情研究的两个侧面,从这两个角度出发,探究能否通过计算的手段为抗击疫情提供相关参考价值。
02
SEIR模型不足
图3:美国疾控中心提供的新冠疫情预测结果
从流行病学的角度来看,疫情预测是一项重要任务,我们希望了解疫情发展的动态和各种干预手段对疫情发展的影响。美国疾控中心呼吁社会各界运用AI或计算的手段预测未来在一周到四周之内的疫情发展趋势。各大机构积极响应,现美国疾控中心的网站上有40多个机构提供的模型帮助预测新冠疫情,美国疾控中心运用这些模型的集成结果指导政策的执行。
图4:SEIR模型
然而这40多个模型中大多以SEIR模型为基础,SEIR模型是一组微分方程所定义的病毒演化的机制,主要描述易感者、感染者、潜伏者、康复者数目随着时间变化的规律。
SEIR模型有多年历史并被广泛应用,但是该模型也存在很多明显的缺点,如:它基于简单的微分方程定义,没有较好的机制处理复杂数据,各种各样的管控措施以及医院设备的运用状况无法简单地纳入模型之中。由于新冠疫情通过人群传播,所以相邻区域或人口流动性大的区域之间会存在某种偶联关系,而该模型作为一个时域模型,无法将地区之间的关联关系考虑进来。
03
构建新模型
图5:呼吁新模型
由此需要构建一个新模型来对新冠的发展趋势进行预测。如果可以将管控措施、医院床位信息、ICU病床信息等信息综合考虑,则对于疾病的预测会有所帮助。
图6:构建新模型
在此背景下,过去半年多的时间里,微软亚洲研究院的研究员们构建了一个基于深度学习的新模型。这个模型包括一个深度时序编码模块,一个可解释的正则模块,一个空间编码模块,还有根据管控措施和住院信息对预测结果进行调整的模块。
04
模型内容具体介绍
图7:Deep Temporal Encoding Models
我们通过对常用的时序序列预测模型进行分析,发现大家各有特色。比如,RNN和LSTM有严格的时间顺序,适合模拟短时序列;Transformer更善于对长距离依赖进行建模;N-Beats擅长处理包含趋势、周期性、节假日等多种规律的复合时间序列。为了更好地对新冠疫情进行预测,我们集众家之长,使用这三种模型的集成进行时序编码。
图8:新技术:Contextual Parallelization
此外,在时序编码过程中,还引入了一项新技术—上下文并行化。对该技术的构思在于我们面临的并非简单的时间预测问题,而是时空预测问题,我们需要判断美国50个州疫情发展的情况。美国各州之间疫情发展趋势有所不同,管控措施、医疗资源以及人类的行为也不相同,最理想的情况是为每个州训练一个独特的模型。可是,这样一来,每个州能够用来进行训练的历史模型数据非常有限,这会导致数据不足的问题。另一方面,如果用一个单一模型为所有州服务,则很难涵盖不同地区之间的差异。为解决这两个问题,我们引入K个共享的基本模型,各个州最终所用的预测模型是这K个基本模型的不同组合。这样就能实现数据多样性和充分性之间的平衡。
图9:空域模型:Sparsely-Connected Graph Network
不同地区之间疫情发展的联系也值得关心,由此引入空域建模。图神经网络是一个非常自然的选择。不过,图的连接关系设计有一定的学问:全连接方式会引入很多噪音(noise),使学习任务变复杂;用地域的相邻关系设计连边不一定准确。所以我们引入结构学习机制,来自动决定各个区域之间的连接方式和强度。最终目标是为了反映各个地区之间疫情发展的共变化特点,而非仅靠相邻关系和交通信息呈现。
图10:Intervention and Hospitalization Modeling
虽然各地区疫情发展条件和管控措施存在相似性,但是不同地区政府的执行力存在差异。为此我们在干预模型(intervention modelling)中引入regional embedding对不同地区进行描述。有了这个embedding,对同样的管控措施,不同区域之间的不同执行力度就可以被模型所捕捉,因此可以给出更加准确的预测结果。
图12:预测结果:forecasting Results
运用以上技术最终得到的预测结果,在美国疾控中心40多个模型中表现最好,为政府制定措施、抗击新冠疫情做出了重要贡献。
05
病毒学分析
从病毒学角度来看,只有了解新冠病毒如何感染人体细胞,才能设计有效的药物或疫苗对疫情进行防御和控制。新冠病毒的S蛋白和人类的细胞受体相结合会打开人类细胞的大门,病毒长驱直入将遗传信息注入人体细胞内,复制生成大量病毒,从而对人体造成伤害。
图13:S·Protein 三聚体
S蛋白是一个三聚体,每个单体由三部分构成:RBD、NTD、S2。RBD通过与ACE2受体相结合感染人体细胞,S2的主要功能在于连接RBD和NTD,而NTD的功能目前还不太清楚。
图14:Different Conformations Affect Infectivity
根据S蛋白3个RBD的不同姿态,可以将S蛋白分为不同构象。开放构象(open conformation):3个RBD都张开,在此状态下S蛋白有很强的感染性;关闭构象(closed conformation):3个RBD均呈下垂状态,感染性很弱;部分开放构象(partially open),一个RBD呈张开状态,另外两个下垂;半开放构象(Semi open):两个RBD向上打开,一个RBD下垂。后两种构象感染性居中。
图15:之前研究结论
之前的生物实验表明:S蛋白的构象一直在发生变化,当它在不同构象之间转换时, NTD也会发生大幅度运动,由此考虑NTD在构象变化中应该起到了一定的作用。
图16:如何研究动态构象的变化
为了研究NTD的具体作用,我们借助分子动力学模拟。它运用一些计算手段模拟分子内部原子和原子之间的相互作用和相互运动的趋势。如果能对原子的运动进行很好的模拟,研究在很长时间间隔里的变化,那么将可以获得整个分子的运动轨迹。虽然这是一种非常好的技术手段,但一些生物学家会对此产生疑问,即作为计算机技术的分子动力学模拟出来的结果是否和生物实验观测到的结果相吻合。
图17:分子动力学模型
我们构建了一个针对新冠疫情的大型分子动力学系统,它对传统方法做了很多改进。首先,该系统使用了完整的SARS COV2蛋白结构,其次该系统使用了更精准的糖基化位点和更大的水盒。该系统内包含超过一百万个原子。
图18:分子动力学系统模拟结果
通过分子动力学模拟我们得到了很有趣的结果。首先,在整个构象变化过程中NTD确实有较大的运动幅度,并且它和RBD的运动有很强的相关性。RBD在其向下运动的过程中会受到NTD的阻碍,所以一般呈现向上打开的姿态。有时, NTD会出现向外运动的趋势,不再阻挡RBD,从而导致RBD下垂,S蛋白由此转换成部分开放甚至是关闭构象。因为NTD对于构象变化有这种楔子一样的作用,我们相信如果能有效控制NTD的运动,就可以改变新冠病毒的传染性,对预防和治疗新冠肺炎都会起到一定作用。
图19:清肺排毒汤的研究
为此,我们进行了大规模的虚拟药物筛选,在2亿多种先导化合物中找到1000多种可以和NTD有很强结合能力的化合物。另外,我们发现在中国抗击新冠疫情过程中涌现出一些中药制剂,如清肺排毒汤,包含了多种和NTD有着很高结合力的成分。这些发现对于寻找新冠肺炎的特效药有一定的价值。
图20:其他对于新冠疫情的研究
除之前提到的几项工作以外,我们还和Adaptive生物技术公司一起,用人工智能的手段建立新冠病毒与人类免疫细胞受体之间的对应关系,并由此发明了第一款被FDA批准的基于人体免疫细胞的新冠检测系统T-Detect COVID,它比传统的核酸检测和抗体检测灵敏度更高、发现更及时。
新冠病毒仍在肆虐,我们相信计算技术会在抗击新冠的战斗中发挥越来越大的作用,也呼吁更多的计算机科学家贡献出自己的力量,为彻底消灭新冠病毒而战!
扫码加入「AI赋能生命健康与生物医药」论坛交流群,参与相关话题讨论