深度学习在蛋白质结构预测中的应用及启示
天然蛋白质通过调节一维氨基酸序列信息,能够精准地制备具有特殊的三维空间结构的蛋白质分子,实现特定的生理功能. 而蛋白质结构预测希望代替大自然通过各种方法从一维序列信息推断其三维空间结构. 蛋白质结构预测问题提出至今已困扰我们五十多年[
自然条件下,蛋白质总能在生物学相关时间尺度内迅速而准确地折叠到有限的几种(大多数情形仅一种)三维空间结构[
通常认为蛋白质折叠的驱动力包括以下几种[
Anfinsen热力学假设[
因而产生了著名的Levinthal佯谬[
理解了快速折叠的原理不代表解决了蛋白质预测问题.
在传统的蛋白质折叠预测中,人们通常经过构造或选择力场,从某非天然态出发,用各种动力学计算或模拟方法(例如分子动力学模拟)演化其构象,直至能量达到全局最小[
此困境一度让蛋白质折叠预测领域的人们绝望. 因此,人们不再依赖基于纯粹物理机制的方法,而是采用结合数据驱动的方式[
本文主要给非生命科学领域读者介绍深度学习方法在蛋白质结构预测领域的应用. 将选讲几个主要进展,特别将重点介绍AlphaFold[
1 蛋白质结构预测的基础知识
1.1 位置特异性打分矩阵PSSM
位置特异性打分矩阵(position-specific scoring matrix, PSSM)或位置权重矩阵(position weight matrix, PWM)[
Fig. 1 Illustration of (a) position-specific scoring matrix (PSSM) and (b) multiple sequence alignment (MSA). (a) In this illustrative example, PSSM is computed using the formula given in the top right corner based on a DNA database consisting of ten DNA sequences. (b) Sequence alignment (SA) is trying to match the fragment pairs from the two given sequences as much as possible. In the alignment, inserting gaps "-" is allowed. Multiple sequence alignment (MSA) is SA on multiple sequences.
1.2 多重序列比对MSA
目前大多蛋白质结构预测的深度学习算法的输入中都有多重序列比对信息(multiple sequence alignment, MSA)[
序列比对(sequence alignment)主要任务是针对查询序列(query sequence)从数据库中,用基因信息学的方法找到进化树上尽可能同源的序列,然后根据变异的氨基酸的相似程度,按照特定规则来给该序列与查询序列的相似度打分.
某个序列的变异包括对序列中特定片段的插入、删除和替换. 相对于查询序列,当库里的蛋白质序列变异很少时,则两者相似度高.
当变异多时,还需根据进化同源的特点分类对变异片段进行进一步分析. 变异的氨基酸片段可分为保守片段(功能及化学特性相同)、半保守片段(功能及化学特性相近)和非保守片段(化学特性相差甚远). 显然,若保守片段越多,表明与查询序列越接近.
比对的目标是通过恰当地插入空片段(gap),使得插入空片段后的2个序列尽量相似(如
用上述比对方法对若干个给定的序列与查询序列进行比对就称为多重序列比对(multiple sequence alignment, MSA). 通常可用软件ClustalW, MAFFT, ClustalOmega以及MUSCLE等算法程序对多个序列进行MSA比对[
而在蛋白质预测中,通常会针对输入的蛋白质序列,从蛋白质数据库中找到与给定序列相近的若干个序列,然后再将这些MSA作为神经网络的输入. 此信息相比于PSSM包含了更为丰富的信息. 可从MSA中看出目标序列大致从哪些序列变异而来. 在深度学习中,MSA数据维度为(Nseq, Nres, 21),其中Nseq为MSA包含序列的数目,Nres为目标序列的长度,21用于分辨20种氨基酸和gap“-”的热点表征(有时可能为22或23).
1.3 接触图与距离图
如
Fig. 2 Illustration of contact map and distogram. (a) A typical structure of a given HP protein. (b) The contact of the (c) structure where the black square indicates the matrix element corresponding to two contact residues. (c) The distogram of the (a) structure where the greyness indicates the distance between two residues.
同一序列中不同残基间的接触与否或距离是非常重要的信息,它基本蕴含了蛋白质骨架的三维结构所有的信息. 而且这个信息相比于纯粹的结构三维坐标信息有2个优势:(1) 具有旋转平移不变性,而三维坐标会随着蛋白质的旋转或平移而改变;(2) 表达更简洁及更易标准化. 因为存在关联变异(correlated mutation)现象,有些接触的两氨基酸会同时变异以保证变异后仍接触,故接触图或距离图信息就显得相当重要[
基于上述原因,在最近的深度学习预测蛋白质结构的实践中[
1.4 蛋白质数据库PDB
目前最著名的蛋白质数据库为PDB[
1.5 CASP竞赛
Critical Assessment of Protein Structure Prediction (CASP)[
1.6 模版建模得分TM Score
之前,人们通常用距离均方差root mean squared deviation (RMSD)衡量2个分子构象的接近程度. 但现在模版建模得分template modelling score被认为是更准确的衡量方式[
其中
式中n为蛋白质的残基数,M为旋转平移矩阵. 上式表达的含义是将预测得到的结构与各种旋转平移操作后的真实结构进行比较,取最相近(极大)的那个作为最后的分值.
显然TM score在0~1之间,分数越高表明越准确. 通常认为当TM>0.5时,预测与真实之间的折叠基本一致[
而AlphaFold2(AF2)近2/3的预测结果达到中低分辨率的实验精度[
由于多域蛋白质各功能域之间可以相对独立地移动旋转,在评估多域蛋白质结构相似性上,局域距离差异性测试(local distance difference test)是一个比TM分数更佳的评分方式. lDDT不同于TM,不依赖于骨架α碳原子的重叠,能够不受功能域间位移的影响,更加有效地评估结构之间的局域相似性[
1.7 深度学习原理与常用神经网络模型
本小节仅罗列结构预测涉及到的深度学习技术及原理, 具体请参考相关文献[
神经网络(neural network)可抽象成一个函数,它关联了2组信息数据x与y(比如蛋白质的序列x及其结构y),分别称为网络输入与输出;w为网络的参数. 神经网络训练的目标是为了找到恰当的w使得网络能够根据x准确地预测y.
普适近似原理(universal approximation theorem)[
神经网络设计要点:考察待预测的量y与哪些量有关联,即找出哪些信息可足够推导出y,然后将这些信息与y之间架接合适的神经网络便可. 信息间的关联如果能用现有知识进行关联就用现有知识将其关联;未知关联用神经网络代替.
神经网络选择需要考虑输入输出信息数据特点,目前结构预测中常用的网络结构主要有下面几种.
残差网络(resnet)[
基于自注意力机制的transformer[
2 传统蛋白质结构预测
传统的蛋白质结构预测方法[
2.1 基于模板的方法TBM
TBM方法[
Fig. 3 Illustration of basic strategies of template-based method (TBM) and template-free method (FM).
3 深度学习方法
3.1 残基接触对的预测
人们发现在蛋白质变异过程中经常出现关联变异(correlated mutation)的现象:一条蛋白质链内若发生变异,总是2个氨基酸成对地变异;因为演化压力会迫使蛋白质维持一致构型,原本接触的氨基酸对在变异过程中继续保持接触,可以避免其形状发生剧烈变化. 因此,这就使得残基接触对(inter-residue contact map)的信息极为重要[
早期有许多传统方法致力于预测残基接触对. 处理该问题的早期算法,倾向于以一次一对的形式、孤立地预测每个接触对是否可能. 由于忽视了蛋白质包含的全局信息:一个残基对是否接触受到序列中其他残基的影响,早期算法陷入了困境,预测效果糟糕. 而之后研究者提出了充分利用全局信息的预测方法,例如基于Markov随机场模型MRF的direct coupling method (DCA)[
深度神经网络在预测残基接触对问题上,也表现出了异常优异的性能,有时甚至还直接被用于预测键角等信息. 这些预测特征均可作为约束,辅助指导无模板方法.
比如,Raptor X-Contact深度学习模型[
而AlphaFold1[
3.2 AlphaFold
2020年的CASP14的比赛中,AlphaFold2 (AF2)[
AlphaFold2深度学习模型的结构简图如
Fig. 4 Sketch of the AlphaFold2 model. Detailed description is referred to Ref.[
而另一输入通道中,主要输入与MSA相对应的序列的结构残基对距离信息以及扭转角的信息. 在具体输入时,AF2将距离对长度划分成64个离散块(64 bins),并将其转化为概率的形式,故对应数组形状为(s,r,r,64),取值为0~1. 注意配对表征中,只包含了MSA除输入序列之外的某个序列自己结构信息,不同序列之间并没有进行信息的关联.
然后再将MSA表征与配对表征输入一个称为Evoformer的模块,此模块主要将MSA的信息(同源性差异)与结构信息整合起来,最后得到输入序列的MSA表征与输入序列的配对表征. 此时,输入序列的配对表征同时将演化信息与其他模板结构信息有机地融合在了一起. Evoformer主要利用了自注意力机制来实现上述信息整合.
而下一个结构模块structure module主要的功能是将Evoformer预测的配对表征展开成三维空间结构,同时亦承担一定的预测调整功能. 此模块的结构大致如
Fig. 5 Illustration of how the pairing information is transformed into the 3D structure using neural networks in AlphaFold2[
初始时,假设所有氨基酸都在原点,然后将此初始骨架与配对表征输入结构模块,由于配对表征存有距离对及取向信息,故可通过一个称为不变点注意力神经网络模块将其初步还原成展开的骨架结构,紧接着再加入侧链原子从而得到全原子的三维结构.
如
因为PDB中只有大约1×105多个的序列有对应的三维结构数据. 而在big fantastic database (BFD)蛋白质序列数据有多达2,204,359,010个序列,虽然这些序列并不一定有对应的三维结构信息(无标签),但self-distillation dataset的训练技巧可以将这些无答案的题目作为作业进行训练,自己提高预测准确度,AlphaFold2用此扩大训练集并进一步提高了预测准确度.
后来有诸多研究团队对AlphaFold2进行了拓展与提升. 例如:Baker团队[
3.3 最简单的蛋白质模型的预测
真实蛋白质结构预测无论从训练数据准备还是模型构建及训练都极其复杂. 因此,人们希望找一个简单的蛋白质模型,以便能快速地试验他们的想法. 就如手写数字识别(对应数据集为MNIST)[
而HP蛋白质模型就是这样的模型[
我们基于此HP模型,提出了一个强关联神经网络[
Fig. 6 Architecture of the strongly-correlated neural network (SCN) where r indicates number of residues and c indicates number of features or channels.
该研究发现与传统向量表征方法相比,强关联网络极大提升了预测准确性,提高了约20个百分点.
4 展望与启示
最近十多年深度学习在蛋白质结构预测中取得了巨大了成就,它的杰出代表AlphaFold2[
而另一方面,高分子材料基因组计划仍然在进行中. 因为普通高分子的组成不像蛋白质序列那样,有确定的组成单元以及较为单一明确的目标,因此难度更大. 但深度学习在蛋白质结构预测中的成功经验仍然对高分子材料基因组计划有一定的启发:
首先,它有一个标准化的结构数据库PDB. 高分子材料基因组计划或许也需要构建类似的数据库,难点在于制定统一的数据标准. 即如何准确、完整、简洁地表征高分子链,加工条件及性能.
其次,蛋白质结构预测有一个权威的CASP竞赛,CASP极大地推进了结构预测算法的演进. 在材料基因组计划中可参照CASP,建立相应的标准化竞赛.
再次,AlphaFold2充分利用了当前深度学习领域的各种先进算法,并不拘泥于某种特定算法. 这启发我们解决问题时需要以问题为导向,而非以方法为导向.
最后,AlphaFold2中将Distogram信息用神经网络转化成分子结构坐标的方法可推广至其他结构预测的问题中,当然也可用于高分子的结构预测.
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了