首页 科学研究 科研进展
SIIMS | 胡名旭等提出创新算法,实现在分子对称群意义下求空间取向的均值和方差
2024-11-07 -

分子对称性广泛存在于生物大分子中。在单颗粒冷冻电镜中,科学家可以利用分子对称性,将一个颗粒视作生物大分子在多个方向上的投影,这就相当于大幅增加了有效颗粒的数量。然而,另一方面,在生物大分子中也普遍存在一种被称为“对称失配(symmetry mismatch)”的现象。


所谓“对称失配”,是指在对称结构的基础上还附加了其他非对称的结构。例如,病毒衣壳通常具有正二十面体对称,但在衣壳内部包含遗传物质,或在衣壳表面附有特定蛋白质。这些附加结构相对于正二十面体对称的衣壳形成了对称失配。

图片

图1. 几种典型的病毒上的对称失配 (Hafensteina et. al., 2019)


对称失配的结构现象对于我们理解病毒的生命周期、感染宿主的机制、自身复制和组装等过程具有重要意义。但同时,也给病毒的结构解析带来了不小的困扰。


在许多对称失配的场景中,由于对称性部分的信号较强,算法在估计角度时往往只对齐了对称性部分。并且,在角度估计和重构过程中考虑分子对称性,又会将非对称特征平均掉。如此,在对称失配的情景中,想要通过冷冻电镜图像处理来恢复那些具有重要生物学意义的非对称特性,就变得十分困难。


要正确处理此类对称失配结构,需要在冷冻电镜图像处理流程中引入特殊的处理技巧。其中一个关键的步骤是,在数据分析的早期阶段判断是否存在非对称特征,并确定其可能的分布区域。


这通常涉及在分子对称性意义下,对于空间旋转和投影方向的统计问题。要估计这些统计特征,需要在分子对称群上求解离散优化问题。而由于优化变量具有离散性,此类优化问题(如经典的整数规划或0-1规划问题)通常属于困难问题:局部最优解较多,导致极难获得全局最优解。



北京时间2024年11月5日19点,深圳医学科学院胡名旭特聘研究员及清华大学包承龙副教授、东南大学林海教授在国际著名应用数学期刊《美国工业与应用数学学会•图像科学》(Society for Industrial and Applied Mathematical Journal on Imaging Sciences, 一般简称SIAM Journal on Imaging Sciences或SIIMS)上在线发表题为 “Averaging Orientations with Molecular Symmetry in Cryo-EM”的研究论文。研究团队提出了一种创新算法,使人们有可能在分子对称意义下计算空间旋转与投影方向的均值和方差,并展示了该算法在可视化二维非对称特征中的应用。


首先,团队通过引入商流形 图片 图片上的距离概念,严格定义了商流形中的均值和方差问题,该问题可以写为如下优化问题:

图片

其中由于图片是离散的优化变量,难以求解。团队提出使用近似问题

图片

代替原问题,并对该近似程度进行了理论上的严谨分析。


近似问题适用于普林斯顿大学Amit Singer教授团队提出的非独特游戏(nonunique games,简称NUG)的理论框架(Bandeira et. al., 2020)。该框架借助了群表示理论 (group representation theory),可以将上述非凸优化问题转化为一个半正定规划 (semidefinite programming,简称SDP) 问题,从而方便求解。


进一步,胡名旭团队及其合作者提出了一种新的舍入 (rounding) 算法,可将SDP解重新转化为NUG解。数值模拟表明,该舍入算法在几乎所有情况下均能获得全局最优解。该算法具备高精度的求解能力,这就使研究者能够在数据分析的早期阶段识别非对称特征的存在及其可能分布区域,这不仅为对称失配情境下的冷冻电镜图像处理提供了支持,同时也提供了新的思路,帮助在离散优化领域开发适用于有限群商流形的通用方法。


团队已将算法实现为一个公开的Python程序包pySymStat,并进一步应用pySymStat,提出了一种可视化非对称特征的二维分类流程,且采用一个具有正二十面体对称的实例验证了该流程的有效性。

图片

图2. (a) Qβ-MurA复合物的xy、yz、zx三个正交投影以及用RELION生成的随机投影,添加高斯白噪声使得信噪比为−10dB。注意Qβ具有正二十面体对称而结合MurA形成对称失配,见红框部分。(b) 模拟颗粒根据其投影方向在考虑正二十面体对称性意义下进行类数为10的聚类,不同颜色表示不同类别,为展示方便选取了一个非对称单元。将包含9,850个颗粒第一类的图像进行了二维平均。(c) 将第一类中的颗粒进一步进行基于均匀K-means的二维平均,随着迭代进行,非对称特征逐渐显现,见红框部分。(d) 直接使用RELION对所有颗粒进行类数为100的传统二维分类,不论是使用或者不使用角度的重新精修,都无法看出非对称的MurA部分。


目前,pySymStat已经在Github上发布,点击下载软件



参考文献

1. Goetschius, D.J., Lee, H., and Hafenstein, S. (2019). Chapter Three - CryoEM reconstruction approaches to resolve asymmetric features. In Advances in Virus Research, F. A. Rey, ed. (Academic Press), pp. 73–91.

2. Bandeira, A.S., Chen, Y., Lederman, R.R., and Singer, A. (2020). Non-unique games over compact groups and orientation estimation in cryo-EM. Inverse Problems 36, 064002.



胡名旭课题组招聘

深圳医学科院特聘研究员、北京市生物结构前沿中心(清华大学)研究员胡名旭,清华大学丘成桐数学中心副教授、北京雁栖湖应用数学研究院助理研究员、清华大学膜生物学重点实验室研究员包承龙,东南大学丘成桐中心和数学学院教授林海,为本文的共同通讯作者。清华大学生命科学院博士研究生张起为本文第一作者。本研究受到深圳医学科学院启动经费,北京市生物结构前沿中心(清华大学),国家重点研发计划,国家自然科学基金,中央高校基本科研业务费专项资金的资助。


课题组现正积极招聘副研究员、助理研究员、博士后及科研助理,研究方向为利用冷冻电镜技术开展植物次生代谢中关键生物大分子的结构生物学研究。同时,招聘一名Web应用开发工程师,负责设计、开发并维护高效、可扩展的冷冻电镜数据处理Web应用程序。有关课题组的详细招聘信息(包括其他职位),请参见链接