蛋白质、核酸、碳水化合物(亦称糖质)和脂质是众所周知的四大基本生物大分子。随着结构生物学半个多世纪的发展,尤其是过去10年在冷冻电镜技术和人工智能算法的推动下,蛋白质的结构解析与机制探索实现了突破式发展。形成鲜明对比的是,虽然碳水化合物是地球上丰度最高的有机生物大分子,在诸多生命过程中发挥作用,但人们对碳水化合物的结构生物学认知却一直原地踏步。对包括淀粉、糖原、纤维素在内的多糖,以及糖修饰蛋白、糖修饰核酸在内的糖缀复合物而言,复杂的单糖类型、组合方式、空间构型,以及高度柔性,都给其结构解析带来巨大的困难;而结构信息的缺乏又反过来限制了人们对其功能和机制的理解,遑论基于AI的结构预测和设计。因此,针对碳水化合物或者糖缀复合物的高分辨率结构解析代表了结构生物学的难点和前沿。
与该工作同期开展的,还有一项被颜宁团队称为“荷糖月色”计划的研究——通过“CryoSeek(酷寻)”这一研究策略,将冷冻电镜作为一种观察工具,用于发现完全未知的生物大分子。结合冷冻电镜分析、AI辅助的自动建模以及生物信息学分析,颜宁团队在今年10月份报道了来自清华大学荷塘中一种新型的纤维蛋白的结构和潜在功能[2]。然而,团队特意用了“荷糖月色”作为新闻标题,这并不是别字,而是有意为之,因为与此同时,团队还有更加有趣的发现,正在进行下一步的验证。
图1. 从清华大学荷塘样品中解析的糖缀纤维蛋白TLP-4b
通过经验丰富的科研人员对电子密度图进行分析,揭示出这一直径约为8 nm的纤维的中心是一条细长的线性多肽,也是整个纤维中唯一属于蛋白的部分(图2)。这一部分由简单的四肽重复序列组成。神奇的是,每个四肽重复片段包含一个保守的3,4-二羟脯氨酸 (3,4-dihydroxyproline, DiHyp) ,其3-OH与4-OH均高度O-糖基化。与DiHyp相邻的位置,还存在一个O-糖基化的丝氨酸或者苏氨酸。
在三维重构的区段中,纤维结构高度规则,其折叠形式完全由糖质间的相互作用维持。意即,蛋白在这个高维结构中只是一种线性存在,其结构的组装与成型完全依赖于糖质的相互作用。并且由于高重复性,这些糖质的组装也是高度有序的(图2)。
通过计算氨基酸和糖质的比例发现,该纤维结构中糖质的质量占比达到了惊人的95%以上,因此科研人员在英文中将之类比为意大利面或者米线;考虑到荷塘的复杂环境,酷爱螺蛳粉的颜宁教授更愿意在中文语境下称之为8纳米螺蛳粉(一纳米为百万分之一毫米,头发的直径大约为60-90微米,所以这些纤维丝大约为万分之一的头发丝直径)。
本研究衍生出诸多有趣的问题等待探索。比如,如此高度有序的结构是由哪些糖基转移酶催化的?在组装过程中是否需要特定的伴侣蛋白或其他辅助因子?最重要的是,这些在细胞体外的纤维丝为糖基的存储几乎提供了无限空间,从而成为一种有效调节微环境里碳氮平衡的手段。探索这些问题需要在实验室内建立合适的模式生物,还有赖于包括结构信息学在内的多种策略;而这些问题的解决则将为包括合成生物学、材料科学在内的诸多学科提供新思路和新手段。
图2. TLP-4b的空间结构完全由糖质间的相互作用维持
清华大学讲席教授、北京生物结构前沿研究中心研究员、深圳医学科学院创始院长、深圳湾实验室主任颜宁和清华大学生命科学学院助理研究员李张强为本文的共同通讯作者。清华大学生命科学学院2020级直博生王彤彤、2023级博士生孙熠彤为本文共同第一作者。实验的冷冻电镜数据收集得到了清华大学冷冻电镜平台的帮助。实验的质谱鉴定工作得到了蛋白质化学与组学平台的支持,实验的计算工作得到清华大学高性能计算平台、国家蛋白质设施实验技术中心(北京)的支持。本研究得到了国家自然科学基金重大研究计划,北京生物结构前沿研究中心与清华-北大生命科学联合中心的经费支持。
[1] Huang, J., Tao, H., Chen, J., Shen, Y., Lei, J., Pan, J., ... & Yan, N. (2024). Structure-guided discovery of protein and glycan components in native mastigonemes. Cell, 187(7), 1733-1744.
[2] Wang, T., Li, Z., Xu, K., Huang, W., Huang, G., Zhang, Q. C., & Yan, N. (2024). CryoSeek: A strategy for bioentity discovery using cryoelectron microscopy. Proceedings of the National Academy of Sciences, 121(42), e2417046121.