——背景——
细胞内的无膜细胞器(MO)是细胞有效组织胞内空间的途径之一,普遍认为液-液相分离(LLPS)是其形成的分子基础。大量的实验研究报告了众多的相分离蛋白及其形成的凝聚物体系,为了更好地整合、利用文献中的信息,许多研究组开发了相分离相关蛋白的数据库,这些数据库各有不同的侧重点,本文对常用的五个数据库(CD-CODE, PhaSePro, PhaSepDB, LLPSDB, DrLLPS)进行简要介绍。
// CD-CODE //https://cd-code.org/图1. CD-CODE网站界面1. 开发人员
CD-CODE由德国马克斯·普朗克分子细胞生物学与遗传学研究所的Agnes
Toth-Petroczy课题组于2022年建立。
2. 简要介绍
CD-CODE是一个以凝聚物为中心的数据库,综合了来自文献和其它相分离数据库的信息,主要由三部分组成:
(1)参与相分离的蛋白质信息;
(2)生物分子凝聚物、体外合成的凝聚物及其蛋白质组成;
(3)相分离相关的科学术语百科。
CD-CODE通过分析蛋白质与凝聚物之间的关系,可以方便地将凝聚物中的蛋白分为Member、Driver和Marker,为每个凝聚物-蛋白质关系提供实验证据、评分和参考文献。此外,CD-CODE可以和UniProt,Ensembl和Human Protein
Atlas交互使用;CD-CODE还可以展示相分离蛋白的序列属性,如无序程度打分和氨基酸组成,可以给出影响相分离能力的PTMs列表。截至目前,CD-CODE收录了来自49种不同生物的244种生物分子凝聚物以及375种体外合成的凝聚物及其关联的9861个蛋白质。
3. 特点
(1)只收录有实验验证的相分离蛋白;
(2)可以简便地识别凝聚物中的Driver和Marker蛋白;
(3)具有其他数据库没有的百科内容。
// PhaSePro //https://phasepro.elte.hu/图2. PhaSePro网站界面1. 开发人员
PhaSePro由匈牙利科学院自然科学研究中心酶学研究所的Rita Pancsa课题组于2019年建立。
2. 简要介绍
PhaSePro只收录经过实验验证的相分离驱动蛋白,每个蛋白质作为一个条目,截至目前,PhaSePro收录了文献报道的121种能够驱动相分离的蛋白质和22种候选蛋白质的信息。对于所有收录的蛋白质,PhaSePro可以提供以下信息:
(1)蛋白质的具体信息;
(2)该蛋白质所参与形成的无膜细胞器(MO)或LLPS系统的功能描述及分类;
(3)经过实验验证的,对相分离有贡献的蛋白质区域;
(4)LLPS中涉及的分子相互作用的类型;
(5)LLPS的调控机制:已知会影响LLPS的翻译后修饰和剪接,发生于LLPS相关蛋白质序列中的突变,其它影响LLPS的分子,以及经过实验证实影响LLPS的疾病突变;
此外,PhaSePro还给出了22种候选蛋白的信息,这些蛋白可能驱动LLPS,但通过现有的实验数据无法完全确定。
3. 特点
(1)只收录能够驱动相分离的蛋白质,数据量较小;
(2)可以给出参与相分离的蛋白质区域,分子间相互作用类型及相分离调控机制;
// PhaSepDB//http://db.phasep.pro/图3. PhaSepDB网站界面1. 开发人员
PhaSepDB由北京大学基础医学院李婷婷课题组于2019年建立,目前已更新至2.1版本。
2. 简要介绍
PhaSepDB 2.1包含1419个相分离条目(868个相分离蛋白),770个低通量数据MLO(无膜细胞器)相关条目(590个蛋白)和7303个高通量数据MLO相关条目(5292种蛋白质)。
PhaSepDB将相分离蛋白区分为①可以单独在体外条件发生相分离的蛋白(PS-self)②仅有体内实验数据或需要相互作用的伴侣分子才可在体外发生相分离的蛋白(PS-other),在每一个条目下,PhaSepDB提供以下四种信息:
(1)蛋白质详细信息,包括与其它数据库的交叉引用;
(2)蛋白质相分离实验的详细信息,包括实验描述、凝聚物状态、相图、发生相分离的序列、生物体和细胞系等;
(3)参与相分离的伴侣蛋白,包括蛋白质、RNA和其它分子;
(4)调控蛋白质相分离的事件,包括PTM,氨基酸突变,寡聚,重复和选择性剪接等。
此外,该网站还整合了同样由李婷婷课题组开发的相分离蛋白预测工具PhaSePred,可以筛选潜在的相分离蛋白。
3. 特点
(1)数据量大,信息全面;
(2)整合了PhaSePred,可以对蛋白质的相分离能力进行预测。
// LLPSDB v2.0//http://bio-comp.org.cn/llpsdbv2/home.html图4. LLPSDB v2.0网站界面1. 开发人员
LLPSDB由中国科学院大学生命科学学院张竹青课题组于2019年建立,2022年更新至2.0版本。
2. 简要介绍
LLPSDB是专门为经过体外实验验证的相分离蛋白质建立的数据库,包含天然蛋白和人工设计的蛋白,LLPSDB提供了蛋白质的详细信息以及它们在体外进行相分离的具体实验条件。LLPSDB v2.0增加的新分类“Ambiguous
system”收录了一些组分不明,但仍然可以发生相分离的系统。LLPSDB v2.0包含2917个实验验证条目,包括586个独立的蛋白质。
3. 特点
LLPSDB仅收录了体外试验数据,包含了蛋白质体外相分离的温度、pH、压力、离子强度和拥挤剂等环境条件。
// DrLLPS//http://llps.biocuckoo.cn/图5. DrLLPS网站界面3. 开发人员
DrLLPS由华中科技大学生命科学与技术学院薛宇课题组联合华中科技大学同济医学院附属同济医院褚亮课题组于2019年建立。
4. 简要介绍
DrLLPS是一个综合数据库,包含437887种相分离相关蛋白质,其中包括7993个支架蛋白,72300个调控蛋白和357594个客体蛋白,覆盖了164个真核生物物种。DrLLPS整合了常用的116个数据库,对相分离相关蛋白质的16种性质进行了详细的注释,包括蛋白无序区域,翻译后修饰,基因突变位点,癌症突变,分子相互作用,疾病相关信息,药物-蛋白关系,物理化学性质,蛋白质功能,蛋白质表达/蛋白质组学,三维结构,亚细胞定位,mRNA表达和DNA甲基化等。
5. 特点
数据全面,支持按照凝聚物类型、参与相分离的功能、物种种类进行检索。
——小结——
本文介绍了物种常用的相分离相关蛋白质的数据库,从相分离的分子机制,到生成的生物分子凝聚物的具体功能,再到与相分离相关的疾病,这些数据库为我们提供了丰富而全面的信息,可以根据需求选择或结合使用。图6. 五种数据库收录的蛋白质条目数据量对比(截止2022年6月)[1]参考文献:[1] Rostam,
N. et al. CD-CODE: crowdsourcing
condensate database and encyclopedia. Nat
Methods, doi:10.1038/s41592-023-01831-0 (2023).[2] Meszaros, B. et al. PhaSePro: the database of proteins driving liquid-liquid
phase separation. Nucleic Acids Res 48, D360-D367, doi:10.1093/nar/gkz848
(2020).[3] Hou, C. et al. PhaSepDB in 2022: annotating phase separation-related
proteins with droplet states, co-phase separation partners and other
experimental information. Nucleic Acids
Res 51, D460-D465,
doi:10.1093/nar/gkac783 (2023).[4] Wang, X. et al. LLPSDB v2.0: an updated database of proteins undergoing
liquid-liquid phase separation in vitro. Bioinformatics38, 2010-2014,
doi:10.1093/bioinformatics/btac026 (2022).[5] Ning, W. et al. DrLLPS: a data resource of liquid-liquid phase separation
in eukaryotes. Nucleic Acids Res 48, D288-D295, doi:10.1093/nar/gkz1027
(2020).点击左下角的"阅读原文"即可查看原文章。作者:杨钰婕审稿:王丽莹编辑:林康杰