目前,UniProt由主要由以下子库构成:
高质量的、手工注释的、非冗余的数据库 |
自动翻译蛋白质序列,预测序列,未验证的数据库 |
非冗余蛋白质序列数据库 |
聚类序列减小数据库,加快搜索的速度 |
为全测序基因组物种提供蛋白质组信息 |
通过EMBL,GenBank,DDBJ等公共数据库得到原始数据,处理后存入UniParc的非冗余蛋白质序列数据库。UniProt作为数据仓库,再分别给UniProtKB,Proteomes,UNIRef提供可靠的数据集。其中在UniProtKB数据库中Swiss-Prot是由TrEMBL经过手动注释后得到的高质量非冗余数据库,也是我们今后常用的蛋白质数据库之一。
高质量的、手工注释的、非冗余的数据集
Swiss-Prot旨在提供与高水平注释(例如,蛋白质功能,其域结构,翻译后修饰,变体等的描述)相关的可靠蛋白质序列,最小程度的冗余和高水平与其他数据库的集成级别。注释主要来自文献中的研究成果和E-value校验过计算分析结果,有质量保证的数据才被加入该数据库 。
Swiss-Prot条目的注释中使用了一系列序列分析工具。包括手动评估,计算机预测,并选择结果包含在相应的条目中。这些预测包括翻译后修饰,跨膜结构域和拓扑,信号肽,结构域识别和蛋白质家族分类。
来自相同基因和相同物种的序列合并到相同的数据库条目中。确定序列之间的差异包含:可变剪接,自然变异,错误的起始位点,错误的外显子边界,移码,未识别的冲突。
注释会用相关出版物通过搜索数据库(例如PubMed)进行识别。阅读每篇论文的全文,然后提取信息并将其添加到条目中。科学文献中的注释包括但不限于:
高质量的、手工注释的、非冗余的数据集
Swiss-Prot旨在提供与高水平注释(例如,蛋白质功能,其域结构,翻译后修饰,变体等的描述)相关的可靠蛋白质序列,最小程度的冗余和高水平与其他数据库的集成级别。注释主要来自文献中的研究成果和E-value校验过计算分析结果,有质量保证的数据才被加入该数据库 。
Swiss-Prot条目的注释中使用了一系列序列分析工具。包括手动评估,计算机预测,并选择结果包含在相应的条目中。这些预测包括翻译后修饰,跨膜结构域和拓扑,信号肽,结构域识别和蛋白质家族分类。
来自相同基因和相同物种的序列合并到相同的数据库条目中。确定序列之间的差异包含:可变剪接,自然变异,错误的起始位点,错误的外显子边界,移码,未识别的冲突。
注释会用相关出版物通过搜索数据库(例如PubMed)进行识别。阅读每篇论文的全文,然后提取信息并将其添加到条目中。科学文献中的注释包括但不限于:
特定于酶的信息,例如催化活性,辅因子和催化残基
重要域和站点的位置和角色
离子,底物和辅因子结合位点
通过自然遗传变异,RNA编辑,替代剪接,蛋白水解加工和翻译后修饰产生的蛋白质变异形式
<3>:筛选某个物种,点击就好切换到该物种
<4>:通过基因名或蛋白名来筛选
<5>:依次是Unprot ID,该蛋白数据库命名,蛋白质名,基因名,物种,序列长
<6>:如果需要Blast来查看某个蛋白有哪些序列相似的蛋白序列,先选中感兴趣蛋白前的方框,点击Blast
<7>:如果需要多序列比对,先选中感兴趣蛋白前的方框,点击Align
<8>:如果要下载信息,先选中感兴趣蛋白前的方框,点击Download
下载。这里不选择序列,默认会下载全部序列
首先看 >
后的注释信息
sp:Swiss-Prot数据库的简称,也就是上面说的验证后的蛋白数据库
PE=1:Protein Existence,蛋白质可靠性,对应5个数字,数字越小越可靠:
在认识到序列数据的生成速度超过了Swiss-Prot的注释能力时,为了给不在Swiss-Prot中的那些蛋白质提供自动注释,UniProt创建了TrEMBL(翻译的EMBL核苷酸序列数据库)。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都会被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。之前提到的PIR组织制作了蛋白质序列数据库(PIR-PSD)。
UniProt Archive(UniParc)包含来自主要公共可用蛋白质序列数据库的所有蛋白质序列的非冗余数据集。蛋白质可能存在于几个不同的来源数据库中,并且在同一数据库中存在多个副本。 为了避免冗余,UniParc仅将每个唯一序列存储一次。 相同序列被合并,无论它们来自相同还是不同物种。 每个序列都有一个稳定且唯一的标识符(UPI),从而可以从不同的来源数据库中识别相同的蛋白质。
UniParc仅包含蛋白质序列,没有注释。 UniParc条目中的数据库交叉引用允许从源数据库检索有关该蛋白质的更多信息。 当源数据库中的序列发生更改时,UniParc将跟踪这些更改,并记录所有更改的历史记录。
UniProt Reference Clusters(UniRef):聚类序列可显著减小数据库大小,从而加快序列搜索的速度。用于计算的蛋白质序列来自UniProtKB和部分UniParc记录的序列。UniRef100序列将相同的序列和序列片段(来自任何生物)合并到一个UniRef条目中,用于显示代表性蛋白质的序列。
请在下面的文本框内输入文字,然后点击开始翻译按钮进行翻译,如果您看不到结果,请重新翻译!