无需登录 数据私有 本地保存

蛋白质序列着色器 - 氨基酸性质可视化

19
0
0
0

蛋白质序列着色器

根据氨基酸理化性质进行可视化着色 · 支持多种经典配色方案

支持FASTA格式(自动去除标题行),仅接受20种标准氨基酸单字母代码
悬停氨基酸方块查看详细信息
请在上方输入蛋白质序列开始可视化
常见问题与知识点

蛋白质序列着色器是一种生物信息学可视化工具,根据氨基酸的物理化学性质(如疏水性、电荷、极性等)为蛋白质序列中的每个氨基酸赋予不同颜色。这有助于研究人员快速识别蛋白质的功能区域、跨膜结构域、亲水/疏水区域等特征,是蛋白质序列分析的常用辅助手段。

蛋白质由20种标准氨基酸组成:
疏水/非极性:丙氨酸(A)、缬氨酸(V)、亮氨酸(L)、异亮氨酸(I)、脯氨酸(P)、苯丙氨酸(F)、色氨酸(W)、甲硫氨酸(M)
极性不带电:甘氨酸(G)、丝氨酸(S)、苏氨酸(T)、半胱氨酸(C)、酪氨酸(Y)、天冬酰胺(N)、谷氨酰胺(Q)
带正电(碱性):赖氨酸(K)、精氨酸(R)、组氨酸(H)
带负电(酸性):天冬氨酸(D)、谷氨酸(E)
此外,B=Asx(N或D),Z=Glx(Q或E),X=未知氨基酸,*=终止密码子。

Kyte-Doolittle疏水性标度由Jack Kyte和Russell Doolittle于1982年提出,为每种氨基酸分配一个疏水性数值。正值表示疏水(如异亮氨酸+4.5),负值表示亲水(如精氨酸-4.5)。该标度广泛用于预测蛋白质跨膜螺旋和信号肽,是生物信息学中最经典的氨基酸性质标度之一。本工具的"疏水性"方案即基于此标度进行颜色映射。

FASTA是生物信息学中最常用的序列格式。以>开头的行为描述行(标题),紧随其后的是序列数据。序列可以使用单字母代码,可以跨多行。本工具自动识别并去除FASTA标题行,提取序列部分。您也可以直接粘贴纯序列文本(不含标题行),工具会自动清理空格、换行和数字。

RasMol配色源自经典分子可视化软件RasMol(Roger Sayle开发),是结构生物学中最广泛使用的氨基酸配色标准之一,在PDB结构查看中被广泛采用。Taylor配色由Willie Taylor于1997年提出,基于氨基酸的多种理化性质(大小、疏水性、电荷等)综合设计,色彩更丰富鲜艳,常用于多序列比对可视化(如Jalview软件)。两种方案各有特色,适用于不同场景。

着色结果取决于您选择的配色方案。例如在"疏水性"方案中,红色表示疏水氨基酸(倾向于埋在蛋白质内部),蓝色表示亲水/带电氨基酸(倾向于暴露在表面)。连续的红色区域可能暗示跨膜螺旋或疏水核心,而蓝色区域可能对应溶剂可及表面。在"电荷"方案中,蓝色为正电、红色为负电,可帮助识别电荷分布和潜在的离子结合位点。建议结合图例和蛋白质结构背景进行解读。

本工具计算的是蛋白质中氨基酸残基的分子量(即氨基酸在肽键中减去一分子水H₂O后的质量)。20种标准氨基酸残基分子量范围为57.05 Da(甘氨酸)到186.21 Da(色氨酸)。总分子量为各残基质量之和加上N端H和C端OH(+18.015 Da)。平均每个残基约110 Da,因此可用"残基数×110"快速估算蛋白质分子量。

标准蛋白质序列仅包含20种氨基酸的单字母代码(ACDEFGHIKLMNPQRSTVWY)。如果您的序列包含B、Z、X、J、O、U等非标准字母,工具会用灰色标记它们,并在统计中单独列出。这些字母通常代表:B=天冬氨酸或天冬酰胺,Z=谷氨酸或谷氨酰胺,X=未知氨基酸,U=硒半胱氨酸,O=吡咯赖氨酸。请检查序列来源以确保准确性。