蛋白質一級結構

蛋白質一級結構（protein primary structure）是肽或蛋白質中胺基酸的線性序列^[1]，即胺基酸序列（amino acid sequence）。按照慣例，蛋白質的一級結構被報道從氨基末端（N）端到羧基末端（C）端。蛋白質生物合成最通常由細胞中的核糖體進行。肽也可以在實驗室中合成。蛋白質一級結構可以直接進行蛋白質測序，或從DNA序列推斷。

在生物化學裡，生物分子的一級結構是其分子組成和分子間化學鍵結的精確模樣。對於一典型的無分支、無交叉的生物聚合物（如DNA、RNA或典型的細胞內蛋白質等分子），其第一結構等同於描述其單體單位的序列，即如DNA序列和肽序列。「一級結構」這一名詞在Linderstrom-Lang於1951年的Lane Medical Lectures上首次被提到。一級結構和一級序列有一點相似，即使在二級或三級結構中並沒有平行的概念。

形成

生物的形成

胺基酸通過肽鍵聚合形成長骨架主鏈，不同的胺基酸側鏈沿其突出。在生物系統中，蛋白質在細胞的核糖體翻譯過程中產生。一些生物體還可以通過非核糖體肽（英語：Nonribosomal peptide）合成製備短肽，其通常使用除了標準的20個之外的胺基酸，並且可以被環化，修飾和交聯。

化學的形成

肽可以通過一系列實驗室方法化學合成。化學方法通常以與生物蛋白質合成相反的順序（從C-末端開始）合成肽。

符號

蛋白質序列通常表示為字母串，列出了氨基末端開始至羧基末端的胺基酸。三個字母代碼或單個字母代碼可以用於表示20種天然存在的胺基酸，以及混合物或不確定的胺基酸（類似於核酸符號（英語：Nucleic acid notation））^[1]^[2]^[3]。

肽可以直接蛋白質序列測序，或從DNA序列推斷。大型序列資料庫（英語：Sequence database）現在已經存在，整理已知的蛋白質序列。

20種天然胺基酸符號
胺基酸	3-字母^[4]	1-字母^[4]
丙氨酸（Alanine）	Ala	A
精氨酸（Arginine）	Arg	R
天冬醯胺（Asparagine）	Asn	N
天冬氨酸（Aspartate）	Asp	D
半胱氨酸（Cysteine）	Cys	C
穀氨酸（Glutamic acid）	Glu	E
穀氨醯胺（Glutamine）	Gln	Q
甘氨酸（Glycine）	Gly	G
組氨酸（Histidine）	His	H
異亮氨酸（Isoleucine）	Ile	I
亮氨酸（Leucine）	Leu	L
賴氨酸（Lysine）	Lys	K
甲硫氨酸（Methionine）	Met	M
苯丙氨酸（Phenylalanine）	Phe	F
脯氨酸（Proline）	Pro	P
絲氨酸（Serine）	Ser	S
蘇氨酸（Threonine）	Thr	T
色氨酸（Tryptophan）	Trp	W
酪氨酸（Tyrosine）	Tyr	Y
纈氨酸（Valine）	Val	V

不確定的或未知的胺基酸符號
符號	描述	殘基表達
x	任意的或未知的胺基酸	All
B	天冬氨酸衍生物	D, N
Z	穀氨酸衍生物	E, Q
Φ	疏水性	V, I, L, F, W, Y, M
Ω	芳香性	F, W, Y, H
Ψ	脂肪族化合物	V, I, L, M
π	Small	P, G, A, S
ζ	親水性	S, T, H, N, Q, E, D, K, R
+	正離子	K, R, H
-	負離子	D, E

修飾

通常，多肽是非支化聚合物，因此它們的一級結構通常可以通過沿其主鏈的胺基酸序列來指定。然而，蛋白質可以變得交叉聯接，最常見地通過二硫鍵，並且一級結構也需要指定交聯原子，例如，指定參與蛋白質二硫鍵的半胱氨酸。其他交聯包括鎖鏈素。

異構化

多肽鏈的手性中心可以進行消旋。雖然它不會改變序列，但它確實會影響序列的化學性質。特別是，蛋白質中常見的L-胺基酸可以在 $\mathrm {C^{\alpha }}$ 原子中自發異構化，形成D-胺基酸，大多數蛋白酶不能切割。另外，脯氨酸可在肽鍵處形成穩定的順反異構物。

翻譯後修飾

最後，蛋白質可以進行各種翻譯後修飾，這裡簡要總結。

多肽的N-末端氨基可以共價修飾，例如，

圖1 N-末端乙醯化

乙醯化 $\mathrm {-C(=O)-CH_{3}}$

N-末端氨基上的正電荷可以被通過將其改變為乙醯基來消除（N-末端阻斷）。

甲醯化 $\mathrm {-C(=O)H}$

通常在翻譯後發現的N-末端甲硫氨酸具有被甲醯基封閉的N-末端。通過酶去甲醯化酶除去該甲醯基（有時是甲硫氨酸殘基本身，如果後面跟著Gly或Ser）。

焦穀氨酸化

圖2 從N-末端穀氨醯胺形成焦穀氨酸

N-末端穀氨醯胺可以攻擊自身，形成環狀的焦穀氨酸基團。

肉豆蔻醯化 $\mathrm {-C(=O)-\left(CH_{2}\right)_{12}-CH_{3}}$

與乙醯化相似。肉豆蔻醯基具有14個疏水性碳的尾部，而不是簡單的甲基，這使其成為將蛋白質錨定到細胞膜的理想選擇。

多肽的C-末端羧酸酯基團也可以被修飾，例如，

圖3 C-末端醯胺化

醯胺化 (看圖)

C-末端也可以通過醯胺化被阻斷（因此中和其負電荷）。

糖磷脂醯肌醇（GPI）附著

糖磷脂醯肌醇（GPI）是一種大的疏水性磷脂修復基團，可將蛋白質轉移到細胞膜上。它通過醯胺鍵連接到多肽C-末端，然後連接到乙醇胺，然後連接到各種各樣的糖，最後連接到磷脂醯肌醇脂質部分。

最後，肽側鏈也可以共價修飾，例如，

磷酸化

除了切割，磷酸化可能是蛋白質最重要的化學修飾。磷酸基團可以連接到絲氨酸，蘇氨酸和酪氨酸殘基的側鏈羥基上，在該位點添加負電荷並產生非天然胺基酸。這些反應由激酶催化，逆反應由磷酸酶催化。磷酸化的酪氨酸通常用作「手柄」，蛋白質可以通過它們彼此結合，而Ser/Thr的磷酸化經常誘導構象變化，可能是由於引入的負電荷。有時可以通過將Ser/Thr殘基突變為穀氨酸來模擬磷酸化Ser/Thr的作用。

糖基化

一組非常常見且非常多樣化學修飾的總體名字。糖部分可以連接到Ser/Thr的側鏈羥基或Asn的側鏈醯胺基團上。這種附著可以起到許多功能，從增加溶解度到複雜識別。所有糖基化都可以用某些抑制劑阻斷，例如衣黴素。

脫醯胺化（琥珀醯亞胺形成）

在該修飾中，天冬醯胺或天冬氨酸側鏈攻擊以下肽鍵，形成對稱的琥珀醯亞胺的中間體。中間體的水解產生天冬氨酸或β-胺基酸，異構（Asp）。對於天冬醯胺，任一產物都會導致醯胺基團的損失，因此是「脫醯胺化（英語：Deamidation）」。

羥基化

脯氨酸殘基可以是兩個原子中的任一個的羥基化物，賴氨酸（在一個原子上）也是如此。羥脯氨酸是膠原蛋白的關鍵成分，在失去後變得不穩定。羥基化反應由需要抗壞血酸（維生素C）的酶催化，其缺乏導致許多結締組織疾病，例如壞血病。

甲基化

幾種蛋白質殘基可被甲基化，最值得注意的是賴氨酸和精氨酸的陽性基團。精氨酸殘基與核酸磷酸骨架相互作用，並且通常與蛋白質-DNA複合物中的鹼基殘基，特別是鳥嘌呤形成氫鍵。賴氨酸殘基可以單獨，雙重和甚至三重甲基化。然而，甲基化不會改變側鏈上的正電荷。

乙醯化

賴氨酸氨基的乙醯化在化學上類似於N-末端的乙醯化。然而，在功能上，賴氨酸殘基的乙醯化用於調節蛋白質與核酸的結合。賴氨酸上的正電荷的消除削弱了（帶負電的）核酸的靜電吸引力。

硫酸化

酪氨酸可能在其

\mathrm {O^{\eta }}

原子上被硫酸化。有點不尋常，這種修飾發生在高爾基體中，而不是在內質網中。與磷酸化酪氨酸類似，硫酸化酪氨酸用於特異性識別，例如在細胞表面的趨化因子受體中。與磷酸化一樣，硫酸化會向先前中性位點添加負電荷。

異戊烯化（英語：Prenylation）和棕櫚醯化 $\mathrm {-C(=O)-\left(CH_{2}\right)_{14}-CH_{3}}$

疏水性異戊二烯（例如，法呢基，香葉基，和香葉基香葉基）和棕櫚醯基可以添加到

\mathrm {S^{\gamma }}

半胱氨酸殘基的原子將蛋白質錨定到細胞膜上。與GPI和myritoyl錨不同，這些組不一定在末端添加。

羧化

一種相對罕見的修飾，它向穀氨酸側鏈添加額外的羧酸鹽基團（並因此產生雙重負電荷），產生Gla殘基。這用於加強與「硬」金屬離子如鈣的結合。

ADP核糖基化

大的ADP-核糖基可以轉移到蛋白質內的幾種類型的側鏈，具有異質效應。該修飾是不同細菌的強毒素的靶標，例如霍亂弧菌，白喉棒狀桿菌和百日咳博德特氏菌。

泛素化和SUMO化(SUMOylation)

各種全長的摺疊蛋白質可以在其C-末端連接到其他蛋白質的賴氨酸的側鏈銨基團上。泛素是這些中最常見的，並且通常表明泛素標記的蛋白質應該被降解。

上面列出的大多數多肽修飾發生在翻譯後，即在核糖體上合成蛋白質後，通常發生在真核細胞的亞細胞內質網中。

化學家已將許多其他化學反應（例如，氰基化）應用於蛋白質，儘管它們未在生物系統中被發現。

切割和連接

除了上面列出的那些之外，一級結構的最重要的修飾是肽切割（通過化學水解或通過蛋白酶）。蛋白質通常以無活性的前體形式合成; 通常，N-末端或C-末端區段阻斷蛋白質的活性位點，抑制其功能。通過切割抑制肽來激活蛋白質。

與二級和三級結構的關係

生物聚合物的一級結構在很大程度上決定了三維形狀（蛋白質三級結構）。蛋白質序列可用於預測局部特徵，例如二級結構的區段或跨膜區域。然而，蛋白質摺疊的複雜性目前禁止僅從其序列預測蛋白質的三級結構。了解相似同源序列（英語：Sequence homology）（例如相同蛋白質家族的成員）的結構允許通過同源性建模高度準確地預測三級結構。如果可獲得全長蛋白質序列，則可以估計其一般生物物理學特性，例如其等電點。

序列家族通常通過序列聚類確定，並且結構基因組學項目旨在產生一組代表性結構以覆蓋可能的非冗餘序列的序列空間。

其他分子的一級結構

任何線性鏈雜聚物可以被稱為具有類似於該術語對於蛋白質的使用的「一級結構」，但是與參考蛋白質的極其常用的用法相比，這種用法是罕見的。在也具有廣泛二級結構的RNA中，鹼基的直鏈通常僅稱為「序列」，如同它在DNA中被稱為的（其通常形成具有很少二級結構的線性雙螺旋）。其他生物聚合物如多糖也可以被認為具有一級結構，儘管這樣使用不是標準的。