生物信息學(xué)論文

發(fā)布時(shí)間:2020-07-13 來源: 思想?yún)R報(bào) 點(diǎn)擊：

　生物信息學(xué)論文嗜酸氧化亞鐵硫桿菌 6 M16 家族金屬肽酶序列分析

　學(xué)院

　資源生物學(xué)院

　任課老師

　劉元東

　班級(jí) 生物技術(shù) 1201 班

　學(xué)號(hào)

　 0306120227

　學(xué)生姓名

　解昊明

　摘要：

　現(xiàn)代生物信息學(xué)是應(yīng)用計(jì)算機(jī)技術(shù)和信息論方法研究蛋白質(zhì)及核酸序列等各種生物信息的采集、存儲(chǔ)、傳遞、檢索、分析和解讀，以幫助了解生物學(xué)和遺傳學(xué)信息的科學(xué)，其研究?jī)?nèi)容主要有基因組信息學(xué)、蛋白質(zhì)的結(jié)構(gòu)模擬以及藥物設(shè)計(jì)。本文是在生物信息學(xué)方法的基礎(chǔ)上，從已公布的AcidithiobacillusferrooxidansATCC23270 全基因組序列中挑選出肽酶的蛋白質(zhì)序列，以所公布的序列及注釋信息為基礎(chǔ)，通過查詢、搜索和使用生物信息學(xué)相關(guān)的數(shù)據(jù)庫(kù)、服務(wù)器及軟件工具等，完成對(duì)該基因的背景信息了解、同源序列比對(duì)、系統(tǒng)發(fā)生分析、二級(jí)結(jié)構(gòu)預(yù)測(cè)、信號(hào)肽分析、跨膜區(qū)分析、蛋白質(zhì)同源分子結(jié)構(gòu)信

　息了解等任務(wù)。通過對(duì)該基因的序列分析歸納總結(jié)了生物信息學(xué)網(wǎng)站的使用方法和開展一般生物信息學(xué)探究的基本步驟。

　關(guān)鍵詞：

　生物信息；嗜酸氧化亞鐵硫桿菌；M16 家族；肽酶；序列分析；序列比對(duì)；進(jìn)化樹；二級(jí)結(jié)構(gòu)預(yù)測(cè)；信號(hào)肽分析；跨膜區(qū)分析

　一、目標(biāo)序列的獲取與背景

　1. 目標(biāo) 序列的下載

　打開網(wǎng)址：

　找到序列：

　MDRYGPLLLFPPDMTRAVEPLCTTLDNGVTVISERLPGRRSVAL SLTVGNGSRDQAPDENGFAHLLEHMLFKGSTERDGDALNAAMESLGGTINAFTDRESTVFHGTVLAEDAADAFTLLAELLTKPRFDHADLRLEKRVVAQEAAMAAEDVEDWAQERALAEIWGPHPLAWPVLGNAQCIRSASRKRLQAYHQRILAESPLIVTAVGEVEHGVLCAWAEAAFGGPHGGARTAVPAPRFHGGQKRLRRAQAQQAHLIWMAPGCSVAAEDYLAHVVANAILGGGTASYLFRELREKRGLAYQVFSHLDPLRDCGEWTLYAATPGAQHVQAVAAMAEVLATLLEHGPTAADMIWAKRSLRIQLLLGQEDAEIRMSRLTRQWLYLGRLVPAEESL

　RTLAAVDADAVLRVLRKAWTERFELICLPARR 2. 目標(biāo)序列的背景信息

　打開網(wǎng)址.nlm.nih.gov/，輸入“peptidases”查詢相關(guān)數(shù)據(jù)庫(kù)。

　從 PubMed 數(shù)據(jù)庫(kù)中查找了解該序列相關(guān)研究背景

　結(jié)果如下：

　肽酶是一種能夠水解肽鏈的酶。

　他們是所有生物存活所必需的一種酶，而且在所有蛋白質(zhì)的編碼中，編碼肽酶的基因占了2% 。

　在對(duì) 500 個(gè)人的肽酶的調(diào)查中發(fā)現(xiàn)，有 14%的的肽酶可以作為藥物的靶點(diǎn)肽酶在許多生物過程中扮演重要的角色，包括消化食物蛋白、胞內(nèi)蛋白循環(huán)、凝血級(jí)聯(lián)系統(tǒng)、抗原提呈作用及活化各種蛋白質(zhì)，包括酶、肽類激素及神經(jīng)遞質(zhì)等。

　金屬肽酶

　活性依賴一種或多種金屬離子，催化肽類和蛋白質(zhì)中肽鍵水解的一類蛋白酶[1] 二、序列分析

　1 1、、同源序列比對(duì)

　序列比對(duì)的基本思想是，基于生物學(xué)中序列決定結(jié)構(gòu)，結(jié)構(gòu)決定功能的普遍規(guī)律，將核酸序列和蛋白質(zhì)一級(jí)結(jié)構(gòu)上的序列都看成由基本字符組成的字符串，檢測(cè)序列之間的相似性，發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化的信息。序列比對(duì)的理論基礎(chǔ)是進(jìn)化學(xué)說，如果兩個(gè)序列之間具有足夠的相似性，就推測(cè)二者可能有共同的進(jìn)化祖先，經(jīng)過序列內(nèi)殘基的替換、殘基或序列片段的缺失、以及序列重組等遺傳變異過程分別演化而來。

　序列相似和序列同源是不同的概念，序列之間的相似程度是可以量化的參數(shù)，而序列是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。

　如果兩個(gè)序列有顯著的保守性，要確定二者具有共同的進(jìn)化歷史，進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)和信息的支持。通過大量實(shí)驗(yàn)和序列比對(duì)的分析，一般認(rèn)為蛋白質(zhì)的結(jié)構(gòu)和功能比序列具有更大的保守性，因此粗略的說，如果序列之間的相似性超過30% ，它們就很可能是同源的。

　利用 BLAST 工具[2]進(jìn)行同源序列比對(duì),輸入網(wǎng)址：

　點(diǎn)擊 BLAST，得到序列比對(duì)結(jié)果：

　（1）a.目標(biāo)序列的簡(jiǎn)單信息：名稱、描述、分子類型、序列長(zhǎng)度等。其中分子類型為氨基酸，序列長(zhǎng)度為 424. b.所比對(duì)數(shù)據(jù)庫(kù)的名稱、描述和所用程序。

�。�2）GraphicSummary——blast 結(jié)果圖形顯示 a．保守域：顯示輸入序列的保守域片段等信息，包括特殊片段、非特殊片段、超家族、多結(jié)構(gòu)域。

　b.Distributionof100BlastHitsontheQuerySequence 顯示 hits 在輸入序列上的分布

　界面包括消息框（顯示 hits 的信息）、相似度顏色圖，代表 hits 的得分區(qū)間（黑、藍(lán)、綠、粉紅、紅，相似度由低到高）、輸入序列的坐標(biāo)、比對(duì)序列（每一條線段代表一條 hit，點(diǎn)擊線段，會(huì)鏈接到 hit 的詳細(xì)信息描述）。

　c.Describtion 顯示比對(duì)序列的相關(guān)信息，包括名稱、得分、輸入序列覆蓋值、E 評(píng)估值、相似度。得分越高、Evalue 越低、相似度越高，相似性的程度就越高。

　d.Alignment

　比對(duì)序列的名稱得分等信息，以及比對(duì)序列的具體顯示，可清楚的了解到哪些序列比對(duì)上，哪些序列是不一樣的，同時(shí)還要注意序列的位置。

　2 2、、多重序列比對(duì) （ MSA ）

　是對(duì)三個(gè)以上的生物學(xué)序列（biologicalsequence），如蛋白質(zhì)序列、DNA 序列或 RNA 序列所作的序列比對(duì)。一般來說，是輸入一組假定擁有演化關(guān)系的序列。從 MSA 的結(jié)果可推導(dǎo)出序列的同源性，而種系發(fā)生關(guān)系也可引導(dǎo)出這些序列共同的演化始祖。

　MSA 常用來研究序列的保守性（conservation），或是蛋白質(zhì)結(jié)構(gòu)域的三級(jí)結(jié)構(gòu)與二級(jí)結(jié)構(gòu)，甚至是個(gè)別的氨基酸或核苷酸。

　輸入網(wǎng)址[3]：

　輸入的六個(gè)序列，clustalx 快速的進(jìn)行序列兩兩對(duì)比，計(jì)算序列間的距離，獲得一個(gè)距離矩陣，鄰接法構(gòu)建一個(gè)引導(dǎo)樹，根據(jù)引導(dǎo)樹，漸進(jìn)比對(duì)多個(gè)序列。

　結(jié)果如圖，不同的殘基具有不同的顏色，可以清晰的看出各條序列之間殘基種類的異同，根據(jù)殘基異同對(duì)序列打分，可判斷出序列的相似性和同源性。在序列數(shù)據(jù)庫(kù)中，往往將各個(gè)序列按照同源關(guān)系進(jìn)行分類，形成一系列的家族。

　 3 3、、系統(tǒng)發(fā)生分析

　系統(tǒng)發(fā)生分析常用于進(jìn)化研究，通過構(gòu)建系統(tǒng)發(fā)育過程有助于通過物種間隱含的種系關(guān)系揭示進(jìn)化動(dòng)力的實(shí)質(zhì)。

　表型的(phenetic)和遺傳的(cladistic)數(shù)據(jù)有著明顯差異。這兩種關(guān)系可用于系統(tǒng)進(jìn)化樹(phylogenetictree)或樹狀圖(dendrogram)來表示。表型分枝圖(phenogram)和進(jìn)化分枝圖(cladogram)兩個(gè)術(shù)語已用于表示分別根據(jù)表型性的和遺傳性的關(guān)系所建立的關(guān)系樹。進(jìn)化分枝圖可以顯示事件或類群間的進(jìn)化時(shí)間，而表型分枝圖則不需要時(shí)間概念。文獻(xiàn)中，更多地是使用“系統(tǒng)進(jìn)化樹”一詞來表示進(jìn)化的途徑，另外還有系統(tǒng)發(fā)育樹、物種樹(speciestree)、基因樹等等一些相同或含義略有差異的名稱. 進(jìn)入網(wǎng)址[4] ：

　每一條線段都有一定的長(zhǎng)度，兩條序列之間的線段長(zhǎng)度之和便為兩個(gè)序列之間的距離，由此可判斷出序列之間的親疏關(guān)系。

　4 4、、二級(jí)結(jié)構(gòu)預(yù)測(cè)

　蛋白質(zhì)二級(jí)結(jié)構(gòu)（secondarystructureofprotein）指它的多肽鏈中有規(guī)則重復(fù)的構(gòu)象，限于主鏈原子的局部空間排列，不包括與肽鏈其他區(qū)段的相互關(guān)系及側(cè)鏈構(gòu)象。二級(jí)結(jié)構(gòu)主要有 α-螺旋、β-折疊、β-轉(zhuǎn)角。常見的二級(jí)結(jié)構(gòu)有 α-螺旋和 β-折疊。二級(jí)結(jié)構(gòu)是通過骨架上的羰基和酰胺基團(tuán)之間形成的氫鍵維持的，氫鍵是穩(wěn)定二級(jí)結(jié)構(gòu)的主要作用力。

　蛋白質(zhì)在形成立體結(jié)構(gòu)時(shí)，其多肽鏈部分首先折疊成 α-型螺旋（α-helix）和β-型(β-sheet)結(jié)構(gòu)，并由此進(jìn)一步可折疊成球形。此時(shí)，將 α 螺旋和 β 型結(jié)構(gòu)稱為二級(jí)結(jié)構(gòu)。在蛋白質(zhì)以外，例如在 tRNA 有三葉草葉型結(jié)構(gòu)，也可稱為二級(jí)結(jié)構(gòu)。

　打開網(wǎng)址[5]：，輸入目標(biāo)序列，點(diǎn)擊 predict.

　結(jié)果如下：

　圖中顯示了每一個(gè)氨基酸的坐標(biāo)和結(jié)構(gòu)，粉紅色代表 helix，黃色代表 sheet，白色代表線性。我們以另一種形式進(jìn)一步了解其預(yù)測(cè)的二級(jí)結(jié)構(gòu)。

　粉紅色的圓柱代表螺旋，黃色的箭頭代表折疊，直線代表線性結(jié)構(gòu)。Conf代表預(yù)測(cè)的可信度，Pred 代表預(yù)測(cè)的二級(jí)結(jié)構(gòu)，分別以圖形和字母表示。AA 代表輸入的目標(biāo)序列。由此我們可以預(yù)測(cè)出該序列完整的二級(jí)結(jié)構(gòu)。

　5 5、、信號(hào)肽的分析

　信號(hào)肽是引導(dǎo)新合成的蛋白質(zhì)向分泌通路轉(zhuǎn)移的短（長(zhǎng)度 5-30 個(gè)氨基酸）肽鏈。常指新合成多肽鏈中用于指導(dǎo)蛋白質(zhì)的跨膜轉(zhuǎn)移（定位）的 N-末端的氨基酸序列（有時(shí)不一定在 N 端）。

　信號(hào)肽包括三個(gè)區(qū)：一個(gè)帶正電的 N 末端，稱為堿性氨基末端：一個(gè)中間疏水序列．以中性氨基酸為主，能夠形成一段 d 螺旋結(jié)構(gòu)，它是信號(hào)肽的主要功能區(qū)；一個(gè)較長(zhǎng)的帶負(fù)電荷的 C 末端，含小分子氨基酸，是信號(hào)序列切割位點(diǎn)．也

　稱加工區(qū)。當(dāng)信號(hào)肽序列合成后，被信號(hào)識(shí)別顆粒(SRP)所識(shí)別，蛋白質(zhì)合成暫停或減緩，信號(hào)識(shí)別顆粒將核糖體攜帶至內(nèi)質(zhì)網(wǎng)上，蛋白質(zhì)合成重新開始。在信號(hào)肽的引導(dǎo)下，新合成的蛋白質(zhì)進(jìn)入內(nèi)質(zhì)網(wǎng)腔．而信號(hào)肽序列則在信號(hào)肽酶的作用下被切除。如終止轉(zhuǎn)運(yùn)序列存在于新生肽鏈的 C 端，也可以不被信號(hào)肽酶切除。

　信號(hào)肽假說認(rèn)為，編碼分泌蛋白的 mRNA 在翻譯時(shí)首先合成的是 N 末端帶有疏水氨基酸殘基的信號(hào)肽，它被內(nèi)質(zhì)網(wǎng)膜上的受體識(shí)別并與之相結(jié)合。信號(hào)肽經(jīng)由膜中蛋白質(zhì)形成的孔道到達(dá)內(nèi)質(zhì)網(wǎng)內(nèi)腔，隨即被位于腔表面的信號(hào)肽酶水解，由于它的引導(dǎo)，新生的多肽就能夠通過內(nèi)質(zhì)網(wǎng)膜進(jìn)入腔內(nèi)，最終被分泌到胞外。翻譯結(jié)束后，核糖體亞基解聚、孔道消失，內(nèi)質(zhì)網(wǎng)膜又恢復(fù)原先的脂雙層結(jié)構(gòu)。

　輸入網(wǎng)址[6]：

　輸入目標(biāo)序列后，點(diǎn)擊 submit，結(jié)果如下：

　結(jié)果分析：

　C-score（Cleavagesitescore 剪切位置分值）：通常信號(hào)肽剪切位置+1（就是成熟肽的第一個(gè)殘基）有個(gè)高的分值而其他位置有低的分值。

　S-score（Signalpeptidescore 信號(hào)肽分值）：剪切位置前的信號(hào)肽有高的分值，而非信號(hào)肽有低的分值。

　Y-score（combinedcleavagesitescore）：是綜合考慮 c 和 s-score。

　S-mean 是從 N 端氨基酸開始到剪切位點(diǎn)處各氨基酸的平均 S 值。

　D 值是 S-mean 和 Y-max 的平均值，對(duì)區(qū)分是否為分泌蛋白具有重要作用。

　本圖分析結(jié)果表明，這個(gè)蛋白質(zhì)并沒有明顯的信號(hào)肽剪切位點(diǎn)（Y 值和 S 值均沒有明顯的高點(diǎn)），所以得出的結(jié)論是：Signalpeptide 列中結(jié)果為 no，這個(gè)蛋白并不分泌。

　6 6、、跨膜區(qū)分析

　跨膜區(qū)指蛋白質(zhì)序列中跨越細(xì)胞膜的區(qū)域，通常為 α-螺旋結(jié)構(gòu)，約 20~25 個(gè)氨基酸殘基。該區(qū)域氨基酸大部分是疏水性氨基酸。

　蛋白質(zhì)跨膜區(qū)域的分析常采用 TMHMM 軟件進(jìn)行。

　進(jìn)入網(wǎng)站[7]：

　結(jié)果如下：

　橫坐標(biāo)是指氨基酸的位置，縱坐標(biāo)指每一個(gè)氨基酸可能跨膜的概率，紅線、藍(lán)線、粉紅線分別指氨基酸跨膜、膜內(nèi)、膜外的概率。

　由圖可知，幾乎每一個(gè)氨基酸都有 100%的概率處于膜外，結(jié)論顯示為outside1424，該蛋白為膜外蛋白。

　7 7、、同源分子結(jié)構(gòu)信息

　進(jìn)入網(wǎng)址[8]：

　輸入目標(biāo)序列，結(jié)果如下：

　三、歸納總結(jié)

　1 1 、探究過程中可以簡(jiǎn)化操作的幾個(gè)技巧

�。�1）在全基因組中尋找具有相同功能的離散基因時(shí)可以使用 office 自帶的搜索功能。

　如我要找到所有關(guān)于rhodanese-likedomainprotein(硫氰酸酶結(jié)構(gòu)域蛋白)的基因時(shí)，按下 ctrl+f 打開搜索界面，輸入 rhodanese-likedomainprotein 即可。

　可以看到我在全基因組中找到了分別離散與 AFE2558,AFE2364, AFE1502,AFE0529andAFE0151 位置的基因。

�。�2）在進(jìn)行完序列的同源搜索后同源序列的列表，我們只需要將左邊勾選然后就可以直接下載同源序列。如此在之后的多重序列比對(duì)中我們可以直接上傳下載的序列文件而不用直接輸入序列

　(3)在進(jìn)行完多重序列比對(duì)之后直接點(diǎn)擊標(biāo)題欄的 PhylogeneticTree 即可進(jìn)入系統(tǒng)發(fā)生分析界面，無需再上傳一次基因序列。

　2 2 、補(bǔ)充可以用到的生物信息學(xué)網(wǎng)站

　(1)Rast Rast 是一個(gè)快速注釋宏基因組樣品的網(wǎng)頁(yè)服務(wù)器。它可以分析序列片段的注釋，他們的系統(tǒng)分類和初步的構(gòu)建代謝途徑。它也可以用來比較宏基因組數(shù)據(jù)的分類和初步代謝途徑的構(gòu)建

�。�2）Kaas Kaas 是基于基因數(shù)據(jù)庫(kù)，化學(xué)分子物質(zhì)數(shù)據(jù)庫(kù)，以及基于基因和化學(xué)分子物質(zhì)相互關(guān)系而建立起來的代謝路徑數(shù)據(jù)庫(kù)的快速檢索工具

　3 3 、對(duì)新菌種開展研究的一般途徑

　四、課程感言

　隨著生命科學(xué)和計(jì)算機(jī)科學(xué)的迅猛發(fā)展，生物學(xué)科對(duì)于核酸和蛋白質(zhì)的分析的算法越來越復(fù)雜，這樣利用電子計(jì)算機(jī)分析核算和蛋白質(zhì)序列的學(xué)科就應(yīng)運(yùn)而生了，這就是這門生物信息學(xué)，他試圖從基因序列和蛋白質(zhì)序列的分析中找到一般規(guī)律，從而探究生物自身的特性。對(duì)于新藥物的研究，疾病治療，和人體探秘等等有著重大意義。

　通過這門課的學(xué)習(xí)，我感覺我學(xué)到的最重要的一點(diǎn)就是對(duì)于未知事物的屬性的探究和驗(yàn)證方法，說簡(jiǎn)單一點(diǎn)就是序列決定結(jié)構(gòu)，結(jié)構(gòu)決定功能。

　就拿這次序列分析的情況看，從這個(gè)肽酶在序列上的屬性，比如是否帶有信號(hào)肽，是否跨膜就可以推測(cè)并驗(yàn)證它的功能，雖然，我們事先已經(jīng)這種酶的屬性了，但是這種方法同樣是用于探索未知，比如，這個(gè)序列與另一個(gè)已知序列很1•分離純化2•測(cè)序3•16sRNA比對(duì)4•Rast/Kaas初步猜想構(gòu)建代謝通路5•同源搜索、多重序列比對(duì)、系統(tǒng)發(fā)生分析6•二級(jí)結(jié)構(gòu)預(yù)測(cè)、信號(hào)肽分析、跨膜區(qū)分析7•將測(cè)序后的DNA片段鏈接8•設(shè)計(jì)實(shí)驗(yàn) 驗(yàn)證

　接近，或者說同源性很高，那么就可以猜測(cè)他們具有相似的功能，就為進(jìn)一步研究提供了方向，再比如，我們知道一個(gè)未知蛋白可能是膜蛋白，那么他可能與呼吸作用等有關(guān)，等等。

　所以，重要的是對(duì)于序列屬性的分析與推導(dǎo)，得到假設(shè)和猜想，然后再利用具體的實(shí)驗(yàn)加以認(rèn)證這樣的一個(gè)思路。生物信息學(xué)是一種手段，但是，他也符合這樣一種基本的探究方式，只不過為這種方式增加了計(jì)算機(jī)等科學(xué)的輔助手段。

　這次學(xué)習(xí)還讓我熟悉了生物信息學(xué)這種工具的使用方法，通過各種序列分析網(wǎng)站的使用，讓我了解各個(gè)生物信息學(xué)實(shí)驗(yàn)該如何開展。并通過一次實(shí)驗(yàn)總結(jié)一般方法。現(xiàn)在我已初步了解了對(duì)一個(gè)新的未知菌進(jìn)行生物信息學(xué)分析，構(gòu)建代謝通路，分析各個(gè)基因及蛋白功能的基本方法。這將在我未來生物相關(guān)的學(xué)習(xí)中起到重要作用。

　五、參考文獻(xiàn) 及網(wǎng)站

　[1] [2] [3] [4] [5] [6] [7] [8] [9]

　[10] ValdésJ,PedrosoI,QuatriniR,etal.Acidithiobacillusferrooxidansmetabolism:fromgenomesequencetoindustrialapplications.[J].BmcGenomics,2008,9(6):82-86. [11]朱玉賢，李毅，鄭曉峰，郭紅衛(wèi)．現(xiàn)代分子生物學(xué)．北京：高等教育出版社，2013：53

相關(guān)熱詞搜索：信息學(xué) 生物論文

熱點(diǎn)文章閱讀

“童心向黨”主持詞 2020-07-17
建黨100周年感悟2020 2020-07-24
貫徹落實(shí)“三個(gè)規(guī)定”情況報(bào)告 2020-07-10
干部動(dòng)議工作辦法 2020-09-24
俄文字母,與漢語拼音對(duì)照表 2020-09-16
常用國(guó)內(nèi)外材料標(biāo)準(zhǔn)及牌號(hào)對(duì)照 2020-09-26
開展以案促改工作存問題及對(duì)策 2020-07-17
2020年度意識(shí)形態(tài)領(lǐng)域情況通報(bào) 2020-07-27
部隊(duì)基層微腐心得體會(huì) 2020-10-04
學(xué)習(xí)四史心得體會(huì)兩篇 2020-08-26