生物信息學(xué)
主要研究方向
序列分析
不同基因或蛋白質(zhì)的序列可以并排排列,以測量它們的相似性。 該比對比較含有 WPP結(jié)構(gòu)域 ( 英語 : WPP domain ) 的蛋白質(zhì)序列。
1977年,噬菌體Φ-X174成為第一個被完整測定基因組序列的生物體。自此以后,越來越多生物體的DNA序列被人類測定。通過對這些序列的分析,人們希望獲知其中對應(yīng)蛋白質(zhì)編碼的基因和基因調(diào)控序列。不同物種間的基因比對既能夠解釋和預(yù)測他們蛋白質(zhì)的功能的相似性,又能夠揭示不同物種間的聯(lián)系。由于數(shù)據(jù)量巨大,依靠人工分析DNA序列早已變得不切實(shí)際,這使得人們不得不采用計(jì)算機(jī)分析數(shù)千種生物體的數(shù)十億個核苷酸組成的DNA序列。由于DNA序列中普遍存在變異現(xiàn)象,這些計(jì)算機(jī)程序需要識別大量相關(guān)但是不完全相同的序列。即便是在DNA測序的過程中,也存在著不確定的因素。在DNA測序的霰彈槍定序法(The Institute for Genomic Research依此技術(shù)測定了第一個細(xì)菌的基因組)中,完整的DNA鏈被打散為成千上萬條長約600到800個核苷酸的DNA片段。這些DNA片段的兩端相互重疊,只有依照正確的順序組合,才能還原為完整的DNA序列。對于較大的基因組,霰彈槍定序法能夠迅速的測定DNA片段的序列,但將它們組裝起來的工作則相當(dāng)復(fù)雜。在人類基因組計(jì)劃中,該基因重組過程花費(fèi)了幾個月的CPU時(shí)間(on a circa-2000 vintage DEC Alpha computer)。由于現(xiàn)今幾乎所有基因序列均由霰彈法測定,基因重組算法是信息生物學(xué)研究的重點(diǎn)課題。
基因組中并不是所有的核苷酸都構(gòu)成基因,所以序列分析的另一個研究課題是對基因組中的基因和基因調(diào)控序列進(jìn)行自動識別。在較高等的生物體中,DNA序列的大部分并沒有明顯的作用。但是,這些所謂的“垃圾DNA”卻可能具有未被識別的功能。
基因組注釋
在基因組學(xué)中,對基因和其他生物特征的標(biāo)注稱為基因組注釋。1995年,Owen White(在1995年完成的人類首次為獨(dú)立的生物體——流感嗜血桿菌——測序的工作中,他是組員之一)設(shè)計(jì)出了第一套基因組注釋軟件系統(tǒng)。該系統(tǒng)能夠自動識別基因、轉(zhuǎn)錄基因和其他生物學(xué)特征,并能夠初步的分析它們的功能。大多數(shù)現(xiàn)今的注釋系統(tǒng)的與之類似,但用以分析DNA序列的軟件在不斷進(jìn)化之中。
在尋找基因和致力于發(fā)現(xiàn)新蛋白的努力中,人們習(xí)慣于把新的序列同已知功能的蛋白序列作比對。由于這些比對通常都希望能夠推測新蛋白的功能,不管它們是雙重比對還是多序列比對,都可以回答大量的其它的生物學(xué)問題。舉例來說,面對一堆搜集的比對序列,人們會研究隱含于蛋白之中的系統(tǒng)發(fā)生的關(guān)系,以便于更好地理解蛋白的進(jìn)化。人們并不只是著眼于某一個蛋白,而是研究一個家族中的相關(guān)蛋白,看看進(jìn)化壓力和生物秩序如何結(jié)合起來創(chuàng)造出新的具有雖然不同但是功能相關(guān)的蛋白。研究完多序列比對中的高度保守區(qū)域,我們可以對蛋白質(zhì)的整個結(jié)構(gòu)進(jìn)行預(yù)測,并且猜測這些保守區(qū)域?qū)τ诰S持三維結(jié)構(gòu)的重要性。
顯然,分析一群相關(guān)蛋白質(zhì)時(shí),很有必要了解比對的正確構(gòu)成。發(fā)展用于多序列比對的程序是一個很有活力的研究領(lǐng)域,絕大多數(shù)方法都是基于漸進(jìn)比對(progressive alignment)的概念。漸進(jìn)比對的思想依賴于使用者用作比對的蛋白質(zhì)序列之間確實(shí)存在的生物學(xué)上的或者更準(zhǔn)確地說是系統(tǒng)發(fā)生學(xué)上的相互關(guān)聯(lián)。不同算法從不同方面解決這一問題,但是當(dāng)比對的序列大大地超過兩個時(shí)(雙重比對),對于計(jì)算的挑戰(zhàn)就會很令人生畏。在實(shí)際操作中,算法會在計(jì)算速度和獲得最佳比對之間尋求平衡,常常會接受足夠相近的比對。不管最終使用的是什么方法,使用者都必須審視結(jié)果的比對,因?yàn)樵诖嘶A(chǔ)上作一些手工修改是十分必要的,尤其是對保守的區(qū)域。
計(jì)算進(jìn)化生物學(xué)
進(jìn)化生物學(xué)研究物種的起源和演化。引入信息學(xué)到進(jìn)化生物學(xué)中,使得研究者能夠:
通過度量DNA序列的改變研究眾多生物體間的進(jìn)化關(guān)系(超越了以前基于身體和生理特征觀察的研究方法)
通過整個基因組的比對,研究更為復(fù)雜的進(jìn)化論課題,如基因復(fù)制,基因橫向遷移等
為種群進(jìn)化建立復(fù)雜的計(jì)算模型,以預(yù)測種群隨時(shí)間的演化
保存大量物種的遺傳信息
未來的研究工作包括重建業(yè)已相當(dāng)復(fù)雜的進(jìn)化樹。
計(jì)算進(jìn)化生物學(xué)常常與采用遺傳算法的計(jì)算機(jī)科學(xué)相混淆。后者受到生物進(jìn)化原理的啟發(fā),發(fā)展出一套軟件用于改進(jìn)配方、算法、集成電路設(shè)計(jì)等等。
生物多樣性的度量
對一個特定的生態(tài)系統(tǒng),小到一層生物膜、一滴海水、一鏟泥土,大到整個地球,其中全體物種的基因組成分可被定義為這個生態(tài)系統(tǒng)的生物多樣性。搜集各物種的名稱、描述、分布、遺傳信息、地位、種群大小、棲息地,和各生物體間的相互作用等信息,可以建立一個數(shù)據(jù)庫。有專門的軟件用于搜尋、分析和可視化這些信息,更重要的是,它們還能夠幫助人們相互交流這些信息。計(jì)算機(jī)能夠模擬相應(yīng)的模型,以計(jì)算種群動態(tài)演變,遺傳健康狀態(tài)等等。
該領(lǐng)域的一個重要前景是為瀕危物種建立基因銀行,即將各物種的基因組信息保存下來。這樣即便在將來這些物種滅絕了,人類也可能利用它們的基因組信息重新創(chuàng)造出它們。
蛋白質(zhì)結(jié)構(gòu)預(yù)測
蛋白質(zhì)結(jié)構(gòu)預(yù)測是生物信息學(xué)的重要應(yīng)用。蛋白質(zhì)的氨基酸序列(也稱為一級結(jié)構(gòu))可以容易的由它的基因編碼序列獲得。在絕大多數(shù)情況下,在蛋白質(zhì)的原生環(huán)境中,其結(jié)構(gòu)由它的氨基酸序列唯一的決定。蛋白質(zhì)的結(jié)構(gòu)對于理解蛋白質(zhì)的功能十分重要。這些結(jié)構(gòu)信息通常被稱為二級、三級、四級結(jié)構(gòu)。目前尚沒有普遍可行方案實(shí)現(xiàn)這些結(jié)構(gòu)的準(zhǔn)確預(yù)測;大多數(shù)方案為啟發(fā)式的。
同源性是生物信息學(xué)中的一個重要概念。在基因組的研究中,同源性被用以分析基因的功能:若兩基因同源,則它們的功能可能相近;在蛋白質(zhì)結(jié)構(gòu)的研究中,同源性被用于尋找在形成蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)反應(yīng)中起關(guān)鍵作用的蛋白質(zhì)片斷。在一種被稱為同源建模的技術(shù)中,這些信息可與已知結(jié)構(gòu)的蛋白質(zhì)相比較,從而預(yù)測未知結(jié)構(gòu)的蛋白質(zhì)。目前為止,這是唯一可靠的預(yù)測蛋白質(zhì)結(jié)構(gòu)的方法。
人類血色素和豆類血色素間的相似性是以上方法的一個實(shí)例。兩種血色素有相同的功能,均能夠在各自的生物體內(nèi)運(yùn)輸氧氣。盡管它們的氨基酸序列大不相同,它們的蛋白質(zhì)結(jié)構(gòu)幾乎一樣。
蛋白質(zhì)表達(dá)分析
通過蛋白質(zhì)微陣列技術(shù)或高通量質(zhì)譜分析對生物標(biāo)本進(jìn)行測量所獲得的數(shù)據(jù)中,包含有大量生物標(biāo)本內(nèi)蛋白質(zhì)的信息。生物信息學(xué)被廣泛的應(yīng)用于這些數(shù)據(jù)的分析。對于前者,生物信息學(xué)所面臨的問題與RNA微陣列數(shù)據(jù)分析中遇到的問題相似;對于后者,生物信息學(xué)將所獲得的大量質(zhì)譜數(shù)據(jù)與通過已知蛋白質(zhì)數(shù)據(jù)庫預(yù)測的數(shù)據(jù)進(jìn)行比較,并使用復(fù)雜的統(tǒng)計(jì)學(xué)方法進(jìn)一步分析。
網(wǎng)絡(luò)和系統(tǒng)生物學(xué)
網(wǎng)絡(luò)分析試圖了解生物網(wǎng)絡(luò)中的關(guān)系,如代謝或蛋白質(zhì) - 蛋白質(zhì)相互作用網(wǎng)絡(luò)。盡管生物網(wǎng)絡(luò)可以由單一類型的分子或?qū)嶓w(例如基因)構(gòu)建,但是網(wǎng)絡(luò)生物學(xué)通常嘗試整合許多不同的數(shù)據(jù)類型,例如蛋白質(zhì),小分子,基因表達(dá)數(shù)據(jù)等。另一個流行的遺傳網(wǎng)絡(luò)分析數(shù)據(jù)源是文獻(xiàn)數(shù)據(jù)。相關(guān)工具包括Pathway Studio和IPA。
系統(tǒng)生物學(xué)涉及使用細(xì)胞子系統(tǒng)(例如代謝物和包括代謝,信號轉(zhuǎn)導(dǎo)途徑和基因調(diào)節(jié)網(wǎng)絡(luò)的酶的網(wǎng)絡(luò))的計(jì)算機(jī)模擬來分析和可視化這些細(xì)胞過程的復(fù)雜連接。例如,人工生命或虛擬進(jìn)化試圖通過簡單(人工)生命形式的計(jì)算機(jī)模擬來理解進(jìn)化過程。
比較基因組學(xué)
比較基因組學(xué)的核心課題是識別和建立不同生物體的基因或其他基因組特征的聯(lián)系。這些跨基因組的聯(lián)系使得我們能夠跟蹤基因組的進(jìn)化過程?;蚪M進(jìn)化由多個不同層次的事件完成。在最低的層次,單個核苷酸上發(fā)生了點(diǎn)變異。在較高的層次,大的染色體片段經(jīng)歷了復(fù)制、橫向遷移、逆轉(zhuǎn)、調(diào)換、刪除和插入等過程。在最高的層次上,整個基因組會經(jīng)歷雜交、倍交、內(nèi)共生等變異,并迅速產(chǎn)生新的物種。
基因表達(dá)分析
多種生物學(xué)技術(shù)可以用于測量基因的表達(dá),如DNA微陣列,表達(dá)序列標(biāo)簽(expressed sequence tag),基因表達(dá)連續(xù)分析(serial analysis of gene expression),大規(guī)模平行信號測序(massively parallel signature sequencing),多元原位雜交法(multiplexed in-situ hybridization)等。上列所有方法均嚴(yán)重依賴于環(huán)境并會產(chǎn)生大量高噪聲的數(shù)據(jù)。生物信息學(xué)致力于發(fā)展一套統(tǒng)計(jì)學(xué)工具以從中提取有用的信息。
調(diào)控分析
調(diào)控是指當(dāng)細(xì)胞受到外信號刺激之后其內(nèi)發(fā)生的一系列反應(yīng)過程的總和。生物信息學(xué)技術(shù)被用于分析調(diào)控的各個步驟。例如,基因表達(dá)的數(shù)據(jù)可用于分析基因調(diào)控。對于一個單細(xì)胞生物體,我們可以用生物芯片技術(shù)觀察受到不同外界刺激、處于細(xì)胞周期不同狀態(tài)的細(xì)胞,并將采集到的數(shù)據(jù)利用聚類算法分析,以尋找表達(dá)相似的基因或樣本。該結(jié)果可用于多種深入的分析。
導(dǎo)致癌癥的突變分析
二代測序在生物信息學(xué)上的突破使得腫瘤基因組學(xué)的范疇得到很大的擴(kuò)展,新方法與軟件的出現(xiàn)也讓生物信息學(xué)家更快、更便宜地對癌癥基因組進(jìn)行測序。二代測序使得分類基因組里導(dǎo)致癌癥的突變的流程變得更靈活,也使得透過為不同時(shí)間的樣本測序,追蹤癌癥病人的病況演進(jìn)的檢測手段在未來成為可能 。
生物系統(tǒng)模擬
系統(tǒng)生物學(xué)通過對細(xì)胞子系統(tǒng)的計(jì)算機(jī)模擬,分析這些細(xì)胞過程間的復(fù)雜聯(lián)系,并將分析結(jié)果可視化。例如,人工生命就通過計(jì)算機(jī)模擬簡單的生物形式,以幫助人類了解進(jìn)化過程。
在藥物研發(fā)方面的應(yīng)用
生物信息學(xué)可用于藥物靶標(biāo)基因的發(fā)現(xiàn)和驗(yàn)證。有許多數(shù)據(jù)庫可用來獲得在不同組織在正常/疾病狀態(tài)下基因表達(dá)的差異,通過搜索這些數(shù)據(jù)庫,可以得到候選基因作為藥物靶標(biāo),特異性地針對某一種疾病。另外,還可根據(jù)蛋白質(zhì)功能區(qū)和三維結(jié)構(gòu)的預(yù)測來對藥物靶標(biāo)進(jìn)行鑒定,以便早期了解所研究蛋白的屬性,預(yù)測它是否適用于藥物作用。
軟件工具
BLAST(基本局部比對搜尋工具)和FASTA是目前使用得最為頻繁的兩套數(shù)據(jù)庫搜索程序。它們的功能相近,都是把用戶提交的一個核酸序列或蛋白質(zhì)序列拿去與指定的數(shù)據(jù)庫中的全部序列作比較。一般認(rèn)為,BLAST運(yùn)行速度快,對蛋白質(zhì)序列的搜尋更為有效。FASTA運(yùn)行較慢,對核酸序列更為敏感。也有基于網(wǎng)頁交互的軟件如STING,用于結(jié)構(gòu)生物信息學(xué)的分析。
參考文獻(xiàn)
來源
《新藥藥物靶標(biāo)開發(fā)技術(shù)》2006年版,高等教育出版社,ISBN 978-7-04-018953-7
參見
計(jì)算機(jī)科學(xué)
計(jì)算生物學(xué)
信息可視化
應(yīng)用數(shù)學(xué)
生物數(shù)學(xué)
生物化學(xué)
化學(xué)信息學(xué)
分子生物學(xué)
生物統(tǒng)計(jì)學(xué)
系統(tǒng)生物學(xué)
系統(tǒng)發(fā)生學(xué)
醫(yī)學(xué)信息學(xué)
衛(wèi)生信息技術(shù)
生物醫(yī)學(xué)工程
蛋白質(zhì)組學(xué)
免責(zé)聲明:以上內(nèi)容版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。感謝每一位辛勤著寫的作者,感謝每一位的分享。
- 有價(jià)值
- 一般般
- 沒價(jià)值
{{item.userName}} 舉報(bào)
{{item.time}} {{item.replyListShow ? '收起' : '展開'}}評論 {{curReplyId == item.id ? '取消回復(fù)' : '回復(fù)'}}
{{_reply.userName}} 舉報(bào)
{{_reply.time}}