第一篇:生物信息學(xué)
生物信息學(xué)是上世紀(jì)90年代初人類基因組計劃(hgp)依賴,隨著基因組學(xué)、蛋白組學(xué)等新興學(xué)科的建立,逐漸發(fā)展起來的生物學(xué)、數(shù)學(xué)和計算機(jī)信息科學(xué)的一門交叉應(yīng)用學(xué)科。目前生物信息學(xué)的研究領(lǐng)域主要包括基于生物序列數(shù)據(jù)的整理和注釋、生物信息挖掘工具開發(fā)及利用這些工具揭示生物學(xué)基礎(chǔ)理論知識等領(lǐng)域。生物信息學(xué)作為新型交叉應(yīng)用學(xué)科,可以依托本校已有的計算機(jī)科學(xué)、信息學(xué)、生物學(xué)和數(shù)學(xué)等學(xué)科優(yōu)勢,充分展現(xiàn)投入少、見效快、起點(diǎn)高的特色,推動學(xué)校學(xué)科建設(shè)和本科教學(xué)水平。
本實(shí)驗(yàn)指導(dǎo)書中的8個實(shí)驗(yàn)均設(shè)計為綜合性開發(fā)實(shí)驗(yàn),面向生物信息學(xué)院全體本科學(xué)生和研究生,以及全校對生物信息學(xué)感興趣的其他專業(yè)學(xué)生開放。生物信息學(xué)實(shí)驗(yàn)室將提供系統(tǒng)的保障,包括采用mail服務(wù)器和linux帳號管理等進(jìn)行實(shí)驗(yàn)過程管理和支持。限選《生物信息學(xué)及實(shí)驗(yàn)》的生物技術(shù)專業(yè)本科生至少選擇其中5個實(shí)驗(yàn),并不少于8個學(xué)時,即為課程要求的0.5個學(xué)分。其他選修者按照課時和學(xué)校相關(guān)規(guī)定計算創(chuàng)新學(xué)分。 實(shí)驗(yàn)一 熟悉生物信息學(xué)網(wǎng)站及其數(shù)據(jù)的生物學(xué)意義
實(shí)驗(yàn)?zāi)康模?/p>
培養(yǎng)學(xué)生利用互聯(lián)網(wǎng)資源獲取生物信息學(xué)研究前沿和相關(guān)數(shù)據(jù)的能力,熟悉生物信息學(xué)相關(guān)的一些重要國內(nèi)外網(wǎng)站,及其核酸序列、蛋白質(zhì)序列及代謝途徑等功能相關(guān)數(shù)據(jù)庫,學(xué)會下載生物相關(guān)的信息數(shù)據(jù),了解不同的數(shù)據(jù)文件格式和其中重要的生物學(xué)意義。
實(shí)驗(yàn)原理:
利用互聯(lián)網(wǎng)資源檢索相關(guān)的國內(nèi)外生物信息學(xué)相關(guān)網(wǎng)站,如:ncbi、sanger、tigr、kegg、swww.weilaioem.comatch程序去除ests原始序列中的載體成分和引物成分,然后用phrap生成congtig和singlet,用blast程序進(jìn)一步將有同源性的contig和singlet進(jìn)行功能聚類,最后通過blast對聚類獲得的cluster進(jìn)行功能注釋。在實(shí)驗(yàn)過程中將用到一些本實(shí)驗(yàn)室寫好的perl程序用于連接各數(shù)據(jù)庫和工具軟件。
實(shí)驗(yàn)內(nèi)容:
1. 運(yùn)行codoncode aligner程序,并用它建立工程文件,導(dǎo)入例子文件
夾里面的數(shù)據(jù);練習(xí)對序列的各種查看方式。
2. 使用codoncode aligner程序里的clip ends, trim vector, assemble
等功能,完成序列的剪切、去雜質(zhì)、組裝工作。
實(shí)驗(yàn)報告:
1. 實(shí)驗(yàn)各步驟記錄和中間結(jié)果文件;
2. 舉例簡要說明結(jié)果文件中數(shù)據(jù)的生物學(xué)意義。
參考書目:
《生物信息學(xué)概論》 羅靜初 等譯, 北京大學(xué)出版社, 201*;
《基因表達(dá)序列標(biāo)簽(est)數(shù)據(jù)分析手冊》 胡松年 等著, 浙江大學(xué)出版社, 201*。
實(shí)驗(yàn)五 利用primer premier5.0設(shè)計
race引物
實(shí)驗(yàn)?zāi)康模?/p>
熟悉pcr引物設(shè)計工具primer premier5.0的一些基本功能,能夠根據(jù)實(shí)驗(yàn)需要選擇相應(yīng)的引物設(shè)計方法設(shè)計pcr引物。
實(shí)驗(yàn)原理:
pcr實(shí)驗(yàn)是當(dāng)代分子生物學(xué)的基本實(shí)驗(yàn)之一,由于目標(biāo)序列和實(shí)驗(yàn)?zāi)康牡牟煌,相?yīng)設(shè)計引物的要求也不一樣。本實(shí)驗(yàn)延續(xù)ests分析結(jié)果,對于其中需要獲得全長的基因進(jìn)行race引物的設(shè)計,及5’和3’race引物,配合接頭序列設(shè)計單向引物,并模擬練習(xí)通過連接獲得全長的基因cds序列。最后設(shè)計已知全長基因序列的pcr擴(kuò)增引物。
實(shí)驗(yàn)內(nèi)容:
1. 從網(wǎng)站下載并安裝primer premier5.0;
2. 從 genbank 中任意獲取一個 dna 序列,設(shè)計出該序列的合適引物; 實(shí)驗(yàn)報告:
1. 實(shí)驗(yàn)各步驟使用的數(shù)據(jù)、運(yùn)算平臺、結(jié)果文件記錄;
2. 比較不同引物設(shè)計平臺和不同pcr實(shí)驗(yàn)的差別;
參考書目:
《生物信息學(xué)概論》 羅靜初 等譯, 北京大學(xué)出版社, 201*;《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》 胡松年 等著, 浙江大學(xué)出版社, 201*; 。
實(shí)驗(yàn)八 perl程序的安裝、編寫、調(diào)試 實(shí)驗(yàn)?zāi)康模?/p>
培養(yǎng)學(xué)生能在www.weilaioem.comatics--a
practical guide to the analysis of genes and proteins "andreas d.baxevanis b.f.francis ouellette 著李衍達(dá) 孫之榮 等 譯清華大學(xué)出版社 201*年8月 第一版這本書由前衛(wèi)計算生物學(xué)家撰寫,貫穿了已有的工具和數(shù)據(jù)庫,包括應(yīng)用軟件、因特網(wǎng)資源、向數(shù)據(jù)庫提交dna序列以及進(jìn)行序列分析和利用核酸序列與蛋白質(zhì)序列進(jìn)行預(yù)測的的方法。以下是該書的目錄:1.因特網(wǎng)與生物學(xué)家,2. genebank序列數(shù)據(jù)庫,3.結(jié)構(gòu)數(shù)據(jù)庫,4.應(yīng)用gcg進(jìn)行序列分析,5.生物數(shù)據(jù)庫的信息檢索,6. ncbi數(shù)據(jù)模型,7.序列比對和數(shù)據(jù)庫搜索,
8.多序列比對和實(shí)際應(yīng)用,9.系統(tǒng)發(fā)育分析,10.利用核酸序列的預(yù)測方法,11.利用蛋白質(zhì)序列的預(yù)測方法,12.鼠類和人類公用物理圖譜數(shù)據(jù)庫漫游,13. acedb: 基因組信息數(shù)據(jù)庫,14.提交dna序列數(shù)據(jù)庫。本書有很多實(shí)際的序列和序列分析的例子。這本書適合高等院校的師生和從事生物工程研究的科技工作者閱讀。
在第14章提及的通訊資源:互聯(lián)網(wǎng)和通信地址;電話和傳真號碼
ddbj/embl和genbank的一般聯(lián)系信息以及提交dna序列到這些數(shù)據(jù)庫的入口。
ddbj(信息生物學(xué)中心,nig)
地址:ddbj,1111 yata, mishima,shiznoka 411,japan
傳真:81-559-81-6849
提交: ddbjsub@ddbj.nig.ac.jp
更新: ddbjupd@ddbj.nig.ac.jp
信息: ddbj@ddbj.nig.ac.jp
互聯(lián)網(wǎng)
主頁:
www.weilaioem.combl/doc/
embl和genbank數(shù)據(jù)庫的版本信息
embl ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc
genbank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt
sequin: dna序列數(shù)據(jù)庫的提交和更新工具 http://www.weilaioem.com.nih.gov/dbest
sts http://www.weilaioem.com.nih.gov/dbgss
htgs主頁:高吞吐量基因組序列資源,工具和信息 http://www.weilaioem.comics)主要研究測序和核苷酸序列; 結(jié)構(gòu)基因組學(xué)(structural genomics)著重于遺傳圖譜、物理圖譜和測序等方面的研究; 功能基因組學(xué)
(functional genomics)則研究以轉(zhuǎn)錄圖為基礎(chǔ)的基因組表達(dá)圖譜; 比較基因組學(xué)(comparative ge2nomics)的研究內(nèi)容包括對不同進(jìn)化階段基因組的比較和不同種群和群體基因組的比較。
蛋白組和蛋白組學(xué)的概念是隨基因組和基因組學(xué)的出現(xiàn)而出現(xiàn)的. 蛋白組(proteme)的概念是由于基因表達(dá)水平并不能代表細(xì)胞中活性蛋白質(zhì)的數(shù)量, 基因組序列并不能描述活性蛋白質(zhì)所必需的翻譯后修飾和反映蛋白質(zhì)種類和含量的動態(tài)變化過程而提出的. 在一定條件下某一基因組蛋白質(zhì)表達(dá)的數(shù)量類型稱為蛋白組, 代表這一有機(jī)體全部蛋白質(zhì)組成及其作用方式. 有關(guān)蛋白組的研究稱為蛋白組學(xué). 其中, 蛋白組的研究技術(shù)與方法、雙向凝膠電泳圖譜以及對不同條件下蛋白組變化的比較分析是蛋白組學(xué)的主要研究內(nèi)容。生物信息學(xué)在基因組和蛋白組研究中所起的作用主要有:(1)基因組信息結(jié)構(gòu)的計算分析. 即對基因組數(shù)據(jù)進(jìn)行大規(guī)模并行計算并預(yù)測各種新基因和功能位點(diǎn), 研究大量非編碼區(qū)序列的信息結(jié)構(gòu)和可能的生物學(xué)意義。(2)模式生物全基因組信息結(jié)構(gòu)的比較研究.即
對已完成全基因組測序的各種模式生物的基因組信息結(jié)構(gòu)進(jìn)行比較分析, 包括同源序列的搜索比較和指導(dǎo)基因克隆.(3)功能基因組的相關(guān)信息分析, 包括對基因表達(dá)圖譜及其相關(guān)算法和軟件的研究, 與功能基因組信息相關(guān)的核酸、蛋白質(zhì)的空間結(jié)構(gòu)的預(yù)測模擬以及蛋白質(zhì)的功能預(yù)測。
2、生物信息數(shù)據(jù)庫
復(fù)雜的生物和生物界和日新月異的生命科學(xué)研究產(chǎn)出的大量的生物學(xué)信息,對這些信息的儲存、檢索、比較分析必須借助于計算機(jī)數(shù)據(jù)庫技術(shù), 包括各類生物學(xué)信息數(shù)據(jù)庫的建立與維護(hù)、數(shù)據(jù)的添加與注釋、更新與查詢、數(shù)據(jù)庫資料的網(wǎng)絡(luò)化等研究內(nèi)容。現(xiàn)有的數(shù)據(jù)庫有:核酸序列數(shù)據(jù)庫(genbank、embl、ddbj)、基因組數(shù)據(jù)庫、基因圖譜數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫(swww.weilaioem.comatics
b數(shù)據(jù)采集
dna,rna和蛋白質(zhì)測序
1.dna測序原理
dna中核苷酸的順序是通過鏈?zhǔn)浇K止測序【也稱為脫氧測序(dideoxy sequencing)或以發(fā)明人命名的sanger方法】來確定。
2.dna序列的類型
基因組dna,是直接從基因組中得到,包括自然狀態(tài)的基因
復(fù)制dna(copy dna, cdna),通過反轉(zhuǎn)錄mrna得到的
重組dna,包括載體序列如質(zhì)粒,修飾過的病毒和在實(shí)驗(yàn)室使用的其他遺傳元件等
3.基因組測序策略
散彈法測序(shotgun sequence)包括隨機(jī)dna片段的生成,通過大量片段測序來覆蓋整個基因組
克隆重疊群測序(clone contig)dna片段用推理的方法亞克隆,并且進(jìn)行系統(tǒng)的測序直到整個序列完成
4.序列質(zhì)量控制
通過在dna雙鏈上進(jìn)行多次讀取完成高質(zhì)量序列數(shù)據(jù)的測定
可使用如phred等程序?qū)ψ畛醯母檾?shù)據(jù)(trace data)進(jìn)行堿基識別和質(zhì)量判斷。載體序列和重復(fù)的dna片段被屏蔽后,使用phred等程序?qū)⑿蛄衅唇映芍丿B群(contigs),剩下的不一致部分通過人工修飾解決
5.單遍測序
低質(zhì)量的序列數(shù)據(jù)可以由單次讀段(read)產(chǎn)生(單遍測序,single-pass sequencing)。盡管不很準(zhǔn)確,但單遍測序如ests和gsss,可以低廉的價格快速大量的產(chǎn)生
6.rna測序
因?yàn)橛写罅康男『塑账幔╩inor nucleotide)(化學(xué)改變的核苷)存在于轉(zhuǎn)移rna(trna)和核糖體rna(rrna)中,所以rna測序不能像dna測序那樣直接進(jìn)行。 需要用特殊的方法來識別被改變的核苷,包括生化實(shí)驗(yàn),核磁共振譜(nrm spectroscopy)和質(zhì)譜(ms)技術(shù)
7.蛋白質(zhì)測序
蛋白質(zhì)序列可以通過dna序列推斷得到,而rna測序不能提供有關(guān)已改變殘基或其他類型的翻譯后蛋白質(zhì)修飾(比如剪接或二硫鍵的形成)
大部分蛋白質(zhì)測序是通過質(zhì)譜(ms)技術(shù)進(jìn)行的
基因和蛋白質(zhì)表達(dá)數(shù)據(jù)
1.全局表達(dá)分析
rna水平的分析中有效的方法是從rna群體或cdna文庫中,甚至從序列數(shù)據(jù)庫中進(jìn)行序列采樣。一個簡單的方法是從cdna文庫中隨機(jī)挑選5000個克隆進(jìn)行測序。含量很多的mrnas在采樣的序列中出現(xiàn)的頻率很高,而含量較少的mrna出現(xiàn)頻率則較低,通過這些數(shù)據(jù)的統(tǒng)計分析可以確定相對的表達(dá)水平。
一個更高級的技術(shù)是基因表達(dá)的連續(xù)分析(serial analysis of gene expreaaion, sage)該方法使每個cdna產(chǎn)生很短的序列標(biāo)簽(通常8~15nt),并在測序前把數(shù)百個標(biāo)簽連接成連環(huán)分子(concatemer)。這樣一個測序反應(yīng)中可搜集到幾百條mrna的豐富信息。每個sage標(biāo)簽可以特異性識別一個特定基因,通過對標(biāo)簽計數(shù),可以確定每個基因的相對表達(dá)水平。
然而,大部分全局rna表達(dá)數(shù)據(jù)還需從微陣列實(shí)驗(yàn)所測的信號強(qiáng)度中獲取。全局蛋白質(zhì)表達(dá)數(shù)據(jù)主要從雙向聚丙烯酰胺凝膠電泳(two-dimensional polyacrylamide gel electrophoresis, 2d-page)分離,產(chǎn)生點(diǎn)陣的唯一模式(每個點(diǎn)代表一個單獨(dú)的蛋白質(zhì))。在2d-page實(shí)驗(yàn)中,蛋白質(zhì)表達(dá)數(shù)據(jù)可以通過每個點(diǎn)的信號強(qiáng)度得到,每個二維凝膠上的蛋白信號必須通過質(zhì)譜(ms)技術(shù)來單個注釋。
2.dna微陣列
一個微陣列有一系列的dna元件(特征),以格子形式排列在載玻片等微型支撐物上,通過與復(fù)合rna探針雜交可同時使很多基因的表達(dá)水平可視化。若使用兩個不同的熒光標(biāo)簽的探針,可以在同樣的陣列上直接測定不同樣本的不同基因的表達(dá)。 微陣列中主要用到的兩個技術(shù):機(jī)械點(diǎn)樣dna微陣列(spotted dna microarray)和寡聚核酸基因芯片(oligonucleotide gene chip)(由美國affymetrix公司獨(dú)家制造),后者在制造芯片是通過固態(tài)化學(xué)合成把寡聚核苷酸印在芯片上。
3.雙向蛋白質(zhì)凝膠
2d-pag技術(shù)的原理是蛋白質(zhì)可基于兩個不同的特性來分離:等電點(diǎn)(isoelectric point)和分子質(zhì)量(molecular mass)。該技術(shù)中,第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等電聚焦(isoelectric focusing)分離;在垂直方向進(jìn)行分子量的分離。在凝膠染色后,染色斑點(diǎn)(spot)的模式可作為樣品中蛋白質(zhì)的可重復(fù)使用的指紋(fringerprint)。通過樣本間比較可以識別不同表達(dá)的蛋白質(zhì),或被藥物誘導(dǎo)的蛋白質(zhì)等。離體的蛋白質(zhì)斑點(diǎn)(excised spot)可以通過質(zhì)譜技術(shù)鑒定。
蛋白質(zhì)互作數(shù)據(jù)
1.蛋白質(zhì)互作的重要性
蛋白質(zhì)-蛋白質(zhì)互作導(dǎo)致瞬時或穩(wěn)定多亞基復(fù)合物(multi-subunit complexes)的形成。了解這些復(fù)合物對于注釋蛋白質(zhì)功能是必需,也是解釋信號級聯(lián)和調(diào)控網(wǎng)絡(luò)等分子途徑的一個步驟。死效應(yīng)反映了兩個突變的蛋白質(zhì)
2.遺傳方法
抑制子突變體可以通過恢復(fù)被破壞的蛋白質(zhì)互作來補(bǔ)償有害的原始突變體。而合成致死效應(yīng)反映了兩個突變的蛋白質(zhì)不能相互作用,顯性負(fù)突變(dominant negative mutation)顯示了一種起著多聚復(fù)合體作用的蛋白質(zhì)。
3.親和性方法
可通過幾種利用蛋白質(zhì)親和性(特異結(jié)合的傾向)分析的物理方法來為蛋白質(zhì)之間的相互關(guān)系提供直接的證據(jù),比如親和性管柱層析法,免疫共沉淀。由ciphergen公司使親和實(shí)驗(yàn)格式更趨微型化,使得在蛋白質(zhì)芯片的發(fā)展中達(dá)到頂峰。
4.分子和原子的方法
x射線晶體學(xué)和核磁共振譜有助于在原子水平識別蛋白質(zhì)互作,其它的蛋白質(zhì)互作分析的分子方法包括熒光共振能量傳遞(fret),表面基元共振譜(spr)和表面增強(qiáng)激光接吸附/離子化技術(shù)(seldl),其中的很多方法可通過質(zhì)譜技術(shù)直接集成到蛋白質(zhì)注釋中。
5.基于文庫的方法
基于文庫的蛋白質(zhì)互作實(shí)驗(yàn)有兩個主要優(yōu)點(diǎn):它是高度并行的實(shí)驗(yàn)格式;候選互作蛋白質(zhì)及其cdnas之間直接關(guān)聯(lián)。
影響最大的方法是酵母雙雜交系統(tǒng)(yeast two-hybrid system,y2h),在這個系統(tǒng)中蛋白質(zhì)通過識別與之連接的一個功能轉(zhuǎn)錄因子進(jìn)行互作。
c數(shù)據(jù)庫--內(nèi)容,結(jié)構(gòu)和注釋
已注釋的序列數(shù)據(jù)庫
1.初級序列數(shù)據(jù)庫
genbank(ncbi)、核酸序列數(shù)據(jù)庫(embl)和日本的dna數(shù)據(jù)庫(ddbj)
2.swiss-prot和trembl
swiss-prot收集了確認(rèn)的蛋白質(zhì)序列及與結(jié)構(gòu),功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息。相關(guān)數(shù)據(jù)庫trembl翻譯了初級核酸數(shù)據(jù)庫中的編碼序列。
其他數(shù)據(jù)庫
1.omim
omim指人類孟德爾遺傳的聯(lián)機(jī)數(shù)據(jù)庫,用于研究人類遺傳學(xué)和人類分子生物學(xué)的強(qiáng)大資源。每個omim條目都有一個對特定基因或性狀的已知信息的全文總結(jié),并有指向初級序列數(shù)據(jù)庫和其它遺傳學(xué)資源的鏈接。
2.incyte和unigene
incyte是商業(yè)數(shù)據(jù)庫,它提供了基因序列和專家注釋的記錄,這是專門為藥物研究開發(fā)服務(wù)的數(shù)據(jù)庫。unigene是一種用來把genbank序列聚類并與est數(shù)據(jù)相關(guān)聯(lián)的實(shí)驗(yàn)工具。
3.結(jié)構(gòu)數(shù)據(jù)庫
蛋白質(zhì)數(shù)據(jù)庫(pdb),核酸數(shù)據(jù)庫(ndb),大分子結(jié)構(gòu)數(shù)據(jù)庫(msd)
e通過序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫
序列相似性搜索
1.序列聯(lián)配
序列聯(lián)配是是相似度量化的第一步,用來區(qū)分偶然性的相似和真實(shí)的生物學(xué)關(guān)系。聯(lián)配結(jié)果以變化(突變)、插入或缺失(或空位indel)來顯示序列之間的差異,這些差異可以用進(jìn)化術(shù)語來說明。
2.聯(lián)配算法
動態(tài)規(guī)劃算法可以計算兩條之間的最佳聯(lián)配,其中廣泛使用的算法有smith-waterman算法(局部聯(lián)配)和needleman-wunsch算法(全局聯(lián)配)。
3.聯(lián)配分支和空位罰分
用簡單的聯(lián)配分值來測量相同匹配殘基的比例或數(shù)目。得從聯(lián)配分值中扣去空位罰分,以保證聯(lián)配算法能得出有生物學(xué)意義的結(jié)果而沒有太多的空位。
數(shù)據(jù)庫搜索:fasta和blast
1.統(tǒng)計分值
相似度記分的p值是指獲得至少與兩條無關(guān)序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配,這些匹配可能會有真實(shí)生物學(xué)意義。相關(guān)的e值(期望值)是至少與所識別的相似性記同樣高分值的偶然事件的期望概率。兩序列見相似度的低p值對應(yīng)于大數(shù)據(jù)庫搜索的高e值。
2.敏感性和特異性
敏感性衡量數(shù)據(jù)庫中真實(shí)生物序列關(guān)系的比例,該關(guān)系表現(xiàn)為擊中項(xiàng)(有意義的相似序列)。特異性指的是對應(yīng)于真實(shí)生物學(xué)關(guān)系的擊中項(xiàng)的比例。改變e和p的默認(rèn)值會導(dǎo)致這些互補(bǔ)的優(yōu)良度測量方法之間的平衡。
f多序列聯(lián)配:基因和蛋白質(zhì)家族
多序列聯(lián)配和家族關(guān)系
1.多序列聯(lián)配
多序列聯(lián)配表明兩條或兩條以上序列之間的關(guān)系,可以解釋關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。當(dāng)所考察的序列不同時,保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學(xué)功能的關(guān)鍵殘基。
2.漸進(jìn)聯(lián)配
漸進(jìn)聯(lián)配方法以兩序列聯(lián)配來初步評價序列是如何相關(guān)的,并在這個基礎(chǔ)上構(gòu)建向?qū)洌缓笫褂孟驅(qū)渲鸩教砑有蛄械铰?lián)配中,從最密切相關(guān)的序列開始到距離最遠(yuǎn)的序列結(jié)束。
蛋白質(zhì)家族和模式數(shù)據(jù)庫
1.蛋白質(zhì)家族
把序列分配到蛋白質(zhì)家族中是預(yù)測蛋白質(zhì)功能是非常有價值的方法。多序列聯(lián)配信息的表示方法有很多種,包括聯(lián)配本身、一致序列、保守殘基和殘基模式、序列輪廓以及其他的
序列家族的概率模型。這些根據(jù)不同的應(yīng)用都有不同的用途,其中大多數(shù)已經(jīng)被開發(fā)和存儲在數(shù)據(jù)庫中,里面含有大量不同蛋白質(zhì)家族的信息,這樣的數(shù)據(jù)庫稱為二級數(shù)據(jù)庫。
2.一致序列
這些序列把多序列聯(lián)配的信息壓縮至單條序列,主要的缺點(diǎn)是除了在特定位置最常見的殘基之外,它們不能表示任何概率信息。一致序列的產(chǎn)生說明了任何蛋白家族的表示都是有偏向的,這主要是由于來源的序列集是有偏向的。
3.prosite
prosite數(shù)據(jù)庫包括與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。 prosite模式與一致序列的不同在于,它們往往比序列全長要短得多,并且給出了一種描述多序列聯(lián)配中一套可接受的殘基組合的方法。prosite模式中已知的假陽性(或假陰性)都已經(jīng)在數(shù)據(jù)庫中注明。prosite數(shù)據(jù)庫在某些條目含有序列輪廓,以嘗試描述比模式更長的序列片段(通常指整個結(jié)構(gòu)域)。
4.prints和blocks
prints和blocks是密切相關(guān)的,它們分別通過來自一組蛋白或蛋白家族中最高度保守區(qū)域的多序列聯(lián)配無空位片段的形式來表示蛋白質(zhì)家族。
蛋白質(zhì)結(jié)構(gòu)域家族
1.結(jié)構(gòu)域家族
許多蛋白質(zhì)是由模式結(jié)構(gòu)的結(jié)構(gòu)域組建的,因此蛋白質(zhì)家族的研究其實(shí)是對蛋白質(zhì)結(jié)構(gòu)域家族的研究。
2.序列輪廓
序列輪廓(也成權(quán)重矩陣)是一種描繪蛋白質(zhì)結(jié)構(gòu)與家族相關(guān)序列的方法,其優(yōu)點(diǎn)是描述了結(jié)構(gòu)域序列的全長,包括觀察到每個氨基酸的可能性,以及序列每個位點(diǎn)插入和缺失的可能性。
3.隱馬爾科夫模型
隱馬爾科夫模型(hmms)是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計模型,包括序列的匹配、插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高,從其他家族中生成序列的概率較低。
j微陣列數(shù)據(jù)分析
微陣列數(shù)據(jù):分析方法
1.微陣列原始數(shù)據(jù)
微陣列數(shù)據(jù)就是經(jīng)過雜交的陣列的掃描圖像,掃描圖像顯示每一個點(diǎn)的雜交信號強(qiáng)度。這些圖像可通過單通道、雙通道熒光標(biāo)記、同位素標(biāo)記或比色標(biāo)記等方法獲得,其記錄方式各不相同。
2.?dāng)?shù)據(jù)質(zhì)量
準(zhǔn)確記錄個點(diǎn)的信號強(qiáng)度是微陣列數(shù)據(jù)分析的基本要求,dna陣列可包含數(shù)千個特征點(diǎn),因此數(shù)據(jù)的獲取和分析必須自動進(jìn)行。陣列上必須包含對照點(diǎn)以衡量非特異雜交和不同
陣列上雜交的多變性。
3.基因表達(dá)矩陣
從微陣列實(shí)驗(yàn)得到的原始數(shù)據(jù)首先要轉(zhuǎn)換成表,即基因表達(dá)矩陣。表中的各行代表基因,各列代表不同的實(shí)驗(yàn)條件,表中的數(shù)據(jù)為信號強(qiáng)度,代表各個基因的相對表達(dá)水平。
4.表達(dá)數(shù)據(jù)分組
基因表達(dá)矩陣中的每一個基因都有其特定的表達(dá)模式,即一系列條件下基因表達(dá)情況的測量值。微陣列數(shù)據(jù)分析就是要將這些數(shù)據(jù)按表達(dá)模式的相似程度進(jìn)行分類。
序列采樣和sage
1.序列采樣數(shù)據(jù)分析
差異基因表達(dá)的研究,可以通過從不同的cdna文庫中隨機(jī)挑取克隆來進(jìn)行,也可以通過抽取est數(shù)據(jù)來進(jìn)行。這種分析需要抽取成千上萬的序列以達(dá)到統(tǒng)計上的顯著性,即使對于中度冗余度的mrna也要如此。
2.sage
sage是一種序列采樣技術(shù),其原理是將非常短的序列標(biāo)記(9~15堿基)連續(xù)為長的串聯(lián)體。sage標(biāo)記的長度是最適于高通量分析,但基因依然可以被明確的鑒定出來。
來源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。