爆炸式增長(zhǎng)的測(cè)序數(shù)據(jù)、結(jié)構(gòu)數(shù)據(jù)以及圖像數(shù)據(jù)讓從事生命科學(xué)研究的科研人員們未來(lái)有機(jī)會(huì)不用再做真實(shí)的試驗(yàn)(即我們常說(shuō)的“濕試驗(yàn)”)。他們只需要通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分析(即我們常說(shuō)的“干試驗(yàn)”)就可以開(kāi)展科學(xué)研究,獲得最基礎(chǔ)的科研發(fā)現(xiàn)。
大部分從事生命科學(xué)研究的科研人員一輩子可能也就會(huì)關(guān)注某一個(gè)物種,或者某一種疾病,甚至可能只是其中的某一條信號(hào)通路。因?yàn)閷W(xué)會(huì)養(yǎng)一種細(xì)胞或者某項(xiàng)實(shí)驗(yàn)技術(shù)至少都需要好幾個(gè)月的時(shí)間??葾tul Butte卻是一個(gè)例外,他不停地更換研究對(duì)象和方向,可是卻總有新發(fā)現(xiàn)。今年只有44歲的Butte已經(jīng)是美國(guó)斯坦福大學(xué)(Stanford University's School of Medicine in Palo Alto, California)的一名終身教師了,因?yàn)樗谔悄虿 ?a href="http://m.mississippidebtrecovery.com//jibing/feipang/" target="_blank" title="肥胖" class="hotLink" >肥胖癥、移植排斥反應(yīng)以及新藥發(fā)現(xiàn)(主要是發(fā)現(xiàn)治療肺癌的新藥,以及治療其它一些疾病的新藥)等方面都頗有建樹(shù)。
Butte的實(shí)驗(yàn)室也和他本人一樣與眾不同,在Butte的實(shí)驗(yàn)室里看不到普通實(shí)驗(yàn)室里那些瓶瓶罐罐,他的實(shí)驗(yàn)室看起來(lái)更像是一間IT工作室或軟件開(kāi)發(fā)工 作室。大部分時(shí)間他都在那臺(tái)索尼筆記本電腦上工作,有時(shí)他也會(huì)去斯坦福大學(xué)的大型計(jì)算機(jī)中心,或者其他機(jī)構(gòu)的超級(jí)計(jì)算機(jī)房工作,那主要是因?yàn)樗枰龃罅?的數(shù)據(jù)運(yùn)算工作。Butte和他實(shí)驗(yàn)室的學(xué)生、博士后們既不養(yǎng)細(xì)胞,也不做DNA測(cè)序,他們所做的就是搜集、使用并分析各個(gè)公開(kāi)數(shù)據(jù)庫(kù)里現(xiàn)有的信息,這些 數(shù)據(jù)庫(kù)包括人類基因組序列數(shù)據(jù)庫(kù)(human genome sequences)、腫瘤基因組序列數(shù)據(jù)庫(kù)(cancer genome readouts)、腦掃描成像數(shù)據(jù)庫(kù)(brain imaging scans)以及糖尿病、阿爾茨海默病等多種疾病相應(yīng)的生物標(biāo)志物數(shù)據(jù)庫(kù)(biomarkers)等。醫(yī)學(xué)教育網(wǎng)`搜集整理
這種研究方式就是我們常說(shuō)的“干試驗(yàn)(dry lab biology)”,因?yàn)閭鹘y(tǒng)的試驗(yàn)都是會(huì)用到各種試劑的“濕試驗(yàn)”。雖然沒(méi)有人統(tǒng)計(jì)過(guò)這樣的干試驗(yàn)科學(xué)家究竟有多少,但可以肯定他們只是一小部分人,不 過(guò)他們的人數(shù)也在不斷增長(zhǎng)。而B(niǎo)utte就是其中的佼佼者。Butte等人在兩年前曾經(jīng)使用這些公開(kāi)的數(shù)據(jù),對(duì)患有100多種不同疾病的人群體內(nèi)的一些基 因,以及分別用市面上164種藥物處理過(guò)的培養(yǎng)細(xì)胞中的這些基因的活性進(jìn)行過(guò)分析。然后他們發(fā)現(xiàn)了一些新的、存在于這些基因之間的相互聯(lián)絡(luò)方式。 Butte等人通過(guò)比較患病或用藥情況下基因表達(dá)的開(kāi)啟情況,發(fā)現(xiàn)在這些基因之間有很多新的聯(lián)系渠道。比如他們就發(fā)現(xiàn)有一款用于治療潰瘍的藥物也許能夠用 來(lái)治療肺癌;還有一款抗癲癇的藥物也許能夠用來(lái)治療兩種炎癥性腸?。╥n?ammatory bowel disease)。而且這兩種觀點(diǎn)都已經(jīng)被后續(xù)的動(dòng)物試驗(yàn)給證實(shí)了。就在上個(gè)月,Butte的團(tuán)隊(duì)又在《腫瘤發(fā)現(xiàn)》(Cancer Discovery)雜志上發(fā)表了一篇論文,他們又用這一套發(fā)現(xiàn)用抗抑郁藥物丙咪嗪(imipramine)治療常規(guī)化療無(wú)效的小細(xì)胞肺癌(small- cell lung cancers)肯定會(huì)獲得很好的治療效果。已經(jīng)有人根據(jù)這一發(fā)現(xiàn)啟動(dòng)了相關(guān)的臨床試驗(yàn)工作。“現(xiàn)在就是做‘干試驗(yàn)’研究的黃金時(shí)期。” Butte總結(jié)道。
發(fā)現(xiàn)新藥。Atul Butte的課題組通過(guò)對(duì)與藥物和疾病相關(guān)的基因表達(dá)譜公共數(shù)據(jù)庫(kù)里的大數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了一些能夠加重病情(圖中紫色所示)或緩解病情(圖中黃色所示)的藥物。之后的研究也確證抗癲癇藥物托吡酯的確能夠治療克羅恩病或潰瘍性結(jié)腸炎等疾病。
這不僅僅是Butte一個(gè)人的黃金期,基因組序列、基因表達(dá)活性、蛋白質(zhì)結(jié)構(gòu)以及蛋白間相互作用的公共數(shù)據(jù)庫(kù)越來(lái)越多,所以也為眾多的生物學(xué)家們提供了一 個(gè)新的研究領(lǐng)域。得益于計(jì)算機(jī)運(yùn)算能力、數(shù)據(jù)存儲(chǔ)能力、軟件等IT產(chǎn)業(yè)的發(fā)展,干試驗(yàn)也能夠在不需要用移液器、染細(xì)胞或解剖動(dòng)物的情況下抽絲剝繭般地取得 最基礎(chǔ)的科研成果。比如美國(guó)科學(xué)基金會(huì)(National Science Foundation)就成立了一個(gè)iPlant項(xiàng)目(iPlant Collaborative),這就催生出了一大批從事數(shù)據(jù)分析工作的所謂“植物生物學(xué)家”,他們從來(lái)就沒(méi)有親自下過(guò)地,也沒(méi)有澆灌過(guò)植物的種子。美國(guó)國(guó) 立衛(wèi)生研究院(National Institutes of Health, NIH)最近也宣布,他們計(jì)劃投入9600萬(wàn)美元支撐大數(shù)據(jù)分析工作。美國(guó)加州大學(xué)洛杉磯分校(University of California, Los Angeles)的神經(jīng)遺傳學(xué)家Daniel Geschwind就認(rèn)為,生物學(xué)界正在發(fā)生一場(chǎng)大變革。
數(shù)據(jù)發(fā)掘者。上圖展示的就是最新的iPlant項(xiàng)目??茖W(xué)家們通過(guò)該項(xiàng)目對(duì)植物和微生物的基因組進(jìn)行深入的發(fā)掘,幫助全世界的植物學(xué)家們更好地認(rèn)識(shí)最基礎(chǔ)的生物學(xué)問(wèn)題,也能夠?yàn)橹参镉N工作提供幫助。
美國(guó)洛杉磯微軟研究院(Microsoft Research in Los Angeles)的計(jì)算機(jī)專家David Heckerman也贊同地指出,現(xiàn)在干生物學(xué)研究真的可以不需要傳統(tǒng)的‘濕式’實(shí)驗(yàn)室了。不過(guò)沒(méi)有一位“干試驗(yàn)”生物學(xué)家們認(rèn)為他們的數(shù)據(jù)分析工作能夠 取代傳統(tǒng)的濕試驗(yàn)工作。他們反而認(rèn)為現(xiàn)在是干試驗(yàn)與濕試驗(yàn)最為融洽,結(jié)合得最緊密的一個(gè)時(shí)期,這兩個(gè)方向互相促進(jìn),共同發(fā)展。
“我就好像是一個(gè)進(jìn)了糖果店的小孩子,好東西太多了,我完全看不過(guò)來(lái)。”——美國(guó)斯坦福大學(xué)醫(yī)學(xué)院Atul Butte
數(shù)據(jù)為王
大數(shù)據(jù)其實(shí)并不是一個(gè)新鮮的概念,《科學(xué)》(Science)雜志曾在2011年的2月11日做過(guò)專題報(bào)道。歐洲粒子物理研究所(CERN)的大型強(qiáng)子對(duì)撞機(jī)(Large Hadron Collider)每年都能夠產(chǎn)生15帕字節(jié)(petabytes)的數(shù)據(jù)。天文學(xué)界的斯隆數(shù)字巡天項(xiàng)目(Sloan Digital Sky Survey)每年也要產(chǎn)生好幾TB(terabytes)的數(shù)據(jù)。大數(shù)據(jù)對(duì)生物學(xué)家們也并不是一個(gè)新鮮的事務(wù)。比如截止今年的8月底,在NIH運(yùn)行了31年的基因序列數(shù)據(jù)庫(kù)GenBank里已經(jīng)收納了1.67億條基因序列,約合1540億bp的數(shù)據(jù)。
而且這也不是計(jì)算科學(xué)與生物學(xué)的第一次結(jié)合。生物學(xué)家們多年以來(lái)也一直在收集大規(guī)模的生物學(xué)數(shù)據(jù),我們熟知的基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等各種毫無(wú)新 意的組學(xué)就是明證。生物學(xué)家們一直在對(duì)這些數(shù)據(jù)進(jìn)行整理和梳理的工作,希望能夠從中找到一些復(fù)雜的生物學(xué)網(wǎng)絡(luò),或者與疾病相關(guān)的信號(hào)通路等新成果。
不過(guò)之前開(kāi)展的這一類工作都是由大批的科研人員共同參與來(lái)完成的,而且他們還都搶先了一步,在數(shù)據(jù)公布之前就開(kāi)始了工作。不過(guò)現(xiàn)在這些數(shù)據(jù)已經(jīng)全都公諸于 眾了,之前沒(méi)有資格參加這些項(xiàng)目的科研人員現(xiàn)在也能夠自由地獲取這些數(shù)據(jù),開(kāi)展自己感興趣的研究工作。美國(guó)康奈爾大學(xué)(Cornell University)的遺傳學(xué)家,為農(nóng)業(yè)部下屬的農(nóng)業(yè)調(diào)查研究項(xiàng)目(U.S. Department of Agriculture's Agricultural Research Service)工作的Ed Buckler是研究玉米的專家,他評(píng)價(jià)道:“現(xiàn)在這些數(shù)據(jù)全都公開(kāi)了,也是我們這些人提出大數(shù)據(jù)問(wèn)題的時(shí)候了。”
不過(guò),要提出這些問(wèn)題就需要專門的算法和軟件,要能夠處理大量的數(shù)據(jù),而且這些軟件還必須與時(shí)俱進(jìn),隨著數(shù)據(jù)的增長(zhǎng)不斷地加以改進(jìn)。Heckerman和 他在微軟研究院的同事們最近就做出了一款軟件,利用該軟件就能夠方便地在遺傳數(shù)據(jù)庫(kù)里進(jìn)行大規(guī)模的搜索,比如進(jìn)行全基因組關(guān)聯(lián)研究(genome- wide association studies, GWAS)這樣的全基因組比對(duì)工作。通過(guò)對(duì)健康人群的基因組和患病人群的基因組進(jìn)行比對(duì)就可以找出與疾病相關(guān)的遺傳指紋(genetic fingerprints)。這些遺傳指紋可以非常細(xì)小,因?yàn)榇蟛糠旨膊《疾幌竦湫偷拿系聽(tīng)柺竭z傳疾病那樣具有典型的、單純的性狀(不像豆子顏色這種性狀 這么簡(jiǎn)單),每一個(gè)性狀都不是與單個(gè)基因一一對(duì)應(yīng)的。據(jù)Heckerman介紹,當(dāng)人們第一次開(kāi)始做GWAS分析時(shí),他們會(huì)認(rèn)為這項(xiàng)工作非常簡(jiǎn)單。可問(wèn)題 在于孟德?tīng)柕亩棺又皇且粋€(gè)例外,并不能代表大千世界里的萬(wàn)物。
其實(shí)絕大部分性狀或糖尿病、前列腺癌等疾病背后的遺傳基礎(chǔ)都非常復(fù)雜,多個(gè)基因可能也只會(huì)帶來(lái)很小的一點(diǎn)影響,這些基因的作用彼此之間還具有疊加效應(yīng)。 “如果要發(fā)現(xiàn)這種微弱的信號(hào),那就必須利用大數(shù)據(jù)。需要對(duì)上萬(wàn),甚至是數(shù)十萬(wàn)的人進(jìn)行比較才有可能發(fā)現(xiàn)一點(diǎn)有價(jià)值的線索。不過(guò)這里也有一個(gè)小竅門。當(dāng)你對(duì) 大量的數(shù)據(jù)進(jìn)行分析時(shí)會(huì)有一些發(fā)現(xiàn),比如發(fā)現(xiàn)每一個(gè)人都會(huì)有一些遺傳相似點(diǎn)。但是在很多情況下,這些相似點(diǎn)其實(shí)只是代表了這兩個(gè)人之間更加相似,而不是因 為他們都攜帶了某種疾病相關(guān)基因。這會(huì)給我們的數(shù)據(jù)分析帶來(lái)麻煩,我們會(huì)發(fā)現(xiàn)大量的可疑信號(hào),可是當(dāng)我們?cè)僮屑?xì)分析一番之后就會(huì)發(fā)現(xiàn)這些其實(shí)只是假陽(yáng)性信 號(hào)。” Heckerman介紹說(shuō)。
線性混合模型(linear mixed model)就是一種能夠有效解決上述問(wèn)題的數(shù)據(jù)分析方法。該方法能夠有效去除假陽(yáng)性信號(hào),但是需要強(qiáng)大的運(yùn)算能力,是被分析數(shù)據(jù)量的三次方,如果被分析 的數(shù)據(jù)增加10倍,那么運(yùn)算能力需要增加1000倍。如果只需要分析幾十個(gè)人的數(shù)據(jù)還沒(méi)太大問(wèn)題,但是如果要對(duì)上萬(wàn)人的基因組數(shù)據(jù)進(jìn)行梳理那可就麻煩了。 “在這種情況下你最好忘記這種方法。” Heckerman這樣說(shuō)道。
Heckerman等人關(guān)注這個(gè)問(wèn)題不久之后就想到了一個(gè)非常簡(jiǎn)單的解決辦法,他們稱之為“代數(shù)妙計(jì)(algebraic tricks)”,通過(guò)這種方法可以將上述問(wèn)題轉(zhuǎn)換成線性問(wèn)題,這樣就能夠?qū)Υ髷?shù)據(jù)進(jìn)行分析了。最終將這款軟件命名為FaST-LMM,它大大減少了不可 靠的結(jié)果,同時(shí)數(shù)據(jù)處理量也有所提高,從而增加了發(fā)現(xiàn)真實(shí)但微弱信號(hào)的機(jī)會(huì)。Heckerman的團(tuán)隊(duì)去年在微軟的云計(jì)算機(jī)Azure上用這款FaST- LMM軟件對(duì)Wellcome基金會(huì)(Wellcome Trust)數(shù)據(jù)庫(kù)里數(shù)千人的基因組進(jìn)行了比對(duì)。一共分析了63,524,915,020對(duì)遺傳標(biāo)志物(genetic markers),結(jié)果又新發(fā)現(xiàn)了很多與雙相性精神障礙(bipolar disorder)、冠心病(coronary artery disease)、高血壓病(hypertension)、炎癥性腸?。╥n?ammatory bowel disease)、類風(fēng)濕性關(guān)節(jié)炎(rheumatoid arthritis)、1、2型糖尿?。╰ype 1 and type 2 diabetes)等疾病強(qiáng)相關(guān)的分子標(biāo)志物,詳見(jiàn)今年1月22日出版的《科學(xué) 報(bào)道》(Scienti?c Reports)雜志。Heckerman等人將這些新發(fā)現(xiàn)的標(biāo)志物毫無(wú)保留地全都共享到Windows Azure Marketplace上,我們可以到網(wǎng)上找到這些信息,對(duì)自己感興趣的標(biāo)志物進(jìn)行更加深入的研究。
但是Butte也做出了提醒,很多時(shí)候,這些通過(guò)干試驗(yàn)發(fā)現(xiàn)的關(guān)聯(lián)如果詳加研究就會(huì)發(fā)現(xiàn)其實(shí)并不是真實(shí)的關(guān)聯(lián),但是他也非常歡迎軟件工程師們加入到生物學(xué)研究的行列當(dāng)中,他說(shuō)道:“我們一直都有這種期望。”
干試驗(yàn)對(duì)生物醫(yī)藥行業(yè)的研究遠(yuǎn)遠(yuǎn)不止GWAS研究這一項(xiàng)工作。美國(guó)哥倫比亞大學(xué)(Columbia University)的Asa Abeliovich今年8月1日就在《自然》(Nature)雜志上發(fā)表了一篇文章,他們使用大數(shù)據(jù)分析的方法又發(fā)現(xiàn)了一個(gè)新的分子,該分子能夠部分決 定攜帶了APOE4這種常見(jiàn)基因的人是否會(huì)患上阿爾茨海默病。他們使用的也是公共數(shù)據(jù)庫(kù)里的數(shù)據(jù),這個(gè)數(shù)據(jù)庫(kù)是一個(gè)基因表達(dá)數(shù)據(jù)庫(kù),里面收錄的全都是遲發(fā) 型阿爾茨海默病患者和正常人腦組織的基因表達(dá)數(shù)據(jù)。他們一共發(fā)現(xiàn)了兩個(gè)基因,分別是SV2A和RNF219,這兩個(gè)基因在患者體內(nèi)的表達(dá)活性都非常低。
再結(jié)合之前對(duì)這些基因進(jìn)行功能研究所得到的數(shù)據(jù),最后發(fā)現(xiàn)這些基因其實(shí)都是一個(gè)調(diào)控網(wǎng)絡(luò)的一份子,該調(diào)控網(wǎng)絡(luò)主要對(duì)胞內(nèi)淀粉樣蛋白前體(amyloid precursor protein)的積聚進(jìn)行調(diào)控。這些淀粉樣蛋白聚集在阿爾茨海默病患者大腦里的致密斑(dense plaques)處,可能與患者發(fā)病有關(guān)。Abeliovich團(tuán)隊(duì)后來(lái)在實(shí)驗(yàn)室里用小鼠動(dòng)物實(shí)驗(yàn)驗(yàn)證了這個(gè)結(jié)果,然后又繼續(xù)對(duì)人進(jìn)行了驗(yàn)證,不過(guò)還是開(kāi) 展干試驗(yàn)研究。這一次他們選擇了公共的阿爾茨海默病患者腦掃描成像數(shù)據(jù)庫(kù),結(jié)果發(fā)現(xiàn)RNF219突變基因與淀粉樣蛋白的積聚有關(guān)。
這一發(fā)現(xiàn)不僅為我們開(kāi)發(fā)阿爾茨海默病新藥提供了新的靶點(diǎn),同時(shí)也可以幫助臨床醫(yī)生們對(duì)阿爾茨海默病患者進(jìn)行分類和有針對(duì)性的治療,就好像現(xiàn)在的腫瘤醫(yī)生們 那樣。這種將數(shù)據(jù)發(fā)掘、實(shí)驗(yàn)室驗(yàn)證以及腦掃描成像驗(yàn)證相結(jié)合的工作也給Geschwind留下了極為深刻的印象,他評(píng)價(jià)道:“五年前根本就不敢想象開(kāi)展這 樣的工作。”
除了生物醫(yī)藥領(lǐng)域之外的應(yīng)用
隨著經(jīng)過(guò)全基因組測(cè)序的植物數(shù)量快速的增長(zhǎng),以及相關(guān)數(shù)據(jù)的不斷公布,植物學(xué)家們也可以開(kāi)展他們的干試驗(yàn)工作了。比如Buckler等人就在多個(gè)玉米品種 間尋找抗病基因。他們最近發(fā)表了一篇論文,介紹了他們對(duì)103種不同的玉米進(jìn)行全基因組比對(duì)的工作,他們一共對(duì)1000多個(gè)不同的DNA區(qū)域進(jìn)行了比對(duì), 這些區(qū)域有的是位于基因內(nèi)部的,也有位于基因編碼區(qū)外的。然后將玉米的某些性狀,比如抗病性和開(kāi)花時(shí)間等性狀與某些特殊的非編碼DNA聯(lián)系了起來(lái)?,F(xiàn)在他 們正在利用這些研究成果輔助育種工作,希望提高玉米的抗病性,或者添加一些其它性狀。“大數(shù)據(jù)已經(jīng)對(duì)我們的育種工作帶來(lái)了切實(shí)可見(jiàn)的改變。” Buckler總結(jié)說(shuō)。
這種工作還有助于回答一些與植物相關(guān)的更加神秘的問(wèn)題。加拿大渥太華大學(xué)(University of Ottawa)的數(shù)學(xué)家David Sankoff已經(jīng)對(duì)30多種開(kāi)花植物的全基因組進(jìn)行了分析,他試圖重建出1.2億年之前存在的,所有開(kāi)花植物共同祖先的基因組結(jié)構(gòu),即找出所有開(kāi)花植物 的共有基因組結(jié)構(gòu),而不是簡(jiǎn)單的共有DNA序列。他們最近也取得了重大突破,該工作也已經(jīng)被寫成論文進(jìn)行了發(fā)表。他們對(duì)現(xiàn)代真雙子葉植物 (eudicots,這是一種非常重要的開(kāi)花類植物)里是否存在基因的雙拷貝或三拷貝情況進(jìn)行了分析和比較,最終推斷出開(kāi)花植物的祖先共有7條染色體,大 約含有2萬(wàn)至3萬(wàn)個(gè)基因,這個(gè)基因組要比現(xiàn)在很多植物的基因組小得多。雖然這一發(fā)現(xiàn)可能不會(huì)對(duì)植物育種工作帶來(lái)太大的影響,也不具有很大的商業(yè)利益,但是 美國(guó)亞利桑那州立大學(xué)(University of Arizona)的植物遺傳學(xué)家Eric Lyons認(rèn)為,這也是一項(xiàng)非常有意思的遺傳學(xué)研究工作。Sankoff等人使用的比對(duì)基因組數(shù)據(jù)庫(kù)和用來(lái)分析數(shù)據(jù)的軟件都是由Lyons開(kāi)發(fā)的。
通力合作
干試驗(yàn)生物學(xué)研究也面臨著很多的問(wèn)題和困難。其中最大的挑戰(zhàn)就是如何獲得其他人的數(shù)據(jù)。很多時(shí)候,那些主要工作就是收集數(shù)據(jù)的科研人員是不愿意與其他人分 享數(shù)據(jù)的。他們更愿意在別人利用自己的數(shù)據(jù)有所收獲之前進(jìn)行數(shù)據(jù)發(fā)掘的工作。另外這些數(shù)據(jù)也有可能非常粗糙,還需要進(jìn)行進(jìn)一步的分析或注釋。“這些真的是 很麻煩的問(wèn)題。我們需要更好的方法來(lái)促進(jìn)大家共享數(shù)據(jù)。” Butte這樣說(shuō)道。
缺乏統(tǒng)一的標(biāo)準(zhǔn)也是一個(gè)問(wèn)題。每一個(gè)科研團(tuán)體用來(lái)儲(chǔ)存數(shù)據(jù)的軟件可能都不一樣,這些數(shù)據(jù)的格式也是千差萬(wàn)別的,很多時(shí)候連試驗(yàn)設(shè)計(jì)都不一樣,所以所能得到 的準(zhǔn)確結(jié)果也有所差異。Butte等人認(rèn)為處理這些不同格式的數(shù)據(jù)是最麻煩的,不過(guò)這也不是不能解決的問(wèn)題。更大的困難在于如何對(duì)實(shí)驗(yàn)設(shè)計(jì)不同的實(shí)驗(yàn)所得 到的數(shù)據(jù)進(jìn)行比較和分析。
據(jù)Butte介紹,經(jīng)過(guò)多年的標(biāo)準(zhǔn)化工作,對(duì)實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析,使用包括DNA或RNA芯片、以及蛋白質(zhì)組質(zhì)譜實(shí)驗(yàn)所得到的實(shí)驗(yàn)結(jié)果的解讀所進(jìn)行的標(biāo)準(zhǔn)化工作終于帶來(lái)了回報(bào)。對(duì)此觀點(diǎn)Heckerman也表示了贊同,他認(rèn)為生物學(xué)數(shù)據(jù)正在走向標(biāo)準(zhǔn)化。
“進(jìn)行生物學(xué)研究其實(shí)真的不需要傳統(tǒng)意義上的生物學(xué)實(shí)驗(yàn)室。” ——美國(guó)微軟研究院David Heckerman
隨著公共數(shù)據(jù)庫(kù)的規(guī)模的不斷擴(kuò)大,大家對(duì)遺傳隱私(genetic privacy)的關(guān)注度也變得越來(lái)越高。遺傳學(xué)家們已經(jīng)證實(shí)了所謂的匿名數(shù)據(jù)是完全不可靠的,很容易就能夠找出這些數(shù)據(jù)的來(lái)源,而且任何一點(diǎn)紕漏都會(huì)泄 漏個(gè)體的隱私,比如他的健康狀況,是否易患某種疾病以及家族史信息等。不過(guò)我們目前至少已經(jīng)想出了一個(gè)解決方案。我們?cè)陂_(kāi)展GWAS研究,或者開(kāi)發(fā)分子診 斷芯片時(shí)往往都要將基因型與表型對(duì)應(yīng)起來(lái),這就需要進(jìn)入美國(guó)國(guó)家生物技術(shù)信息中心的基因型及表型數(shù)據(jù)庫(kù)(National Center for Biotechnology Information?s database of genotypes and phenotypes, dbGaP),但是要使用這個(gè)數(shù)據(jù)庫(kù)就必須先登記,獲得批準(zhǔn)之后才可以使用這些數(shù)據(jù)。另外,所有這些使用申請(qǐng)都會(huì)被公布,誰(shuí)出于什么目的使用了哪些數(shù)據(jù)全 都會(huì)大白于天下。
為了解決這些問(wèn)題,同時(shí)也為了能夠更好地利用大數(shù)據(jù)與生物醫(yī)藥研究結(jié)合這個(gè)難得一見(jiàn)的科研良機(jī),NIH在今年夏天宣布將啟動(dòng)一項(xiàng)名為“Big Data to Knowledge (BD2K)”的新項(xiàng)目。該項(xiàng)目主要有兩個(gè)目的,在最初的4年里將共計(jì)投入約9600萬(wàn)美元,建立多個(gè)研究中心推動(dòng)新算法、以及其他數(shù)據(jù)分析方法的開(kāi)發(fā)。 也會(huì)推動(dòng)在NIH的各個(gè)研究所里建立多個(gè)課題組,攻克與數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)庫(kù)準(zhǔn)入和遺傳信息隱私等領(lǐng)域相關(guān)的難題。針對(duì)這些問(wèn)題國(guó)際上也有所動(dòng)作,比如有 40個(gè)國(guó)家的70多家科研機(jī)構(gòu)在今年的6月共同參與組成了一個(gè)國(guó)際聯(lián)盟,旨在推動(dòng)數(shù)據(jù)盡早公開(kāi)。
干試驗(yàn)生物學(xué)研究未來(lái)還會(huì)迎來(lái)一次大發(fā)展,因?yàn)槊绹?guó)已經(jīng)要求所有的數(shù)據(jù)庫(kù)全都像科研界公開(kāi)。今年的2月22日,美國(guó)科技政策局(U.S. Of?ce of Science and Technology Policy, OSTP)局長(zhǎng)John Holdren提交了一份備忘錄,要求美國(guó)聯(lián)邦政府各執(zhí)行部門盡快拿出方案,鼓勵(lì)并幫助大家使用由美國(guó)政府資助開(kāi)展的科研工作所取得的成果和數(shù)據(jù)。該備忘 錄推出之后因?yàn)橹攸c(diǎn)強(qiáng)調(diào)要免費(fèi)獲取科研論文而備受關(guān)注。但是大家都沒(méi)有注意到,在這份備忘錄里也同時(shí)提出,要促進(jìn)由美國(guó)政府資助開(kāi)展的科研工作所取得數(shù)據(jù) (非保密數(shù)據(jù))早日進(jìn)入公共數(shù)據(jù)庫(kù)里。OSTP的官員們表示,他們已經(jīng)拿出了初步的方案,正在進(jìn)行修改。
Butte認(rèn)為,雖然這對(duì)于從事生物數(shù)據(jù)發(fā)掘工作的科研人員們無(wú)疑是一個(gè)重大利好消息,但是這也會(huì)進(jìn)一步加重?cái)?shù)據(jù)標(biāo)準(zhǔn)化以及數(shù)據(jù)隱私等方面的問(wèn)題。同時(shí)也 會(huì)讓數(shù)據(jù)持有者比較頭疼。因?yàn)樗麄冃枰约海蛘咦屩謥?lái)管理這些數(shù)據(jù),準(zhǔn)備好錄入數(shù)據(jù)庫(kù),這就增加了很大的工作量。同時(shí)也會(huì)占用他們一定的精力和科研經(jīng) 費(fèi),有可能會(huì)影響他們本來(lái)的研究工作。美國(guó)國(guó)立醫(yī)學(xué)研究所生物醫(yī)藥技術(shù)生物信息學(xué)及計(jì)算生物學(xué)中心(Division of Biomedical Technology, Bioinformatics, and Computational Biology at the National Institute of General Medical Sciences in Bethesda, Maryland)的項(xiàng)目負(fù)責(zé)人Peter Lyster認(rèn)為這對(duì)于小型實(shí)驗(yàn)室的影響更大,他說(shuō)道:“從某些角度來(lái)看,這就是一場(chǎng)零和游戲(zero-sum game)。”
不過(guò)這場(chǎng)游戲里的輸家只可能是從事傳統(tǒng)生物學(xué)研究的“濕”實(shí)驗(yàn)室。對(duì)于“干”實(shí)驗(yàn)室而言,這些新工具、新政策和新的數(shù)據(jù)只是他們的新機(jī)遇,而不會(huì)是新負(fù)擔(dān)。“我們已經(jīng)準(zhǔn)備好大干一場(chǎng)了。” Heckerman說(shuō)道。