發(fā)展現(xiàn)狀還是挺樂觀的,在過(guò)去的幾年里,
研發(fā)DNA搜索引擎的公司如雨后春筍般涌現(xiàn),爭(zhēng)相成為研發(fā)DNA搜索引擎的第一人。他們都有不同的戰(zhàn)術(shù)——有些以至具有本人私有的遺傳信息數(shù)據(jù)庫(kù),但是大多數(shù)正努力于鏈接足夠多的遺傳數(shù)據(jù)庫(kù),以便用戶能夠快速辨認(rèn)大量的各種各樣的突變。大多數(shù)公司也研討應(yīng)用生物學(xué)文獻(xiàn)補(bǔ)充遺傳學(xué)信息的搜索算法。但在早期網(wǎng)絡(luò)的日子里,在谷歌稱雄之前,沒有哪個(gè)公司成為明顯的贏家。
發(fā)明一個(gè)有效的搜索引擎是典型的大數(shù)據(jù)問(wèn)題, ViaGenetics公司的副總裁邁克爾?岡薩雷斯說(shuō),估計(jì)本月將重啟他們的搜索平臺(tái)。在醫(yī)生或研討人員能夠運(yùn)用數(shù)據(jù)之前,基因組數(shù)據(jù)必需依照可讀取和可搜索的形式來(lái)組織。邁向目的的第一步是,依照一種稱之為“變體辨認(rèn)格式”或“VCF”的規(guī)范格式存儲(chǔ),一個(gè)人的完好基因組測(cè)序數(shù)據(jù)約100千兆字節(jié),直接采用原始的數(shù)據(jù)格式入庫(kù),即便每天只要10個(gè)病人的基因組數(shù)據(jù),數(shù)據(jù)庫(kù)也會(huì)很快失控。但VCF文件更緊湊,每個(gè)基因只要幾百兆字節(jié),有助于研討人員在更短的時(shí)間內(nèi)搜索到他們想要找的特定變異。與全基因組測(cè)序不同,VCF文件只給出一個(gè)人的基因數(shù)據(jù)在哪里偏離了2001年的人類基因組方案最初編制的基因組規(guī)范。
有了VCF,從基因組數(shù)據(jù)中挑選出精準(zhǔn)的突變基因不是搜索引擎公司面臨的應(yīng)戰(zhàn)。大多數(shù)這類公司都集中資源努力于無(wú)縫編譯從其他網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中補(bǔ)充特定的突變信息,如生物醫(yī)學(xué)研討檔案PubMed或各種搜集來(lái)的電子醫(yī)療記載。許多這些工具都用精密的算法來(lái)優(yōu)化結(jié)果的可信度和相關(guān)性?!澳阆M梢詫⒛硞€(gè)位點(diǎn)的突變信息聚集到一同,并疾速作出評(píng)價(jià),” 總部位于猶他州的另一家研發(fā)基因--搜索引擎的公司Tute Genomics的首席科學(xué)官David Mittelman說(shuō)。
為了拓展信息關(guān)聯(lián)到一個(gè)尚無(wú)定論的基因組,位于佛羅里達(dá)州邁阿密海灘的ViaGenetics公司,正在更新他們提供應(yīng)想停止跨機(jī)構(gòu)協(xié)作的研討人員運(yùn)用的信息平臺(tái)?!坝辛薞iaGenetics的工具,研討人員能夠?qū)⑺麄兊臄?shù)據(jù)提供應(yīng)其他用戶,其他用戶能夠看到這些項(xiàng)目,懇求訪問(wèn),并構(gòu)成協(xié)作,”岡薩雷斯說(shuō),“它協(xié)助人們?cè)诓煌难杏懭藛T和機(jī)構(gòu)間樹立銜接點(diǎn)。這關(guān)于沒有很普遍的基因組數(shù)據(jù)庫(kù)的小型實(shí)驗(yàn)室或努力于解碼相同的突變的不同大學(xué)的研討人員都特別有用。