【大紀元2021年09月24日訊】(大紀元記者李少維編譯報導)麻省理工學院(MIT)和法國巴斯德研究院(Institut Pasteur)合作開發了一套全新的組裝基因序列的方法,僅需使用普通的個人電腦,組裝整套基因序列速度比現在最先進的方法快近百倍,所用的資源只需五分之一。
這份9月4日發表於《細胞·系統》(Cell Systems)的研究說,研究人員從語言學模型獲得啓發,如果按照單詞、而不是使用字母匯編語言,速度會快很多。
這份研究的作者之一麻省理工學院數學教授伯傑(Bonnie Berger)說:「這種快速組裝基因組的能力對於評估腸道微菌變化、細菌感染相關的疾病有重要作用,能夠快速進行治療,輓救生命。」
2003年由世界多國科學家合作組裝完成第一份人類的基因序列,耗資27億美元,花了十幾年的時間才完成。之後至今,雖然基因測序成本在降低、耗時在減少,但是由於涉及的數據量大、算法複雜,現在仍然需要很強大的電腦、耗時幾天才能完成。
伯傑和同事借鑒了語言學的模型,在現有德•布魯因圖(de Bruijn graph)的基礎上,他們開發了最小空間化德•布魯因圖(minimizer-space de Bruin graph,簡稱mdBG),使用核苷酸短序列,而不是單個的核苷酸。
「我們的最小空間化德•布魯因圖只儲存整套核苷酸的一小部分,但是卻能保留整個基因組的結構,所以這個方法比傳統的德•布魯因圖效率高出好幾個數量級。」
研究人員用這個新方法挑戰組裝果蠅基因、以及美國太平洋生物科學公司(PacBio)提供的人體基因數據,並以現今為止最準確的HiFi數據作為標準。
結果顯示,使用這個新方法所花的時間比其它基因組裝算法少了33倍,電腦內存(RAM)少用了8倍。從軟件的角度比較,這套算法比Peregrine組裝法快了81倍,內存少用18倍;比hifiasm組裝法快338倍,內存少用19倍。
之後,研究人員還用這個方法為661,406個細菌基因組建立索引,這份數據是目前為止同類中最大型的一份。他們發現,掃描整個數據集找到抗菌耐藥基因只需13分鐘,如果用常規的序列對照方法則需要7個小時。◇
責任編輯:朱涵儒