科技日報記者 張夢然
《科學》雜志15日發布了一項突破性研究成果:美國斯坦福大學Arc研究所團隊利用人工智能(AI),開發出一種大規模基因組基礎模型“Evo”,翻開了生命的“密碼全書”。該模型采用先進架構,能夠以前所未有的精度,解析和設計從分子層面到整個基因組級別的DNA、RNA及蛋白質序列。其不僅能夠預測突變對細胞內部各個調控層級的影響,還能設計出用于操控細胞功能的DNA序列,這或將徹底改變合成生物學的發展路徑。
科學家一直試圖借鑒大型語言模型的成功經驗,讓AI技術將DNA視為一種“語言”來建模,但現有模型捕捉廣泛基因組交互作用的能力有限。
此次,研究團隊開發了具備70億參數的Evo模型,能夠生成覆蓋整個基因組的DNA序列。該模型利用270萬來自進化多樣性微生物的基因組數據集進行了訓練,并首次報告了DNA領域的縮放定律,這項發現與語言和視覺領域已知的現象相呼應。實驗結果顯示,Evo在預測性和生成性的生物學任務中均表現優異,無論是預測突變對細菌蛋白質和RNA的影響,還是在模擬基因調控機制方面,都展現出了極高的準確性。
此外,Evo還能夠處理編碼序列與非編碼序列之間的復雜共進化關系,支持設計包括功能性CRISPR-Cas復合體和轉座子在內的復雜生物體系。這是首次實現蛋白質-RNA和蛋白質-DNA結構與語言模型協同設計的例子。在全基因組尺度上,Evo能夠生成超過100萬堿基對的序列,其預測和生成能力涵蓋了從分子到基因組的多層次復雜度,極大推進了人們對生物學本質的認識和操控能力。
團隊認為,后續模型將進一步擴展至人類及其他真核生物的基因組數據學習,通過增加上下文長度來更好地捕捉大基因組間的遠程相互作用。這將為生物學研究開辟新的視野,推動生命科學領域的持續發展。
基因組序列的變化,其實有助于生物體適應不斷改變的環境條件,進而驅動物種進化。隨著DNA測序技術的飛躍進步,科學家已能夠在全基因組范圍內繪制出基因組變異圖譜。再結合創新的AI算法,使得構建一個能深入理解DNA、RNA和蛋白質功能及其相互作用的綜合模型成為可能。換句話說,現在,人們擁有了一個解碼生命指令的基因組基礎模型。