科技未來(lái)時(shí)|把數(shù)據(jù)刻進(jìn)DNA!海量信息存儲(chǔ)打開新思路
近日,天津大學(xué)應(yīng)用數(shù)學(xué)中心吳華明教授團(tuán)隊(duì)研發(fā)了一種全新的DNA存儲(chǔ)系統(tǒng)——HELIX,并成功實(shí)現(xiàn)了60MB的醫(yī)學(xué)影像(時(shí)空組學(xué))圖片信息的存儲(chǔ)與恢復(fù)。這是我國(guó)科研人員在DNA存儲(chǔ)領(lǐng)域取得的又一次新突破。此前,北京大學(xué)張成和錢瓏DNA存儲(chǔ)團(tuán)隊(duì)首次提出了一種基于并行寫入策略的DNA存儲(chǔ)方法,利用分子活字印刷的方式,將大熊貓彩色照片存入表觀分子修飾中,實(shí)現(xiàn)了27.5萬(wàn)比特的非傳統(tǒng)DNA存儲(chǔ)。
什么是DNA存儲(chǔ)?DNA存儲(chǔ)有哪些優(yōu)勢(shì)?業(yè)內(nèi)專家告訴記者,DNA存儲(chǔ)是一種利用人工合成的脫氧核糖核酸(DNA)作為信息載體的新型存儲(chǔ)技術(shù),具有密度大、耗能低、無(wú)磨損和壽命長(zhǎng)等潛在優(yōu)勢(shì)。
“理論上,僅1克DNA就能存儲(chǔ)約1000萬(wàn)小時(shí)的高清視頻數(shù)據(jù),也許1公斤DNA便能裝下全世界的數(shù)據(jù)。”北京大學(xué)計(jì)算機(jī)學(xué)院副研究員張成說(shuō),“DNA分子的雙螺旋結(jié)構(gòu)和自組裝特性,使其在甚小空間內(nèi)也可以緊湊排列,承載極高密度的信息?!贝送猓珼NA的四種堿基(腺嘌呤A、胞嘧啶C、鳥嘌呤G和胸腺嘧啶T)的排列組合變化無(wú)窮,也就意味著它們可以編碼幾乎無(wú)限量的信息,使得DNA理論上具備比任何現(xiàn)有存儲(chǔ)設(shè)備更高的存儲(chǔ)容量。
DNA可以保存多久?最新答案是200萬(wàn)年。近年科學(xué)家曾從格陵蘭島凍土中成功提取200萬(wàn)年前的DNA序列,其中信息仍歷歷可辨。DNA存儲(chǔ)不僅存得久,而且存得牢,若能有效避免水分與紫外線的影響,DNA可以在數(shù)十萬(wàn)年內(nèi)保持穩(wěn)定不變。更重要的是,DNA存儲(chǔ)額外耗能極低,理想保存環(huán)境與日常環(huán)境相差不大。要想在能源有限條件下實(shí)現(xiàn)數(shù)據(jù)的長(zhǎng)期保存,DNA存儲(chǔ)堪稱首選。
如何把數(shù)據(jù)存入DNA?張成介紹,傳統(tǒng)的DNA存儲(chǔ)方法首先是將數(shù)據(jù)進(jìn)行編碼,也就是將二進(jìn)制數(shù)據(jù)按照設(shè)定好的編碼規(guī)則轉(zhuǎn)化為DNA序列;接下來(lái),通過(guò)合成DNA分子實(shí)現(xiàn)存儲(chǔ)的信息寫入,即按照編碼的順序逐個(gè)加入堿基,以串行的方式合成DNA鏈;第三步就是存儲(chǔ)與讀取。
為什么需要研發(fā)DNA存儲(chǔ)技術(shù)?國(guó)家數(shù)據(jù)局發(fā)布的《全國(guó)數(shù)據(jù)資源調(diào)查報(bào)告(2024年)》顯示,2024年全國(guó)數(shù)據(jù)生產(chǎn)總量達(dá)41.06澤字節(jié)(ZB),同比增長(zhǎng)25%。面對(duì)數(shù)據(jù)量的爆炸式增長(zhǎng),傳統(tǒng)存儲(chǔ)方式面臨容量有限、維護(hù)成本高、設(shè)備壽命短等諸多挑戰(zhàn),尋找新一代存儲(chǔ)介質(zhì)迫在眉睫。2022年,我國(guó)“十四五”規(guī)劃將DNA存儲(chǔ)列為與新一代移動(dòng)通信技術(shù)、量子信息、第三代半導(dǎo)體等并列的新興技術(shù)。當(dāng)前,作為未來(lái)產(chǎn)業(yè)的前沿方向之一,DNA存儲(chǔ)已形成以核心城市為引領(lǐng)、產(chǎn)學(xué)研聯(lián)動(dòng)的多區(qū)域發(fā)展格局,北京、上海、天津、深圳等多地均有所布局。以北京市為例,今年北京將在未來(lái)信息、未來(lái)健康等六大領(lǐng)域持續(xù)發(fā)力,推動(dòng)未來(lái)產(chǎn)業(yè)發(fā)展全面提速,其中包括DNA存儲(chǔ)等前沿方向。
何時(shí)能用上DNA存儲(chǔ)?業(yè)內(nèi)專家告訴記者,DNA存儲(chǔ)的產(chǎn)業(yè)化落地道阻且長(zhǎng)?!爱?dāng)前,DNA存儲(chǔ)還面臨存得貴、讀得慢等痛點(diǎn)?!睆埑杀硎?,一是成本高昂,目前合成2MB的DNA數(shù)據(jù)需要約7000美元,讀取數(shù)據(jù)需要約2000美元,如果以DNA形式存儲(chǔ)1GB大小的電影,大約需要花費(fèi)358萬(wàn)美元;二是讀寫速度太慢,以目前的技術(shù),在合成DNA時(shí)每添加一個(gè)堿基都需要多個(gè)操作環(huán)節(jié),尚無(wú)法滿足日常簡(jiǎn)單的實(shí)時(shí)數(shù)據(jù)存儲(chǔ)需求;三是讀取環(huán)節(jié)準(zhǔn)確率不高,例如寫入過(guò)程可能出現(xiàn)不正確的修飾等錯(cuò)誤,讀取時(shí)也可能因測(cè)序誤差導(dǎo)致還原數(shù)據(jù)不準(zhǔn)確等狀況。
正因如此,科研人員正在加快底層核心技術(shù)突破,研發(fā)新型DNA存儲(chǔ)技術(shù),以期推動(dòng)DNA存儲(chǔ)產(chǎn)業(yè)化。例如,2024年北大DNA存儲(chǔ)團(tuán)隊(duì)提出的并行寫入策略DNA存儲(chǔ)方法,并不依賴于傳統(tǒng)的“從頭合成”寫入路線原理,而是利用甲基修飾比特編碼信息,將信息并行地打印在DNA分子之上。相關(guān)技術(shù)不僅為實(shí)現(xiàn)快速、低成本的大規(guī)模分子數(shù)據(jù)存儲(chǔ)奠定了基礎(chǔ),還為未來(lái)DNA存儲(chǔ)的發(fā)展提供了全新思路。
“DNA存儲(chǔ)要實(shí)現(xiàn)商業(yè)化應(yīng)用,還需在底層技術(shù)層面進(jìn)一步取得突破,從而在降低成本、提高速度、提升準(zhǔn)確率等多個(gè)方面取得跨越進(jìn)展?!睆埑杀硎?。