大數(shù)據(jù)揭示地球生命演化的奧秘

來源:北京日報

科技部高技術(shù)研究發(fā)展中心日前發(fā)布“2020年度中國科學十大進展”,其中一項進展是,南京大學沈樹忠、樊雋軒團隊聯(lián)合國內(nèi)外專家創(chuàng)建國際大型數(shù)據(jù)庫,自主研發(fā)人工智能算法,利用“天河二號”超算取得突破,獲得了全球第一條高精度的古生代3億多年的海洋生物多樣演化曲線,時間分辨率較國際同類研究提高400多倍。

生命起源與演化是自然科學領域的十大科學問題之一。地球生命從最早的單細胞生命,到紛繁復雜、高度多樣化的現(xiàn)今生命世界,中間經(jīng)歷了復雜的甚至可以稱之為波瀾壯闊的演化過程。本報約請樊雋軒教授撰文向讀者解讀該項研究的科學內(nèi)容。

早先化石古生物數(shù)據(jù)庫識別出五大滅絕事件

2011年國際著名學術(shù)期刊《自然》報道,根據(jù)科學家的估算,現(xiàn)今地球上一共有870萬種生物物種。地球已經(jīng)有46億年的歷史,其中最早的地球生命出現(xiàn)在38億年前。在這漫長的生命歷史中,不斷有物種消失,以及新的生命類型的出現(xiàn)。那么,在整個地球歷史中,一共存在過多少物種呢?根據(jù)科學家的估算,這個數(shù)字是40億!也就是說,如果要恢復生命演化的全部歷史,我們就必須對所有現(xiàn)生的以及已經(jīng)消失的物種進行全面的統(tǒng)計。對于這些已經(jīng)消失的物種,只能通過它們留下來的化石記錄來進行統(tǒng)計分析。比如三葉蟲最后的化石記錄發(fā)現(xiàn)于二疊紀末的沉積巖里,因此科學家就可以推測,三葉蟲最終消失的時間是在2.5億年前。

對化石記錄開展的研究已有數(shù)百年歷史,地質(zhì)學家和古生物學家已經(jīng)積累了海量的化石記錄信息。對這樣龐大的數(shù)據(jù)進行準確、可靠的分析,就必須利用大數(shù)據(jù)的手段。

上世紀70到80年代,美國芝加哥大學的演化古生物學家杰克·塞普柯普斯基教授,耗費十多年時間,收集了北美、歐洲等地的化石記錄,構(gòu)建了第一個較為完整的古生物數(shù)據(jù)庫。這個數(shù)據(jù)庫里,只有化石的分類名稱,以及該種化石出現(xiàn)的時間以及消失的時間,雖然信息很簡單,但是已經(jīng)可以用來統(tǒng)計各個時段有多少種化石生物了。

地球歷史很長,以億年計。塞普柯普斯基的這項研究,時間精度或者說時間單位只能做到以千萬年計,也就是說只能統(tǒng)計到每一千萬年地球上生活過多少種生物。通過這個方法,他識別出過去6億年的地球生物多樣的變化規(guī)律。這就相當于人類五千年歷史中,統(tǒng)計出了每一百年的人口變化。在這個生物多樣變化曲線上,他識別出了五次顯著的生物類群數(shù)目快速下降的事件,他稱之為五大滅絕事件,代表了地球歷史上最為重要的五次生命災難。這項研究被譽為20世紀后半葉地球科學領域最為重要的發(fā)現(xiàn)之一。

后來的學者覺得這個數(shù)據(jù)庫太簡單,有必要建立一個更為龐大的數(shù)據(jù)庫,收錄種類更豐富的信息,不僅可以重新檢驗上述結(jié)果,還可以進一步揭示生命演化的機理、機制及其與地球環(huán)境變遷間的關(guān)系等。1998年,在美國國家自然科學基金委的支持下,一批美國與歐洲的古生物學家聯(lián)合,發(fā)起了一個大型的古生物網(wǎng)絡數(shù)據(jù)庫項目。這個數(shù)據(jù)庫的結(jié)構(gòu)要復雜得多,不僅包含了上述化石的名稱以及出現(xiàn)和消失的時間信息,還包括了產(chǎn)出化石的巖石信息、化石生物的地理位置信息、化石生物的生活狀態(tài)信息等。利用這些數(shù)據(jù),這些科學家在2008年重新計算了過去6億年的地球生物多樣曲線,時間精度與上述曲線類似,也是一千萬年。這一新曲線與塞普柯普斯基的曲線相比,既有相似的地方,但也存在一些不同的地方。這兩條曲線,究竟哪條曲線更準確呢?如果我們重新回顧一下這兩項研究,可以發(fā)現(xiàn)他們統(tǒng)計生物數(shù)目的時候時間單位是以千萬年計,這個精度是很粗糙的,因此容易帶入一些因為時間不準確導致的偏差。

數(shù)據(jù)、算法和算力創(chuàng)新

推動古生物時間分辨率大大提高

為了獲得更加全面、可靠的古生物多樣曲線,需要實現(xiàn)三方面的突破,一是需要更加準確的海量化石記錄,也就是古生物大數(shù)據(jù)的支撐;二是需要研發(fā)全新的算法,實現(xiàn)數(shù)據(jù)的有效計算與分析;三是需要強大的算力,從而可以在有限的時間里,比如數(shù)周內(nèi)完成計算與分析。

南京大學沈樹忠、樊雋軒團隊聯(lián)合國內(nèi)外專家開發(fā)了一個全新的國際大數(shù)據(jù)臺,可以實現(xiàn)全球古生物資料的高效數(shù)字化、集成、管理與應用。并組建了一個國際一流的數(shù)字化隊伍,耗費數(shù)年時間將中國85%以上的化石記錄都收集起來,并開放給全球的同行使用。

在算法方面,傳統(tǒng)的定量統(tǒng)計方法不再適用。科學家團隊嘗試與信息科學相結(jié)合,研發(fā)全新的算法。在古生物學領域有一個重要的基本概念,即化石的保存和采樣概率。前者指古代生物有多大的概率變成化石,后者指化石有多大的概率被我們發(fā)掘出來。比如,某片森林里曾經(jīng)生活過幾只松鼠,當它們死后,未必都能被埋到土里成為化石。因為有可能被狐貍叼走了,也可能被細菌分解破壞了。就算埋到土里成為化石,也未必能被古生物學家所發(fā)現(xiàn),因為古生物學家不可能把整個森林都挖開去找尋每一個化石。

正因為化石存在保存和采樣概率,所以在各個化石挖掘點找到的化石出現(xiàn)和消失的時間就有可能存在問題,這就導致化石的出現(xiàn)或消失的先后順序可能會顛倒。舉個例子,比如李白出生在公元701年,杜甫出生在公元712年,李白的出生比杜甫早了11年,但是,假設史書中的記錄有偏差,缺了李白的一些編年史記錄,導致關(guān)于李白的最早記錄是公元713年,那么后人在整理資料時就會以為杜甫的出生比李白早一年。如果將每個化石挖掘點找到的化石記錄看作是一本化石編年史,每本編年史都是不完整的,有的記錄了李白出生更早,有的則是杜甫更早。假設李白應該比杜甫更早,然后看看有多少本書里的記錄與之不符,每一次不符記為1,其總和就代表了“李白早于杜甫”這一假設與實際記錄的不吻合程度。假設有100種化石,對每兩種化石的先后順序都進行這樣的假設和比較,最后就可以得到這100種化石的一個假設的順序以及對應的總不吻合度。求取不吻合度最小的那個順序,這就是化石在全球出現(xiàn)的最合理的順序,在這個基礎上,就可以計算出高分辨率的生物多樣曲線。

通過這種方法,將可以獲得時間精度是2萬至3萬年的多樣曲線。如果將過去6億年的生命歷史對應到人類文明的五千年,這一分辨率就相當于我們每兩三個月就統(tǒng)計一次全球的人口總數(shù),看看變化趨勢是什么。生命演化的時間精度達到萬年尺度,這代表的就是生命演化領域目前的世界紀錄了。

獲得這樣的時間分辨率,需要非常龐大的算力的支撐。根據(jù)科學家的估算,如果對1萬種化石的地質(zhì)記錄計算和分析一次,當前主流的臺式機需要17年!所以,研究團隊拜訪了中國的多個超級計算機。其中,位于廣東中山大學的“天河二號”超級計算機在2013年到2016年都是世界上最快的超級計算機??茖W家最終采用了“天河二號”,同時使用1萬多個CPU核心進行計算,原本需要17年才能完成的一次計算,最終只用了兩三天。

更精細的生物多樣曲線

揭示3億年生命演化史

在大數(shù)據(jù)、算法和算力方面都取得了突破之后,科學家團隊正式開始了計算,并最終獲得了從5.4億年前開始到2.4億年前的3億年地球生物多樣變化的曲線。與國際的同類研究相比,這一新曲線的時間分辨率提高了400倍,徹底改變了對該時期海洋生物演化的一些傳統(tǒng)認識。

該項研究表明,前人使用的低分辨率且不均一的時間標尺,會直接影響對古生物多樣的估算,導致無法準確評估生物多樣的變化速率和模式,并可能掩蓋突發(fā)的重大事件以及短時間的劇烈波動。比如有的時候生物正面臨多樣危機,或者是生命形式正快速爆發(fā)、增長的時候,前人的曲線會顯示完全不同的規(guī)律。

新的多樣變化曲線更加準確地重現(xiàn)了地質(zhì)歷史中最大的三次生物滅絕事件和三次重大生物輻射事件的精細過程。

三次生物大滅絕事件,其中2.52億年前發(fā)生了人類迄今為止識別出的最大規(guī)模的生物滅絕事件,導致超過70%的海洋生物在數(shù)萬年內(nèi)迅速滅亡,這一事件的發(fā)生,與當時全球氣候的快速升溫密切相關(guān)。

——奧陶紀末生物大滅絕:五大滅絕事件之一;發(fā)生在奧陶紀、志留紀之交(4.47億至4.45億年前),導致34%的海洋生物快速消失。

——中-晚泥盆世生物大滅絕:五大滅絕事件之一;始于3.93億年前,并一直延續(xù)至3.68億年前,持續(xù)兩千五百萬年,導致59%的海洋生物消失。

——二疊紀末生物大滅絕:五大滅絕事件之首;發(fā)生在二疊紀、三疊紀之交(2.52億年前),生物多樣在數(shù)萬年里急劇下降超過70%。

三次重要的生物輻射事件,多與當時全球氣候的逐漸變冷同步。深刻理解這些重大生物事件的驅(qū)動機制,對于我們認識當今地球生物多樣以及與全球氣候變化之間的關(guān)系具有重要啟示意義。

——奧陶紀生物大輻射事件:發(fā)生在4.97億至4.67億年前,物種多樣快速增長,并增加了三倍。

——志留紀初生物輻射事件:發(fā)生在4.45億至4.37億年前,奧陶紀末生物大滅絕結(jié)束后,生物快速復蘇并輻射,多樣增加約80%。

——石炭紀-二疊紀生物輻射事件:發(fā)生在3.35億至2.95億年前,多樣增加三倍,基本與奧陶紀大輻射事件相當。

地質(zhì)歷史中生物多樣的重大變化,通常也伴隨著環(huán)境的劇烈波動。前人研究表明,生物多樣變化可能與多項環(huán)境因子的變化同步,如古氣候、海面、總棲息地面積和大陸連通等。各重要生物事件與環(huán)境變化之間存在一些相關(guān),如:

奧陶紀大輻射事件和石炭紀-二疊紀的生物多樣化事件均與氣候變冷相關(guān);

中-晚泥盆世生物大滅絕事件與該時期古溫度變化相關(guān)。

生物的演化與環(huán)境的變遷經(jīng)常是彼此聯(lián)系的。為了探究兩者之間的關(guān)系,科學家團隊將一些關(guān)鍵環(huán)境指標參數(shù)與新的多樣曲線進行了初步的比較,發(fā)現(xiàn)生命的興衰與大氣中二氧化碳含量的變化存在同步的現(xiàn)象,二氧化碳含量高,生物多樣通常也較高,二氧化碳含量變低,生物多樣也會變低。目前尚不清楚究竟是什么機制將這兩種變化聯(lián)系在了一起,但相信隨著研究的不斷深入,比如未來收集了環(huán)境變化的大數(shù)據(jù),就可以去嘗試揭秘這兩者之間的真正關(guān)系了。

地球生命演化有著無窮的奧秘,利用大數(shù)據(jù)繪制出高分辨率的生物多樣曲線不過是第一步。隨著大數(shù)據(jù)、人工智能等新技術(shù)手段的應用,科學家們將會不斷揭示地球生命演化的奧秘。

標簽: 大數(shù)據(jù) 人工智能 古生物研究

推薦

財富更多》

動態(tài)更多》

熱點