English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
生物器材網(wǎng) logo
生物儀器 試劑 耗材
當(dāng)前位置 > 首頁(yè) > 技術(shù)文章 > Nature| 為AI擠水分:新框架誕生,揭示基因擾動(dòng)預(yù)測(cè)的真實(shí)難度

Nature| 為AI擠水分:新框架誕生,揭示基因擾動(dòng)預(yù)測(cè)的真實(shí)難度

瀏覽次數(shù):44 發(fā)布日期:2025-8-28  來(lái)源:生物探索

文章來(lái)源公眾號(hào):生物探索            作者:游離的DNA

引言

生命科學(xué)的疆域正在以前所未有的速度擴(kuò)張,而在這場(chǎng)探索的浪潮之巔,“基因編輯”無(wú)疑是最耀眼的燈塔之一。CRISPR技術(shù)的出現(xiàn),讓我們?nèi)缤瑩碛辛艘恢軌蚓_改寫(xiě)生命密碼的“筆”,可以關(guān)閉、開(kāi)啟甚至修復(fù)特定的基因。這項(xiàng)能力為我們揭示基因功能、理解疾病機(jī)理、開(kāi)發(fā)新療法打開(kāi)了無(wú)限可能。然而,一個(gè)巨大的挑戰(zhàn)橫亙?cè)谖覀兠媲埃杭?xì)胞內(nèi)有數(shù)萬(wàn)個(gè)基因,它們交織成一張復(fù)雜得令人難以想象的調(diào)控網(wǎng)絡(luò)。如果我們擾動(dòng)(perturbation)其中一個(gè)或幾個(gè)基因,細(xì)胞的“內(nèi)心世界”,也就是它的基因表達(dá)譜(transcriptional responses),會(huì)發(fā)生怎樣的連鎖反應(yīng)?

這是一個(gè)組合爆炸的難題。窮盡所有可能的基因組合擾動(dòng)并進(jìn)行實(shí)驗(yàn),無(wú)異于想在地球上數(shù)清每一粒沙子。于是,研究人員將希望寄托于人工智能(Artificial Intelligence, AI),特別是深度學(xué)習(xí)模型。我們能否訓(xùn)練一個(gè)“AI神算子”,讓它學(xué)習(xí)已有實(shí)驗(yàn)數(shù)據(jù)中的規(guī)律,然后精準(zhǔn)預(yù)測(cè)那些我們從未做過(guò)的基因擾動(dòng)會(huì)帶來(lái)什么樣的后果?近年來(lái),諸如GEARS、scGPT等一系列復(fù)雜的模型應(yīng)運(yùn)而生,它們?cè)诟黜?xiàng)評(píng)估指標(biāo)上取得了令人矚目的高分,似乎預(yù)示著一個(gè)“計(jì)算預(yù)測(cè)取代繁瑣實(shí)驗(yàn)”的新時(shí)代即將來(lái)臨。

但事實(shí)果真如此嗎?這些看似強(qiáng)大的AI模型,是真的洞悉了基因擾動(dòng)背后的生物學(xué)邏輯,還是僅僅學(xué)會(huì)了某種應(yīng)試技巧,穿上了一件名為“高分”的皇帝新衣?8月25日,Nature Biotechnology的研究報(bào)道“Systema: a framework for evaluating genetic perturbation response prediction beyond systematic variation”,為我們揭示了這光鮮成績(jī)背后的驚人真相,并鍛造了一面名為“Systema”的“照妖鏡”。這項(xiàng)工作不僅深刻地指出了當(dāng)前領(lǐng)域內(nèi)評(píng)估體系的“系統(tǒng)性”缺陷,更提供了一套全新的、更為嚴(yán)苛也更為公正的評(píng)判標(biāo)準(zhǔn),引導(dǎo)我們走向真正有意義的生物學(xué)預(yù)測(cè)。

高分之謎:為何最簡(jiǎn)單的模型也能名列前茅?

想象一場(chǎng)極端重要的考試,考題旨在檢驗(yàn)學(xué)生對(duì)復(fù)雜物理定律的理解?紙(chǎng)上,有幾位“優(yōu)等生”,他們學(xué)習(xí)了海量的資料,構(gòu)建了復(fù)雜的知識(shí)框架,他們就是我們所說(shuō)的前沿AI模型,比如CPA、GEARS和scGPT。然而,考場(chǎng)里還坐著一個(gè)“搗蛋鬼”,他沒(méi)學(xué)過(guò)任何高深的理論,只用了一個(gè)最樸素的策略:把所有練習(xí)題的答案取一個(gè)平均值,然后用這個(gè)平均值去回答所有問(wèn)題。按照常理,這個(gè)“搗蛋鬼”應(yīng)該得零分才對(duì)。

然而,當(dāng)研究人員在一系列真實(shí)的基因擾動(dòng)預(yù)測(cè)任務(wù)中進(jìn)行這樣的“模擬考試”時(shí),一個(gè)令人匪夷所思的結(jié)果出現(xiàn)了。他們?cè)O(shè)計(jì)了兩個(gè)極其簡(jiǎn)單的基線模型(baselines)。第一個(gè)被稱為“擾動(dòng)均值”(perturbed mean),其策略正如那位“搗蛋鬼”——無(wú)論要預(yù)測(cè)哪個(gè)基因擾動(dòng)的結(jié)果,它都只給出一個(gè)答案:訓(xùn)練數(shù)據(jù)中所有被擾動(dòng)過(guò)的細(xì)胞的平均基因表達(dá)譜。第二個(gè)基線模型是“匹配均值”(matching mean),稍微復(fù)雜一點(diǎn),用于預(yù)測(cè)雙基因組合擾動(dòng),它會(huì)將兩個(gè)單基因擾動(dòng)的結(jié)果進(jìn)行平均。

研究人員在涵蓋了三種不同技術(shù)、五個(gè)細(xì)胞系的十個(gè)公開(kāi)數(shù)據(jù)集中,將這些簡(jiǎn)單的基線模型與那些先進(jìn)的深度學(xué)習(xí)模型進(jìn)行了正面交鋒。評(píng)估的標(biāo)準(zhǔn)是領(lǐng)域內(nèi)廣泛使用的“皮爾遜相關(guān)系數(shù)”(Pearson correlation),這個(gè)指標(biāo)衡量的是預(yù)測(cè)的基因表達(dá)變化與真實(shí)的實(shí)驗(yàn)結(jié)果之間的相似度,分?jǐn)?shù)越高代表預(yù)測(cè)越準(zhǔn)。

結(jié)果令人大跌眼鏡。在大多數(shù)情況下,那兩個(gè)簡(jiǎn)單的基線模型,尤其是“擾動(dòng)均值”模型,其表現(xiàn)不僅不差,甚至與那些復(fù)雜的AI模型不相上下,有時(shí)甚至更優(yōu)。以Adamson等人的數(shù)據(jù)集為例,在預(yù)測(cè)單個(gè)未知基因擾動(dòng)的任務(wù)中,“擾動(dòng)均值”基線模型取得了0.70的皮爾遜相關(guān)性分?jǐn)?shù)(在所有基因上計(jì)算),而精心設(shè)計(jì)的GEARS模型得分為0.65,scGPT模型(經(jīng)過(guò)微調(diào)后)得分為0.62。更令人震驚的是,CPA模型在此項(xiàng)任務(wù)上得分僅為0.02。在另一個(gè)名為Norman的數(shù)據(jù)集上,“擾動(dòng)均值”基線也以0.49的分?jǐn)?shù),與GEARS的0.41和scGPT的0.40分相比毫不遜色。

這一現(xiàn)象引出了一個(gè)尖銳的問(wèn)題:如果一個(gè)只需做初等數(shù)學(xué)平均運(yùn)算的“模型”就能取得和花費(fèi)巨大計(jì)算資源訓(xùn)練的深度學(xué)習(xí)模型相媲美的成績(jī),那么我們引以為傲的這些AI模型,究竟學(xué)到了什么?它們是真的理解了擾動(dòng)特定基因A會(huì)如何特異性地影響下游通路,還是它們僅僅捕捉到了一個(gè)更表層、更普遍的現(xiàn)象?這就像一個(gè)學(xué)生,雖然每次考試都得分很高,但我們不禁懷疑,他究竟是真正掌握了知識(shí),還是只是摸透了出題老師的套路?這個(gè)“高分之謎”背后,一定隱藏著一個(gè)被我們長(zhǎng)期忽視的關(guān)鍵因素。

撥開(kāi)迷霧:無(wú)處不在的“系統(tǒng)性變異”是真正的幕后推手

為了解開(kāi)這個(gè)謎團(tuán),研究人員提出了一個(gè)核心概念:“系統(tǒng)性變異”(systematic variation)。這個(gè)詞聽(tīng)起來(lái)有些抽象,但它的含義卻直指問(wèn)題的要害。所謂系統(tǒng)性變異,指的是在擾動(dòng)實(shí)驗(yàn)中,所有被擾動(dòng)過(guò)的細(xì)胞與正常的對(duì)照細(xì)胞(control cells)之間存在的、一種普遍的、一致性的轉(zhuǎn)錄差異。這種差異并非源于某個(gè)特定基因被擾動(dòng)后產(chǎn)生的獨(dú)特生物學(xué)效應(yīng),而是由一些更宏觀、更普遍的因素所驅(qū)動(dòng)。

這些因素可能來(lái)自多個(gè)層面。首先是實(shí)驗(yàn)設(shè)計(jì)的“選擇偏見(jiàn)”(selection biases)。例如,一個(gè)研究項(xiàng)目可能集中擾動(dòng)了一批功能相似的基因,比如都與“細(xì)胞周期”相關(guān)的基因。那么,無(wú)論你擾動(dòng)這個(gè)集合里的哪個(gè)基因,細(xì)胞很大概率都會(huì)表現(xiàn)出相似的細(xì)胞周期停滯現(xiàn)象。這樣一來(lái),“細(xì)胞周期停滯”就成了一種系統(tǒng)性變異。AI模型會(huì)發(fā)現(xiàn),只要預(yù)測(cè)“細(xì)胞周期停滯”,在大部分?jǐn)_動(dòng)上都能得分,它并不需要真正理解每個(gè)基因的獨(dú)特功能。

其次是無(wú)法測(cè)量的“混雜變量”(confounding variables)。細(xì)胞的狀態(tài)受到多種因素影響,如細(xì)胞所處的周期階段、染色質(zhì)的開(kāi)放狀態(tài)等。這些因素可能與基因擾動(dòng)產(chǎn)生復(fù)雜的相互作用,導(dǎo)致所有受擾細(xì)胞都呈現(xiàn)出一種共同的“被處理過(guò)”的印記。

最后,也是最常見(jiàn)的一種,是細(xì)胞面對(duì)外界干擾時(shí)產(chǎn)生的“通用應(yīng)激反應(yīng)”(general stress response);驍_動(dòng)對(duì)于細(xì)胞來(lái)說(shuō)是一種壓力,很多細(xì)胞會(huì)啟動(dòng)一套標(biāo)準(zhǔn)的應(yīng)激程序,比如熱休克反應(yīng)、DNA損傷修復(fù)或是細(xì)胞凋亡。這些反應(yīng)是廣譜的,而非特異性的,因此也構(gòu)成了系統(tǒng)性變異的一部分。

研究人員通過(guò)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分析,證實(shí)了系統(tǒng)性變異在現(xiàn)有數(shù)據(jù)集中普遍存在,并且能量化其強(qiáng)度。他們以常用的 Adamson 和 Norman 數(shù)據(jù)集為例進(jìn)行了深入剖析。在Norman數(shù)據(jù)集中,研究人員通過(guò)基因集富集分析(GSEA)發(fā)現(xiàn),與對(duì)照組相比,整個(gè)擾動(dòng)細(xì)胞群體在“對(duì)外界刺激的反應(yīng)”、“對(duì)化學(xué)壓力的反應(yīng)”以及“細(xì)胞死亡的正向調(diào)控”等多個(gè)通路上都表現(xiàn)出顯著的活性變化。這清晰地表明,這些細(xì)胞的反應(yīng)中包含了強(qiáng)烈的、非特異性的系統(tǒng)性信號(hào)。

而在規(guī)模更大的Replogle RPE1數(shù)據(jù)集中,系統(tǒng)性變異的證據(jù)更為直觀。分析顯示,在細(xì)胞周期分布上,擾動(dòng)組和對(duì)照組存在巨大差異。高達(dá)46%的擾動(dòng)細(xì)胞被“卡”在了G1期,而在對(duì)照組中這一比例僅為25%。這種大規(guī)模的細(xì)胞周期停滯,正是由p53陽(yáng)性的RPE1細(xì)胞在面對(duì)基因組不穩(wěn)定性時(shí)普遍產(chǎn)生的保護(hù)性反應(yīng)所驅(qū)動(dòng)的。這再次證明,一種強(qiáng)大的系統(tǒng)性效應(yīng)主導(dǎo)了細(xì)胞的反應(yīng)。

為了更系統(tǒng)地衡量這種效應(yīng),研究人員設(shè)計(jì)了一種巧妙的量化方法。他們將每個(gè)特定基因擾動(dòng)產(chǎn)生的表達(dá)變化向量與一個(gè)代表“平均擾動(dòng)效應(yīng)”的向量進(jìn)行比較,計(jì)算它們之間的余弦相似度。如果相似度高,說(shuō)明大多數(shù)特定擾動(dòng)的方向都和“大部隊(duì)”的平均方向差不多,即系統(tǒng)性變異程度高。分析結(jié)果顯示,不同的數(shù)據(jù)集系統(tǒng)性變異的程度差異很大,并且AI模型的預(yù)測(cè)性能與系統(tǒng)性變異強(qiáng)度呈現(xiàn)驚人的正相關(guān)關(guān)系(例如,GEARS模型得分與系統(tǒng)性變異的相關(guān)系數(shù)達(dá)到了0.95)。

至此,真相大白。AI模型之所以能取得高分,很大程度上不是因?yàn)樗鼈兙珳?zhǔn)地預(yù)測(cè)了每個(gè)基因擾動(dòng)的“個(gè)性”,而是因?yàn)樗鼈兠翡J地捕捉并復(fù)制了所有擾動(dòng)的“共性”——也就是系統(tǒng)性變異。傳統(tǒng)評(píng)估指標(biāo)就像一個(gè)有漏洞的考官,它把對(duì)“共性”的正確描述也計(jì)入了分?jǐn)?shù),導(dǎo)致了模型表現(xiàn)的嚴(yán)重虛高。我們以為我們正在評(píng)估模型解決具體生物學(xué)問(wèn)題的能力,但實(shí)際上,我們只是在獎(jiǎng)勵(lì)它們識(shí)別并重復(fù)這種普遍存在的背景信號(hào)的能力。這件“皇帝的新衣”必須被揭穿。

重鑄標(biāo)尺:從“絕對(duì)坐標(biāo)”到“相對(duì)坐標(biāo)”的巧妙一躍

發(fā)現(xiàn)了問(wèn)題的根源,接下來(lái)就需要一把能夠修正偏差的“新標(biāo)尺”。研究人員為此開(kāi)發(fā)了“Systema”框架,其核心思想在于一個(gè)巧妙的轉(zhuǎn)變:改變?cè)u(píng)估的參考點(diǎn)(reference point)

傳統(tǒng)的評(píng)估方法,是將預(yù)測(cè)的擾動(dòng)后細(xì)胞狀態(tài)與“對(duì)照細(xì)胞”狀態(tài)進(jìn)行比較。這就像在一個(gè)城市里,我們用市政廳(對(duì)照細(xì)胞)作為唯一的參照物,來(lái)描述每個(gè)市民(擾動(dòng)細(xì)胞)的位置。在這種“絕對(duì)坐標(biāo)系”中,如果所有市民都因?yàn)槟硞(gè)全市范圍的活動(dòng)(系統(tǒng)性變異)而集體向東移動(dòng)了一公里,那么每個(gè)市民的坐標(biāo)都會(huì)發(fā)生巨大變化。一個(gè)模型只要能預(yù)測(cè)出“大家都會(huì)向東移動(dòng)”,就能獲得高分。

Systema框架則提出了一種“相對(duì)坐標(biāo)系”的評(píng)估方法。它不再以“對(duì)照細(xì)胞”為參照,而是引入了一個(gè)新的參照點(diǎn)——“擾動(dòng)質(zhì)心”(perturbed centroid),也就是所有被擾動(dòng)細(xì)胞群體的平均狀態(tài),F(xiàn)在,我們?cè)u(píng)估一個(gè)模型對(duì)特定基因擾動(dòng)的預(yù)測(cè)是否準(zhǔn)確,是看這個(gè)預(yù)測(cè)結(jié)果與真實(shí)的擾動(dòng)狀態(tài)之間的差異,而這一切都是相對(duì)于“所有其他擾動(dòng)細(xì)胞的平均狀態(tài)”來(lái)進(jìn)行的。

回到剛才的城市比喻,這相當(dāng)于我們不再以市政廳為參照,而是以“所有市民的平均位置”作為新的參照中心,F(xiàn)在,要描述張三的獨(dú)特位置,我們看的是他相對(duì)于“大家平均位置”的那個(gè)獨(dú)特偏移量。那個(gè)集體向東移動(dòng)一公里的系統(tǒng)性效應(yīng),在這個(gè)新的坐標(biāo)系里被完美地“抵消”了。通過(guò)這種方式,我們只關(guān)注每個(gè)擾動(dòng)相對(duì)于“平均擾動(dòng)”的“特異性效應(yīng)”(perturbation-specific effects)

這個(gè)看似簡(jiǎn)單的參考點(diǎn)變換,卻如同煉金術(shù)中的點(diǎn)金石,瞬間改變了整個(gè)評(píng)估格局。研究人員使用Systema框架重新評(píng)估了所有模型在同樣十個(gè)數(shù)據(jù)集上的表現(xiàn)。結(jié)果是顛覆性的。之前的高分瞬間蒸發(fā),性能得分大幅跳水。在新的評(píng)估體系下,大多數(shù)模型的皮爾遜相關(guān)系數(shù)都在零值附近徘徊。例如,在Adamson數(shù)據(jù)集上,之前表現(xiàn)優(yōu)異的scGPT模型,分?jǐn)?shù)從0.79驟降至0.16。而那個(gè)曾經(jīng)的“優(yōu)等生”——“擾動(dòng)均值”基線模型,得分更是直接歸零。

Systema框架的分析有力地證明,當(dāng)前的基因擾動(dòng)預(yù)測(cè)任務(wù)比我們普遍認(rèn)為的要困難得多。它像一面“照妖鏡”,讓模型的真實(shí)能力無(wú)所遁形。那些由系統(tǒng)性變異支撐起來(lái)的虛高分?jǐn)?shù)被徹底剝離,露出了骨感的現(xiàn)實(shí):我們距離真正理解并預(yù)測(cè)基因擾動(dòng)的特異性生物學(xué)后果,還有很長(zhǎng)的路要走。但這并非絕望的終點(diǎn),恰恰是一個(gè)更誠(chéng)實(shí)、也更有希望的起點(diǎn)。

廢墟上的曙光:AI預(yù)測(cè)并非一無(wú)是處,它能看見(jiàn)什么?

在Systema框架的嚴(yán)苛審視下,看似一片狼藉,但研究人員并沒(méi)有止步于批判。他們進(jìn)一步追問(wèn):在剝離了系統(tǒng)性變異的幻象后,最優(yōu)秀的AI模型是否還保留了任何有價(jià)值的生物學(xué)洞察力?答案是,并非如此。AI的預(yù)測(cè)能力雖然被大大高估,但并非一無(wú)是處。

為了探索這一點(diǎn),研究人員在Systema框架中引入了一個(gè)更直觀、更貼近生物學(xué)應(yīng)用的評(píng)估指標(biāo)——“質(zhì)心準(zhǔn)確率”(centroid accuracy)。這個(gè)指標(biāo)不再糾結(jié)于基因表達(dá)譜的精確數(shù)值匹配,而是提出了一個(gè)更實(shí)際的問(wèn)題:對(duì)于一個(gè)給定的基因擾動(dòng),模型的預(yù)測(cè)結(jié)果在“基因表達(dá)空間”中,是離它自己的真實(shí)位置更近,還是離其他不相關(guān)擾動(dòng)的真實(shí)位置更近?

這個(gè)巧妙的指標(biāo),旨在評(píng)估模型是否能捕捉到擾動(dòng)的“粗粒度”(coarse-grained)效應(yīng),即便它無(wú)法描繪出每一個(gè)細(xì)節(jié)。測(cè)試結(jié)果帶來(lái)了一線希望。雖然大多數(shù)模型的質(zhì)心準(zhǔn)確率僅僅略高于簡(jiǎn)單的基線模型,但經(jīng)過(guò)大規(guī)模單細(xì)胞圖譜預(yù)訓(xùn)練并進(jìn)行微調(diào)的scGPT模型,展現(xiàn)出了明顯的優(yōu)勢(shì)。

特別是在Replogle K562這個(gè)全基因組規(guī)模的數(shù)據(jù)集上,scGPT模型尤其擅長(zhǎng)預(yù)測(cè)那些參與核心細(xì)胞過(guò)程、功能上高度相關(guān)的基因群組的擾動(dòng)效應(yīng),例如核糖體蛋白編碼基因。這表明,雖然精確預(yù)測(cè)單個(gè)基因的微小影響極為困難,但最先進(jìn)的模型已經(jīng)開(kāi)始有能力理解和預(yù)測(cè)由功能相關(guān)的基因群組所介導(dǎo)的、更大尺度上的生物學(xué)事件。

為了將這一想法推向極致,研究人員設(shè)計(jì)了最終的、也是最具挑戰(zhàn)性的測(cè)試。他們利用Replogle K562數(shù)據(jù)集中的標(biāo)注信息,考驗(yàn)?zāi)P褪欠衲茴A(yù)測(cè)一個(gè)復(fù)雜的細(xì)胞表型——染色體不穩(wěn)定性(Chromosomal Instability, CIN)。在這場(chǎng)終極考驗(yàn)中,幾乎所有模型都失敗了。然而,只有那個(gè)經(jīng)過(guò)微調(diào)的scGPT模型,再次脫穎而出。它的預(yù)測(cè)結(jié)果顯著優(yōu)于偶然,其受試者工作特征曲線下面積(AUC)達(dá)到了0.73。雖然這個(gè)分?jǐn)?shù)離完美還很遠(yuǎn),但它清晰地表明,該模型已經(jīng)能夠從基因表達(dá)的細(xì)微變化中,部分地“解讀”出關(guān)于染色體穩(wěn)定狀態(tài)的宏觀信息。

這項(xiàng)工作,從揭示“皇帝的新衣”開(kāi)始,最終在看似一片廢墟的景象中,為我們指出了真正的曙光所在。追求對(duì)基因表達(dá)譜的像素級(jí)完美預(yù)測(cè),可能在當(dāng)前階段是一個(gè)過(guò)于苛刻且容易被系統(tǒng)性變異誤導(dǎo)的目標(biāo)。然而,將AI模型的預(yù)測(cè)作為一種工具,去理解和推斷那些由擾動(dòng)引發(fā)的、更高層次的、粗粒度的生物學(xué)功能和細(xì)胞表型,是一條充滿希望且切實(shí)可行的道路。Systema框架的誕生,不僅僅是對(duì)現(xiàn)有評(píng)估方法的修正,更是對(duì)整個(gè)研究領(lǐng)域的一次深刻反思,它為我們照亮了通往生命真相的、更堅(jiān)實(shí)的道路。

  

發(fā)布者:上,|馳儀器有限公司
聯(lián)系電話:18521301252
E-mail:xiaojing.su@weichilab.com

用戶名: 密碼: 匿名 快速注冊(cè) 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2026 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com