當(dāng)前位置 > 首頁(yè) > 技術(shù)文章 > Nature| 為AI擠水分：新框架誕生，揭示基因擾動(dòng)預(yù)測(cè)的真實(shí)難度

選型 | 市場(chǎng) | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

Nature| 為AI擠水分：新框架誕生，揭示基因擾動(dòng)預(yù)測(cè)的真實(shí)難度

瀏覽次數(shù)：44　發(fā)布日期：2025-8-28　來(lái)源：生物探索

文章來(lái)源公眾號(hào)：生物探索作者：游離的DNA

引言

生命科學(xué)的疆域正在以前所未有的速度擴(kuò)張，而在這場(chǎng)探索的浪潮之巔，“基因編輯”無(wú)疑是最耀眼的燈塔之一。CRISPR技術(shù)的出現(xiàn)，讓我們?nèi)缤瑩碛辛艘恢軌蚓_改寫(xiě)生命密碼的“筆”，可以關(guān)閉、開(kāi)啟甚至修復(fù)特定的基因。這項(xiàng)能力為我們揭示基因功能、理解疾病機(jī)理、開(kāi)發(fā)新療法打開(kāi)了無(wú)限可能。然而，一個(gè)巨大的挑戰(zhàn)橫亙?cè)谖覀兠媲埃杭?xì)胞內(nèi)有數(shù)萬(wàn)個(gè)基因，它們交織成一張復(fù)雜得令人難以想象的調(diào)控網(wǎng)絡(luò)。如果我們擾動(dòng)(perturbation)其中一個(gè)或幾個(gè)基因，細(xì)胞的“內(nèi)心世界”，也就是它的基因表達(dá)譜(transcriptional responses)，會(huì)發(fā)生怎樣的連鎖反應(yīng)？

這是一個(gè)組合爆炸的難題。窮盡所有可能的基因組合擾動(dòng)并進(jìn)行實(shí)驗(yàn)，無(wú)異于想在地球上數(shù)清每一粒沙子。于是，研究人員將希望寄托于人工智能(Artificial Intelligence, AI)，特別是深度學(xué)習(xí)模型。我們能否訓(xùn)練一個(gè)“AI神算子”，讓它學(xué)習(xí)已有實(shí)驗(yàn)數(shù)據(jù)中的規(guī)律，然后精準(zhǔn)預(yù)測(cè)那些我們從未做過(guò)的基因擾動(dòng)會(huì)帶來(lái)什么樣的后果？近年來(lái)，諸如GEARS、scGPT等一系列復(fù)雜的模型應(yīng)運(yùn)而生，它們?cè)诟黜?xiàng)評(píng)估指標(biāo)上取得了令人矚目的高分，似乎預(yù)示著一個(gè)“計(jì)算預(yù)測(cè)取代繁瑣實(shí)驗(yàn)”的新時(shí)代即將來(lái)臨。

但事實(shí)果真如此嗎？這些看似強(qiáng)大的AI模型，是真的洞悉了基因擾動(dòng)背后的生物學(xué)邏輯，還是僅僅學(xué)會(huì)了某種應(yīng)試技巧，穿上了一件名為“高分”的皇帝新衣？8月25日，《Nature Biotechnology》的研究報(bào)道“Systema: a framework for evaluating genetic perturbation response prediction beyond systematic variation”，為我們揭示了這光鮮成績(jī)背后的驚人真相，并鍛造了一面名為“Systema”的“照妖鏡”。這項(xiàng)工作不僅深刻地指出了當(dāng)前領(lǐng)域內(nèi)評(píng)估體系的“系統(tǒng)性”缺陷，更提供了一套全新的、更為嚴(yán)苛也更為公正的評(píng)判標(biāo)準(zhǔn)，引導(dǎo)我們走向真正有意義的生物學(xué)預(yù)測(cè)。

高分之謎：為何最簡(jiǎn)單的模型也能名列前茅？

想象一場(chǎng)極端重要的考試，考題旨在檢驗(yàn)學(xué)生對(duì)復(fù)雜物理定律的理解�？紙�(chǎng)上，有幾位“優(yōu)等生”，他們學(xué)習(xí)了海量的資料，構(gòu)建了復(fù)雜的知識(shí)框架，他們就是我們所說(shuō)的前沿AI模型，比如CPA、GEARS和scGPT。然而，考場(chǎng)里還坐著一個(gè)“搗蛋鬼”，他沒(méi)學(xué)過(guò)任何高深的理論，只用了一個(gè)最樸素的策略：把所有練習(xí)題的答案取一個(gè)平均值，然后用這個(gè)平均值去回答所有問(wèn)題。按照常理，這個(gè)“搗蛋鬼”應(yīng)該得零分才對(duì)。

然而，當(dāng)研究人員在一系列真實(shí)的基因擾動(dòng)預(yù)測(cè)任務(wù)中進(jìn)行這樣的“模擬考試”時(shí)，一個(gè)令人匪夷所思的結(jié)果出現(xiàn)了。他們?cè)O(shè)計(jì)了兩個(gè)極其簡(jiǎn)單的基線模型(baselines)。第一個(gè)被稱為“擾動(dòng)均值”(perturbed mean)，其策略正如那位“搗蛋鬼”——無(wú)論要預(yù)測(cè)哪個(gè)基因擾動(dòng)的結(jié)果，它都只給出一個(gè)答案：訓(xùn)練數(shù)據(jù)中所有被擾動(dòng)過(guò)的細(xì)胞的平均基因表達(dá)譜。第二個(gè)基線模型是“匹配均值”(matching mean)，稍微復(fù)雜一點(diǎn)，用于預(yù)測(cè)雙基因組合擾動(dòng)，它會(huì)將兩個(gè)單基因擾動(dòng)的結(jié)果進(jìn)行平均。

研究人員在涵蓋了三種不同技術(shù)、五個(gè)細(xì)胞系的十個(gè)公開(kāi)數(shù)據(jù)集中，將這些簡(jiǎn)單的基線模型與那些先進(jìn)的深度學(xué)習(xí)模型進(jìn)行了正面交鋒。評(píng)估的標(biāo)準(zhǔn)是領(lǐng)域內(nèi)廣泛使用的“皮爾遜相關(guān)系數(shù)”(Pearson correlation)，這個(gè)指標(biāo)衡量的是預(yù)測(cè)的基因表達(dá)變化與真實(shí)的實(shí)驗(yàn)結(jié)果之間的相似度，分?jǐn)?shù)越高代表預(yù)測(cè)越準(zhǔn)。

結(jié)果令人大跌眼鏡。在大多數(shù)情況下，那兩個(gè)簡(jiǎn)單的基線模型，尤其是“擾動(dòng)均值”模型，其表現(xiàn)不僅不差，甚至與那些復(fù)雜的AI模型不相上下，有時(shí)甚至更優(yōu)。以Adamson等人的數(shù)據(jù)集為例，在預(yù)測(cè)單個(gè)未知基因擾動(dòng)的任務(wù)中，“擾動(dòng)均值”基線模型取得了0.70的皮爾遜相關(guān)性分?jǐn)?shù)（在所有基因上計(jì)算），而精心設(shè)計(jì)的GEARS模型得分為0.65，scGPT模型（經(jīng)過(guò)微調(diào)后）得分為0.62。更令人震驚的是，CPA模型在此項(xiàng)任務(wù)上得分僅為0.02。在另一個(gè)名為Norman的數(shù)據(jù)集上，“擾動(dòng)均值”基線也以0.49的分?jǐn)?shù)，與GEARS的0.41和scGPT的0.40分相比毫不遜色。

這一現(xiàn)象引出了一個(gè)尖銳的問(wèn)題：如果一個(gè)只需做初等數(shù)學(xué)平均運(yùn)算的“模型”就能取得和花費(fèi)巨大計(jì)算資源訓(xùn)練的深度學(xué)習(xí)模型相媲美的成績(jī)，那么我們引以為傲的這些AI模型，究竟學(xué)到了什么？它們是真的理解了擾動(dòng)特定基因A會(huì)如何特異性地影響下游通路，還是它們僅僅捕捉到了一個(gè)更表層、更普遍的現(xiàn)象？這就像一個(gè)學(xué)生，雖然每次考試都得分很高，但我們不禁懷疑，他究竟是真正掌握了知識(shí)，還是只是摸透了出題老師的套路？這個(gè)“高分之謎”背后，一定隱藏著一個(gè)被我們長(zhǎng)期忽視的關(guān)鍵因素。

撥開(kāi)迷霧：無(wú)處不在的“系統(tǒng)性變異”是真正的幕后推手

為了解開(kāi)這個(gè)謎團(tuán)，研究人員提出了一個(gè)核心概念：“系統(tǒng)性變異”(systematic variation)。這個(gè)詞聽(tīng)起來(lái)有些抽象，但它的含義卻直指問(wèn)題的要害。所謂系統(tǒng)性變異，指的是在擾動(dòng)實(shí)驗(yàn)中，所有被擾動(dòng)過(guò)的細(xì)胞與正常的對(duì)照細(xì)胞(control cells)之間存在的、一種普遍的、一致性的轉(zhuǎn)錄差異。這種差異并非源于某個(gè)特定基因被擾動(dòng)后產(chǎn)生的獨(dú)特生物學(xué)效應(yīng)，而是由一些更宏觀、更普遍的因素所驅(qū)動(dòng)。

這些因素可能來(lái)自多個(gè)層面。首先是實(shí)驗(yàn)設(shè)計(jì)的“選擇偏見(jiàn)”(selection biases)。例如，一個(gè)研究項(xiàng)目可能集中擾動(dòng)了一批功能相似的基因，比如都與“細(xì)胞周期”相關(guān)的基因。那么，無(wú)論你擾動(dòng)這個(gè)集合里的哪個(gè)基因，細(xì)胞很大概率都會(huì)表現(xiàn)出相似的細(xì)胞周期停滯現(xiàn)象。這樣一來(lái)，“細(xì)胞周期停滯”就成了一種系統(tǒng)性變異。AI模型會(huì)發(fā)現(xiàn)，只要預(yù)測(cè)“細(xì)胞周期停滯”，在大部分?jǐn)_動(dòng)上都能得分，它并不需要真正理解每個(gè)基因的獨(dú)特功能。

其次是無(wú)法測(cè)量的“混雜變量”(confounding variables)。細(xì)胞的狀態(tài)受到多種因素影響，如細(xì)胞所處的周期階段、染色質(zhì)的開(kāi)放狀態(tài)等。這些因素可能與基因擾動(dòng)產(chǎn)生復(fù)雜的相互作用，導(dǎo)致所有受擾細(xì)胞都呈現(xiàn)出一種共同的“被處理過(guò)”的印記。

最后，也是最常見(jiàn)的一種，是細(xì)胞面對(duì)外界干擾時(shí)產(chǎn)生的“通用應(yīng)激反應(yīng)”(general stress response)�；驍_動(dòng)對(duì)于細(xì)胞來(lái)說(shuō)是一種壓力，很多細(xì)胞會(huì)啟動(dòng)一套標(biāo)準(zhǔn)的應(yīng)激程序，比如熱休克反應(yīng)、DNA損傷修復(fù)或是細(xì)胞凋亡。這些反應(yīng)是廣譜的，而非特異性的，因此也構(gòu)成了系統(tǒng)性變異的一部分。

研究人員通過(guò)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分析，證實(shí)了系統(tǒng)性變異在現(xiàn)有數(shù)據(jù)集中普遍存在，并且能量化其強(qiáng)度。他們以常用的 Adamson 和 Norman 數(shù)據(jù)集為例進(jìn)行了深入剖析。在Norman數(shù)據(jù)集中，研究人員通過(guò)基因集富集分析(GSEA)發(fā)現(xiàn)，與對(duì)照組相比，整個(gè)擾動(dòng)細(xì)胞群體在“對(duì)外界刺激的反應(yīng)”、“對(duì)化學(xué)壓力的反應(yīng)”以及“細(xì)胞死亡的正向調(diào)控”等多個(gè)通路上都表現(xiàn)出顯著的活性變化。這清晰地表明，這些細(xì)胞的反應(yīng)中包含了強(qiáng)烈的、非特異性的系統(tǒng)性信號(hào)。

而在規(guī)模更大的Replogle RPE1數(shù)據(jù)集中，系統(tǒng)性變異的證據(jù)更為直觀。分析顯示，在細(xì)胞周期分布上，擾動(dòng)組和對(duì)照組存在巨大差異。高達(dá)46%的擾動(dòng)細(xì)胞被“卡”在了G1期，而在對(duì)照組中這一比例僅為25%。這種大規(guī)模的細(xì)胞周期停滯，正是由p53陽(yáng)性的RPE1細(xì)胞在面對(duì)基因組不穩(wěn)定性時(shí)普遍產(chǎn)生的保護(hù)性反應(yīng)所驅(qū)動(dòng)的。這再次證明，一種強(qiáng)大的系統(tǒng)性效應(yīng)主導(dǎo)了細(xì)胞的反應(yīng)。

為了更系統(tǒng)地衡量這種效應(yīng)，研究人員設(shè)計(jì)了一種巧妙的量化方法。他們將每個(gè)特定基因擾動(dòng)產(chǎn)生的表達(dá)變化向量與一個(gè)代表“平均擾動(dòng)效應(yīng)”的向量進(jìn)行比較，計(jì)算它們之間的余弦相似度。如果相似度高，說(shuō)明大多數(shù)特定擾動(dòng)的方向都和“大部隊(duì)”的平均方向差不多，即系統(tǒng)性變異程度高。分析結(jié)果顯示，不同的數(shù)據(jù)集系統(tǒng)性變異的程度差異很大，并且AI模型的預(yù)測(cè)性能與系統(tǒng)性變異強(qiáng)度呈現(xiàn)驚人的正相關(guān)關(guān)系（例如，GEARS模型得分與系統(tǒng)性變異的相關(guān)系數(shù)達(dá)到了0.95）。

至此，真相大白。AI模型之所以能取得高分，很大程度上不是因?yàn)樗鼈兙珳?zhǔn)地預(yù)測(cè)了每個(gè)基因擾動(dòng)的“個(gè)性”，而是因?yàn)樗鼈兠翡J地捕捉并復(fù)制了所有擾動(dòng)的“共性”——也就是系統(tǒng)性變異。傳統(tǒng)評(píng)估指標(biāo)就像一個(gè)有漏洞的考官，它把對(duì)“共性”的正確描述也計(jì)入了分?jǐn)?shù)，導(dǎo)致了模型表現(xiàn)的嚴(yán)重虛高。我們以為我們正在評(píng)估模型解決具體生物學(xué)問(wèn)題的能力，但實(shí)際上，我們只是在獎(jiǎng)勵(lì)它們識(shí)別并重復(fù)這種普遍存在的背景信號(hào)的能力。這件“皇帝的新衣”必須被揭穿。

重鑄標(biāo)尺：從“絕對(duì)坐標(biāo)”到“相對(duì)坐標(biāo)”的巧妙一躍

發(fā)現(xiàn)了問(wèn)題的根源，接下來(lái)就需要一把能夠修正偏差的“新標(biāo)尺”。研究人員為此開(kāi)發(fā)了“Systema”框架，其核心思想在于一個(gè)巧妙的轉(zhuǎn)變：改變?cè)u(píng)估的參考點(diǎn)(reference point)。

傳統(tǒng)的評(píng)估方法，是將預(yù)測(cè)的擾動(dòng)后細(xì)胞狀態(tài)與“對(duì)照細(xì)胞”狀態(tài)進(jìn)行比較。這就像在一個(gè)城市里，我們用市政廳（對(duì)照細(xì)胞）作為唯一的參照物，來(lái)描述每個(gè)市民（擾動(dòng)細(xì)胞）的位置。在這種“絕對(duì)坐標(biāo)系”中，如果所有市民都因?yàn)槟硞€(gè)全市范圍的活動(dòng)（系統(tǒng)性變異）而集體向東移動(dòng)了一公里，那么每個(gè)市民的坐標(biāo)都會(huì)發(fā)生巨大變化。一個(gè)模型只要能預(yù)測(cè)出“大家都會(huì)向東移動(dòng)”，就能獲得高分。

Systema框架則提出了一種“相對(duì)坐標(biāo)系”的評(píng)估方法。它不再以“對(duì)照細(xì)胞”為參照，而是引入了一個(gè)新的參照點(diǎn)——“擾動(dòng)質(zhì)心”(perturbed centroid)，也就是所有被擾動(dòng)細(xì)胞群體的平均狀態(tài)�，F(xiàn)在，我們?cè)u(píng)估一個(gè)模型對(duì)特定基因擾動(dòng)的預(yù)測(cè)是否準(zhǔn)確，是看這個(gè)預(yù)測(cè)結(jié)果與真實(shí)的擾動(dòng)狀態(tài)之間的差異，而這一切都是相對(duì)于“所有其他擾動(dòng)細(xì)胞的平均狀態(tài)”來(lái)進(jìn)行的。

回到剛才的城市比喻，這相當(dāng)于我們不再以市政廳為參照，而是以“所有市民的平均位置”作為新的參照中心�，F(xiàn)在，要描述張三的獨(dú)特位置，我們看的是他相對(duì)于“大家平均位置”的那個(gè)獨(dú)特偏移量。那個(gè)集體向東移動(dòng)一公里的系統(tǒng)性效應(yīng)，在這個(gè)新的坐標(biāo)系里被完美地“抵消”了。通過(guò)這種方式，我們只關(guān)注每個(gè)擾動(dòng)相對(duì)于“平均擾動(dòng)”的“特異性效應(yīng)”(perturbation-specific effects)。

這個(gè)看似簡(jiǎn)單的參考點(diǎn)變換，卻如同煉金術(shù)中的點(diǎn)金石，瞬間改變了整個(gè)評(píng)估格局。研究人員使用Systema框架重新評(píng)估了所有模型在同樣十個(gè)數(shù)據(jù)集上的表現(xiàn)。結(jié)果是顛覆性的。之前的高分瞬間蒸發(fā)，性能得分大幅跳水。在新的評(píng)估體系下，大多數(shù)模型的皮爾遜相關(guān)系數(shù)都在零值附近徘徊。例如，在Adamson數(shù)據(jù)集上，之前表現(xiàn)優(yōu)異的scGPT模型，分?jǐn)?shù)從0.79驟降至0.16。而那個(gè)曾經(jīng)的“優(yōu)等生”——“擾動(dòng)均值”基線模型，得分更是直接歸零。

Systema框架的分析有力地證明，當(dāng)前的基因擾動(dòng)預(yù)測(cè)任務(wù)比我們普遍認(rèn)為的要困難得多。它像一面“照妖鏡”，讓模型的真實(shí)能力無(wú)所遁形。那些由系統(tǒng)性變異支撐起來(lái)的虛高分?jǐn)?shù)被徹底剝離，露出了骨感的現(xiàn)實(shí)：我們距離真正理解并預(yù)測(cè)基因擾動(dòng)的特異性生物學(xué)后果，還有很長(zhǎng)的路要走。但這并非絕望的終點(diǎn)，恰恰是一個(gè)更誠(chéng)實(shí)、也更有希望的起點(diǎn)。

廢墟上的曙光：AI預(yù)測(cè)并非一無(wú)是處，它能看見(jiàn)什么？

在Systema框架的嚴(yán)苛審視下，看似一片狼藉，但研究人員并沒(méi)有止步于批判。他們進(jìn)一步追問(wèn)：在剝離了系統(tǒng)性變異的幻象后，最優(yōu)秀的AI模型是否還保留了任何有價(jià)值的生物學(xué)洞察力？答案是，并非如此。AI的預(yù)測(cè)能力雖然被大大高估，但并非一無(wú)是處。

為了探索這一點(diǎn)，研究人員在Systema框架中引入了一個(gè)更直觀、更貼近生物學(xué)應(yīng)用的評(píng)估指標(biāo)——“質(zhì)心準(zhǔn)確率”(centroid accuracy)。這個(gè)指標(biāo)不再糾結(jié)于基因表達(dá)譜的精確數(shù)值匹配，而是提出了一個(gè)更實(shí)際的問(wèn)題：對(duì)于一個(gè)給定的基因擾動(dòng)，模型的預(yù)測(cè)結(jié)果在“基因表達(dá)空間”中，是離它自己的真實(shí)位置更近，還是離其他不相關(guān)擾動(dòng)的真實(shí)位置更近？

這個(gè)巧妙的指標(biāo)，旨在評(píng)估模型是否能捕捉到擾動(dòng)的“粗粒度”(coarse-grained)效應(yīng)，即便它無(wú)法描繪出每一個(gè)細(xì)節(jié)。測(cè)試結(jié)果帶來(lái)了一線希望。雖然大多數(shù)模型的質(zhì)心準(zhǔn)確率僅僅略高于簡(jiǎn)單的基線模型，但經(jīng)過(guò)大規(guī)模單細(xì)胞圖譜預(yù)訓(xùn)練并進(jìn)行微調(diào)的scGPT模型，展現(xiàn)出了明顯的優(yōu)勢(shì)。

特別是在Replogle K562這個(gè)全基因組規(guī)模的數(shù)據(jù)集上，scGPT模型尤其擅長(zhǎng)預(yù)測(cè)那些參與核心細(xì)胞過(guò)程、功能上高度相關(guān)的基因群組的擾動(dòng)效應(yīng)，例如核糖體蛋白編碼基因。這表明，雖然精確預(yù)測(cè)單個(gè)基因的微小影響極為困難，但最先進(jìn)的模型已經(jīng)開(kāi)始有能力理解和預(yù)測(cè)由功能相關(guān)的基因群組所介導(dǎo)的、更大尺度上的生物學(xué)事件。

為了將這一想法推向極致，研究人員設(shè)計(jì)了最終的、也是最具挑戰(zhàn)性的測(cè)試。他們利用Replogle K562數(shù)據(jù)集中的標(biāo)注信息，考驗(yàn)?zāi)Ｐ褪欠衲茴A(yù)測(cè)一個(gè)復(fù)雜的細(xì)胞表型——染色體不穩(wěn)定性(Chromosomal Instability, CIN)。在這場(chǎng)終極考驗(yàn)中，幾乎所有模型都失敗了。然而，只有那個(gè)經(jīng)過(guò)微調(diào)的scGPT模型，再次脫穎而出。它的預(yù)測(cè)結(jié)果顯著優(yōu)于偶然，其受試者工作特征曲線下面積(AUC)達(dá)到了0.73。雖然這個(gè)分?jǐn)?shù)離完美還很遠(yuǎn)，但它清晰地表明，該模型已經(jīng)能夠從基因表達(dá)的細(xì)微變化中，部分地“解讀”出關(guān)于染色體穩(wěn)定狀態(tài)的宏觀信息。

這項(xiàng)工作，從揭示“皇帝的新衣”開(kāi)始，最終在看似一片廢墟的景象中，為我們指出了真正的曙光所在。追求對(duì)基因表達(dá)譜的像素級(jí)完美預(yù)測(cè)，可能在當(dāng)前階段是一個(gè)過(guò)于苛刻且容易被系統(tǒng)性變異誤導(dǎo)的目標(biāo)。然而，將AI模型的預(yù)測(cè)作為一種工具，去理解和推斷那些由擾動(dòng)引發(fā)的、更高層次的、粗粒度的生物學(xué)功能和細(xì)胞表型，是一條充滿希望且切實(shí)可行的道路。Systema框架的誕生，不僅僅是對(duì)現(xiàn)有評(píng)估方法的修正，更是對(duì)整個(gè)研究領(lǐng)域的一次深刻反思，它為我們照亮了通往生命真相的、更堅(jiān)實(shí)的道路。

發(fā)布者：上�，|馳儀器有限公司
聯(lián)系電話：18521301252
E-mail：xiaojing.su@weichilab.com

【點(diǎn)擊可查看上�，|馳儀器有限公司相關(guān)產(chǎn)品】

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞

INTEGRA發(fā)布移液器視頻教程助力改善實(shí)驗(yàn)室體驗(yàn)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

狠狠爱天天综合色欲网

欧美亚洲国产一区二区三区五月丁香婷婷综合网久久99热只有频精品6狠狠国产尤物在线观看

Nature| 為AI擠水分：新框架誕生，揭示基因擾動(dòng)預(yù)測(cè)的真實(shí)難度

Nature| 為AI擠水分：新框架誕生，揭示基因擾動(dòng)預(yù)測(cè)的真實(shí)難度