2026年2月18日,上海交通大學(xué)人工智能學(xué)院與上海人工智能實(shí)驗(yàn)室的謝偉迪,上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院的孫錕、余永國(guó),以及上海交通大學(xué)人工智能學(xué)院與上海人工智能實(shí)驗(yàn)室的張婭,作為共同通訊作者,于國(guó)際頂級(jí)學(xué)術(shù)期刊《Nature》發(fā)表了題為《An agentic system for rare disease diagnosis withtraceablereasoning》研究論文。該研究成功開發(fā)出全球首個(gè)針對(duì)罕見病的AI智能體循證推理診斷系統(tǒng)——DeepRare,在罕見病診斷的精準(zhǔn)度方面,首次超越了擁有十年以上臨床經(jīng)驗(yàn)的專家。此項(xiàng)成果不僅推動(dòng)了罕見病診斷技術(shù)的進(jìn)步,為全球三億罕見病患者帶來了實(shí)質(zhì)性的希望,更是人工智能在醫(yī)療領(lǐng)域應(yīng)用的一個(gè)重要里程碑,彰顯了大語(yǔ)言模型驅(qū)動(dòng)的AI智能體系統(tǒng)如何對(duì)當(dāng)前臨床工作流程進(jìn)行革新性重塑。
次日,即2月19日,謝偉迪、王延峰、孫錕、張婭再次作為共同通訊作者,在《Cancer Cell》期刊上發(fā)表了題為《Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis》的研究論文。
該研究創(chuàng)新性地開發(fā)了一種知識(shí)增強(qiáng)型視覺語(yǔ)言病理基礎(chǔ)模型——KEEP,專用于癌癥診斷領(lǐng)域。其性能表現(xiàn)卓越,超越了現(xiàn)有基礎(chǔ)模型,特別是在罕見癌癥亞型的診斷上展現(xiàn)出顯著優(yōu)勢(shì)。此項(xiàng)研究確立了知識(shí)增強(qiáng)型視覺語(yǔ)言建模作為推動(dòng)計(jì)算病理學(xué)發(fā)展的強(qiáng)大方法范式。
在臨床癌癥診斷中,病理學(xué)診斷始終占據(jù)著金標(biāo)準(zhǔn)的地位。過去十年間,計(jì)算機(jī)視覺領(lǐng)域深度學(xué)習(xí)技術(shù)的飛速進(jìn)步,極大地促進(jìn)了計(jì)算病理學(xué)的發(fā)展,催生了一系列基于全監(jiān)督或弱監(jiān)督的專門模型。盡管這些方法前景廣闊,但它們往往受限于高昂的標(biāo)注成本、稀疏的標(biāo)注數(shù)據(jù),以及在不同數(shù)據(jù)集上的泛化能力有限。為解決這些難題,自監(jiān)督學(xué)習(xí)(SSL)策略應(yīng)運(yùn)而生,作為一種前景廣闊的替代方案,它允許模型在大量未標(biāo)注的病理圖像上進(jìn)行預(yù)訓(xùn)練,進(jìn)而作為一系列下游任務(wù)的通用特征提取器。然而,僅基于視覺的SSL模型仍需在多樣化的標(biāo)注數(shù)據(jù)集上針對(duì)特定任務(wù)進(jìn)行微調(diào),這限制了其在標(biāo)注數(shù)據(jù)稀缺場(chǎng)景下的可擴(kuò)展性,特別是在罕見癌癥亞型分類任務(wù)中。
近期,視覺語(yǔ)言模型(Vision-Language Model, VLM)的興起為計(jì)算病理學(xué)開辟了新路徑,為癌癥診斷提供了全新視角。通過聯(lián)合利用視覺和文本數(shù)據(jù),視覺語(yǔ)言模型將自由文本描述作為病理圖像表示學(xué)習(xí)的監(jiān)督信號(hào),從而在數(shù)據(jù)稀疏的情況下提高診斷的準(zhǔn)確性。這種方法能夠增強(qiáng)模型的泛化能力,并減少對(duì)大量標(biāo)注數(shù)據(jù)集的依賴,進(jìn)而解決了僅基于視覺的模型在區(qū)分復(fù)雜癌癥亞型方面的局限性。為創(chuàng)建視覺和語(yǔ)言的聯(lián)合嵌入空間,現(xiàn)有模型是在從內(nèi)部資源(如MI-Zero、CONCH和PRISM)或公共網(wǎng)站(如Twitter的PLIP和YouTube視頻的QuiltNet)收集的病理圖像-文本對(duì)上進(jìn)行訓(xùn)練的,采用簡(jiǎn)單的對(duì)比學(xué)習(xí)方法將圖像與其對(duì)應(yīng)的說明進(jìn)行對(duì)齊。
盡管在各種下游任務(wù)中取得了顯著成效,但現(xiàn)有的病理學(xué)視覺語(yǔ)言模型,包括PLIP和QuiltNet,由于病理圖像文本數(shù)據(jù)集(如OpenPath和Quilt1M)規(guī)模相對(duì)較小,仍面臨重大挑戰(zhàn)。與通用計(jì)算機(jī)視覺中使用的龐大數(shù)據(jù)集相比,這些專門針對(duì)病理學(xué)的資源規(guī)模要小得多,且往往來源于非專業(yè)網(wǎng)站,導(dǎo)致數(shù)據(jù)噪聲大、質(zhì)量有限。例如,這些圖像所附帶的注釋往往簡(jiǎn)短、無結(jié)構(gòu)且缺乏全面的醫(yī)學(xué)知識(shí)。這些缺陷阻礙了模型準(zhǔn)確識(shí)別和區(qū)分各種疾病表現(xiàn)及其相應(yīng)病理特征的能力。
零樣本癌癥診斷作為病理學(xué)視覺語(yǔ)言基礎(chǔ)模型的關(guān)鍵下游應(yīng)用,特別適用于診斷罕見腫瘤且僅有少量標(biāo)注病例的場(chǎng)景,F(xiàn)代基礎(chǔ)模型通常以整個(gè)切片圖像(WSI)的小網(wǎng)格塊為輸入,在僅視覺模型中整合嵌入特征,在視覺語(yǔ)言模型中整合預(yù)測(cè)標(biāo)簽,以得出最終的診斷決策。盡管視覺語(yǔ)言模型通過明確識(shí)別癌變網(wǎng)格塊提供了更具解釋性的方法,但其在診斷罕見疾病方面的表現(xiàn)仍有限。
視覺語(yǔ)言基礎(chǔ)模型在計(jì)算病理學(xué)領(lǐng)域展現(xiàn)出巨大潛力,但它們主要依賴數(shù)據(jù)驅(qū)動(dòng),缺乏對(duì)醫(yī)學(xué)知識(shí)的明確整合。
鑒于此,該研究推出了一個(gè)基礎(chǔ)模型——KEEP(KnowledgE-Enhanced Pathology),它系統(tǒng)地將疾病知識(shí)融入到癌癥診斷的預(yù)訓(xùn)練過程中。
KEEP利用一個(gè)包含11454種疾病和139143個(gè)屬性的全面疾病知識(shí)圖譜,將數(shù)百萬(wàn)個(gè)病理圖像文本對(duì)重新組織成143000個(gè)語(yǔ)義結(jié)構(gòu)化的組,這些組與疾病本體論層次結(jié)構(gòu)相一致。這種知識(shí)增強(qiáng)型預(yù)訓(xùn)練使得視覺和文本表示在層次語(yǔ)義空間中對(duì)齊,從而能夠更深入地理解疾病關(guān)系和形態(tài)學(xué)模式。在18個(gè)公共基準(zhǔn)(超過14000張全切片圖像)和4個(gè)機(jī)構(gòu)的罕見癌癥數(shù)據(jù)集(926例)上,KEEP均表現(xiàn)出優(yōu)于現(xiàn)有基礎(chǔ)模型的性能,特別是在罕見癌癥亞型上展現(xiàn)出顯著優(yōu)勢(shì)。這些結(jié)果確立了知識(shí)增強(qiáng)型視覺語(yǔ)言建模作為推動(dòng)計(jì)算病理學(xué)發(fā)展的強(qiáng)大方法范式。

該研究的亮點(diǎn)包括: