12月23日,國際學(xué)術(shù)期刊Briefings in Bioinformatics在線發(fā)表了中國科學(xué)院分子細(xì)胞科學(xué)卓越創(chuàng)新中心(生物化學(xué)與細(xì)胞生物學(xué)研究所)吳立剛研究組的最新研究成果“CapHLA: a comprehensive tool to predict peptide presentation and binding to HLA class I and class II”。該研究開發(fā)了深度學(xué)習(xí)模型CapHLA及新生抗原(neoantigen)質(zhì)量評價指標(biāo)PAE,為腫瘤新生抗原疫苗的設(shè)計(jì)開發(fā)提供了重要工具。
腫瘤細(xì)胞的基因組或轉(zhuǎn)錄組發(fā)生變異而產(chǎn)生的帶有特異性氨基酸序列變異的多肽被稱為新生抗原。新生抗原是一類腫瘤特異性抗原(TSAs),并不存在于正常的組織器官當(dāng)中。新生抗原與人類白細(xì)胞抗原(HLA)分子結(jié)合形成peptide-HLA(pHLA)復(fù)合物,并呈遞到細(xì)胞表面,這一過程是T細(xì)胞特異性識別腫瘤細(xì)胞并引發(fā)特異性免疫反應(yīng)的關(guān)鍵。HLA通常分為HLA-I和HLA-II兩大類。HLA-I結(jié)合細(xì)胞內(nèi)8-15個氨基酸長度的多肽,之后被CD8+ T識別。HLA-II結(jié)合12-20個氨基酸長度的多肽,隨后被CD4+ T細(xì)胞識別。CD4+和CD8+ T細(xì)胞均在腫瘤殺傷中發(fā)揮了重要作用。腫瘤新生抗原疫苗目前已經(jīng)在胰腺癌、黑色素瘤、小細(xì)胞肺癌等多種腫瘤的臨床實(shí)驗(yàn)中展現(xiàn)出優(yōu)異的藥效,而新生抗原選擇的準(zhǔn)確性是決定腫瘤疫苗藥效的關(guān)鍵因素。但目前已發(fā)表的多種新生抗原預(yù)測算法存在諸多不足:準(zhǔn)確度不夠、對長度有限制、只能預(yù)測HLA-I類或HLA-II類等。
該研究中,研究人員開發(fā)了新的深度學(xué)習(xí)模型CapHLA。CapHLA由四個模塊組成:編碼層將多肽和HLA結(jié)合位點(diǎn)轉(zhuǎn)換為one-hot數(shù)字矩陣;卷積層捕捉蛋白酶水解特征和抗原處理相關(guān)轉(zhuǎn)運(yùn)蛋白轉(zhuǎn)運(yùn)多肽過程中的motif信息;attention層捕捉不同HLA基因型與多肽結(jié)合的特異氨基酸互作信息;特征選擇層綜合處理上述步驟得到的特征并獲得分析結(jié)果。CapHLA算法可以同時預(yù)測各種長度多肽以及HLA-I和HLA-II各種基因型的親和性及呈遞可能性。
研究人員在外部獨(dú)立驗(yàn)證集上對AUROC、AUPRC、accuracy、MAE等指標(biāo)進(jìn)行了分析,CapHLA相較于現(xiàn)有其他預(yù)測算法均展現(xiàn)出更準(zhǔn)確的預(yù)測性能,尤其是在HLA-II和較長多肽的預(yù)測能力上實(shí)現(xiàn)了大幅提升。研究人員進(jìn)一步分析經(jīng)驗(yàn)證具有高免疫原性的新生抗原,發(fā)現(xiàn)既需要pHLA結(jié)合親和性高,多肽遞呈概率大,還需要多肽表達(dá)水平較高。因此研究人員開發(fā)了結(jié)合這三者參數(shù)的新生抗原質(zhì)量評價指標(biāo)PAE,取得了更好的預(yù)測效果,為腫瘤新生抗原的選擇和評價提供了重要工具。研究人員進(jìn)一步展示了PAE指標(biāo)還具有預(yù)測腫瘤患者免疫治療療效的潛力。通過對多組免疫治療隊(duì)列數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)大多數(shù)隊(duì)列中PAE值高的病人具有更長的生存期以及更好的免疫治療響應(yīng)。在一些癌種中,即使未使用免疫治療,PAE分?jǐn)?shù)高的患者也有更長的生存期,說明PAE指標(biāo)可以用于評估腫瘤中新生抗原的質(zhì)量。
分子細(xì)胞卓越中心博士研究生常允建為論文第一作者。分子細(xì)胞卓越中心吳立剛研究員為該論文的通訊作者。該研究得到分子細(xì)胞卓越中心生物信息學(xué)平臺和高性能計(jì)算存儲與網(wǎng)絡(luò)服務(wù)中心的大力支持,同時得到了國家自然科學(xué)基金委、科技部、中國科學(xué)院、上海市的經(jīng)費(fèi)支持。
文章鏈接:https://academic.oup.com/bib/article/26/1/bbae595/7926360

Schematic of the CapHLA model