????相素化(Sumoylation)是高度保守的類泛素化修飾,在基因表達和染色質(zhì)重塑以及細胞動態(tài)過程等各種生物學過程中發(fā)揮著關鍵調(diào)控作用;而相素蛋白的功能失調(diào)則與神經(jīng)退行性疾病、自身免疫性疾病和癌癥等多種重要疾病密切相關。因此,鑒定相素化位點和相素蛋白互作模體對研究相素蛋白在細胞、生理和病理過程中的作用乃至探索疾病潛在治療靶點等都具有非常重要的意義。
GPS-SUMO 2.0流程圖
????為了實現(xiàn)更為精確的預測,我中心高性能計算部與華中科技大學薛宇團隊開展合作,借助“東方”超算系統(tǒng)的強大異構(gòu)加速能力,在基于Transformer算法對4萬多個蛋白質(zhì)上超過20萬個位點數(shù)據(jù)進行“預訓練+微調(diào)”的基礎上,進一步利用與懲罰邏輯回歸和深度神經(jīng)網(wǎng)絡學習了相素化位點鄰近的理化性質(zhì),實現(xiàn)對“上下文+鄰近”信息的精準學習,最終開發(fā)了截至目前準確性最高的蛋白質(zhì)相素化位點預測語言模型GPS-SUMO 2.0。該工具同時具備利用35個公共資源對預測結(jié)果進行注釋的能力,可以為實驗篩選提供有效的幫助。
????相關研究結(jié)果以“GPS-SUMO 2.0: An updated online service for the prediction of SUMOylation sites and SUMO-interacting motifs”為題發(fā)表于國際知名學術(shù)期刊《Nucleic Acids Research》(IF:14.9,JCR Q1/中國科學院二區(qū)TOP)。中心高性能計算部陸騰博士與華中科技大學生命學院薛宇教授、彭迪博士為共同通訊作者。該研究得到了國家重點研發(fā)計劃、國家自然科學基金、中國科學院先導專項等項目的資助。
責任編輯:郎楊琴