10月13日,國際學術期刊Nucleic Acid Research在線發(fā)表了中國科學院分子細胞科學卓越創(chuàng)新中心(生物化學與細胞生物學研究所)石建濤研究組與上海交通大學合作的最新研究成果“mHapBrowser: a comprehensive database for visualization and analysis of DNA methylation haplotypes”。這項研究工作構建了一個全新的、開源的、易于科研數(shù)據(jù)共享的DNA甲基化單體數(shù)據(jù)庫— mHapBrowser (http://mhap.sibcb.ac.cn),并且能夠支持在線運算和可視化。
DNA甲基化是一種重要的表觀遺傳修飾,在基因調控、基因組穩(wěn)定性、細胞分化和疾病發(fā)生中起關鍵作用。在人類基因組中,DNA甲基化的動態(tài)變化主要發(fā)生在CpG位點上。基于亞硫酸鹽測序的方法,如WGBS、RRBS和靶向BS-seq,能夠在單核苷酸分辨率檢測DNA甲基化。深入挖掘DNA甲基化的功能需要數(shù)據(jù)庫和相關分析工具的支持。目前已經存在一些DNA甲基化相關數(shù)據(jù)庫,如MethDB、MethBase、DNMIVD、NGSmethDB和Meth-Bank,但這些數(shù)據(jù)庫主要關注每個CpG位點的平均甲基化水平,而忽略了同一條染色體上的甲基化模式(DNA甲基化單體)。
在前期工作中,石建濤研究組定義了一種新的數(shù)據(jù)格式mHap來存儲DNA甲基化單體信息,該格式相比BAM文件實現(xiàn)了40-150倍的存儲壓縮,同時完整保留了CpG位點的甲基化信息?;趍Hap格式,該團隊還合作開發(fā)了DNA甲基化單體分析工具mHapTk,可以方便計算多個mHap的統(tǒng)計量如PDR、CHALM、MCR、MHL等以描述DNA甲基化特征。甲基化單體存儲格式和分析工具的開發(fā)為后續(xù)數(shù)據(jù)庫的構建奠定了基礎。
mHapBrowser數(shù)據(jù)庫收錄了人類、小鼠和大鼠三個物種的數(shù)據(jù),分別為5808個人類樣本、490個小鼠樣本和69個大鼠樣本。每個樣本都包含豐富的元數(shù)據(jù)信息,如GEO/SRX編號、組織來源、疾病狀態(tài)、比對率、覆蓋度和平均甲基化等,方便用戶篩選數(shù)據(jù)。數(shù)據(jù)庫集成了WashU Epigenome瀏覽器,可以直接展示每個樣本在全基因組尺度上的mHap統(tǒng)計量,包括平均甲基化、PDR、CHALM、MCR、MBS、MHL、Entropy和連鎖不平衡系數(shù)R2。數(shù)據(jù)庫還提供在線分析服務,可以方便地比較不同樣本之間的mHap特征。
分子細胞卓越中心研究生洪毓陽、研究助理劉磊琴、研究生豐琰以及上海交通大學博士生張志強為本研究的共同第一作者。分子細胞卓越中心石建濤研究員和上海交通大學醫(yī)學院附屬仁濟醫(yī)院許瓊主治醫(yī)師為本文的共同通訊作者。該數(shù)據(jù)庫的搭建工作得到分子細胞卓越中心高性能計算平臺的大力協(xié)助。該項目由國家自然科學基金資助。
文章鏈接:https://doi.org/10.1093/nar/gkad881
