C位!「中科普瑞甲基化芯片研究解决方案」元气出击
DNA甲基化是表观遗传学的重要组成部分,在维持正常细胞功能、遗传印记、胚胎发育以及人类肿瘤发生中起着重要作用,是目前新的研究热点之一。近年来,越来越多的研究证明DNA甲基化在疾病(尤其肿瘤)发生和发展的基因表达异化中起着决定性的作用,且在维持细胞正常功能、传递基因组印记、胚胎发育方面发挥重大作用。随着技术的进步,也产生了海量的表观基因组数据,从这些数据中挖掘生物学特征对理解生命的生理及病理过程有重要意义。
DNA甲基化是理想的标记物
2018年2月《NATURE REVIEWS CLINICAL ONCOLOGY》发表了题为“Epigenome-based cancer risk prediction: rationale, opportunities and challenges”的综述,指出基于表观遗传,特别是DNA甲基化的检测,能够满足肿瘤风险预测的各项需求,为肿瘤风险筛查和预防提供了新的机遇:
DNA甲基化检测能够综合反映遗传和非遗传因素的风险效应;
DNA甲基化具有生物学稳定性,可以采用组学方法检测,技术稳定可重复;
DNA甲基化可以在容易获取的生物样本中检测到,并建立风险预测模型(risk-prediction score),提示风险因素或者疾病发展状态;
DNA甲基化可用于监控肿瘤风险控制措施的效果。
基于DNA甲基化标记预测肿瘤风险的研究汇总
DNA甲基化课题研究策略
DNA甲基化技术选择
Illumina Infinium MethylationEPIC BeadChip(简称850K 甲基化芯片)
Illumina的甲基化芯片Infinium Methylation EPIC BeadChip(简称850k芯片),提供了性能优越且经济可靠的甲基化解决方案。850K芯片是在原450K芯片巨大成功的基础上,推出的新一代DNA甲基化芯片。该芯片既包含原450K芯片91%的位点,又增加了413,745个位点(总共853,307个CpG位点)。850K芯片全面覆盖基因启动子区、基因编码区、CpG岛以及ENCODE及FANTOM5计划中发现的增强子区。
850K甲基化芯片既是肿瘤和其他复杂疾病研究的有力工具,也是目前最适合表观全基因组关联分析(EWAS)研究的DNA甲基化研究技术。
全面的基因组覆盖范围:检测>853,000个CpG位点,全面覆盖CpG岛、启动子、编码区、开放染色质和增强子。此外还包括CpG岛外的CpG位点,已知DMR位点,脱氧核糖核酸酶超敏位点以及miRNA启动子区域;
高质量的数据:同时采用Infinium I及II探针设计,使检测范围最大化;
分辨率高:单碱基分辨率,可以直接检测到发生甲基化的确切位点;
重复性高:自身技术重复相关性R2> 0.98;与450K交集探针间(850K vs 450K)相关性R2> 0.98;
起始模板量低:仅需 250 ng,大大节约了样品量;
检测样本类型更广:不仅可以检测全血、细胞、新鲜/新鲜冷冻的组织、而且也可检测FFPE样本。
850K芯片与WGBS参数对比
中科普瑞850K 甲基化芯片分析服务
中科普瑞850K 甲基化芯片分析展示
中科普瑞850K 甲基化芯片分析服务近期将升级到V2.0版本
敬请期待!
公司简介
中科普瑞 ,旗下拥有上海鲸舟医学检验实验室有限公司和上海鲸舟基因科技有限公司,立足新一代测序及其衍生技术,以医学生物信息学为核心,提供覆盖肿瘤等重大疾病风险评估,早期筛查,分子病理诊断,肿瘤精准用药指导和预后预测等符合临床需求的解决方案,为精准医疗打造全方位服务平台,公司的中长期发展策略为医学大数据挖掘和人工智能的临床应用。
公司是十万人甲基化组计划(表观星图计划)项目实施方,拥有专业的多组学技术服务团队,成熟的团队和技术平台提供基因组,转录组、表观基因组,代谢组等多组学的实验分析和生信分析,以及多维度因果关联分析,为广大医学和生物学研究人员提供专业的一站式服务。
上海鲸舟基因科技有限公司(中科普瑞科研服务子公司)
地址:上海市浦东新区康新公路3399弄19号楼A区
网址:http://www.sinomics.com
邮箱:market@sinomics.com
850K甲基化芯片数据的分析
恰好不久前用一个集成度很高的ChAMP包分析过850K的甲基化芯片数据 。所以,就想着把自己的笔记整理下,可以和更多的小伙伴学习交流,还有个原因可能是因为这是四月份打算学生信时,接手的第一个任务,曲曲折折好几个月才跑通流程,遇到的坑也比较多,想记录下来。
我之前分析时是参考ChAMP包的源文档,非常详细的整个流程的介绍,但是,在笔记快整理完时突然发现作者的博客也写过一篇介绍的文章,博客里写的不像源文档很官方,这里面有很多作者很直白的解释和补充,还有作者一些很深刻的思考。看了之后发现自己对很多分析理解的还不是很深刻。所以如果想学甲基化芯片数据分析的小伙伴可以以官方源文档和作者的博客为主,这篇笔记仅仅作为额外的参考吧。
Illumina甲基化芯片目前仍是很多实验室做甲基化项目的首选,尤其是对于大样本研究而言,其性价比相当高;目前在临床上应用还是很广的。这种芯片的发展主要经历了27K、450K以及850K(27K,450K,850K指能测到的CpG甲基化位点),目前积累的数据主要是450K芯片的,之后850K可能会成为甲基化芯片的主流。楼主之前写过一篇450K芯片预处理的帖子,其中很详细介绍了这种芯片的基础知识以及流程图和代码,大家可以先看看。芯片的处理流程一般就是:数据读入——数据过滤——数据校正——下游分析 。
数据处理一种时基于GenomeStudio(illumina开发的软件),但是只对于小样本,另一种基于R的各种package,如lumi、minfi、wateRmelon、ChAMP等。
与测序相比,芯片的处理可能对计算资源的要求不算高,主要使用的工具就是R,但是R的使用比较耗内存,尤其是处理大批量数据的时候。
Step1: 基础知识的补充
在正式分析前,我结合作业先将有关甲基化和芯片的基础知识整理了一下。
Illumina 甲基化芯片的原理及探针的设计(I型探针和II型探针)
原理:简而言之,基于亚硫酸盐处理后的DNA序列杂交的信号探测。亚硫酸盐是甲基化探测的“金标准”,不管是芯片或者甲基化测序,都要先对DNA样品进行亚硫酸盐处理,使非甲基化的C变成U,而甲基化的C保持不变,从而在后续的测序或者杂交后区分出来。
450K和850K采用了两种探针Infinium Ⅰ 和Infinium Ⅱ对甲基化进行测定,Infinium I采用了两种bead(甲基化M和非甲基化U,如图显示),而II只有一种bead(即甲基化和非甲基化在一起),这也导致了它们在后续荧光探测的不同,450K采用了两种荧光探测信号(红光和绿光)(图1)。
甲基化概述:
DNA甲基化被认为是表观遗传调控的一种方式,如Cytosine methylation (5-mC)是研究最多的,被认为是哺乳动物中常见的甲基化方式, 最近有一些研究也发现了其他形式的甲基化,如2016年Nature上发表了一篇关于鼠的胚胎干细胞的m6A(N6-methyladenine)形式的甲基化。DAN甲基化被认为对基因表达,染色质重塑,细胞分化,疾病等都有重要影响(图2)。
甲基化的检测方法:
目前甲基化检测的方法可以概括为三种:芯片、测序、免疫沉淀。具体选择何种方法主要还是根据实验目的和实验室条件了。但目前来说,甲基化芯片技术从覆盖度,检测灵敏度和价格综合考虑,还是性价比相对高的(图3)。
关于甲基化芯片常见的Glossary:
CpG island: Defned as regions 500 bp, 55% GC and expected/observed CpG ratio of 0.65. 40% of gene promoters contain islands.
CpG shelves: ~4Kb from islands.
CpG shores: ~2Kb from islands, 75% of tissuespecifc differentially methylated regions found in shores. Methylation in shores shows higher correlation with gene expression than CpG islands.
Differentially methylated regions (DMR): Cell-, tissue-, and condition- specifc differences in methylation.
Enhancer: A short region of DNA that can activate transcription and is often regulated by methylation.
Hypermethylation: Most cytosines are methylated. Hypomethylation: Most cytosines do not have 5-mC. Euchromatin and active gene promoters are hypomethylated.
Beta value: 通常的甲基化衡量方法被称为“Beta”值; 等于甲基化百分比,并定义为“Meth”除以“Meth + Unmeth”。
CGI: CpG island 即甲基化岛。
因为手头的数据是850K的甲基化数据,之前也只接触过ChAMP包,所以这里就以ChAMP包介绍850K甲基化数据分析。ChAMP包是一个集成度很高的包,它包括450K和EPIC(即通常所说的850K)两套分析流程,完整的包括了数据的载入,标准化,矫正,差异甲基化和富集分析等功能(图4)。
Step2:计算机资源的准备
作业1 安装好R软件及相应的包,下载R包的说明书,整理它们的官网链接。
R的使用真的很耗内存,我有28个样本(14个control, 14个case), 之前4G内存的电脑,本地分析总时半路电脑就卡死了。所以最好配置高一点,或者在服务器上下载安装R和Rstudio(这里最好安装Rstudio, 因为ChAMP包中有很多的GUI图形功能,Rstudio可以更好实现,或者含有X11功能的linux系统)。
软件的安装:
R和Rstudio 的本地安装很简单,直接到官网下载,只要注意安装时的路径不要有中文,Rstudio安装前要先安装R。
服务器版本的Rstudio安装好后,在网页地址栏输入访问地址:<服务器IP:8787,用户名和密码为Linux用户的用户名和密码。
具体安装方法可以参考生信宝典陈老师的一篇文章http://www.biotrainee.com/thread-1808-1-1.html。
下载R包:
下载ChAMP 包,官网给出了很详细的流程说明(https://bioconductor.org/packages/release/bioc/vignettes/ChAMP/inst/doc/ChAMP.html)。
source("https://bioconductor.org/biocLite.R")biocLite("ChAMP")
NOTE: ChAMP有很多依赖包,安装时,若报错有哪个包没有,就继续安装 biocLite("YourErrorPackage"),可能3-4次就可以安装成功。
导入ChAMP包并测试:
导入ChAMP包后,根据是450K的数据或者是850K的数据,导入测试数据集,走一下分析流程,检测包是否正常工作,更重要的是看该包的文档,理解每一步流程的意义。该包的文档很详细,建议大家看原文档,下面给出的啰啰嗦嗦的介绍基本上都来自官网的文档说明(https://bioconductor.org/packages/release/bioc/vignettes/ChAMP/inst/doc/ChAMP.html)。
library("ChAMP")#450K的数据导入:testDir=system.file("extdata",package="ChAMPdata")myLoad <- champ.load(testDir,arraytype="450K")#850K的数据data(EPICSimData)
Step 3: 数据读入
数据的读入这里可能坑最多,首先450K 和850K甲基化芯片的原始数据格式都是IDAT, 因为数组是用两种不同的颜色来测量的,所以每个样本都有两个文件,通常是扩展名Grn.idat和Red.idat。数据在载入时还需要一个SampleSheet.csv 文件(图5)(也称做pd file), 这个文件很重要,它包含了样本的信息,可以对照测试数据的csv文件和自己的csv文件,对信息不全的地方进行补充。尤其要注意Sample Group 这一列信息是否有,这一列信息代表你想比较的表型类型,比如癌和癌旁。另一个我遇到过的一个隐形坑在Sentrix_ID ,这一列数因为数字串很长,在Excel中可能以科学计数法显示,然后本来是长数字串后两位不一样的数字串都变为一样的,在读入时就会报重复字符的错误,所以这里一定要核查下长数字串的信息,如果有错误,自己重新输入时以文档格式输入,或者前面加右单引‘。csv文件准备好后,将csv文件与所有样本的芯片数据(即IDAT文件)放在一个文件下,然后就可以正常读入了。
图5 Sample_Sheet.csv fiel
library("ChAMP")myLoad <- champ.load("F:/850K Methylation Chip/biotree_850K/methy_rawData",arraytype = "EPIC")save(myLoad,file="myLoad.rda")
champ.load()包含了 champ.import() 和champ.filter(),这里会自动过滤p值0.01; probes beadcount <3 in at least 5% of samples;NoCG;probes with SNPs; MultiHit; probes located on X,Y chromosome。
在读入数据之后,最好保存,后续重复读入时会加快速度。
Step 4: 质控和标准化
CpG overview:
质控前可以先看看CpG的分布,包括在染色体上的分布;CpG岛附近的 open sea, shelf,shore (参考图2,理解具体意思) ; UTR,TSS; I 型探针和II探针上的分布(图6),这个信息对后续DMP的分析有帮助。
CpG.GUI(arraytype="EPIC")
质控:
然后进行质控,有两种方式:champ.QC() 和 QC.GUI()。champ.QC会产生三种类型的图(点图,beta 分布图,聚类图)以pdf格式输出,QC.GUI产生5个图,多了一个I型、II型探针图和热图(图7)。所有的GUI功能都比较耗内存,且产生的是网页交互式的图片,每幅图的右上角给的都有保存按钮,要注意的是保存时文件名要加上.png的后缀(图7)。
#champ.QC()QC.GUI(arraytype="EPIC")
图7 QC Overview
标准化:
champ.norm 提供了四种方法:BMIQ, SWAN1, PBC2 and FunctionalNormliazation4。默认的方法是BMIQ, 且BMIQ对850K的标准化方法更好一点,所以这里我选择的是BMIQ的标准化方法,没有尝试其他的标准化方法。
myNorm <- champ.norm(arraytype="EPIC")QC.GUI(myNorm,arraytype="EPIC")save(myNorm,file="myNorm.rda")
SVD plot 和批次效应:
SVD(singular value decomposition) 这里用于评估数据集中变量的主要成分。这种成分可能确实是你感兴趣的生物因素,也可能是技术来源的一些变量成分(称为批次效应)(图8)。如果存在批次效应,就进行批次效应的矫正,矫正完之后可以再看看SVD plot。
champ.SVD()
图8 SVD Plot
Step 5: 差异甲基化分析(DMP & DMR & DMB)
差异分析是多数研究都要分析的,这里包括三种方法:DMP,DMR,DMB。DMP代表找出Differential Methylation Probe(差异化CpG位点),DMR代表找出Differential Methylation Region(差异化CpG区域),Block代表Differential Methylation Block(更大范围的差异化region区域)
简单来说,DMP是找出一个一个的差异甲基化CpG位点,DMR就是一个连续不断都比较长的差异片段,科学家们觉得,这样的连续差异片段,对于基因的影响会更加明显,只找这样的片段,可以使得计算生物学的打击精度更为准确,也可以让最终找出来的结论数据更少,便于实验人员筛选。另外一个类似的东西就是DMB,那个东西出现的原因是,有的科学家觉得,DMR这样的区域还不够显著,DNA上的甲基化出现变化,可能是绵延几千位点的!而且只会在基因以外的区域,但是这些基因以外的区域发生变化,却会导致基因的表达发生变化。你可以想象成,北京周边的河北在大炼钢铁,然后北京也跟着雾霾了,大概就是这意思。
DMP,DMR,DMB的结果都是基于的shiny的交互页面,左栏上方是 P-value 和 abs(logFC) ,可以选择想看的值,然后点submit, 右栏可以生成差异甲基化表,热图,feature&cgi, 左栏下方还有基因,CpG按钮,选择你想看的结果,submit, 右栏就会生成相应gene,CpG结果(图9)。
myDMP <- champ.DMP(arraytype="EPIC")save(myDMP,file="myDMP.rda")DMP.GUI()myDMR <- champ.DMR(arraytype = "EPIC",method="DMRcate",cores=1)save(myDMR,file="myDMR.rda")DMR.GUI(arraytype="EPIC")#myBlock <- champ.Block(arraytype = "EPIC")#Block.GUI(arraytype="EPIC",compare.group=c("PrEC_cells","LNCaP_cells"))
图9 DMP Overview
Step 6: 基因富集和网络分析(GSEA & EpiMod)
差异甲基化分析后,你可能想知道DMP,DMR中涉及到的基因是否可以富集到某个生物功能或通路,GSEA(Gene Set Enrichment Analysis)和EpiMod(Differential Methylated Interaction Hotspots)提供了可以寻找作用通路网络中的疾病关联小网络的功能 (图 10)。
myGSEA <- champ.GSEA(arraytype = "EPIC")save(myGSEA,file="myGSEA.rda")myEpiMod <- champ.EpiMod(arraytype="EPIC")save(myEpiMod,file="myEpiMod.rda")
Step 7: 拷贝数变异分析(CNA)
拷贝数变异,也就是有些基因片段被复制的此处过多或者过少,从而导致某些疾病。但是这个函数作者觉得有点粗糙,精度还不够。我试着跑了一下,时间超长(图11)。
myCNA <- champ.CNA(control = F,arraytype = "EPIC")save(myCNA,file=myCNA)
图11 Frequency Plot of Cancer Sample
小结: 如果用ChAMP包对450K或850K甲基化数据进行分析时,一是最好有个配置高一点的电脑;二是初始数据导入时,注意csv文件的格式,且要和IDAT文件放在一个文件下;其余的流程很少会遇到bug, 但最关键的是理解每一步的意义,能够根据分析的结果挖掘出想要的东西。
ps: 这次作业提供的公共数据,有IDAT文件,也有个csv文件,但是这里的csv文件和我的csv文件差别很大,不是很明白这里的csv文件是什么,有什么作用。
有不当之处欢迎指正和补充。
另外,如果还有想去南京面基的朋友,可以看看这个哈:
原文中此处为链接,暂不支持采集
一起吃个饭咯
相关问答
target数据类型?
TARGET数据类型包括:临床数据,转录组测序数据,拷贝数变异数据,甲基化数据,miRNA数据,基因表达谱芯片数据,全基因组测序数目,靶向测序数据。TARGET下载数...T...
d5s是什么意思?
"D5S"这个术语可能会有多种用途,以下是其中的一些可能含义:-D5S是一种DNA甲基化检测技术。DNA甲基化是一种常见的表观遗传学修饰,可以影响基因转录和表达。...
甲醇甲酸干啥用的?
甲醇的用途:1、基本有机原料之一,用于制造氯甲烷、甲胺和硫酸二甲酯等多种有机产品。也是农药(杀虫剂、杀螨剂)、医药(磺胺类、合霉素等)的原料,合成对苯...
去甲醇的有效方法是什么?–960化工网问答
去甲醇的有效方法是什么?960化工网专业团队、用户为您解答,有去甲醇的有效方法是什么?的疑问
MPB与MPA是什么东东?
MPB是指“MassivelyParallelBisulfiteSequencing”,是一种基于次世代测序技术的高通量测序方法,用于分析DNA甲基化。MPA是指“MassivelyPara...
PCR技术应用前景?
多种检测系统的出现,使实验的选择性更强。自动化操作提高了工作效率,反应快速、重复性好、灵敏度高、特异性强、结果清晰。随着生物芯片技术和荧光探针定量...
木精是不是甲醇还是精醇–960化工网问答
用作分析试剂,如作溶剂、甲基化试剂、色谱分析试剂。还用于有机合成。通常甲醇是一种比乙醇更好的溶剂,可以溶解许多无机盐。亦可掺入汽油作替代燃料使用。...
麻烦哪位朋友,急需帮忙,正规的甲醇排行,甲醇贵不贵??
[回答]每吨甲醇汽油中的甲醇含量.大家所熟知的甲醇汽油实际上就是甲醇和汽油的混合物,根据甲醇和汽油的含量的不同我们可以把它们分为不同的三个类别:通常...
哪位行家!请解答一下!高质量环保油甲醇价格,环保油甲醇怎...
[回答]刚刚跟余姚市宏威化工原料有限公司合作,他们给我做的方案很专业,效果还不知道甲醇需储存于阴凉、通风良好的专用库房内,远离火种、热源。库温不宜...
什么是基因组扫描–960化工网问答
全基因组扫描所利用的是在人类基因组大量存在的微卫星或SNP,虽然当前使用较多的仍是微卫星,但由于芯片技术的发展,全基因组高分布密度的商品化SNP芯片相继面世...