在WGBS測序中,我們選用bismark(http://www.bioinformatics.bbsrc.ac.uk/projects/bismark/)軟件對fq文件進行mapping,該軟件基于bowtie或者bowtie2,將BS-seq reads C→T G→A分別轉化。再分別mapping到BS轉化過的基因組。得到的四個alignment結果來判斷最合適的unique alignment。同時軟件還可以統計出甲基化的類型如CpG、CHG或者CHH等。
1、軟件安裝
下載地址(github):https://github.com/FelixKrueger/Bismark.git
關聯軟件:samtools,bowtie/bowtie2
安裝方法:
git clonehttps://github.com/FelixKrueger/Bismark.git
tar-zxvf bismark_v0.15.0.tar.gz
2、軟件使用方法
bismark軟件分析BSSeq數據主要分為三個步驟:構建基因組并創建bowtie2索引,4次DNAmapping,統計bam文件中的信息
※構建基因組創建索引
選擇bismark軟件中的bismark_genome_preparation工具,需要給定bowtie2的路徑以及參考基因的路徑(包含fa和fai文件),操作代碼如下:
bismark_genome_preparation--path_to_bowtie2/usr/local/bowtie2/--verbose/data/genomes/homo_sapiens/GRCh37/
※mapping
選擇bismark工具進行mapping,需要給出基因組路徑(第一步中--verbose路徑),用法如下
bismark[options]{-1-2|}
例如:bismark--bowtie2--path_to_bowtie/home/novelbio/software/bowtie2/../GRCH37/-1 filtered.1.fq.gz-2 filtered.2.fq.gz-o result/
雙端數據需要輸入-1與-2,單端數據直接輸入即可
※統計bam文件信息
選擇bismark_methylation_extractor工具進行統計,用法如下:
用法:bismark_methylation_extractor[options]
測試使用代碼./bismark_methylation_extractor SRR534203_filtered.fq.gz_bismark_bt2.bam-s--gzip--bedGraph--genome_folder../ath_tair10/
其中輸入文件為第二部生成的bam文件,-s代表單端bam文件,-p代表雙端bam文件--gzip代表對結果文件進行壓縮--bedGragh代表生成帶有甲基化率的bed文件
3、結果展示
※創建參考基因組
bismark將基因組的fa文件轉化為兩份,并分別使用bowtie2構建索引
※Mapping結果
Mapping的結果中提供了reads的Mapping率,uniqueMapping情況,以及不同種類的甲基化程度
bam文件記錄展示:SRR534203.2_SN608_VA028:5:1101:24.50:89.20_length=50 16 chr3 6025118 42 49M*0 0
CTCACATCAATAAAATCTAATTCAATCCTCACCTCATCTTCAAAATAAA
FGIIIHDEJHDJIIGGIGIHHCHHGCJHFGCIHFJIHHHHHHFFDDD=1
NM:i:8 MD:Z:9G1G1G0G3G0G23G0G4
XM:Z:.........x.h.hh...xh.......................hh....XR:Z:CT XG:Z:GA
在每條reads記錄中提供了該位點的甲基化情況,在XM:Z:記錄中,"."代表不是甲基化位點,"z/Z"代表CpG位點,其中z代表未發生甲基化位點,Z代表發生甲基化的位點,
“x/X"代表CHG位點,"h/H"代表CHH位點,“u/U"代表CN或CHN位點
在生成的mapping Report結果匯總提到的發生CpG甲基化的位點個數其實就是全部reads中出現"Z"的數量總和,其他種類甲基化的算法也是一樣,甲基化率則根據(發生甲基化數量/(發生+未發生))計算
※統計結果
結果統計信息截圖
其中.bismark.cov.gz文件記錄了每個甲基化位點的覆蓋度,包含發生甲基化的reads數,未發生甲基化的reads數以及甲基化頻率,截圖如上右
bedGraph.gz文件以bed文件的格式記錄了甲基化位點的甲基化頻率
CpG_report.txt.gz文件記錄了位點,覆蓋度以及附近的位點信息
CpG_OT/OB文件記錄了每一條reads的CpG甲基化情況,OT代表original top strand,OB代表original bottom strand,文件截圖如下: