一、CIRI簡介:
CIRI 根據circRNA 連接點處的reads來識別circRNA, 在連接點處的reads 其比對情況非常特殊;
CIRI 根據3種模型來識別circRNA, 連接點處的read 叫做junction read
A)
circRNA 由3個外顯子環化形成, 由于測序讀長的限制,junction read 只覆蓋了起始外顯子和終止外顯子的部分序列,這兩部分reads的比對位置在基因組上的位置是相反的
circRNA 由3個外顯子環化形成, 由于連接點處的一個外顯子其長度太短,junction read 除了覆蓋了起始外顯子和終止外顯子的兩部分序列外,還覆蓋了中間的一個外顯子的部分序列
C)
circRNA 由1個外顯子環化形成, junction read 除了覆蓋了整個外顯子外,還重復又讀了一部分序列
D)
為了進一步降低假陽性率,CIRI 通過以下3條規則對結果進行過濾:
1)雙端測序的兩條reads 必須符合PEM 信號,以上面的示意圖為例,進行說明read1 是一條junction read, 來源于兩個外顯子,根據read1 的比對情況,確定了circRNA 在基因組上的位置,此時,如果這個circRNA 識別準確,那么read2 就肯定落在對應的位置內;
根據兩條reads的比對情況,進一步過濾結果;
2) 檢測到的circRNA 的連接處符合AG-GT 剪切信號;
3)根據比對的質量和數量進行過濾,質量就是說mapping 的質量越高,識別的circRNA 越準確;數量就是說對于某個circRNA來說,檢測到的juntion reads 越多,說明這個circRNA越可靠;
上面圖中的幾種模型只是幫助我們理解了exonic-circRNA的檢測,其實對于non-exonic circRNA(包括intronic circRNA 和 intergenic circRNA)的檢測,其原理是相似的,只是綜合考慮了測序讀長和連接點兩段序列的長度,提出幾種可能的比對模型,然后根據比對模型來檢測對應的junction reads, 從而預測circRNA;
circRNA 結果的驗證:
以一個預測得到的circRNA chr2: 58,311,224|58,316,858 為例,在基因組上的長度為 5634bp, 其連接點為VRK2基因的exon6和exon10
理論上產生的circRNA的序列為所有外顯子組成的序列,splicing length為407bp
為了驗證該circRNA , 根據連接點兩端的序列設計引物,擴增出該circRNA 片段,跑電泳,確定產物長度
圖中的黑色片段為擴增產物的條帶,根據PAGE 電泳的結果,確定其長度;然后進行一代測序,確定具體序列
文獻:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0571-3#Sec18
二、CIRI安裝
2.1 下載地址:
https://sourceforge.net/projects/ciri/files/latest/download
2.2 安裝方法:
解壓即可。
三、CIRI使用方法
Usage: perl CIRI.pl -I in.sam -O output.ciri -F ref.fa (-R ref_dir/)
Arguments:
-I, --in
input SAM file name (required; generated by BWA-MEM)
-O, --out
output circRNA list name (required)
-F, --ref_file
FASTA file of all reference sequences. Please make sure this file is
the same one provided to BWA-MEM. Either this argument or
-R/--ref-dir is required.
-R, --ref_dir
directory of reference sequence(s). Please make sure fasta files in
this directory are from the FASTA file(s) provided to BWA-MEM. Either
this argument or -F/--ref-file is required.
-A, --anno
input GTF/GFF3 formatted annotation file name (optional)
-G, --log
output log file name (optional)
-H, --help
show this help information
-S, --max_span
max spanning distance of circRNAs (default: 200000)
-high, --high_strigency
use high strigency: only output circRNAs supported by more than 2
distinct PCC signals (default)
-low, --low_strigency
use low strigency: only output circRNAs supported by more than 2
junction reads
-0, --no_strigency
output all circRNAs regardless junction read or PCC signal counts
-U, --mapq_uni
set threshold for mappqing quality of each segment of junction reads
(default: 10; should be within [0,30])
-E, --rel_exp
set threshold for relative expression calculated based on counts of
junction reads and non-junction reads (optional: e.g. 0.1)
-M, --chrM
tell CIRI2 the ID of mitochondrion in reference file(s) (default:
chrM)
-T, --thread_num
set number of threads for parallel running (default: 1)
-Q, --quiet
keep quiet when running
-D, --output_all
keep the temporary files after running (more disk space would be
needed)
四、檢測流程
1.使用BWA-MEM進行比對,
2.使用CIRI2進行檢測,使用命令如:perl CIRI2.pl -I sample.sam -O test.ciri -F chr1.fa -D -Q -0 -S 200000 -A
CIRI 運行過程中所需要的內存資源比較多