热久久免费视频,神波多一花番号,久久国产影视,调教喷奶水h文

服務熱線02152235399
當前位置:博客 > 生物信息

SPAdes安裝及使用說明

時間:2018-10-19    |    閱讀量:24710

1、SPAdes簡介
1.1 支持的數據類型

當前版本的SPAdes,輸入文件可以是Illumina或者IonTorrent數據并且,可以結合PacBio的數據進行組裝。

SPAdes的3.8.2版本,支持paired-end reads, mate-pairs and unpaired reads。多個paired-end 和mate-pair文庫的數據可以同時輸入。SPAdes最初開發的目的適用于小的基因組組裝,測試都是基于單細胞和標準的細菌及真菌數據。

SPAdes 3.8.2版本,包含有一個宏基因組分析流程metaSPAdes和一個從WGS中提取和組裝質粒的流程plasmidSPAdes,另外,SPAdes 有獨立的組裝多倍體雜合基因和TruSeq barcode組裝的模塊。


1.2 SPAdes 流程

SPAdes有一些單獨的模塊:

a.  BayesHammer---用于Illumina reads的read error correction 工具

b. IonHammer--- 用于IonTorrent 數據的reads error correction 工具

c. SPAdes---迭代 short-read 基因組組裝模塊;K值根據read 長度自動選擇

d. MismatchCorrector--- 用于改善組裝得到的contigs和scaffolds中的mismatch 和short indel率的工具

e. dipSPAdes---組裝多倍體雜合基因組的分析模塊

f. truSPAdes---用于Illumina 產生的short reads的組裝

推薦使用 BayesHammer/IonHammer 來獲取高質量的組裝結果。

2. SPAdes的安裝

系統要求:

(1) 64-bit Linux

(2)  安裝Python (支持的版本有2.4,2.5,2.6, 2.7, 3.2, 3.3, 3.4 和 3.5)

下載地址:http://spades.bioinf.spbau.ru/release3.8.2/SPAdes-3.8.2-Linux.tar.gz 下載后解壓即可:

tar -xzf SPAdes-3.8.2-Linux.tar.gz

cd SPAdes-3.8.2-Linux/bin/

測試是否可以正常運行:

./spades.py --test

如果輸出的信息最后為:

===== Assembling finished. * Corrected reads are in spades_test/corrected/ * Assembled contigs are in spades_test/contigs.fasta * Assembled scaffolds are in spades_test/scaffolds.fasta======= SPAdes pipeline finished.SPAdes log can be found here: /home/andrey/ablab/algorithmic-biology/assembler/spades_test/spades.logThank you for using SPAdes!

則說明軟件可以正常運行。


3. SPAdes的使用

3.1 輸入文件

輸入文件可以是paired-end reads, mate-pairs and single (unpaired) reads in FASTA and FASTQ。對于IonTorrent 數據輸入文件可以是unmapped BAM 文件。然而,如果要做error correction, reads應該是FASTQ 或者 BAM文件格式。

Illumina 數據和IonTorrent 文庫的數據不能放在一起組裝,其他類型的輸入文件可以放在一起。

SPAdes 支持僅有 mate-pair的組裝,然而,此時我們推薦使用高質量的mate-pair文庫。

注意:

1. 不推薦使用SPAdes進行覆蓋度太低(小于5x)的PacBio reads 組裝

2. 不推薦使用SPAdes軟件進行大基因組的PacBio reads組裝

3. SPAdes輸入文件可以是壓縮文件

PacBio 和 Oxford Nanopore reads

對于PacBio CLR 和 Oxford Nanopore reads 用于混合組裝(例如:結合Illumina 或者 IonTorrent數據),此時不需要reads糾錯,SPAdes 將使用PacBio CLR 和 Oxford Nanopore reads 用于 gap closure 和處理重復。

對于PacBio 的數據需要是過濾后的subreads,文件格式為 FASTQ/FASTA格式,參數為--pacbio。

3.2 Examples

/home/novelbio/software/SPAdes-3.8.2-Linux/bin/spades.py --pe1-1 /home/novelbio/software/SPAdes-3.8.2-Linux/share/spades/test_dataset/ecoli_1K_1.fq.gz --pe1-2 /home/novelbio/software/SPAdes-3.8.2-Linux/share/spades/test_dataset/ecoli_1K_2.fq.gz -o spades_test

1)如果同一文庫有多個文件的時候,使用方法如下:

spades.py --pe1-1 lib1_forward_1.fastq --pe1-2 lib1_reverse_1.fastq --pe1-1 lib1_forward_2.fastq --pe1-2 lib1_reverse_2.fastq -o spades_output

注意順序要一致

2)當輸入文件是interlacing paired-end reads 或者 unpaired reads時

spades.py --pe1-12 lib1_1.fastq --pe1-12 lib1_2.fastq --pe1-s lib1_unpaired_1.fastq --pe1-s lib1_unpaired_2.fastq -o spades_output

3)當輸入文件是一些paired-end 和 mate-pair reads時,

paired-end library 1

lib_pe1_left.fastq

lib_pe1_right.fastq

mate-pair library 1

lib_mp1_left.fastq

lib_mp1_right.fastq

mate-pair library 2

lib_mp2_left.fastq

lib_mp2_right.fastq

此時,使用的命令為:

spades.py --pe1-1 lib_pe1_left.fastq --pe1-2 lib_pe1_right.fastq --mp1-1 lib_mp1_left.fastq --mp1-2 lib_mp1_right.fastq --mp2-1 lib_mp2_left.fastq --mp2-2 lib_mp2_right.fastq -o spades_output

4)當有IonTorrent unpaired reads, PacBio CLR和 相應的contigs時

使用的命令為:

spades.py --iontorrent -s it_reads.fastq --pacbio pacbio_clr.fastq --trusted-contigs contigs.fastq -o spades_output

5)當single-read library 有多個單獨的文件時

使用的命令為:

spades.py --s1 unpaired1_1.fastq --s1 unpaired1_2.fastq --s1 unpaired1_3.fastq -o spades_output

6)組裝IonTorrent reads

輸入格式僅支持FASTQ或者BAM文件。對于IonTorrent數據,k-mer值的選擇非常重要,如果數據集覆蓋度足夠,GC含量不高,那么推薦按照long reads的組裝方式(e.g. 組裝使用k-mer長度 21,33,55,77,99,127)。然而,由于k-mer長度改變會引起錯誤率的變化,例如,如果運行SPAdes時,設置k-mer長度為21,33,55,77,然后,使用迭代和更大的k-mer值進行組裝,可以使用參數,-restart-from k77 -k 21,33,55,77,99,127 --mismatch-correction -o.

對于特殊的數據集(e.g. 高GC,低覆蓋度或者覆蓋度不均勻),我們建議使用single-cell 模式(設置--sc 選項)并使用k-mer的長度為21,33,55

7)組裝long Illumina paired reads(2x150 and 2x250)

設置迭代的k-mer值,推薦設置--careful 選項,用來減少最終contigs的mismatches數。

不做reads corrected 的組裝:  spades.py -k 21,33,55,77 --careful --only-assembler-o spades_output

reads correct 并組裝:spades.py -k 21,33,55,77 --careful-o spades_output

single-cell data set with read lengths 2x150 or 2x250

推薦使用默認的k-mer值,對于single-cell data set SPAdes 選擇的k-mer size 21,33,55。

4. SPAdes 的輸出

/corrected/ 存放使用BayesHammer糾錯后的reads,文件名為 *.fastq.gz或者*.fastq

/contigs.fasta contains resulting contigs 組裝的contigs序列文件

/scaffolds.fasta contains resulting scaffolds 組裝得到的scaffolds序列文件

/assembly_graph.fastg contains SPAdes assembly graph in FASTG format SPAdes組裝graph,以FASTG格式存儲

/contigs.paths contains paths in the assembly graph corresponding to contigs.fasta (see details below)

/scaffolds.paths contains paths in the assembly graph corresponding to scaffolds.fasta (see details below)

序列ID說明:

>NODE_3_length_237403_cov_243.207_ID_45

3 表示 contig/scaffold的順序號;237403 表示序列長度;   243.207 表示k-mer的覆蓋深度(一般情況下會低于read的覆蓋深度)

組裝結果評估:

可以使用QUAST 軟件進行結果的統計(N50,maximum contig length,GC% 等)

PREFIX=/ /bin/software/SPAdes-3.10.1/spades_compile.sh

taskSPAdes-dataTypetaskSPAdes-dataType

datadict_getlsDataValues/taskSPAdes-dataType

SPAdes v3.10.1 詳細參數

SPAdes genome assembler v3.10.1

Usage: /home/novelbio/bianlianle/software/BacteriaAssemble/SPAdes-3.10.1-Linux/bin/spades.py [options] -o

Basic options:

-odirectory to store all the resulting files (required)

--sc this flag is required for MDA (single-cell) data

--meta this flag is required for metagenomic sample data

--rna this flag is required for RNA-Seq data

--plasmid runs plasmidSPAdes pipeline for plasmid detection

--iontorrent this flag is required for IonTorrent data

--test runs SPAdes on toy dataset

-h/--help prints this usage message

-v/--version prints version

Input data:

--12file with interlaced forward and reverse paired-end reads

-1file with forward paired-end reads

-2file with reverse paired-end reads

-sfile with unpaired reads

--pe<#>-12file with interlaced reads for paired-end library number <#> (<#> = 1,2,..,9)

--pe<#>-1file with forward reads for paired-end library number <#> (<#> = 1,2,..,9)

--pe<#>-2file with reverse reads for paired-end library number <#> (<#> = 1,2,..,9)

--pe<#>-sfile with unpaired reads for paired-end library number <#> (<#> = 1,2,..,9)

--pe<#>-orientation of reads for paired-end library number <#> (<#> = 1,2,..,9;= fr, rf, ff)

--s<#>file with unpaired reads for single reads library number <#> (<#> = 1,2,..,9)

--mp<#>-12file with interlaced reads for mate-pair library number <#> (<#> = 1,2,..,9)

--mp<#>-1file with forward reads for mate-pair library number <#> (<#> = 1,2,..,9)

--mp<#>-2file with reverse reads for mate-pair library number <#> (<#> = 1,2,..,9)

--mp<#>-sfile with unpaired reads for mate-pair library number <#> (<#> = 1,2,..,9)

--mp<#>-orientation of reads for mate-pair library number <#> (<#> = 1,2,..,9;= fr, rf, ff)

--hqmp<#>-12file with interlaced reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)

--hqmp<#>-1file with forward reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)

--hqmp<#>-2file with reverse reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)

--hqmp<#>-sfile with unpaired reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)

--hqmp<#>-orientation of reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9;= fr, rf, ff)

--nxmate<#>-1file with forward reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9)

--nxmate<#>-2file with reverse reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9)

--sangerfile with Sanger reads

--pacbiofile with PacBio reads

--nanoporefile with Nanopore reads

--tslrfile with TSLR-contigs

--trusted-contigsfile with trusted contigs

--untrusted-contigsfile with untrusted contigs

Pipeline options:

--only-error-correction runs only read error correction (without assembling)

--only-assembler runs only assembling (without read error correction)

--careful tries to reduce number of mismatches and short indels

--continue continue run from the last available check-point

--restart-fromrestart run with updated options and from the specified check-point ('ec', 'as', 'k', 'mc')

--disable-gzip-output forces error correction not to compress the corrected reads

--disable-rr disables repeat resolution stage of assembling

Advanced options:

--datasetfile with dataset description in YAML format

-t/--threadsnumber of threads

[default: 16]

-m/--memoryRAM limit for SPAdes in Gb (terminates if exceeded)

[default: 250]

--tmp-dirdirectory for temporary files

[default:/tmp]

-k comma-separated list of k-mer sizes (must be odd and

less than 128) [default: 'auto']

--cov-cutoffcoverage cutoff value (a positive float number, or 'auto', or 'off') [default: 'off']

--phred-offsetPHRED quality offset in the input reads (33 or 64)

[default: auto-detect]