热久久免费视频,神波多一花番号,久久国产影视,调教喷奶水h文

服務(wù)熱線02152235399
當前位置:博客 > 單細胞

單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析(一)

時間:2019-09-30    |    閱讀量:26946

       前幾期小編已經(jīng)連續(xù)分享過很多篇單細胞測序的高分文章,并介紹了單細胞分選平臺的選擇對某些類型細胞捕獲的重要性。本期開始,小編將從數(shù)據(jù)預(yù)處理、標準化及聚類、擬時序、SCENIC分析等幾個方面放送大量數(shù)據(jù)分析干貨,帶領(lǐng)大家深入探索單細胞測序的奧秘。

本期小編主要對scRNA-Seq的數(shù)據(jù)預(yù)處理(質(zhì)控、細胞數(shù)量判斷、多樣本數(shù)據(jù)合并)進行介紹。

一、數(shù)據(jù)預(yù)處理流程

上海烈冰科技作為國內(nèi)一家同時擁有BD Rhapsody10X Genomics雙分選平臺的測序服務(wù)商,針對不同的分選平臺、建庫方法,實戰(zhàn)總結(jié)搭建出不同的數(shù)據(jù)預(yù)處理工作流程。

BD Rhapsody數(shù)據(jù)預(yù)處理流程

10× Genomics數(shù)據(jù)預(yù)處理流程

二、工具介紹

SCFastp——采用fastp軟件對下機原始數(shù)據(jù)進行過濾過短、低質(zhì)量序列及接頭處理等操作。

UMI_tools_whiteList——采用UMI-tools的whiteList功能建立真實細胞條碼的白名單,結(jié)合BD scanner記錄的捕獲細胞來獲得細胞數(shù)。

UMI_Tools_Extract——利用UMI-tools的extract功能根據(jù)上游工具得到的細胞條碼白名單提取測序序列,并對這些序列進行質(zhì)量過濾。然后使用STAR軟件將過濾后的測序序列比對到參考基因組。

UMI_Tools_Counts——利用UMI-tools的FeatureCounts功能統(tǒng)計細胞內(nèi)基因表達水平。

ScCountsCombine——BD Rhapsody多樣本數(shù)據(jù)合并的工具。

CellRangerCounts——10× Genomics的數(shù)據(jù)采用cellranger count(3.1.0版本)工具進行細胞基因表達水平統(tǒng)計。

CellRangerAggregate——10× Genomics的數(shù)據(jù)采用cellranger aggr(3.1.0版本)工具進行樣本數(shù)據(jù)合并。

三、結(jié)果評估

1. 質(zhì)控:

單細胞測序產(chǎn)生數(shù)億的結(jié)果序列,不可避免的會出現(xiàn)低質(zhì)量的測序結(jié)果,存在各種情況的序列污染。因此序列過濾及質(zhì)量評估就變得極為重要。

序列質(zhì)量主要通過測序質(zhì)量值Q20/Q30的占比來表征,即堿基測序結(jié)果的錯誤率在1% / 0.1%以下的比例。理想的測序結(jié)果reads的堿基質(zhì)量均高于30。


2. 細胞數(shù)量判斷:

主要是對細胞數(shù)量、基因表達量、測序質(zhì)量進行整體描述

1) 過濾標準:

由于細胞破碎后游離RNA會釋放到環(huán)境或微孔中,并且測序中也會存在一些死細胞,導(dǎo)致數(shù)據(jù)存在background值。因此,我們需要設(shè)定一定的標準來過濾掉假細胞或死細胞。

10× Genomics為例,細胞數(shù)量判斷主要通過分析UMI Counts-Barcode曲線斜率拐點,當存在多個斜率拐點的時候,結(jié)合預(yù)期UMI=500時的細胞數(shù)量進行過濾。當?shù)谝粋€斜率拐點低于UMI=500的時候,選擇UMI=500作為細胞的判斷的標準;否則,選擇和預(yù)期細胞數(shù)量最為接近的拐點作為細胞判斷的位置。這樣我們能夠有效獲得真實的并且在基因數(shù)量上可以分析的數(shù)據(jù)。

2) 定量reads數(shù)、基因表達量及細胞數(shù)量:

a) Mean Reads per Cell:以捕獲5000個細胞、100G的測序量為標準,每個細胞的reads數(shù)大約在50k左右;

b) Median Genes per Cell:每個細胞的基因中位數(shù)取決于樣本的細胞類型,例如在成熟B、T、粒細胞數(shù)量較多的組織中,由于這些類型細胞表達的基因數(shù)普遍較少,導(dǎo)致基因中位數(shù)較低。而像腫瘤組織、或者體外培養(yǎng)的干細胞/類器官組織,它們的基因表達數(shù)較高,甚至可以超過1W,這就導(dǎo)致該類樣本基因中位數(shù)非常高。因此,我們確認細胞數(shù)量以及基因中位數(shù)時,需考慮實際組織的細胞類型組成情況。

c) Fraction Reads in Cells:每個樣本過濾后細胞的reads數(shù)占總reads數(shù)(含背景)的百分比,反映的是測序數(shù)據(jù)的利用率。該參數(shù)的理想值應(yīng)達到80%以上。

3.多樣本數(shù)據(jù)合并:

Fraction of Reads Kept:多樣本進行數(shù)據(jù)合并時,各樣本根據(jù)Mapped Barcoded Reads per Cell數(shù)量計算出來的數(shù)據(jù)利用率。若各樣本間Fraction of Reads Kept數(shù)值相差很大,需要進行Downsample處理,以數(shù)據(jù)量少的樣本為基準將不同樣本中細胞測序深度標化到同一水平,從而避免因測序深度差異導(dǎo)致的基因檢測數(shù)量、基因表達水平的差異。

總的來說,單細胞測序數(shù)據(jù)分析的預(yù)處理會對讀取的序列進行過濾、接頭處理等質(zhì)控工作;還會從細胞的基因表達數(shù)量、豐度及線粒體基因占比等方面對細胞進行過濾;數(shù)據(jù)合并時需要注意各樣本數(shù)據(jù)的利用率。

數(shù)據(jù)預(yù)處理完成后,接下來就要正式進入分析流程了。下期小編將為大家講解scRNA-Seq中數(shù)據(jù)標準化、降維及聚類分析