热久久免费视频,神波多一花番号,久久国产影视,调教喷奶水h文

服務(wù)熱線02152235399
當(dāng)前位置:博客 > 單細(xì)胞

單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析(二)

時(shí)間:2019-09-30    |    閱讀量:10836

單細(xì)胞轉(zhuǎn)錄組測(cè)序產(chǎn)生的數(shù)據(jù)是成百上千個(gè)基因在上萬(wàn)個(gè)細(xì)胞中的表達(dá)情況,屬于高維數(shù)據(jù),我們需要對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格的質(zhì)控與過(guò)濾,將合格的數(shù)據(jù)降維到低維子空間,使數(shù)據(jù)可視化。

上一期已經(jīng)帶大家了解了scRNA-Seq數(shù)據(jù)的預(yù)處理,那么本期,小編就來(lái)介紹一下數(shù)據(jù)分析的標(biāo)準(zhǔn)化與聚類(lèi)分析

一、上海烈冰科技數(shù)據(jù)分析流程介紹


二、工具介紹

Seurat_Normalized(標(biāo)準(zhǔn)化)——采用Seurat package對(duì)數(shù)據(jù)進(jìn)行過(guò)濾并校正批次效應(yīng)(Batch Effect),采用PCA算法及tSNE算法對(duì)基因表達(dá)矩陣進(jìn)行降維處理和信息可視化展示。

Seurat_Cluster(聚類(lèi)分析)——根據(jù)基因表達(dá)的情況,通過(guò)無(wú)監(jiān)督聚類(lèi)算法(Graph-based clusteringk-means clustering) 將降維后的細(xì)胞聚類(lèi)分群。再通過(guò)Wilcoxon秩和檢驗(yàn)分析計(jì)算出不同細(xì)胞類(lèi)群的標(biāo)識(shí)基因(Marker Gene),并對(duì)所屬細(xì)胞類(lèi)群進(jìn)行推測(cè)和鑒定。

三、結(jié)果展示

(一) 數(shù)據(jù)標(biāo)準(zhǔn)化

1.線粒體RNA占比:

由于Dead Cell胞內(nèi)RNA會(huì)流出,線粒體RNA占比會(huì)隨之增高,因此我們一般通過(guò)設(shè)定線粒體RNA占比閾值來(lái)過(guò)濾Dead Cell

左圖描述了每個(gè)細(xì)胞線粒體RNA占比—UMI數(shù)量相關(guān)性,紅色和黑色圓點(diǎn)代表兩個(gè)樣本的細(xì)胞。X軸代表每個(gè)細(xì)胞對(duì)應(yīng)的UMI數(shù)量,Y軸代表每個(gè)細(xì)胞線粒體RNA占比;右圖為細(xì)胞線粒體RNA占比分布的Violin圖。

圖中線粒體RNA占比閾值建議設(shè)為0.2,線粒體RNA占比超過(guò)0.2的細(xì)胞認(rèn)為是Dead Cell,可將其過(guò)濾掉。當(dāng)然,不同類(lèi)型的細(xì)胞線粒體RNA占比也不同,例如心肌細(xì)胞、肝細(xì)胞等高代謝、凋亡類(lèi)細(xì)胞,其線粒體RNA占比相對(duì)較高。因此,需要結(jié)合具體的細(xì)胞類(lèi)型來(lái)最終決定線粒體RNA占比的閾值。

2.細(xì)胞的基因數(shù)量:

我們一般通過(guò)設(shè)定細(xì)胞的最小基因數(shù)量去除假細(xì)胞和低質(zhì)量細(xì)胞(Low Quality Cell);通過(guò)設(shè)定細(xì)胞的最大基因數(shù)量可以一定程度上去除雙細(xì)胞(Doublet Cell)。

左圖為每個(gè)細(xì)胞的基因—UMI數(shù)量相關(guān)性分析圖,右圖為每個(gè)細(xì)胞基因數(shù)量分布的Violin圖。圖中基因數(shù)量閾值建議設(shè)定為200-6000,可有效去除假細(xì)胞、低質(zhì)量細(xì)胞和雙細(xì)胞。

3.PCA分析:

該圖主要描述了不同樣本中所有細(xì)胞在PC1PC2(即主成分分析中影響最大的兩個(gè)主成分)所組成的面中的定位情況。

4.t-SNE圖:

主要展示了每個(gè)樣本中所有細(xì)胞的tSNE定位情況、樣本融合情況,以及通過(guò)基因數(shù)量、UMI數(shù)量、線粒體RNA占比進(jìn)行染色的情況,如下所示:

(二)聚類(lèi)分析

1.細(xì)胞分群的t-SNE圖:

該圖代表t-SNE定位并基于Graphcluster或者KMean算法無(wú)監(jiān)督聚類(lèi)后的分群情況。

左圖中cluster8被其他群分割成兩部分,這樣的t-SNE分群結(jié)果并不是特別理想。建議調(diào)整分析時(shí)的resolution參數(shù),將其調(diào)大,使分群更加細(xì)致。將resolution參數(shù)由0.8調(diào)至1.0,得到右圖較好的t-SNE分群結(jié)果。

2. Top20 Marker基因的Heatmap

可觀察特定marker基因在不同cluster的表達(dá)差異,以此初步判斷細(xì)胞類(lèi)型及類(lèi)群合并。采用細(xì)線區(qū)分不同的Cluster,顏色深淺代表基因表達(dá)高低,其中黃色為高表達(dá),暗紅色為低表達(dá)。根據(jù)各cluster的基因表達(dá)的整體類(lèi)似度,下圖可以初步判斷將cluster03合為一群,cluster67合為一群,cluster5812合為一群。

3.Feature plot

該圖主要描繪了選定Cluster Marker 基因在所有單細(xì)胞中的分布情況,更加直觀的了解marker基因的整體表達(dá)情況,用于判定cluster所屬的細(xì)胞類(lèi)型。根據(jù)經(jīng)典特異性marker基因的Feature plot,可以初步判斷出T細(xì)胞(CD3D)、巨噬細(xì)胞(組織樣本C1QA)、B細(xì)胞(CD79A)、成纖維細(xì)胞(DCN)、內(nèi)皮細(xì)胞(VWFCLDN5)及上皮細(xì)胞(KRT18EPCAM)。

4.細(xì)胞類(lèi)型鑒定結(jié)果tSNE圖:

下圖就是原始的tSNE分類(lèi)結(jié)果,共有18個(gè)類(lèi)群,此時(shí)要結(jié)合第3步中Marker基因特異性表達(dá)的結(jié)果對(duì)Cluster進(jìn)行合并。

5.細(xì)胞亞型分群圖:

該圖將012349 Cluster合并為T細(xì)胞(CD3D);將5812 Cluster合并為巨噬細(xì)胞(組織樣本C1QA);將1113 Cluster合并為B細(xì)胞(CD79A);16 Cluster為成纖維細(xì)胞(DCN);14 Cluster為內(nèi)皮細(xì)胞(VWFCLDN5);將67101517 Cluster合并為上皮細(xì)胞(KRT18EPCAM)。

后續(xù)可以將自己關(guān)注的細(xì)胞亞型再次細(xì)分,并進(jìn)行其功能性分析,為解讀生物學(xué)意義細(xì)節(jié)提供基礎(chǔ),后續(xù)講解會(huì)詳細(xì)介紹。


綜上所述,通過(guò)標(biāo)準(zhǔn)化將數(shù)據(jù)過(guò)濾后通過(guò)PCA降維,并形成t-SNE可視化結(jié)果;降維后的矩陣進(jìn)行細(xì)胞聚類(lèi)分析,并計(jì)算出各類(lèi)群的marker基因及表達(dá)量,以鑒定所屬的細(xì)胞類(lèi)型。

細(xì)胞類(lèi)型鑒定后就可以進(jìn)行后續(xù)深層次的擬時(shí)序分析(Pseudotime)、及SCENIC分析。后續(xù)小編將一一講解哦~