欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

单细胞免疫组化库 VDJ - CellRanger 结果解读(III)

最编程 2024-03-02 13:56:20
...

一、outs目录概括

以下是10X官方给出的一个典型的vdj运行后的output 目录:

$ cd /home/jdoe/runs
$ cellranger vdj --id=sample345 \
                 --reference=/opt/refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0 \
                 --fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
                 --sample=mysample \
 
Martian Runtime - v4.0.6
 
Running preflight checks (please wait)...
yyyy-mm-dd hh:mm:ss [runtime] (ready)           ID.sample345.SC_VDJ_ASSEMBLER_CS.VDJ_PREFLIGHT
yyyy-mm-dd hh:mm:ss [runtime] (run:local)       ID.sample345.SC_VDJ_ASSEMBLER_CS.VDJ_PREFLIGHT.fork0.chnk0.main
yyyy-mm-dd hh:mm:ss [runtime] (ready)           ID.sample345.SC_VDJ_ASSEMBLER_CS.VDJ_PREFLIGHT_LOCAL
...
 
Outputs:
- Run summary HTML:                                 /home/jdoe/runs/sample345/outs/web_summary.html
- Run summary CSV:                                  /home/jdoe/runs/sample345/outs/metrics_summary.csv
- Clonotype info:                                   /home/jdoe/runs/sample345/outs/clonotypes.csv
- Filtered contig sequences FASTA:                  /home/jdoe/runs/sample345/outs/filtered_contig.fasta
- Filtered contig sequences FASTQ:                  /home/jdoe/runs/sample345/outs/filtered_contig.fastq
- Filtered contigs (CSV):                           /home/jdoe/runs/sample345/outs/filtered_contig_annotations.csv
- All-contig FASTA:                                 /home/jdoe/runs/sample345/outs/all_contig.fasta
- All-contig FASTA index:                           /home/jdoe/runs/sample345/outs/all_contig.fasta.fai
- All-contig FASTQ:                                 /home/jdoe/runs/sample345/outs/all_contig.fastq
- Read-contig alignments:                           /home/jdoe/runs/sample345/outs/all_contig.bam
- Read-contig alignment index:                      /home/jdoe/runs/sample345/outs/all_contig.bam.bai
- All contig annotations (JSON):                    /home/jdoe/runs/sample345/outs/all_contig_annotations.json
- All contig annotations (BED):                     /home/jdoe/runs/sample345/outs/all_contig_annotations.bed
- All contig annotations (CSV):                     /home/jdoe/runs/sample345/outs/all_contig_annotations.csv
- Barcodes that are declared to be targetted cells: /home/jdoe/runs/sample345/outs/cell_barcodes.json
- Clonotype consensus FASTA:                        /home/jdoe/runs/sample345/outs/consensus.fasta
- Clonotype consensus FASTA index:                  /home/jdoe/runs/sample345/outs/consensus.fasta.fai
- Contig-consensus alignments:                      /home/jdoe/runs/sample345/outs/consensus.bam
- Contig-consensus alignment index:                 /home/jdoe/runs/sample345/outs/consensus.bam.bai
- Clonotype consensus annotations (CSV):            /home/jdoe/runs/sample345/outs/consensus_annotations.csv
- Concatenated reference sequences:                 /home/jdoe/runs/sample345/outs/concat_ref.fasta
- Concatenated reference index:                     /home/jdoe/runs/sample345/outs/concat_ref.fasta.fai
- Contig-reference alignments:                      /home/jdoe/runs/sample345/outs/concat_ref.bam
- Contig-reference alignment index:                 /home/jdoe/runs/sample345/outs/concat_ref.bam.bai
- Loupe V(D)J Browser file:                         /home/jdoe/runs/sample345/outs/vloupe.vloupe
- V(D)J reference:
    fasta:
      regions:       /home/jdoe/runs/sample345/outs/vdj_reference/fasta/regions.fa
      donor_regions: /home/jdoe/runs/sample345/outs/vdj_reference/fasta/donor_regions.fa
    reference: /home/jdoe/runs/sample345/outs/vdj_reference/reference.json
- AIRR Rearrangement TSV:                           /home/jdoe/runs/sample345/outs/airr_rearrangement.tsv
- All contig info (ProtoBuf format):                /home/jdoe/runs/sample345/outs/vdj_contig_info.pb

Waiting 6 seconds for UI to do final refresh.
Pipestance completed successfully!

二、web_summary.html

文件web_summary.html汇总分析结果。如果在运行期间检测到问题,此页面上会显示warning或error 。

  • Reads Mapped to Any V(D)J Gene:比例越高,效果越好,一般大于60%,如果这个值比较低,可能是PCR扩增环节的循环数不够。
  • V(D)J Expression:这部分值取决于样本,通常能观察到TRB基因的表达大于TRA,Ig通常比TCR表达量高。
    image.png
  • Paired Clonotype Diversity:可评估样本中的克隆多样性,如果该值为1,那么代表样本中只有1中克隆型存在
    image.png
  • Fraction Reads in Cells:与细胞相关的barcodes 的所有reads pairs数除以所有的有效barcodes 的reads pairs数,这个值越高,代表样本质量越好。
    cell calling结果
  • Number of Reads:原始数据的reads pairs的数量。
  • Valid Barcodes:和软件白名单barcode序列一致或只有1个碱基差别的reads百分比。
  • Q30 Bases in Barcode:被识别为细胞的reads的测序不同区段高质量测序的百分比。
    image.png

三、表格结果

1、Clonotype CSV File (clonotypes.csv)

Column Description
clonotype_id 克隆型的 ID,按照1,2,3依次排列。
frequency 在细胞中检查出的克隆型数量,侧面部分反映了克隆型的丰度。
proportion 表达克隆型的细胞数占样本细胞总数的比例。
cdr3s_aa CDR3 氨基酸序列。
cdr3s_nt CDR3 核苷酸序列。
inkt_evidence 对于 T 细胞,此列将包含该克隆型是一组 iNKT 细胞的证据(没有则为空白)。 证据是分号分隔的chain:matches列表,其中chain 是TRA 或TRB 之一,matchesgenesjunctiongenes+junction 之一。 有关详细信息,请参阅 iNKT/MAIT
mait_evidence 对于 T 细胞,此列将包含该克隆型是一组 MAIT 细胞的证据(如果有)。 证据是分号分隔的chain:matches列表,其中chain 是TRA 或TRB 之一,matchesgenesjunctiongenes+junction 之一。 有关详细信息,请参阅 iNKT/MAIT

2、Contig Annotation CSV Files (*contig_annotations.csv)

Column Description
barcode barcode名称
is_cell 此barcode是否是一个细胞,True 或 False
contig_id contig 的唯一标识符.
high_confidence True 或 False,指contig是否被高置信度。
length contig 核苷酸的长度.
chain 与 contig 关联的链; 例如,TRATRBIGKIGLIGH。 “Multi”值表示存在来自多个链的片段
v_gene 得分最高的 V 区
d_gene 得分最高的 D 区
j_gene 得分最高的 J 区
c_gene 得分最高的 C 区
full_length contig 是否是全长
productive contig 是否是 productive
fwr1 预测的 FWR1 氨基酸序列
fwr1_nt 预测的 FWR1 核苷酸序列
cdr1 预测的 CDR1 氨基酸序列
cdr1_nt 预测的 CDR1 核苷酸序列
fwr2 预测的 FWR2 氨基酸序列
fwr2_nt 预测的 FWR2 核苷酸序列
cdr2 预测的 CDR2 氨基酸序列
cdr2_nt 预测的 CDR2 核苷酸序列
fwr3 预测的 FWR3 氨基酸序列。
fwr3_nt 预测的 FWR3 核苷酸序列。
cdr3 预测的 CDR3 氨基酸序列。
cdr3_nt 预测的 CDR3 核苷酸序列。
fwr4 预测的 FWR4 氨基酸序列。
fwr4_nt 预测的 FWR4 核苷酸序列。
reads 与此 contig 对齐的reads数。
umis 与此 contig 对齐的不同 UMI 的数量。
raw_clonotype_id 分配此细胞barcode的克隆型的 ID。
raw_consensus_id 此 contig 分配到的一致性序列序列的 ID。
exact_subclonotype_id 分配此细胞barcode的确切亚克隆类型的 ID。

3、Consensus Annotation CSV Files (consensus_annotations.csv)

Column Description
clonotype_id 克隆型的 ID
consensus_id 一致性序列序列的 ID
v_start 一致性序列上 V 区起始位置
v_end 一致性序列上 V 区末端位置
v_end_ref 参考上 V 基因末端位置
j_start 一致性序列上 J 区起始位置
j_start_ref 参考上 J 基因起始位置
j_end 一致性序列上 J 区末端位置
cdr3_start 一致性序列上 CDR3 区域起始位置
cdr3_end 一致性序列上 CDR3 区域末端位置

4、AIRR Rearrangements TSV File (airr_rearrangement.tsv)

Column Description
cell_id Cell barcode 序列
clone_id Clonotype ID.
rev_comp Set to false by default (10x Genomics VDJ sequences are not reverse complemented).
sequence_id 与重排相关的contig的id
sequence 重排的核苷酸序列
sequence_aa 重排的氨基酸序列
productive 重新排列是否有效
v_call 用于重排的对齐 V 基因的名称
v_cigar V 基因比对CIGAR string
v_sequence_start V 区域起始位置的 contig
v_sequence_end V 区域结束位置的 contig
d_call 用于重排的对齐 D 基因的名称
d_cigar D基因比对的CIGAR string
d_sequence_start D 区域起始位置的 contig
d_sequence_end D 区域结束位置的 contig
j_call 用于重排的对齐 J 基因的名称
j_cigar J基因比对的 CIGAR string
j_sequence_start J 区域起始位置的 contig
j_sequence_end J 区域末端位置的 contig
c_call 用于重排的对齐 C基因的名称
c_cigar The CIGAR string of the C gene alignment.
c_sequence_start 1-based index on the contig of the C region start position.
c_sequence_end 1-based index on the contig of the C region end position.
sequence_alignment The aligned sequence of the VDJ rearrangement.
germline_alignment The assembled, aligned, full-length inferred germline sequence of the aligned sequence.
junction The nucleotide sequence of the rearrangement's junction (CDR3).
junction_aa 重排junction (CDR3) 的氨基酸序列
duplicate_count 与此重排相关的 unique molecular 的数量
consensus_count 与此重排相关的reads数
junction_length 重排的连接核苷酸序列的长度
junction_aa_length 重排的连接氨基酸序列的长度
is_cell Is this rearrangement cell-associated?

参考:
官方结果文件说明
Understanding V(D)J Output