Samtools 的使用

Introduction

用于查看和处理 SAM 和 BAM 文件;SAM 文件较 BAM 文件大,BAM 文件是 SAM 文件的二进制格式文件,空间占用小,且用于计算时的速度也会大大提升。

SAM 文件可以保留 reads 到参考基因组序列的比对信息;主要由两部分组成:头部(header section)和比对结果部分(alignment section)

没有 header 的 SAM 文件并不能转换成 BAM 文件

Getting Started

1. 查看 bam 文件头部

1
2
3
4
5
6
7
8
9
$ samtools view -h test.bam | head
## output
@HD VN:1.6 SO:coordinate
@SQ SN:chrM LN:16571
@SQ SN:chr1 LN:249250621
@SQ SN:chr2 LN:243199373
.......
@RG ID:BJ22CM016576_T PL:Illumina LB:lib SM:BJ22CM016576_T ## bwa -R 给定的参数;如:/software/bwa/bwa-0.7.17/bwa mem -t 4 -M -k 30 -R '@RG\tID:BJ22CM016576_T\tPL:Illumina\tLB:lib\tSM:BJ22CM016576_T' ....
@PG ID:bwa PN:bwa ......
  • 解释:
    • HD:VN-版本号;SO-排列方式
    • SQ:SN-参考序列序号;LN-长度
    • RG:ID-样本信息;
    • PG:ID-比对工具;以及比对时运行的命令

参考链接

[1] https://www.jianshu.com/p/68f6e35fa4a2