SyRI --- 从全基因组组装中识别基因组重排和局部序列差异
Introduction
首先,了解什么是结构变异?
名词解释:
- Structural Variations (SVs):结构变异
- Translocation:易位
- Inversions:倒位
- Duplication:重复
- Deletion:缺失
- Insertion:插入
- InDel:插入缺失
- Copy Number Variants(CNVs):拷贝数变异
- Copy Number Polymorphism(CNP):拷贝数多态性
- Presence absence Variation(PAV):获得与缺失变异
- Genomic Imbalances:基因组失衡
- Single nucleotide polymorphism(SNP):单核苷酸多态性
- whole-genome alignments(WGA):全基因组比对
SVs
结构变异,包括 长度在 50bp
以上的长片段序列的插入或缺失(Indel
)、染色体倒位、序列串联倍增、染色体内部或染色体之间的序列易位、拷贝数变异(CNV
)以及一些形式更为复杂的变异。
Indel
,插入缺失,指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在 50bp
以下。
CNV
拷贝数变异,一般是指长度为由 kb
到 Mb
级别组成大片段序列的拷贝数增加或减少。
SNP
,单核苷酸多态性,由单个核苷酸 A、T、G、C 的改变而引起的 DNA 序列的改变,造成个体之间基因组的多样性。SNP 位点的分布是不均匀的,在非编码区比在编码区更为常见;一般来说,自然选择倾向于保留最有利于遗传适应性的 SNP 位点。在人类的遗传变异中,约 90% 为 SNP 变异,也就是说在人类基因组中,每隔 100 至 300 个碱基就会存在一个 SNP 位点。