Introduction

首先,了解什么是结构变异?

名词解释:

  • Structural Variations (SVs):结构变异
  • Translocation:易位
  • Inversions:倒位
  • Duplication:重复
  • Deletion:缺失
  • Insertion:插入
  • InDel:插入缺失
  • Copy Number Variants(CNVs):拷贝数变异
  • Copy Number Polymorphism(CNP):拷贝数多态性
  • Presence absence Variation(PAV):获得与缺失变异
  • Genomic Imbalances:基因组失衡
  • Single nucleotide polymorphism(SNP):单核苷酸多态性
  • whole-genome alignments(WGA):全基因组比对

SVs 结构变异,包括 长度在 50bp 以上的长片段序列的插入或缺失(Indel)、染色体倒位、序列串联倍增、染色体内部或染色体之间的序列易位、拷贝数变异(CNV)以及一些形式更为复杂的变异。

Indel,插入缺失,指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在 50bp 以下。

CNV 拷贝数变异,一般是指长度为由 kbMb 级别组成大片段序列的拷贝数增加或减少。

SNP,单核苷酸多态性,由单个核苷酸 A、T、G、C 的改变而引起的 DNA 序列的改变,造成个体之间基因组的多样性。SNP 位点的分布是不均匀的,在非编码区比在编码区更为常见;一般来说,自然选择倾向于保留最有利于遗传适应性的 SNP 位点。在人类的遗传变异中,约 90% 为 SNP 变异,也就是说在人类基因组中,每隔 100 至 300 个碱基就会存在一个 SNP 位点。

阅读全文 »

Introduction

Purge Haplotigs 主要用于三代测序数据组装校正,主要服务于高度杂合的基因组组装,以自动重新分配等位基因重叠群(automate the reassignment of allelic contigs)。

原理:通过识别和重新分配等位基因组重叠群来改进基于三代测序的基因组组装的单倍体和二倍体表示。

与基于比对的方法相比,该实现速度快且可以很好地扩展大型基因组,并且不太可能过度清除重复或旁系同源基因。

阅读全文 »

回顾

2022 年 03 月,基于 Hexo+Github-Page 白嫖了一个 Blog,并在 “Theme-Next” 的基础上加入个性化样式,期间不断完善;同时也通过查看他人博客,以及各位大佬对 Theme-Next 的魔改教程,结合自身需求,应用各种插件,最终形成 “JWei’s Blog“。

阅读全文 »

Introduction

Snakemake 用于编写任务流程的一种工具,python 语言编写,可创建 可重复可扩展 的数据分析。同时还可以无缝扩展到服务器、集群、网格和云环境,无需更改工作流定义。

阅读全文 »

Introduction

当我们需要组装一个新物种时,采用各种组装工具进行组装总是需要调各种参数,才能达到我们期望的质量。如设置基因组大小,此外还可能根据基因组的杂合度、重复率等来预览基因组。这里介绍一种基于 k-mer 的基因组分析 — Jellfish + GenomeScope

k-mer 是什么?

对于我们拿到的 illumina 测序数据,迭代选取长度为 k 的序列片段。也就是说 k-mer 是一段碱基的子串。

阅读全文 »