Dot Plot 绘制
点阵图通常用于直观地比较两组序列,可视化呈现碱基的插入、删除、反转或者重复。它们可以使用可变的线条粗细、线条形状或者颜色来表示相似性差异。
前言
现有的点阵图绘制工具可分为两代。
一种是 Unix 命令行工具生成静态图形。其中包括 tupple_plot 和 dot-matrix 它们通常将两个处理步骤链接在一起,第一步生成的文件将作为第二步的输入文件,从而生成图像。其致命缺点是 仅限于单条序列 (fasta) ,且不能与建立的图像进行交互。
第二代软件包则是采用 java 开发,以便独立于平台与用户交互。包括 JDotter 、Gepard 和 r2cat 。这一代 Dot Plot 绘制工具允许用户进行交互,对用户来说这是相当友好的。可以根据自己的需求对生成的图像进一步修饰。
新一代的点阵图可视化工具是基于 JavaScript,不过用户在上传坐标和索引文件之前必须先生成坐标和索引文件,才能渲染点阵图。早期的这一代工具:https://dnanexus.github.io/dot/
D-GENIES
今天的主角是 D-GENIES,一个交互式、快速且易于使用的独立的 Web应用程序。D-GENIES 能够在 1h 10 min 内生成完整的人类与黑猩猩基因组点阵图。
其中序列比对程序采用的是 minimap2 ,适合大型基因组的序列比对。
D-GENIES 适配 Unix 和 Windows;当然也有网页端的。详情请移步:D-GENIES - Dotplot large Genomes in an Interactive, Efficient and Simple way (inrae.fr)
这里我们尝试一下网页端的 D-GENIES:

页面十分简洁,允许上传的文件格式有:.fa .fasta .fna .fa.gz .fasta.gz .fna.gz
填写了邮箱,任务完成之后便会收到邮件通知,还是很方便的,且支持上传的 fasta 文件高达 3Gb。而对于人类基因组或其他大型基因组的 Dot Plot 可以选择本地的 D-GENIES。
Submit 之后就能看到序列文件在缓慢上传中(这将取决于你的网速)

结果解读
强烈建议将序列文件进行压缩之后再上传,因为 D-GENIES 服务器在国外,网速还是相对慢的,压缩文件可以为我们节省很多时间。文件上传之后,到出结果是很快的,几百兆的序列在十几分钟之内就能将点阵图绘制成功,所以我们没必要将时间浪费在文件上传上。

上图与上面上传的文件无关(我是另外找的两个序列)。
D-GENIES 运行还是很快的,网络稳定的情况下,200 Mb 基因组在十分钟内就能绘制出 Dot-Plot。接下来我们来看看上面的点阵图。上图便是 D-GENIES 的结果页面,你还可以进行 Strong precision — 只显示精度高的点,即隐藏相似度低于 75% 的点;Sort contigs — 对 contigs 进行排序;Hide noise — 隐藏噪点;Summary — 统计整体的 identity 分布情况。

此外,还可以将生成的点阵图保存各种格式,如 png、svg 等。
Dot Plot 解读
这一部分将记录 Dot-Plot 能传递的信息有哪些,参考链接:D-GENIES - Dotplot large Genomes in an Interactive, Efficient and Simple way (inra.fr)
点阵图是一种递归图,在生物信息学中,可以比较两个生物序列之间并识别它们之间的相似性区域。
Match (匹配)
当两个生物序列相似度很高时,它们被认为是相同的,即两者是 Match。

Gap(空位)
点图可用于检测两个样本之间的间隙:仅存在于一个样本中、两个匹配区域之间的小序列。

Inversion(倒置)
两个样本中存在但顺序不同的序列。

Repeats(重复)
点图可用于检测重复区域:在样本中重复多次的序列。

参考文献
[2] D-GENIES - Dotplot large Genomes in an Interactive, Efficient and Simple way (inra.fr)
[3] D-GENIES - Dotplot large Genomes in an Interactive, Efficient and Simple way (inra.fr)