单倍型基因组组装工具 --- Falcon phase

Introduction

单倍型解析的基因组组装对于了解变体组合如何影响表型非常重要。Falcon phase 使用超远程 Hi-C 染色质相互作用数据将部分定相二倍体组装的 phase blocks 扩展到染色体/scaffolds 水平;使用 Hi-C reads 中固有的定相信息,跳过变体调用,并降低定相的计算复杂度。

Falcon phase 尤其是在杂合度较高的样本中表现最好。

Falcon phase 可以有效的解决相邻单倍体之间的相位未知的限制,因为其没有通过调用或定相相对于现有参考基因组的 SNP variants,而是通过使用来自独特的、单倍型特异性的比对上的 Hi-C reads 中的超远程信息(>1Mb)和随机算法,用于在 contigs 之间建立单倍体之间的正确联系,最终得到两个全长伪单倍型。

此外,Falcon phase 的分型效果依赖于 Falcon unzip 的分型长读的组装结果;也就是说,Falcon phase 需要结合 Falcon 组装套件一起使用,才能得到最佳的分型效果。

Falcon phase 组装策略

a、“long reads” 组装一般得到的是 主要 contigs 和较短的交替单倍体;蓝色为 contigs;红色为 haplotig(单倍体)。

b、单倍体与 contigs 之间对齐;

c、按照与单倍体对齐的 contigs 的开始与结束位置对 contig 进行切割。便产生了(phase blocks + collapsed haplotypes)

d、Hi-C reads 比对到被切碎的 contigs;并进行过滤以保留单倍型特异性的比对。

e、phase blocks 通过定相算法分配到 0/1 状态。

f、最终输出的两个全长伪单倍型。(phase0/phase1)

References

Kronenberg, Z. N., Rhie, A., Koren, S., Concepcion, G. T., Peluso, P., Munson, K. M., Porubsky, D., Kuhn, K., Mueller, K. A., Low, W. Y., Hiendleder, S., Fedrigo, O., Liachko, I., Hall, R. J., Phillippy, A. M., Eichler, E. E., Williams, J. L., Smith, T., Jarvis, E. D., Sullivan, S. T., … Kingan, S. B. (2021). Extended haplotype-phasing of long-read de novo genome assemblies using Hi-C. Nature communications, 12(1), 1935. https://doi.org/10.1038/s41467-020-20536-y