There is no royal road to learning.
阅读全文 »

Introduction

SGE(Sun Grid Engine)Sun 网格引擎 是一种来自于 SUN Microsystem 的分布式资源管理和调度系统,它用来在基于 UNIX 的计算环境中优化软件和硬件资源的使用。SGE 能用于查找资源池内的闲置资源并利用这些资源;它同样用于通常的一些事务中,例如管理和调度作业到可用资源中。

阅读全文 »

Introduction

用于查看和处理 SAM 和 BAM 文件;SAM 文件较 BAM 文件大,BAM 文件是 SAM 文件的二进制格式文件,空间占用小,且用于计算时的速度也会大大提升。

SAM 文件可以保留 reads 到参考基因组序列的比对信息;主要由两部分组成:头部(header section)和比对结果部分(alignment section)

阅读全文 »

Introduction

Linux 对于开发人员来讲,是一款必学的操作系统。且现服务器端基本都是部署于 Linux;常见的有 Red HatCentOSUbuntu……

熟悉 Linux 系统下诸多命令的常用用法,在服务器端进行生产时,将会事半功倍;往往一个简单的操作,可以使用很多自己熟悉的方式进行实现;PythonPerlR 可能都可以实现,但是在 Linux 操作系统下,其配套的 shell 不会更香吗?Shell 一行代码能解决的事情,Python 却要一个脚本,怎么想都差点意思。

阅读全文 »

摘要

二倍体个体具有两套遗传信息,一套来自父本,一套来自母本。在大多数二倍体基因组组装中,来自同源染色体的两个同源拷贝被折叠在一起,最终得到一个马赛克 (mosaic) 序列,也被称为伪单倍型 (pseudo-haplotypes),即一套基因组表示两个单倍型信息,缺失了近 50% 的等位变异信息。单倍型基因组信息对于研究基因组如何影响表型差异至关重要。常规二倍体基因组组装缺失的单倍型信息将会影响后续基因注释的准确性,忽略了两个同源染色体之间的差异。本研究介绍了 Gamete binning、FALCON-Phase、Trio binning 和 ALLHiC 4 种用于单倍型基因组组装的方法,旨在获得二倍体两个完整的单倍型基因组,并从连续性、完整性、交换错误率等方面评估其单倍型组装质量。分析整理 4 种组装方法获得不同水平的单倍型基因组,根据不同的测序数据选择合适的单倍型组装方法,比较得出更适合单倍型基因组组装的组装方法,发现 Gamete binning 的整体效果最佳,可以获得染色体水平的单倍型解析基因组,N50 达到了 25Mbp。 ALLHiC 虽然可以得到染色体水平的组装,但对于二倍体基因组只获得了单倍型混合基因组,并没有将两个单倍型完全解析出来。而 FALCON-Phase 和 Trio binning 虽然获得了两个单倍型,但两者组装序列连续性较低,N50 均没有达到兆 (Mb) 级。整理 4 种组装方法的优缺点,尝试寻找一种适合单倍型基因组组装的组装方法,为后续的基因注释等下游分析提供保障。得到两个完整的单倍型基因组序列,有助于了解单倍型之间的等位基因差异影响个体表型差异的机制。

阅读全文 »

1. 介绍

来到这里的你,可能早已阅尽全网各种博客;有中规中矩的样式,专注内容输出的;也有花里胡哨,内容蹩脚的(这不就是我吗?嘿嘿 )。为了与众不同,可以添加各种样式,于是记录如下:

阅读全文 »

Introduction

从公共数据库中下载的 10x 数据,有很大一部分都是以 Bam 文件形式存储。但是在进行后续分析中,基本都是基于 fastq 或 fasta 的,于是我们需要将 Bam 转换成 Fastq。官方提供了 bamtofastq ,用于将 Cell Ranger、Space Ranger、Cell Ranger ATAC、Cell Ranger DNA 和 Long Ranger 生成的 10x BAM 转换回 FASTQ 文件的工具,可用作重新运行分析的输入。

阅读全文 »