生物信息学格式和转换工具整理

生信会用到很多格式,不同软件会要求不同的输入格式,所以得要自己整理下。

FASTA和FASTQ

SAM和BAM

GTF和GFF

BED

BedGraph

Wig和BigWig

WIG(wiggle)设计的目的是在基因组浏览器上展示连续性数据。Wiggle数据要求元素等长。对于稀疏或者元素之间不等长,建议用BedGraph格式。而BigWig则是二进制版,体积小,适合传输。

举个例子

1
2
3
4
5
6
variableStep chrom=chr2
300701 12.5
300702 12.5
300703 12.5
300704 12.5
300705 12.5

1
2
variableStep chrom=chr2 span=5
300701 12.5

在基因组浏览器上展示时都是2号染色体的300701-300705的值为12.5