一般基因组文章都会有下面这种酷炫图,用来描述基因组的基因密度分布,转座子的密度分布,和其他物种或者多倍体的多套染色体间的共线性关系,以及其他各种你只要测序就能加上的信息,比如说你要是测了ATAC-seq,加上全基因组开放状态,要是测了多个组织,多个时期的RNA-seq,那就加上热图展现这种变化关系。
当然除了基因组文章,其他类型的文章也可以考虑这种图。接下来我将会写一些列教程(可能有视频),通过教别人学Circos的方式来自学Circos。
环境配置
建议在Linux环境下配置Circos,之后只要用conda就能配置好分析环境
1 | # 安装 |
测试软件安装结果
1 | # 测试circos |
可以从http://circos.ca/software/download/下载官方的教程文件,分别是
处理过程
Circos依赖于一些列的配置文件,用来定义复杂图形的各个部分,最终加工成图形。
因此,用Circos画图是一个不断增添内容的过程,你要不断根据输出结果来调整输入参数。
并且整个分析中,你还要拥有过关的数据预处理的能力,这是因为Circos不是数据处理工具,它只是展示你已有的数据。
快速开始
不管怎么样,先快速绘制出一个Circos图再说。
果子老师说过,我们不是先成为了老司机才开车,而是开车多了才成为了老司机。
第一步,先新建一个文件夹,用于存放本次分析的所有数据和配置文件
1 | mkdir -p my_first_circos && cd my_first_circos |
然后用vim karyotype.tair10.txt
编辑文本,新增如下内容
1 | chr - chr1 chr1 0 30427617 black |
之后创建一个circos.conf
文件,用于增加各类配置参数
1 | touch circos.conf |
用vim circos.conf
,增加我们的第一条记录,染色体信息
1 | karyotype = karyotype.tair10.txt |
然而要想真正的出图,还需要增加至少以下配置语句才行
1 | <ideogram> |
在当前路径下运行circos -conf circos.conf
, 最终效果图如下
虽然图比较丑,但是至少我们成功运行了人生第一次的circos, 这就相当于买了一套毛坯房,后面要做的事情就是不断装修。
比如说,我们至少可以让不同染色体拥有不同的颜色,修改之前的karyotype.tair10.txt
中的最后一列
1 | chr - chr1 chr1 0 30427617 chr1 |
在当前路径下运行circos -conf circos.conf
, 最终效果图如下
这就引出了第一个知识点,配色。
为了实现配色,需要circos.conf
文件了有一个和配色有关的语句
1 | <<include etc/colors_fonts_patterns.conf>> |
这里<<>>
表示通过相对路径的方式加载另外一个配置文件,它的实际路径是和circos
所在目录同级的etc
,可用下面语句看到colors_fonts_patterns.conf
的内容
1 | circos_path=$(dirname `which circos`) |
你会发现,这个文件里还嵌套其他的配置文件。最终通过层层排查,你才知道etc/colors.ucsc.conf
才是实际定义我们填写的颜色名的文件,而颜色的定义如下:
1 | chr1 = 153,102,0 |
还有一个问题,为什么这里用的是两个尖括号<<
,而不是一个尖括号<
呢?这是因为<
已经被用于分隔不同的语句块,如下语句就表示etc/image.conf
里的配置信息是用来调整和image
有关的配置,而不是去调整ideogram
的配置。
1 | <image> |
以上是快速开始部分,后续将会在此基础上,做出发表级别的图。