软件安装
软件地址在http://www.compgen.uni-muenster.de/tools/teclass/index.hbi?, 由于TEclass这个软件已经许久没有更新了,因此还要讲解下安装步骤。
最近更新了一个2.1.3c, 经过我测试发现,应该就是把之前无法下载URL做了更新。classifiers.tar.gz无更新。
1 | wget http://www.compgen.uni-muenster.de/tools/teclass/download/TEclass-2.1.3.tar.gz |
下载依赖的软件
1 | sh Download_dependencies.sh |
由于代码老旧,部分内容无法自动下载,需要手动下载, 例如librf, blast. 最终要保证文件夹下有如下文件
- libsvm.tar.gz: http://www.csie.ntu.edu.tw/~cjlin/libsvm/
- glimmer.tar.gz: http://ccb.jhu.edu/software/glimmer/
- librf.tar.gz: http://mtv.ece.ucsb.edu/benlee/librf.html
- lvq_pak.tar: http://www.cis.hut.fi/research/som-research/nnrc-programs.shtml
- blast.tar.gz: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED
例如blast
1 | curl -o 'blast.tar.gz' ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.26/blast-2.2.26-x64-linux.tar.gz |
编译依赖的软件
1 | sh Compile_dependencies.sh |
安装TEclass, 这一步可以跳过 RepBase的配置。
1 | perl Configure.pl |
安装预编译的分类器,这一步在TEclass的目录下运行,并解压缩
1 | wget http://www.compgen.uni-muenster.de/tools/teclass/download/classifiers.tar.gz |
测试运行
1 | ./TEclassTest.pl ./testfile.fa |
软件使用
构建分类器
如果你想使用最新的RepBase,那么就需要自己从RepBase下载数据进行构建。
如果是单核处理器,可能要花费数周的时间,所以建议用上你的所有线程。
1 | /TEclassBuild.pl -x 0 -o new_classifiers -p 99 |
重复序列分类
在RepeatModeler建模后,提取Unknown序列使用TEclassTest
进行归类,假如输入文件命名为Modelerunknown.lib
1 | TEclassTest Modelerunknown.lib |
结果在Modelerunknown.lib_xxxx
, xxxx
是你运行日期。
1 | Modelerunknown.lib # 输入文件 |
Modelerunknown.lib.lib
中的fasta会有分类信息,如
1 | >rnd-1_family-12#Unknown ( RepeatScout Family Size = 705, Final Multiple Alignment Size = 88, Localized to 114 out of 117 contigs )|TEclass result: LTR|forward|ORFs: 583..2355:+1 |
需要注意的是,TEclass的输出结果是不被RepeatMasker所识别的,需要你更改原来的#Unknown为你的预测结果才行。
其他参数:
-c
: 训练的分类器所在路径, 默认是TEclass-2.1classifiers
-o
: 输出结果路径,默认在当前文件下新建-r
: 预测输入序列的反向互补序列
参考文献: TEclass: a tool for automated classification of unknown eukaryotic transposable elements