使用TEclass对TE一致性序列进行分类

软件安装

软件地址在http://www.compgen.uni-muenster.de/tools/teclass/index.hbi?, 由于TEclass这个软件已经许久没有更新了,因此还要讲解下安装步骤。

最近更新了一个2.1.3c, 经过我测试发现,应该就是把之前无法下载URL做了更新。classifiers.tar.gz无更新。

1
2
3
wget http://www.compgen.uni-muenster.de/tools/teclass/download/TEclass-2.1.3.tar.gz
tar xf TEclass-2.1.3.tar.gz
cd TEclass-2.1.3

下载依赖的软件

1
sh Download_dependencies.sh

由于代码老旧,部分内容无法自动下载,需要手动下载, 例如librf, blast. 最终要保证文件夹下有如下文件

例如blast

1
curl -o 'blast.tar.gz' ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.26/blast-2.2.26-x64-linux.tar.gz

编译依赖的软件

1
sh Compile_dependencies.sh

安装过程

安装TEclass, 这一步可以跳过 RepBase的配置。

1
perl Configure.pl

安装预编译的分类器,这一步在TEclass的目录下运行,并解压缩

1
2
3
4
wget http://www.compgen.uni-muenster.de/tools/teclass/download/classifiers.tar.gz
mv classifiers.tar.gz classifiers/
cd classifiers
tar xf classifiers.tar.gz

测试运行

1
./TEclassTest.pl ./testfile.fa

软件使用

构建分类器

如果你想使用最新的RepBase,那么就需要自己从RepBase下载数据进行构建。

如果是单核处理器,可能要花费数周的时间,所以建议用上你的所有线程。

1
/TEclassBuild.pl -x 0  -o new_classifiers -p 99

重复序列分类

在RepeatModeler建模后,提取Unknown序列使用TEclassTest进行归类,假如输入文件命名为Modelerunknown.lib

1
TEclassTest Modelerunknown.lib

结果在Modelerunknown.lib_xxxx, xxxx是你运行日期。

1
2
3
4
Modelerunknown.lib # 输入文件
Modelerunknown.lib.html
Modelerunknown.lib.lib # 输出结果
Modelerunknown.lib.stat #结果统计

Modelerunknown.lib.lib中的fasta会有分类信息,如

1
>rnd-1_family-12#Unknown ( RepeatScout Family Size = 705, Final Multiple Alignment Size = 88, Localized to 114 out of 117 contigs )|TEclass result: LTR|forward|ORFs: 583..2355:+1

需要注意的是,TEclass的输出结果是不被RepeatMasker所识别的,需要你更改原来的#Unknown为你的预测结果才行。

其他参数:

  • -c: 训练的分类器所在路径, 默认是TEclass-2.1classifiers
  • -o: 输出结果路径,默认在当前文件下新建
  • -r: 预测输入序列的反向互补序列

参考文献: TEclass: a tool for automated classification of unknown eukaryotic transposable elements