结合 Conda 手动安装 RepeatMasker

1、背景

RepeatMasker 是一个广泛使用的生物信息学工具,用于识别和屏蔽(mask)基因组序列中的 重复序列(repeats) 。在使用过程中需要调用重复序列数据库(Repbase 和 Dfam),如果使用Conda安装的话会出现许多问题,因此推荐手动安装。在此记录我手动安装RepeatMasker的流程,希望对各位同学有所帮助。安装流程主要参考官网

2、安装依赖

2.1 基于Conda

创建Conda环境并安装依赖软件

conda create -n annot python=3.9 perl=5.32.1 gcc=13.3.0
conda install -c conda-forge h5py
conda install rmblast hmmer=3.2.1

2.2 TRF

我看有的其它博客(RepeatMasker安装和使用经验(自用))是直接安装的;但是我在实际安装时,conda安装的TRF会导致报错,因此我选择手动安装。嫌麻烦也可以使用Conda安装并在Repeatmasker交互安装过程中手动指定TRF路径试一试,不行再考虑手动安装。
TRF需要automake(1.16以上)依赖

wget https://ftp.gnu.org/gnu/automake/automake-1.16.5.tar.gz
tar -zxf automake-1.16.5.tar.gz
cd automake-1.16.5
	## 一般情况不需要(我用的服务器系统有点老且没人维护),有权限可以尝试。
	sudo yum groupinstall "Development Tools" -y
	sudo yum install autoconf libtool perl m4 wget -y 
mkdir build
./configure --prefix=/public/home/student0/software/softhouse/base/automake-1.16.5/build
make
make install
cd apps/
## 使用find快速将软件链接到目标文件夹
find /public/home/student0/software/softhouse/base/automake-1.16.5/build/bin -maxdepth 1 -type f -perm /u=x -exec ln -s {} ./ \;

安装TRF

git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF
mkdir build && cd build
../configure
make
## 可以不install,直接使用src文件夹中的软件即可
ln -s /public/home/student0/software/softhouse/bioinfo/TRF/build/src/trf ./   

3、下载依赖数据库

需要注意的是:Repeatmasker依赖两个重复序列数据库,需要提前下载到服务器:

  • Repbase:是一个收费数据库,现在官网已经无法免费下载了;这个数据库较小,但却是必需的,需要自己找资源(有需要留言,直接给链接到这里不大好)。
  • Dfam:较新的一个免费重复序列数据库,可以直接通过下载链接下载到服务器。数据集很大,全部解压缩的话占储存 917G(2025.3.2),根据自身需求选择需要的重复序列数据集。可以查看下载地址中的README.txt了解每个数据集对应哪些生物门类。

以下是我批量下载的简单方法,供参考:
1、下载

for i in $(seq 0 16)
do
	echo "Downloading dfam39_full.${i}.h5.gz"
	wget -c https://www.dfam.org/releases/current/families/FamDB/dfam39_full.${i}.h5.gz
	wget -c https://www.dfam.org/releases/current/families/FamDB/dfam39_full.${i}.h5.gz.md5
done

2、检验完整性(一定要做,出错可能导致分析结果不准确)

md5sum -c Dfam*.hmm.gz.md5

3、解压缩

gunzip *.gz  ## 不会保留原始gz文件
## 保留原始.gz文件
for file in *.gz; do
    gunzip -c "$file" > "${file%.gz}"
done

全流程代码(建议先保留.gz文件,确认流程没问题再删除)

## 基于wget的bash文件
#!/bin/bash
for i in $(seq 0 16)
do
	echo "Downloading dfam39_full.${i}.h5.gz"
	wget -c https://www.dfam.org/releases/current/families/FamDB/dfam39_full.${i}.h5.gz
	wget -c https://www.dfam.org/releases/current/families/FamDB/dfam39_full.${i}.h5.gz.md5
	md5sum -c dfam39_full.${i}.h5.gz.md5
	gunzip -c dfam39_full.${i}.h5.gz > dfam39_full.${i}.h5
	echo "dfam39_full.${i} has done."
done

4、安装Repeatmasker

Repeatmasker的安装是交互式的,自由度很高,根据需求进行相关设置;推荐参考github的INSTALL文件官网,在下载的软件文件夹中也有INSTALL文件。
首先下载RepeatMasker软件包

wget https://www.repeatmasker.org/RepeatMasker/RepeatMasker-4.1.8.tar.gz
tar -zxf RepeatMasker-4.1.8.tar.gz

4.1 配置 RepBase 数据库

将RepBase数据库放到RepeatMasker的主文件夹并解压缩,数据库会自动分配到对应子目录;一定不要到Libraries文件夹解压缩。以下代码来自官网,根据情况自行更改

cp RepBaseRepeatMaskerEdition-20181026.tar.gz /usr/local/RepeatMasker/
cd /usr/local/RepeatMasker
gunzip RepBaseRepeatMaskerEdition-20181026.tar.gz
tar xvf RepBaseRepeatMaskerEdition-20181026.tar
rm RepBaseRepeatMaskerEdition-20181026.tar

4.2 配置 dfam 数据库

将提前下载的dfam数据库(我这里将所有数据库合成一个压缩包)移到RepeatMasker/Libraries/famdb 文件夹。

cp ~/db/dfam/dfam_2025.3.20.tar.gz 
/public/home/student0/software/softhouse/bioinfo/RepeatMasker/Libraries/famdb   
tar -zxf dfam_2025.3.20.tar.gz

4.3 交互式安装

配置好数据库后即可正式安装。

cd /public/home/student0/software/softhouse/bioinfo/RepeatMasker
perl ./configure 

会出现交互式安装界面。例如,设置搜索引擎的交互界面如下,根据需求设置:
在这里插入图片描述
选择对应数字并回车后便进入路径选择界面,能识别到的软件路径会显示在前面,复制即可:
在这里插入图片描述
每次加入新的搜索引擎都会询问是否设置为默认:
在这里插入图片描述
检验是否成功安装并加到环境变量

cd /public/home/student0/software/softhouse/bioinfo/RepeatMasker
./RepeatMasker -h  ## 是否成功弹出帮助信息
cd /public/home/student0/software/apps
find /public/home/student0/software/softhouse/bioinfo/RepeatMasker -maxdepth 1 -type f -perm /u=x -exec ln -s {} ./ \;

补充

1、添加Repeatmasker的perl 模块加入环境中,否则util/目录下的perl程序无法正常运行,以下是我添加环境的例子,请根据实际情况进行修改:

conda info --envs  ## 找到环境对应的路径
vi /public/home/student0/software/softhouse/miniconda3/envs/annot/etc/conda/activate.d/perl_env.sh
## 将Repeatmasker的路径加到文件中
export PERL5LIB=/public/home/student0/software/softhouse/bioinfo/RepeatMasker:$PERL5LIB
conda deactivate
conda activate annot   ## 重新加载环境后即可正常使用/util中的程序
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值