文章目录
1、背景
RepeatMasker 是一个广泛使用的生物信息学工具,用于识别和屏蔽(mask)基因组序列中的 重复序列(repeats) 。在使用过程中需要调用重复序列数据库(Repbase 和 Dfam),如果使用Conda安装的话会出现许多问题,因此推荐手动安装。在此记录我手动安装RepeatMasker的流程,希望对各位同学有所帮助。安装流程主要参考官网。
2、安装依赖
2.1 基于Conda
创建Conda环境并安装依赖软件
conda create -n annot python=3.9 perl=5.32.1 gcc=13.3.0
conda install -c conda-forge h5py
conda install rmblast hmmer=3.2.1
2.2 TRF
我看有的其它博客(RepeatMasker安装和使用经验(自用))是直接安装的;但是我在实际安装时,conda安装的TRF会导致报错,因此我选择手动安装。嫌麻烦也可以使用Conda安装并在Repeatmasker交互安装过程中手动指定TRF路径试一试,不行再考虑手动安装。
TRF需要automake(1.16以上)依赖
wget https://ftp.gnu.org/gnu/automake/automake-1.16.5.tar.gz
tar -zxf automake-1.16.5.tar.gz
cd automake-1.16.5
## 一般情况不需要(我用的服务器系统有点老且没人维护),有权限可以尝试。
sudo yum groupinstall "Development Tools" -y
sudo yum install autoconf libtool perl m4 wget -y
mkdir build
./configure --prefix=/public/home/student0/software/softhouse/base/automake-1.16.5/build
make
make install
cd apps/
## 使用find快速将软件链接到目标文件夹
find /public/home/student0/software/softhouse/base/automake-1.16.5/build/bin -maxdepth 1 -type f -perm /u=x -exec ln -s {} ./ \;
安装TRF
git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF
mkdir build && cd build
../configure
make
## 可以不install,直接使用src文件夹中的软件即可
ln -s /public/home/student0/software/softhouse/bioinfo/TRF/build/src/trf ./
3、下载依赖数据库
需要注意的是:Repeatmasker依赖两个重复序列数据库,需要提前下载到服务器:
- ① Repbase:是一个收费数据库,现在官网已经无法免费下载了;这个数据库较小,但却是必需的,需要自己找资源(有需要留言,直接给链接到这里不大好)。
- ②Dfam:较新的一个免费重复序列数据库,可以直接通过下载链接下载到服务器。数据集很大,全部解压缩的话占储存 917G(2025.3.2),根据自身需求选择需要的重复序列数据集。可以查看下载地址中的README.txt了解每个数据集对应哪些生物门类。
以下是我批量下载的简单方法,供参考:
1、下载
for i in $(seq 0 16)
do
echo "Downloading dfam39_full.${i}.h5.gz"
wget -c https://www.dfam.org/releases/current/families/FamDB/dfam39_full.${i}.h5.gz
wget -c https://www.dfam.org/releases/current/families/FamDB/dfam39_full.${i}.h5.gz.md5
done
2、检验完整性(一定要做,出错可能导致分析结果不准确)
md5sum -c Dfam*.hmm.gz.md5
3、解压缩
gunzip *.gz ## 不会保留原始gz文件
## 保留原始.gz文件
for file in *.gz; do
gunzip -c "$file" > "${file%.gz}"
done
全流程代码(建议先保留.gz文件,确认流程没问题再删除)
## 基于wget的bash文件
#!/bin/bash
for i in $(seq 0 16)
do
echo "Downloading dfam39_full.${i}.h5.gz"
wget -c https://www.dfam.org/releases/current/families/FamDB/dfam39_full.${i}.h5.gz
wget -c https://www.dfam.org/releases/current/families/FamDB/dfam39_full.${i}.h5.gz.md5
md5sum -c dfam39_full.${i}.h5.gz.md5
gunzip -c dfam39_full.${i}.h5.gz > dfam39_full.${i}.h5
echo "dfam39_full.${i} has done."
done
4、安装Repeatmasker
Repeatmasker的安装是交互式的,自由度很高,根据需求进行相关设置;推荐参考github的INSTALL文件和官网,在下载的软件文件夹中也有INSTALL文件。
首先下载RepeatMasker软件包
wget https://www.repeatmasker.org/RepeatMasker/RepeatMasker-4.1.8.tar.gz
tar -zxf RepeatMasker-4.1.8.tar.gz
4.1 配置 RepBase 数据库
将RepBase数据库放到RepeatMasker的主文件夹并解压缩,数据库会自动分配到对应子目录;一定不要到Libraries文件夹解压缩。以下代码来自官网,根据情况自行更改
cp RepBaseRepeatMaskerEdition-20181026.tar.gz /usr/local/RepeatMasker/
cd /usr/local/RepeatMasker
gunzip RepBaseRepeatMaskerEdition-20181026.tar.gz
tar xvf RepBaseRepeatMaskerEdition-20181026.tar
rm RepBaseRepeatMaskerEdition-20181026.tar
4.2 配置 dfam 数据库
将提前下载的dfam数据库(我这里将所有数据库合成一个压缩包)移到RepeatMasker/Libraries/famdb 文件夹。
cp ~/db/dfam/dfam_2025.3.20.tar.gz
/public/home/student0/software/softhouse/bioinfo/RepeatMasker/Libraries/famdb
tar -zxf dfam_2025.3.20.tar.gz
4.3 交互式安装
配置好数据库后即可正式安装。
cd /public/home/student0/software/softhouse/bioinfo/RepeatMasker
perl ./configure
会出现交互式安装界面。例如,设置搜索引擎的交互界面如下,根据需求设置:
选择对应数字并回车后便进入路径选择界面,能识别到的软件路径会显示在前面,复制即可:
每次加入新的搜索引擎都会询问是否设置为默认:
检验是否成功安装并加到环境变量
cd /public/home/student0/software/softhouse/bioinfo/RepeatMasker
./RepeatMasker -h ## 是否成功弹出帮助信息
cd /public/home/student0/software/apps
find /public/home/student0/software/softhouse/bioinfo/RepeatMasker -maxdepth 1 -type f -perm /u=x -exec ln -s {} ./ \;
补充
1、添加Repeatmasker的perl 模块加入环境中,否则util/目录下的perl程序无法正常运行,以下是我添加环境的例子,请根据实际情况进行修改:
conda info --envs ## 找到环境对应的路径
vi /public/home/student0/software/softhouse/miniconda3/envs/annot/etc/conda/activate.d/perl_env.sh
## 将Repeatmasker的路径加到文件中
export PERL5LIB=/public/home/student0/software/softhouse/bioinfo/RepeatMasker:$PERL5LIB
conda deactivate
conda activate annot ## 重新加载环境后即可正常使用/util中的程序