ColabFold

ColabFold 为 Sergey Ovchinnikov 等人开发的适用于 Google Colab 的 AlphaFold 版本，使用 MMseqs2 替代 Jackhmmer，且不使用模版。ColaFold 计算迅速，短序列五六分钟即可算完。

注意事项：

运行 ColabFold 作业需要丰富的GPU资源，建议选择通用二区 V100 单卡进行计算。
输入文件名不能有特殊符号和空格。
模板提交一次上传多个序列文件，会启动多个计算节点，每个计算节点对应一个序列文件。
需要注意提交的序列文件格式，详情请看以下示例：

单体结构输入文件示例：

>sequence_1
GSDNGFGSSKATSGSDFGGLAIFDGSGSEHFGHSDTHGSFDGLFGVDFZILSQQLKS

如果是多聚体结构，序列之间用分号隔开，输入文件示例：

>sequence_1
FADGAFGSGSDFSGFHGFGGHSRADGGTGFDGDF:LQFDSAFQLKSKFDOASFJAPOFJDPAISFJPAFJKAPF

一. 模板提交

ColabFold 使用模板提交，会根据上传的输入文件个数，启动对应数量的作业节点。如：上传5个输入文件，硬件配置选择节点数量为1提交作业，默认会启动5个作业节点同时计算，相应的以5个节点的价格进行计费；相比于串行提交，以相同的成本节约了计算的时间。

Step 1. 在应用中心搜索ColabFold软件,点击提交作业-选择模板提交;

Step 2.选择可视化模板提交；

Step 3. 上传序列文件，选择运行模式（单体选择monomer，多聚体选择multimer）；

Step 4. 选择GPU硬件配置虎鲸1卡（v100-1）；

Step 5. 查看作业内容汇总，并提交作业；

Step 6. 通过作业管理查看运行中的作业；

二. 命令行提交

通过SSH连接创建并连接管理节点。

CPU版 ColabFold 作业示例

Step 1. 创建作业目录并进入；

mkdir colabfoldJob1
cd colabfoldJob1

Step 2. 通过文件传输上传所需的输入文件test.fasta，详情请查看Linux数据传输；

Step 3. 在该文件夹下创建如下执行脚本colabfold.sh：

#!/bin/bash
module add ColabFold/1.5.2

#如果是预测单体
colabfold_batch --amber --templates  --num-recycle 3 test.fasta output

#如果是预测多聚体
#colabfold_batch --amber --templates  --num-recycle 3 --model-type alphafold2_multimer_v3 test.fasta output

Step 4. 提交作业；

提交任务到一台16核的CPU节点运行。

sbatch -N 1 -p c-16-2 -n 16 -c 1 colabfold.sh

GPU版 ColabFold 作业示例

Step 1. 创建作业目录并进入；

mkdir colabfoldJob1
cd colabfoldJob1

Step 2. 通过文件传输上传所需的输入文件test.fasta，详情请查看Linux数据传输；

Step 3. 在该文件夹下创建如下执行脚本colabfold.sh：

#!/bin/bash
module add ColabFold/1.5.2

#如果是预测单体
colabfold_batch --amber --templates --use-gpu-relax --num-recycle 3 test.fasta output

#如果是预测多聚体
#colabfold_batch --amber --templates --use-gpu-relax --num-recycle 3 --model-type alphafold2_multimer_v3 test.fasta output

Step 4. 提交作业；

提交任务到带有一张V100卡的GPU节点运行。

sbatch -p g-v100-1 -c 10 colabfold.sh

查看作业运行情况及参数详细介绍请点击查看slurm命令。

结果文件下载请查看Linux数据传输。

ColabFold

一. 模板提交​

二. 命令行提交​

CPU版 ColabFold 作业示例​

GPU版 ColabFold 作业示例​

一. 模板提交

二. 命令行提交

CPU版 ColabFold 作业示例

GPU版 ColabFold 作业示例