本帖最后由 wendao 于 2021-10-18 16:05 编辑
本文介绍如何在本地GPU服务器上安装和使用RoseTTAFold和AlphaFold2。
我们的显卡是RTX2080ti,小一些的蛋白跑起来无压力但四五百的就可能会挂,最好有V100,A100显存10G以上多多益善。
如果没有GPU也不要紧,推荐 ColabFold,*墙在谷歌的服务器上免费且快速进行结构预测,还可以进行很多复杂建模,感兴趣可以参考 B站教程。
下面是安装简介,首先要安装GPU驱动和CUDA,官方都推荐cuda11但我们测试cuda10也可以。
RoseTTAFold来自华盛顿大学David Baker(aka. 上帝之手)组,他们在看到alphafold2在CASP14的巨大成功之后,卧薪尝胆、师夷长技,最终在几个月的时间内破壁成功,开源了代表目前学界最高预测精度的结构预测3-track网络,成功整合一维序列(MSA),二维接触图谱,三维结构信息。
克隆代码库: 下载建立MSA用的数据库: BFD: https://bfd.mmseqs.com/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt.tar.gz 下载模板数据库: https://files.ipd.uw.edu/pub/RoseTTAFold/pdb100_2021Mar03.tar.gz 下载预训练参数: 根据github上的说明自动建立conda环境即可,如果需要可能需要手动调整正确的cuda版本 运行这个脚本 (./install_dependencies.sh)安装需要的建库外部程序,不大,很快,如果需要也可以在scripts里的脚本中手动指定这些工具的路径。 最后在example文件夹中有完整pipeline的例子: 结构预测,简单的运行: ../run_[pyrosetta, e2e]_ver.sh input.fa。这里有pyrosetta和端到端两个版本。 复合物建模见 example/complex_modeling/README,先生成配对的msa再进行预测。
AlphaFold2来自谷歌deepmind团队,他们在围棋、游戏对战、蛋白折叠等领域一次次打破传统认知。这次他们更是开源了CASP14夺冠的程序代码,在多数target的结构预测的结果达到惊人的tmscore>90,被认为达到了实验解析的精度。为共享精神点赞。 克隆代码库: 下载建立MSA的数据库: BFD和RoseTTAFold一样,其它几个用scripts文件中的脚本下就行,一两天的样子 建立conda虚拟环境: conda create -n af2 python=3.8 conda activate af2 pip install -r requirements.txt pip install tensorflow-gpu==2.3.0 #cuda101, 2.5.0 for cuda110, 2.0.0 for cuda100 #这里注意cuda版本和实际一致 conda install -c omnia pdbfixer pip install mock
这两个程序运行最耗时的部分其实是msa的生成,但ColabFold提供了一套mmseq2的解决方案,可以不用本地数据库,直接调用网络api,在几分钟内得到和本地搜索类似的msa非常推荐。 除了可以在线colab上运行外,也可以参考 这个repo在本地运行colabfold。
|