计算化学公社

 找回密码 Forget password
 注册 Register
Views: 31123|回复 Reply: 16
打印 Print 上一主题 Last thread 下一主题 Next thread

[超级计算机] 深圳超算、天河一号二号使用体会

[复制链接 Copy URL]

103

帖子

5

威望

1000

eV
积分
1203

Level 4 (黑子)

本帖最后由 sky 于 2016-8-2 10:04 编辑

先来说点题外话,我写这一系列的文章主要有两个目的:
第一,帮助对计算机一无所知的同学少走弯路;
第二,分享一些我觉得能大大提高工作效率的方法、工具;

对于计算机进阶的东西我不写,比如上次有同学问vim怎么配置得跟VS一样。因为这种关于程序猿进阶的资料网上遍地都是,我再写意义不大。对于想进阶的同学,我就推荐三样东西:
1. 知乎;知乎上云集了大量顶级程序猿,经常推荐一些好用的工具,分享心得。
2. github;写代码的同学必备,谁用谁知道。
2. stackoverflow; 传闻成为一个码农只需要两样东西:google+stackoverflow,99%有关写代码的问题都可以在这里找到答案。

这次偷个懒,来写写各大超算中心的体会。

经验:两年前用过半年深圳超算,认识一个用天河一号的组、用过若干次,从去年开始一直使用天河二号。
我有个习惯是每用一个新的超算都要测速,当年我比对过三家超算的速度。但是当时也没想着日后要写文章,就没保存下来,所以就不上具体数据了。

首先说速度,天河二号>天河一号>深圳超算,但是三家超算各有优势。

深圳超算
在14年夏季包了两个节点半年,具体价格忘了,印象中比天河一号便宜。

优点:
1. 深圳超算买了全系列的计算软件,官网上是有MS、gaussian等软件的,但是没有VASP。但当初我老师想让我申深圳的机器来解决vasp的版权问题,不知道是不是没有公开写出来,有兴趣的人可以打电话问问。
2. 深圳每个节点12核,是比较适合用gaussian的。小木虫上有人比对过,8核以上gaussian的并行效率就大幅下降,具体数据可以自己找找,这里就不贴了。

缺点:
1. 管理混乱(注意:我是两年前用的深圳超算,只说那时候的感受,可能跟现在的情况有出入)
举几个例子,我刚开始用深圳超算那会应该是14年的夏季。那时候竟然允许一个节点跑多个任务。比如说我的一个任务占8核,另外一个人的任务占4核,那会自动将我两的任务分配到一个节点。导致当年9月的时候机器故障不断,计算速度也越来越慢,以至于不得不在国庆节停机维护若干天,之后才有所好转。
维护之后,我发现ftp上传文件,不会把win的换行符编程linux的换行符,于是发邮件问客服:
我:为什么ftp上传文件不会自动转换行符了?
客服:你说什么?
我:balabala(详细解释了一遍)
客服:啊,原来是这样,不好意思,我也在学习过程中哈。
我:.....

半年过去了,我掐好时间等着。眼看截至日期要到了却没人通知我该干嘛,于是我打电话过去:
我:老师你好,我们的合同应该在XX号就要结束了,怎么没人通知我转移数据呢?
老师:等我查一查
老师:....
老师:不对呀,你们的合同一个月前就结束了!

这是个忧伤的故事。

天河一号
我只在某个组的时候零碎地用过一段时间。天河一号速度优于深圳超算,至于快多少忘了。

费用:
包两个节点一年1万8左右,按时间收费的话好像是0.2元每(核●小时),一次购买超过100万核●小时以上是0.1元每(核●小时)(按12核一个节点算,一年一个节点大概1万左右)。

优点:
1. 速度快,且每个节点12核,适合gaussian计算。
2. 管理水平优于深圳超算,至少没觉得有什么黑点。

缺点:
1. 软件版权自理
2. 管申请的人夸夸其谈
当年打电话过去问费用的时候,大谈天河一号有多牛逼,说他们超算速度最快(当时天河二号已经在试运行了),国内的课题组都用他们的机器之类的,要挂电话了还非要发我一份申请表,立场不坚定当场就被忽悠了。

另外那个用天河一号的老师说,当年有一段时间排队很艰难,后来新增了一些节点才解决。我个人觉得天河一号差不多人满为患了,今年有新闻在说天河一号“超负载运行”,用过的人可以来说说排队情况。

天河二号
最后当然是要来安利一下我用的天河二号了,我从试运行开始一直用到现在。我应该是最早一批签合同的用户,当时只有按时间收费的方式,价格是0.1元每(核●小时),现在不知道怎么样了。

优点:
1. 速度快,15年初用多个体系测过速(VASP),比天河一号快50%以上,个别体系能比天河一号快一倍多。因为速度优势,所以实际上比天河一号还要便宜。
2. 按时间收费,不限制节点数,不用排队。按时间收费不会限制节点数量,我经常一次提交十多个任务一起跑,曾经用16个节点跑过NEB,相比于包节点的方式省时省心又方便。至于排队方面,去年偶尔有几次排队严重的情况,后来我所在的分区增加了一些机器,就没再排过队。印象中最近半年每天白天时段都剩余六七百节点,完全不用担心排队。总之强烈推荐VASP用户使用。

缺点:
1. 如果用的是gaussian那就不用考虑了。天河二号一个节点24核,并且限制一个节点一个任务,用gaussian显然不划算。除此之外应该再找不到黑点了。

评分 Rate

参与人数
Participants 11
威望 +1 eV +43 收起 理由
Reason
兲选之人 + 3
liuzejiang + 2 好物!
calixs + 1 谢谢
Graphite + 4 赞!
vigaryang + 5 赞!
tianflame + 1 谢谢
helpme + 15
momian + 2 赞!
sobereva + 1
captain + 5 赞!
yflchx + 5 欢迎讨论

查看全部评分 View all ratings

403

帖子

4

威望

2874

eV
积分
3357

Level 5 (御坂)

2#
发表于 Post on 2016-8-2 13:43:27 | 只看该作者 Only view this author
本帖最后由 万里云 于 2016-8-2 13:49 编辑

天河一号没有胖节点(之前有TH-BIG分区现在没了),大的体系只能靠堆核数来解决。

并且一堆搞生物和数学的在登录节点上跑任务,公德心缺失!公德心缺失!公德心缺失!导致登录节点非常卡!非常卡!非常卡!
还闹过一次大新闻,管理员群发邮件让定期更新密码,结果把所有用户的账号和密码当附件发出去了。未加密的excel格式,XX局、XX所、XX动漫工作室之类的全部被看光。

天河一和天河二都用的是魔改版的IntelMPI,某些软件编译起来可能比较麻烦。

评分 Rate

参与人数
Participants 1
eV +2 收起 理由
Reason
sobereva + 2

查看全部评分 View all ratings

92

帖子

0

威望

1768

eV
积分
1860

Level 5 (御坂)

3#
发表于 Post on 2016-8-2 15:43:16 | 只看该作者 Only view this author
1)用过一段时间天河2号,速度的确可以,机器配置也不错。2)深圳超算没用过,它买了全套的MS,这对解决版权问题很有帮助。3)我个人觉得,租超算机器还是不如自己买服务器划算。以0.1元*核每小时来算,24核的一个节点,一年下来2w块;如果一年租两个节点,4w+已经可以买一台36核的服务器了。

评分 Rate

参与人数
Participants 3
eV +7 收起 理由
Reason
元江1994 + 1
yjcmwgk + 5 好物!在可见的未来内,攒机一直是我的唯一.
sobereva + 1

查看全部评分 View all ratings

336

帖子

2

威望

4531

eV
积分
4907

Level 6 (一方通行)

4#
发表于 Post on 2016-8-3 14:30:14 | 只看该作者 Only view this author
万里云 发表于 2016-8-2 13:43
天河一号没有胖节点(之前有TH-BIG分区现在没了),大的体系只能靠堆核数来解决。

并且一堆搞生物和 ...

啥魔改版,好像就是inte编译的mpich

403

帖子

4

威望

2874

eV
积分
3357

Level 5 (御坂)

5#
发表于 Post on 2016-8-4 10:22:04 | 只看该作者 Only view this author
greatzdk 发表于 2016-8-3 14:30
啥魔改版,好像就是inte编译的mpich

编译软件时链接的BLACS是基于intelmpi的,超算中心声称是“自主研发”。

336

帖子

2

威望

4531

eV
积分
4907

Level 6 (一方通行)

6#
发表于 Post on 2016-8-4 10:43:16 | 只看该作者 Only view this author
万里云 发表于 2016-8-4 10:22
编译软件时链接的BLACS是基于intelmpi的,超算中心声称是“自主研发”。

麒麟系统也是自主研发哦

103

帖子

5

威望

1000

eV
积分
1203

Level 4 (黑子)

7#
 楼主 Author| 发表于 Post on 2016-8-5 18:26:13 | 只看该作者 Only view this author
万里云 发表于 2016-8-2 13:43
天河一号没有胖节点(之前有TH-BIG分区现在没了),大的体系只能靠堆核数来解决。

并且一堆搞生物和 ...

我记得登录节点会kill运行超过一分钟的进程吧?
胖节点没用过不清楚,一般搞计算的应该很少用到吧。

403

帖子

4

威望

2874

eV
积分
3357

Level 5 (御坂)

8#
发表于 Post on 2016-8-5 20:35:42 | 只看该作者 Only view this author
sky 发表于 2016-8-5 18:26
我记得登录节点会kill运行超过一分钟的进程吧?
胖节点没用过不清楚,一般搞计算的应该很少用到吧。

不会kill。天河一号一个节点12核24G内存,大体系还是算不起来。

9

帖子

0

威望

570

eV
积分
579

Level 4 (黑子)

9#
发表于 Post on 2016-8-30 15:28:49 | 只看该作者 Only view this author
替换换行符的命令:

dos2unix filename

27

帖子

0

威望

114

eV
积分
142

Level 2 能力者

10#
发表于 Post on 2016-10-31 17:31:43 | 只看该作者 Only view this author
最近老师让自己合理计划买工作站 还是服务器的事情,感觉服务器一片乱,再此感谢楼主分享!顺便请教 天津超算和上海超算如何?价格的话都差不多吧0.1元/(核·小时)

37

帖子

0

威望

1592

eV
积分
1629

Level 5 (御坂)

11#
发表于 Post on 2017-1-10 20:13:16 | 只看该作者 Only view this author
我试过天河2,登陆节点上跑小程序很快就被kill掉了;
而前段时间乃至最近登陆节点依然时不时的卡,据说仍是有人在登陆节点算东西,不知如何实现的。。。
天河2不限制用户同时运行的任务/节点数,几乎无需排队,对于抢时间的人真是福音啊;
有耐心和长期打算的当然自己买机子咯,只不过需要牺牲自己或维护人员不少维护时间,而且2~3年可能更新硬件要投资,电费(公费则忽略)、安装空调也要投入。

评分 Rate

参与人数
Participants 1
eV +1 收起 理由
Reason
sobereva + 1 欢迎讨论

查看全部评分 View all ratings

7

帖子

0

威望

776

eV
积分
783

Level 4 (黑子)

12#
发表于 Post on 2017-2-3 15:40:12 | 只看该作者 Only view this author
强烈推荐天河二号机器,反正我自己跑高斯就没有排过队~白天看看节点空闲还是比较多的,而且软件环境配置也比较健全了,基本的量化软件都有;更重要的是快。
不过对于24核的单节点独占限定对于跑高斯确实有点伤...

29

帖子

0

威望

427

eV
积分
456

Level 3 能力者

13#
发表于 Post on 2017-10-13 20:13:11 | 只看该作者 Only view this author
vegetable 发表于 2017-2-3 15:40
强烈推荐天河二号机器,反正我自己跑高斯就没有排过队~白天看看节点空闲还是比较多的,而且软件环境配置也 ...

能不能介绍一下天河二号的软件使用  小白 刚开始申请天河 还没用过 谢谢

55

帖子

0

威望

778

eV
积分
833

Level 4 (黑子)

14#
发表于 Post on 2018-11-26 21:22:21 | 只看该作者 Only view this author
天河二号的一个节点多少内存啊?

16

帖子

0

威望

342

eV
积分
358

Level 3 能力者

15#
发表于 Post on 2021-11-9 14:25:25 | 只看该作者 Only view this author
有没有用北京超算的哇,天河2真的只要1分/核时吗,为啥北京超算的优惠还要7分啊,超算小白求指点

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:38 , Processed in 0.174361 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list