计算化学公社

标题: 在高斯fat01节点上计算出现这种情况怎么办,求助 [打印本页]

作者
Author:
18208408959    时间: 2023-6-29 21:49
标题: 在高斯fat01节点上计算出现这种情况怎么办,求助
在高斯fat01节点上提交几个作业,结果一直卡着不动,这种情况是不是出错停止了呀,并且top命令查看也没有,具体信息已截图,恳请大佬解释一下

作者
Author:
sobereva    时间: 2023-6-30 05:21
卡着和停了是两码事,弄清楚是哪种情况

如果还在算,继续等,前提是当前计算资源算得动当前的任务

如果莫名其妙停了,看

(, 下载次数 Times of downloads: 8)

作者
Author:
18208408959    时间: 2023-6-30 14:45
sobereva 发表于 2023-6-30 05:21
卡着和停了是两码事,弄清楚是哪种情况

如果还在算,继续等,前提是当前计算资源算得动当前的任务

感谢你,还想问一下,在fat01里面top命令怎么把睡眠文件清理掉
作者
Author:
wzkchem5    时间: 2023-6-30 14:56
18208408959 发表于 2023-6-30 07:45
感谢你,还想问一下,在fat01里面top命令怎么把睡眠文件清理掉

没有”睡眠文件“这个说法,换成标准术语、确保没有歧义了,我们再回答
作者
Author:
sobereva    时间: 2023-7-1 07:00
18208408959 发表于 2023-6-30 14:45
感谢你,还想问一下,在fat01里面top命令怎么把睡眠文件清理掉

分清楚进程和文件
top根本没有清理文件的功能
作者
Author:
18208408959    时间: 2023-7-1 14:09
sobereva 发表于 2023-7-1 07:00
分清楚进程和文件
top根本没有清理文件的功能

好的,谢谢,那一般这个睡眠文件怎么处理掉了

作者
Author:
sobereva    时间: 2023-7-2 11:23
18208408959 发表于 2023-7-1 14:09
好的,谢谢,那一般这个睡眠文件怎么处理掉了

别自己瞎造中文词汇
老老实实贴英文
我用电脑30年,从来没听说过什么睡眠文件

作者
Author:
18208408959    时间: 2023-7-2 15:43
sobereva 发表于 2023-7-2 11:23
别自己瞎造中文词汇
老老实实贴英文
我用电脑30年,从来没听说过什么睡眠文件

好的谢谢,还想恳请问一下在fat01里面提交的作业,需要在top命令里面输入什么命令才能在退出Linux后不停止作业进程呢。
作者
Author:
18208408959    时间: 2023-7-2 15:43
wzkchem5 发表于 2023-6-30 14:56
没有”睡眠文件“这个说法,换成标准术语、确保没有歧义了,我们再回答

好的,谢谢。就是还想恳请问一下在fat01里面提交的作业,需要在top命令里面输入什么命令才能在退出Linux后不停止作业进程呢。
作者
Author:
wzkchem5    时间: 2023-7-2 16:06
18208408959 发表于 2023-7-2 08:43
好的,谢谢。就是还想恳请问一下在fat01里面提交的作业,需要在top命令里面输入什么命令才能在退出Linux ...

"fat01"不是化学专业或计算机专业里普适的术语,你们计算机集群上这个节点碰巧叫fat01而已,如果你不给出fat01节点的配置的话,我们不可能知道fat01是一个什么样的节点。如果不知道fat01节点的配置是什么,问你们计算机集群管理员
作者
Author:
18208408959    时间: 2023-7-2 17:15
wzkchem5 发表于 2023-7-2 16:06
"fat01"不是化学专业或计算机专业里普适的术语,你们计算机集群上这个节点碰巧叫fat01而已,如果你不给出 ...

好的,谢谢,我问一下
作者
Author:
18208408959    时间: 2023-7-2 20:00
wzkchem5 发表于 2023-7-2 16:06
"fat01"不是化学专业或计算机专业里普适的术语,你们计算机集群上这个节点碰巧叫fat01而已,如果你不给出 ...

一共28个核
作者
Author:
18208408959    时间: 2023-7-2 20:01
本帖最后由 18208408959 于 2023-7-2 20:03 编辑
wzkchem5 发表于 2023-7-2 16:06
"fat01"不是化学专业或计算机专业里普适的术语,你们计算机集群上这个节点碰巧叫fat01而已,如果你不给出 ...

是不是这样的一些配置

processor       : 0
vendor_id       : GenuineIntel
cpu family      : 6
model           : 79
model name      : Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz
stepping        : 1
microcode       : 0xb000021
cpu MHz         : 2799.937
cache size      : 35840 KB
physical id     : 0
siblings        : 14
core id         : 0
cpu cores       : 14
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 20
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 ds_cpl vmx smx est tm2 ssse3 fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm cqm rdseed adx smap xsaveopt cqm_llc cqm_occup_llc
bogomips        : 4788.84
clflush size    : 64
cache_alignment : 64
address sizes   : 46 bits physical, 48 bits virtual
power management:

processor       : 1
vendor_id       : GenuineIntel
cpu family      : 6
model           : 79
model name      : Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz
stepping        : 1
microcode       : 0xb000021
cpu MHz         : 2799.937
cache size      : 35840 KB
physical id     : 0
siblings        : 14
core id         : 1
cpu cores       : 14
apicid          : 2
initial apicid  : 2
fpu             : yes
fpu_exception   : yes
cpuid level     : 20
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 ds_cpl vmx smx est tm2 ssse3 fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm cqm rdseed adx smap xsaveopt cqm_llc cqm_occup_llc
bogomips        : 4788.84
clflush size    : 64
cache_alignment : 64



作者
Author:
乐平    时间: 2023-7-2 22:50
18208408959 发表于 2023-7-2 15:43
好的,谢谢。就是还想恳请问一下在fat01里面提交的作业,需要在top命令里面输入什么命令才能在退出Linux ...

哎……

请你弄明白这几个问题:
(1)你的计算任务是提交到超级计算机集群(简称超算)里进行计算的,对不对?

(2)在超算里分为登陆节点,计算节点,对不对?(节点可以理解为单独的计算机)

(3)你所谓的 fat01 节点是计算节点,也就是你的 Gaussian 计算任务在 fat01 节点上运算,对不对?

(4)你的第一个帖子里说 “在高斯fat01节点上提交几个作业”。我想跟你确认一下,你在“一个 fat01 节点上”同时提交几个作业? 确认是一个节点同时运行几个作业?

(5)你的第一个帖子里说 “用 top 命令查看”。我想跟你再确认一下,你的 top 命令是在哪个节点上输入的?你登录的节点上输入 top? 还是你 ssh 到 fat01 这个计算节点之后,再输入 top ?

尤其是第五个问题,请你仔细思考一下,登录节点和计算节点弄清楚,确认好了再回答。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3