S**********l 发帖数: 3835 | 1 一个是本来在compute node上run的job,会被kill.
另外一个是上一个job还没有run完,就被下一个job顶上来。(没有wall time 限制)
,为啥?
另外就是qstat时候只能看见自己的job,看不见别的user的。
是安装的时候出错了么? |
k****5 发帖数: 546 | |
r****t 发帖数: 10904 | 3 walltime 总有个默认限制的。你确定没有限制?
新的 TORQUE 默认只显示自己job, 需要 pbs_servee qmgr 改。
【在 S**********l 的大作中提到】 : 一个是本来在compute node上run的job,会被kill. : 另外一个是上一个job还没有run完,就被下一个job顶上来。(没有wall time 限制) : ,为啥? : 另外就是qstat时候只能看见自己的job,看不见别的user的。 : 是安装的时候出错了么?
|
r****t 发帖数: 10904 | 4 中间那个问题在 scheduler, 钱一个没完的时候新 job 运行起来效率高点,因为pbs
有那么个周期
【在 S**********l 的大作中提到】 : 一个是本来在compute node上run的job,会被kill. : 另外一个是上一个job还没有run完,就被下一个job顶上来。(没有wall time 限制) : ,为啥? : 另外就是qstat时候只能看见自己的job,看不见别的user的。 : 是安装的时候出错了么?
|
S**********l 发帖数: 3835 | 5 应该怎么改?谢谢!确定没有walltime限制
pbs
【在 r****t 的大作中提到】 : 中间那个问题在 scheduler, 钱一个没完的时候新 job 运行起来效率高点,因为pbs : 有那么个周期
|
S**********l 发帖数: 3835 | 6 后一个已经改了。前一个没有限制。奇怪。
【在 r****t 的大作中提到】 : walltime 总有个默认限制的。你确定没有限制? : 新的 TORQUE 默认只显示自己job, 需要 pbs_servee qmgr 改。
|
r****t 发帖数: 10904 | 7 莎拉老师,不知道你用啥 scheduler 怎么知道该如何改?
torque 自带的 scheduler 没用过。只用过maui, 不过你总要吧 scheduler log 过一
遍才行吧。
【在 S**********l 的大作中提到】 : 应该怎么改?谢谢!确定没有walltime限制 : : pbs
|
r****t 发帖数: 10904 | 8 如果 queue 没有设 resources_default, server 也没设,看 queue 的 resources_
max, then servers' resources_max, 看来这些都没设,就无限了。
【在 S**********l 的大作中提到】 : 后一个已经改了。前一个没有限制。奇怪。
|
S**********l 发帖数: 3835 | 9 我们用的也是maui,以前没出过问题,这回是system admin装得。log我也看不到。没有root权限。有IPMI,不过他们说不到万不得已我不能用。。。
【在 r****t 的大作中提到】 : 莎拉老师,不知道你用啥 scheduler 怎么知道该如何改? : torque 自带的 scheduler 没用过。只用过maui, 不过你总要吧 scheduler log 过一 : 遍才行吧。
|
r****t 发帖数: 10904 | 10 maui 诊断工具很多,一般应该有权限用下面这些
showq 不用提了
showres
showstart jobid_prematuely_killed
showstart jobid_run_too_early
diagnose -j
diagnose -j
另,如果 pbs 里面配置了节点cpu数虚拟成大于实际 cpu 数,多半会出现前一个没完后一个开始运行的情况。我们这儿 node 都是 vm, 32/64位混杂,各人对 cluster 期望也不一样,所以 pbs/maui 都 patch 过,这两 code 都不复杂,你看看有哪不中意自己改改就行了。
有root权限。有IPMI,不过他们说不到万不得已我不能用。。。
【在 S**********l 的大作中提到】 : 我们用的也是maui,以前没出过问题,这回是system admin装得。log我也看不到。没有root权限。有IPMI,不过他们说不到万不得已我不能用。。。
|