f********o 发帖数: 1163 | 1 我要qsub一个job到cluster去run,
qsub的是一个python code
在python code里调用了shell命令,os.popen('command1 >& output1; ps').
readlines()
然后我发现,虽然command1已经在运行了,得到的结果里依然没有command1,也就是说
ps没有探测到这个shell命令。
但返回的结果却有这个python的文件名。比方说temp.py
有人知道怎么破吗?有没有办法能在这个python里查看现在已经调用了几个类似于
command1的命令?
PS. 只要不qsub,这个python就可以运行。ps可以探测到command1. |
|
s*********e 发帖数: 97 | 2 Morning, ladies and gentlemen:-)
would you help me with the problem mentioned above? From the installation package of cygwin I have not found any hints. On the other side, I have finished with ssh & scp (without password) to both side to the other. i.e.:
WINDOWS(CYGWIN) <==> QSUB server(linux) ---> QSUB nodes (linux)
any suggestions are highly appreciated! |
|
l********r 发帖数: 175 | 3 【 以下文字转载自 Linux 讨论区 】
发信人: lilyflower (smile), 信区: Linux
标 题: how to set up parallel system so I could use qsub to submit jobs?
发信站: BBS 未名空间站 (Fri Aug 22 14:36:02 2008)
I have multiple computers installed ubuntu system. How to set up the
computers so that I could use qsub to submit parallel/serial jobs on those
nodes? Thanks a lot. |
|
v*******e 发帖数: 11604 | 4 问你们网管qsub语法。可能是要做一个.sh文件然后qsub那个文件。而且看怎样能够让
submit的东西再同一个目录里面运行。可能是-cwd |
|
w****i 发帖数: 964 | 5 【 以下文字转载自 Programming 讨论区 】
发信人: westxi (huahua), 信区: Programming
标 题: qsub callback question
发信站: BBS 未名空间站 (Tue Jul 22 21:55:54 2008)
Is there a good way to run a callback script after qsub tasks finish? I am
touching flag files and using another script to monitor the flag file to
tell if the task finishes, and run the follow-up jobs. Is there a more
natural way to do that?
Thanks. |
|
m**2 发帖数: 5 | 6 qsub中要申请cpu和内存资源。然后进入等待的队列。并行程序和需要大内存只能通过
qsub提交。
一般小程序是可以直接运行的,但有资源限制,所以超时的话就被自动kill了。
可以查一下你们的manual,应该有具体的说明。 |
|
w****i 发帖数: 964 | 7 Is there a good way to run a callback script after qsub tasks finish? I am
touching flag files and using another script to monitor the flag file to
tell if the task finishes, and run the follow-up jobs. Is there a more
natural way to do that?
Thanks. |
|
b******n 发帖数: 592 | 8 qsub -hold_jid jid newjob
am |
|
w***g 发帖数: 5958 | 9 command1 >& output; ps
应该是command1结束并且成功后再运行ps,所以ps结果里不含command1很正常。
和qsub没有关系。 |
|
d*******2 发帖数: 340 | 10 为什么学校的并行机要求用qsub file, 而把./file放到file.sh里面呢?请问到底有什
么好处?先谢了! |
|
d*******2 发帖数: 340 | 11 我的问题是直接用./file的话可以输出结果,但是程序在一两天之后就停了(可能是负
责IT的人停的)。但是把./file放到file.sh里面再用qsub file就没有数据输出。下面
三个文件都试过了,请问错误在什么地方?
先谢了!
#include
#include
using namespace std;
int main(int argc, char* argv[])
{
ofstream file;
file.open("output");
int k=100;
file << "k:" << k <
file.close();
return 0;
}
#include
#include
using namespace std;
int main()
{
int k=100;
cout << "k:" << k;
}
#include
using namespace std;
int main(int argc, char* a |
|
l******n 发帖数: 9344 | 12 没有明白你的问题
直接运行或者qsub都应该没有问题的,除非是人为的因素 |
|
d*******2 发帖数: 340 | 13 请问是不是直接运行(用nohup ./file &)会影响并行机的速度而被IT负责人强行中止?
而用qsub不会影响并行机的速度?
我用nohup ./file &每天晚上就停止运行了。
先谢了! |
|
|
r****t 发帖数: 10904 | 15 不通过 qsub 的话,scheduler 会发现有 run away processes, 可能自动就给你停了
。 |
|
p*******n 发帖数: 273 | 16 sometimes qsub is quite stupid. |
|
r****t 发帖数: 10904 | 17 why? qsub just submit your job. How could it be stupid or smart? |
|
m**2 发帖数: 5 | 18 用qsub的话是在临时目录下运行,生成的文件也在TMP下。所以要手动把它拷回来。 |
|
g****c 发帖数: 299 | 19 you may need to tell the qsub how much memory your code need. qsub will submit your job to the system have enough available memory. requirement of your code may pass the default limit of qsub setting.
in the qsub script file sth like
#!/bin/bash
#
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
P4_GLOBMEMSIZE=300000000000
MPI_DIR=/opt/mpich/gnu
export P4_GLOBMEMSIZE
had better man qsub in your system. |
|
o********c 发帖数: 1257 | 20 用qsub提交任务,job2 需要等job1成功完成之后才开始。用了如下两行。可是有个问
题,就算job1中间有了问题,被terminate之后,job2还是能后执行。请问有什么办法
可以控制,使得job2只能在job1没有错误的完成之后才能运行?
谢谢。
first=`qsub job1.pbs`
second=`qsub -W depend=afterok:$first job2.pbs` |
|
n******7 发帖数: 12463 | 21 所以我严重怀疑她很多job就是占着茅坑用的。不太可能是因为不会用pbs吧?
登录节点上还老看到她qsub的进程,估计是有些job到时间了,补job用的
我们这里requested memory也有上限,但是不是系统自动控制的
昨天看她超出配额了,图标一个劲闪
我怀疑她就是搞了个脚本
for i in {1..xxx}
do
qsub -I xxxx
done |
|
w****i 发帖数: 964 | 22 请问python里怎么知道程序本占用了多少内存?我的程序比较吃内存,跑着跑着top一
下就发现占了20几G内存,有些很大的string虽然已经del了但是内存并没有释放,请问
应该如何解决?
另外顺便问个qsub的问题,我的数据很大,想分成几百个小文件file001-file200,是
不是就要生成200个script 去qsub,然后再把200个结果合并起来,似乎比较麻烦,有
没有简便一点的方法?
谢谢 |
|
D****r 发帖数: 309 | 23 SAS是什么?
不过一般这种程序在linux cluster(并行)运行的,都可以用qsub排队进queue....
起码你可以自己编个小程序,比如用rsh, 可以监视其进程,license的使用。。。
还有qsub,可以在任务结束后给你发message... |
|
e********r 发帖数: 2352 | 24 一般的Scientific computing的网站,前台HTML+CSS+Javascript,使用者可以上传数
据,服务器端用PHP接受数据,调用Python Code来分析数据,然后把结果返回到客户端。
Q1: 现在的方式是用PHP把接受的数据存到一个文件,然后用exec函数调用Python code
来分析结果,生成一个网页,然后客户端用Javascript在一个新的窗口打开这个网页链
接。请问能否给一个更简洁的架构,如果不考虑使用CGI的话。
Q2: 假设有很多用户同时使用这个网站,或者一个用户打算上传多个数据,这时候需要
调用很多次Python code,如果打算使用Queue去处理多任务,等计算结束后发送E-mail
,通知用户计算结果和相应的网页链接,请问一般需要怎么处理,需要哪些工具。这个
应该在大的商业网站是很常见的问题,现在有一个基本的Idea,就是用qsub把任务交给
服务器,结束后qsub系统可以给用户发送包含链接的E-mail,请问一般商业网站都是怎
么处理这个问题的。
万分感谢! |
|
w***g 发帖数: 5958 | 25 既然计算是python的,上django更方便吧。
这是我用django建的,除了上传数据不对用户开放,别的跟你要做的差不多。
a2genomics.com
我其实也是exec调用,而不是用api。对于科学计算exec要flexible得多。
qsub没有问题。更新状态应该放到qsub脚本里面。
我是用数据库自己建了个job queue,这样任务状态啥的跟django整合得更好。
而且可以定义pipeline,某一步exec成功了自动开始做下一步。
端。
code
mail |
|
|
|
a*******x 发帖数: 47 | 28
把上面的命令放在~/.bashrc里就可以了。
这个可能跟你后台运行的方式有关,为了保险, 你可以写一个简单的脚本:
#!/usr/bin/bash
cd MYDIR
ulimit -s unlimited
./a.out
这样之后你提交该脚本后台运行时就保证了ulimit。注意该脚本必须是可执行的:
$ chmod u+x myscript
提交任务时用
nohup ./myscript
或者
qsub myscript (如果你们的系统用qsub提交后台任务的话,你的脚本里应该规定
一些其他的参数)
应该不会出现segmentation fault.,因为堆栈主要是存放调用参数的。但是公用区
的写法不推荐,我不觉得它会使程序速度改善多少。
可以试试其它的编译器,比如free的intel的fortran95 compiler,
虽然你用的是AMD opteron,不妨试一试。 |
|
t****g 发帖数: 715 | 29 A new problem comes out, when I try to use "qsub" to submit my job. Could
you tell where my mistake might be?
By the way, what is the difference between (R CMD BATCH xxx.R >output&)>&err
and the way of doing "qsub xxx.sh"? They both run in the background.
Below are details:
(1) I have a R script, which is saved in my folder named xxx.R;
(2) I write a .sh file, saved as xxx.sh in my folder;
##################################
#!/bin/sh
R CMD BATCH iv.R
##################################
(3) I s |
|
d******3 发帖数: 1028 | 30 nonono
should be
chickfla
bk
MD
KFC
TacoBell
Wendy
Subway
QSub
INOUT
PIZZAHUT
chipotile
cici |
|
|
s*********4 发帖数: 468 | 32 you let us know next time when you use commands like qsub. I'm particularly
interested in what's behind -u -p. |
|
c*****l 发帖数: 297 | 33 实验室要配置一个这样的机器,老板要去问问版里的高手。如果服务器采购成功,会在
本版招admin.
85 cpus: intel X5650 six core (12 threads)
Memory: 85*12* 8GB (保证每个线程有8GB内存)
请推荐主板 和server RACK
请问硬件大概要多少钱?
这样的话大概是能同时运行1028个
OS : DEBIAN LINUX
Job Scheduler: qsub (free) |
|
a******k 发帖数: 1190 | 34 好象不行啊
btw, 这不是一个在本机运行的任务
而是通过qsub提交到SGE,SGE再调度到cluster某个具体的节点上运行 |
|
a******k 发帖数: 1190 | 35 找到了,可以使用qsub的-v option传递变量到script
谢谢回复! |
|
b****t 发帖数: 114 | 36 Hi All,
I did a quick search, but no luck.
Say, I use qsub to submit multiple jobs to run on a cluster. Each job on a
computing node will generate a folder and copy a file to this folder. That
means its possible that multiple computing nodes will copy the same file to
different folders. (notice that all the folders on a shared file system.)
Do you think that would be problematic? I believe, occasionally, there was
crashes that the copied file was corrupted and became empty. If the problem
is bec... 阅读全帖 |
|
c*****l 发帖数: 297 | 37 实验室要配置一个这样的机器,老板要去问问版里的高手。如果服务器采购成功,会在
本版招admin.
128 cpus: intel X5650 six core (12 threads)
Memory: 128*12* 8GB (保证每个线程有8GB内存)
请推荐主板 和server RACK
请问硬件大概要多少钱?
这样的话大概是能同时运行1028个
OS : DEBIAN LINUX
Job Scheduler: qsub (free) |
|
s******s 发帖数: 13035 | 38 类似于qsub,不过不是一个cluster,而是一台机子内部submit job,比如我有1000个
job,打算让机子同时运行10个,完成一个就开始一个新的。有啥简单的tool,或者
bash script的模版么? |
|
s******s 发帖数: 13035 | 39 类似于qsub,不过不是一个cluster,而是一台机子内部submit job,比如我有1000个
job,打算让机子同时运行10个,完成一个就开始一个新的。有啥简单的tool,或者
bash script的模版么? |
|
n***a 发帖数: 1373 | 40 I have a C code wich is running totally fine at my local linux marchine.
But if I qsub it to PBS to run, PBS will terminate the program for "
Segmentation fault".
What could be the problem for that? |
|
P*****f 发帖数: 2272 | 41 I assume you are working under a cluster production environment. Probably
there are some environment seting different from the testing node. If you
are running parallel program, you better use something like totalview to
debug it. But still hard to figure it out. I will suggest you login to the
remote machine when your job get scheduled, then runit as in a local machine
. That will be easier to debug
I have a C code wich is running totally fine at my local linux marchine.
But if I qsub it to PB |
|
k****f 发帖数: 3794 | 42 用valgrind看看有没有内存错误
把所有的valgrind找到的错误修改好,再去qsub |
|
n*e 发帖数: 50 | 43 头一个问题不知道,python memory leak估计需要高手来解决。
第二个我们这里的cluster的人跟我说过你分成200个小文件是最容易的办法,比起自己
写并行算法要容易。你可以写个python script去qsub吧? |
|
r****t 发帖数: 10904 | 44 for i in range(200):
....os.system("qsub -l ...")
我已经 give up on pbs 了,这种问题现在用 IPython1 来做,如果输出的结果数据不是很大的话
....out = client.map(func, [file001, file002,... file200])
就行了。
如果输出数据太大,觉得这种事最好用 hadoop 来做,还没用过。 |
|
r****t 发帖数: 10904 | 45 not any that I know of. PBS is a resource management system, you need to use
a scheduler on it, or anything that's smarter to do it for you. |
|
v****s 发帖数: 1112 | 46 oh man, can't believe u r using a single machine to compute this!!! we
usually qsub to our supercomputer with 512 nodes.
ru using LAPACK? try some sampling tek to reduce it. |
|
t**********y 发帖数: 374 | 47 -R yes
-r yes
看manual没看懂. 求解释. 多谢了!! |
|
d****n 发帖数: 1637 | 48 The -r option allows users to control whether the submitted job will be
rerun if the controlling batch node fails during execution of the
batch
job. The -r option likewise allows users to indicate whether or not
the
batch job is eligible to be rerun by the qrerun utility. Some jobs
can-
not be correctly rerun because of changes they make in the state
of
databases or other aspects of their environment. This volume
of
IEEE Std 1003.1-2001 speci... 阅读全帖 |
|
t**********y 发帖数: 374 | 49 非常感谢回复!
为什么我在SGE manual page 上找不到qresun?这是一个命令吗?
这个rerun是 rerun 原来的 task ID?
volume |
|
d****n 发帖数: 1637 | 50 单独建立一个micro service 处理qsub
用rabbit mq收集用户数据,队列到上面那个micro service
返回结果或者错误存如前端数据库,php,javascript 或者python都轻松搞定
不过建议用一种语言 |
|